技术文章 - IT学院

03

11月

人工智能

Machine Learning Technologies（10月20日）

Linear regression SVM（support vector machines） Advantages： ·Effective in high dimensional spaces. ·Still effective in

03

11月

人工智能

为什么要做特征归一化/标准化？

目录写在前面常用feature scaling方法计算方式上对比分析 feature scaling 需要还是不需要什么时候需要feature scaling？什么时候不需要Feat

03

11月

算法与数据结构

数据结构之树篇2——二叉排序（查找，搜索）树

二叉排序树引入基本性质：二叉排序树（又叫二叉搜索、查找树) 若左子树不空，则左子树上所有结点的值均小于它的根结点的值；若右子树不空，则右子树上所有结点的值均大于它的根结点的值；左、右子树也分别为二叉排序树。不允许有键值相同结点。二分查找与二叉排序树二分查找也称为折半查找

04

11月

人工智能

cobbler无人值守

一、背景介绍作为运维，在公司经常遇到一些机械性重复工作要做，例如：为新机器装系统，一台两台机器装系统，可以用光盘、U盘等介质安装，1小时也完成了，但是如果有成百台的服务器还要用光盘、U盘去安装，就显得有些力不从心了。PXE技术就能很好的解决这个问题，本文将会对PXE的工作原理有所介绍

04

11月

算法与数据结构

数据结构-字符串的统计相关操作

统计字符串的相关操作统计字符出现次数 /*统计串S中字符的种类和个数*/ #include<cstring> #include<iostream> using namespace std; #define OK 1 #define ERROR 0 #defi

05

11月

人工智能

AI-数据标注

算力和数据是影响深度学习的两个关键因素。在算力满足的情况下，为了达到更好的效果，我们就需要提供海量优质素材数据给神经网络，以求训练出来高精度的网络模型。在平时的测试过程中，也发现基于深度学习的算法，素材的数量、素材的均衡度和标注的质量对训练出来的模型精度影响非常大。常见的

05

11月

人工智能

最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】

“最近刚好在用ERNIE写毕业论文” “感觉还挺厉害的” “为什么叫ERNIE啊，这名字有什么深意吗？” “我想让艾尼帮我写作业” 看了上面火热的讨论，你一定很好奇“艾尼”、“ERNIE”到底是个啥？自然语言处理(

05

11月

人工智能

Linear regression with one variable - Cost function

摘要: 本文是吴恩达 (Andrew Ng)老师《机器学习》课程，第二章《单变量线性回归》中第7课时《代价函数》的视频原文字幕。为本人在视频学习过程中逐字逐句记录下来以便日后查阅使用。现分享给大家。如有错误，欢迎大家批评指正，在此表示诚挚地感谢！同时希望对大家的学习能有所帮助。

05

11月

人工智能

Introduction - Unsupervised Learning

摘要: 本文是吴恩达 (Andrew Ng)老师《机器学习》课程，第一章《绪论：初识机器学习》中第4课时《无监督学习》的视频原文字幕。为本人在视频学习过程中逐字逐句记录下来以便日后查阅使用。现分享给大家。如有错误，欢迎大家批评指正，在此表示诚挚地感谢！同时希望对大家的学习能有所帮助。

05

11月

人工智能

Introduction - What is machine learning

摘要: 本文是吴恩达 (Andrew Ng)老师《机器学习》课程，第一章《绪论：初识机器学习》中第2课时《什么是机器学习？》的视频原文字幕。为本人在视频学习过程中逐字逐句记录下来以便日后查阅使用。现分享给大家。如有错误，欢迎大家批评指正，在此表示诚挚地感谢！同时希望对大家的学习能有所帮助。

05

11月

人工智能

机器学习回顾篇（9）：K-means聚类算法

]]>]]>]]>]]> 注：本系列所有博客将持续更新并发布在github和gitee上，您可以通过github、gitee下载本系列所有文章笔记文件。 1 聚类¶ 本文我们来总结K-means算法。与之前介绍过的诸多分类算法不同，K-mea

05

11月

算法与数据结构

leetcode-2-重复的DNA序列

所有 DNA 都由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列（子串）。示例：输入：s = "AAA

06

11月

人工智能

Kaldi安装

Kaldi是基于C++开发并遵守Apache License v2.0的一款语音识别工具包，是目前最流行的ASR工具之一，本文基于Ubuntu 18.04 LTS介绍了如何安装Kaldi。首先按照官网提示，将Kaldi项目克隆至本地: ~$ git clone https://gith

06

11月

人工智能

基于Keras搭建MLP

Keras是一套基于Tensorflow、Theano及CNTK后端的高层神经网络API，可以非常友好地支持快速实验，本文从零开始介绍了如何使用Keras搭建MLP并给出两个示例。基于Ubuntu安装Keras 具体安装过程在官方中英文文档中有详细说明中文 https://keras

06

11月

人工智能

中文预训练模型ERNIE2.0模型下载及安装

2019年7月，百度ERNIE再升级，发布持续学习的语义理解框架ERNIE 2.0，及基于此框架的ERNIE 2.0预训练模型, 它利用百度海量数据和飞桨（PaddlePaddle）多机多卡高效训练优势，通过深度神经网络与多任务学习等技术，持续学习海量数据和知识。基于该框架的艾尼（ERNI

06

11月

人工智能

Google Colab——零成本玩转深度学习

前言最近在学深度学习HyperLPR项目时，由于一直没有比较合适的设备训练深度学习的模型，所以在网上想找到提供模型训练，经过一段时间的搜索，最终发现了一个谷歌的产品--Google Colaboratory。它几乎可以实现零成本玩转深度学习，达到快速训练模型的目的。

06

11月

人工智能

AB实验的高端玩法系列3 - AB组不随机？观测试验？Propensity Score

背景都说随机是AB实验的核心，为什么随机这么重要呢？有人说因为随机所以AB组整体不存在差异，这样才能准确估计实验效果（ATE） [ ATE = E(Y_t(1) - Y_c(0)) ] 那究竟随机是如何定义的呢？根据Rubin Causal Model，想要让上述估计无偏，随机实验需

06

11月

算法与数据结构

WAV文件读取

WAV是一种以RIFF为基础的无压缩音频编码格式，该格式以Header、Format Chunk及Data Chunk三部分构成。本文简要解析了各部分的构成要素，概述了如何使用C++对文件头进行解析以及提取音频数据。上图展示了WAV文件格式，包括每一field的大小与端序 Heade

07

11月

人工智能

AI-数据标注类型

随着数据的暴增和计算机硬件技术的发展，也催生了AI技术在各行各业的应用渗透。而想将AI技术应用到各行各业，数据是必需品。因为数据直接影响到AI最终训练出来的模型好坏。AI建模没有太大门槛，但数据才是真正的门槛。因此，目前业界流传着一段话有多少人工智能，就有多少人工。前一篇讲述了数据

07

11月

人工智能

conda安装的国内镜像配置，实现快速下载

conda安装的国内镜像配置，实现快速下载 anaconda的所有的软件包全部在国外，安装起来很麻烦，关键是下载速度慢，而且经常中断，所以需要配置国内安装的镜像，下载速度就很快了。一、conda换国内源 1.1 查看源命令 conda config --show-source