标签:AI
帕累托分析,即贡献度分析,在所有因素中找寻对结果起关键性或决定性作用的少部分因素。 有一常见的法则————二八定律,各行各业都在诠释着该法则的深刻含义: 例如: 1 公司的80%利润来自于20%的畅销产品,而其他80%的产品只产生了20%的利润; 2 世界上大约80%的资源是由世界上20%
Netflix或Amazon Prime推送您喜欢看的电影,这背后的逻辑你不觉得惊讶吗?或者,你不好奇是什么让Google地图可以预测您所行驶的路线上的路况? 我们都知道机器学习是如何使用算法和统计模型来执行任务并提出完美的解决方案。同样,这种方法可以检测癌症,并有助于检测Facebook
1. BERT 语义相似度 BERT的全称是Bidirectional Encoder Representation from Transformers,是Google2018年提出的预训练模型,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的
作者:Great Learning Team 神经网络 什么是反向传播? 反向传播是如何工作的? 损失函数 为什么我们需要反向传播? 前馈网络 反向传播的类型 案例研究 在典型的编程中,我们输入数据,执行处理逻辑并接收输出。 如果输出数据可以某种方式影响处理逻辑怎么办? 那就是反向传播算
背景: 当前的热门算法中,除了神经网络在图像和文字、音频等领域大放异彩之外,集成学习中的xgboost,lightGBM,CatBoost也在kaggle等机器学习平台上成为了炙手可热的工具。   明确概念: 1、Boosting(提升) 2、Adaptive Boosting(自适应增强
CTR学习笔记系列的第一篇,总结在深度模型称王之前经典LR,FM, FFM模型,这些经典模型后续也作为组件用于各个深度模型。模型分别用自定义Keras Layer和estimator来实现,哈哈一个是旧爱一个是新欢。特征工程依赖feature_column实现,这里做的比较简单在后面的深度
初始神经网络 这里要解决的问题是,将手写数字的灰度图像(28 像素 x28 像素)划分到 10 个类别中(0~9)。我们将使用 MINST 数据集,它是机器学习领域的一个经典数据集,其历史几乎和这个领域一样长,而且已被人们深入研究。这个数据集包含 60000 张训练图像和 10000 张测
背景:一直想要梳理一下自己对广义线性模型的认识及思考,所有就有了这篇随笔。 前提: 1、首先明确,介绍模型会按照模型的三要素来展开,即模型(模型的参数空间),策略(如何选择最优模型,一般指代价函数/损失函数),算法(模型学习参数的方法,包括最优化方法等) 2、因为介绍的模型都是线性模型及其
这一节主要讲了一些适用于大规模机器学习的算法及策略,并比较了梯度下降、随机梯度下降和小批量梯度下降的优劣。目前来说,大规模机器学习中用的最多的还是小批量梯度下降,毕竟它在执行效率和性能之间达到了一个平衡。当然,对于小批量梯度下降来说,如何选择合适的批量大小又是一个值得深思的问题。 梯度下降
第一个机器学习算法:线性回归与梯度下降 符号解释 (x^{(i)}),(y^{(i)}):某个训练样本 (m):样本总数量 (h_{theta}):假设函数 Linear regression(线性回归) 如何获得一个线性回归模型? 将训练数据放入学习算法,算法通过计算得到一个假设函数。
线性代数基础知识的复习 机器学习需要一些线性代数的基础知识。 matrix:矩阵 [ A= begin{bmatrix} 1402 & 191\ 1371 & 821\ 949 & 1437\ 147&1448\ end{bmatrix} ] [ B= be
神经元中不添加偏置项可以吗?答案是,不可以每个人都知道神经网络中的偏置(bias)是什么,而且从人类实现第一个感知器开始,每个人都知道神经元需要添加偏置项。但你是否考虑过我们为什么要使用偏置项呢?就我而言,直到不久前我才弄清楚这个问题。当时我和一个本科生讨论了一些神经网络模型,但不知何故她
预训练模型的梳理总结 摘要 本报告将从以下几个方面梳理预训练模型,陈述预训练(特指nlp领域)的what和how,总结预训练加微调模式的好处和弊端。通过时间线的方式梳理最近两年来预训练模型的发展脉络,重点阐述几个典型的预训练模型的做法和创新点。 chap1:预训练模型 预训练模
在深度学习中,使用归一化层成为了很多网络的标配。最近,研究了不同的归一化层,如BN,GN和FRN。接下来,介绍一下这三种归一化算法。 BN层 BN层是由谷歌提出的,其相关论文为《Batch Normalization: Accelerating Deep Network Training