这一节我们总结FM三兄弟FNN/PNN/DeepFM,由远及近,从最初把FM得到的隐向量和权重作为神经网络输入的FNN,到把向量内/外积从预训练直接迁移到神经网络中的PNN,再到参考wide&Deep框架把人工特征交互替换成FM的DeepFM,我们终于来到了2017年。。。
FNN
代码仓库: https://github.com/brandonlyg/cute-dl
目标
增加交叉熵损失函数,使框架能够支持分类任务的模型。
构建一个MLP模型, 在mnist数据集上执行分类任务准确率达到91%。
实现交叉熵损失函数
数学原理
分解交叉熵损失函数
交叉
机器学习的本质就是计算机从数据中学习知识,这一过程与人学习的过程十分相似,也正因此机器学习可以有效地帮助人们解决问题。
人的知识是怎么来呢?埃斯库罗斯说:“ 记忆是一切智慧之母”(《被缚的普罗米修斯》)。的确,没有记忆就没有智慧,我们所拥有的知识,大部分都是靠记忆得来的。所以学习的过程注
半监督学习(Semi-Supervised Learning,SSL)的 SOTA 一次次被 Google 刷新,从 MixMatch 开始,到同期的 UDA、ReMixMatch,再到 2020 年的 FixMatch。
目录Consistency RegularizationEntro
不知道大家跟我一样嘛,不太喜欢在github阅读md文件,图片加载不出来,黑白排版,重要的是作者公式也没了,惨不忍睹。
强烈推荐md阅读利器:Typora-Markdown:https://typora.io/
免费且对于数学公式显示支持友好。
设置调节: 文件->偏好设置
Mark
老孟导读:前几天一个读者和我说能不能整理一个各个控件之间的继承关系,这2天抽时间整理了一下,不整理不知道,一整理真的吓一跳啊,仅仅Widget的子类(包括间接子类)就高达353个,今天发群里给大家浏览的时候,有人说:“看见这个,会让初学者从入门到放弃的“,其实不必担心,虽然很多,但常用
「(1) 0-1 loss」
记录分类错误的次数。
「(2)Hinge Loss」
最常用在SVM中「最大优化间隔分类」中,对可能的输出t=±1和分类器分数y,预测值y的hinge loss定义如下:
L(y)=max(0.1-t*y)
「(3)Log Loss对数损失」
对于「对数函数」
代码仓库: https://github.com/brandonlyg/cute-dl
目标
为Session类增加自动分批训练模型的功能, 使框架更好用。
新增缓解过拟合的算法: L2正则化, 随机丢弃。
实现自动分批训练
设计方案
增加Dataset类负责管理数据集, 自动对数据分批。
常用梯度下降法与优化器
机器学习中大部分为优化问题,而绝大部分优化问题都可以使用「梯度下降法」处理。
梯度下降法的数学原理是函数沿着梯度方向具有「最大变化率」,那么在优化目标函数时沿着负梯度方向去减少函数值,以此达到优化目标。
通过迭代的方式寻找「最优参数」,最优参数是指是目标函数达到最小
目标检测是一种计算机视觉技术,用于识别和定位图像中的目标。有很多检测算法存在,这里有一个很好的总结。
Mask R-CNN是目标检测的扩展,它为图像中检测到的每个目标生成边界框和分割掩模。这篇文章是关于使用Mask R-CNN训练自定义数据集的指南,希望它能帮助你们中的一些人简化这个过程
目录Node EmbeddingRandom Walknode2vecTransEEmbedding Entire GraphAnonymous WalkReference
转自本人:https://blog.csdn.net/New2World/article/details/10553
Deep Dream是谷歌公司在2015年公布的一项有趣的技术。在训练好的卷积神经网络中,只需要设定几个参数,就可以通过这项技术生成一张图像。
本文章的代码和图片都放在我的github上,想实现本文代码的同学建议大家可以先把代码Download下来,再参考本文的解释,理解
偏差度量了学习算法的期望与真实结果的偏差,刻画了算法本身的「拟合能力」,方差度量了同样大小的训练集的变动所导致的学习性能的变化。
偏差与方差偏差用于描述模型的拟合能力,方差用来描述模型的稳定性。
当训练度不足的时候,偏差主导模型的泛化误差;
当训练进入后期,模型的拟合能力增强,方差主导模型
在本篇博文当中,笔者采用了卷积神经网络来对手写数字进行识别,采用的神经网络的结构是:输入图片——卷积层——池化层——卷积层——池化层——卷积层——池化层——Flatten层——全连接层(64个神经元)——全连接层(500个神经元)——softmax函数,最后得到分类的结果。Flatten层
视频学习笔记
(1)概率论与贝叶斯先验
视频地址:https://www.bilibili.com/video/BV1Tb411H7uC?p=2
概率论基础
统计量
(2)概率论与贝叶斯先验
视频地址:https://www.bilibili.com/vide
三种非线性激活函数sigmoid、tanh、ReLU。
sigmoid: y = 1/(1 + e-x)
tanh: y = (ex - e-x)/(ex + e-x)
ReLU:y = max(0, x)
在隐藏层,tanh函数要优于sigmoid函数,可以看作是sigmo
在训练卷积神经网络模型时,经常遇到max pooling 和 average pooling,近些年的图像分类模型多数采用了max pooling,为什么都是使用max pooling,它的优势在哪呢?
一般情况下,max pooling的效果更好,虽然 max pooling
数据集网站收集(持续更新)
1.Kaggle: https://www.kaggle.com/
可以按关键字搜索数据集
自带讨论区
有热心群众分享自己的Kernel,可供参考(热心群众们自己对数据的分析代码)
2.天池: https://tianchi.aliyun.com/competi
(for pursue, do accumulation)
个人笔记,纯属佛系分享,如有错误,万望赐教。
马尔可夫决策过程(Markov Decision Processes, MDPs)是一种对序列决策问题的解决工具,在这种问题中,决策者以序列方式与环境交互。
1. “智能体-环境”
首先引用下网上的解释:
For a grayscale image, every pixel in the mean image is computed from the average of all corresponding pixels (i.e. same coordina