【机器学习基础】交叉熵（cross entropy）损失函数是凸函数吗？

2238 0 0

作者:wuliytTaotao

之所以会有这个问题，是因为在学习 logistic regression 时，《统计机器学习》一书说它的负对数似然函数是凸函数，而 logistic regression 的负对数似然函数（negative log likelihood）和交叉熵函数（cross entropy）具有一样的形式。

先给出结论，logistic regression 时，cross entropy 是凸的，但多层神经网络时，cross entropy 不是凸的。

[-y log hat{y}-(1-y) log (1-hat{y})]

简单点的解释是，logistic regression 时，证明两个凸函数相加还是凸函数，因为 (y) 不是 0 就是 1，那就要证明此时 (- log hat{y}) 和 (- log (1-hat{y})) 关于 (w) 都是凸函数，也就是证明 Hessian 矩阵半正定。证明看上述链接。

而 MLP 时，给出直观解释是，在神经网络的某一隐藏层交换两个神经元的权重，最后输出层得到的值不会变，这就说明如果有一个最优解，那交换神经元权重后，解仍然是最优的，那么此时就存在两个最优解了，那就不是凸函数了。

在令 cross entropy 一阶导数为 0 时，就会发现无法将权重 (w) 提到等式左边，即无法写成 (w = 式子) 这种形式，所以虽然有等式约束，但直接求解析解还是挺困难。所以梯度下降法、牛顿法、拟牛顿法常用来求解 logistic regression。

内容来源于网络如有侵权请私信删除

文章来源: 博客园

标签： AI 人工智能

你还没有登录，请先登录或注册！