1. softmax回归是分类问题

  回归(Regression)是用于预测某个值为“多少”的问题,如房屋的价格、患者住院的天数等。

  分类(Classification)不是问“多少”,而是问“哪一个”,用于预测某个事物属于哪个类别,如该电子邮件是否是垃圾邮件、该图像是猫还是狗、该用户接下来最有可能看哪部电影等。

  分类问题也有些许差别:(1)我们只对样本的硬性类别感兴趣,即属于哪个类别;(2)我们希望得到软性类别,即每个类别的概率是多少。这两者的界限往往很模糊,我们通常使用软性类别的模型来进行硬性分类。这也是softmax模型的原理。

 

2. 如何表示分类问题——独热编码(one-hot encoding)

  我们需要在分类问题中表示类别(标签)。最直接的想法是选择 $yin left{1,2,3 right}$ ,其中的整数分别代表每个类别,如果类别之间有一些自然顺序,比如 $left{text{婴儿},text{儿童},text{青少年},text{年青人},text{中年人},text{老年人}right}$ ,那么将这个问题转变为回归问题并保留这种格式是有意义的。

  但是,一般的分类问题并不与类别之间的自然顺序有关。对此,我们使用一种简单的表示方法:独热编码(one-hot encoding)。独热编码是一个向量,它的分量和类别数目一样多,类别对应的分类设置为 $1$ ,其他所有分量设置为 $0$ 。

  例如,一个图像分类问题,输入图像是一个 $2times 2$ 的灰度图像,可以用一个标量表示每个像素值,每个图像对应四个特征 $x_{1},x_{2},x_{3},x_{4}$ 。输入图像被分类为“猫”、“狗”、“鸡”,那么标签 $y$ 就是一个三维向量,其中 $left(1,0,0right)$ 对应于“猫”, $left(0,1,0right)$ 对应于“狗”,$left(0,0,1right)$ 对应于“鸡”:

$$yinleft{left(1,0,0right),left(0,1,0right),left(0,0,1right)right}$$

 

3. 网络结构

  为了获得所有可能类别的概率,我们需要一个多输出的模型,每个类别对应一个输出。为了实现线性模型的分类,我们需要和输出一样多的仿射函数,每个输出对应于自己的仿射函数。

  在我们提出的例子中,由于我们有 $4$ 个特征和 $3$ 个可能的输出类别,我们将需要 $12$ 个标量来表示权重( $w$ ), $3$ 个标量来表示偏置( $b$ )。下面根据输入特征来计算三个预测:$o_{1},o_{2},o_{3}$  。

$$o_{1} = w_{11}x_{1} + w_{12}x_{2} + w_{13}x_{3} + w_{14}x_{4} + b_{1}$$

$$o_{2} = w_{21}x_{1} + w_{22}x_{2} + w_{23}x_{3} + w_{24}x_{4} + b_{2}$$

$$o_{3} = w_{31}x_{1} + w_{32}x_{2} + w_{33}x_{3} + w_{34}x_{4} + b_{3}$$

  由于计算每个输出 $o_{1},o_{2},o_{3}$ 取决于输入的 $x_{1},x_{2},x_{3},x_{4}$ ,所以softmax回归的输出层也是全连接层。

  我们使用线性代数符号简洁地表达模型,模型的向量形式为:

$$textbf o = textbf W textbf x + textbf b$$

  其中, $textbf o in mathbb R^{3}$ , $textbf W in mathbb R^{3 times 4}$ , $textbf x in mathbb R^{4}$ , $textbf b in mathbb R^{3}$ ,权重 $textbf W$ 为一个 $3 times 4$ 的矩阵,对于给定数据样本的特征 $textbf x$ ,我们的输出 $textbf o$ 是由权重与输入特征进行矩阵-向量乘法再加上偏置 $textbf b$ 得到的。

 

4. softmax运算

  这里使用的方法是,将模型的输出视为概率。

  我们希望模型的输出 $hat{y_{j}}$ 可以视为属于类别 $j$ 的概率。然后,选择最大输出值的类别 $mathop{argmax}_{j}y_{j}$ 做为我们的预测。例如,如果 $hat{y_{1}}$ , $hat{y_{2}}$ , $hat{y_{3}}$ 分别为 $0.1$ , $0.8$ , $0.1$ ,那么我们预测的类别就是 $2$ ,在我们的例子中代表“狗”。

  为什么我们不可以用预测 $textbf o$ 直接作为输出呢?一方面,这些值的总和不一定为 $1$ ;另一方面,这些值可以为负数。

  要将输出视为概率,我们必须保证模型在任何数据上的输出都是非负值且总和为 $1$ 。此外,还需要一个训练目标,来使模型能精准的估计概率。如在输出为 $0.5$ 的所有样本中,我们希望有一半实际上属于预测的类别。这个属性叫做校准(calibration)。

  我们使用softmax函数来将未归一化的预测变换为非负且总和为 $1$ ,同时模型可导。我们首先对每个未归一化的预测求幂,这样可以保证输出非负。为了保证输出总和为 $1$ ,我们再对每个求幂后的结果除以它们的总和。公式如下:

$$hat{textbf y} = softmaxleft( textbf o right) qquadtext{其中}qquad hat{y_{j}} = frac{exp{o_{j}}}{sum_{k}exp{o_{k}}}$$

  如上所示,对所有的 $j$ 都有 $0 le hat{y_{j}} le 1$ ,因此,输出 $hat{textbf y}$ 可以视为一个概率分布。

  softmax运算不会改变预测 $textbf o$ 之间的顺序,只会确定每个输出类别的概率。因此,在预测过程中,我们有:

$$mathop{argmax}_{j}hat{y_{j}} = mathop{argmax}_{j}o_{j}$$

  尽管softmax是一个非线性函数,但softmax回归的输出仍然由输入特征的仿射变换决定。因此,softmax回归是一个线性模型。

 

5. softmax运算的矢量化

  假设我们读取一个批量的样本 $textbf X$ ,每个样本有 $d$ 个特征,批量大小为 $n$ ,输出类别数量为 $q$ 。那么批量样本特征为 $textbf X in mathbb{R^{n times d}}$ ,权重为 $textbf W in mathbb{R^{d times q}}$ ,偏置为 $textbf b in mathbb{R^{1 times q}}$ ,于是,softmax回归的矢量计算表达式为:

$$textbf O = textbf X textbf W + textbf b$$

$$hat{textbf Y} = softmax left( textbf O right)$$

  $textbf O in mathbb{R^{n times q}}$ ,$+textbf b$ 求和使用广播,$softmax$ 运算按行进行, $hat{textbf Y} in mathbb{R^{n times q}}$ 。

 

6. 损失函数——交叉熵损失(cross-entropy loss)

  在softmax回归中,我们使用交叉熵损失来衡量预测和真实值之间的区别。

  $softmax$ 函数将为归一化的输出 $textbf o$ 映射为一个向量 $hat{textbf y}$ ,我们可以将其视为给定任意输入 $textbf x$ 的每个类别的估计条件概率,假设整个数据集 $left{textbf X,textbf Y right}$ 具有 $n$ 个样本,其中索引为 $i$ 的样本由特征向量 $textbf x^{left( i right)}$ 和独热标签向量 $textbf y^{left( i right)}$ 组成。

  对于任意标签 $textbf y$ 和模型预测 $hat{textbf y}$ ,我们的损失函数(交叉熵损失)为:

$$lleft( textbf y,hat{textbf y}right) = - sum_{j=1}^{q}y_{j}log{hat{y}_{j}}$$

  独热标签向量 $textbf y$ 中,只有一个分量为 $1$ 其余都为 $0$ ,于是损失函数又可以写做:

$$lleft( textbf y,hat{textbf y}right) = - log{hat{y}_{y}}$$

  根据softmax的定义,将损失函数展开为:

$$lleft( textbf y,hat{textbf y}right) = - sum_{j=1}^{q} y_{j} log{ frac{ exp{left( o_{j}right)} }{ sum{_{k=1}^{q}exp{left(o_{k}right)}} } }$$

$$= sum^{q}_{j=1} log{ sum^{q}_{k=1} exp{left(o_{k}right)} } - sum^{q}_{j=1}y_{j}o_{j}$$

$$= log{  sum^{q}_{k=1}exp{left(o_{k}right)}  } - sum^{q}_{j=1}y_{j}o_{j}$$

  损失函数对任何预测 $o_{j}$ 求导:

$$frac{partial lleft( textbf y,hat{textbf y}right)}{partial o_{j}} = frac{exp{o_{j}}}{sum^{q}_{k=1}exp{o_{k}}} - y_{i} = softmaxleft(textbf o right)_{j} - y_{j}$$

  由上式知,导数是我们模型得到的概率与实际之间的差异。

 

本文为学习笔记,学习内容来自李沐 https://zh-v2.d2l.ai/

 

内容来源于网络如有侵权请私信删除