信息熵是信息论中的概念,通常简称为熵,表示随机变量不确定性或者说混乱程度。设当前样本集合$X$包含$n$个分类,${p_i}$表示第$k$类所在的比例,则集合$X$的熵定义为:
$$Ent(X) = - sumlimits_{i = 1}^n {{p_i}} lo{g_2}{p_i}$$
$Ent(X)$的值越趋近于0,表示$D$的纯度越高,越趋近于1,表示$D$的纯度越低。
在ID3决策树算法中,采用信息增益作为选择最优分裂特征属性的标准。假设$A$是$X$中的一个离散型特征属性,包含$L$个可能取值,则根据属性$A$对$X$进行分裂可产生$L$个分支,第$i$个分支上获得的样本子集记为${X_i}$,我们可以根据上式计算出每一个分支下获得的分裂子集${X_i}$的熵,由于各子集${X_i}$的样本数量不同,我们在熵的基础上添加一个权重${{|{X_i}|} over {|X|}}$,也就是说,样本子集中样本数量越多,所占权重越大,以特征属性$A$作为分裂节点后的熵为: