多标签多分类相关

670 0 0

作者:NEU_ShuaiCheng

一、单标签多分类

直白来讲就是每个实例的可能类别只有两种(A or B)；此时的分类算法其实是在构建一个分类线将数据划分为两个类别。

1、单标签多分类问题其实是指待预测的label标签只有一个，但是 label标签的取值可能有多种情况；直白来讲就是每个实例的可能

类别有K种(t1,t2,...tk,k≥3)；

2、常见算法：Softmax、SVM、KNN、决策树(集成学习 ----RF(Bagging)、Boosting(Adaboost、GBDT)；XGBo

3、是一个多分类的问题，我们可以将这个待求解的问题转换为二分类算法的延伸，即将多分类任务拆分为若干个二分类任务求解，

具体的策略如下：

• One-Versus-One(ovo)：一对一

• One-Versus-All / One-Versus-the-Rest(ova/ovr)：一对多

• Error Correcting Output codes(纠错码机制)：多对多

• 原理：将K个类别中的两两类别数据进行组合，然后使用组合后的数据训练出来一个模型，从而产生K(K-1)/2个分类器，将这些分类器的结果进行融合，并将分类器的预测结果使用多数投票的方式输出最终的预测结果值。

1、ovr与softmax的区别：

① softmax 每一次训练模型用的是整个训练数据中的某一类别的数据，从而的该类别的权重系数，通过测试集计算各个类型权

重的预测值，取最大的预测值(或者概率)的类型作为预测类型。

② ovr 每一次是代入所有的训练集数据来训练子模型，取出结果为正例的类

别(多个正例取最大值)。

原理：将模型构建应用分为两个阶段：编码阶段和解码阶段；编码阶段中对K个类别中进行M次划分，每次划分将一部分数据分为正类，一部分数据分为反类，每次划分都构建出来一个模型，模型的结果是在空间中对于每个类别都定义了一个点；解码阶段中使用训练出来的模型对测试样例进行预测，将预测样本对应的点和类别之间的点求距离，选择距离最近的类别作为最终的预测类别。