基于加权策略的 SVM 多元分类器

基于加权策略的基于加权策略的 SVMSVM 多元分类器多元分类器

华南理工大学信息网络工程研究中心　广东省计算机网络重点实验室

　曹鸿董守斌张凌

全国搜索引擎与网上信息学术研讨会

目录

• 算法描述– 传统一对多（ OVA）方法– 加权阈值策略（ OVA-WWT ）

• 系统模块• 实验结果• 结论

传统 OVA（ One-Vs-All ）方法：主要思路

• 主要思路– 训练 N 个不同的二元分类器，第 i 个分类器用

第 i 类中的训练样本作为正的训练样本，而将其他样本作为负的训练样本

– 当对一个新文档进行分类时，分别运行 N 个二元分类器，选择输出相似度值最大的那个分类器的结果

传统一对多（ OVA）方法：形式化描述

• 给定个 l 训练样例 ( , ), … ( , ) ，其中 ,

i =1, … l, 且是 xi 的类标签，则第 i 个 SVM 分类器要解决下面的最优化问题 : –

–

• 用下面的 k 个决策方程计算 x 与 k 个类别的相似度： • 最终判定 x 隶属于决策方程输出相似度最高的那个类别： Class of x =

1x 1ylx ly n

i Rx

},...1{ kyi

l

j

ij

ii

iibiw

Cww1

T)(2

1min

l,j

iybxiw

i ybxiw

ij

iij

ij

iij

ij

...10,

if,1-)()(

if,1)()(

s.t. T

T

　

　

kibxiwxf ii ,...1,)()()( T

))()((maxarg T,...1

iki bxiw

阈值策略

• 阈值策略：把一篇文档归属到某些相关类别中的方法

• RCut 、 PCut 和 SCut

• 传统 OVA 使用的是 RCut 策略

传统一对多（ OVA）方法：缺点

1 ）比较文档对 N 个类别的相似度，简单地取相似度最大的那个类别，由于这 N 个相似度是由 N 个不同的分类器产生，简单地取最大值作为阈值策略并不合适；

2 ）对所有类别一视同仁，而实际上，有些类别属于“弱势类”，其类别信息容易被“强势类”所淹没，导致“弱势类”文档被误分到“强势类”中的不公平现象。

本文对 OVA的改进

• 提出加权阈值策略 (Weighted RCut: WRCut)

• 通过给不同类别的相似度结果赋以一定的权重值后再进行比较，实现“弱势类”和“强势类”之间的势力均衡，以消除使用单一的 RCut 策略所造成的不公平现象

目录

• 算法描述– 传统一对多（ OVA ）方法– 加权阈值策略（ OVA-WWT）


加权阈值策略（ OVA-WWT ）

算法描述：• 先解 SVM 最优化问题，用决策方程计算出

文档对 N 个类别的相似度，再对各类别运用 WRCut 阈值策略，文档 x 属于加权相似度最大的类别

• Class of x =

•

• ai 也可以通过对训练集的学习而得。

))()((maxarg T

,...1i

iki bxiwa

i

ii E

Ca

目录

• 传统一对多（ OVA ）方法• 加权阈值策略（ OVA-WWT ）• 系统模块• 实验结果• 结论

系统模块结构

……

测试数据

N个SVMlight格式的测试文件

SVMlight分类模块

test

Model 1 Model 2 Model nModel 3

　　　

……

结果处理模块

训练样本

N个SVMlight格式的训练文件

SVMlight训练模块

train

分类结果1 分类结果2 分类结果3 分类结果n

最终结果

数据转换模块

目录

• 算法描述– 传统一对多（ OVA ）方法– 加权阈值策略（ OVA-WWT ）


实验结果

• 数据集：北京大学网络实验室提供的 CWT100G 数据集之 200M 训练集（ 11 个类别）

• 模型： 200M 数据的 2/3 用于构建分类器模型，剩余 1/3 作开放测试集进行分类测试。SVM 使用线性核函数。

• 评测标准：微平均准确率、宏平均准确率、宏平均召回率、宏平均 F1 值和时间，其中时间是包括训练和分类的总时间

实验结果 1：分类器的比较 (1)

分类方法微平均准确率（％）

宏平均准确率（％）

宏平均召回率（％）

宏平均 F1（％）

时间（ s)

SVMmultic 64.35 27.19 25.65 26.40 1795.53

SVMTorch 44.35 75.61 35.95 48.73 25034.3

RainbowSVM 80.13 76.95 75.73 76.33 13205.5

MSVMlight 88.64 90.70 85.99 88.31 1108.5

实验结果 1：分类器的比较 (2)

性能曲线图时间柱状图

0%

20%

40%

60%

80%

100%

mi cro_p Macro_p Macro_r Macro_F1

SVMmulticlass SVMTorch

RainbowSVM MSVMlight

0

5000

10000

15000

20000

25000

30000

SVMmultic SVMTorch RainbowSVM MSVMlight

实验 2：阈值策略的比较（ 1）

• 对 WRCut 中各类别的权重值，本文将训练集随机划分为训练 - 训练集 ( 占 3/4) 和训练 - 测试集（占 1/4 ），从经验值出发，在反复训练的过程中自动调整权重值。

• 权重调整范围为 0.9~1.9 ，每个类的权重分别递增 0.1 ，当权重的增加使得精度下降时，该权重减 0.1 ，取宏观 F1达到最大值时各类别所得权重，总训练时间为 58.587秒，这个时间对总训练时间而言是可忽略的。


类别编号类别权重值01 人文与艺术 1.9

03 商业与经济 1.7

04 娱乐与休闲 1.9

05 计算机与因特网 1.9

07 教育 1.9

08 各国风情 0.9

10 自然科学 0.9

11 政府与政治 1.9

12 社会科学 1.9

13 医疗与健康 1.9

14 社会与文化 1.1

经过学习得到的 11 个类别各自的权重值


RCut 策略与 WRCut 策略精度比较曲线

80%

82%

84%

86%

88%

90%

92%

mi cro_p Macro_p Macro_r Macro_F1

RCut WRCut

目录

• 算法描述– 传统一对多（ OVA ）方法– 加权阈值策略（ OVA-WWT ）


结论

• 本文提出了一对多算法的改进版本 OVA-WWT 算法• 基于 OVA-WWT 和 SVMlight 二元分类算法，实现了 SV

Mlight 的多元分类器 MSVMlight 。• 在 CWT100G 上进行了一系列开放性实验，通过与多种分

类器进行性能比较，证明对 CWT100G 数据集而言， MSVMlight 在准确率和时间性能要优于其他三种分类器。

• 针对 CWT100G 数据集进行阈值策略选择实验，结果表明，OVA-WWT 算法比 OVA 算法精度要高

• 缺点：类别权重的训练需要花费额外时间，但是对于大规模数据的训练和分类而言，以可忽略的时间换来精度的显著提高是值得的

谢谢大家！

基于加权策略的 SVM 多元分类器

Documents

Transcript of 基于加权策略的 SVM 多元分类器