基于加权策略的 SVM 多元分类器
description
Transcript of 基于加权策略的 SVM 多元分类器
![Page 1: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/1.jpg)
基于加权策略的基于加权策略的 SVMSVM 多元分类器多元分类器
华南理工大学信息网络工程研究中心 广东省计算机网络重点实验室
曹鸿 董守斌 张凌
全国搜索引擎与网上信息学术研讨会
![Page 2: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/2.jpg)
目录
• 算法描述– 传统一对多( OVA)方法– 加权阈值策略( OVA-WWT )
• 系统模块• 实验结果• 结论
![Page 3: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/3.jpg)
传统 OVA( One-Vs-All )方法:主要思路
• 主要思路– 训练 N 个不同的二元分类器,第 i 个分类器用
第 i 类中的训练样本作为正的训练样本,而将其他样本作为负的训练样本
– 当对一个新文档进行分类时,分别运行 N 个二元分类器,选择输出相似度值最大的那个分类器的结果
![Page 4: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/4.jpg)
传统一对多( OVA)方法:形式化描述
• 给定个 l 训练样例 ( , ), … ( , ) ,其中 ,
i =1, … l, 且 是 xi 的类标签,则第 i 个 SVM 分类器要解决下面的最优化问题 : –
–
• 用下面的 k 个决策方程计算 x 与 k 个类别的相似度: • 最终判定 x 隶属于决策方程输出相似度最高的那个类别: Class of x =
1x 1ylx ly n
i Rx
},...1{ kyi
l
j
ij
ii
iibiw
Cww1
T)(2
1min
l,j
iybxiw
i ybxiw
ij
iij
ij
iij
ij
...10,
if,1-)()(
if,1)()(
s.t. T
T
kibxiwxf ii ,...1,)()()( T
))()((maxarg T,...1
iki bxiw
![Page 5: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/5.jpg)
阈值策略
• 阈值策略:把一篇文档归属到某些相关类别中的方法
• RCut 、 PCut 和 SCut
• 传统 OVA 使用的是 RCut 策略
![Page 6: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/6.jpg)
传统一对多( OVA)方法:缺点
1 )比较文档对 N 个类别的相似度,简单地取相似度最大的那个类别,由于这 N 个相似度是由 N 个不同的分类器产生,简单地取最大值作为阈值策略并不合适;
2 )对所有类别一视同仁,而实际上,有些类别属于“弱势类”,其类别信息容易被“强势类”所淹没,导致“弱势类”文档被误分到“强势类”中的不公平现象。
![Page 7: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/7.jpg)
本文对 OVA的改进
• 提出加权阈值策略 (Weighted RCut: WRCut)
• 通过给不同类别的相似度结果赋以一定的权重值后再进行比较,实现“弱势类”和“强势类”之间的势力均衡,以消除使用单一的 RCut 策略所造成的不公平现象
![Page 8: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/8.jpg)
目录
• 算法描述– 传统一对多( OVA )方法– 加权阈值策略( OVA-WWT)
• 系统模块• 实验结果• 结论
![Page 9: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/9.jpg)
加权阈值策略( OVA-WWT )
算法描述:• 先解 SVM 最优化问题,用决策方程计算出
文档对 N 个类别的相似度,再对各类别运用 WRCut 阈值策略,文档 x 属于加权相似度最大的类别
• Class of x =
•
• ai 也可以通过对训练集的学习而得。
))()((maxarg T
,...1i
iki bxiwa
i
ii E
Ca
![Page 10: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/10.jpg)
目录
• 传统一对多( OVA )方法• 加权阈值策略( OVA-WWT )• 系统模块• 实验结果• 结论
![Page 11: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/11.jpg)
系统模块结构
……
测试数据
N个SVMlight格式的测试文件
SVMlight分类模块
test
Model 1 Model 2 Model nModel 3
……
结果处理模块
训练样本
N个SVMlight格式的训练文件
SVMlight训练模块
train
分类结果1 分类结果2 分类结果3 分类结果n
最终结果
数据转换模块
![Page 12: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/12.jpg)
目录
• 算法描述– 传统一对多( OVA )方法– 加权阈值策略( OVA-WWT )
• 系统模块• 实验结果• 结论
![Page 13: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/13.jpg)
实验结果
• 数据集:北京大学网络实验室提供的 CWT100G 数据集之 200M 训练集( 11 个类别)
• 模型: 200M 数据的 2/3 用于构建分类器模型,剩余 1/3 作开放测试集进行分类测试。SVM 使用线性核函数。
• 评测标准:微平均准确率、宏平均准确率、宏平均召回率、宏平均 F1 值和时间,其中时间是包括训练和分类的总时间
![Page 14: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/14.jpg)
实验结果 1:分类器的比较 (1)
分类方法 微平均准确率(%)
宏平均准确率(%)
宏平均召回率(%)
宏平均 F1(%)
时间( s)
SVMmultic 64.35 27.19 25.65 26.40 1795.53
SVMTorch 44.35 75.61 35.95 48.73 25034.3
RainbowSVM 80.13 76.95 75.73 76.33 13205.5
MSVMlight 88.64 90.70 85.99 88.31 1108.5
![Page 15: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/15.jpg)
实验结果 1:分类器的比较 (2)
性能曲线图 时间柱状图
0%
20%
40%
60%
80%
100%
mi cro_p Macro_p Macro_r Macro_F1
SVMmulticlass SVMTorch
RainbowSVM MSVMlight
0
5000
10000
15000
20000
25000
30000
SVMmultic SVMTorch RainbowSVM MSVMlight
![Page 16: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/16.jpg)
实验 2:阈值策略的比较( 1)
• 对 WRCut 中各类别的权重值,本文将训练集随机划分为训练 - 训练集 ( 占 3/4) 和训练 - 测试集(占 1/4 ),从经验值出发,在反复训练的过程中自动调整权重值。
• 权重调整范围为 0.9~1.9 ,每个类的权重分别递增 0.1 ,当权重的增加使得精度下降时,该权重减 0.1 ,取宏观 F1达到最大值时各类别所得权重,总训练时间为 58.587秒,这个时间对总训练时间而言是可忽略的。
![Page 17: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/17.jpg)
实验 2:阈值策略的比较( 2)
类别编号 类别 权重值01 人文与艺术 1.9
03 商业与经济 1.7
04 娱乐与休闲 1.9
05 计算机与因特网 1.9
07 教育 1.9
08 各国风情 0.9
10 自然科学 0.9
11 政府与政治 1.9
12 社会科学 1.9
13 医疗与健康 1.9
14 社会与文化 1.1
经过学习得到的 11 个类别各自的权重值
![Page 18: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/18.jpg)
实验 2:阈值策略的比较( 3)
RCut 策略与 WRCut 策略精度比较曲线
80%
82%
84%
86%
88%
90%
92%
mi cro_p Macro_p Macro_r Macro_F1
RCut WRCut
![Page 19: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/19.jpg)
目录
• 算法描述– 传统一对多( OVA )方法– 加权阈值策略( OVA-WWT )
• 系统模块• 实验结果• 结论
![Page 20: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/20.jpg)
结论
• 本文提出了一对多算法的改进版本 OVA-WWT 算法• 基于 OVA-WWT 和 SVMlight 二元分类算法,实现了 SV
Mlight 的多元分类器 MSVMlight 。• 在 CWT100G 上进行了一系列开放性实验,通过与多种分
类器进行性能比较,证明对 CWT100G 数据集而言, MSVMlight 在准确率和时间性能要优于其他三种分类器。
• 针对 CWT100G 数据集进行阈值策略选择实验,结果表明,OVA-WWT 算法比 OVA 算法精度要高
• 缺点:类别权重的训练需要花费额外时间,但是对于大规模数据的训练和分类而言,以可忽略的时间换来精度的显著提高是值得的
![Page 21: 基于加权策略的 SVM 多元分类器](https://reader033.fdocument.pub/reader033/viewer/2022061614/56814498550346895db13d32/html5/thumbnails/21.jpg)
谢谢大家!