Download - 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut

Transcript
Page 1: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

木棉分类队:朱旭圻 (队长 )、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊

[email protected]

华南木棉中文网页分类器

Page 2: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

目录

系统模型

技术平台

实现方案

未来展望

Page 3: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型CWT100G 网页转换 单个网页集合

00 01 02 03 87 88

。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88

出错处理00 88结果效验 。。

Page 4: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

技术平台

开源分类软件 RAINBOW

中科院的开源中文分词系统 ICTCLAS

开源分类软件 SVMlight

网页转换器与网页预处理器

运行监控器

Page 5: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

实现方案说明

数据源

网页转换

预处理

中文分词

特征选择

分类系统

Page 6: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

数据源CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

Page 7: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

网页转换CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

完成 URL 和 DOCID 的转换

WEBBENCH

Page 8: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

预处理CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 9: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

预处理,就是去掉网页的标签。只保留内容块。预处理后, CWT100G 剩余的网页大小约 21.83G 。约占原来的 24.26%, 提高后面的分类速度和精度。训练集在进行中文分词后也经过 stemm

ing 处理

预处理

Page 10: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

中文分词CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 11: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明-中文

中文分词

Rainbow 嵌入 ICTCLAS ,形成一个完整的中文网页分类系统。 中文分词使用开源中文分词系统 ICTCLA

S ,只保留名词( n , an,vn )。训练集在进行中文分词后也经过 stemming

处理Rainbow 的禁止词是 SMART system 的 5

24 个,我们进行扩充达到 1500 个。

Page 12: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 13: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择图

Page 14: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择

按照 IG( 信息增益 ) 来计算,取 IG

较大的前 63400 (全部约 81000 )个

63400 个特征项 = 中文 36531 个 +267

13 个其他词

中文 36531 个 =34505 个名词 +1895

个动名词 +131 个形容词名词

Page 15: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

特征选择

信息增益最大的前 20 位疾病 /n临床 /vn患者 /n症状 /n药物 /n病人 /n研究 /vn应用 /vn细胞 /n医院 /n

企业 /n数据 /n经济 /n比赛 /vn医学 /n功能 /n皮肤 /n系统 /n免疫 /vn国家 /n

Page 16: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

分类系统CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 17: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明 - 分类系统

分类系统

Rainbow NB

Rainbow SVM

SVMlight

Page 18: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

rainbow中文分词100G待分类中文网页

SVMlight格式的分类文件

SVMlight分类处理

分类结果处理

分类结果输出

200M训练集 Rainbow中文分词

SVMlight格式的训练文件

分类系统

Page 19: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

出错处理与结果效验CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

Page 20: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

系统模型说明 - 出错处理与结果效验出错处理与结果效验

天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。

把已经分好类的文件移走,导致出错的文件也移走。本系统根据文件的 URL ,通过浏览其 UR

L ,根据其内容进行人工判断,相似度则认为 1 。

Page 21: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

出错处理与结果效验

去 CWT100G 的文件列表,与 CT100G 的

文件列表进行比较,查缺补漏。漏掉的则

进行人工判断。

天网源数据中存在一定的重复页面,应该

是不同时刻抓取同一 URL 。直接提交给

系统处理。

Page 22: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

存在的问题

未来展望

网页中不同 HTML 标签所表示的

内容块,应该给以不同的权重

文本预处理:网页文本提取考虑模

板技术

Page 23: 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、                       农双、刘鹏飞、张启蕊 xqzhu@scut

谢谢各位来宾!谢谢各位来宾!