木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 ...

Post on 13-Jan-2016

157 views 14 download

description

木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊 xqzhu@scut.edu.cn. 华南木棉中文网页分类器. 目录. 系统模型 技术平台 实现方案 未来展望. 系统模型. CWT1G. CWT100G. 单个网页集合. 网页转换. 预处理. 00. 01. 03. 02. 87. 88. WEB BENCH. 中文分词. 预处理. 特征选择. 中文分词. 特征压缩. CCT100G. 00. 88. 分类系统. 。。. 结果效验. 00. 出错处理. - PowerPoint PPT Presentation

Transcript of 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 ...

木棉分类队:朱旭圻 (队长 )、李嘉林、曹鸿、 农双、刘鹏飞、张启蕊

xqzhu@scut.edu.cn

华南木棉中文网页分类器

目录

系统模型

技术平台

实现方案

未来展望

系统模型CWT100G 网页转换 单个网页集合

00 01 02 03 87 88

。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88

出错处理00 88结果效验 。。

技术平台

开源分类软件 RAINBOW

中科院的开源中文分词系统 ICTCLAS

开源分类软件 SVMlight

网页转换器与网页预处理器

运行监控器

实现方案说明

数据源

网页转换

预处理

中文分词

特征选择

分类系统

数据源CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

WEBBENCH

预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

网页转换CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

完成 URL 和 DOCID 的转换

WEBBENCH

预处理CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

预处理,就是去掉网页的标签。只保留内容块。预处理后, CWT100G 剩余的网页大小约 21.83G 。约占原来的 24.26%, 提高后面的分类速度和精度。训练集在进行中文分词后也经过 stemm

ing 处理

预处理

中文分词CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

系统模型说明-中文

中文分词

Rainbow 嵌入 ICTCLAS ,形成一个完整的中文网页分类系统。 中文分词使用开源中文分词系统 ICTCLA

S ,只保留名词( n , an,vn )。训练集在进行中文分词后也经过 stemming

处理Rainbow 的禁止词是 SMART system 的 5

24 个,我们进行扩充达到 1500 个。

特征选择CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

特征选择图

特征选择

按照 IG( 信息增益 ) 来计算,取 IG

较大的前 63400 (全部约 81000 )个

63400 个特征项 = 中文 36531 个 +267

13 个其他词

中文 36531 个 =34505 个名词 +1895

个动名词 +131 个形容词名词

特征选择

信息增益最大的前 20 位疾病 /n临床 /vn患者 /n症状 /n药物 /n病人 /n研究 /vn应用 /vn细胞 /n医院 /n

企业 /n数据 /n经济 /n比赛 /vn医学 /n功能 /n皮肤 /n系统 /n免疫 /vn国家 /n

分类系统CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

系统模型说明 - 分类系统

分类系统

Rainbow NB

Rainbow SVM

SVMlight

rainbow中文分词100G待分类中文网页

SVMlight格式的分类文件

SVMlight分类处理

分类结果处理

分类结果输出

200M训练集 Rainbow中文分词

SVMlight格式的训练文件

分类系统

出错处理与结果效验CWT100G 网页转换 单个网页集合

00 01 02 03 87 88。。。。

CWT1G

预处理

训练集 预处理 中文分词 特征选择 中文分词

特征压缩

分类系统

CCT100G

00 88。。

出错处理00 88。。结果效验

WEBBENCH

系统模型说明 - 出错处理与结果效验出错处理与结果效验

天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。

把已经分好类的文件移走,导致出错的文件也移走。本系统根据文件的 URL ,通过浏览其 UR

L ,根据其内容进行人工判断,相似度则认为 1 。

出错处理与结果效验

去 CWT100G 的文件列表,与 CT100G 的

文件列表进行比较,查缺补漏。漏掉的则

进行人工判断。

天网源数据中存在一定的重复页面,应该

是不同时刻抓取同一 URL 。直接提交给

系统处理。

存在的问题

未来展望

网页中不同 HTML 标签所表示的

内容块,应该给以不同的权重

文本预处理:网页文本提取考虑模

板技术

谢谢各位来宾!谢谢各位来宾!