木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 ...
description
Transcript of 木棉分类队:朱旭圻 ( 队长 ) 、李嘉林、曹鸿、 ...
目录
系统模型
技术平台
实现方案
未来展望
系统模型CWT100G 网页转换 单个网页集合
00 01 02 03 87 88
。。
CWT1G
预处理
WEBBENCH
预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88
出错处理00 88结果效验 。。
技术平台
开源分类软件 RAINBOW
中科院的开源中文分词系统 ICTCLAS
开源分类软件 SVMlight
网页转换器与网页预处理器
运行监控器
实现方案说明
数据源
网页转换
预处理
中文分词
特征选择
分类系统
数据源CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
WEBBENCH
预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
网页转换CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
完成 URL 和 DOCID 的转换
WEBBENCH
预处理CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
WEBBENCH
预处理,就是去掉网页的标签。只保留内容块。预处理后, CWT100G 剩余的网页大小约 21.83G 。约占原来的 24.26%, 提高后面的分类速度和精度。训练集在进行中文分词后也经过 stemm
ing 处理
预处理
中文分词CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
WEBBENCH
系统模型说明-中文
中文分词
Rainbow 嵌入 ICTCLAS ,形成一个完整的中文网页分类系统。 中文分词使用开源中文分词系统 ICTCLA
S ,只保留名词( n , an,vn )。训练集在进行中文分词后也经过 stemming
处理Rainbow 的禁止词是 SMART system 的 5
24 个,我们进行扩充达到 1500 个。
特征选择CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
WEBBENCH
特征选择图
特征选择
按照 IG( 信息增益 ) 来计算,取 IG
较大的前 63400 (全部约 81000 )个
63400 个特征项 = 中文 36531 个 +267
13 个其他词
中文 36531 个 =34505 个名词 +1895
个动名词 +131 个形容词名词
特征选择
信息增益最大的前 20 位疾病 /n临床 /vn患者 /n症状 /n药物 /n病人 /n研究 /vn应用 /vn细胞 /n医院 /n
企业 /n数据 /n经济 /n比赛 /vn医学 /n功能 /n皮肤 /n系统 /n免疫 /vn国家 /n
分类系统CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
WEBBENCH
系统模型说明 - 分类系统
分类系统
Rainbow NB
Rainbow SVM
SVMlight
rainbow中文分词100G待分类中文网页
SVMlight格式的分类文件
SVMlight分类处理
分类结果处理
分类结果输出
200M训练集 Rainbow中文分词
SVMlight格式的训练文件
分类系统
出错处理与结果效验CWT100G 网页转换 单个网页集合
00 01 02 03 87 88。。。。
CWT1G
预处理
训练集 预处理 中文分词 特征选择 中文分词
特征压缩
分类系统
CCT100G
00 88。。
出错处理00 88。。结果效验
WEBBENCH
系统模型说明 - 出错处理与结果效验出错处理与结果效验
天网数据有一些是多媒体数据,往往导致系统出错,所以进行错误处理。
把已经分好类的文件移走,导致出错的文件也移走。本系统根据文件的 URL ,通过浏览其 UR
L ,根据其内容进行人工判断,相似度则认为 1 。
出错处理与结果效验
去 CWT100G 的文件列表,与 CT100G 的
文件列表进行比较,查缺补漏。漏掉的则
进行人工判断。
天网源数据中存在一定的重复页面,应该
是不同时刻抓取同一 URL 。直接提交给
系统处理。
存在的问题
未来展望
网页中不同 HTML 标签所表示的
内容块,应该给以不同的权重
文本预处理:网页文本提取考虑模
板技术
谢谢各位来宾!谢谢各位来宾!