中文网页自动分类技术研究 及其在搜索引擎中的应用

55
1 中中中中中中中中中中中中 中中中中中中中中中中中中 中中中中中中中中中中中 中中中中中中中中中中中 中中中 北北北北北北北北北北北北北 2003 北 4 北 19 北

description

中文网页自动分类技术研究 及其在搜索引擎中的应用. 冯是聪 北京大学网络与分布式实验室 2003 年4月19日. 提纲. 研究背景与意义 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望. 研究背景与意义. Web 网页量的迅猛增长 Google: 超过30亿 “ 天网 ” : 超过1亿 Web 信息的特性 海量 动态 不规则 应用实例 面向主题的搜索引擎与个性化搜索引擎 信息过滤和主动推送服务 基本内容 如何实现中文网页的自动分类 - PowerPoint PPT Presentation

Transcript of 中文网页自动分类技术研究 及其在搜索引擎中的应用

Page 1: 中文网页自动分类技术研究 及其在搜索引擎中的应用

1

中文网页自动分类技术研究中文网页自动分类技术研究及其在搜索引擎中的应用及其在搜索引擎中的应用 冯是聪

北京大学网络与分布式实验室2003 年 4 月 19 日

Page 2: 中文网页自动分类技术研究 及其在搜索引擎中的应用

2

提纲提纲 研究背景与意义 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 3: 中文网页自动分类技术研究 及其在搜索引擎中的应用

3

研究背景与意义研究背景与意义 Web 网页量的迅猛增长

Google: 超过 30 亿 “ 天网”: 超过 1 亿

Web 信息的特性 海量 动态 不规则

应用实例 面向主题的搜索引擎与个性化搜索引擎 信息过滤和主动推送服务

基本内容 如何实现中文网页的自动分类 如何应用中文网页自动分类技术实现搜索引擎目录导航服务

Page 4: 中文网页自动分类技术研究 及其在搜索引擎中的应用

4

提纲提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 5: 中文网页自动分类技术研究 及其在搜索引擎中的应用

5

影响分类器性能的关键因素分析影响分类器性能的关键因素分析 引言 文档自动分类算法的类型 实现中文网页自动分类的一般过程 影响分类器性能的关键因素的定量分析

实验设置 训练样本 特征选取 分类算法 截尾算法 一个中文网页分类器的设计方案

文档自动分类算法

词匹配法 知识工程法统计学习法

M-aryI ndependency Bi nary

WORDLLSFDTree NB NNet KNNNN Rocchi o SVM

Page 6: 中文网页自动分类技术研究 及其在搜索引擎中的应用

6

实现中文网页自动分类的一般过程实现中文网页自动分类的一般过程 训练过程 : 可以看作在已知文档类别的情况下,统计不同类别内的词的分布 分类过程 : 可以看作在已知一篇文档内所包含词的分布的情况下,来预测该文档的类别

训练集 预处理 分类算法

参数调整

测试特征选取 分类结果 截尾算法

Binary 分类 M-ary 分类

Page 7: 中文网页自动分类技术研究 及其在搜索引擎中的应用

7

中文网页分类器的工作原理中文网页分类器的工作原理

待分类中文网页 向量表示预处理

训练集实例 预处理

特征选取算法

分类算法

校验集 测试

每个类的阈值

训练 结果类别表

阈值策略

候选类列表

特征项向量表示

训练过程 分类过程

Page 8: 中文网页自动分类技术研究 及其在搜索引擎中的应用

8

实验设置实验设置 预处理 :无 特征选取 : 无 分类算法 : kNN, k=20, 取最大的一个类别 截尾算法 :无 评价指标: Macro-F1 和 Micro-F1

Page 9: 中文网页自动分类技术研究 及其在搜索引擎中的应用

9

评价指标评价指标  应该返回 不该返回

实际返回 a b

实际未返回 c d

baap

caar

rpprF

2

1

mrp

rp

m

ii

m

ii

m

i

m

iii

FMacro)*(

**2

111

1 1

m

iiFm

FMacro1

111

Page 10: 中文网页自动分类技术研究 及其在搜索引擎中的应用

10

样本集中类别及实例数量的分布情况样本集中类别及实例数量的分布情况类别编号 类别名称 类别数 训练样本数 测试样本数

1 人文与艺术 24 419 110

2 新闻与媒体 7 125 19

3 商业与经济 48 839 214

4 娱乐与休闲 88 1510 374

5 计算机与因特网 58 925 238

6 教育 18 286 85

7 区域 53 891 235

8 自然科学 113 1892 514

9 政府与政治 18 288 84

10 社会科学 104 1765 479

11 医疗与健康 136 2295 616

12 社会与文化 66 1101 301

共计 733 12336 3269

Page 11: 中文网页自动分类技术研究 及其在搜索引擎中的应用

11

一个中文网页分类体系一个中文网页分类体系

非学术性

学术性

人文与艺术

新闻与媒体

商业与经济

社会与文化

区域

娱乐与休闲

政府与政治

教育

自然科学

社会科学

计算机与因特网

医疗与健康

视觉艺术 摄影

三层

... ...

... ...

... ...

Page 12: 中文网页自动分类技术研究 及其在搜索引擎中的应用

12

训练样本数对分类器质量的影响训练样本数对分类器质量的影响

Page 13: 中文网页自动分类技术研究 及其在搜索引擎中的应用

13

特征选取算法特征选取算法 DF: Document Frequency IG: Information GainG(t) =

MI: Mutual Information

CHI

m

i irir cPcP1

)(log)(

m

i irir tcPtcP1r )|(log)|((t)p

m

i irirr tcPtcPtP1

)|(log)|()(

)()(log),(

BACANActI

)()()()()(2 2

),( DCBADBCACBADNct

Page 14: 中文网页自动分类技术研究 及其在搜索引擎中的应用

14

特征选取算法对分类质量的影响特征选取算法对分类质量的影响

Page 15: 中文网页自动分类技术研究 及其在搜索引擎中的应用

15

分类算法分类算法 kNN

NB: Naïve Bayes

jjikNNd

ij bcdydsimcyi

),(),(),(

)()(*)|()|(

BPAPABPBAP

)()(*)|()...|(*)|(

)()(*)|(

)|( 21

dPcPcaPcaPcaP

dPcPcdP

dcP n

Page 16: 中文网页自动分类技术研究 及其在搜索引擎中的应用

16

分类算法对分类性能的影响分类算法对分类性能的影响 

 

质量 效率(秒)Micro-F1 Macro-F1 训练时间 测试时间

kNN 0.8266 0.7560 0 2426

NB 0.1934 0.1612 251 2129

Page 17: 中文网页自动分类技术研究 及其在搜索引擎中的应用

17

kNNkNN 算法中算法中 kk 的取值的取值

Page 18: 中文网页自动分类技术研究 及其在搜索引擎中的应用

18

文档之间的相似度文档之间的相似度 欧式 (Euclid) 距离

兰氏 (Lance) 距离

||||,

dxdxdxCos

i

ii yxyxD 2/12 )||(),(

Page 19: 中文网页自动分类技术研究 及其在搜索引擎中的应用

19

文档之间的相似度文档之间的相似度 -- 实验结果实验结果质量 效率(秒)Micro-F1 Macro-F1 测试时间

欧式距离 0.2419 0.1715 4790兰式距离 0.8266 0.7600 2426

Page 20: 中文网页自动分类技术研究 及其在搜索引擎中的应用

20

类别之间的层次关系类别之间的层次关系 训练过程 测试过程

1第 层

3第 层3第 层3第 层 3第 层

2第 层2第 层

. . .

. . .

1第 层

3第 层3第 层3第 层 3第 层

2第 层2第 层

. . .

. . .

Page 21: 中文网页自动分类技术研究 及其在搜索引擎中的应用

21

类别之间的层次关系类别之间的层次关系 -- 实验结果实验结果

质量 效率(秒)Micro-F1 Macro-F1 测试时间

基于层次的 kNN

0.7288 0.6296 677

基本 kNN 0.8266 0.7600 1734

Page 22: 中文网页自动分类技术研究 及其在搜索引擎中的应用

22

截尾算法截尾算法 位置截尾法 (RCut) :从m 的候选类列表中取前 k 项 比例截尾法 (PCut) :分类结果中,某个类的文档比例同训练集中属于类 i 的文档所占的比例一致。 最优截尾法( SCut):对于候选类列表里的每一个类,如果这篇文档和这个类的相似度大于这个类的最优截尾相似度,那么这篇文档就属于这个类。最优截尾相似度的获得:将训练集分成两部分,其中一部分仍然作为训练集,另一部分作为测试集,对每一个类,评价分类系统在这个测试集下对于这个类的分类性能,调整截尾相似度,使得系统的性能达到最优,此时截尾相似度的值就是这个类的最优截尾相似度

Page 23: 中文网页自动分类技术研究 及其在搜索引擎中的应用

23

截尾算法截尾算法 -- 实验结果实验结果 质量 效率(秒)Micro-F1 Macro-F1 测试时间

RCut 0.8266 0.7600 4324Scut 0.8401 0.7849 5368

基本 kNN 0.8266 0.7600 2426

Page 24: 中文网页自动分类技术研究 及其在搜索引擎中的应用

24

一个中文网页分类器的设计方案一个中文网页分类器的设计方案 关键因素 方案训练样本数 15

特征选取方法 CHI

分类算法

kNN & NB kNN

k 15

相似度 兰式距离层次关系 层次关系

截尾算法 SCut

Page 25: 中文网页自动分类技术研究 及其在搜索引擎中的应用

25

实验结果实验结果质量 效率(秒)Micro-F1 Macro-F1 测试时间

新方案 0.7173 0.6229 397

基本 kNN 0.8266 0.7600 1734

Page 26: 中文网页自动分类技术研究 及其在搜索引擎中的应用

26

提纲提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 27: 中文网页自动分类技术研究 及其在搜索引擎中的应用

27

中文网页的特性中文网页的特性 中文网页的内容使用中文书写,不像英文单词之间存在自然的形态间隔,中文需要分词处理。而且分词的效果能够显著地影响分类效果 网页使用超文本设计。它包含大量的 HTML 标签和超链接。我们有可能利用这些信息来改进分类的质量 网页通常包含大量的“噪音”。同普通文本相比,网页的设计比较随意,通常包含各类广告,设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在进行分类之前,需要自动清除这些“噪音”,否则这些“噪音”会降低分类质量

Page 28: 中文网页自动分类技术研究 及其在搜索引擎中的应用

28

典型网页举例典型网页举例

Page 29: 中文网页自动分类技术研究 及其在搜索引擎中的应用

29

清除噪音算法清除噪音算法 流程:源文件 标签树 内容识别 正文,相关连接,噪音 删除噪音

<<html>html><head><head><title> </title><title> </title></head></head><body><body><table><table> <tr><tr> </tr></tr> ...... <table><table> <tr><tr> </tr></tr></table> </table> </body></body></html></html>

html

head body

table

tr

td

a

tr

td

a

table

tr

tr

td

a

tr

td

a

table

tr

相关子树 不相关子树

Page 30: 中文网页自动分类技术研究 及其在搜索引擎中的应用

30

噪音识别方法噪音识别方法 网页结构信息

标签信息: table, tr,td, div, p 大小,位置 超链数,文字数 正文

网页内容信息 分类

Page 31: 中文网页自动分类技术研究 及其在搜索引擎中的应用

31

实验结果实验结果 - - 分类结果分类结果质量 效率(秒)

Micro-F1 Macro-F1 测试时间没有取噪音 0.8266 0.7600 1734

去噪音 0.8293 0.7746 2359

Page 32: 中文网页自动分类技术研究 及其在搜索引擎中的应用

32

提纲提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 33: 中文网页自动分类技术研究 及其在搜索引擎中的应用

33

一种从搜索引擎日志中学习新词的方法一种从搜索引擎日志中学习新词的方法 引言 基本思想 用户查询词的分布特性分析 组合模式的提取 候选词的筛选 算法分析 实验结果及其分析

Page 34: 中文网页自动分类技术研究 及其在搜索引擎中的应用

34

引言引言 相关研究

人名 地名 机构名 共同点:应用面向领域的语料库

从搜索引擎日志中学习新词的优点 学习新词的效率、准确率高 能够及时地学习到最近出现的新词,而且这些新词不受领域的局限 客观性

Page 35: 中文网页自动分类技术研究 及其在搜索引擎中的应用

35

基本思想基本思想 基本思想

用户查询词的分布特性 已有分词系统

从搜索引擎日志中学习新词的一般步骤

预处理 查询词分布特性, 分词

组合搜索引擎日志 候选新词

模式模式 筛选 新词

1 23

Page 36: 中文网页自动分类技术研究 及其在搜索引擎中的应用

36

用户查询词的分布特性用户查询词的分布特性 分别以“天网” 搜索引擎收集的三批日志文件数据为分析对象集合:• 第一批是从 2000 年 11 月 20 日至 2001 年 9月 4 日期间的日志数据(共 9,256,772条记录)• 第二批是从 2001 年 12 月 20 日至 2002 年 2月 3 日期间的日志数据(共 9,394,200条记录)• 第三批是从 2002 年 7 月 1 日至 2002 年 8月 14 日期间的日志数据(共 6,391,282条记录)

Page 37: 中文网页自动分类技术研究 及其在搜索引擎中的应用

37

用户查询词的长度分布特性用户查询词的长度分布特性 用户的查询词通常都是非常简短的,用户的查询词通常都是非常简短的,92%92% 以上的用户查询词的长度不超以上的用户查询词的长度不超过过 88 个汉字个汉字 65%65% 以上的查询词的长度不超过以上的查询词的长度不超过 44个汉字。在所有查询词中,个汉字。在所有查询词中, 44 个汉个汉字长的查询词最多,占字长的查询词最多,占 28%28% 以上。以上。22 个汉字长的查询词次之,占个汉字长的查询词次之,占 2222%%以上以上

Page 38: 中文网页自动分类技术研究 及其在搜索引擎中的应用

38

用户查询词的频度分布特性用户查询词的频度分布特性 搜索引擎日志中用户查询词在频度分布上是高度集中的 前 5%的高频词占据了 64%以上的总查询次数 前 20%的查询词占据了 83%以上的总查询次数 以第三批数据为例,在 639.1万次的用户查询中,共有 447,1万次中文查询,而这些查询词中仅包含了 43.4万不同的查询词,频率大于等于 5 次的仅有 11.9万个

Page 39: 中文网页自动分类技术研究 及其在搜索引擎中的应用

39

组合模式的提取两个规则组合模式的提取两个规则 直接删除已经被分词系统作为单个词条的已知组合模式,并且在模式提取的过程中不破坏已有的基本词条 如果查询词的长度 n≤4 个汉字字符长,在日志中出现的频率比较高,而且被分词系统分割成单个汉字的组合,那么由这些单个汉字一起组成的词就作为一个侯选新词,而其它的组合则被视为无效

Page 40: 中文网页自动分类技术研究 及其在搜索引擎中的应用

40

汉字组合模式的提取算法汉字组合模式的提取算法 输入: 经过预处理后保留下来的所有用户查询词输出: 候选新词集 ω算法: 1. count←经过预处理后保留下来的所有用户查询词的个数 .2. while (count>0)

3. 取一个查询词 S, n←S 的长度, m←S 分词后得到的词条数, mi←第 i 个词条4. if (NOT m = 1)5. if ( n = 2 OR n= 3) S ω∈6. else if (n = 4)7. if (m= 2 OR m = 4 ) S ω∈8. else if ( m = 3) S ω OR (m∈ 1 m∪ 2) ω OR (m∈ 2 m∪ 3) ω∈9. else if (n>4)10. 按正向增字的方法, S←取 4 个字符, GOTO 3.11. count←count –1

Page 41: 中文网页自动分类技术研究 及其在搜索引擎中的应用

41

汉字组合模式提取算法复杂度分析汉字组合模式提取算法复杂度分析 所有汉字组合模式的穷举法

6763 个一、二级汉字, k 个汉字可能产生的组合模式有 当 k=4 时,共有 2.1×1015重组合模式

本文的方法 O( S)=

当 i=2或 i =3 时,需要匹配的次数为常数 1 当 i=4 时,根据分词结果,需要匹配的最大次数为常数 3 当 4< i≤8 时,根据“正向增字匹配”,可以分别拆分成

i≤4 时的情况。最后求得 O( S ≈) 3.4 次

k

i

i

2

6763

8

2

)()(i

iii SOSP

Page 42: 中文网页自动分类技术研究 及其在搜索引擎中的应用

42

候选词的筛选候选词的筛选 “伪词条”的筛选

所谓“伪词条”就是不能形成真实词条的候选词 通过限制最小频率就可以过滤“伪词条”,但是也会过滤掉一些频率比较低的正确词条

“伪组合词”的筛选 “伪组合词”就是不能构成真实组合词的两个词放在一起作为一个组合词的候选词 S = S1 U S2

规则: Diff =

如果 freq( S1)>> freq( S2),那么 S1 最可能是基本词条 ≥ 2 如果 freq( S1)<< freq( S2),那么 S2 最可能是基本词条 ≤ -2 如果 freq( S1 ≈) freq( S2),那么S最可能是基本词条 (– 2 ,2 )

)()()( 21

SfreqSfreqSfreq

Page 43: 中文网页自动分类技术研究 及其在搜索引擎中的应用

43

新词学习方法质量的测试 – 定义新词学习方法质量的测试 – 定义 定义 1

a = 学习得到的新词中包含的正确词条数 b = 学习得到的新词中包含的错误词条数 c = 日志中包含而没有被学习出来的新词数

定义 2 “ 学准率” p = ,即学习得到的新词中包含的正确词条数与学习得到的新词总数的比值 定义 3 “ 学全率” r = ,即学习得到的新词中包含的正确词条数与日志中包含的所有新词数的比值

baa

caa

Page 44: 中文网页自动分类技术研究 及其在搜索引擎中的应用

44

新词学习方法质量的测试 – 实验方法新词学习方法质量的测试 – 实验方法 随机地从预处理后保留的用户查询词中选择 3000 个不同的查询词进行人工地分词,删除分词系统已经作为一个独立词条的词后,得到 743个新词 将自动学习得到的 821 个新词按频率从高到低排列,并分成 8 个等份,并分别统计前

k( 1≤k≤8 )个等份的 a、 b、 c 值之和,然后根据定义 2 和定义 3 ,分别求前 k 个等份对应的“学准率” p和 “学全率” r 值

Page 45: 中文网页自动分类技术研究 及其在搜索引擎中的应用

45

新词学习方法质量的测试 – 实验结果新词学习方法质量的测试 – 实验结果

Page 46: 中文网页自动分类技术研究 及其在搜索引擎中的应用

46

实验结果举例实验结果举例 正确学习的:

新潮词:下载,考研,手机,课件,网站,美眉,短信 … 人名:刘德华,江泽民,周星驰 … 地名:北京,上海,美国,日本,中关村 … 娱乐焦点:寻秦记,璩美凤,大史记 ,天龙八部 … 敏感话题:乱伦,三级片 …

错误学习的: 用户不能确定:到底是“璩美凤”还是“虞美凤”? 一些不能作为新词的娱乐作品名:“我猜”

漏学的: 频率比较低,而确实是新词的,玄奘 …

Page 47: 中文网页自动分类技术研究 及其在搜索引擎中的应用

47

新词学习方法效率的测试新词学习方法效率的测试

Page 48: 中文网页自动分类技术研究 及其在搜索引擎中的应用

48

提纲提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 49: 中文网页自动分类技术研究 及其在搜索引擎中的应用

49

引言引言 Spider 式搜索引擎的特点

索引的网页数多,信息量大 更新频率高 查准率相对较低

目录式搜索引擎的特点 查准率相对较高 规模较小 维护代价高

相关研究 Google Yahoo!

Page 50: 中文网页自动分类技术研究 及其在搜索引擎中的应用

50

““ 天网”目录导航服务的体系结构天网”目录导航服务的体系结构 浏览器 “ ”天网 搜索引擎

被分类的网页

用户

分类器

查询词

检索结果

Web网页

网页抓取器 网页

类别

+查询词 类别

抓取

类别匹配在线

离线

Page 51: 中文网页自动分类技术研究 及其在搜索引擎中的应用

51

““ 天网”目录的运行实例天网”目录的运行实例

Page 52: 中文网页自动分类技术研究 及其在搜索引擎中的应用

52

提纲提纲 问题的提出 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用 总结与展望

Page 53: 中文网页自动分类技术研究 及其在搜索引擎中的应用

53

总结总结 影响分类器性能的关键因素分析 通过清除噪音改进分类质量 一种从搜索引擎日志中学习新词的方法 中文网页自动分类技术在搜索引擎中的应用

Page 54: 中文网页自动分类技术研究 及其在搜索引擎中的应用

54

将来的工作将来的工作 中文网页分类器的应用

中文网页分类器的实用化和产品化 应用中文网页自动分类技术,实现可配置的主题搜索服务 应用中文网页自动分类技术,实现搜索引擎个性化服务 其他应用

中文网页自动分类技术研究的深化 中文网页标准语料库的建设 分类器的增量学习 分类效率,文档模型,分类算法

Page 55: 中文网页自动分类技术研究 及其在搜索引擎中的应用

55

谢谢!谢谢!