中文网页自动分类技术研究及其在搜索引擎中的应用

中文网页自动分类技术研究中文网页自动分类技术研究及其在搜索引擎中的应用及其在搜索引擎中的应用冯是聪

北京大学网络与分布式实验室2003 年 4 月 19 日

提纲提纲研究背景与意义影响分类器性能的关键因素分析通过清除噪音改进分类质量一种从搜索引擎日志中学习新词的方法中文网页自动分类技术在搜索引擎中的应用总结与展望

研究背景与意义研究背景与意义 Web 网页量的迅猛增长

Google: 超过 30 亿 “ 天网”：超过 1 亿

Web 信息的特性海量动态不规则

应用实例面向主题的搜索引擎与个性化搜索引擎信息过滤和主动推送服务

基本内容如何实现中文网页的自动分类如何应用中文网页自动分类技术实现搜索引擎目录导航服务

提纲提纲问题的提出影响分类器性能的关键因素分析通过清除噪音改进分类质量一种从搜索引擎日志中学习新词的方法中文网页自动分类技术在搜索引擎中的应用总结与展望

影响分类器性能的关键因素分析影响分类器性能的关键因素分析引言文档自动分类算法的类型实现中文网页自动分类的一般过程影响分类器性能的关键因素的定量分析

实验设置训练样本特征选取分类算法截尾算法一个中文网页分类器的设计方案

文档自动分类算法

词匹配法知识工程法统计学习法

M-aryI ndependency Bi nary

WORDLLSFDTree NB NNet KNNNN Rocchi o SVM

实现中文网页自动分类的一般过程实现中文网页自动分类的一般过程训练过程 : 可以看作在已知文档类别的情况下，统计不同类别内的词的分布分类过程 : 可以看作在已知一篇文档内所包含词的分布的情况下，来预测该文档的类别

训练集预处理分类算法

参数调整

测试特征选取分类结果截尾算法

Binary 分类 M-ary 分类

中文网页分类器的工作原理中文网页分类器的工作原理

待分类中文网页向量表示预处理

训练集实例预处理

特征选取算法

分类算法

校验集测试

每个类的阈值

训练结果类别表

阈值策略

候选类列表

特征项向量表示

训练过程分类过程

实验设置实验设置预处理：无特征选取 : 无分类算法： kNN, k=20, 取最大的一个类别截尾算法：无评价指标： Macro-F1 和 Micro-F1

评价指标评价指标应该返回不该返回

实际返回 a b

实际未返回 c d

FMacro)*(

FMacro1

样本集中类别及实例数量的分布情况样本集中类别及实例数量的分布情况类别编号类别名称类别数训练样本数测试样本数

1 人文与艺术 24 419 110

2 新闻与媒体 7 125 19

3 商业与经济 48 839 214

4 娱乐与休闲 88 1510 374

5 计算机与因特网 58 925 238

6 教育 18 286 85

7 区域 53 891 235

8 自然科学 113 1892 514

9 政府与政治 18 288 84

10 社会科学 104 1765 479

11 医疗与健康 136 2295 616

12 社会与文化 66 1101 301

共计 733 12336 3269

一个中文网页分类体系一个中文网页分类体系

非学术性

学术性

人文与艺术

新闻与媒体

商业与经济

社会与文化

区域

娱乐与休闲

政府与政治

教育

自然科学

社会科学

计算机与因特网

医疗与健康

视觉艺术摄影

三层

... ...

训练样本数对分类器质量的影响训练样本数对分类器质量的影响

特征选取算法特征选取算法 DF: Document Frequency IG: Information GainG(t) =

MI: Mutual Information

i irir cPcP1

)(log)(

i irir tcPtcP1r )|(log)|((t)p

i irirr tcPtcPtP1

)|(log)|()(

)()(log),(

BACANActI

)()()()()(2 2

),( DCBADBCACBADNct

特征选取算法对分类质量的影响特征选取算法对分类质量的影响

分类算法分类算法 kNN

NB: Naïve Bayes

jjikNNd

ij bcdydsimcyi

),(),(),(

)()(*)|()|(

BPAPABPBAP

)()(*)|()...|(*)|(

)()(*)|(

)|( 21

dPcPcaPcaPcaP

dPcPcdP

分类算法对分类性能的影响分类算法对分类性能的影响

质量效率（秒）Micro-F1 Macro-F1 训练时间测试时间

kNN 0.8266 0.7560 0 2426

NB 0.1934 0.1612 251 2129

kNNkNN 算法中算法中 kk 的取值的取值

文档之间的相似度文档之间的相似度欧式 (Euclid) 距离

兰氏 (Lance) 距离

dxdxdxCos

ii yxyxD 2/12 )||(),(

文档之间的相似度文档之间的相似度 -- 实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

欧式距离 0.2419 0.1715 4790兰式距离 0.8266 0.7600 2426

类别之间的层次关系类别之间的层次关系训练过程测试过程

1第层

3第层3第层3第层 3第层

2第层2第层

1第层

3第层3第层3第层 3第层

2第层2第层

类别之间的层次关系类别之间的层次关系 -- 实验结果实验结果

质量效率（秒）Micro-F1 Macro-F1 测试时间

基于层次的 kNN

0.7288 0.6296 677

基本 kNN 0.8266 0.7600 1734

截尾算法截尾算法位置截尾法 (RCut) ：从m 的候选类列表中取前 k 项比例截尾法 (PCut) ：分类结果中，某个类的文档比例同训练集中属于类 i 的文档所占的比例一致。最优截尾法（ SCut）：对于候选类列表里的每一个类，如果这篇文档和这个类的相似度大于这个类的最优截尾相似度，那么这篇文档就属于这个类。最优截尾相似度的获得：将训练集分成两部分，其中一部分仍然作为训练集，另一部分作为测试集，对每一个类，评价分类系统在这个测试集下对于这个类的分类性能，调整截尾相似度，使得系统的性能达到最优，此时截尾相似度的值就是这个类的最优截尾相似度

截尾算法截尾算法 -- 实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

RCut 0.8266 0.7600 4324Scut 0.8401 0.7849 5368

基本 kNN 0.8266 0.7600 2426

一个中文网页分类器的设计方案一个中文网页分类器的设计方案关键因素方案训练样本数 15

特征选取方法 CHI

分类算法

kNN & NB kNN

相似度兰式距离层次关系层次关系

截尾算法 SCut

实验结果实验结果质量效率（秒）Micro-F1 Macro-F1 测试时间

新方案 0.7173 0.6229 397

基本 kNN 0.8266 0.7600 1734

中文网页的特性中文网页的特性中文网页的内容使用中文书写，不像英文单词之间存在自然的形态间隔，中文需要分词处理。而且分词的效果能够显著地影响分类效果网页使用超文本设计。它包含大量的 HTML 标签和超链接。我们有可能利用这些信息来改进分类的质量网页通常包含大量的“噪音”。同普通文本相比，网页的设计比较随意，通常包含各类广告，设计人员的注释以及版权申明等无关信息。有时同一个网页甚至会包含多个不同的主题。在进行分类之前，需要自动清除这些“噪音”，否则这些“噪音”会降低分类质量

典型网页举例典型网页举例

清除噪音算法清除噪音算法流程：源文件标签树内容识别正文，相关连接，噪音删除噪音

<<html>html><head><head><title> </title><title> </title></head></head><body><body><table><table> <tr><tr> </tr></tr> ...... <table><table> <tr><tr> </tr></tr></table> </table> </body></body></html></html>

head body

相关子树不相关子树

噪音识别方法噪音识别方法网页结构信息

标签信息： table, tr,td, div, p 大小，位置超链数，文字数正文

网页内容信息分类

实验结果实验结果 - - 分类结果分类结果质量效率（秒）

Micro-F1 Macro-F1 测试时间没有取噪音 0.8266 0.7600 1734

去噪音 0.8293 0.7746 2359

一种从搜索引擎日志中学习新词的方法一种从搜索引擎日志中学习新词的方法引言基本思想用户查询词的分布特性分析组合模式的提取候选词的筛选算法分析实验结果及其分析

引言引言相关研究

人名地名机构名共同点：应用面向领域的语料库

从搜索引擎日志中学习新词的优点学习新词的效率、准确率高能够及时地学习到最近出现的新词，而且这些新词不受领域的局限客观性

基本思想基本思想基本思想

用户查询词的分布特性已有分词系统

从搜索引擎日志中学习新词的一般步骤

预处理查询词分布特性, 分词

组合搜索引擎日志候选新词

模式模式筛选新词

用户查询词的分布特性用户查询词的分布特性分别以“天网” 搜索引擎收集的三批日志文件数据为分析对象集合：• 第一批是从 2000 年 11 月 20 日至 2001 年 9月 4 日期间的日志数据（共 9,256,772条记录）• 第二批是从 2001 年 12 月 20 日至 2002 年 2月 3 日期间的日志数据（共 9,394,200条记录）• 第三批是从 2002 年 7 月 1 日至 2002 年 8月 14 日期间的日志数据（共 6,391,282条记录）

用户查询词的长度分布特性用户查询词的长度分布特性用户的查询词通常都是非常简短的，用户的查询词通常都是非常简短的，92%92% 以上的用户查询词的长度不超以上的用户查询词的长度不超过过 88 个汉字个汉字 65%65% 以上的查询词的长度不超过以上的查询词的长度不超过 44个汉字。在所有查询词中，个汉字。在所有查询词中， 44 个汉个汉字长的查询词最多，占字长的查询词最多，占 28%28% 以上。以上。22 个汉字长的查询词次之，占个汉字长的查询词次之，占 2222%%以上以上

用户查询词的频度分布特性用户查询词的频度分布特性搜索引擎日志中用户查询词在频度分布上是高度集中的前 5%的高频词占据了 64%以上的总查询次数前 20%的查询词占据了 83%以上的总查询次数以第三批数据为例，在 639.1万次的用户查询中，共有 447,1万次中文查询，而这些查询词中仅包含了 43.4万不同的查询词，频率大于等于 5 次的仅有 11.9万个

组合模式的提取两个规则组合模式的提取两个规则直接删除已经被分词系统作为单个词条的已知组合模式，并且在模式提取的过程中不破坏已有的基本词条如果查询词的长度 n≤4 个汉字字符长，在日志中出现的频率比较高，而且被分词系统分割成单个汉字的组合，那么由这些单个汉字一起组成的词就作为一个侯选新词，而其它的组合则被视为无效

汉字组合模式的提取算法汉字组合模式的提取算法输入：经过预处理后保留下来的所有用户查询词输出：候选新词集 ω算法： 1. count←经过预处理后保留下来的所有用户查询词的个数 .2. while (count>0)

3. 取一个查询词 S， n←S 的长度， m←S 分词后得到的词条数， mi←第 i 个词条4. if (NOT m = 1)5. if ( n = 2 OR n= 3) S ω∈6. else if (n = 4)7. if (m= 2 OR m = 4 ) S ω∈8. else if ( m = 3) S ω OR (m∈ 1 m∪ 2) ω OR (m∈ 2 m∪ 3) ω∈9. else if (n>4)10. 按正向增字的方法， S←取 4 个字符， GOTO 3.11. count←count –1

汉字组合模式提取算法复杂度分析汉字组合模式提取算法复杂度分析所有汉字组合模式的穷举法

6763 个一、二级汉字， k 个汉字可能产生的组合模式有当 k=4 时，共有 2.1×1015重组合模式

本文的方法 O（ S）=

当 i=2或 i =3 时，需要匹配的次数为常数 1 当 i=4 时，根据分词结果，需要匹配的最大次数为常数 3 当 4＜ i≤8 时，根据“正向增字匹配”，可以分别拆分成

i≤4 时的情况。最后求得 O（ S ≈） 3.4 次

iii SOSP

候选词的筛选候选词的筛选 “伪词条”的筛选

所谓“伪词条”就是不能形成真实词条的候选词通过限制最小频率就可以过滤“伪词条”，但是也会过滤掉一些频率比较低的正确词条

“伪组合词”的筛选 “伪组合词”就是不能构成真实组合词的两个词放在一起作为一个组合词的候选词 S = S1 U S2

规则： Diff =

如果 freq（ S1）＞＞ freq（ S2），那么 S1 最可能是基本词条 ≥ 2 如果 freq（ S1）＜＜ freq（ S2），那么 S2 最可能是基本词条 ≤ -2 如果 freq（ S1 ≈） freq（ S2），那么S最可能是基本词条（– 2 ，2 ）

)()()( 21

SfreqSfreqSfreq

新词学习方法质量的测试 – 定义新词学习方法质量的测试 – 定义定义 1

a = 学习得到的新词中包含的正确词条数 b = 学习得到的新词中包含的错误词条数 c = 日志中包含而没有被学习出来的新词数

定义 2 “ 学准率” p = ，即学习得到的新词中包含的正确词条数与学习得到的新词总数的比值定义 3 “ 学全率” r = ，即学习得到的新词中包含的正确词条数与日志中包含的所有新词数的比值

新词学习方法质量的测试 – 实验方法新词学习方法质量的测试 – 实验方法随机地从预处理后保留的用户查询词中选择 3000 个不同的查询词进行人工地分词，删除分词系统已经作为一个独立词条的词后，得到 743个新词将自动学习得到的 821 个新词按频率从高到低排列，并分成 8 个等份，并分别统计前

k（ 1≤k≤8 ）个等份的 a、 b、 c 值之和，然后根据定义 2 和定义 3 ，分别求前 k 个等份对应的“学准率” p和 “学全率” r 值

新词学习方法质量的测试 – 实验结果新词学习方法质量的测试 – 实验结果

实验结果举例实验结果举例正确学习的：

新潮词：下载，考研，手机，课件，网站，美眉，短信 … 人名：刘德华，江泽民，周星驰 … 地名：北京，上海，美国，日本，中关村 … 娱乐焦点：寻秦记，璩美凤，大史记，天龙八部 … 敏感话题：乱伦，三级片 …

错误学习的：用户不能确定：到底是“璩美凤”还是“虞美凤”？一些不能作为新词的娱乐作品名：“我猜”

漏学的：频率比较低，而确实是新词的，玄奘 …

新词学习方法效率的测试新词学习方法效率的测试

引言引言 Spider 式搜索引擎的特点

索引的网页数多，信息量大更新频率高查准率相对较低

目录式搜索引擎的特点查准率相对较高规模较小维护代价高

中文网页自动分类技术研究 及其在搜索引擎中的应用

Documents

Transcript of 中文网页自动分类技术研究 及其在搜索引擎中的应用

行動載具的搜尋引擎優化指南 Mobile SEO Tips

腾讯大讲堂21 搜索引擎优化（seo）简介

搜索引擎推广与商务智能 2 3 · 搜索引擎推广与商务智能 ... 全面而有效地利用搜索引擎行网络营销和推广 推广策略 搜索引擎授 ... 关键字

搜索引擎优化（SEO）知识完全手册 - cnblogs.com · 搜索引擎优化是 一种搜索引擎营销指导思想，而不仅仅是对google的排名。搜索引擎优化工作贯穿网

搜索引擎优化 Search Engine Optimization

2019/10/14media.hust.edu.cn/download/1.1.pdf搜索引擎技术基础 2 课程内容 1 商用搜索擎架构与原理 （8学时） 6 移动搜索 （1学时） 5 搜索引擎优化

[ 搜 索 引 擎 ]

如何高效使用搜索引擎 - library.xmu.edu.cn€¦ · 利用搜索引擎搜索的不是整个互联网，而 是搜索已经建好的数据库。 2.搜索引擎并非万能，很多需求无法解决，例

Soiseek - 搜IC:全中文IC搜索引擎

高雄市職業總工會 網路應用課程 06 搜索：搜索引擎、維基百科 (10/6)

搜索引擎概述 - Tsinghua!!!"了解搜索引擎的基本概念! #"掌握常用综合性搜索引擎的使用方法! $"掌握常用学术性搜索引擎的使用方法" 内容框架

SEO 搜尋引擎最佳化

—— 搜索引擎的使用

網路平台在關鍵字廣告市場之中立性探討 · 2015-08-19 · 用搜尋引擎的過程中，一般而言會有數以千計的結果出現，而廣告商進行搜尋引擎

第十章 搜 索 引 擎

曲琳 购物搜索引擎架构的变与不变——一淘网搜索技术分享0731

中国中小企业网络营销 调查报告 - CAS · 搜索引擎营销（以下简称“搜索营销”），包括搜索引擎优化（seo）、搜索关键字广告 等。搜索引擎优化是指对网站的内容和结构进行优化，以提升网站内容被各搜索引擎排

2.5 搜尋引擎，無所不查miniserver2.skps.tn.edu.tw/allweb/2-5.pdf · 的搜尋列，以下以Yahoo!奇摩搜尋引擎搜尋『好玩遊戲』為例。請在文 字輸入欄位中輸入『好玩遊戲』，再按下【網頁搜尋】即可。

網路搜尋引擎的發展 與其重要性

SEO(Search Engine Marketing Optimiation ) 搜尋引擎最佳化之介紹

中文网页自动分类技术研究及其在搜索引擎中的应用

Transcript of 中文网页自动分类技术研究及其在搜索引擎中的应用

搜索引擎推广与商务智能 2 3 · 搜索引擎推广与商务智能 ... 全面而有效地利用搜索引擎行网络营销和推广推广策略搜索引擎授 ... 关键字

搜索引擎优化（SEO）知识完全手册 - cnblogs.com · 搜索引擎优化是一种搜索引擎营销指导思想，而不仅仅是对google的排名。搜索引擎优化工作贯穿网

2019/10/14media.hust.edu.cn/download/1.1.pdf搜索引擎技术基础 2 课程内容 1 商用搜索擎架构与原理（8学时） 6 移动搜索（1学时） 5 搜索引擎优化

[ 搜索引擎 ]

如何高效使用搜索引擎 - library.xmu.edu.cn€¦ · 利用搜索引擎搜索的不是整个互联网，而是搜索已经建好的数据库。 2.搜索引擎并非万能，很多需求无法解决，例

高雄市職業總工會網路應用課程 06 搜索：搜索引擎、維基百科 (10/6)

第十章搜索引擎

曲琳购物搜索引擎架构的变与不变——一淘网搜索技术分享0731

中国中小企业网络营销调查报告 - CAS · 搜索引擎营销（以下简称“搜索营销”），包括搜索引擎优化（seo）、搜索关键字广告等。搜索引擎优化是指对网站的内容和结构进行优化，以提升网站内容被各搜索引擎排

2.5 搜尋引擎，無所不查miniserver2.skps.tn.edu.tw/allweb/2-5.pdf · 的搜尋列，以下以Yahoo!奇摩搜尋引擎搜尋『好玩遊戲』為例。請在文字輸入欄位中輸入『好玩遊戲』，再按下【網頁搜尋】即可。

網路搜尋引擎的發展與其重要性