Web 文本中的实体 消歧

75
Web 文文文文文 文文 文文文 [email protected] 文文文文文文文 , 文文文文文文文文文文

description

Web 文本中的实体 消歧. 韩先培 [email protected] 信息检索研究室 , 中国科学院软件研究所. 提纲. 研究背景 实体聚类消歧 语义知识挖掘 基于语义的实体消歧 实体链接消歧 基于实体 - 提及模型的实体 链接 基于图的协同实体链接 总结与展望. 提纲. 研究背景 实体聚类消歧 语义知识挖掘 基于语义的实体消歧 实体链接消歧 基于实体 - 提及模型的实体 链接 基于图的协同实体链接 总结与展望. 背 景 (1) : 实体歧义. 实体歧义指的是 同 一名字在不同上下文中可对应不同的实体 - PowerPoint PPT Presentation

Transcript of Web 文本中的实体 消歧

Web 文本中的实体消歧

韩先培[email protected]

信息检索研究室 , 中国科学院软件研究所

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所2

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所3

4

背景 (1) : 实体歧义 实体歧义指的是同一名字在不同上下文中可对应

不同的实体

MJ1: Michael Jordan is a researcher in machine learning.

MJ2: Learning in Graphical Models: Michael Jordan

MJ3: Michael Jordan wins NBA MVP.

MJ4 : Michael Jordan plays basketball in Chicago Bulls.

给知识工程、信息检索和自然语言理解等任务带来问题

背景 (2) :连接文本和知识 Web 上有许多迅速增长的大规模知识库

Wikipedia, Freebase, Yago, DBPedia, etc. 百度百科、互动百科等等 这些知识库包含了丰富的实体、属性和关系知识

利用这些知识库中的知识 前提:连接文本中的实体与知识库中的实体 可为基于知识的 NLP 和 IR 系统提供关键基础

IR Laboratory, ISCAS5

During his standout career at , also acts in the movie .

Michael Jordan

NBA Player

Basketball Player

Chicago Bulls

NBA

Sport Organization

NBA Team

Knowledge Base

Employer-ofIS-A

IS-A IS-A

IS-A

IS-A

Part-of

JordanBulls

Space Jam

Space Jam

Actor-of

命名实体消歧形式化 一个命名实体消歧系统是一个六元组

待消歧名字集合 N ,如 { 乔丹,李鹏 , …}

目标实体集 E ,如 {NBA 球星乔丹, Berkeley 教授乔丹,爱尔兰政治家乔丹… }

消歧文档集 D ,如 Web 网页集,乔丹的前 100 个搜索结果,…

实体指称集 O ,即实体名在 D 中的出现加上下文,如 {( 乔丹,…十大灌篮 ), ( 乔丹, NBA 统计数据 ),…}

背景知识库 K ,如维基百科 消歧义算法:

8

命名实体消歧方法实体聚类消歧

目标实体列表 E 没有给定 把所有指称项聚类 聚出来的每一个类别对应一个单独的实体

实体链接消歧 目标实体列表 E 给定 将实体指称项与其在实体表中对应实体进行链接

实现消歧

9

命名实体消歧方法 ( 实例 )

1 . M ich a e l J o rda n is th eg r ea tes t N BA p lay er

2 . M ich a e l J o rda n ( Un iv .o f C a lif o r n ia , Ber k e ley ,

US A)

3 . N BA.c o m : M ich a e lJ o rda n Bio

4 . M ich a e l J o rda n is anE n g lis h f o o tb a ll g o a lk eep er

b o r n in E n f ie ld

1 . M ich a e l J o rda n is th eg r ea tes t N BA p lay er

3 . N BA.c o m : M ich a e lJ o rda n Bio

2 . M ich a e l J o rda n ( Un iv .o f C a lif o r n ia , Ber k e ley ,

US A)

4 . M ich a e l J o rda n is anE n g lis h f o o tb a ll g o a lk eep er

b o r n in E n f ie ld

(a ) Ëĸö " M ich a e l J o rda n "Ö¸ ³ÆÏî

(b) »ù ÓÚ¾ÛÀàµÄÃüÃûʵ Ìå Ïû Æç½á¹û

M ich a e l J o rda nB a s k e tba ll P la y e r

M ich a e l J o rda nFo o tba ll P la y e r

M ich a e l J o rda nI ris h Po lit ic ia n

1 . M ich a e l J o rda n is th eg r ea tes t N BA p lay er

2 . M ich a e l J o rda n ( Un iv .o f C a lif o r n ia , Ber k e ley ,

US A)

3 . N BA.c o m : M ich a e lJ o rda n Bio

4 . M ich a e l J o rda n is anE n g lis h f o o tb a ll g o a lk eep er

b o r n in E n f ie ld

( c) »ù ÓÚʵ Ìå Á´ ½ÓµÄÃüÃûʵ Ìå Ïû Æçϵ ͳ

N IL E ntity. . . .

Öª ʶ ¿â

¾ÛÀà1

¾ÛÀà2

¾ÛÀà3

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所10

11

现有方法 关键在于如何计算实体指称项之间的相似度 传统方法通常采用词袋子模型进行计算

实体指称项之间的相似度由词的同现决定

有时通过抽取实体属性来扩展特征或进行约束 如人物的出生日期 , 职业,单位,出生地等

MJ1 : Michael Jordan is a NBA player

MJ2 : Michael Jordan wins NBA MVP

12

现有方法缺点 基于词袋子模型的相似度忽略了大部分的语义

知识,如 概念之间的语义关联 :

Jordan … Machine learning vs. Learning in Graphical Models … Jordan

词语之间的词汇化关联 :

Jordan is a footballer vs. Jordan is a football player

实体之间的社会化关联Jordan wins NBA MVP vs. Jordan … Chicago Bulls

高性能的命名实体消歧需要有语义知识作为支撑

13

问题 如何获取准确、高覆盖率的语义知识

概念之间的语义关联

如何基于语义知识构建高性能命名实体消歧系统 语义相似度计算

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所14

15

语义知识源 互联网上存在着大量的语义知识源

结构化的知识源,如 Wikipedia 、 Freebase 和 OpenCyc 等; 非结构化的知识源,如网页库,文本库;

但是 这些知识源通常是多源异构的 语义知识通常以隐藏的形式出现

文本库内实体的共现次数(NBA, Chicago Bulls): 5,630,000(EMNLP, ACL): 108,000(EMNLP, NBA): 484…如何解释这些统计量的语义?

带链接的网页

16

挑战 如何从知识源中挖掘出隐藏的语义知识? 如何集成来自不同知识源的语义知识?

语义关联度 W3C NBA

WWW Conference 0.19 0.00

Chicago Bulls 0.00 0.71

文本库内实体的共现次数(NBA, Chicago Bulls): 5,630,000(EMNLP, ACL): 108,000(EMNLP, NBA): 484…如何解释这些统计量的语义?

带链接网页

17

结构化知识源 (Wikipedia)

大规模在线百科全书 ( 用于捕捉概念之间的语义关联 )超过 300万个条目超链接结构表现的语义知识

重定向页面(同义关系) 消歧页面(多义关系) 关联关系(其它超链接)

Bayesian

network

Chicago Bulls

Machine learning 0.74 0.00

NBA 0.00 0.71

结构化知识源 (WordNet)

英语词汇知识的知识库(用于捕捉词语之间的语言学关联) 11万英文词汇的词义 词义之间的各种语义关系,例如 (kind of),

holonym (part of), synonym 等

school science

university 0.67 0.10

research 0.54 0.39

18

19

非结构化知识源 ( 文本库 )

大量文本的集合,如 Web 网页库 基于模糊集合理论,使用文本库的实体同现信息

来捕捉命名实体之间的社会化关联使用 Google Similarity Distance 进行计算

共现次数(NBA, Chicago Bulls): 5,630,000(EMNLP, ACL): 108,000(EMNLP, NBA): 484…如何解释这些统计量的语义?

W3C NBA

WWW Conference 0.19 0.00

Chicago Bulls 0.00 0.71

20

问题

知识源的多源异构性 包含不同的概念: Wikipedia 包含实体概

念, WordNet 包含通用概念 包含不同的关系: Wikipedia 包含实体概念之间关

联关系, WordNet 包含词语之间的词汇关系 解决方法:融合多源信息的语义关联

大部分语义知识隐藏在复杂结构中 解决方法:结构化的语义关联

21

语义图处理知识源的多源异构性

统一的语义知识表示模型 图的节点表示独立概念 图的边表示概念之间是否存在语义关系边的权重表示语义关系的强度

22

语义图 (示例 )

23

结构化语义关联 (1) 语义图中语义知识的挖掘和融合算法

语义图中语义知识的两种表现形式语义图的边(显式语义知识)——建模了所有从

知识源中直接抽取出的概念之间的显式语义关联语义图的结构(结构化语义知识)——建模了概

念之间的隐藏语义关联

24

结构化语义关联 (2)

计算原则:“如果一个概念的关联概念与另一个概念存在语义关联,则这个概念也与另一个概念存在语义关联” 传递性:语义关联在图中是传递的递归性:计算原则是递归地,选取语义图边信息

作为递归开始点

i

ilij lj ij

l N i

AS S A

d

邻居节点传递 显式语义关联

25

结构化语义关联 (示例 )

Researcher CS GM Learning

Researcher --- 0.50 0.27 0.31

CS 0.50 --- 0.62 0.73

GM 0.27 0.62 --- 0.80

Learning 0.31 0.73 0.80 ---

挖掘出的隐藏语义关联

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所26

27

研究成果 基于结构化语义关联的相似度计算

实体指称项的概念向量表示 概念对齐 相似度计算

在相似度计算中加入概念之间的语义关联,有效提升实体消歧系统的性能

28

指称项的概念向量表示 每一个实体指称项被表示为概念的向量

每一个特征都是真实意义上的语义单元

概念权重取决于它与表示中其它概念的语义关联度

M J 1

M J 2

R e se a r c h e r( 0 .4 2 )

M a c h in ele a r n in g( 0 .5 4 )

A r t if ic ia lin t e llige n c e ( 0 .5 1 )

C o m p ut e r sc ie n c e( 0 .5 2 )

St a t ist ic s( 0 .5 2 )

C o gn it iv esc ie n c e ( 0 .5 1 )

R e se a r c h( 0 .4 7 )

MJ1: Michael Jordan is a leading researcher in machine learning and artificial intelligence.MJ2: Michael Jordan has published over 300 research articles on topics in computer science, statistics and cognitive science

29

概念对齐 识别两个指称项概念表示之间的对齐关系

对每一个概念 c ,将其与另一表示中与其有最大语义关联度的概念对齐

处理表示的稀疏问题,以及概念的对应关系

M J 1

M J 2

R e se a r c h e r( 0 .4 2 )

M a c h in ele a r n in g( 0 .5 4 )

A r t if ic ia lin t e llige n c e ( 0 .5 1 )

C o m p ut e r sc ie n c e( 0 .5 2 )

St a t ist ic s( 0 .5 2 )

C o gn it iv esc ie n c e ( 0 .5 1 )

R e se a r c h( 0 .4 7 )

M J 1

M J 2

R e se a r c h e r( 0 .4 2 )

M a c h in ele a r n in g( 0 .5 4 )

A r t if ic ia lin t e llige n c e ( 0 .5 1 )

C o m p ut e r sc ie n c e( 0 .5 2 )

St a t ist ic s( 0 .5 2 )

C o gn it iv esc ie n c e ( 0 .5 1 )

R e se a r c h( 0 .4 7 )

30

相似度计算 (1)

一个指称项到另一个指称项的语义关联被定义为“所有对齐概念语义关联的带权平均”

权重 概念语义关联

31

相似度计算 (2)

考虑到对齐的非对称性,两个指称项之间的相似度被定义为从 ol到 ok 的和从 ok到 ol 的语义关联度平均

1( , ) ( ( ) ( ))

2k l k l l kSIM o o SR o o SR o o

• 相似度考虑了两个方面:- 表示中概念的对应关系- 指称项概念的语义关联

32

实体指称项聚类算法

实体指称项根据它们之间的相似度进行聚类 相似度阈值通过留一测试 (Leave-one-out) 确定

MJ1 MJ2 MJ3 MJ4

Distance

33

实验使用 WePS 数据集测试使用结构化关联语义核的实体相似度能够提升

10.7% 的消歧性能

34

vs. State-of-Art

与 WePS1 系统性能对比 与 WePS2 系统性能对比

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所35

实体链接 将文本中实体提及与其知识库中的所指进行链

接实现消歧 知识库作为真实世界的映射 实现文本到知识的连接

考虑到实体链接依赖于大量背景知识,提出 基于实体 - 提及模型的实体链接算法

考虑到篇章中实体之间的主题一致性,提出 基于图的协同实体链接算法

信息检索研究室 - 中科院软件所36

实体链接 --Demo

迈克尔 · 乔丹:美国NBA著名篮球运动员,他为联盟带来至少100亿的收入,也把耐克公司从一家小公司…

Name: 迈克尔 · 乔丹Category: Basketball PlayerDescription: “美国 NBA著名篮球运动员,被称为“空中飞人 ,…”

ID: 00000002

Name: 美利坚合众国Category : CountryDescription: “ 是一个宪政联邦共和制国家,…”

ID: 00010992

Name: National Basketball AssociationCategory : Basketball AssociationDescription: “美国第一大职业篮球联盟,…”

ID: 10010974

Name: 耐克公司Category : Sportswear CompanyDescription: “全球著名的体育用品公司,…”

ID: 50610007

公民

位于

球员

赞助商

赞助商

知识库文本

信息检索研究室 - 中科院软件所37

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所38

基于实体 - 提及模型的实体链接 实体链接依赖于大量背景知识 实体的 Popularity(知名度)知识

新闻中更可能出现朱德(将军),而不是朱德(理发师) 实体的名字知识

IBM比全称 International Business Machines更容易作为IBM公司的名字出现

实体的上下文知识 词 NBA更可能出现在 NBA 球星乔丹周围,而不是机器学习教授乔丹

提出了实体 - 提及模型来融合上述异构知识信息检索研究室 - 中科院软件所39

ACL 会议

候选链接实体

Association for

Computational Linguistics

Atlantic City Line

知名度

经常说起ACL 协会

几乎不谈起亚特兰大的城市快轨

名字知识

通常被叫做ACL

只在车站代码上叫做

ACL

上下文

ACL 协会每年组织一次 会议

Atlantic City Line 从没组织过会议

﹖﹖√╳

关键在于如何建模实体的知名度知识、名字知识和上下文知识

实体 - 提及模型 (EM Model)在实体 - 提及模型中 , 每一个命名性提及 m都被建模为通过下述生成过程 (generative story)产生的样本 :

1. EM Model根据实体的知名度 P(e)选取提及 m 的目标实体 e

KB

NBA 球星迈克尔乔丹

乔丹

乔丹在 1984年加入 NBA

2. EM Model 根据 实 体 的 名 字 知 识P(s|e)选取提及 m 的名字 s

3. EM Model 根据实体的上下文知识P(c|e)输出提及 m 的上下文 c

实体的知名度知识、名字知识和上下文知识依次被建模为概率分布 P(e), P(s|e), P(c|e)

信息检索研究室 - 中科院软件所41

基于实体 - 提及模型的实体链接 基于上述模型 , 实体 e 是提及 m 目标实体的

概率 :

模型选择能最大化条件概率 P(e|m) 的实体 e作为其提及 m 的目标实体

= =( , ) ( , , ) ( ) ( | ) ( | )P m e P s c e P e P s e P c e

( , )

e argmax argmax ( ) ( | ) ( | )( )e e

P m eP e P s e P c e

P m

信息检索研究室 - 中科院软件所42

模型估计Graph based Interdependence Modeling

训练语料

ID 实体名 链接实体 上下文

1 Jordan Michael Jeffrey Jordan

… wins his first NBA MVP in 1991.

2 NBA National Basketball Association

… is the pre-eminent men's professional basketball league.

… … … …

训练语料是基于 Wikipedia超链接结构构建的语料共包含超过 23,000,000 标注好的实体链接语料

实体知名度模型— P(e)

建模“特定实体的知名度”的知识,我们将其量化为在文章中提起该特定实体的概率 P(e)

某种程度上是实体 e 作为提及 m 目标实体的先验概率

实体知名度模型 一个更知名的实体会在大文档集 ( 如 Web) 中

出现更多次,因此 P(e) 可以通过如下方式估计 :

( ) 1( )

Count eP e

M N

实体 e 出现次数

所有实体的出现次数

实体 知名度度NBA 1.73*10-5

Michael Jordan(NBA player) 8.21*10-6

Michael Jordan(Berkeley Professor)

7.50*10-8

实体名字模型– P(s|e) 建模“我们如何称呼一个实体”的知识

许多种方式 : 全名 , 别名 , 缩写或者拼写错误

是处理实体名字多样性问题的关键知识

实体名字模型我们假设实体名 s 是实体全名 f 的一个 IBM 模型 1翻译

一个词可以通过如下方式翻译 保持原始形式: 迈克尔 迈克尔 缩写: 亲爱的 亲 省略: 温家宝 总理 … 总理 翻译为其它词语:乔丹 佐顿,乔丹神

实体名字模型 基于 IBM translation model I ,使用 Giza++训练

Full name word Name word Probability

Michael Michael 0.77

Michael M 0.008

Michael Micheal 2.64*10-4

Jordan Jordan 0.96

Jordan J 6.13*10-4

St. NULL 0.14

实体上下文模型— P(c|e)

建模“我们谈论实体的哪些内容”

提供消歧的核心证据 词 NBA 的出现可以为乔丹指向 NBA 球星乔

丹提供多少证据? 词统计的出现可以为乔丹指向机器学习教授

乔丹提供多少证据? 如果同时出现词 NBA 和统计呢?

实体上下文模型 将 P(c|e) 表示为语言模型

一个实体的上下文被建模为一个一元语言模型

Pe(t) 是词 t 出现在实体 e 上下文中的概率 .

P(c|e) 计算方式如下 :

1 2 1 2( | ) ( ... | ) ( ) ( ).... ( )n e e e e nP c e P t t t M P t P t P t

{ ( )}e eM P t

实体上下文模型

实验性能

BoW

Top

ic Ind

ex

BoW

Top

ic Ind

ex

Learn

2Lin

k

Learn

2Lin

k

EM

Mod

el

EM

Mod

el

准确率

信息检索研究室 - 中科院软件所53

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所54

协同实体链接 实体 - 提及模型忽略了实体链接任务之间的依

存关系 (Dependency) 单篇文本内的实体与文档的主题紧密相关 因此单篇文本内提及的目标实体应该语义相关

During his standout career at Bulls, Jordan also acts in the movie Space Jam.

Michael Jordan

Chicago Bulls

Space Jam

Jordan

Bulls

Space Jam

语义相关利用目标实体之间的语义关联,协同链接单篇文本内的所有提及能有效提升实体链接性能

信息检索研究室 - 中科院软件所55

协同实体链接 提出基于图的协同实体链接算法

协同实体链接的关键在于 : 如何准确的建模不同实体链接决策之间的相关性 如何利用上述相关性构建更准确的链接决策

针对上述问题,提出依存表示模型— Referent Graph(指称图) 图上的协同推导算法

信息检索研究室 - 中科院软件所56

指称图表示Graph based Interdependence Modeling

用于实体链接决策的信息 实体指称项 m 的局部上下文 m.C

指称项 m 的上下文与实体 e越相关 , m越可能链接到实体 e 上下文中出现论文,课程这些词,则乔丹更有可能指向机器学习教授乔丹,而不是篮球明星乔丹

实体 - 提及模型的生成概率, TFIDF 相似度

实体之间的语义相关性 与同一篇文本中其它实体更语义相关的实体更有可能

是 m 的目标实体 出现实体芝加哥公牛队的文章也更有可能出现篮球明星乔

丹,而不是机器学习教授乔丹IR Laboratory, ISCAS58

Referent Graph 表示 一个权重图 G=(V, E) 包含两种类型的实体 (V)

命名性提及节点 实体节点

包含两种类型的边 (E) 提及 - 实体 : 提及上下文与实体描述的相似度 实体–实体 : 实体之间的语义相关度

链接决策之间的依存关系被表示为 Referent Graph 的图结构

信息检索研究室 - 中科院软件所59

Referent Graph --Demo

S p ac e J am

C h ic ag o Bu lls

Bu ll

M ic h ae l J o r d an

M ic h ael I . J o r d an

M ic h ael B. J o r d an

S p a c e Ja m

Bu lls J o r d an

M en tio n

E n tity

0 .6 6

0 .8 2

0 .1 3

0 .0 1

0 .2 0

0 .1 2

0 .0 3

0 .0 8

信息检索研究室 - 中科院软件所60

局部依存

全局依存

协同实体链接Random Graph Walk based Collective Inference

实体链接的推导问题 给定一篇文档的所有提及集合 M ,找出他们的

目标实体 给定文章中的提及 {Bulls, Jordan, Space Jam} ,他们所指向的实体是什么?

满足约束 : 一个指称项的目标实体应当 与实体指称项的局部上下文一致 与文档中的其它目标实体语义相关

IR Laboratory, ISCAS62

“Chicken-and-Egg” 问题 上述推导是一个“ Chicken-and-Egg” 问题

如果已知其它目标实体,则可很容易的推导出当前提及的目标实体

但是反过来其它提及的目标实体又依赖于当前提及的目标实体

协同推导我们利用协同推导解决上述“ Chicken-and-

Egg” 问题首先,系统从实体 e 是文档 d 的目标实体的初始证据出发 ,

然后系统利用链接决策之间的相关性自增强正确的决策 (正确的决策之间都紧密相关 )

最后,挑选那些具有最高概率的决策

初始证据 在 Referent Graph 中 ,初始证据是可观测节点—提及

对每一个提及,系统根据其在文档中的重要性( TFIDF)进行打分

IR Laboratory, ISCAS65

证据传递方式 —(提及 - 实体)从提及传递证据到实体

如果一个实体与某个提及局部一致,则有可能是目标实体

局部一致性越高,传递的比率越大

IR Laboratory, ISCAS66

从m到 e 的证据传递比率

m 和 e 之间的局部一致性

证据传递—(提及 - 实体)示例

13%

35%

52%

0.0325

0.0875

0.13

Evidence

证据传递方式—(实体 - 实体) 在相关的决策之间传递证据

如果一个实体与其它目标实体语义相关,则可能是目标实体

与其它目标实体越相关,则越可能

IR Laboratory, ISCAS68

实体 ei 到 ej

证据传递比率

实体 ei ej 之间的语义相关性

证据传递—(实体 - 实体)示例

44.6%

55.4%

0.1784

0.40.2216

协同推导算法从提及中包含的初始证据出发

通过将证据在 Referent Graph 上的依存结构上传递来协同增强证据直至收敛

0r s

1 (1 )t tr T r s

在时间 t+1 的证

证据传递率矩阵(Referent Graph 的归一化

相邻矩阵 )

初始证据

证据重分配率

信息检索研究室 - 中科院软件所70

基于图的协同实体链接最后,命名性提及 m 的目标实体通过最大化

如下公式确定 :

提及 m 的目标实体

局部一致性:上下文相似度

全局一致性:与篇章中其它目标实体的相关度

信息检索研究室 - 中科院软件所71

实验结果 与词袋子模型的局部一致性的方法相比 , 提升了

28%-36% 的 F1值 与关系型局部一致性方法相比 , 提升了 21% 的

F1值 与 Pair-wise 的协同实体链接方法相比 , 提升了

4% 的 F1值 ,并且克服了计算复杂性问题

信息检索研究室 - 中科院软件所72

提纲 研究背景 实体聚类消歧

语义知识挖掘 基于语义的实体消歧

实体链接消歧 基于实体 - 提及模型的实体链接 基于图的协同实体链接

总结与展望

信息检索研究室 - 中科院软件所73

74

展望 长尾上的实体消歧

现有的消歧系统通常只对重要实体进行消歧 将 Web 文本中实体与长尾上的实体,如 sina微博、 Facebook 上的用户相连,可创造广阔的应用前景

概念 / 实体的发现( Discovery) 在实体消歧的同时发现新出现的实体 可以与知识库构建相互补充,从而滚动式的构建

大规模知识库 概念 / 实体级别的 IR 和 NLP技术与应用

敬请各位批评和指导 !

[email protected]

信息检索研究室 - 中科院软件所75