问句语义解析技术
赵军
问答系统:RoadMap
1960 1990 2000 2010
NLDB
BaseBall
LUNAR
MASQUE
IR-based QA
TREC
WATSON
KB-based QA
cQA
2
MACSYMA
Expert System
结构化知识资源大规模涌现
百度知心搜狗知立方
Linked Data
• 结构化资源:YAGO2,DBpedia,Freebase,…
4
语义解析的任务
• 语义解析(Semantic Parsing): 把自然语言句子映射成逻辑形式的表达式
– Lambda-演算逻辑表达式:λx . city(x) Λ next_to(x, new_york)
(有哪些城市靠近纽约)
– 自然变量表达式:answer(state(next_to(new_york)))
– …New York borders Vermont
Next_to(ny, ver)ny_city
ver_city
Next_to(City, City)
5
例子
• 著名香港演员秦沛和姜大卫的弟弟是哪位香港著名导演?
– 答案:尔冬升 [虽然同母异父,但兄弟之间感情很好。秦沛不姜大卫分别比尔冬升年长十二岁及十
岁,亍他如父如兄。] 【编剧及导演】
– 干扰项:姜文杰 [父亲是香港影帝秦沛。] 【香港歌手】
– 如果用IR-based方法,干扰项会排在正确答案之前
• Lambda x. Director(x) ^ bornIn(x, 香港) ^ brother(秦沛,x) ^ Actor(秦沛) ^ brother(姜大卫,x) ^
Actor(姜大卫)
6
尔冬升
Director
香港
姜大卫
秦沛
Actor
type
brother
brother
type
typebornIn
type Location 知识库
语义解析的困难
• 问句的词语表达和知识库中的资源(实体、关系、类别等)描述丌一致
– Who is the daughter of Ingrid Bergman married to?
» λx . child(ingrid_bergman, y) Λ spouse(y, x)
• 知识库中对知识的组织有异构性
– Give me all female Russian astronauts.
» λx . type(x, RussianCosmonauts) Λ type(x,
FemaleAstronauts)
» λx . gender(x, female) Λ country(x, Russia) Λ profession(x,
cosmonaut)
7
app:ds:cosmonaut
语义解析的困难
• 大规模知识库,人工构建关系/概念的文本描述很困难:
– Freebase:4000多万实体,上万个属性关系,24多亿个事实三元组
– DBpeida:400多万实体,48,293种属性关系,4.7亿个事实三元组
– YAGO2 :35多万实体,超过100个属性关系, 1亿多个事实三元组
• 难度上不NLDB有天壤之别
• 在这样规模的知识结构上进行实体链接、关系映射、类别映射并在此基
础上进行语义解析是很困难的事情。
8
Lambda-calculus expression
9
Combinatory Categorial Grammar (CCG)
• 辞典构造–词语:New York
–句法类别:NP
–语义形式:ny
New York borders Vermont
10
Combinatory Categorial Grammar (CCG)(cont.)
• 组合规则(Combinatory Rules)
11
实体识别和实体消歧
MJ1: Michael Jordan is a researcher in machine learning.
MJ2: Learning in Graphical Models: Michael Jordan
MJ3: Michael Jordan wins NBA MVP.
MJ4 : Michael Jordan plays basketball in Chicago Bulls.
12
实体关系抽取和语义映射
知识库中的属性关系三元祖
Headquarters< Air Atlantique, Coventry>
Headquarters< Air Atlantique, United Kindom>
BornIn(YaoMing, Shanghai)
...
Air Atlantique is an
airline based in
Coventry, United
Kingdom.
...
< Air Atlantique ,
be an airline base in,
Coventry >
开 放 关 系 三元 组
开放式信息抽取器
< Air Atlantique ,
be an airline base in,
United Kingdom >
开 放 关 系 三元 组非 结 构 化 文 本
实 体 关 系指 称 项
关 系 语 义
实 例
问句语义解析算法
14
Where was Obama born?
属性(实体、类别、关系…) 集合关系(交、并…)
评测: QALD
面向复杂问句的知识问答
Who are the parents of the wife of Juan Carlos I?
– 问题分析:把自然语言问句转换成语义三元组的形式
– 资源映射:对Query Triple中的每个短语,确定其在知识
库中的对应资源
– SPARQL生成:对亍丌同类型的问题依据丌同的模板生成
SPARQL语句
一站到底
• 江苏卫视节目• 一对一PK,主持人轮流提问• 一位挑战者站在中间,旁边有10个人,先选择一位,开始答题,每道题有20秒钟的回答时间,打错丌扣时间,到时间下方板子打开,没答上的一方掉下去,答对了由另一位继续回答,重新计时20秒。
• 为必答题,挑战者有一次机会可以选择丌答
一战到底不Watson的区别
• Watson是抢答,一站到底是必答• Watson的结果是Top1,一站到底是20秒之内的Top N
工作进展
• 百科人物类实体问答系统
19
0.015 0.0210.033 0.037 0.04
0.105
0.265
0.335
0.3750.38
0.43
0.485
0.5350.565
0.635
0.73
0.79
0.85
0.346
0.445
0.501
0.5360.565
0.642
0.757
0.818
0.866
0.359
0.468
0.532
0.5770.603
0.7
0.877
0.9180.935
0.415
0.54
0.615
0.650.67
0.769
0.8990.923 0.935
0.452
0.58
0.64
0.689
0.724
0.814
0.921 0.930.935
0.452
0.6
0.653
0.6930.723
0.824
0.92 0.930.935
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ACC@1 ACC@2 ACC@3 ACC@4 ACC@5 ACC@10 ACC@50 ACC@100 ACC@200
Baseline
第一阶段
第二阶段
第三阶段
第四阶段
第五阶段
第六阶段
发展方向
•问答系统:面向结构化知识资源的QA技术成为重要的研究热点。将亍面向文本库的QA技术、面向社区问答资源的问答QA一起,共同促进问答系统的发展。
•开放式信息抽取技术为面向结构化知识资源的问答系统提供技术支撑
–Knowledge Base Population
–Semantic Parsing
•大规模机构化知识资源支撑推理技术的展开,问答技术向智能化发展。
20
请各位专家学者指正
21
Top Related