Q T

13
Q T 陈陈 @ 陈陈陈陈 / 1

description

Q T. /. 陈 德 @ 浙江大学. Jaccard Similarity. 编辑距离. 规则. 分词. ICTCLAS. Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v 第二 /m 关 /n 找 /v 不 到 /v 初始 /b 位子 /n 。 / wj. 词 对齐. Q: 妄想 性仮想人格障害 / zz - PowerPoint PPT Presentation

Transcript of Q T

Page 1: Q T

1

Q T陈德 @ 浙江大学

/

Page 2: Q T

2

规则

编辑距离

Jaccard Similarity

Page 3: Q T

3

分词 ICTCLAS

词对齐

Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 /ng 害 /v

T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 /ng 害 /v 第二 /m 关 /n 找 /v 不到 /v 初始 /b 位子 /n 。 /wj

Q: 妄想性仮想人格障害 /zzT: 妄想性仮想人格障害 /zz 第二 /m 关 /n 找 /v 不到 /v 初始/b 位 子 /n 。 /wj

Page 4: Q T

4

词过滤 POS

助词( \u ) 叹词( \e ) 标点( \w )连词( \c ) 语气词( \r )某些特定类型词:邮箱名、客气词等。

Page 5: Q T

5

词权值TF-IDF 、词长度train4user.txt 、 test4user.txt

𝑥=𝑁∗𝑙𝑥

妄想性仮想人格障害 /zz/2.9904

妄想性仮想人格障害 /zz/1.3373 第二 /m/0.2494 关 /n/0.4392 找 /v/0.2069 不到 /v/0.4088 初始 /b/0.8123 位子 /n/1.1081

Page 6: Q T

6

相似度: 分词前的原始字符串

添加( 1 )、删除( 1 )、替换( 1.2 ): 处理后的词数组

添加()、添加()、替换

Page 7: Q T

7

𝑗𝑎𝑐𝑐=𝑊 (𝑄∩𝑇 )𝑊 (𝑄∪𝑇 )

𝑠𝑖𝑚𝑖=1.0−2∗𝑒𝑑1∗𝑒𝑑2𝑒𝑑1+𝑒𝑑2

Page 8: Q T

8

初始判别

10.75

0.48

Page 9: Q T

9

相似度调整 规则使用

𝜶

0 1相似度

升高相似度

降低相似度

Page 10: Q T

10

规则

某词性在且仅在 Query 、 Title 之一中出现

处所词( s ) : 外地、国外、网上…… 方位词( f ) : 外侧、里面、附近…… 数词( m ) : 20 、二、 2013 字符串( x ) : pdf 、 i9100 、 iphone

某些词在 Query 、 Title 中出现的情况 在之一中存在() 同时存在但没有共同的词()

地名( ns ):北京、上海、日本 疑问代词( ry ):为什么、怎么、如何

降低

Page 11: Q T

11

规则升高

某些词在 Query 、 Title 中同时出现

地名( ns ):北京、上海、日本 疑问代词( ry ):为什么、怎么、如何 字符串( x ) : pdf 、 i9100 、 iphone

降低 Query 和 Title 中首尾词的权值,词性 /zz , /ns 除外

Page 12: Q T

12

不足与改进 分词结果不够理想,可以选用好的分词

工具,添加丰富的用户词库。

没有考虑到同义词,尤其在编辑距离的计算中影响巨大。

仅通过 TF-IDF 和词的长度来判断词的重要性,不够准确。

缺乏语法语义上的分析。

Page 13: Q T

13

谢谢