教師なし多義性解消 ◆ 同義語(または上位語 ) をクエリとして TSUBAKI...

1
教教教教教教教教教 ◆ 教教教 教教教教教教 ) 教教教教教教教 TSUBAKI 教教 100 教教教教教教教 ◆ 教教 教教教教教教教教教教教教教教教SVM 教教教教教教 教教教教教教教教教教教教教教 教教教教教 教教教教 教教教教教 教教教教 SYNGRAPH 教教教教教 [Shibata et al. 08] 教教教教Wikipedia 教教教教教教教教教教教教教教 教教教教 教教教教教教教教 ・・・ 教教教教教教教教教教教教教教 ◆ 教教教教教教教 - ..A(B).., ..B(A).. → A=B ◆ 教教教教教教教教教教教教教教教教教 教教教教教 教教教教教教教教教教 ・・ 教教 - 教教教教教教教教教教教教 = 教教教教 - 教教教教教教教 = IC - 教教教教教教教 = LSI - 教教教教 = 教教教教 教教教教教教教教教教教教教教教教 教教教教教教教教教教教教教教教教教教教 「」 [Firth 57] ◆ Web5 教教教教 教教教教教教教教教教教教教教 教教教教教教 、・ ◆ 教教 v 教教 c 教教教教教教教教 e 教教教 - 教 : 教教教教教 → 教教教 「」 : 教 教教教教教 ◆ 教教教教教教教教教教教教教教教 - 教教教教教教教教教教教教教教教教教教教教教 ◆ 教教教教教 : 教教教教教教教教 教教 = (1, 1, 1, 1, 0, …, 0) 教教教 : 教 教教 : 教 教教 : 教 教教 : 教 教教教 : 教 教教 : 教 教教 = (1, 1, 0, 1, 1, …, 0) 教教教教教教教教教教 教教教教教 ◆ 教教教教教教教教教教教 - 教教教 -- 教教 : 教教教教教 - 教教教 -- 教教教 : 教教教教教教教教教教 -- 教教 : 教教教教 1 教教 ) ◆ 教教教教教教教教教教教教教教教教教教教教 教教教教 教教教教教教教教教 、/ - 教 :1/2 → 教教 0.353 - 教 :2/2 = 教教教 0.204 - 教教 :1/2 = 教教教 0.362 - 教教 :2/2 = 教教 0.115 ◆ 教教教教教教教教教教 教教教教 教教教教教 、・ 教教教教教教教教教 - 教教 , 教教 , 教教教教教教 ◆ 教教教教教教 - 教教教教Wikipedia 教教教 教教教教教教教教教教 教教教教教教教教 - 教教教教教教教教教教教 教教教教教教 教教教教教教教教教 Wikipedia 教教教教教教教教 ◆ 教教教教教教教教教教教 IC:1/7 教教教教 IC:2/7 教教教教教教教教 IC:3/7 教教教教教教教教 IC:4/7 教教教教教教教 教教教教教 IC:7/7 教教教教教教教教教教 教教教教教教教教教 ◆ 教教教教Wikipedia 教教教教教教 教教教教教教教 教教教教教教教教 ◆ 教教教教教教教教教教教 教教教教教教教教 、、 教教教教教教教教教 ◆ 教教教教教 - 教教教教教教教教教教教教教教教教教教 教教教教 TSUBAKI 教教教 - NTCIR 教教教教教教教教教教教教 教教教教教教教教教教教教教教教教 RFID= 教教教教 教教 = 教教 教教教教教教教教教教教教 C( 教教教教 )= 教教教教教教教教教教教教 ! 教教教教教教教教教教教教教教教教教教教教教TSUBAKI 教教教教教教教教教教教教 教教教教教教教教教教教教教教教教教教教教教教教教教教教教教教 教教教教教教教教教教 ◆ 教教教教教教教 SYNID 教教教 教教教教教 教教教 < 教教教教教 > 教教 教教 < 教教 > IC:1 教教教教 教教教教教教教教教 :4 <IC:1> IC:4 教教教教教教教教教教教教 教教教教教教教教 教教教教教 <IC:4> <教> MCP:3 <MCP:3> SYNGRAPH 教教教教教 ◆ 教教教教教教教教 / 教教教教教教教 教教教教教教 IC 教教 1.0 1.0 1.0 1.0 <IC:1> 0.99 教教 1.0 < 教教 > 0.99 教教 1.0 <教> 0.7 教教教教教 教教教 () 教教教教 教教教教 (+) SYN 教教教 教教教 () 教教教教教教教教教 IC:1/7 教教教教 教教教教教教教 LSI IC:2/7 教教教教教教教教 IC:3/7 教教教教教教教教 IC:4/7 教教教教教教教 教教教教教 教教教教教教教教教教教教 IC:7/7 教教教教教教教教教教 教教教教教教教教教教教教教教 教教教教教教教教教教教教教 … 教教教教教教 教教教教 (LSI) 教教教教教教教教教教教教教教… … 教教教教教教教教教教教教教教教教 教教教教教教教教教教教教教教教教… 教教教教教

description

大規模コーパスに基づく同義語・多義語処理. 京都大学 黒橋研究室 柴田知秀. 電子タグを普及させる上での問題点. インフォームドコンセント. ◆ 自然言語処理において、同義語・多義語の扱いが常に問題となる - 検索 , 翻訳 , 質問応答など ◆ 本発表の概要 - 国語辞典・ Wikipedia ・大規模コーパスから同義語・多義語を自動抽出 - 大規模コーパスを用いて、同義語のマージ、教師なし多義性解消. I C( 集積回路 )= インフォームドコンセント !. RFID= 電子タグ. 課題 = 問題. - PowerPoint PPT Presentation

Transcript of 教師なし多義性解消 ◆ 同義語(または上位語 ) をクエリとして TSUBAKI...

Page 1: 教師なし多義性解消 ◆ 同義語(または上位語 ) をクエリとして TSUBAKI から 100 件の文書を取得 ◆ 同一文に出現する内容語を素性として

教師なし多義性解消◆ 同義語(または上位語 ) をクエリとして TSUBAKI から 100 件の文書を取得◆ 同一文に出現する内容語を素性として SVM モデルを学習

大規模コーパスに基づく同義語・多義語処理京都大学 黒橋研究室 柴田知秀

SYNGRAPH データ構造  [Shibata et al. 08]

国語辞典・ Wikipedia ・大規模コーパスからの同義語・多義語・上位語の自動抽出

大規模コーパスから同義語抽出◆ 括弧表現を利用 - ..A(B).., ..B(A).. → A=B◆ 国語辞典からは抽出できない固有名詞・専門用語・新語の同義語を抽出できる - 国際連合教育科学文化機関 = ユネスコ - 大規模集積回路 = IC - 大規模集積回路 = LSI - 携帯電話 = ケータイ

大規模コーパスから分布類似度計算◆ 「分布の類似した語は意味も類似している」 [Firth 57]

◆ Web5 億文から、係り受けに曖昧性のない用言・格要素を抽出◆ 用言 vと格 cのペアを共起要素 eと呼ぶ - 例 : 「荷物を積む」 → 「積む : ヲ」が共起要素◆ 名詞を共起要素のベクトルで表す - 名詞と共起要素が相互情報量が正のものを利用◆ 分布類似度 : 共起要素の重複率

荷物 = (1,   1,     1,     1,      0, …,   0)

荷揚げ : ヲ搬入 : ヲなる :ニ

届く :ガ

食べる : ヲ集散 :ヲ

物資 = (1,   1,     0,     1,      1, …,   0)

国語辞典からの同義語・上位語抽出◆ 定義文のパターンで抽出 - 上位語 -- 夕食 : 夕方の食事 - 同義語 -- アイス : 「アイスクリーム」の略 -- 購入 : 買うこと ( 1 文節 )◆ 高い網羅性で基本語彙の関係を抽出できるが、比喩的/例外的な関係も含む - 犬 :1/2 → 動物 0.353 - 犬 :2/2 = スパイ 0.204 - 水道 :1/2 = 上水道 0.362 - 水道 :2/2 = 海峡 0.115

◆ 自然言語処理において、同義語・多義語の扱いが常に問題となる - 検索 , 翻訳 , 質問応答など

◆ 本発表の概要 - 国語辞典・ Wikipedia ・大規模コーパスから同義語・多義語を自動抽出 - 大規模コーパスを用いて、同義語のマージ、教師なし多義性解消

Wikipedia からの多義語抽出◆ 曖昧さ回避ページを利用

IC:1/7 集積回路IC:2/7 インタークーラーIC:3/7 インターチェンジIC:4/7 インフォームド・コンセント…IC:7/7 リンパ球性脈絡髄膜炎

まとめと今後の課題

◆ 国語辞典・ Wikipedia ・大規模コーパスから同義語・多義語を自動抽出◆ 大規模コーパスを用いて、同義語のマージ、教師なし多義性解消 ◆ 今後の課題 - 多義性解消を行なった同義語処理を検索エンジンTSUBAKI に実装 - NTCIR の検索コレクションで評価

電子タグを普及させる上での問題点

RFID= 電子タグ

課題 = 問題

インフォームドコンセント

I C( 集積回路 )= インフォームドコンセント !

科研情報爆発で開発している検索エンジン基盤「 TSUBAKI 」において表現のずれを吸収

多義性解消を行なっていないため不適切なマッチングが生じてしまう

同義表現データベース◆ 同義グループに SYNID を付与

  団体

アカデミー 学士院

< アカデミー >

会社 企業

<会社 >

IC:1 集積回路インテグレーション :4

<IC:1>

IC:4 インフォームドコンセントインフォームド・コンセント

<IC:4>

<団体 >

MCP:3

<MCP:3>

SYNGRAPH データ構造◆ 依存構造木に同義 / 上位表現を付与半導体 、

アナログ

IC の

電子

1.0

1.0

1.0

1.0

<IC:1> の0.99

部品1.0

<会社 >0.99

会社1.0

<団体 >0.7

基本ノード(灰色)(自立語+付属語)

SYNノード(白色)同義グループを表す

IC:1/7 集積回路 大規模集積回路 LSIIC:2/7 インタークーラーIC:3/7 インターチェンジIC:4/7 インフォームド・コンセント インフォームドコンセント…IC:7/7 リンパ球性脈絡髄膜炎

分布類似度の低いものを捨てる

分布類似度が高いものをマージ

…半導体集積回路(LSI)や電子部品などの電子デバイスに関する…

…春日インターチェンジは、京都府京都市西京区を通過する京都縦貫自動車道…

多義性解消