機械学習による 日本語名詞句照応解析の一手法

29
1 機機機機機機機 機機機機機機機機機機機 機機 機機機機機機機機機機機機機 機機機機機機機機 機機機 機機機機 機機機機 機機機

description

機械学習による 日本語名詞句照応解析の一手法. 奈良先端科学技術大学院大学ニューヨーク大学 飯田龍  乾健太郎 松本裕治   関根聡. 先行詞. 村山富市首相 は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。 首相 は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。. 照応詞. 名詞句照応解析. 文章内の同一指示対象を同定するタスク 照応解析の応用 対話モデル, MT, IR, IE, QA. 照応解析の先行研究. おおきく2つの手法に分類できる - PowerPoint PPT Presentation

Transcript of 機械学習による 日本語名詞句照応解析の一手法

Page 1: 機械学習による 日本語名詞句照応解析の一手法

1

機械学習による日本語名詞句照応解析の一手法

奈良先端科学技術大学院大学 ニューヨーク大学飯田龍  乾健太郎 松本裕治    関根聡

Page 2: 機械学習による 日本語名詞句照応解析の一手法

2

名詞句照応解析 文章内の同一指示対象を同定するタスク

照応解析の応用 対話モデル , MT, IR, IE, QA

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

先行詞

照応詞

Page 3: 機械学習による 日本語名詞句照応解析の一手法

3

照応解析の先行研究

おおきく2つの手法に分類できる 理論指向の規則作成に基づく手法

(Baldwin 95, Mitkov 97, Vieira ら 00, 村田ら 97)

照応関係タグ付きコーパスを用いた学習手法(Soon ら 01, Ng ら 02, Yang ら 03, Ge ら  98)

センタリング理論など言語学的な知見をもとに規則を作成 Message Understanding Conference (MUC)

• 精度 約 70%, 再現率 約 60%   ( 対象言語は英語 ) 規則の保守 洗練が難しい・

表層情報からわかる単純な手がかりを使用 MUC の同タスクにおいて,規則ベースの手法と 同程度の精度を得ている

Page 4: 機械学習による 日本語名詞句照応解析の一手法

4

目的

一般に英語と比較して日本語の方が名詞の指示性を推定することが困難だと言われている 冠詞 (the など ) の情報が無いため

機械学習を用いた日本語照応解析のモデルを提案 このモデルを日本語の名詞句照応解析に適用し,

どのような現象がどの程度解析可能かを調査する

Page 5: 機械学習による 日本語名詞句照応解析の一手法

5

目次 名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ

Page 6: 機械学習による 日本語名詞句照応解析の一手法

6

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村田ら (‘97) の規則に基づく解析手法

2 つの処理で解析1. 名詞句の指示性 ( 総称名詞,定名詞,不定名詞 ) の推定

局所文脈 ( 助詞,係り元,係り先など ) の情報を利用

2. 定名詞句間の照応関係の同定

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

緑色 : 定名詞

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

「村山富市首相」 = 「首相」「社会党」 = 「党」

Page 7: 機械学習による 日本語名詞句照応解析の一手法

7

村田らの手法の問題点

名詞句「首相」の指示性を推定するには前方文脈の情報が必要 村田らの手法でも規則として用いられているが

例外を書き尽くすことは困難である

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

指示性の推定を誤ることで照応関係の解析全体に影響を及ぼす恐れがある

Page 8: 機械学習による 日本語名詞句照応解析の一手法

8

目次 名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ

Page 9: 機械学習による 日本語名詞句照応解析の一手法

9

提案手法

個別の名詞句が定名詞か否かを分類することなく照応関係を認定する手法

1. 最尤先行詞候補の同定 照応詞候補に対して最も先行詞らしい候補

(最尤先行詞候補 ) を同定する

2. 照応詞の認定 最尤先行詞候補と照応詞候補の対を用いて

照応詞候補が照応詞かそれ以外 (非照応詞 ) かを分類

照応詞候補と最尤先行詞候補の両方の情報を参照して指示性を推定

名詞句照応解析の問題を 2 つに分割

Page 10: 機械学習による 日本語名詞句照応解析の一手法

10

最尤先行詞候補の同定

トーナメントモデル (Iida 03)

村山富市首相 超党派 八日 社会党 首相照応詞候補

村山富市首相 最尤先行詞候補

先行詞候補

村山富市首相 首相

村山富市首相 超党派 八日 社会党照応詞候補

超党派 最尤先行詞候補

先行詞候補

超党派 社会党

Page 11: 機械学習による 日本語名詞句照応解析の一手法

11

1. 最尤先行詞候補の同定 照応詞候補に対して最も先行詞らしい候補

(最尤先行詞候補 ) を同定する

2. 照応詞の認定 最尤先行詞候補と照応詞候補の対を用いて

照応詞候補が照応詞かそれ以外 (非照応詞 ) かを分類

提案手法

村山富市首相首相

超党派社会党

村山富市首相 首相

超党派 社会党

照応関係 ○

照応関係 ×

照応詞候補 最尤先行詞候補

Page 12: 機械学習による 日本語名詞句照応解析の一手法

12

照応詞の認定

訓練事例の作成

正例集合

負例集合

村山富市首相 首相

照応詞先行詞

真の照応詞と先行詞の対を正例とする 村山富市首相 超党派 八日 社会党

非照応詞

超党派

先行詞候補

最尤先行詞候補

超党派 社会党

非照応詞と最尤先行詞候補の対を負例とする

Page 13: 機械学習による 日本語名詞句照応解析の一手法

13

照応詞の認定  (Cont’d)

解析

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相は八日、超党派の「民主リベラル新党準備会」を独自に発足させた社会党の新民主連合会長と会談した。首相は、今春の統一地方選後に党全体での新党移行を目指す考えを強調、離党など性急な行動への自重を求めた。

村山富市首相 社会党… 今春 統一地方選 党

党社会党 照応関係社会党

最尤先行詞候補

照応詞候補

Page 14: 機械学習による 日本語名詞句照応解析の一手法

14

目次 名詞句照応解析の概要

村田らの日本語名詞句照応解析手法

提案手法

評価実験

実験結果と誤り分析

まとめ

Page 15: 機械学習による 日本語名詞句照応解析の一手法

15

名詞句照応解析の問題設定

照応関係タグ付きコーパスの作成の際の問題 総称名詞や不定名詞の照応関係

外界照応

複合名詞句の構成素

図書館 1 には本 1 が置いてある。図書館 2 の本 2 は借りることができる。

図書館 1 = 図書館 2

本 1 ⊃ 本 2

包含関係を考慮してタグ付与することは困難庭師はその植物に水をやりましたか。

外界の要素を指示

• 指示詞の無い「村山富市首相」は外界照応 ?

○ [八重洲 東 ] ○ [ 駐車 場 ]

× [[八重洲 東 ] 駐車 ]

•  [ [ 八重洲 東 ] [ 駐車 場 ] ]

Page 16: 機械学習による 日本語名詞句照応解析の一手法

16

照応関係タグ付きコーパス作成の基準

総称名詞と不定名詞は照応詞,先行詞としない

談話内に出現した名詞句のみを先行詞とする

照応詞は文節の主辞 (最右の名詞自立語 ) を対象とする

タグ付与の基準

Page 17: 機械学習による 日本語名詞句照応解析の一手法

17

訓練 評価データ・ 作成したタグ付けの基準に従い,京大コーパスの報道 90記事にタグを付与 883事例を抽出

前処理 形態素解析 (茶筌 ) 構文解析・固有表現抽出 (CaboCha)

学習器 SVM (Vapnik 98)

Page 18: 機械学習による 日本語名詞句照応解析の一手法

18

素性

4種類の素性 語彙的な情報を用いた素性

形態 統語的な情報を用いた素性・

意味的な情報を用いた素性

名詞句間の距離情報を用いた素性

Page 19: 機械学習による 日本語名詞句照応解析の一手法

19

実験結果

先行詞同定 誤り 13.4% (100 - 86.6)照応詞認定 誤り 20.7% (86.6 - 65.9)

種類 精度

(a) 先行詞の同定 86.6% (765/883)(a)+ 照応詞の検出 65.9% (582/883)

非照応詞の棄却 97.4% (6042/6202)

適合率 65.9% (582/883)

再現率 78.4% (582/742)

Page 20: 機械学習による 日本語名詞句照応解析の一手法

20

解析の信頼度 解析を誤るよりも精度良く解析したいという要求がある

照応詞認定処理で分類器が出力する値を信頼度として導入(SVM が出力する分離平面からの距離 )

全体の事例のうち約 5割を出力すると約 9割の精度が得られる

Page 21: 機械学習による 日本語名詞句照応解析の一手法

21

解析誤りの分析 ( 先行詞同定 )

真の照応詞に対する先行詞同定を誤った 118 事例

誤りの原因 割合(1) 名詞意味属性の粒度 35.6% (42/118)(2) 特徴的な語の過剰な重み 16.9% (20/118)

(3) 文字列素性が過剰に働く 18.6% (22/118)(4) 文章内外の情報が必要 15.3% (18/118)(5) 定名詞の推定誤り 9.3% (11/118)(6) その他 22.9% (27/118)

Page 22: 機械学習による 日本語名詞句照応解析の一手法

22

解析誤りの分析 ( 先行詞同定 )

(1) 名詞意味属性の粒度 照応解析に必要な意味属性の粒度とは ?

「会議」 ≠ 「今日」 : 意味属性の違いで棄却できる

「兄」 ≠ 「妹」 : 多くの言語資源において           同一の意味概念<人間 >に含まれる

(3) 文字列素性が過剰に働く 文字列の一致情報は固有表現同士の場合などは有用

しかし 「キリスト教会」と「キリスト教会色」の対が照応関係

と解析される

Page 23: 機械学習による 日本語名詞句照応解析の一手法

23

解析誤りの分析 ( 照応詞認定 )

解析の信頼度が高くかつ解析を誤った 50事例の分析

名詞の指示性の推定方法について今後さらに検討する必要がある

誤りの原因 割合

(1) 定名詞の推定誤り 50.0% (25/50)(2) 文字列素性が過剰に働く 14.0% (7/50)(3) 文章内外の情報が必要 12.0% (6/50)(4) その他 22.0% (11/50)

Page 24: 機械学習による 日本語名詞句照応解析の一手法

24

まとめ

最尤先行詞候補を同定した上で照応詞を認定する名詞句照応解析手法の提案 再現率 65.9%, 精度 78.4%

Page 25: 機械学習による 日本語名詞句照応解析の一手法

25

今後の課題

名詞の指示性に着目して センタリング理論で導入されている

局所文脈情報の利用 ( 不 ) 定名詞と総称名詞を区別するような知識について調

規則ベースの手法との比較

タグ付きコーパス作成方法の洗練

Page 26: 機械学習による 日本語名詞句照応解析の一手法

26

Page 27: 機械学習による 日本語名詞句照応解析の一手法

27

実験結果 ( 照応詞で分類 )

「照応詞の検出と先行詞の同定」を照応詞によって分類 固有表現 : CaboCha の出力する IREX の 8 種の固有表現 代名詞  : 茶筌の出力する品詞 普通名詞 : それ以外

種類 (a) 先行詞同定 (a)+ 照応詞の検出固有表現 94.8% (368/388) 84.3% (327/388)

普通名詞 81.5% (392/481) 52.8% (254/481)

代名詞 35.7% (5/14) 7.1% (1/14)

Page 28: 機械学習による 日本語名詞句照応解析の一手法

28

実験結果 (他手法との比較 )

種類 Yang(‘03)’smodel

Tournamentmodel

Preference Kernel(Shen 03)

先行詞の同定(or 照応詞の検出 )

89.8% (793/883)

86.6% (765/883)

87.5% (773/883)

先行詞の同定と照応詞の検出

86.5% (764/883)

65.9% (582/883)

65.3% (577/883)

非照応詞の棄却 83.1% (5153/6202)

97.4% (6042/6202)

97.6% (6051/6202)

精度 43.1% (793/1842)

78.4% (582/742)

79.3% (577/728)

再現率 86.5% (764/883)

65.9% (582/883)

65.3% (577/883)

F 値 57.5 71.6 71.6

Page 29: 機械学習による 日本語名詞句照応解析の一手法

29

村田ら (‘97) の名詞句の指示性の分類

総称名詞• 名詞句の意味する類に属する任意の成員のすべて,

もしくは類それ自身

非総称名詞 不定名詞

• 名詞句が意味する類に属するある不特定の成員

定名詞• 名詞句の意味する類に属する文脈上唯一の成員

犬は役に立つ動物です。

犬が三匹います。

その犬は役に立ちます。