July - 甲南大学関, 藤井 石川 確率モデルを用いた日本語ゼロ代名詞の照応解析 フィールド名 サブエントリ 1 サブエントリ 2 サブエントリ
述語対の項共有情報を利用 した 文間 ゼロ照応解析
description
Transcript of 述語対の項共有情報を利用 した 文間 ゼロ照応解析
1
述語対の項共有情報を利用した
文間ゼロ照応解析
飯田 龍 徳永 健伸東京工業大学 大学院情報理工学研究科{ryu-i,take}@cl.cs.titech.ac.jp
NLP2010 11th March, 2010
NLP2010 11th March, 2010
2
研究背景ゼロ照応解析
文章中の省略されている格要素 ( ゼロ代名詞 )を検出してその指し先 ( 先行詞 ) を補完するタスク
情報抽出のような応用処理で必須となる要素技術 言語理解の実現度を見積る良い試金石
政府 1 は低所得者を (φ1 ガ )支援する計画を(φexo ニ )発表した。 関係省庁 2 の協力を (φ1 ガ )(φ2 ニ )要請する。
先行詞
ゼロ代名詞
NLP2010 11th March, 2010
3
文内・文間のゼロ照応ゼロ照応解析の問題を文内と文間の 2 つに
分割文内ゼロ照応
文間ゼロ照応
文間の場合は統語的な手がかりが利用できず解析が困難になる
太郎は遅刻して( φ ガ)授業に遅れた。統語的なパタンlocal topic の遷移
そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。私は近づくのを躊躇った。しかし、私が近くに行くと、とてもうれしそうに話を( φ ガ)してくれ、笑顔を見せてくれた。
談話の挿入global topic の遷移
NLP2010 11th March, 2010本研究で新たに導入する手がかり
「 X ガ 壊す X ガ 修理する」のような述語対の項の共有情報の利用を考える
4
太郎が次郎を尋ねたとき、彼はラジオを修理していた。先週 (φガ )落として (φガ )壊したらしい。太郎は次郎がラジオを修理しているときに彼の家を訪ずれた。先週 (φガ )落として (φガ )壊したらしい。
次郎
太郎
顕現性 :高
NLP2010 11th March, 2010
5
関連研究
含意関係認識などで利用する事態間関係の知識獲得 (Pekar ら 2006, Abe ら 2008, Szpektor ら 2008, etc.)教師無しであるパタンで出現している述語対を
収集相互情報量などの共起尺度で重み付け
共起事例を収集するための手がかり述語の局所文脈の類似性
(Lin ら 2001, Szpektor ら 2008)アンカー ( 疑似共参照関係 ) (Pekar ら 2006)並列表現 ( 鳥澤 2003)
NLP2010 11th March, 2010
6
アンカーを用いた知識獲得手法 (Pekar ら 2006)1. 文章中に出現する同一名詞句 ( アンカー ) を
近似的に共参照関係とみなして,述語対を収集
共起事例収集の例
2. 頻度をもとに MI などの共起尺度でランク付け
Mary bought a house.The house belongs to Mary.
{buy(subj:X), belong(obj:X)}, {buy(obj:X), belong(subj:X)}
)()(),(log),MI(yPxPyxPyx
NLP2010 11th March, 2010
7
アンカーを用いた知識獲得手法の問題点
同一名詞句が共参照関係にあるとは限らない 共起にノイズが混入
ゼロ照応が頻出する 大規模に獲得できない可能性がある
どのようなパタンで出現した場合にも等価に扱ってよいのか ? 人間は特徴的なパタンで出現している場合には
1回しか出現していない場合でも知識獲得できる
ゼロ照応関係から知識獲得
出現パタンの信頼度を導入
NLP2010 11th March, 2010
8
ゼロ照応関係を利用した項共有の知識獲得
ゼロ照応関係に関する述語対がどの程度項を共有するかのスコアを見積る
※先行詞が明示的に記述されていない場合も※ガ格 - ガ格の組み合わせのみ
項共有スコアアジア一の国際リゾートを目指し観光ビジネスに取り組む
地域課題解決を目指して各市町村が問題解決に取り組んでいる
彼はマスコミを嫌っているのでインタビューを拒否した彼が書類の作成を嫌ったため会社 A は彼のイベントへの参加を拒否した
3.24
1.83
2.19-1.05
目指す -取り組む : 3.51
嫌う -拒否する : 0.79
項共有モデル
述語対タイプのスコア 算出
NLP2010 11th March, 2010
9
1. 項共有モデルの構築
機械学習に基づく項共有関係の 2値分類述語項構造のタグが付与されたコーパスを利用
分類対象述語対が係り受け関係にある場合に限定
「ため」「ので」「が」のような接続表現が項共有を同定するための手がかりとなる (南 , 1974)
訓練事例正例 : 係り受け関係にある
述語対が同一の項を取る場合負例 : それ以外
彼女はお茶を飲みながら本を読んでいる
{ ガ :飲む ,ガ :読む }
NLP2010 11th March, 2010
10
1. 項共有モデルの構築 : 素性
語彙的素性vi(vj) の述語 (基本形 ) ( 例 : 飲む )
統語的素性vi(vj) を含む文節に出現する機能語 ( 例 : なが
ら )vi(vj) の間の文節に出現する機能語 ( 例 : を )vi(vj) の係り元の文節に出現する機能語 ( 例 :
は )項共有の素性
vi と vj が大規模コーパス中でどのくらい項を共有しているか< 名詞 : 格助詞 > と <動詞 > の共起を pLSI で次元圧縮して得られる P(z|v{i,j}) の JS divergence
彼女は / お茶を / 飲みながら / 本を / 読んでいる
vi vj
NLP2010 11th March, 2010
11
ゼロ照応関係を利用した項共有の知識獲得
ゼロ照応関係に関する述語対がどの程度項を共有するかのスコアを見積る
※先行詞が明示的に記述されていない場合も※ガ格 - ガ格の組み合わせのみ
項共有スコアアジア一の国際リゾートを目指し観光ビジネスに取り組む
地域課題解決を目指して各市町村が問題解決に取り組んでいる
彼はマスコミを嫌っているのでインタビューを拒否した彼が書類の作成を嫌ったため会社 A は彼のイベントへの参加を拒否した
3.24
1.83
2.19-1.05
目指す -取り組む : 3.51
嫌う -拒否する : 0.79
項共有モデル
述語対タイプのスコア 算出
NLP2010 11th March, 2010
12
2. 述語対タイプの項共有スコアの計算
述語対のインスタンス ( ) について求めたスコア
述語対のタイプ ( ) についてのスコアへ
ijN
kjkikijji vvNvv ),score()1log(),arg_share(
ji vv ,
jkik vv ,
述語対タイプの頻度 インスタンスのスコア
NLP2010 11th March, 2010
13
評価実験
文間ゼロ照応解析の先行詞同定
1. 項共有のスコアのみで先行詞の順位を評価
2. 項共有のスコアを機械学習に基づくモデルの素性に加えて評価
NLP2010 11th March, 2010
14
先行詞候補の順序付け: 実験設定 1/2 項共有モデルの学習事例
(NAISTテキストコーパス ( 飯田ら , 07) 中の係り受け関係にある述語対 , ガ格 - ガ格の組み合わせ ) 正例 : 8,543 事例 負例 : 29,244 事例
述語対インスタンス 毎日新聞 12 年分から抽出 茶筌・ CaboCha で形態素・係り受け解析
項共有学習・分類 Support Vector Machine (Vapnik, 98)
線形カーネル + デフォルトパラメタ
NLP2010 11th March, 2010
15
先行詞候補の順序付け: 実験設定 2/2 評価用データ
NAISTテキストコーパスの 1部 287記事(2,399 文 ) の文間ゼロ照応 394 事例
評価指標
Nn
nN )rank(/1/1MRR
NLP2010 11th March, 2010
16
MRR を用いた評価結果
モデル MRR NAベースライン ( ランダム )
0.436 ---
アンカーを用いたスコア
0.465 53
提案手法のスコア 0.524 15NA: スコアを計算できない事例数収集できた述語対の数
アンカーに基づく手法 : 1,651,118 対提案手法 : 9,146,543 対 約 5.5倍
NLP2010 11th March, 2010
17
提案手法の学習曲線
訓練事例の規模を変化させた際のMRR の変化を調査
さらに規模を増やすことで精度が向上する見込みあり
NLP2010 11th March, 2010
18
評価データ中の述語対を各手法でスコア付けした結果 (上位 10 事例 )
アンカーに基づく手法 提案手法述語対 スコア 述語対 スコア適合する -適合する亡くす -亡くす着陸する -着陸する見守る - すすり泣く告訴する -告訴する引き下げる -引き下げる造る -造る溶ける -溶かす捨てる -捨てる収容する - 収容する
9.498.727.757.176.956.836.286.126.075.78
逮捕する -捜索する語る -示す置く -始める語る - 表明する語る - 見せる示す - けん制する亡くす - する亡くす -失う訴える -示す強調する -示す
5.963.713.403.322.892.612.552.462.352.05
NLP2010 11th March, 2010
19
先行詞同定における評価
文間先行詞同定ゼロ代名詞が出現する文と異なる文に出現する
先行詞のみを対象に
先行詞同定モデルトーナメントモデル ( 飯田ら , 2003)
先行詞候補間で比較を行い,最終的に最も先行詞らしい候補を決定する
項共有のスコアを加えた場合の精度の変化を調査
NLP2010 11th March, 2010
20
素性
ゼロ代名詞を項として持つ述語の情報語彙・統語情報
先行詞候補の情報語彙・統語・意味情報,出現位置ゼロ代名詞が出現した状況での先行詞候補の
顕現性の情報
述語と先行詞候補の対から抽出可能な素性選択選好,述語と先行詞候補の距離など
NLP2010 11th March, 2010
21
先行詞同定の結果
項共有のスコアを導入することでベースラインより精度向上
モデル 精度a)ベースラインモデル 0.668b) a+ アンカーを用いたスコア
0.689
c) a+ 提案手法のスコア 0.696d) a+ アンカーを用いたスコア + 提案手法のスコア
0.705
NLP2010 11th March, 2010
22
先行詞同定の結果
アンカーを手がかりとするより,項共有のモデルを導入することが精度向上に貢献した
モデル 精度a)ベースラインモデル 0.668b) a+ アンカーを用いたスコア
0.689
c) a+ 提案手法のスコア 0.696d) a+ アンカーを用いたスコア + 提案手法のスコア
0.705
NLP2010 11th March, 2010
23
先行詞同定の結果
それぞれのスコアを素性として導入することが相補的に役立った
モデル 精度a)ベースラインモデル 0.668b) a+ アンカーを用いたスコア
0.689
c) a+ 提案手法のスコア 0.696d) a+ アンカーを用いたスコア + 提案手法のスコア
0.705
NLP2010 11th March, 2010
24
まとめと今後の課題
述語対の項共有モデルを利用したゼロ照応解析手法ゼロ照応解析タグ付きコーパスを用いて項共有モデルを構築
そのモデルの出力するスコアを素性として利用することにより,先行詞同定で 4% の精度向上
今後の課題「体調ヲ崩す 病気ニなる」のような句と句の粒度で事態間の関係を捉える