Improving Coreference Resolution by Learning Entity-Level Distributed Representations
Kevin Clark
In ACL 2016
読み手:松林優一郎(東北大学)@ 最先端NLP 2016
Christopher D. Manning
1※ 一部の図表は著者論文より引用
Overview
• クラスタマージ型の共参照解析器を NN でモデリング• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現 : 小さな素性セット+3層 DNN– Cluster pairs 表現 : 二つのクラスタ間の全ての mention
pair の情報をプーリングで集約• シンブル?な素性セット+ DNN +頑張ってスムーズに学習+クラスタ内の情報はきちんと吸い上げる → 最高精度(英語と中国語)
2
クラスタマージ型共参照解析
3
Mention ranking• スコア最大の先行詞を選ぶ• 簡単、効率的
Cluster ranking• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの情報(大域的情報)を使う
m
m1m1
m1 m1
NA
m
m1m1
m1 m1
NA
m1
クラスタマージ型共参照解析
4
Mention ranking• スコア最大の先行詞を選ぶ• 簡単、効率的
Cluster ranking• スコア最大のクラスタとマージ
• 既にクラスタ化したmentionの情報(大域的情報)を使う
m
m1m1
m1 m1
NA
m
m1m1
m1 m1
NA
m1
Pretraining
トピック• クラスタマージ型共参照解析器の NN によるモデリング• NN パラメータの効果的なトレーニング
→ Mention ranking モデルをプレトレーニングや候補の枝刈りに使う• クラスタをマージする順序
→ Mention ranking モデルのスコアに基づく easy-first strategy
• 大域素性を含むモデルの適切な学習→ Learning-to-Search (Daumé III et al., 2005, 2009)
5
Model Overview
• Mention ranking と Cluster ranking の二段構成
6
------------------------------------
𝑚1 ,𝑚2 ,𝑚3 ,𝑚4
Mention detector (Raghunathan et al. (2010))
(𝑎 ,𝑚 )𝑎∈𝒜 (𝑚 )∪ {𝑁𝐴 }
Mention-pair 表現Mention-pair encoder
𝑠𝑚 (𝑎 ,𝑚 )
Mention-pair ranker
𝑠𝑚 (𝑁𝐴 ,𝑚 )
DNN
単層 NN
𝑟𝑚 (𝑎 ,𝑚 )
メンションのペアが共参照かどうか
Model Overview
• Mention ranking と Cluster ranking の二段構成
7
------------------------------------
𝑚1 ,𝑚2 ,𝑚3 ,𝑚4
Mention detector (Raghunathan et al. (2010))
(𝑎 ,𝑚 )𝑎∈𝒜 (𝑚 )∪ {𝑁𝐴 }
Mention-pair 表現Mention-pair encoder
𝑠𝑚 (𝑎 ,𝑚 )
Mention-pair ranker
𝑠𝑚 (𝑁𝐴 ,𝑚 )
DNN
単層 NN
𝑟𝑚 (𝑎 ,𝑚 )
メンションのペアが共参照かどうか
𝑚4 ,𝑚1 ,𝑚2 ,𝑚3
の降順でソートEasy-first ordering
シングルトンクラスタから始めて、この順に順に とその先行詞のクラスタのマージを考える
Model Overview
• Mention ranking と Cluster ranking の二段構成
8
------------------------------------
𝑚1 ,𝑚2 ,𝑚3 ,𝑚4
Mention detector (Raghunathan et al. (2010))
(𝑎 ,𝑚 )𝑎∈𝒜 (𝑚 )∪ {𝑁𝐴 }
Mention-pair 表現Mention-pair encoder
𝑠𝑚 (𝑎 ,𝑚 )
Mention-pair ranker
𝑠𝑚 (𝑁𝐴 ,𝑚 )
DNN
単層 NN
𝑟𝑚 (𝑎 ,𝑚 )
メンションのペアが共参照かどうか
𝑚4 ,𝑚1 ,𝑚2 ,𝑚3
の降順でソートEasy-first ordering
𝑐∈ {𝑐∨𝑎∈𝑐 ,𝑎∈𝒜 (𝑚 ) }(𝑐 ,𝑐𝑚 )
Cluster-pair 表現Cluster-pair encoder
𝑠𝑐 (𝑐𝑚 ,𝑐 )
Cluster-pair ranker 単層 NN
プーリング𝑟𝑐 (𝑐𝑚 ,𝑐 )
クラスタペアをマージすべきかどうか
Model Overview
9
------------------------------------
𝑚1 ,𝑚2 ,𝑚3 ,𝑚4
Mention detector (Raghunathan et al. (2010))
(𝑎 ,𝑚 )𝑎∈𝒜 (𝑚 )∪ {𝑁𝐴 }
Mention-pair 表現Mention-pair encoder
𝑠𝑚 (𝑎 ,𝑚 )
Mention-pair ranker
𝑠𝑚 (𝑁𝐴 ,𝑚 )
DNN
単層 NN
𝑟𝑚 (𝑎 ,𝑚 )
𝑚4 ,𝑚1 ,𝑚2 ,𝑚3
の降順でソートEasy-first ordering
𝑐∈ {𝑐∨𝑎∈𝑐 ,𝑎∈𝒜 (𝑚 ) }(𝑐 ,𝑐𝑚 )
Cluster-pair 表現Cluster-pair encoder
𝑠𝑐 (𝑐𝑚 ,𝑐 )
Cluster-pair ranker 単層 NN
プーリング𝑟𝑐 (𝑐𝑚 ,𝑐 )
最もスコアの高いアクションを選択(をマージ、もしくは何もマージしない)
Model Overview
10
先行詞素性 mention 素性
(m1, m3) 表現
Cluster 1
m1m2
Cluster 2
m3m4
(m1, m4) 表現(m2, m3) 表現(m2, m4) 表現
Cluster-pair 表現
Cluster ペアのスコア
Mention-pair encoder
Mention ペアのスコア
Mention-pair 表現Mention-pair ranker
※Mention ranking モデルでエンコーダをプレトレーニングする
メンションのペアが共参照かどうか
クラスタペアをマージすべきかどうか
doc 素性
Cluster-pair encoder
Cluster-pair ranker
Mention-pair encoder
11
全結合の3層ReLU レイヤー
単語ベクトルの初期ベクトルは 50 次元の Word2Vec
1000 次元
500 次元500 次元
Mention-pair encoder に使う素性• 埋め込み素性
– 単語:主辞、親、最初の単語、最後の単語、前後2単語– 単語平均:前後5単語、 mention 構成単語、文、文書
• その他– Mention のタイプ: (pronoun, nominal, proper, or list)– Mention の位置(正規化されたインデックス番号)– 文書ジャンル– Mention 間の距離:文距離、間の mention 数、オーバーラップ– 話者( Raghunathan et al. (2010) )
• 同じ話者による mention かどうか• ある mention が他の mention の話者かどうか
– 文字列マッチ:主辞、完全一致、部分一致12
Mention ranking model
• Mention-pair encoder のプレトレーニング• Candidate pruning for cluster ranking model
– ( m の前方の mention 集合)で の値が高い だけを返すようにする• Easy-first search のためのスコアリング
– クラスタマージを行う際に が高い m から順にマージを考える13
Mention ペア表現
Mention ranking model
• Loss
14
Mention ペア表現
と共参照関係にある mention
mistake-specific cost function
グリッドサーチします
Pretraining of mention ranking model
15
150 epoch
50 epochと共参照関係にない mention
Cluster-pair encoder
• 二つのクラスタ間の全 mention ペア表現を考える• 二種類のプーリングを連結
–Max pooling–Avg. pooling
16
Cluster ranking model
• Mention の順序付け– Easy-first ordering : で降順にソート
• 状態• 動作集合
– 1回の動作により、次の状態 が決まる– ,
• ポリシーネットワーク
17
最初はシングルトンクラスタの集合
の各操作に確率を割り当てる
m の前方にある mention が属すクラスタ
Learning-to-search (Daumé et al. 2005, 2009)
• Cluster ranking model の各状態での観測はそれまでのアクション系列に依存する• ゴールド系列だけで学習するのではなく、途中まではシステムのアクション、途中から正しいアクション、という系列を使って Loss を計算する• 学習時に、「過去の系列が間違っている」というテスト時に起こりうる状況を取り入れる
18
Learning-to-search (Daumé et al. 2005, 2009)
19
-
を最も高めるアクション
Experiments and evaluations• 実験設定
– データ: CoNLL 2012 shared task dataset (English & Chinese)– 評価: MUC, B3, Entity-based CEAF に関する F1 の平均
• Mention ranking model での feature ablations
• Mention ranking model における異なる訓練方法の評価– 二種類のプレトレーニング方法
• それぞれの要素技術の評価– Pretraining of mention ranking model– Easy-first strategy– Learning-to-search algorithm
• 既存研究との比較20
Model performance withfeature ablations
21
Pretraining methods formention ranking model
• Mention ranking model それ自体もプレトレーニングが重要 ( All-pairs も Top-pairs も必要)
22
各要素技術の効果• Cluster ranking model を直接学習せず、 mention
ranking model でプレトレーニングする方が良い• Easy-first はちょっと効果あり(ノイズが乗りにくい?)• Learning-to-search もちょっと効果あり(ノイズに強い?)
23
Comparison to previous work
• CoNLL 2012 では、全てのスコアで現時点の最高性能– Mention ranker の時点で既に勝っている
24
Conclusion
• クラスタマージ型の共参照解析器を NN でモデリング• Mention pair と cluster pair のスマートな分散表現
– Mention pair 表現 : 小さな素性セット+3層 DNN– Cluster pairs 表現 : 二つのクラスタ間の全ての mention
pair の情報をプーリングで集約• シンプルな素性セット+ DNN +頑張ってスムーズに学習+クラスタ内の情報はきちんと吸い上げる → 最高精度(英語と中国語)
25
Top Related