Jointly optimizing word representations for lexical and...

14
Jointly optimizing word representations for lexical and sentential tasks with the C-PHRASE model 橋本和真 東京大学・鶴岡研究室 博士課程1年 2015/08/24 ACL読み会@東工大

Transcript of Jointly optimizing word representations for lexical and...

Page 1: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

Jointly optimizing word representations for

lexical and sentential tasks with the C-PHRASE

model

橋本和真

東京大学・鶴岡研究室

博士課程1年

2015/08/24 ACL読み会@東工大

Page 2: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• word2vecをはじめとした単語ベクトルの話が盛ん

– 単語の共起に基づく単語ベクトルの学習

• 「同じような文脈に出てくる単語の意味は近い」

• この論文で提案してること

– 任意のフレーズのベクトルも同じように同時に学習

• 単語とフレーズの共起

• フレーズを特定するために構文解析器を利用

コーパスからのフレーズベクトルの学習

2015/08/24 ACL読み会@東工大

“To the best of our knowledge, C-PHRASE is the first model

that is jointly optimized for lexical and compositional tasks.”

2 / 14

Page 3: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• word2vecに実装されている手法 (Mikolov+, 2013)

– CBOW

• 文脈単語のベクトルの和を用いて単語を予測

– Skipgram

• 単語の文脈単語を予測

• C-PHRASE (提案手法)

– 単語ベクトルの和を用いてフレーズベクトルを計算

• フレーズの認識には構文解析器を利用

– フレーズベクトルを用いて周辺の文脈語を予測

CBOW+Skipgram C-PHRASE

2015/08/24 ACL読み会@東工大 3 / 14

Page 4: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• 構文的に尤もらしいフレーズの特定

構文解析器を用いたフレーズの特定

2015/08/24 ACL読み会@東工大

A sad dog is howling in the park.

dog,

sad dog,

a sad dog,

a sad dog is howling, etc.

4 / 14

Page 5: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• フレーズベクトル=構成要素の単語ベクトルの和

– 非常に広く用いられている (Mitchell+, 2008)

• 構造を考慮しないため、使い勝手がよい

– ”red car”と”car red”が同じ (語順を考慮しない)

• 「”red”は形容詞として、”car”はヘッドとして出現」

• 「後者はほとんど出現しないので問題無い」

–主語と目的語を入れ替えても自然な場合には?

フレーズベクトルの計算

2015/08/24 ACL読み会@東工大 5 / 14

Page 6: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• Skipgramの応用

文脈単語の予測モデル

2015/08/24 ACL読み会@東工大

単語ベクトル

フレーズベクトル

6 / 14

Page 7: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• Skipgramと同様のコスト関数

– フレーズと単語の共起をモデル化

– SGDなどによって最適化

文脈単語の予測モデル

2015/08/24 ACL読み会@東工大

フレーズ (単語列)文脈語文脈窓のサイズ

7 / 14

Page 8: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• フレーズによって文脈窓のサイズを変える

– 短いフレーズ: 小さい文脈窓

• より文法的な情報を重視

– 長いフレーズ: 大きい文脈窓

• よりトピック的な情報を重視

文脈窓のサイズの決定

2015/08/24 ACL読み会@東工大

ℎ 𝐶 : フレーズのノードと、

構成要素の単語ノード間のノード数の最大値

𝑐𝐶 = 𝑐1 + ℎ 𝐶 𝑐2

8 / 14

Page 9: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• 学習するパラメータは単語ベクトルのみ

– 他の複雑なモデルに比べて軽いモデル

• 学習に必要なものはフレーズ (内部構造無し) とコーパス

– 言語依存性が低い

– テスト時には構文解析器は必ずしも必要ない

• 単語ベクトルの和をとるだけなので

• 特定のタスクに特化していない

– 人手の教師データを必要としない

• 特定のタスクの知識を入れることも今後可能

全体の特徴

2015/08/24 ACL読み会@東工大 9 / 14

Page 10: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• 学習用コーパス (3つの組み合わせ)

– ukWaC, English Wikipedia, British National Corpus

• 構文解析

– Stanford parser

• ハイパーパラメータ (𝑐𝐶 = 𝑐1 + ℎ 𝐶 𝑐2)

– 𝑐1 = 5, 𝑐2 = 2

実験設定

2015/08/24 ACL読み会@東工大 10 / 14

Page 11: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• men, wss, wsr, rg: 単語の意味類似度を測るタスク

– 人手の評価との相関係数による評価

• 概念を表す単語のグルーピングのタスク

• 単語アナロジー (例, “king”-”man”+”woman”=“queen”)

– 正解率で評価

単語レベルのタスクの結果

2015/08/24 ACL読み会@東工大 11 / 14

Page 12: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• sick, msrvid, onwn: 文の意味的類似度を測るタスク

– 人手の評価との相関係数による評価

• sst: 感情分析

– 文レベルでの nega/posi の二値分類

文レベルのタスクの結果

2015/08/24 ACL読み会@東工大 12 / 14

Page 13: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

学習したフレーズベクトルの例

2015/08/24 ACL読み会@東工大 13 / 14

Page 14: Jointly optimizing word representations for lexical and ...sasano/acl2015suzukake/slides/14.pdf2015/08/24 acl読み会@東工大 “To the best of our knowledge, C-PHRASE is the first

• CBOWとSkipgramの考え方を応用して、任意のフレーズ

のベクトル表現を学習

• 様々なタスクで良い結果を達成

• 今後の可能性

– タスク特有の知識を学習に取り込む

– 係り受けなどを文脈情報として組み込む

まとめ

2015/08/24 ACL読み会@東工大 14 / 14