Phrase linguistic classification and generalization for improving statistical machine translation

17
Phrase linguistic classification and generalization for improving statistical machine translation Hiroshi Matsumoto

Transcript of Phrase linguistic classification and generalization for improving statistical machine translation

Page 1: Phrase linguistic classification and generalization for improving statistical machine translation

Phrase linguistic classification and generalization for improving statistical

machine translation

Hiroshi Matsumoto

Page 2: Phrase linguistic classification and generalization for improving statistical machine translation

紹介文献

• De Gispert, Adrià.

• "Phrase linguistic classification and generalization for improving statistical machine translation."

• Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005.

Page 3: Phrase linguistic classification and generalization for improving statistical machine translation

概要

• 動詞(複合動詞)の形態素解析の情報をSMTに利用

• 活用された動詞/複合形態の動詞は同じ確率分布

• インスタンス・モデルでソースの動詞形態からターゲットの動詞形態を選択する

• 未定義動詞形態の汎化手法の提案

• 英ス翻訳(より複雑な活用)

Page 4: Phrase linguistic classification and generalization for improving statistical machine translation

一般式

T = (Ei, Fj) : 汎化クラスのペア

Page 5: Phrase linguistic classification and generalization for improving statistical machine translation

式の意味

• フレーズ翻訳・モデル

–分類データに基づく

• インスタンス・モデル

–各ターゲット・インスタンスに確率付与

Page 6: Phrase linguistic classification and generalization for improving statistical machine translation

インスタンス・モデル

• インスタンスとそれがもつソース・フレーズを共通にもつ全てのタプルとの相対頻度

Page 7: Phrase linguistic classification and generalization for improving statistical machine translation

未定義語の汎化

• 未定義語:

–テスト・セットの多くの動詞形態は学習データに出現しない

• 動詞の主辞の見出し語で分類

–見出し語が学習済み(インスタンスの存在):

• ターゲット・フレーズに翻訳

– インスタンス・モデル・確率存在しない

• 汎化手法に従う

Page 8: Phrase linguistic classification and generalization for improving statistical machine translation

• 以下の文をスペイン語翻訳

“we would have payed it”

• 既知情報:– T1 ( V[pay], pagar)

• I would have payed | habria pagado

– T2 ( V[pay], hacer )• * would have payed | ------

– T3 ( V[pay] it, lo pagar)• I would have payed it | lo habria pagado

Page 9: Phrase linguistic classification and generalization for improving statistical machine translation

• 既知の例文の人称をソース側の人称に揃えて様々なインスンタンスの生成

• 出現回数が新規翻訳候補に重み付けに対応

• 新しい形態に対してのインスタンス・確率になる

Page 10: Phrase linguistic classification and generalization for improving statistical machine translation

インスタンス・確率

Page 11: Phrase linguistic classification and generalization for improving statistical machine translation

Extended Generalization

• 先の汎化手法では1度でも出現する事例にも結びつく

• 他の翻訳確率の高いものを無視してしまう

• そこで、汎化事例を全探索させる

Page 12: Phrase linguistic classification and generalization for improving statistical machine translation

実験&結果

Page 13: Phrase linguistic classification and generalization for improving statistical machine translation

コーパス

• the parallel corpus developed in the framework of the LC-STAR project

–旅行案内用の発話システムのためのスクリプト

–予約スケジュール

–旅行プラン

Page 14: Phrase linguistic classification and generalization for improving statistical machine translation

コーパス統計情報

Page 15: Phrase linguistic classification and generalization for improving statistical machine translation

汎化情報

Page 16: Phrase linguistic classification and generalization for improving statistical machine translation

アライメント結果

Page 17: Phrase linguistic classification and generalization for improving statistical machine translation

翻訳結果