Reducing the Impact of Data Sparsity in Statistical Machine Translation
-
Upload
takahashi-kanji -
Category
Engineering
-
view
149 -
download
0
Transcript of Reducing the Impact of Data Sparsity in Statistical Machine Translation
![Page 1: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/1.jpg)
Reducing the Impact of Data Sparsity in Statistical Machine Translation
長岡技術科学大学 自然言語処理研究室
高橋寛治
Karan Singla, Kunal Sachdeva, Diksha Yadav, Srinivas Bangalore, Dipti Misra Sharma, Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation, pages 51–56, October 25, 2014, Doha, Qatar.
文献紹介 2016年6月3日
![Page 2: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/2.jpg)
概要•形態論情報が豊富な言語の翻訳には大量のコーパスが必用•大規模コーパスに代替する方法
ØRNNベースの言語モデルの利用ØWordNetで内容語のスパースさの軽減
•SMTの性能の向上
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 3: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/3.jpg)
はじめに•SMTのモデルの良さはコーパスのサイズに依存
Ø言語モデル、ディストーションモデル•同コーパス規模での性能向上
ØRNNベースの言語モデルでPBSMTの出力を利ランキング
ØWordNetのSynsetでOOVによる訳質の問題を改善
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 4: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/4.jpg)
関連研究•MTにおける再ランキングは翻訳のn-bestの再スコア付けØDungarwalら2014は再ランキングØMikolovら2010, Liuら2014 RNNLMにより音声認識の
精度を向上•MTへの統合
ØRazmaraら2013, Cohnら2007はフレーズのカバレッジを知識の結合により強化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 5: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/5.jpg)
ベースライン• ICLIコーパス(英語-ヒンディー語)
Øトレーニング:48970文Øテスト:500文、デベロップメント:500文
•言語モデル作成のためのコーパスはWMT14•フレーズベースの統計的機械翻訳
ØMosesØGIZA++ØSRILM
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 6: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/6.jpg)
英語の語順並び替え•スタンフォードパーサーを用いて規則に基づいて並び替えØInput: the girl in blue shirt is my sister.ØOutput: in blue shirt the girl is my sister.ØHindi: neele shirt waali ladki meri bahenhai(blue)(shirt)(Mod)(girl)(my)(sister)(Vaux)
•BLEU: 20.04->21.84
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 7: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/7.jpg)
1.再ランキング•関連研究に習い、RNNLMの素性を選択
Ø原形、品詞、number-caseØヒンディーWikipediaの50万文を用いて学習
•RNNLMによりリランキングØPBSMTのN-bestをRNNLMでリランキングØ素性による変化
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 8: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/8.jpg)
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 9: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/9.jpg)
2.WordNetを用いたデータスパースネス問題の軽減•OOVに対してSynsetIDの置換により対応
Ø原言語側•置換する為には語義の選定が必用
Ø語義選定は(Tammewarら2013)を参考•固有表現は対象外とした
Ø同義語を持たないと考えた
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 10: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/10.jpg)
語義選定•単一
Ø品詞タグが対応する語が所属するSynsetで始めに見つかったもの(頻度順に並んでいるらしい)
•結合Ø品詞タグが同一の語が所属するSynsetすべてØ共通する親を利用ØTravel go
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 11: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/11.jpg)
機械翻訳モデルへの結合•MANYを利用(Eng(synset)-HindiとBaseline)
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 12: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/12.jpg)
実験結果
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation
![Page 13: Reducing the Impact of Data Sparsity in Statistical Machine Translation](https://reader036.fdocument.pub/reader036/viewer/2022092616/586f79ef1a28ab10258b7125/html5/thumbnails/13.jpg)
OOVについて• NE:固有表現• VB:動詞• NN:名詞・代名詞• ADJ:形容詞• AD:副詞• OTH:英語で意味を持
たない語• SM:スペルミス
ReducingtheImpactofDataSparsityinStatisticalMachineTranslation