文レベルの機械翻訳評価尺度に関する調査

18
文レベルの 機械翻訳評価尺度 に関する調査 Graham Neubig 情報処理学会第212回自然言語処理研究会, NL-212, 2013. 1 プレゼンテーション:小平 知範

Transcript of 文レベルの機械翻訳評価尺度に関する調査

Page 1: 文レベルの機械翻訳評価尺度に関する調査

文レベルの機械翻訳評価尺度に関する調査

Graham Neubig 情報処理学会第212回自然言語処理研究会, NL-212, 2013.

1

プレゼンテーション:小平 知範

Page 2: 文レベルの機械翻訳評価尺度に関する調査

概要• 機械翻訳の自動評価尺度を翻訳文の品質の判定能力の観点から調査

• 日英、英日、仏英、の計4タスクにおいて、4システム出力に対して人手評価を行い5種類の自動評価尺度を分析する

• 1:自動評価尺度を用いて謝り文を特定する可能性について分析する2:複数システムによる翻訳候補の優劣判定能力を調査

• 結果: すべての評価尺度は、別の評価者による人手評価から得られるアノテータ間一致を下回っており文レベルの自動評価に大きな課題が残る しかし、複数の参照文を用いることにより翻訳品質判定能力が文レベルでも向上する結果も見られた。

2

Page 3: 文レベルの機械翻訳評価尺度に関する調査

評価尺度:人手評価• 自動評価尺度が、人間の評価にどの程度一致するか調査

• 各タスクに対して構築された4つの異なる翻訳システムを用いて、翻訳候補を生成(ここから、1-30語, 200文を用いる)

• 意味的妥当性と流暢性を同時に考慮した、5段階評価

• 評価者2名(A:Grahamさん、B:企業に発注)Bを正解、Aをアノテータ間の一致率を図るために用いる

3

Page 4: 文レベルの機械翻訳評価尺度に関する調査

自動評価:BLEU+1• システム出力と参照文を比較し、n-gram適合率に基づいて翻訳の精度を評価

• 高次のNgramが一致しないので、文ごとの評価には向かない。以下の定義をして、BLEU+1を提案

4

Page 5: 文レベルの機械翻訳評価尺度に関する調査

• 単語誤り率(WER)は、挿入(I)+削除(D)+置換(S) / 参照文の長さ(R)

• WERは、参照文と出力文の語順の違いに非常に厳しい評価尺度になっている。

• 翻訳編集率(TER)は、WERに並べ替えの操作を加えたもの

• WERより、すこし罰則がゆるくなっている5

自動評価:単語誤り率(WER)     翻訳編集率(TER)    

Page 6: 文レベルの機械翻訳評価尺度に関する調査

• BLEUとは違い、語順の誤りに対して、そぶんれほど敏感ではない

• 単語並び順に対してケンダルの順位相関係数を用いる

• 参照文とシステム間で一致する単語のみに対し、順位相関と、unigram適合率と、簡潔ペナルティを用いたものが、RIBESの評価値となる

6

自動評価:RIBES

Page 7: 文レベルの機械翻訳評価尺度に関する調査

METEOR• 表現の微妙な違いを吸収する評価尺度

• 厳密に単語が一致しなくても、単語のマッチと判定する仕組み 様々な言語で類義語集を用意する 語幹だけのマッチを許す

• 他の評価方法と違い、類義語集を用意する必要がある。

7

Page 8: 文レベルの機械翻訳評価尺度に関する調査

実験設定:データとタスク• 評価の題材として、3通りのデータ4通りの翻訳タスク IWSLT:IWSLT2012ワークショップとして配布されたデータを仏英翻訳システムの構築とその評価に利用 KFTT:情報通信研究機構により構築された日英京都関係Wikipedia記事をフリー翻訳タスクで指定された学習・開発・テストセットを利用する MED:医療に関する文書の日英・英日翻訳タスク 学習データに著者が収集した医療関係の文章に加え、英辞郎辞書と例文、KFTT学習データ、BTECを利用

8

Page 9: 文レベルの機械翻訳評価尺度に関する調査

実験設定:翻訳システム• 翻訳システム:Mosesのフレーズベースか、階層的フレーズベースTravatarのtree-to-stringとforest-to-string

• トークン化: 英、仏→Moses内のスクリプト、日本語→KyTea

• 構文解析: 英→Egret、日本語→EdaとTravater内のもの

9

Page 10: 文レベルの機械翻訳評価尺度に関する調査

評価

10

Page 11: 文レベルの機械翻訳評価尺度に関する調査

人間評価の特定精度 許容性の推定精度

• 書く自動評価尺度が誤った翻訳結果や良質な翻訳結果を文レベルで特定できるかどうかについて調査

• 許容性の1~5段階において、各自動評価尺度の中央値と0.25と0.75の信頼区間を調べる

11

Page 12: 文レベルの機械翻訳評価尺度に関する調査

人間評価価値における自動評価尺度の中央値と0.25, 0.75の信頼区間

12

Page 13: 文レベルの機械翻訳評価尺度に関する調査

• 誤り分析のために誤訳を特定する評価尺度としての利用可能性の観点から見た統計を次ページで示す。

• 「評価の悪い順にシステムを見て行った際、許容性1の誤訳を75%特定するまでに全文の何%見る必要があるか」を表した数字である。

• IWSLTとKFTTにおいて誤り文を特定する効率はBLEUが、MEDにおいては、RIBESが最もよかったが、 Grahamさんが評価したものは自動評価より大きく上回る

13

人間評価の特定精度 誤り文の特定効率

Page 14: 文レベルの機械翻訳評価尺度に関する調査

14

人間評価の特定精度 誤り文の特定効率

Page 15: 文レベルの機械翻訳評価尺度に関する調査

システム間の文選択性能• 各評価尺度が、同一の入力文に対する複数の翻訳候補の優劣を判定できるかを調査

• 方法として、各入力文に対して、4つの翻訳の中からその評価尺度が最もいいと判定した候補を選択

• 評価尺度と人間の評価と比較して、三択した文の許容性の平均値を計算

15

Page 16: 文レベルの機械翻訳評価尺度に関する調査

16

システム間の文選択性能

Page 17: 文レベルの機械翻訳評価尺度に関する調査

参照文数の影響• 参照文の追加が誤り文特定能力やシステム間の翻訳結果優劣判定能力に与える影響を調べる

• RefAは元々の文、RefBは著者らが作った文

17

今回は、一番自動評価と人間評価の差が大きかったMEDen-jaを用いた

Page 18: 文レベルの機械翻訳評価尺度に関する調査

終わりに• 機械翻訳の自動評価尺度を文レベルの評価に適用し、2つの観点でその性能力を検証した  1:誤り文の特定性能  2:システム間の文選択性能

• 調査対象とした5つの評価尺度のうち、すべての評価尺度は人間の評価を大幅に下回っていた

• 課題として、文レベルでも正確に翻訳結果の質を 評価できる自動評価尺度の提案など

18