Summary of Rule-based Reordering Space in Statistical Machine Translation

Post on 05-Dec-2014

111 views 6 download

description

Summary of Rule-based Reordering Space in Statistical Machine Translation.

Transcript of Summary of Rule-based Reordering Space in Statistical Machine Translation

文献紹介長岡技術科学大学  自然言語処理研究室

松本宏

文献• Title:

• Rule-based Reordering Space in Statistical Machine Translation

• Author:

• Nicolas P'echeux and Alexander Allauzen and Francois Yvon

• Booktitle:

• Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

• Pages:

• 1800--1806

統計機械翻訳において• 並び替え(reordering)は重要

• 並び替え問題には

• 組み合わせ爆発

• 曖昧性

• 可能性高い組み合わせに絞り込むルールが必要

フレーズベースでは

• フレーズごとの並び替えが行われる

• フレーズの中での並び替えを考慮

• しかし、枝刈りでの制限された検索空間しかみない

本文献の貢献1. n-gram SMT system:

• 2-stepに分ける

1. 並び替え

• ソース文の順列ラティス構築

2. ディコーディング

2. SMT NCODEの紹介

• Crego, Josep, François Yvon, and José Mariño. "Ncode: an open source bilingual n-gram smt toolkit." The Prague Bulletin of Mathematical Linguistics 96 (2011): 49-58.

並び替え

アライメント

並び替え

並び替えルール

Reordering Rules Extraction

ソース文の語順関連タグの並び並び替え後の語順

順列順列集合

並び替えルールの取得

部分列 に対して

Reordering Lattices Generation

文 を基本とするラティスを構築

部分単語列並び替えルール{

1.

2.

に対して部分パスを追加

NCODEが最適beam検索を行う3.

Experiment• Data:

• 英仏Basic Traveling Expression Corpus

• 英仏, 英独 NEWS COMMENTARY from WMT’12

• 難しさ: 英独 >>> 英仏 とされている

• SMT tool

• NCODE

• 表記

• m: 翻訳, l: ラティス考慮, u: 目的言語順

• oracle: Tromble, Roy W., et al. "Lattice Minimum Bayes-Risk decoding for statistical machine translation." Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2008.

Reordering Space Sizes

Reordering Space Sizes

汎化

• POSタグを利用しての書き換えルール

• POS(spos): 12 POS タグ

• Enhanced POS(e50pos): 50 POSタグ

• Brown classes(classes): クラスタリング

Alternative Tagsets