Statistical Machine Translation Overview

Post on 18-Dec-2014

1.740 views 3 download

description

This slides was used in Japan Translation Federation (JTF2010) on December 13, 2010.

Transcript of Statistical Machine Translation Overview

統計的機械翻訳の理論と実装

2010年12月13日20周年記念JTF翻訳祭D-3セッション

河野弘毅かわの・ひろき

メール hiroki@kawano.netツイッター @kawano_hiroki

ホームページ http://smallmedia.jp

機械翻訳の現状

出典: (2010年11月30日)

機械翻訳の現状

出典: (2010年11月30日)

機械翻訳の歴史

機械翻訳の歴史1

1947年 ウィーバーが書簡で機械翻訳(MT)を提案MTの基本的特性のいくつかを洞察

1948年 シャノンが通信の数学的理論を発表言語をマルコフ過程とみなすモデルを提唱翻訳を暗号問題の延長として定義

1949年 MITなどで自動翻訳の研究を開始ジョージタウン大学とIBMのMT共同プロジェクト開始

1952年 MITにて検討会>ロンドンで国際言語学会議1957年 スプートニク・ショック>ロシア語MT研究に予算

機械翻訳の歴史2

1957年 チョムスキーが変形生成文法を提案文法を句構造規則と変形規則で構成するモデルを提案言語学界と関連領域に領域に大きな影響を与える1960年から1985年にかけてMTの基本モデルとして機能

1963年 SYSTRAN、Euratomに納入1965年 ニューヨーク万博にIBMの露英翻訳システム展示

同年に第1回のCOLING開催、現在まで続く

1966年 ALPACレポートの発表米国はMTの成果に見切りをつけて研究費の投入を中止代わりに計算言語学に研究費を投入するよう進言

機械翻訳の歴史3

1978年 東芝がかな漢字変換方式の日本語入力装置を商品化

1982年 論文抄録の日英英日MT(Muシステム)開発日本では独自に開発を継続して1980年代に商品化

日本電気PIVOT、富士通ATLAS、東芝PC-TRANSAC、日立HICATS、三菱MELTRAN、シャープDUET-E/J、沖PENSEE、日本IBM SHALT、リコーRMT/EJ

その後廉価版ソフトが発売され今日まで続く

機械翻訳の歴史4

1993年 IBMのブラウン他が統計的MT手法の論文を発表⇒この頃から計算機の処理能力が飛躍的に向上・低価格化⇒90年代に南カリフォルニア大学で現在のSMT技術の基礎確立

1998年 Ochらが句ベースの統計的MT手法を発表⇒この頃からインターネット上で膨大な言語資源が利用可能に

2002年 Language Weaver 創業(Arabic英語間の統計的MT)2006年 Google、統計的機械翻訳提供開始(中、ア、露)⇒最近の研究は統計的手法と構文的手法の複合化を模索

2010年 SDLがLanguage Weaverを買収(MTの活用が本格化)

機械翻訳の趨勢

1947年に提唱された当初は確率的モデルを想定1957年チョムスキー以降80年代までは構文翻訳が主流90年代以降、世界では統計的手法が主流に

学界:構文翻訳が主流なのは今や日本だけ?

業界:翻訳メモリツール(例文的手法)と組合せる試行錯誤

機械翻訳の方式

直接翻訳方式Direct Machine Translation

元言語の単語や句を直接に先言語の表現に移す

MT研究のごく初期に採用されていた方式。チョムスキーの変形生成文法の影響を受けた構文変換方式の登場以降は使われない

PAHOが英語スペイン語間のMTをこの方式で実用化SPANUM 1980ENGSPAN 1985

構文解析方式Syntactic Machine Translation

analysis - transfer - generation

1. 元言語の文を構文解析して句構造表現を得る2. 変形規則を使って元言語の句構造を先言語の句構造に移す3. 先言語の句構造から先言語の文を生成する

特徴ある文が複数の句構造で表現できる場合がある辞書を充実させることで性能が改善される

用例翻訳方式Sample-base Machine Translation

1981年に長尾真氏が提案。構文翻訳方式では結果が良くないときに文法、変換、生成のどこに原因があるのか特定するのが困難

文法規則が数百を超えるとどの規則をどう変更すればよいかを判断するのはほとんど不可能

人間が言語を修得する場合はむしろ多数の例文とその翻訳を記憶し、類似の文の翻訳に役立てている>その方法を機械翻訳にもとりいれる考え方

現在翻訳業界で普及している「翻訳メモリ」の考え方と原理的に近い(原文側での検索)

統計翻訳方式Statistical Machine Translation

翻訳と言語の確率モデルをもとに翻訳を行なう

翻訳モデル原文と訳文のペア(パラレルコーパス)を大量に集めて、対応して登場する確率が高い単語(または句)のペアを集計し、確率分布を計算する。新しい原文に遭遇したときに、翻訳モデルに基づいて順次決定した訳語(句)を並べて訳文を生成する。

言語モデル文において次の語(句)が直前の語(句)からある程度推測できる性質を利用する。訳文言語の文を確率過程とみなして単語(句)の並びを集計して確率分布を計算する。

制限言語アプローチ

自然言語の語彙や文法を制限して何らかの効用(修得期間短縮、曖昧さ抑制など)を得ようとする試みは以前からある

Basic English(1930, Ogden)850語Simplified English(1980年代、航空産業)

機械翻訳の精度をあげるために制限言語を利用する試みは昔も今もある

制限日本語(1976、九州大学)MAL言語(1983、京都大学)産業日本語(2010、Japio他)Acrolinx IQ(2010年に日本法人設立)

自然言語処理の基礎技術

自然言語処理の基礎技術

形態素解析句構造同定構文解析

形態素解析(品詞タグ付け)

形態素morphemeとは>文における意味の最小単位

形態素解析とは>形態素を確定し品詞を付与する処理  ⇒英語の場合は品詞タグ付けpart-of-speech tagging

確率的言語モデルを使うと高い精度で自動処理可能

日本語形態素解析のツール:JUMAN, ChaSen, MeCab が有名

英語品詞タグ付けのツール: TnT, TreeTagger, Stanford POS Tagger, Acopost

句構造同定(文節区切り)

文節区切りの例ここではきものをぬいでくださいここで/はきものを/ぬいでくださいここでは/きものを/ぬいでください

基本句構造同定は処理上は「系列タギング問題」

系列タギングのツールYamCha, CRF++

構文解析

いくつもの手法がある依存構造解析句構造解析述語項構造解析

構文解析のツールCollins ParserStanford ParserMSTParser

統計的機械翻訳の原理

統計的機械翻訳とは何か

ある原文が与えられたときにその訳文を語(または句)の単位で順番に生成していく。そのときに、ある語(または句)の次に並ぶ語(または句)として最も確率が高いものを、膨大な対訳と語順のデータベースから確率の計算により求めようとする。

構文ベースのMTは言語を構造的・記号的にとらえて数学的にモデル化していた。統計ベースのMTは言語を確率過程ととらえて数学的にモデル化する。

翻訳モデルとは何か

対訳の確率を利用する=「翻訳モデル」数式で書くと        p(the|der)=0.3実装データでは    der ||| the ||| 0.3意味「独語の der を英語の the へと翻訳する確率が 0.3」

対訳確率を並べた表が「翻訳テーブル」翻訳テーブルは翻訳メモリ=対訳コーパスから作る対訳の単位は語でなく句でもOK

言語モデルとは何か

通信システムにおける記号の選択は、過程の中のどの状態にあっても先行する選択に依存する。

直前に選ばれた単語がtheの場合、その後にtheや動詞が続けて選ばれる確率は小さい。

復数の単語でも同様の確率的影響がある。たとえば "in the event" の後には "that" が来る確率が高く、"elephant" が来る確率はとても小さい。

⇒言語の中にはある程度の制御力を振るう確率が存在する⇒単独の言語では語順に基づいて確率を計算=「言語モデル」これを実装したものが「言語テーブル」

デコーダーとは何か

翻訳テーブルと言語テーブルに列挙された訳語(句)の候補からひとつを選択するのが「デコーダー」

選択肢の組み合わせを単純にかけ算していくとすぐに膨大な計算量が必要になり処理が終わらない>いかにして計算量を節約する経験則(ヒューリスティック)を活用するかがアルゴリズムの職人芸の見せどころ。

デコーダーにとっては翻訳テーブルと言語テーブルが「知識」に相当する

トレーニングとは何か

はじめに巨大な翻訳データベース(対訳コーパス)ありき。

前半の処理で対訳コーパスから翻訳テーブルを自動生成する。(この処理をトレーニングと呼ぶ)

後半の処理で翻訳テーブルを参照してデコーダーが翻訳対象文を翻訳していく。(この処理をデコーディングと呼ぶ)

トレーニング>デコーディングの繰り返しが統計的機械翻訳。

統計的機械翻訳の処理フロー

統計的機械翻訳エンジンの構成例(出典:Moses - User Manual and Code Guide p.12)

統計的機械翻訳の特徴

統計的手法の急速な発展

翻訳モデルの発展(1993〜)自動評価手法の発達(BLEU)2002〜フリーのツールの普及(GIZA++, Moses...)2003〜チューニング法の発達(誤り最小化学習)2003〜対訳データの拡充(Europarl、日英特許コーパス)2008〜

現在の機械翻訳の特徴

言語の文法構造がわからなくてもパラレル(対言語)コーパスがあれば翻訳できる

推定の根拠となるパラレルコーパスが良質かつ大量にあればあるほど翻訳精度があがる

言語構造の近さがプラスに作用する(他の条件が同じなら日韓のほうが日英より品質がよい)

現在の機械翻訳の課題

どこまで対言語コーパスを収集すれば十分な翻訳品質になるのかよくわからない

一説によると数百万センテンスの対訳コーパスを持つと、一見して流暢にみえる訳文が生成されるらしい。

コーパスが形成されない分野では性能がでない

グーグルは一般的な翻訳を指向している...業界別にカスタマイズした対訳コーパスはLanguage Weaver などの専門企業が対応していく住み分けになる? 

ローカリゼーション翻訳業界、今ここにある言語資産

研究機関はどこもパラレルコーパスがなくて困っている

Googleといえどもパラレルコーパスが少ないと翻訳品質上がらず>Google Translation Toolkit 提供の目的はパラレルコーパスの収集

しかし!

ローカリゼーション業界には「言語資源」がすでにある。  ⇒翻訳メモリをパラレルコーパスに転用すればよい。  ⇒CMSに蓄積された文書は言語モデルに使えばよい。

翻訳対象中心から言語資源中心へ

言語資源と機械翻訳を組み合わせることで翻訳の期間が短縮されコストも下がる

翻訳プロセスの中心が翻訳対象から言語資源にシフトすることで翻訳のプロセスも大幅に変更される

高品質かつ大量の言語資源にアクセスできるかどうかが翻訳会社(翻訳者)の業績を直接左右するようになる

機械翻訳の評価手法

人間による評価と自動評価

機械翻訳の評価の難しさ(翻訳の不確定性)

評価コストと評価時間の問題(特に開発中の簡易的評価)

評価基準の曖昧性(翻訳品質がよいことの定義とは?)

評価結果の一貫性 consistency の追求

BLEUスコアもっともよく使われる自動評価指標

MTの訳文を人間の「模範訳」と比較して評価

nグラム単位で一致した部分を積算していく

複数の「模範訳」を与えられることで不確定性に対処

長い訳文が有利になる問題を克服するための工夫

統計的機械翻訳の市販製品

統計的機械翻訳を提供している企業

SYSTRAN構文的機械翻訳の老舗(40年の伝統あり)最近統計的手法に対応した

Language Weaver2002年創業の大学発ベンチャー(アラビア語英語間)2010年にSDLに買収

Asia Online東南アジアで母語による検索エンジンをMTで提供

pangea.com.mt独立系の統計的機械翻訳会社、スペイン語

統計的機械翻訳の技術的特性とベンダー選択

次世代の翻訳支援システムは“言語資源”が中心になる

LSP各社は顧客の言語資源の「囲い込み」を目指す

顧客はその点をよく考えてベンダーを選択すべき

統計的機械翻訳のオープン化

Mosesオープンソースの統計的機械翻訳システム

もっともよく知られたオープンソースのSMTシステム

http://www.statmt.org/moses/

句ベースとツリーベースの翻訳モデルに対応

ていねいなドキュメントとともに公開

著名な入門書の著者が開発・管理して提供

【再掲】Mosesのモジュール構成(出典:Moses - User Manual and Code Guide p.12)

Mosesのトレーニングプロセス

1. Prepare data (45 minutes) 2. Run GIZA++ (16 hours) GIZA++はIBMモデルの実装。

3. Align words (2:30 hours) 4. Get lexical translation table (30 minutes) 5. Extract phrases (10 minutes)6. Score phrases (1:15 hours) 7. Build lexicalized reordering model (1 hour) 8. Build generation models9. Create configuration file (1 second)

Condition:751’000 sentence, 16 million word German-English Europarl corpus, on a 3GHz Linux machine (出典:Moses - User Manual and Code Guide p.75)

TAUS翻訳メモリのオープン化を指向するムーブメント

TDA(TAUS Data Association)

翻訳メモリを業界全体で共有するしくみ。

2008年7月に40社が参加して設立。

企業規模に応じて出資、個人翻訳者も利用できる

翻訳メモリを提供した企業がダウンロードできる

http://www.tausdata.org/

TDAの創設メンバー(の一部)

"Statistical Machine Translation"Philipp Koehn

Content

Chapter 1: IntroductionChapter 2: Words, Sentences, CorporaChapter 3: Probability TheoryChapter 4: Word-Based ModelsChapter 5: Phrase-Based ModelsChapter 6: DecodingChapter 7: Language ModelsChapter 8: EvaluationChapter 9: Discriminative TrainingChapter 10: Integrating Linguistic InformationChapter 11: Tree-Based Models

Hardcover, 488 pagesPublisher: Cambridge University PressISBN-10: 0521874157

『入門自然言語処理』Steven Bird、Ewan Klein、Edward Loper

Steven Bird、Ewan Klein、Edward Loper 著萩原 正人、中山 敬広、水野 貴明 訳2010年11月 発行592ページ定価3,990円ISBN978-4-87311-470-5原書: Natural Language Processing with Python

ご清聴ありがとうございました。

2010年12月13日20周年記念JTF翻訳祭D-3セッション

河野弘毅かわの・ひろき

メール hiroki@kawano.netツイッター @kawano_hiroki

ホームページ http://smallmedia.jp