ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換

12
1 ChaIME: 大大大大大大大大 大大大大大大大大大大大大 奈奈奈奈奈 奈奈奈D1 奈奈奈 奈奈 : 奈奈奈奈 奈奈奈Y! Japan 奈奈奈奈Special Thanks to 奈奈奈奈 奈奈奈奈 2008 奈 2 奈 27 奈 奈奈 () CICP 奈奈奈奈

description

CICP 中間報告. ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換. 奈良先端大 松本研( D1 )小町守 (協力 : 京都大学 森さん・ Y! Japan 徳永さん) Special Thanks to 浅原さん・工藤さん 2008 年 2 月 27 日(水). 開発の動機. Web の拡大→ユーザ入力文書増大 新語や新表現の変換はストレスフル. 2. 開発の背景. Web データを処理したいがタグつきデータ・辞書がない(特にフリーで使えるもの) 祝 NAIST-jdic リリース Google 日本語 N グラム - PowerPoint PPT Presentation

Transcript of ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換

Page 1: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

1

ChaIME: 大規模コーパスを用いた統計的仮名漢字変換

奈良先端大 松本研( D1 )小町守(協力 : 京都大学 森さん・ Y! Japan

徳永さん)Special Thanks to 浅原さん・工藤さ

ん2008年 2 月 27日(水)

CICP中間報告

Page 2: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

22

開発の動機

• Webの拡大→ユーザ入力文書増大新語や新表現の変換はストレスフル

新しくなって本当に使いづらい・・・前に戻してもらいたいです。慣れれなのかな〜どぅゃら、風邪をひぃてしまぃました 。 頭重ぃし、鼻水がズールズル… でも仕事休めなぃし だるぃし ー カラダ ーもぅ嫌ャーッ !!!ねぇよ こどもやばす wwwwwwwwww 天丼ww おいおい かあいいww ちょww ...

Page 3: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

33

開発の背景

• Web データを処理したいがタグつきデータ・辞書がない(特にフリーで使えるもの)祝 NAIST-jdic リリース Google日本語N グラム

•辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい(できるだけ)品詞情報を用いないで処理したい NLPにおける文節と IMEにおける文節の違い

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅBQuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

Page 4: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

44

開発の目的

•大規模コーパスによる統計的仮名漢字変換できるだけ人手をかけないでメンテナンス Google 日本語 N グラム Webコーパス 5 億文 Wikipedia・ etc…

•品詞情報を用いない頑健な仮名漢字変換大規模コーパスだから表記の情報だけでもけっこう行けるはず

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄ

ǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB

Page 5: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

55

統計的仮名漢字変換

•森ら( 1998)の提案• P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する x: 文 , y: 入力

• = P(y|x)P(x)の降順に提示する

P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語 ngram)

仮名漢字モデル 言語モデル×

Page 6: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

66

言語モデル

•文を単語列          と見なすngram言語モデル( i<1は文頭、 i=h+1は文末)

• Google 日本語N グラムデータ( 200億文)から表記の 1-2グラムを計算して使用異なり1 グラム数 :250万異なり2 グラム数 :8,000万

Mw,n (w) = P(wii=1

h+1

∏ |wi−n+1i−1 )

w1h = w1w2L wh

Page 7: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

77

仮名漢字モデル

• 確率は読みが振られたコーパスから最尤推定

• 毎日新聞 95年分 1 年に MeCab で分かち書き・読みを付与して使用

Mkk (y |w) = P(y ii=1

h

∏ |wi )

P(y i |wi) =f (y i,wi)

f (wi)

f (e)コーパス中の頻度

Page 8: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

8

デモ

• http://ash.naist.jp/~mamoru-k/chaime/

• N-best 探索(前向き DP後ろ向き A*サーチ)が書けなかったのでビームサーチ(ビーム幅200)

•未知語に対する洗練されたモデルが必要• 3 グラム以上は使っていない(言語モデルが巨大、 1-2グラムだけですでに 1.7GB)

•生成モデルでは単語履歴などの素性を追加していくのが困難

Page 9: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

12

関連ソフトウェア(1)

• Anthy http://anthy.sourceforge.jp/ HMM → MEMM による識別モデル(の亜種)文節分割された読みつきコーパスから学習表記の素性を用いていない文法体系が難しい(文節・品詞の判断)

• Social IME http://social-ime.com/複数人による辞書共有機能アルゴリズムは Anthy と同じ

Page 10: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

13

関連ソフトウェア(2)

• AjaxIME http://ajaxime.chasen.org/ MeCab-skkserv による連文節仮名漢字変換読みが振られたコーパスから変換コストを推定コーパスが小さい・素性がスパース

• Sumibi http://www.sumibi.org/単語分かち書きによる仮名漢字変換生コーパスから連接コストを推定(言語モデル)辞書にない単語の変換ができない連文節変換ではない

Page 11: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

1414

今後の予定

1. N-best の探索を書く2. 未知語モデルを入れる3. 単語 2 グラムでクラスタリングをする

(クラスタ 2 グラム)4. クラスタ 2 グラムで単語分割・仮名漢字

変換を動かす5. 識別モデルに移行?

Page 12: ChaIME:  大規模コーパスを 用いた統計的仮名漢字変換

16

謝辞と宣伝

•本プロジェクトの一部は奈良先端科学技術大学院大学 Creative and International Competitiveness Project (CICP 2007) の支援を受けています

•他の CICPプロジェクト(音楽情報・言語教育)を含めたポスター & デモがスプリングセミナー 2 日目( 3 月 7 日)にあります。学生は人気投票に参加できませんが、セミナー受講者と教員は投票できるらしいですよ