コーパスから見えるエストニア語不定詞構文の文法の変化...コーパスから見えるエストニア語不定詞構文の文法の変化 53 2.2. 本研究における補助的なコーパス
ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
description
Transcript of ChaIME: 大規模コーパスを 用いた統計的仮名漢字変換
1
ChaIME: 大規模コーパスを用いた統計的仮名漢字変換
奈良先端大 松本研( D1 )小町守(協力 : 京都大学 森さん・ Y! Japan
徳永さん)Special Thanks to 浅原さん・工藤さ
ん2008年 2 月 27日(水)
CICP中間報告
22
開発の動機
• Webの拡大→ユーザ入力文書増大新語や新表現の変換はストレスフル
新しくなって本当に使いづらい・・・前に戻してもらいたいです。慣れれなのかな〜どぅゃら、風邪をひぃてしまぃました 。 頭重ぃし、鼻水がズールズル… でも仕事休めなぃし だるぃし ー カラダ ーもぅ嫌ャーッ !!!ねぇよ こどもやばす wwwwwwwwww 天丼ww おいおい かあいいww ちょww ...
33
開発の背景
• Web データを処理したいがタグつきデータ・辞書がない(特にフリーで使えるもの)祝 NAIST-jdic リリース Google日本語N グラム
•辞書やコーパスに正しく情報(品詞・単語境界)振るのは(一般の人には)難しい(できるだけ)品詞情報を用いないで処理したい NLPにおける文節と IMEにおける文節の違い
QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅBQuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB
44
開発の目的
•大規模コーパスによる統計的仮名漢字変換できるだけ人手をかけないでメンテナンス Google 日本語 N グラム Webコーパス 5 億文 Wikipedia・ etc…
•品詞情報を用いない頑健な仮名漢字変換大規模コーパスだから表記の情報だけでもけっこう行けるはず
QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB
QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄ
ǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB
QuickTime˛ Ç∆TIFFÅiîÒà≥èkÅj êLí£ÉvÉçÉOÉâÉÄǙDZÇÃÉsÉNÉ`ÉÉÇ å©ÇÈÇΩÇflÇ…ÇÕïKóvÇ≈Ç∑ÅB
55
統計的仮名漢字変換
•森ら( 1998)の提案• P(x|y) の降順に変換可能文字列 (x1, x2, …) を提示する x: 文 , y: 入力
• = P(y|x)P(x)の降順に提示する
P(y|x): 確率的仮名漢字モデル P(x): 確率的言語モデル(単語 ngram)
仮名漢字モデル 言語モデル×
66
言語モデル
•文を単語列 と見なすngram言語モデル( i<1は文頭、 i=h+1は文末)
• Google 日本語N グラムデータ( 200億文)から表記の 1-2グラムを計算して使用異なり1 グラム数 :250万異なり2 グラム数 :8,000万
€
Mw,n (w) = P(wii=1
h+1
∏ |wi−n+1i−1 )
€
w1h = w1w2L wh
77
仮名漢字モデル
• 確率は読みが振られたコーパスから最尤推定
• 毎日新聞 95年分 1 年に MeCab で分かち書き・読みを付与して使用
€
Mkk (y |w) = P(y ii=1
h
∏ |wi )
€
P(y i |wi) =f (y i,wi)
f (wi)
€
f (e)コーパス中の頻度
8
デモ
• http://ash.naist.jp/~mamoru-k/chaime/
• N-best 探索(前向き DP後ろ向き A*サーチ)が書けなかったのでビームサーチ(ビーム幅200)
•未知語に対する洗練されたモデルが必要• 3 グラム以上は使っていない(言語モデルが巨大、 1-2グラムだけですでに 1.7GB)
•生成モデルでは単語履歴などの素性を追加していくのが困難
12
関連ソフトウェア(1)
• Anthy http://anthy.sourceforge.jp/ HMM → MEMM による識別モデル(の亜種)文節分割された読みつきコーパスから学習表記の素性を用いていない文法体系が難しい(文節・品詞の判断)
• Social IME http://social-ime.com/複数人による辞書共有機能アルゴリズムは Anthy と同じ
13
関連ソフトウェア(2)
• AjaxIME http://ajaxime.chasen.org/ MeCab-skkserv による連文節仮名漢字変換読みが振られたコーパスから変換コストを推定コーパスが小さい・素性がスパース
• Sumibi http://www.sumibi.org/単語分かち書きによる仮名漢字変換生コーパスから連接コストを推定(言語モデル)辞書にない単語の変換ができない連文節変換ではない
1414
今後の予定
1. N-best の探索を書く2. 未知語モデルを入れる3. 単語 2 グラムでクラスタリングをする
(クラスタ 2 グラム)4. クラスタ 2 グラムで単語分割・仮名漢字
変換を動かす5. 識別モデルに移行?
16
謝辞と宣伝
•本プロジェクトの一部は奈良先端科学技術大学院大学 Creative and International Competitiveness Project (CICP 2007) の支援を受けています
•他の CICPプロジェクト(音楽情報・言語教育)を含めたポスター & デモがスプリングセミナー 2 日目( 3 月 7 日)にあります。学生は人気投票に参加できませんが、セミナー受講者と教員は投票できるらしいですよ