ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜

ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜

2016/1/23OSC 2016 Hamanako

はしもとまさひこ

簡単に自己紹介。

● 東海道らぐ（Tokaido Linux User Group）案内人– 東京〜静岡〜名古屋〜京都〜大阪で活動するらぐ– 明日、鴨江アートセンターでオフ会やります！！！

詳しくは東海道らぐブースのビラを参照（余ってるはず）

● ちびぎーこ保護者会（別名日本openSUSEユーザ会）の人

● 最近は日本語入力についていろいろ勉強している人

まず、質問です(^^)

これからいくつか質問をします。

ご協力をお願いします！

Q１．日本語入力ソフトを意識して使っていますか？

１．自分はこれしか使わない！というソフトがある　（※MS-IME, ATOK, Google日本語入力等）

２．ソフトは知らないけど優れたソフトを使いたい！

３．特に意識したことはない

注： OSとか関係なく回答ください

Q2. OSSなOSをデスクトップで使っていますか？

１． Linux, BSD等をデスクトップで使ってます！

２．デスクトップはMacしか使わないよ！

３．デスクトップはWindowsに決まってるでしょ！

注：正直に回答ください(^^)

今日はオープンソースの日本語入力についてです

1. 最近の日本語入力技術とは？

1. 辞書データ構築技術について〜Trie〜

2. かな漢字変換アルゴリズム① 〜Mozc〜

3. かな漢字変換アルゴリズム② 〜libkkc〜

2. まとめ1. 最近のオープンソースな日本語入力事情

2. おーぷん万葉の紹介

1-1．最新の日本語入力技術とは

辞書データ構築編

まず初めは辞書のお話

かな漢字変換を使う際、必ず必要となるのが辞書、もしくは変換に必要なデータです

それを格納するための技術も日々（？）進化してます

かな漢字変換ソフト

辞書データ

入力

辞書登録

この文字変換できないから辞書に登録しなくちゃ！

これのこと

データを格納するための技術〜Trie〜

● 通常の木構造に対し、枝にラベルがついたもの– メリット：共通接頭検索が可能になる

０

１２３

４

５６

７

８

か

み

た

すび

わ

た

し

これがいわゆるラベルラベルがついてるとTrieと呼ぶ

ラベルをたどることで辞書検索が可能になります→データ圧縮にもつながる

Trieの実装〜LOUDS〜

10 1110 10 110 10 0 0 0 10 0

０

１２３

４

５６

７

８

か

み

た

すび

わ

た

し

仮想ノード「0」から

３つに分岐「１」は

分岐なし「2」から

2つに分岐「3」は

分岐なし「4」「5」「6」は

末端ノード「7」は

分岐なし「8」は

末端ノード

Trieをビットで表現したものそれが「LOUDS」（らうず）

課題として下記のようなものがあります・ノードを動的に追加することが困難・Trie構築後にビットを作成しないと厳しい？

現在の主流はTrie

● その他のTrieの実装としてダブル配列等があります– LOUDSより高速ですが、メモリ消費が大きいので

かな漢字変換には不向きと言われてます– 形態素解析器mecabはダブル配列を採用してます

● オープンソースのライブラリが数多く存在します– 自分で実装すると大変！　まずはオープンソースで試してみましょう

● Tx / Ux ：非常にコンパクトなLOUDSのライブラリ● Rx： mozcで採用されているLOUDSのライブラリ● marisa-trie： libkkcで採用されているLOUDSのライブラリ

1-2．最新の日本語入力技術とは

かな漢字変換アルゴリズム編

注：繰り返しますが…

本日お話する内容は全て

オープンソースの実装ついて

です

※AT○KとかMicr○s○ftの技術については知りません！(笑)

オープンソースなかな漢字変換の歴史

● 1987年 : Wnn (FreeWnnの前身)● 1989年 : Canna● 2002年 : Anthy● 2010年 : mozc● 2013年 : libkkc (Fedora19よりデフォルトIMEへ)

簡単な年表ですが…^^;

従来の変換アルゴリズム例： N文節最長一致法

● 例文：　「きょうはあひるやきです」

今日歯あ昼焼きで酢

今日はあ昼焼きです

今日は家鴨焼きです

今日はあひる焼きです

６文節

4文節

3文節

2文節一番少ないのでこれを選択！

ポイント：文節 = 自立語（名詞・動詞等） + 付属語（助詞等）

Canna等で採用

かな漢字変換アルゴリズム① 〜Mozc〜

● Mozc – Google日本語入力のオープンソース版

– 2010年 Googleによってリリース

● 形態素解析を用いた変換アルゴリズム– コスト最小法。現在の主流になりつつある

コスト最小法とは

文頭

私

の名前は

中野

注：ちょっと（かなり？）端折って説明します^^;

です

文末のです

中

綿市花課

例：「わたしのなまえはなかのです」を変換する場合（コストの値はテキトーです^^;）

10

30 15

30 1510

15 40

20

50

● 単語生起コスト：単語の出現優先度を表したコスト● 連接コスト：単語と単語の結びつきやすさを表したコスト

→ 全て足して、合計値が最も低いルートが候補になります

15

30 4045

20

2020

20

50

20

25

3040

45

2020

出現頻度の高い単語は単語生起コストが低い

「名前」と「花」という単語は結びつきにくいので連接コストは高い

コスト最小法も完璧ではない？

Mozcで変換できないものもある…

「にわにはにわにわとりがいる」→ 「庭には庭鶏がいる」になってしまう

庭庭鶏にはがいる

庭二鶏にはがいる羽

正解の変換のほうが単語数が多いため単語生起コストがどうしても高くなる

かな漢字変換アルゴリズム② 〜libkkc〜

● libkkc– 2013年 Fedora19のデフォルトIMEになる

– RedHat社のUeno氏によって開発

● N-gramによるかな漢字変換– 形態素解析を行わないアルゴリズム

＝辞書データに品詞情報を持たない– ビッグデータ（巨大コーパス）を十分に活かせる可能性

ここが重要！！！

N-gramとは？

N文字の共起関係からテキストの特徴を分析する

– ２文字：　2-gram (= bi-gram)

– ３文字：　3-gram (= tri-gram)

例文）私の名前は中野です → 2-gram

「私の」「の名」「名前」「前は」「は中」「中野」「野で」「です」

この単位で確率を求め変換用データを作成します

例えばlibkkcの変換用データは…

-1.114728 ぬいぐるみ/ぬいぐるみ」/」ていど/程度-0.667107 ぬいぐるみ/ぬいぐるみ」/」と/と-0.643911 ぬいぐるみ/ぬいぐるみうらない/占いを/を-0.740726 ぬいぐるみ/ぬいぐるみたすう/多数を/を-0.454970 ぬいぐるみ/ぬいぐるみだ/だが/が-0.814252 ぬいぐるみ/ぬいぐるみで/でわりお/ワリオ-1.110465 ぬいぐるみ/ぬいぐるみは/はかのじょ/彼女-0.802579 ぬいぐるみ/ぬいぐるみやら/やらしゃしん/写真-1.626115 ぬいぐるみ/ぬいぐるみを/を「/「-1.708439 ぬいぐるみ/ぬいぐるみを/をせいさく/製作-1.631926 ぬいぐるみ/ぬいぐるみを/をつく/作-1.713616 ぬいぐるみ/ぬいぐるみを/をなげつけ/投げつけ-1.681401 ぬいぐるみ/ぬいぐるみを/をのこ/残-1.713256 ぬいぐるみ/ぬいぐるみを/をもちこ/持ち込-1.714574 ぬいぐるみ/ぬいぐるみを/をよご/汚-1.716680 ぬいぐるみ/ぬいぐるみを/をりんぐ/リング-0.813648 ぬいぐるみ/ぬいぐるみ（/（じょん/ジョン-0.803737 ぬいぐるみ/ヌイグルミの/のこと/こと

単語単位ではなく単語の組み合わせ単位で

変換用データとして登録されていますね

なんだかノイズデータっぽいのもいるのですが…

結構さくさく変換できる…が！？

● 苦手な変換ももちろんある– 「ぬいぐるみをぬう」 →「ぬいぐるみを縫う」（正解）

– 「ぬいぐるみ」 →「縫い包み」（そうなるの！？）

– 「ぬいぐるみのことをおもう」→「ヌイグルミのことを思う」

● 形態素解析を行わない

→ 文節区切りができない

→ 変換したい箇所にフォーカスを当てるのがやや大変！

「この漢字をどうしましょ」 ←こんな感じでフォーカスが当たってしまうorz

前ページのノイズデータを思いっきり拾った感じですね…

２．まとめ

現在のLinuxのかな漢字変換

● およそMozc一色– Ubuntu, Debian, openSUSE, VineLinux…– まぁそれでもいいのではないかと言われているが…– 途中いろいろ問題発生しつつ乗り越えてる感ある

● とはいえ、既に一部でサポートフェーズと言われているのも事実

● Redhat系はlibkkcですね– Fedora, CentOS…

皆さん、本当にそれでいいですか？

おーぷん万葉プロジェクトとは

● 目的「自由な日本語辞書を手に入れよう！」– 現在: かな漢字変換ソフト「Genji」を開発中。

● 現状の問題点：– ビックデータと叫ばれる時代に、開発がアクティブでコミュニティー主体の日本語入力システムがない？？？

→ そんな現状を打破したい！てのが目的です。

日本語をもっと自由に楽しみましょう！

ご清聴、ありがとうございました。

ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜

Technology

Transcript of ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜

ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜

Technology

Transcript of ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜

ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜

Transcript of ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編〜