スペル訂正エンジンを作ってみた #shisoconf

21
スペル訂正エンジンを作ってみた #shisoconf @nokuno

description

Spelling Correction for Japanese Language.

Transcript of スペル訂正エンジンを作ってみた #shisoconf

Page 1: スペル訂正エンジンを作ってみた #shisoconf

スペル訂正エンジンを作ってみた

#shisoconf

@nokuno

Page 2: スペル訂正エンジンを作ってみた #shisoconf

スペル訂正って?

スペル訂正のしくみ

スペル訂正の応用例

もくじ 2

Page 3: スペル訂正エンジンを作ってみた #shisoconf

Googleの「もしかして」みたいなやつ

スペル訂正って? 3

Page 4: スペル訂正エンジンを作ってみた #shisoconf

入力に似た文字列を検索

入力「東京お」

「東京都」

「東京」

スコア順に並び替え

文字をノードとした木構造(トライ)で検索

しくみをかんたんに 4

Page 5: スペル訂正エンジンを作ってみた #shisoconf

単語 → 誤り

挿入: 東京都 → 東京t都

削除: 東京都 → 東都

置換: 東京都 → 東京群

転置: 東京都 → 東都京

挿入・削除・置換・転置の操作を行った回数

編集距離って? 5

Page 6: スペル訂正エンジンを作ってみた #shisoconf

アーキテクチャ 6

APIサーバ

Trieライブラリ

スペル訂正

辞書(Mozc)

Page 7: スペル訂正エンジンを作ってみた #shisoconf

例 7

○めよう

Page 8: スペル訂正エンジンを作ってみた #shisoconf

例 8

止めよう始めよう眺めよう貯めよう決めよう

○めよう

Page 9: スペル訂正エンジンを作ってみた #shisoconf

例 9

紫蘇部

Page 10: スペル訂正エンジンを作ってみた #shisoconf

例 10

紫式部紫蘇

紫蘇部

Page 11: スペル訂正エンジンを作ってみた #shisoconf

例 11

すぱぶら

Page 12: スペル訂正エンジンを作ってみた #shisoconf

例 12

スマブラスパトラスポブラ

すぱぶら

Page 13: スペル訂正エンジンを作ってみた #shisoconf

例 13

ちくわぶ

Page 14: スペル訂正エンジンを作ってみた #shisoconf

例 14

ちくわちくわぶ

Page 15: スペル訂正エンジンを作ってみた #shisoconf

例 15

テソション

Page 16: スペル訂正エンジンを作ってみた #shisoconf

例 16

テンションテイションテーション

テソション

Page 17: スペル訂正エンジンを作ってみた #shisoconf

OCRの誤り訂正

某画像検索サービスとか

もしかして機能

検索エンジンに

スペル訂正の応用例 17

Page 18: スペル訂正エンジンを作ってみた #shisoconf

18

Page 19: スペル訂正エンジンを作ってみた #shisoconf

19

Page 20: スペル訂正エンジンを作ってみた #shisoconf

ご清聴ありがとうございました

20

Page 21: スペル訂正エンジンを作ってみた #shisoconf

○めよう

紫蘇部

ちくわぶ

すぱぶら

ようざか

みらくい

しんぶー

テソション

口リコン

デモ用単語 21