TYPO Writer ヒトはどのように打ち間違えるのか?

25
TYPO Writer ヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒヒ ヒヒ ヒヒヒヒ ヒヒヒ ヒヒヒ ヒヒ TYPO ヒヒ

description

TYPO って?. TYPO Writer ヒトはどのように打ち間違えるのか?. 荒牧英治 東大 宇野良子 農工大 岡瑞起 東大. まだ間違いに気が付いていないのか ?. TYPO が致命的な場合も 日本看護協会の告知 [Dec2008] より. TYPO の特徴. 従来のコーパス(新聞や論文)ではまれ BUT: 例外的現象ではない. 人間ならだれしも行う 平均 3% の割合で打鍵ミス エキスパートでも 0.9% [Grudin1983]. チャットやマイクロブログ カルテ文章= ungrammatical fragmented [Sibanda 2005]. - PowerPoint PPT Presentation

Transcript of TYPO Writer ヒトはどのように打ち間違えるのか?

Page 1: TYPO  Writer ヒトはどのように打ち間違えるのか?

TYPO Writerヒトはどのように打ち間違えるの

か?荒牧英治 東大

宇野良子 農工大岡瑞起 東大

TYPO って?TYPO って?

Page 2: TYPO  Writer ヒトはどのように打ち間違えるのか?

まだ間違いに気が付いていないのか ?

Page 3: TYPO  Writer ヒトはどのように打ち間違えるのか?

TYPO が致命的な場合も日本看護協会の告知 [Dec2008] より

Page 4: TYPO  Writer ヒトはどのように打ち間違えるのか?

TYPO の特徴

• 従来のコーパス(新聞や論文)ではまれ• BUT: 例外的現象ではない

人間ならだれしも行う平均 3% の割合で打鍵ミスエキスパートでも 0.9% [Grudin1983]

人間ならだれしも行う平均 3% の割合で打鍵ミスエキスパートでも 0.9% [Grudin1983]

チャットやマイクロブログカルテ文章= ungrammatical fragmented [Sibanda 2005]

チャットやマイクロブログカルテ文章= ungrammatical fragmented [Sibanda 2005]

• 記述者は気づきにくい→

いったいヒトはなぜタイポをするのか ?いったいヒトはなぜタイポをするのか ?

Page 5: TYPO  Writer ヒトはどのように打ち間違えるのか?

本研究の 2 つの課題

• いったいなぜ/どのようにタイポするのか

主課題:タイポの分析主課題:タイポの分析

副課題:タイポの収集副課題:タイポの収集

• BUT: 従来のコーパス(新聞,論文 etc ) においてタイポはまれ

Page 6: TYPO  Writer ヒトはどのように打ち間違えるのか?

本研究

• はじめに• 課題1: タイポの収集

– どうやって自動的に大量のタイポをあつめるか?

• 課題2: タイポの分析• 実験• おわりに

Page 7: TYPO  Writer ヒトはどのように打ち間違えるのか?

タイポの出現頻度は原型に比べて著しく低い

タイポの出現頻度は原型に比べて著しく低い

(本研究における)タイポとは仮定 1 仮定 1

→ |SOTP| : |STOP| < 1:50

タイポと原型のスペリング/コンテキストは類似しているタイポと原型のスペリング/コンテキストは類似している

仮定 2 仮定 2

→ sim (please sotp it, please stop it) > TH.

タイポは辞書に収載されていないタイポは辞書に収載されていない仮定 3仮定 3

→ (form ⇔ from) は対象外 .

Page 8: TYPO  Writer ヒトはどのように打ち間違えるのか?

手法

• 材料: (2008 年クロール ; 500MB)• STEP1: 3grm に分解→頻度集計• SPTE2: 頻度差 30 倍の類似した 3grm ペア抽出

仮定 1仮定 1

wace wave The google wace (2)R1 The google wave (42205)TYPO ORG N-gram (Freq)TYPE N-gram (Freq)

仮定 2 仮定 2

仮定 3仮定 3

have wave The google have (202)R1 The google wave (42205)

仮定はインプリしやすい

Page 9: TYPO  Writer ヒトはどのように打ち間違えるのか?

結果

• 3.9 万ペア (原型 : タイポのペア)

• 評価: 正しいタイポが定義不能のため困難• 百聞<一見→ http://luululu.com/tweet/

Page 10: TYPO  Writer ヒトはどのように打ち間違えるのか?

本研究

• はじめに• 課題1: タイポの収集• 課題2: タイポの分析

– タイポとはどんな特徴を持っているか?

• 実験• おわりに

Page 11: TYPO  Writer ヒトはどのように打ち間違えるのか?

各操作別のタイポされた文字

IN 挿入 削除 順入替 置換

i 1420 / 40412 = 0.0351 a 1673 / 34515 = 0.0484 e/h 242 a:e 954d 981 / 13567 = 0.0723 o 1671 / 46884 = 0.0356 e/m 129 m:s 392a 850 / 34515 = 0.0246 e 1004 / 50418 = 0.0199 a/h 107 m:n 310y 760 / 50418 = 0.0150 i 742 / 40412 = 0.0183 h/t 78 y:t 280e 741 / 50418 = 0.0146 l 661 / 19796 = 0.0333 i/e 70 z:s 278t 735 / 44495 = 0.0165 h 653 / 28020 = 0.0233 o/t 63 t:e 265n 684 / 33891 = 0.0201 n 499 / 33891 = 0.0147 g/n 63 q:g 238o 609 / 46884 = 0.0129 t 394 / 44495 = 0.0088 s/u 60 r:e 218

RM R1 R2

i の挿入が多いi の挿入が多い

a の脱落が多いa の脱落が多いしかし

a と i の置換は少ないしかし

a と i の置換は少ない

何がバイアスになっているか?何がバイアスになっているか?

Page 12: TYPO  Writer ヒトはどのように打ち間違えるのか?

文字順の入れ替えは右手と左手の間で起こりやす

文字順の入れ替えは右手と左手の間で起こりやす

置換は同じ右手/左手の指の間で起こりやすい

置換は同じ右手/左手の指の間で起こりやすい

要因 1: 指とタイポの関係

Page 13: TYPO  Writer ヒトはどのように打ち間違えるのか?

各指で起こるタイポ操作が異なる

要因 1: 指とタイポの関係

Page 14: TYPO  Writer ヒトはどのように打ち間違えるのか?

要因 2: 視覚的要因

形がよく似た文字は置換されやすい !?

画像類似度類似度した文字

Page 15: TYPO  Writer ヒトはどのように打ち間違えるのか?

要因 3: 単語内の位置

真ん中と後末にタイポが起きやすい

単語内の相対位置

頻度

語末になりやすい文字

Page 16: TYPO  Writer ヒトはどのように打ち間違えるのか?

要因 4: Doubling

p_a_p_e_r_w_e_i_g_h_t

p_eI_p_@_ _w_e_I_ _ _tCELEX2 DATABASE aligned by GIZA++

要因 4: 音韻

RM された文字の発音

More info

Page 17: TYPO  Writer ヒトはどのように打ち間違えるのか?

何が主要な要因なのだ

ろう?

何が主要な要因なのだ

ろう?Check Failure

タイポタイポ

タイポを起こす要因とタイポモデル

Cognitive Error Type Error

[Kukich1992]

要因 1: 打鍵ミス 要因 1: 打鍵ミス

要因 2: 画像類似度要因 2: 画像類似度要因 3: 単語内位置要因 3: 単語内位置

要因 4: doubling要因 4: doubling

要因 5: 音韻要因 5: 音韻

要因 5: 音韻要因 5: 音韻

Page 18: TYPO  Writer ヒトはどのように打ち間違えるのか?

本研究

• はじめに• 課題1: タイポの収集• 課題2: タイポの分析• 実験

– タイポをタイポらしくしているのは何か?– =タイポと擬似タイポを識別 → 識別に貢献ものは何か?

• おわりに

Page 19: TYPO  Writer ヒトはどのように打ち間違えるのか?

実験設定

• 目的 : タイポらしさはどの要因からくるのか調べる

• データ (自動抽出結果と擬似負例)正例正例

負例負例

自動抽出した原型 : タイポのペア

自動抽出した原型 : タイポのペア

正例の原型をランダムに編集正例の原型をランダムに編集

Twitter:TwiterTwitter:Twiter

Twitter:ZwitterTwitter:Zwitter

• 手法: SVM で要因 1-5 を feature として表現

Twitter:TwiterTwitter:TwiterTwitter:ZwitterTwitter:Zwitter

F4-RMF4-RMF4-F1-R2F4-F1-R2

L-RML-RML-R2L-R2

4of74of71of71of7

要因 1 要因 3

Page 20: TYPO  Writer ヒトはどのように打ち間違えるのか?

実験結果

• (1) どの要因を削除しても精度が下がる → どの要因も少なくともタイポの一部を説明

• (2) 特に が重要単語内位置単語内位置

Page 21: TYPO  Writer ヒトはどのように打ち間違えるのか?

単語認知の研究との不整合

単語の中央/末尾にタイポが多い

単語の中央/末尾にタイポが多い

単語中央の情報量が少ない

単語中央の情報量が少ない

単語中央付近の間違いに気づかない

単語中央付近の間違いに気づかない≒

単語に内在する情報量の偏在 [田中 , 2008]

Page 22: TYPO  Writer ヒトはどのように打ち間違えるのか?

仮説「逐次的に単語認知を行う」

i n v iB E

i n v i t eB E

check checkNo-look typing No-look typing

=

Page 23: TYPO  Writer ヒトはどのように打ち間違えるのか?

本研究

• はじめに• 課題1: タイポの収集• 課題2: タイポの分析• 実験• おわりに

Page 24: TYPO  Writer ヒトはどのように打ち間違えるのか?

まとめ

• 人はなぜ打ち間違うか ?

神のみぞ知る神のみぞ知る

• 人はどのように打ち間違うか...

本研究により定量的に調査可能本研究により定量的に調査可能

http://luululu.com/research/pm3/index.html

• →数学的モデル化• →認知研究との関連 「逐次的単語認知」の検討• → 人間と同じように打ち間違えるプログラム see TYPO Writer

Page 25: TYPO  Writer ヒトはどのように打ち間違えるのか?

中央付近

発音しない文字