分類モデルを用いた...

38
分類モデルを用いた 日本語学習者の格助詞誤り訂正 小川耀一朗 ,山本和英 長岡技術科学大学 自然言語処理研究室 言語処理学会第25回年次大会(2019)

Transcript of 分類モデルを用いた...

Page 1: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

0

分類モデルを用いた日本語学習者の格助詞誤り訂正

小川耀一朗,山本和英長岡技術科学大学 自然言語処理研究室

言語処理学会第25回年次大会(2019)

Page 2: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

1

格助詞誤りチェッカーを公開していますhttp://app.jnlp.org/p-checker格助詞「が,を,に,で」を訂正

Page 3: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

2

背景

訂正モデル

実験と結果

まとめ

分類モデルを用いた日本語学習者の格助詞誤り訂正

Page 4: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

文法誤り訂正文法誤り訂正とは,文章中のあらゆる文法的な誤りを自動で訂正するタスクのこと

3

車が買う 車を買う

マイク内臓 マイク内蔵

メールを表示されます メールを表示します(受動態/能動態)

(同音異義語)

(助詞)

Page 5: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

誤りの種類

4

助詞 活用 接続詞 指示詞 疑問詞語順 態 時制 同音異義語 類義語 母語の使用カタカナ語 促音長音濁音 誤字脱字 …

Page 6: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

誤りの種類

5

助詞 活用 接続詞 指示詞 疑問詞語順 態 時制 同音異義語 類義語 母語の使用カタカナ語 促音長音濁音 誤字脱字 …

誤りの種類は多岐に渡る

Page 7: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語学習者の誤り傾向

6

41 %

8 1

93

903

2

NAIST誤用コーパスからの調査

Page 8: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語学習者の誤り傾向

7

41 %

8 1

93

903

2

NAIST誤用コーパスからの調査

日本語学習者にとって助詞の使い方が最も難しい

Page 9: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語校正ツールの調査

8

公開されている校正ツールに誤り文を解析させる

1. 日本語校正サポート http://www.kiji-check.com/

2. テキスト処理ツール ‒ 文章校正 https://so-zou.jp/web-app/text/proofreading/

3. オンライン日本語校正補助ツール http://www.paper-glasses.com/jplan/

4. プレスリリース校正ツール https://www.value-press.com/proofreader/

5. Enno https://enno.jp/6. Microsoft Word7. Just Right!(有料)https://www.justsystems.com/jp/products/justright/8. ATOKクラウドチェッカー(有料)https://jproofreading.atok.com/

調査したツール

Page 10: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語校正ツールの調査

9

助詞 質問を対応する

活用 ブックを開きてください

接続詞 体調が悪いだから休みます

指示詞 その以下のサイズに設定

疑問詞 そのネックレスはいくつですか?

語順 良いでしょう。別にだから服なんて

態 メッセージを表示されます

時制 昨日は雨が降る

同音異義語 メモリ内臓

類義語 快速に処理します

母語の使用 勉強するためにローンを取った

カタカナ語 アイコンをクリークする

促音長音濁音 質問があたらお願いします

誤字脱字 私立ちでやります

検証した誤り文

Page 11: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語校正ツールの調査

10

ツール

助詞

活用

接続詞

指示詞

疑問詞

語順 態

時制

同音異義語

母語の使用

カタカナ語

促音長音濁音

誤字脱字

1 × × × × × × × × × × △ × ○2 × × × × × × × × × × △ × ○3 × × × × × × × × × × △ × ○4 × × × × × × × × × × △ × ○5 × × × × × × × × × × × × ×6 × ○ △ × × × × × × △ × × △7 × × × × × △ × × × × △ × ×8 × × × × × × × × × × ○ × ×

× 検出なし ○ 正しく検出 △ 検出したが理由が違う

Page 12: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

ツール

助詞

活用

接続詞

指示詞

疑問詞

語順 態

時制

同音異義語

母語の使用

カタカナ語

促音長音濁音

誤字脱字

1 × × × × × × × × × × △ × ○2 × × × × × × × × × × △ × ○3 × × × × × × × × × × △ × ○4 × × × × × × × × × × △ × ○5 × × × × × × × × × × × × ×6 × ○ △ × × × × × × △ × × △7 × × × × × △ × × × × △ × ×8 × × × × × × × × × × ○ × ×

日本語校正ツールの調査

11

× 検出なし ○ 正しく検出 △ 検出したが理由が違う

全然検出してくれない…

Page 13: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

12

背景

訂正モデル

実験と結果

まとめ

分類モデルを用いた日本語学習者の格助詞誤り訂正

Page 14: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

問題設定

13

問題を簡単化して取り組む

1. 格助詞「が,を,に,で」の誤りに限定して訂正2. 文中に格助詞誤りが1箇所のみ3. 誤り箇所は既知であるとする

4択の穴埋め問題を解く

Page 15: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訂正モデル

14

[が,を,に,で]のどれが当てはまるかを予測する

私 は 車 <?> 買っ た

Page 16: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

先行研究

15

“日本語学習者の誤り傾向を考慮した格助詞訂正”笠原誠司, 藤野拓也, 小町守, 永田昌明, 松本裕治.

言語処理学会第18回年次大会発表論文集, pp. 14‒17, 2012.

Ø 18種類の助詞を対象に訂正Ø 言語モデル手法とNoisy Channel Model手法で実験

本研究ではRNNモデルとCNNモデルで実験を行なった

Page 17: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

RNNモデル [kaili et al., 2018]

16

... ...

......

... ...

Input wordsanswer

Wordembeddings

LSTM

Attention

MLP (prediction)

Page 18: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

CNNモデル [Le et al., 2017]

17

!" !# !$…

3 layerskernel size: 3, 4, 5

<TARGET>

MLP

concat

Page 19: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

18

背景

訂正モデル

実験と結果

まとめ

分類モデルを用いた日本語学習者の格助詞誤り訂正

Page 20: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訓練データ

19

l BCCWJ+Lang-8(訂正文)を使用 (3.3M + 900k = 4.2M)

l 文に含まれる格助詞のうち一つをマスクして訓練

私 は 車 を 買っ た

私 は 車 <MASK> 買っ た

Page 21: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訓練データ

20

l BCCWJ+Lang-8(訂正文)を使用 (3.3M + 900k = 4.2M)

l 文に含まれる格助詞のうち一つをマスクして訓練

私 は 車 を 買っ た

私 は 車 <MASK> 買っ た

アノテーションコーパスを必要としない

Page 22: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

テストデータ

21

l NAIST誤用コーパスから格助詞「が,を,に,で」の誤用タグを含む文を抽出 (548文)

l そのタグ以外はあらかじめ訂正しておく

車<goyo crr=‘を’ type=‘p/ga/wo’>が</goyo>買った

車 <TARGET> 買っ た (answer: を)

Page 23: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

ベースライン

22

言語モデルを用いた訂正方法l BCCWJ+Lang-8から単語4-gram言語モデルを構築l 「が,を,に,で」のうち言語モデル確率が最も高くなるものを選択する

Page 24: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

実験設定

23

事前学習済み単語分散表現を使用 (+emb)➡ NWJC2Vecをword embeddingsの初期値とする

訓練/テストデータを全て平仮名に変換 (+kana)➡ 日本語学習者は漢字よりも平仮名を多用するため

Page 25: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

格助詞誤り訂正の実験結果

24

モデル 正解率 (%) 言語モデル(ベースライン) 74.68CNN 81.23CNN+emb 82.34CNN+emb+kana 83.09LSTM 73.07AttnLSTM 82.53AttnLSTM+emb 83.27AttnLSTM+emb+kana 83.27

+8.41

+8.59

Page 26: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

出力例

25

○提案手法で向上

訂正箇所から離れた単語(機能語)を考慮できている

Page 27: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

出力例

26

間違いだが文法的には正しい

×

提案手法でも間違い

Page 28: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

27

どんなコーパスを訓練させたら良いのか?!

Page 29: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訓練コーパスの比較

28

NAIST誤用コーパス,Lang-8,BCCWJ,日経新聞コーパスの 漢字の割合,平均文長を調査

24.729

35.7

54

28.6 30.132.8

47.7

0

10

20

30

40

50

NAIST����� Lang-8 BCCWJ � �����

�����(%) ����(���)

学習者コーパス

Page 30: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訓練コーパスの比較

29

BCCWJ,日経新聞コーパスでサイズを300万文に統一してモデルを訓練

日経新聞 BCCWJ言語モデル 64.70 71.53CNN+emb 73.61 82.16LSTM+emb 75.46 82.16

BCCWJで訓練した方が明らかに精度が高い

Page 31: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

訓練コーパスの比較

30

BCCWJ,日経新聞コーパスでサイズを300万文に統一してモデルを訓練

日経新聞 BCCWJ言語モデル 64.70 71.53CNN+emb 73.61 82.16LSTM+emb 75.46 82.16

BCCWJで訓練した方が明らかに精度が高い学習者コーパスに”近い”コーパスが有効である

Page 32: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

31

背景

訂正モデル

実験と結果

まとめ

分類モデルを用いた日本語学習者の格助詞誤り訂正

Page 33: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

まとめ

32

l 格助詞「が,を,に,で」の誤りに限定した訂正モデルを構築した

l 言語モデル手法に比べて,文全体を考慮した訂正をすることができる

l より良い訂正には,学習者コーパスあるいはそれに“近い”コーパスで訓練することが有効である

格助詞誤りチェッカーを公開していますhttp://app.jnlp.org/p-checker

Page 34: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

33

格助詞誤りチェッカーを公開していますhttp://app.jnlp.org/p-checker

Page 35: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

34

Page 36: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

付録

35

Page 37: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

36

32 6

17

1717

17%

17 %

17

17 "

1717

%

NAIST誤用コーパスから調べた助詞誤りの内訳

Page 38: 分類モデルを用いた 日本語学習者の格助詞誤り訂正box.jnlp.org/slide/19/19NLP-ogawa.pdf · 0 分類モデルを用いた 日本語学習者の格助詞誤り訂正

日本語学習者コーパス

37

n NAIST誤用コーパス作文対訳DBにアノテーション313文章,76種類の誤用タグ

n Lang-8 Learner Corpora言語習得サービスLang-8から収集日本語学習者作文: 925,588文

n 作文対訳DB作文データ: 1754件添削された作文データ: 313件

n 寺村誤用例集データベースデータ総数: 4,601文誤用タグ付き文数: 3,131文

n 学習者コーパス「なたね」n オンライン日本語誤用辞典誤用タグ付き作文: 40件

n 日本語学習者作文コーパス540名分の作文データ