慈雲山天主教小學 中文科課程簡介 - t-cat.edu.hk · 詞語 供詞填充 不供詞填充 部首/句子/ 語文基礎知識/ 其他 自訂 成語 背默成語 閱讀理解
分類モデルを用いた...
Transcript of 分類モデルを用いた...
0
分類モデルを用いた日本語学習者の格助詞誤り訂正
小川耀一朗,山本和英長岡技術科学大学 自然言語処理研究室
言語処理学会第25回年次大会(2019)
2
背景
訂正モデル
実験と結果
まとめ
分類モデルを用いた日本語学習者の格助詞誤り訂正
文法誤り訂正文法誤り訂正とは,文章中のあらゆる文法的な誤りを自動で訂正するタスクのこと
3
車が買う 車を買う
マイク内臓 マイク内蔵
メールを表示されます メールを表示します(受動態/能動態)
(同音異義語)
(助詞)
誤りの種類
4
助詞 活用 接続詞 指示詞 疑問詞語順 態 時制 同音異義語 類義語 母語の使用カタカナ語 促音長音濁音 誤字脱字 …
誤りの種類
5
助詞 活用 接続詞 指示詞 疑問詞語順 態 時制 同音異義語 類義語 母語の使用カタカナ語 促音長音濁音 誤字脱字 …
誤りの種類は多岐に渡る
日本語学習者の誤り傾向
6
41 %
8 1
93
903
2
NAIST誤用コーパスからの調査
日本語学習者の誤り傾向
7
41 %
8 1
93
903
2
NAIST誤用コーパスからの調査
日本語学習者にとって助詞の使い方が最も難しい
日本語校正ツールの調査
8
公開されている校正ツールに誤り文を解析させる
1. 日本語校正サポート http://www.kiji-check.com/
2. テキスト処理ツール ‒ 文章校正 https://so-zou.jp/web-app/text/proofreading/
3. オンライン日本語校正補助ツール http://www.paper-glasses.com/jplan/
4. プレスリリース校正ツール https://www.value-press.com/proofreader/
5. Enno https://enno.jp/6. Microsoft Word7. Just Right!(有料)https://www.justsystems.com/jp/products/justright/8. ATOKクラウドチェッカー(有料)https://jproofreading.atok.com/
調査したツール
日本語校正ツールの調査
9
助詞 質問を対応する
活用 ブックを開きてください
接続詞 体調が悪いだから休みます
指示詞 その以下のサイズに設定
疑問詞 そのネックレスはいくつですか?
語順 良いでしょう。別にだから服なんて
態 メッセージを表示されます
時制 昨日は雨が降る
同音異義語 メモリ内臓
類義語 快速に処理します
母語の使用 勉強するためにローンを取った
カタカナ語 アイコンをクリークする
促音長音濁音 質問があたらお願いします
誤字脱字 私立ちでやります
検証した誤り文
日本語校正ツールの調査
10
ツール
助詞
活用
接続詞
指示詞
疑問詞
語順 態
時制
同音異義語
母語の使用
カタカナ語
促音長音濁音
誤字脱字
1 × × × × × × × × × × △ × ○2 × × × × × × × × × × △ × ○3 × × × × × × × × × × △ × ○4 × × × × × × × × × × △ × ○5 × × × × × × × × × × × × ×6 × ○ △ × × × × × × △ × × △7 × × × × × △ × × × × △ × ×8 × × × × × × × × × × ○ × ×
× 検出なし ○ 正しく検出 △ 検出したが理由が違う
ツール
助詞
活用
接続詞
指示詞
疑問詞
語順 態
時制
同音異義語
母語の使用
カタカナ語
促音長音濁音
誤字脱字
1 × × × × × × × × × × △ × ○2 × × × × × × × × × × △ × ○3 × × × × × × × × × × △ × ○4 × × × × × × × × × × △ × ○5 × × × × × × × × × × × × ×6 × ○ △ × × × × × × △ × × △7 × × × × × △ × × × × △ × ×8 × × × × × × × × × × ○ × ×
日本語校正ツールの調査
11
× 検出なし ○ 正しく検出 △ 検出したが理由が違う
全然検出してくれない…
12
背景
訂正モデル
実験と結果
まとめ
分類モデルを用いた日本語学習者の格助詞誤り訂正
問題設定
13
問題を簡単化して取り組む
1. 格助詞「が,を,に,で」の誤りに限定して訂正2. 文中に格助詞誤りが1箇所のみ3. 誤り箇所は既知であるとする
4択の穴埋め問題を解く
訂正モデル
14
[が,を,に,で]のどれが当てはまるかを予測する
私 は 車 <?> 買っ た
先行研究
15
“日本語学習者の誤り傾向を考慮した格助詞訂正”笠原誠司, 藤野拓也, 小町守, 永田昌明, 松本裕治.
言語処理学会第18回年次大会発表論文集, pp. 14‒17, 2012.
Ø 18種類の助詞を対象に訂正Ø 言語モデル手法とNoisy Channel Model手法で実験
本研究ではRNNモデルとCNNモデルで実験を行なった
RNNモデル [kaili et al., 2018]
16
... ...
......
... ...
Input wordsanswer
Wordembeddings
LSTM
Attention
MLP (prediction)
CNNモデル [Le et al., 2017]
17
!" !# !$…
3 layerskernel size: 3, 4, 5
<TARGET>
MLP
concat
18
背景
訂正モデル
実験と結果
まとめ
分類モデルを用いた日本語学習者の格助詞誤り訂正
訓練データ
19
l BCCWJ+Lang-8(訂正文)を使用 (3.3M + 900k = 4.2M)
l 文に含まれる格助詞のうち一つをマスクして訓練
私 は 車 を 買っ た
私 は 車 <MASK> 買っ た
訓練データ
20
l BCCWJ+Lang-8(訂正文)を使用 (3.3M + 900k = 4.2M)
l 文に含まれる格助詞のうち一つをマスクして訓練
私 は 車 を 買っ た
私 は 車 <MASK> 買っ た
アノテーションコーパスを必要としない
テストデータ
21
l NAIST誤用コーパスから格助詞「が,を,に,で」の誤用タグを含む文を抽出 (548文)
l そのタグ以外はあらかじめ訂正しておく
車<goyo crr=‘を’ type=‘p/ga/wo’>が</goyo>買った
車 <TARGET> 買っ た (answer: を)
ベースライン
22
言語モデルを用いた訂正方法l BCCWJ+Lang-8から単語4-gram言語モデルを構築l 「が,を,に,で」のうち言語モデル確率が最も高くなるものを選択する
実験設定
23
事前学習済み単語分散表現を使用 (+emb)➡ NWJC2Vecをword embeddingsの初期値とする
訓練/テストデータを全て平仮名に変換 (+kana)➡ 日本語学習者は漢字よりも平仮名を多用するため
格助詞誤り訂正の実験結果
24
モデル 正解率 (%) 言語モデル(ベースライン) 74.68CNN 81.23CNN+emb 82.34CNN+emb+kana 83.09LSTM 73.07AttnLSTM 82.53AttnLSTM+emb 83.27AttnLSTM+emb+kana 83.27
+8.41
+8.59
出力例
25
○提案手法で向上
訂正箇所から離れた単語(機能語)を考慮できている
出力例
26
間違いだが文法的には正しい
×
提案手法でも間違い
27
どんなコーパスを訓練させたら良いのか?!
訓練コーパスの比較
28
NAIST誤用コーパス,Lang-8,BCCWJ,日経新聞コーパスの 漢字の割合,平均文長を調査
24.729
35.7
54
28.6 30.132.8
47.7
0
10
20
30
40
50
NAIST����� Lang-8 BCCWJ � �����
�����(%) ����(���)
学習者コーパス
訓練コーパスの比較
29
BCCWJ,日経新聞コーパスでサイズを300万文に統一してモデルを訓練
日経新聞 BCCWJ言語モデル 64.70 71.53CNN+emb 73.61 82.16LSTM+emb 75.46 82.16
BCCWJで訓練した方が明らかに精度が高い
訓練コーパスの比較
30
BCCWJ,日経新聞コーパスでサイズを300万文に統一してモデルを訓練
日経新聞 BCCWJ言語モデル 64.70 71.53CNN+emb 73.61 82.16LSTM+emb 75.46 82.16
BCCWJで訓練した方が明らかに精度が高い学習者コーパスに”近い”コーパスが有効である
31
背景
訂正モデル
実験と結果
まとめ
分類モデルを用いた日本語学習者の格助詞誤り訂正
まとめ
32
l 格助詞「が,を,に,で」の誤りに限定した訂正モデルを構築した
l 言語モデル手法に比べて,文全体を考慮した訂正をすることができる
l より良い訂正には,学習者コーパスあるいはそれに“近い”コーパスで訓練することが有効である
格助詞誤りチェッカーを公開していますhttp://app.jnlp.org/p-checker
33
格助詞誤りチェッカーを公開していますhttp://app.jnlp.org/p-checker
34
付録
35
36
32 6
17
1717
17%
17 %
17
17 "
1717
%
NAIST誤用コーパスから調べた助詞誤りの内訳
日本語学習者コーパス
37
n NAIST誤用コーパス作文対訳DBにアノテーション313文章,76種類の誤用タグ
n Lang-8 Learner Corpora言語習得サービスLang-8から収集日本語学習者作文: 925,588文
n 作文対訳DB作文データ: 1754件添削された作文データ: 313件
n 寺村誤用例集データベースデータ総数: 4,601文誤用タグ付き文数: 3,131文
n 学習者コーパス「なたね」n オンライン日本語誤用辞典誤用タグ付き作文: 40件
n 日本語学習者作文コーパス540名分の作文データ