日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y...

33
水野淳太 大山浩美 小林朋幸 坂田浩亮 Noah Evans 谷口雄作 松本裕治 奈良先端科学技術大学院大学 情報科学研究科 言語処理学会 14回年次大会 ワークショップ 「教育・学習を支援する言語処理」 日本語読解支援のための語義ごとの 用例抽出システムの構築

Transcript of 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y...

Page 1: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

水野淳太 大山浩美 小林朋幸 坂田浩亮 Noah Evans 谷口雄作 松本裕治奈良先端科学技術大学院大学 情報科学研究科

言語処理学会 第14回年次大会 ワークショップ「教育・学習を支援する言語処理」

日本語読解支援のための語義ごとの用例抽出システムの構築

Page 2: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

言語教育の支援を目的とした、大量の電子テキストを活用したシステムが開発されている一般的に、外国語学習者は目的言語を目的言語で理解したい日本語を日本語で理解したい学習の助けとなるのは国語辞典や英英辞典辞書の語釈文は初学者には難読例文の提示は語釈文の理解に有用

背景

2

Page 3: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:スペースアルク

3

Page 4: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:Rikai.com

4

Page 5: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:Rikai.com

4

Page 6: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:リーディングチュウ太

5

Page 7: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:あすなろ

6

Page 8: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:あすなろ

6

Page 9: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:あすなろ

6

Page 10: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:あすなろ

6

Page 11: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

関連システム:あすなろ

6

Page 12: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

日本語学習者のための語義ごとの例文の提示語釈文の理解の助けとなる語義ごとの用法の差異を学習できる様々な尺度を用いた例文の選択学習者難易度や文長

教師難易度や文長と、重みをかけた例文のランキング学習者にとって適切な例文を検索したり、作成の手助けになる

目的

7

Page 13: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

システムの概要

8

Page 14: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

課題

1. 語義曖昧性解消例文を語義ごとに分類して表示する

2. 例文の選択文章長や難易度によって例文を選択、並べ替える選択の尺度の設定

3. インターフェース例文の語義についての誤分類の訂正教師用と学習者用の違い

9

Page 15: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

1. 語義曖昧性解消

例文を語義ごとに分類して表示するために必要一般的には教師あり学習を用いて解くあらゆる単語についての訓練データを用意するのは現実的に不可能

語釈文の情報を利用して半教師あり学習を行う訓練データが少なくても分類が行える高精度に分類するのは難しい学習者は誤分類を判断できない

10

Page 16: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

1. 語義曖昧性解消

例文を語義ごとに分類して表示するために必要一般的には教師あり学習を用いて解くあらゆる単語についての訓練データを用意するのは現実的に不可能

語釈文の情報を利用して半教師あり学習を行う訓練データが少なくても分類が行える高精度に分類するのは難しい学習者は誤分類を判断できない

教師による例文の追加、誤分類の修正

10

Page 17: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

教師による誤分類の修正

教師向けに “例文の誤分類修正機能” および “例文の追加機能” を提供する確信度の高い例文だけを使っても、誤分類を無くすのは難しい教師による修正が行えることで、正しく分類された例文が増える同時に分類性能の向上も期待できる

11

Page 18: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

2. 例文の選択

学習者にとって習熟度によって適切な例文は異なる

教師にとって学習者ごとに適切な例文を提示したい

12

Page 19: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

2. 例文の選択

学習者にとって習熟度によって適切な例文は異なる

教師にとって学習者ごとに適切な例文を提示したい

文の長さや難易度によって例文を選択する

12

Page 20: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

文長の評価学習者にとって長すぎると難読になってしまうが、短すぎると理解の助けになりにくい

教師にとって学習者に提示する例文は、短すぎても長すぎても適切ではない

文の最大単語数(max)、最小単語数(min)を指定評価値は単語数 n の文について

1!!

max +min!2n

max!min+1

"2

ただし負数の場合は0

13

Page 21: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

難易度の評価単語、漢字、文法について、日本国際教育支援協会(JEES)によって定められた級を利用して、その難易度を判定する日本語教育の現場では、就学している級より難易度の高い単語などを含む文を用いた指導はできない例文が指定難易度以上の単語などを含むとき、非表示にする注意付きで表示する

の2通りの表示方法を選べる

14

Page 22: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

単語、漢字の難易度 (1/2)

JEESでは、例えば以下のように定められている

級を以下の式によって評価する

文法(後述)についても同じ式で評価する

単語会う 4級移民 1級

漢字語 4級蔵 1級

k + 15

kただし は級

15

Page 23: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

単語、漢字の難易度 (2/2)

級の定められていない単語や漢字についてはコーパス内での出現頻度によって級を推定級別の単語のコーパス内での出現頻度 (毎日新聞2002年の1~6月)

16

1

10

100

1000

10000

0.5 1 1.5 2 2.5 3 3.5 4 4.5

Fre

quency

JEES-Rank

JEES

Freq

uenc

y

JEES-Rank1 2 3 4

Page 24: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

単語、漢字の難易度 (2/2)

級の定められていない単語や漢字についてはコーパス内での出現頻度によって級を推定級別の単語のコーパス内での出現頻度 (毎日新聞2002年の1~6月)

16

1

10

100

1000

10000

0.5 1 1.5 2 2.5 3 3.5 4 4.5

Fre

quency

JEES-Rank

JEES

Freq

uenc

y

JEES-Rank1 2 3 4

Page 25: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

文法の難易度JEESでは、例えば以下のように定められている

これらを正規表現のパターンとして利用する

~です 4級

~たところで 1級

17

Page 26: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

選択基準

文長、単語、漢字、文法の難易度の4つの尺度をどう組み合わせるか学習者それぞれの尺度について、利用するかどうかを選ぶ

教師それぞれの尺度に重みをつけ、その重み線形和をとる

18

Page 27: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

19

例文の選択例“正しい” の “道理や法にかなって、誤りが無い” についての例文設定したパラメータ

値 重み最小文長 10

0.1最大文長 25

単語級 2 0.2

漢字級 2 0.5

文法級 2 0.1

Page 28: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

19

例文の選択例文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1

Page 29: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

19

例文の選択例

08/03/20 10:23NAIST Language Tutor

ページ 1/1http://localhost:3000/dictionary/search

NAIST Language Tutor

for students

Sentence Length weighted

max: words

min: words

Grade

Word: Rank weighted

Kanji: Rank weighted

Grammar: Rank weighted

lookup dictionary show not adapted sentence

正しい日本語を話す

0.1

25

10

2 0.2

2 0.5

2 0.1

Input Text : 正しい日本語を話す

正しい1. きちんとしている。整っている。「正しい姿勢」▽「まさしい」と読めば別の意。<派生> 正しさ2. 道理や法にかなって、誤りが無い。「正しい行い」「正しい答」

continue reading...39 examples rest

1. 次につぎに 正しいただしい

 漢字かんじ か どう か の 選択

せんたく  作業さぎょう

 が 始まるはじまる

 が 、 そこ に 誤りあやまり

 が 起こりおこり

 やすい 。 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375

2. —— テロ を 防ぐふせぐ ため に イスラム 教徒

きょうと に も 

正しいただしい

 イスラム  解釈かいしゃく

 を 教えるおしえる

  必要ひつよう

 が ある わけ です か 。 

20words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.590234375

3. 我々われわれ

 が 求めるもとめる

 の は 、 あくまで 正しいただしい

 ジャッジ だ 」 と  慎重

しんちょう な 返答

へんとう に 終始

しゅうし し た 。 

18words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375

4. 侵略しんりゃく

 さ れ た 国くに が 自国

じこく を 守る

まもる  戦争せんそう

 は 正しいただしい

  戦争せんそう

 と 言っいっ て 差し支え

さしつかえ ない 。 

17words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375

5. だが 、 今いま も 「 あの 時

とき の 判断

はんだん は 正しかっ

ただしかっ た

 」 と 胸むね を 張る

はる 。 

16words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.556484375

話す1. 声に出してものを言う。口で述べる。「本当の事を話す」。互いに言葉を交わす。会話をする。「母と話す」「話せばわかる」2. その言語を音声言語として使う。「日本語で話そうよ「この国には英語を話す人が多い」

文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1

Page 30: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

19

例文の選択例

08/03/20 10:23NAIST Language Tutor

ページ 1/1http://localhost:3000/dictionary/search

NAIST Language Tutor

for students

Sentence Length weighted

max: words

min: words

Grade

Word: Rank weighted

Kanji: Rank weighted

Grammar: Rank weighted

lookup dictionary show not adapted sentence

正しい日本語を話す

0.1

25

10

2 0.2

2 0.5

2 0.1

Input Text : 正しい日本語を話す

正しい1. きちんとしている。整っている。「正しい姿勢」▽「まさしい」と読めば別の意。<派生> 正しさ2. 道理や法にかなって、誤りが無い。「正しい行い」「正しい答」

continue reading...39 examples rest

1. 次につぎに 正しいただしい

 漢字かんじ か どう か の 選択

せんたく  作業さぎょう

 が 始まるはじまる

 が 、 そこ に 誤りあやまり

 が 起こりおこり

 やすい 。 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375

2. —— テロ を 防ぐふせぐ ため に イスラム 教徒

きょうと に も 

正しいただしい

 イスラム  解釈かいしゃく

 を 教えるおしえる

  必要ひつよう

 が ある わけ です か 。 

20words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.590234375

3. 我々われわれ

 が 求めるもとめる

 の は 、 あくまで 正しいただしい

 ジャッジ だ 」 と  慎重

しんちょう な 返答

へんとう に 終始

しゅうし し た 。 

18words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375

4. 侵略しんりゃく

 さ れ た 国くに が 自国

じこく を 守る

まもる  戦争せんそう

 は 正しいただしい

  戦争せんそう

 と 言っいっ て 差し支え

さしつかえ ない 。 

17words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375

5. だが 、 今いま も 「 あの 時

とき の 判断

はんだん は 正しかっ

ただしかっ た

 」 と 胸むね を 張る

はる 。 

16words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.556484375

話す1. 声に出してものを言う。口で述べる。「本当の事を話す」。互いに言葉を交わす。会話をする。「母と話す」「話せばわかる」2. その言語を音声言語として使う。「日本語で話そうよ「この国には英語を話す人が多い」

文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1

Page 31: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

3. インターフェース

教師用インターフェースのみが有する機能例文選択のためのパラメータに重みを設定できる例文の語義分類を修正できる(未実装)

例文の追加ができる (未実装)

実際に利用してもらった上での主観評価が必要

20

Page 32: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

まとめ

入力された文または単語について、辞書引きを行って語義の語釈文を提示し、語義ごとの例文を提示するシステムの開発例文を選択する基準を設定し、その効果を確認例文を語義ごとに表示するために、教師による誤分類の修正機能の重要性を確認

21

Page 33: 日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yUyI\ S\ y bMy{y 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375 2. ÑÑyÂéy

今後の課題

実際に利用してもらった上での主観評価サービスとしての運用

例文の語義についての誤分類修正機能の実装学習履歴を保存して活用以前に調べたことのある単語であれば、それを指摘検索するたびに異なる例文を提示

22