リーダビリティ研究の知見を利用 したKYコーパスの定量的分...

40
リーダビリティ研究の知見を利用 したKYコーパスの定量的分析: 自動判別に向けて 筑波大学 人文社会系 李在鎬(りじぇほ) 日本語プロフィシェンシー研究会 2012年度 第2回例会 京都外国語大学 1

Transcript of リーダビリティ研究の知見を利用 したKYコーパスの定量的分...

Page 1: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

リーダビリティ研究の知見を利用したKYコーパスの定量的分析:

自動判別に向けて

筑波大学 人文社会系李 在 鎬(りじぇほ)

日本語プロフィシェンシー研究会 2012年度 第2回例会 京都外国語大学

1

Page 2: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

研究背景

• コミュニケーション能力重視の言語テスト–プロフィシエンシテスト:産出能力に対する評価が不可欠。特に口頭能力評価:TOFEL iBT, HSK, DELF・DALF, IELTSなど

• 日本語のテストでは,– JSST: 電話による会話テスト–話し言葉に対する客観的評価:OPI(牧野他2001)

• 総合的タスク、場面/話題、正確さなどの柱で構成された客観的口頭能力の評価枠組み

2

Page 3: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

研究背景

• OPI:訓練されたテスターと学習者。• 大規模な客観試験の中で、OPI

–テスター(採点者)の養成が大変–判断の一貫性を確保するのが難しい

• 本研究は、口頭能力を評価するため、揺れの少ない変数とは何かを考えるもの

3

Page 4: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

目的と狙い

• 話し言葉に対する評価者の直感を捉える

複雑な文構造を使う

誤用が少ない

(片言ではない)長い発話が言える 話題展開、

話のつなぎ方が上手

話題の抽象性・具体性

話の説得力、裏付け

難しい単語をよく使う

データ処理によって検証可能なところに対して、統計的・定量的分析を行う 4

Page 5: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

概要(目的と狙い)

• 話し言葉に対する評価者の直感を捉える–データ処理によって検証可能なところに対して、統計的・定量的分析を行う

5

Page 6: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

概要(目的と狙い)

• 話し言葉に対する評価者の直感を捉える–データ処理によって検証可能なところに対して、統計的・定量的分析を行う

複雑な文構造を使う

誤用が少ない

(片言ではない)長い発話が言える

話題の抽象性・具体性

話の説得力、裏付け

難しい単語をよく使う

話題展開、話題展開、話のつなぎ方が

上手

内容が面白い 6

Page 7: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

方法

• KYコーパス(90人分のOPIテープを文字化した言語資料)を使用–学習者別の発話特徴量を抽出–レベルを従属変数,発話特徴量を独立変数とし,分散分析、主成分分析、判別分析を行う。

Aさんの発話特徴量

Bさんの発話特徴量

Cさんの発話特徴量 対応

上級中級 初級

7

Page 8: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

結論• 結論:全体の語数,一文における平均語数,動詞の誤用頻度がレベルの判別において重要な要因であることが明らかになった。

8

Page 9: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

課題

• 発話特徴量をどう定義する?–マクロな視点:よくしゃべる、いっぱいはしゃべらないが、論理的なしゃべり、直接的な話し方・間接的な話し方などなど

–ミクロな視点:あいづちやフィラーが多い・少ない、連体修飾表現が多い・少ないなどなど

9

Page 10: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

先行研究

• リーダビリティー研究–文章の読みやすさを計算論的に(相対値として)導く手法(坂本(1962),建石(他)(1988),柴崎・玉岡(2010))

–難易度を表す指標として利用–例えば:ことばの不思議箱「帯2」(BCCWJから)• 村上春樹「中国行きのスロウ・ボート」:中学1年• 毎日新聞「欧州へのあこがれと劣等感(98.2.10記事):中3年• 影山太郎「日英対照動詞の意味と構文」:大学・一般

http://kotoba.nuee.nagoya-u.ac.jp/

10

Page 11: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

東京書籍2年上_たんぽぽ

11

Page 12: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

http://readability.nagaokaut.ac.jp/readability/

李在鎬, 長谷部陽一郎, 柴崎秀子.(2009)読解教育支援のためのリーダビリティー測定ツールについて, 言語処理学会第15回大会発表論文集, 713-716.

12

Page 13: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

学校図書6年上_自分の脳を自分で育てる

13

Page 14: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

14

Page 15: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

先行研究

• リーダビリティー研究–構築方法:基準テキスト(教科書)からテキストの特徴量を統計的な方法で学習する

• 特徴量として使用する情報–文字の連続:文字間の生起確率–一文の長さ:記憶の負荷に影響–語種の割合:漢字やカナの割合–単語の音素の長さなど

15

Page 16: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

先行研究

リーダビリティー研究 本研究

1年生の教科書

2年生の教科書

3年生の教科書

4年生の教科書

学年らしさを学習→リーダビリティ公式

特徴量

__________________________新規テキスト

適正学年を予測

初級の発話

中級の発話

上級の発話

超級の発話

レベルらしさを学習→判別式

特徴量

__________________________

新規データ

適正レベルを予測

16

Page 17: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

データ• タグ付きKYコーパス:茶筌の品詞タグ,分類語彙表の意味タグ,(形態素単位の)誤用タグが付与されたデータ(李2009)

英語(30) 韓国語(30) 中国語(30) 総計

初級(15) 4,178 3,519 3,753 11,450中級(30) 22,561 22,156 25,830 70,547上級(30) 33,901 29,742 36,167 99,810超級(15) 18,992 20,647 16,520 56,159総計 79,632 76,064 82,270 237,966

* 単位は語、( )は学習者数

表1. 学習者レベル × 母語 の延べ語数のクロス表

17

Page 18: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

18

Page 19: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

データ

英語 韓国語 中国語 総計感動詞-誤用 5 0 5 10

形容詞-誤用 27 50 39 116

助詞-誤用 389 345 531 1265助動詞-誤用 109 131 135 375

接続詞-誤用 19 10 8 37

接頭詞-誤用 3 3 6 12

動詞-誤用 207 260 248 715

副詞-誤用 50 50 55 155

名詞-誤用 265 492 435 1192連体詞-誤用 19 44 29 92

原語発話 305 19 47 371

言い直し 660 352 593 1605

総計 2058 1756 2131 5945

表2. 誤用などの集計

19

Page 20: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

初級

中級

上級

超級

20

Page 21: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

初級

中級

上級

超級

21

Page 22: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

データ(発話特徴量)

• 発話サイズに関する特徴–全体の語数、一文の平均語数、文数

• 誤用に関する特徴–品詞別の誤用(形容詞、動詞、助詞、助動詞など)

• その他–原語発話、言い直し

22

Page 23: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

データ(見本)

23

Page 24: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

分析方法• 分散分析:グループ(レベル)間で平均の相違を検定する。一元配置の分散分析を実行。Tukey法による多重比較を行う

• 主成分分析:総合得点(合成変数)を求める手法

• 判別分析:グループ間の境界を求める、判別の基準を求める多変量解析の手法。ステップワイズ法による分析を実行

24

Page 25: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

結果

• 分散分析の結果–因子:レベル

• 主効果有意:全体の語数、一文の平均語数、助詞の誤用頻度、動詞の誤用頻度、名詞の誤用頻度(いずれもp<.001)

• 多重比較:上級と超級に関して一文の平均語数のみ主効果が有意

–因子:母語• 原語発話のみ有意(F(2,87)=9.823, p<.001)

25

Page 26: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

結果

• 分散分析の平均値のプロット–3つの山パターンが観察される

言い直し 副詞の誤用

1.上級で山のパターン 26

Page 27: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

結果形態素数

一文の平均語数

原語発話

2.山なしパターン

27

Page 28: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

3.中級で山

文数

形容詞の誤用

助詞の誤用

助動詞の誤用

名詞の誤用

動詞の誤用

28

Page 29: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

主成分分析

表3. 成分行列成分

1 2 3 4形態素数 .253 .905 -.023 .111一文の平均語数 -.041 .899 .019 .223感動詞-誤用 .121 -.196 .705 -.436形容詞-誤用 .451 -.346 -.057 .348原語発話 .140 -.328 .391 .564言い直し .262 .549 .383 -.318助詞-誤用 .860 -.029 .094 -.052助動詞-誤用 .871 .002 -.022 .010動詞-誤用 .835 -.043 -.196 -.086副詞-誤用 .594 .155 .176 .368名詞-誤用 .795 -.170 .029 -.151連体詞-誤用 .407 -.021 -.572 -.26929

Page 30: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

上級

超級

中級

初級

30

Page 31: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

31

Page 32: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

判別分析

• ステップワイズ法による正準判別分析

関数1 2 3

全体の語数 0.820 0.330 -0.856一文の平均語数 0.291 0.723 1.031動詞-誤用 -0.246 0.648 0.806

表4. 標準化された判別関数

固有値関数 固有値 分散の % 累積 % 正準相関1 2.090

a84.6 84.6 .822

2 .375a

15.2 99.8 .522

3 .006a

.2 100.0 .076

Wilks のラムダ関数の検定 Wilks のラムダ カイ 2 乗 自由度 有意確率1 から 3 まで .234 124.175 9 .000

2 から 3 まで .723 27.721 4 .000

3 .994 .495 1 .482

32

Page 33: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

判別分析

33

Page 34: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

判別分析

レベル

予測グループ(判別式による予測)

合計初級 中級 上級 超級観測データ(KYコーパス)

度数 初級 14 1 0 0 15

中級 6 21 3 0 30

上級 0 10 12 8 30

超級 0 0 3 12 15

% 初級 93.3 6.7 0 0 100

中級 20 70 10 0 100

上級 0 33.3 40 26.7 100

超級 0 0 20 80 100

*交差検証法による判別精度65.1%

表5. 判別式による分類の結果

34

Page 35: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

上級を削除

レベル

予測グループ(判別式による予測)

合計初級 中級 超級観測データ(KYコーパス)

度数 初級 15 0 0 15

中級 4 26 0 30

超級 0 1 14 15

% 初級 100.0 .0 .0 100.0

中級 13.3 86.7 .0 100.0

超級 .0 6.7 93.3 100.0

*交差検証法による判別精度91.7%

現実にはあり得ないが

35

Page 36: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

考察• 主成分分析:誤用に関わる主成分と発話量に関わる主成分で初級、中級、超級はある程度分けることができた。上級ははらつき激しい。

• 判別分析–初級ほぼ正しく判定できている。–中級、超級、そこそこ判定できている–上級についての判別精度は低い。中級や超級とは違う上級の特徴を決定づける変数があるはず。今後の課題

36

Page 37: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

考察

• 65.1%の精度をどう捉えるべきか– OPIの判定基準 発話量に関する明確な

規定はない

37

Page 38: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

結論• 結論:全体の語数,一文における平均語数,動詞の誤用頻度がレベルの判別において重要な要因であることが明らかになった。

→発話の「量」は意外と重要→構文の要である動詞の誤用有無も重要かも?

• 本調査の結果は、リーダビリティー研究の基本的な主張と矛盾しないもの

38

Page 39: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

参考文献1. 阪本一郎(1962)「文章の語彙比重の査定法-Readabilityの研究の一

つの試み-」『読書科学』6(1),pp.37-44.2. 建石由佳・小野芳彦・山田尚勇(1988)「日本文の読みやすさの評価式。

文書処理とニューマンインターフェース」18(1), pp.1-83. 牧野成一(他)(2001)『ACTFL OPI入門』アルク4. 松吉俊・近藤陽介・橋口千尋・佐藤理史(2008)「全教科を収録対象と

した日本語教科書コーパスの構築」言語処理学会第14回年次大会発表論文集, pp.520-523.

5. 柴崎秀子・玉岡賀津雄(2010)「国語科教科書を基にした小・中学校の文章難易度学年判定式の構築」『日本教育工学会論文誌』33-4,pp.449-458

6. 李 在鎬(2009)「タグ付き日本語学習者コーパスの開発」『計量国語学』27-2, pp.60-72.

7. 李在鎬, 長谷部陽一郎, 柴崎秀子.(2009)読解教育支援のためのリーダビリティー測定ツールについて, 言語処理学会第15回大会発表論文集, 713-716.

39

Page 40: リーダビリティ研究の知見を利用 したKYコーパスの定量的分 …jhlee.sakura.ne.jp/geo-backup/OPI20121110.pdf · 言い直し 660 352 593 1605 総計 2058 1756

•ありがとうございました。

40