Ch2006slide

35
じんもんこん2006 1 歌ことばの可視化とコノテーションの抽出 グラフによる共出現パターンの作り方山元 啓史 Hilofumi Yamamoto December 14th 2006

Transcript of Ch2006slide

じんもんこん2006 1

歌ことばの可視化とコノテーションの抽出—グラフによる共出現パターンの作り方—

山元 啓史

Hilofumi Yamamoto

December 14th 2006

じんもんこん2006 2

はじめに

• コノテーションとは何か。→コノテーションは記述できるか。

→語の意味空間はどのように記述できるか。

• 歌ことばのモデル化の方法

• 2モデル間の相対的な違いはどうやって示すか。→語の集合を演算するには?

• 低頻度語の計量分析は無視されがちだったが...

(石井, 1996)

→低い頻度でも印象的な語はどうやって取り上げるか?

じんもんこん2006 3

コノテーションとは何か!

蛸たこ

octpus

じんもんこん2006 4

コノテーションとは何か!

-

気持ち悪い

蛸たこ

octpus

じんもんこん2006 5

コノテーションとは何か!

気持ち悪い

-

蛸たこ

octpus�

タコヤキ!おいしい!

じんもんこん2006 6

コノテーションとは何か!

気持ち悪い

-

蛸たこ

octpus�

タコヤキ!おいしい!

コノテーションは受け手に依存する。 (Crystal, 1984: 18)

個別のテキスト中では直接的に観察できない。(Stubb, 2001: 198)

複数のテキストを並べてみて何だかわかる。 (intertextuality)

じんもんこん2006 7

コノテーションを調べる

• favorable/unfavorable, bright/dark, .... (Osgood)

SD法によるイメージ分析

• 連想による意味の決定(Quillian)

鹿+鳴き声→妻恋ひ?

• 状況による意味の決定(Wittgenstein, Rieger)

Meaning is use. (e.g. コンピュータの画面)

• 語は語そのもので独立して意味を持たない(Lyons 1981)

→語彙の構造は、巨大な多次元の蜘蛛の巣の意味ネット

じんもんこん2006 8

コノテーションの問題点

• コノテーションは、はっきり「…だ」と言い切れない。(Crystal, 1984)

• デノテーションとコノテーションの境界ははっきりしない。(Stede 1999)

• デノテーションとコノテーションは分けられない。(Voloshinov, 1973)

→文化を調査するのに重要であるが、研究として敬遠されてきている。(Goddard, 1998)

じんもんこん2006 9

そこで!和歌でコノテーションを調べる

• 和歌(韻文)はコノテーションの宝庫!

• 元メッセージ(和歌テキスト)は31文字(定量)

• その現代語訳は文で完結...断定している。

じんもんこん2006 10

古今集の現代語訳10種を使う

Schramnによる経験場の理論

歌人 詠む 歌 読む 和歌研究者

書く

読む

一般読者

分析・比較する

10世紀経験野

20世紀専門家の経験野

20世紀一般読者の経験野

R = CT − OP

じんもんこん2006 11

アライメント: 和歌とその現代語訳

古今集 298—小町谷照彦 (1982)訳

歌 — —— — — — — — — —立田姫訳 (秋の末近くなって帰り道についた)龍田姫

歌 — — — — — — —手向ける— — 神のあれ ば こそ訳 (が道中の無事を願って)手 向け (をする)神があるからこそ

歌 秋の木の葉 [の]幣と — —散る— — — — らめ訳 秋の木の葉(が)幣(となって)散っ(ているのだろ) う

じんもんこん2006 12

アライメントの実際

じんもんこん2006 13

歌ことばのモデルをつくる

1. 歌・訳ともにあらかじめ単位切り

2. 単位すべての idf 値を計算

→ 以上をデータベースとして保存

3. キーワードを選ぶ→ 鶯、時鳥、梅、桜など

4. キーワードを含む歌とそれに対応する訳を抽出

5. 歌・訳ともに共出現パターンを作る

6. 共出現ウエイト (cw)を計算

7. cwの値にしたがってグラフ描画

じんもんこん2006 14

グラフで可視化

Reality

Abstraction

じんもんこん2006 15

グラフで可視化

Reality

Abstraction

John Maryhit

じんもんこん2006 16

グラフで可視化

Reality

Abstraction

Sally

John Maryhit

let

Elaboration

じんもんこん2006 17

共出現パターン

雪の内に春は来にけり鴬の凍れる涙今や解くらむ

じんもんこん2006 18

共出現ウエイト

w(t, d) = (1 + log tf(t, d)) idf(t)

cw(t1, t2, d) = (1 + log ctf(t1, t2, d))√

idf(t1) idf(t2)

idf(t) = logN

df(t)

じんもんこん2006 19

Inverse Document Frequency の計算

Sparck Jones (1972)

idf(t) = logN

df(t)

idf(iru) = logN

df(iru)(1)

= log10000

4383(2)

= log 2.281542.. (3)

= 0.824614.. (4)

じんもんこん2006 20

Inverse Document Frequency の計算

Sparck Jones (1972)

idf(t) = logN

df(t)

idf(uguisu) = logN

df(uguisu)(5)

= log10000

239(6)

= log 41.841.. (7)

= 3.733877.. (8)

じんもんこん2006 21

和歌の共出現ウエイトと累積度数

0

100

200

300

400

500

600

700

800

2 4 6 8 10 12

the

num

ber

of c

o-oc

curr

ence

pat

tern

s

co-occurrence weight (cw)

warblercuckoo

plumcherry

じんもんこん2006 22

現代語訳文の共出現ウエイトと累積度数

0

5000

10000

15000

20000

25000

5 10 15 20

the

num

ber

of c

o-oc

curr

ence

pat

tern

s

co-occurrence weight (cw)

warblercuckoo

plumcherry

じんもんこん2006 23

鶯のhigh cwパターン

KEY CT BG-01-5620-02-130 鴬 23 229 3.73

cw ctf t1 idf tf t2 idf tf1 19.18 9 立田 8.52 10 春霞 4.23 92 18.71 56 梅 3.71 56 鴬 3.73 2293 18.62 10 鴬 3.73 229 立田 8.52 104 18.17 35 鴬 3.73 229 枝 4.26 355 17.98 145 鴬 3.73 229 鳴く 2.42 1526 17.72 6 笠 5.99 10 縫う 6.72 67 17.32 88 春 2.68 88 鴬 3.73 2298 17.00 62 声 2.94 62 鴬 3.73 2299 16.80 10 触れる 5.66 10 手 4.58 10

10 16.59 10 立田 8.52 10 立つ 2.96 11

じんもんこん2006 24

鶯の low cwパターン

KEY CT BG-01-5620-02-130 鴬 23 229 3.73

cw ctf t1 idf tf t2 idf tf10962 1.56 1 私 1.33 50 ない 1.83 3510963 1.55 1 見る 1.67 11 思う 1.44 4310964 1.53 1 ゆく 2.07 8 する 1.13 7510965 1.52 1 私 1.33 50 人 1.75 2110966 1.49 1 見る 1.67 11 私 1.33 5010967 1.48 1 あの人 2.56 9 ある 0.86 3310968 1.48 1 よう 1.31 44 見る 1.67 1110969 1.37 1 する 1.13 75 見る 1.67 1110970 1.33 1 ある 0.86 33 心 2.07 1110971 1.20 1 見る 1.67 11 ある 0.86 33

じんもんこん2006 25

和歌テキストによる「鶯」のモデル

Graphviz (Kamada-Kawai algorithm)による描画

鴬 (23/23,3.77): OP cw.>5.5;non-dist=off; idf=on(2)

鴬2

春9

物憂し

2

4

2

吹く

2

野辺

2

梅4

枝 2

花14

4

2

有り

3

立つ

2

匂ふ

2

2

来4

鳴く66

15

4

音3

3

2

2

2

果て

1

山里1

2

3

風3

2

2

折る

2

3

2

掛かる

1

来居る

1

未だ

1

9

2

3

散る

44

鳴き止む

1

1

掛く1

じんもんこん2006 26

現代語訳テキストによる「鶯」のモデル

鴬 (23/229,3.73): CT cw.>15;non-dist=off; idf=on(2)

毎朝

野辺8

17

6

10

青柳

4

挿頭す4

縫う

6

春88

10

立田

10枝35

花138

とまる

15

折る

22

泣く

29

鳴く

145 まだ

30

近く

6

声62

案内

誘い出す

4

9

送る

4

4

香7

10

春霞

9

立つ10

梅10 56

23

隠れる

7

6

散る52

10

触れる

10

10

添える

5

じんもんこん2006 27

ベン図: OP(歌) と CT(訳)

OP OP ∩ CT CT

じんもんこん2006 28

論理積パターンの「鶯」のモデル

鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(IS)ct)

鴬88

35

花138

折る22

鳴く

145

62

野辺

17梅

56

散る

52

じんもんこん2006 29

論理積パターン取り除いた「鶯」のモデル

鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(is)CT)

毎朝

野辺

8

6

青柳

4

鴬10

挿頭す

4

縫う 6

近く

6

案内

誘い出す

4

9

送る

4

10

立田

10

とまる

15

泣く

29

まだ

30

4

7

10春霞

9

立つ

10

10

枝23

隠れる

76

散る

10

触れる10 手10

添える

5

じんもんこん2006 30

「鶯」と「時鳥」

じんもんこん2006 31

「鶯」と「時鳥」の統合モデル

鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

毎朝

野辺8

鴬17

6

10

青柳

4

挿頭す

4

縫う 6春

88

10

立田

10

35

花 138

とまる

15

折る

22

泣く

29

鳴く145

まだ

30

8

時鳥

39

一声

8

五月

42

音羽

20

声174

110261

鳴き声

21

五月雨

14

聞く

69

聞える

37

去年

10

あやめ草

7

梢9

12

20

20

11

今朝

29

9

19

越える10

惜しむ

10

木高い

4

10

近く 6

6226

条理

8

6

案内

誘い出す4

9

送る

4

別れ

7

4

7

2010

春霞

9

立つ

10

夏山

11

ふりしぼる

6

10

56

23

44

山時鳥

9

隠れる

76

10

散る

52

10

触れる

10

10

添える

5

羽ばたく6

6

借りる

19

何時の間に

9

梢高い

7

7

はるか

5

じんもんこん2006 32

「春」のモデル

� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)

� � � �4

� �7� 10� � 6

�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7

. �/ 70 1 82 % 6

3 %10

45 . 34 624 761824

988: ; 137. < 6 8

!13

7= 10 > ? @ A B %5C 10 D13

E 20

F G27

H I10

J 30K .611H L 10M ' 5

N %9

6 O � P6

12

8

Q RS 12

T UV W10

X Y �23 Z [

10

\ ]10

^ _47 ` a b

10

c '7

d e7f 10g � 10

h i j � %8

31k l 27

m no6

O p %5

14

q6 r s t a - u %5

10

v Uw6

x6

Z y z { Z5

4 | U 5 } ~ %5V R �7

�9 � ~ a )9

� �4

c ) 2 -4

4

� D \ �7

�8 17 � B %

9

� b5

62

6

�36

� � �10� � 7

5

�36 � �8

11

10

6

7

8

� 6 4

4

5

� �8

7

5

L � 4

5� � ~ %4 � p % 4

30

64

27

31

�31� �28

H � � ~ %11 � � � \9

� � �12

14

8

� 89

4

5 55u � p % 7

  % 7 ¡ ¢5

£ p %7¤ � 9 ¥ ¦9

L U9

10

18

6

144 § �5

¨ a © %5¡ � P 7ª % 7

Z« ¬ 16

16

5

­ ® 10

10

89

23

6

1942

¯ 88° % 5

9

± � ² 6

10

9 ³ ´10

7

� µ ¶ %7

· ¸ 4

4

3

18

¹ � %7

30

50

� p %7

6

9 º6» 7

� ¼ P 6

5

½ � 7

¾ ¿ À ~ %5

4Á Â 70

- Ã Ä3

] � 12

' � Å p %11

7

Æ9

� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)

� � � �4

� �7� 10� � 6

�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7

. �/ 70 1 82 % 6

3 %10

45 . 34 624 761824

988: ; 137. < 6 8

!13

7= 10 > ? @ A B %5C 10 D13

E 20

F G27

H I10

J 30K .611H L 10M ' 5

N %9

6 O � P6

12

8

Q RS 12

T UV W10

X Y �23 Z [

10

\ ]10

^ _47 ` a b

10

c '7

d e7f 10g � 10

h i j � %8

31k l 27

m no6

O p %5

14

q6 r s t a - u %5

10

v Uw6

x6

Z y z { Z5

4 | U 5 } ~ %5V R �7

�9 � ~ a )9

� �4

c ) 2 -4

4

� D \ �7

�8 17 � B %

9

� b5

62

6

�36

� � �10� � 7

5

�36 � �8

11

10

6

7

8

� 6 4

4

5

� �8

7

5

L � 4

5� � ~ %4 � p % 4

30

64

27

31

�31� �28

H � � ~ %11 � � � \9

� � �12

14

8

� 89

4

5 55u � p % 7

  % 7 ¡ ¢5

£ p %7¤ � 9 ¥ ¦9

L U9

10

18

6

144 § �5

¨ a © %5¡ � P 7ª % 7

Z« ¬ 16

16

5

­ ® 10

10

89

23

6

1942

¯ 88° % 5

9

± � ² 6

10

9 ³ ´10

7

� µ ¶ %7

· ¸ 4

4

3

18

¹ � %7

30

50

� p %7

6

9 º6» 7

� ¼ P 6

5

½ � 7

¾ ¿ À ~ %5

4Á Â 70

- Ã Ä3

] � 12

' � Å p %11

7

Æ9

じんもんこん2006 33

描画の問題点

• エッジの数が多いと結果の図示が困難なこと

• 重み (cw)の決め方に基準がないこと

(竹内・宇津木, 1988, 235)

じんもんこん2006 34

まとめ

• 歌ことばモデルと可視化

• 共出現ウエイト→低頻度語の取り込みと無意味語の排除

• モデルを演算操作→ merge, union, zoom in/out, subtract, pruning

• コノテーションの抽出

• 相対的な差の提示

• フラクタル

じんもんこん2006 35

おわりに

• 八代集について→単位分解/語彙コードつけのデータベース化

• 共出現ウエイト→ユニバーサルな値をどう得るか

• 応用について→ ネットワークモデルによる歌ことばの変遷