Post on 13-Jul-2015
通時コーパスの設計 2010.3.3 1
通時コーパスで見る語彙論的トポロジーとトランジション—通時コーパスでやってみたいこと—
山 元 啓 史yamagen@ryu.titech.ac.jp
yamagen@ucsd.edu
東京工業大学
カリフォルニア大学サンディエゴ校
March 3, 2010
通時コーパスの設計 2010.3.3 3
トポロジーとトランジション
topology 位相→数理的整理 (連接、集合)
• 例:ネットワークトポロジー、オートマトン• まとまりの形式 (だんご、線上)
• 切り離し、合成、成分分類
transition 推移→変化の差分をベクトル化する
• 変化の向きと量を時間毎に集計する
通時コーパスの設計 2010.3.3 4
古今集「春」のモデル
� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
� � � �4
� �7� 10� � 6
�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7
. �/ 70 1 82 % 6
3 %10
45 . 34 624 761824
988: ; 137. < 6 8
!13
7= 10 > ? @ A B %5C 10 D13
E 20
F G27
H I10
J 30K .611H L 10M ' 5
N %9
6 O � P6
12
8
Q RS 12
T UV W10
X Y �23 Z [
10
\ ]10
^ _47 ` a b
10
c '7
d e7f 10g � 10
h i j � %8
31k l 27
m no6
O p %5
14
q6 r s t a - u %5
10
v Uw6
x6
Z y z { Z5
4 | U 5 } ~ %5V R �7
�9 � ~ a )9
� �4
c ) 2 -4
4
� D \ �7
�8 17 � B %
9
� b5
62
6
�36
� � �10� � 7
5
�36 � �8
11
10
6
7
8
� 6 4
4
5
� �8
7
5
L � 4
5� � ~ %4 � p % 4
30
64
27
31
�31� �28
H � � ~ %11 � � � \9
� � �12
14
8
� 89
4
5 55u � p % 7
% 7 ¡ ¢5
£ p %7¤ � 9 ¥ ¦9
L U9
10
18
6
144 § �5
¨ a © %5¡ � P 7ª % 7
Z« ¬ 16
16
5
® 10
10
89
23
6
1942
¯ 88° % 5
9
± � ² 6
10
9 ³ ´10
7
� µ ¶ %7
· ¸ 4
4
3
18
¹ � %7
30
50
� p %7
6
9 º6» 7
� ¼ P 6
5
½ � 7
¾ ¿ À ~ %5
4Á Â 70
- Ã Ä3
] � 12
' � Å p %11
7
Æ9
通時コーパスの設計 2010.3.3 5
古今集「春」のモデル
� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
� � � �4
� �7� 10� � 6
�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7
. �/ 70 1 82 % 6
3 %10
45 . 34 624 761824
988: ; 137. < 6 8
!13
7= 10 > ? @ A B %5C 10 D13
E 20
F G27
H I10
J 30K .611H L 10M ' 5
N %9
6 O � P6
12
8
Q RS 12
T UV W10
X Y �23 Z [
10
\ ]10
^ _47 ` a b
10
c '7
d e7f 10g � 10
h i j � %8
31k l 27
m no6
O p %5
14
q6 r s t a - u %5
10
v Uw6
x6
Z y z { Z5
4 | U 5 } ~ %5V R �7
�9 � ~ a )9
� �4
c ) 2 -4
4
� D \ �7
�8 17 � B %
9
� b5
62
6
�36
� � �10� � 7
5
�36 � �8
11
10
6
7
8
� 6 4
4
5
� �8
7
5
L � 4
5� � ~ %4 � p % 4
30
64
27
31
�31� �28
H � � ~ %11 � � � \9
� � �12
14
8
� 89
4
5 55u � p % 7
% 7 ¡ ¢5
£ p %7¤ � 9 ¥ ¦9
L U9
10
18
6
144 § �5
¨ a © %5¡ � P 7ª % 7
Z« ¬ 16
16
5
® 10
10
89
23
6
1942
¯ 88° % 5
9
± � ² 6
10
9 ³ ´10
7
� µ ¶ %7
· ¸ 4
4
3
18
¹ � %7
30
50
� p %7
6
9 º6» 7
� ¼ P 6
5
½ � 7
¾ ¿ À ~ %5
4Á Â 70
- Ã Ä3
] � 12
' � Å p %11
7
Æ9
� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
� � � �4
� �7� 10� � 6
�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7
. �/ 70 1 82 % 6
3 %10
45 . 34 624 761824
988: ; 137. < 6 8
!13
7= 10 > ? @ A B %5C 10 D13
E 20
F G27
H I10
J 30K .611H L 10M ' 5
N %9
6 O � P6
12
8
Q RS 12
T UV W10
X Y �23 Z [
10
\ ]10
^ _47 ` a b
10
c '7
d e7f 10g � 10
h i j � %8
31k l 27
m no6
O p %5
14
q6 r s t a - u %5
10
v Uw6
x6
Z y z { Z5
4 | U 5 } ~ %5V R �7
�9 � ~ a )9
� �4
c ) 2 -4
4
� D \ �7
�8 17 � B %
9
� b5
62
6
�36
� � �10� � 7
5
�36 � �8
11
10
6
7
8
� 6 4
4
5
� �8
7
5
L � 4
5� � ~ %4 � p % 4
30
64
27
31
�31� �28
H � � ~ %11 � � � \9
� � �12
14
8
� 89
4
5 55u � p % 7
% 7 ¡ ¢5
£ p %7¤ � 9 ¥ ¦9
L U9
10
18
6
144 § �5
¨ a © %5¡ � P 7ª % 7
Z« ¬ 16
16
5
® 10
10
89
23
6
1942
¯ 88° % 5
9
± � ² 6
10
9 ³ ´10
7
� µ ¶ %7
· ¸ 4
4
3
18
¹ � %7
30
50
� p %7
6
9 º6» 7
� ¼ P 6
5
½ � 7
¾ ¿ À ~ %5
4Á Â 70
- Ã Ä3
] � 12
' � Å p %11
7
Æ9
通時コーパスの設計 2010.3.3 6
古今集「秋」のモデル
� � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
��8� � 6 � � 5� � �8
10
9
�54� 16 � � � 5� 9! 15
7
4
7 " #4
6
$116
% �26
& '19
( ) * 8
+10, -
7. �8/ 0 1 92 - 3
36 4
85 7
6 7 8 95: ; < = 5 > ?7
@A � 23B � C 9 D12
E F 10
99 G �8
H9
I J � K F6L M 9
� 9 6N O P 8
Q R S T U 86
8
7
M V4 W �
6
6
5
5
76X Y 8
Z 6
[ \ ] ^4 _7
`a9 b S 97
c d 8e f g �
7
h � i � j �4k 8
9
l m j �8
6
n o 6
6
5
p B5
4
qr s10 t f : �6
/ u12
97
21
11
5
11 v w18
10
48
9
86
4
x y z10
9
{ f15| } 65e f n m 12 ~ �10
� � m( � 8� � 7 �919
10
9
� 911 � }38
� � �7
7� � � 210� � 19
� � 10 � 20
�� �8
�13
�� f � � �10
9
8
5
4
� � S �10 � �14
� �6
34
8
�15 �
10
20
¡8
¢49
£ 2 o8
¤ ¥8 ¦ 9
6
8
8
§ 5
6¨ 10 ©9
J 9
10
10ª « 27
10 ¬ B 7
19
® � � 8
R 11
5
6
9
10�28
6
¯10 ° U5
± �8 ² >8
� ³e f � ´ 8e � S µ8
10
¶ d 7
9
7
· ¸11
7
7¹ � º d » �6
¼ ½ B12¾
6 ¿6
5
À Á Â =8
6 Ã � �8
188
20
27
� 8Ä 8 7
18 Å 20{ f Æ Ç 6
6
9 È15
10
50
44
28
14 É42 Ê 7 Ë * 10
Ì 7Í ¹ �6
Î Ï8 Ã ; Ð B9
8
'9
Ñ �4
4
` g � 4
. 9
8
8l � 7
8
Ò Ó 77
Ô W18
Õ 7
Ö 18
× B9
9
8¤ 9
Ø % Ç Ù Ú4 10
7
Û 9
� ; Ü Ý 4
Þ � 5
ß 17
N h9
� � 99
à j �8
9
N O N O4
5
4
º j Ç5
7
8
7
通時コーパスの設計 2010.3.3 7
古今集「秋」のモデル
� � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
��8� � 6 � � 5� � �8
10
9
�54� 16 � � � 5� 9! 15
7
4
7 " #4
6
$116
% �26
& '19
( ) * 8
+10, -
7. �8/ 0 1 92 - 3
36 4
85 7
6 7 8 95: ; < = 5 > ?7
@A � 23B � C 9 D12
E F 10
99 G �8
H9
I J � K F6L M 9
� 9 6N O P 8
Q R S T U 86
8
7
M V4 W �
6
6
5
5
76X Y 8
Z 6
[ \ ] ^4 _7
`a9 b S 97
c d 8e f g �
7
h � i � j �4k 8
9
l m j �8
6
n o 6
6
5
p B5
4
qr s10 t f : �6
/ u12
97
21
11
5
11 v w18
10
48
9
86
4
x y z10
9
{ f15| } 65e f n m 12 ~ �10
� � m( � 8� � 7 �919
10
9
� 911 � }38
� � �7
7� � � 210� � 19
� � 10 � 20
�� �8
�13
�� f � � �10
9
8
5
4
� � S �10 � �14
� �6
34
8
�15 �
10
20
¡8
¢49
£ 2 o8
¤ ¥8 ¦ 9
6
8
8
§ 5
6¨ 10 ©9
J 9
10
10ª « 27
10 ¬ B 7
19
® � � 8
R 11
5
6
9
10�28
6
¯10 ° U5
± �8 ² >8
� ³e f � ´ 8e � S µ8
10
¶ d 7
9
7
· ¸11
7
7¹ � º d » �6
¼ ½ B12¾
6 ¿6
5
À Á Â =8
6 Ã � �8
188
20
27
� 8Ä 8 7
18 Å 20{ f Æ Ç 6
6
9 È15
10
50
44
28
14 É42 Ê 7 Ë * 10
Ì 7Í ¹ �6
Î Ï8 Ã ; Ð B9
8
'9
Ñ �4
4
` g � 4
. 9
8
8l � 7
8
Ò Ó 77
Ô W18
Õ 7
Ö 18
× B9
9
8¤ 9
Ø % Ç Ù Ú4 10
7
Û 9
� ; Ü Ý 4
Þ � 5
ß 17
N h9
� � 99
à j �8
9
N O N O4
5
4
º j Ç5
7
8
7
� � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
��8� � 6 � � 5� � �8
10
9
�54� 16 � � � 5� 9! 15
7
4
7 " #4
6
$116
% �26
& '19
( ) * 8
+10, -
7. �8/ 0 1 92 - 3
36 4
85 7
6 7 8 95: ; < = 5 > ?7
@A � 23B � C 9 D12
E F 10
99 G �8
H9
I J � K F6L M 9
� 9 6N O P 8
Q R S T U 86
8
7
M V4 W �
6
6
5
5
76X Y 8
Z 6
[ \ ] ^4 _7
`a9 b S 97
c d 8e f g �
7
h � i � j �4k 8
9
l m j �8
6
n o 6
6
5
p B5
4
qr s10 t f : �6
/ u12
97
21
11
5
11 v w18
10
48
9
86
4
x y z10
9
{ f15| } 65e f n m 12 ~ �10
� � m( � 8� � 7 �919
10
9
� 911 � }38
� � �7
7� � � 210� � 19
� � 10 � 20
�� �8
�13
�� f � � �10
9
8
5
4
� � S �10 � �14
� �6
34
8
�15 �
10
20
¡8
¢49
£ 2 o8
¤ ¥8 ¦ 9
6
8
8
§ 5
6¨ 10 ©9
J 9
10
10ª « 27
10 ¬ B 7
19
® � � 8
R 11
5
6
9
10�28
6
¯10 ° U5
± �8 ² >8
� ³e f � ´ 8e � S µ8
10
¶ d 7
9
7
· ¸11
7
7¹ � º d » �6
¼ ½ B12¾
6 ¿6
5
À Á Â =8
6 Ã � �8
188
20
27
� 8Ä 8 7
18 Å 20{ f Æ Ç 6
6
9 È15
10
50
44
28
14 É42 Ê 7 Ë * 10
Ì 7Í ¹ �6
Î Ï8 Ã ; Ð B9
8
'9
Ñ �4
4
` g � 4
. 9
8
8l � 7
8
Ò Ó 77
Ô W18
Õ 7
Ö 18
× B9
9
8¤ 9
Ø % Ç Ù Ú4 10
7
Û 9
� ; Ü Ý 4
Þ � 5
ß 17
N h9
� � 99
à j �8
9
N O N O4
5
4
º j Ç5
7
8
7
通時コーパスの設計 2010.3.3 8
そもそも
• モデル作りは語彙の意味研究として始められた。
• ことばの意味のむずかしさ– 本箱→下駄箱/ふでばこ/あみだな
– 「そこがみそだ」
– 「骨を呑み込む」→ learn the ropes
通時コーパスの設計 2010.3.3 9
ことばの意味のむずかしさ
• 意味の変化– 頭が切れる(天才)/頭が切れる(怒り)
• 発生した語の形は変わることはあまりないが、意味は変化している (Goodenough, 1981)。
• 語は語そのもので独立して意味を持たない(Lyons 1981)
→語彙の構造は、巨大な多次元の蜘蛛の巣の意味ネット
和歌を材料に→材料の単位が一応明確?
通時コーパスの設計 2010.3.3 10
歌ことばのモデリング
• 体系と詳細の可視化 (山元, 2005, 2006, 2007)
• 上記の研究データは古今集に限られていた。→八代集に拡張して研究を続けてみたい。
• 「花といえば桜」「桜の吉野」はいつごろか。→古今集ではまだ成立していない。
• 新古今集では西行の時代から (片桐, 1983; 小林, 1989)。
通時コーパスの設計 2010.3.3 11
八代集の成立
900
�
古今集
(•90
5)
46
950
�
後撰集
(•95
1)
56
1000
�
拾遺集
(•10
07)
79
1050
�
後拾遺集
(108
6)
38
1100
�
金葉集
(•11
24)
20
�
詞花集
(•11
44)
44
1150
�
千載集
(118
8)
17
1200
�
新古今集
(120
5)
1250
八代集の語彙の転換期
拾遺集説、◎後拾遺集説、千載集説
通時コーパスの設計 2010.3.3 12
八代集の語彙の転換期
• 一般的には古今撰者の歌の排除された後拾遺集。
• 上野 (1976) 古今・後撰→〈褻〉/拾遺集以降→〈晴〉
• 川村 (1991) すでに拾遺集に見られる。
• 辻 (1998) 語彙的には千載集。
• すべての語彙が急に変わるのではない。
• 当時の流行や文化、撰者によるか。
• 転換期は語によって違うのではないか。
• → 八代集を通して「吉野」のモデルを作ってみる。
通時コーパスの設計 2010.3.3 13
方法:材料
• 国文学研究資料館開発正保版本「二十一代集」
• 長歌を除く 9484首の和歌テキスト
(シソーラスの作成はすべての和歌に対して)
• kh で単位分割 (短単位)し、
• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。
• 八代集シソーラスの開発→分類語彙表を利用
• 一般語 (48732)、地名 (1408)、人名 (49)
通時コーパスの設計 2010.3.3 17
方法:共出現パターン
雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ
• 雪–内、雪–春、雪–来、...
通時コーパスの設計 2010.3.3 18
用語の採り方
• 一般的に計量研究は、低頻度語が無視される。
• 高頻度語→キーワード性乏しい (水谷, 1983)
• 低頻度語→文章の性格に規定される (石井, 1996)
• idf (Sparck Jones, 1972) を利用する
→ 文脈を有する最小かつ代表的な単位
idf(t, N) = logN
df(t)
通時コーパスの設計 2010.3.3 19
idf : inverse document frequency
idf(ari, N) = logN
df(ari)(1)
= log9484
1201(2)
= log 7.89.. = 2.07.. (3)
idf(uguisu, N) = logN
df(uguisu)(4)
= log9484
101(5)
= log 93.90.. = 4.54.. (6)
通時コーパスの設計 2010.3.3 20
語の頻度の分布
0
500
1000
1500
2000
2500
3000
3500
0 200 400 600 800 1000 1200 1400 1600 1800 2000
number of type
frequency
L-Shape Freq-Type
低頻度語が圧倒的に多い。頻度重視の計量では分析できない。
L字型分布
通時コーパスの設計 2010.3.3 21
idf値の分布
0
200
400
600
800
1000
1200
1 2 3 4 5 6 7 8 9
number of type
inverse document frequency (idf)
J-Shape IDF-Type
J字型分布
idf で語の重要度を計算すると低頻度語は高い idf となる。idf を利用して、共出現パターンを計算する。
通時コーパスの設計 2010.3.3 22
共出現パターンの特徴と計算方法
• 共出現パターンには最小単位 (2語)で文脈が含まれる。
月+宿 → 月が宿る(池などに月影が映る)
頭+雪 → 頭の雪(白髪)
• すべてのパターンを描画すると「真っ黒の塊」になる。→重要なパターンのみを選び出す必要がある。
• tfidfを2語の重要度へ拡張する。
w(t,K,N)=(1 + log tf(t,K)) idf(t, N)
通時コーパスの設計 2010.3.3 23
共出現ウエイト (cw)の計算
w(t,K, N) = (1 + log tf(t,K)) idf(t, N) (7)
cidf(t1, t2, N) =√
idf(t1, N) idf(t2, N) (8)
ctf(t1, t2, K) = 1 + log |{k : t1, t2 ∈ k}| (9)
• K は条件により抽出されたテキスト。
• (8)は2語の重要度の幾何平均【単語重要度】
• (9)はK に出現したパターンの頻度【実出現頻度】
• ◎パターンの「珍しさ」の情報がない!
通時コーパスの設計 2010.3.3 24
cidf値の分布
0
200
400
600
800
1000
0 1 2 3 4 5 6 7 8 9
frequency of patterns
cidf
梅桜鶯時鳥立田吉野
通時コーパスの設計 2010.3.3 25
共出現ウエイト (cw)の計算
ictf(t1, t2, N) = 1 + log|N |
|{n : t1, t2 ∈ n}|(10)
cw(t1, t2) = ctf(t1, t2, K) ictf(t1, t2, N) cidf(t1, t2, N) (11)
• K は条件抽出されたテキスト。N はすべてのテキスト。
• 【単語重要度】は2語の重要度の幾何平均
• 【実出現頻度】はK に出現したパターンの頻度
• 【組合重要度】はN に出現したパターンの頻度
通時コーパスの設計 2010.3.3 26
cw値の累積パターン数
0
100
200
300
400
500
600
700
800
900
0 10 20 30 40 50 60 70 80 90 100
cumulative frequency of patterns
co-occurrence weight (cw)
吉野
1
2
3
4
56
7
8古今 1後撰 2拾遺 3後拾遺 4金葉 5詞花 6千載 7新古今 8
このままだと収束する点に若干ずれが見られる。cw に z 変換を施し正規化する。
通時コーパスの設計 2010.3.3 28
古今集
吉野 (24/92/97, 4.63) cw > 0 .0 0 K :1-1 U :2 L:0 .0 0 M :16 Z:1.0 0
縦しや
吉野
2早し
1
妹背1
辛し
1
1唐土
1
河
2
8
3
立つ3
並
1
辺
2
誤つ
2
雪 2
山4
咲く
2
桜2
1
3降る7
10
5
寒し2
3
浮ぶ
2
滝
3
1
岩3
2
通す
1
伐る
1
水2
平す
1
泡
2
11
衣手2
去ぬ
1
珠
3
2
踏む
2
訪る
1
51
1死ぬ1
1
1
何処
2
33
2
道
1
1
1
1
14
2
彼方
1
かくる 1
家
1
1
藤
1
1
後る
1
白 4
4
中
1
1
1
1
夕
2
増さる
2
籠る
1
1
霞 2
野辺
1
1
音2
2
2
古里2
2
消ゆ2
憂し2
落つ
11
一日
11
近し1
出づ2
流る
1 1
時
2
朝ぼらけ
1
有明
1
恋ふ
2
波
2
事
2
行き
2
世
1
通時コーパスの設計 2010.3.3 29
後拾遺集
吉野 (3/92/97, 4.63) cw > 0 .0 0 K :4-4 U :2 L:0 .0 0 M :16 Z:1.0 0
標
棚引く1
吉野1
霞
1
1
八重
重ぬ
1
1
峰 1
1
景色
霞む
1
1
結ぶ1
1
1
下
1
1
1
1
1
通時コーパスの設計 2010.3.3 30
新古今集
吉野 (24/92/97, 4.63) cw > 0 .0 0 K :8-8 U :2 L:0 .0 0 M :16 Z:1.0 0
奥
吉野3
厭ふ2
厭はし
1
喚子鳥
1
柴
1戸
1
心2
夏実
1
河
4
2
古柳
1
鴨
2
淀
2
2
1
嶽
1
篶
1
染む 1
1
1
曙
2
宮
1
芝草1
踏む1
白し
1
2
1
江
1
長く
1寂ぶ
1
1
松風1
散る6
山
14
6
3
33
峰
43
春7
2
2
1
古里
3
1
陰
2
1 3
11
1
1
1
1
分く
1
枝
2
遅げなり1
嵐22
2
1
1
11
去年
枝折
1
変ふ 1
まだ1
1
11
尋ぬ
1
里
3
1
1
花11
齢
1
11
1 11
打つ2
1
今宵
1
1
11
1
年
1
尽す 1
哀れ
1
1
1
桜3
3
1
野辺
1
雪
4
世
2 2
袖2
1
来3
3
誰
1
影1
方
1
吹く 2
白
3
有り3
浦
1
風
3
神
1
通時コーパスの設計 2010.3.3 31
金葉集
吉野 (5/92/97, 4.63) cw > 0 .0 0 K :5-5 U :2 L:0 .0 0 M :16 Z:1.0 0
桜
吉野4
埋もれる
1
集む
1
咲く2
峰2
3
2 麓
1
上る1
雲 2
3
2
1
折
1
1
皆
1
谷
1 11
1
1
掻く
1
1
11
2
掛かる
1
山4
5
花4
1
匂ふ1
1
梢寄る
1
白
2
木
1
時1
今日1
通時コーパスの設計 2010.3.3 32
雪あるいは桜を含むパターン (1)
表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン
t1–t2 cw z ctf idf(t1) idf(t2)古今集 (24) 雪–吉野 86.06 3.33 10 3.18 4.63
雪–降る 65.15 1.76 5 3.18 3.26桜–辺 64.32 1.70 2 3.43 4.69雪–寒し 63.36 1.62 2 3.18 4.92雪–辺 61.87 1.51 2 3.18 4.69雪–白 60.36 1.40 4 3.18 3.18雪–古里 55.34 1.02 2 3.18 4.37
後撰集 (11) 雪–吉野 54.69 1.33 3 3.18 4.63雪–降る 52.40 1.12 3 3.18 3.26雪–崩る 51.40 1.03 1 3.18 8.06桜–吉野 51.28 1.02 2 3.43 4.63
拾遺集 (15) 雪–吉野 80.25 3.74 8 3.18 4.63雪–消ゆ 55.90 1.54 2 3.18 3.83雪–山 54.92 1.46 8 3.18 2.08雪–峰 54.35 1.40 2 3.18 3.95雪–宿 52.42 1.23 2 3.18 3.37雪–古道 50.48 1.05 1 3.18 7.77
後拾遺集 (3) N/A
通時コーパスの設計 2010.3.3 33
雪あるいは桜を含むパターン (2)
表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン
t1–t2 cw z ctf idf(t1) idf(t2)金葉集 (5) 桜–吉野 72.27 3.34 4 3.43 4.63
桜–峰 52.17 1.44 2 3.43 3.95桜–咲く 51.68 1.40 2 3.43 3.71桜–雲 51.00 1.33 2 3.43 3.43桜–山 49.48 1.19 4 3.43 2.08桜–集む 48.33 1.08 1 3.43 6.59桜–埋もれる 47.56 1.01 1 3.43 6.38
詞花集 (6) N/A千載集 (9) N/A新古今集 (24) 桜–吉野 63.56 1.64 3 3.43 4.63
桜–散る 62.38 1.55 3 3.43 3.14雪–吉野 62.18 1.53 4 3.18 4.63桜–遅げなり 56.96 1.14 1 3.43 9.16
通時コーパスの設計 2010.3.3 34
考察
• 前回は古今集だけだったが、今回は八代集のデータをもとにモデル化を行った。
• 重み (cw)は z変換により正規化を行った上で、1σ以上を取り出すと一律に決められ、歌集間の比較が可能。→なぜ 1σ(16%)で文脈がうまく見えるのか。
• 「雪の吉野」から「桜の吉野」へは金葉集が転換期である。→定着期であるかどうかは不明
• 千載集、新古今集では「桜」より「花」という言い方が多い。→定着してきた証拠か
通時コーパスの設計 2010.3.3 35
モデリングのまとめ
• モデリングによる「体系」の構築とその可能性
• 実例を示す研究方法→「体系」が示しにくい。
• 語彙リスト、一覧表による方法→実例に戻らなくてはならない「もどかしさ」がある。
• モデルからテキストへ参照→モデリングシステムhttp://etymology.jp/waka/poem.cgi
XML(SVG)フォーマットの採用。
• 八代集シソーラスの公開