言語研究のための数値データ分析法 -...

373
NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015 これは 1 学期間の授業用テキストです。 随時更新します (c) 上田博人(東京大学) Hiroto Ueda (University of Tokyo)

Transcript of 言語研究のための数値データ分析法 -...

Page 1: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

NUMEROS.docx

ver. 2015.12.15

言語研究のための数値データ分析法

2015

これは 1 学期間の授業用テキストです。

随時更新します。

(c) 上田博人(東京大学)Hiroto Ueda (University of Tokyo)

Page 2: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

1

0. はじめに

このテキストには言語の歴史的な変化や現代語の変異(バリエーション)

を数量的に観察するときに有用だと思われる方法を取り上げました。数値

が並ぶデータ行列を前にして、目視だけではよくわからない状況を、さま

ざまな分析手法を用いて明らかにしていきます。

私たちの文系の課程では、高校で行列・ベクトルと確率・統計、大学で

線形代数と数理統計学を履修していませんが、その初歩的な部分だけでも

学習しておくと、数値データ分析法の数理の理解と、プログラミングの作

業が容易になります。さらに、このテキストでは一般に定義されていない

ような行列演算や統計処理をあえて導入しました。そのような演算を各所

で活用しますので確認してください。このテキストで扱う内容は基本的な

ことばかりで、難易度はそれほど高くはありません。

ここで扱う方法は普通によく使われているものばかりですが、各所で私

たちが独自に開発してきた方法も紹介します。おおまかに「~とよばれて

います」という受動文であれば周知の方法を指します。一方「~を提案し

ます」「~とよびます」のような能動文で紹介する方法は、私たち独自の

方法(または名称)だと思いますが、すでに開発されている方法や使われ

ている呼称であるかもしれません。一応、各種の統計学書で確認していま

すが、すべてを見渡すことは不可能なので既存の同じ方法・名称をご存じ

の方はぜひご教示ください。

学部の前期・後期課程では基礎的なことを中心に理解し、そして大学院

の授業で作成してきたプログラムの操作を練習します。大学院では基礎的

な内容を確認し、発展的内容を理解し、主としてプログラム開発の練習を

します。

●の箇所は数理・統計に関する補足です。■で言語研究(スペイン語研

究)での応用例を示しましたが、とくにスペイン語の専門的な知識を前提

としません。

学期期間中は、このテキストとプログラムのコードを毎週更新していま

す。いつも最新のファイルをダウンロードしてください。

*ダウンロードサイト:

http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/index.html

の中の次の箇所を参照してください。

2.3. 数量データ分析用プログラム NUMEROS.xlsm

NUMEROS para análisis de datos cuantitativos

Page 3: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

2

目次

0. はじめに . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1. 行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1. 単位ベクトルと単位行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2. 行列の演算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1. 行列の加算と減算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.2. 行列と数値の積 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3. 行列積 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.1. ベクトルとベクトルの積 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3.2. 行列とベクトルの積 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.3.3. 行列と行列の積 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. 転置行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.5. 行列演算の拡張 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5.1. 行列とスカラーの成分間の演算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5.2. 行列とベクトルの成分間の演算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.5.3. 行列と行列の成分間の演算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5.4. 四則演算の一般化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2. 確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1. 確率の分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1. 確率変数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.2. 平均と分散 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1.3. 二項分布確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.4. 正規分布確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2. 乱数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.1. 乱数の確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2.2. 連続的確率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.2.3. 確率分布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3. 統計量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.1. 和 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3.2. 平均 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2.1. 算術平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.2.2. 幾何平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2.3. 調和平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2.4. 分数平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.2.5. 切除平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.2.6. 大数平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.2.7. 正規平均値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.3. 中央値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Page 4: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

3

3.4. 最大値・最小値・中間値・範囲 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5. 最頻値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.6. 変動 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.6.1. 分散・標準偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.6.2. 限定分散と不等性・均等性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.6.3. 不偏分散・不偏標準偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.6.4. 標準誤差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.6.5. 変動係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.6.6. 平均偏差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3.6.7. ジニ係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.6.8. エントロピー . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.6.9. 最小値最大値比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.7. 推移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.7.1. 振動性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.7.2. 単峰性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.7.3. 正規性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.7.4. 連続性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.7.5. 平滑性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.7.6. 定常性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.8. 均衡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.8.1. 歪度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.8.2. 尖度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

3.9. 区別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.9.1. 弁別度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.9.2. 対立度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4. 関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.1. 相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.1.1. 相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.1.2. 相関行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.1.3. 共分散行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.2. 連関 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.2.1. 連関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.2.2. 連関行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

4.3. 距離 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.3.1. 単純距離 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.3.2. 限定距離 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.3.3. 標準距離 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

4.4. 近接 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

4.5. 差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4.5.1. 平均値差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Page 5: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

4

4.5.2. 中央値差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4.5.3. 分散値差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4.5.4. 標準偏差値差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4.5.5. ジニ係数値差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

4.5.6. エントロピー差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

5. 得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5.1. 階級得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

5.2. 相対得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

5.3. 対立得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

5.4. 加重得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

5.5. 限定得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

5.6. 比較得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

5.7. 標準得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

5.8. 期待得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

5.9. 確率得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

5.10. 順位得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

5.11. 連関得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

5.12. 補充得点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

5.13. 名義尺度の数量化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

5.14. 数値尺度の名義化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

5.15. 名義行列 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

6. 分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

6.1. 統計量の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

6.1.1. 範囲の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

6.1.2. 中心の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

6.1.3. 変動の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

6.1.4. 平衡の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

6.1.5. 推移の分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

6.2. 距離集中分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

6.2.1. 外的基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

6.2.2. 内的基準 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

6.2.3. 軸の解釈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

6.2.4. 集中係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205

6.3. 多変量分析 . . . . . . . . . . . . . . . . エラー ! ブックマークが定義されていません。

6.3.1. 重回帰分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

6.3.2. 主成分分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

6.3.3. 主成分重回帰分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

6.3.4. ロジスティック回帰分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

6.3.5. 対応分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247

6.3.6. 因子分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263

Page 6: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

5

6.3.7. クラスター分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

6.4. 群別分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

6.4.1. 共起回数による群別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

6.4.2. 距離による群別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318

6.4.3. 確率による群別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

6.4.4. 判別分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326

6.5. 多重条件分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

6.5.1. 多重条件リスト . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

6.5.2. 多重条件頻度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

6.5.3. 多重条件係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

7. 検定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . エラー ! ブックマークが定義されていません。

7.1.1. 検定の方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335

7.1.2. 期待値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336

7.1.3. カイ二乗値 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

7.1.4. 検定の考え方 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339

7.1.5. 検定の評価 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340

7.1.6. イェイツの補正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341

8. 図・グラフ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

8.1. 比率棒グラフ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351

8.2. バブルチャート . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 352

8.3. ボックスチャート . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

8.4. 二変数対比図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355

8.5. 項目散布図 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356

8.6. 始点・終点棒グラフ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357

9. Excel の操作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

9.1. 相関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359

9.2. 連関係数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363

9.3. マクロプログラム . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366

10. 参考書 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370

Page 7: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

6

1. 行列

はじめに行列のさまざまな演算について確認します。一般の行列・線形

代数で扱われる演算のほかに、このプリントで特別に定義する演算も含み

ます。これらを理解すると数値データ処理の意味と利用法がわかり、応用

範囲が広がります。また、少ないコードでプログラムが書けるのでプログ

ラミング開発の能率が高まります。

手元の言語データから 1 つの数値、たとえば、ある地域に特有の語の出

現頻度が得られたとします。この 1 つの数字そのものが、異常に高い数値

であるのか、または、ほかの地域でも多く見つかるのか、調べなければな

りません。 v1, v2, v3, …という地域で比較すると、その分布の特徴がわか

ります。さらに関連するほかの語 d1, d2, … の頻度も調べるとよいでしょ

う。そうすると地域と語からなる次のような頻度分布表が出来上がります。

O.S. v1 v2 v3 v4 v5

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

以下では、このような頻度分布表の分析法を扱います。例としてあげた

分布表は小さなものばかりですが、実際は数千行×数十列のように大きな

行列を扱うこともあります。

1.1. 単位ベクトルと単位行列

下左表のように成分がすべて 1 の縦ベクトルは「単位ベクトル」 (unit

vector, identity vector とよばれます 1。下右表は横に並んだ横ベクトルです。

In1 1

I1p 1 2 3

1 1

1 1 1 1

2 1

このプリントは上左表のような縦ベクトルを n 行 1 列の行列 In 1 と見なし、

上右表のような横ベクトルを 1 行 p 列の行列 I1 p と見なします。数値(スカ

ラー)は M のように、添え字の n も p もつけません。

次のように「対角成分」( (1,1), (2,2)のように行番と列番が同じ位置の

成分)がすべて 1 で、非対角成分がすべて 0 である正方行列(行数と列数

1 「単位ベクトル」には他の定義もありますが、ここでは以下でよく使う

この定義(成分がすべて 1 のベクトル)を採用します。

Page 8: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

7

が同じ行列)は「単位行列」 (unit matrix, identity matrix)とよばれます。以

下では単位行列を Ip p のように表記します。一般に、添え字の n, p は表記

されませんが、以下の演算ではこれを意識すると理解が深まるので付記す

ることにします。

Ipp 1 2 3

1 1 0 0

2 0 1 0

3 0 0 1

1.2. 行列の演算

1.2.1. 行列の加算と減算

行列間で対応する成分について加算と減算の演算をします。

Xnp 1 2 + Ynp 1 2 = Znp 1 2

1 1 4

1 7 10

1 8 14

2 2 5

2 8 11

2 10 16

3 3 6

3 9 12

3 12 18

Xn p + Ynp = Znp , Zn p = A(Xn p , Yn p)

この加算の演算 Xn p + Ynp = Znp は一般の行列演算で定義されています。

上左式では、たとえば Xnp のように大文字+小文字+小文字で行列を示し、

小文字の添え字 n と p は行数と列数を示します。上右式 Zn p = A(Xn p , Yn p)

はプログラムのコードで A は引数 1 (=Xn p)と引数 2 (=Yn p)の和の行列を返

すユーザー定義関数(プログラマーが作成する関数)です。以下では行列

を返す関数を「行列関数」とよびます。

1.2.2. 行列と数値の積

行列(とベクトル)の成分全体に「スカラー」 (scalar)とよばれる数値を

掛けることができます。

Xnp 1 2 * 5 = Znp 1 2

1 1 4

1 5 20

2 2 5

2 10 25

3 3 6

3 15 30

Xn p * 5 = Zn p, Zn p = M(Xn p, 5)

Page 9: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

8

1.3. 行列積

行列積 (matrix product)は積和 (sum product)という少し複雑な計算をしな

ければなりません。そこで簡単な横ベクトルと縦ベクトルの積からはじめ

て、少しずつ複雑になる行列とベクトルの積、行列と行列の積という順番

で進みます。

1.3.1. ベクトルとベクトルの積

横ベクトルと縦ベクトルの積は、それぞれ対応する成分の積の和になり

ます。たとえば次の例では、X1 3 Y3 1 = 1*4 + 2*5 + 3 *6 = 32 になります。

下左の行列計算では行列間に *や x などの演算記号(算術演算子)をつけま

せん。下右の行列関数では X という関数名を使うことにします。表と表の

行列積を示すときは、 2 つの表の間に×をつけることにします。

X1 3 Y31 = Z, Z = X(X13 , Y3 1)

X13 1 2 3 × Y31 1 = Z11 1 = Z11 1

1 1 2 3

1 4

1 1*4 + 2*5 + 3*6 1 32

2 5

3 6

この演算はこのテキストでしばしば使います。

●縦ベクトルと横ベクトルの積

逆に、縦ベクトルと横ベクトルを掛け合わせると、それぞれの成分の積

からなる行列になります。たとえば、Y3 1 X13 の積の行列 Z3 3 の Z1(第 1 行 ) [4,

8, 12]は Y31 の Z1: 4 に X13 の [1, 2, 3]を掛けたものです。Z33 の Z2(第 2 行 )

の [5, 10, 15]は Y31 の 5 に X13 の [1, 2, 3]を掛けたものです。

X3 1 Y13 = Z3 3, Z3 3 = X(X31 , Y1 3)

Y31 1 × X13 1 2 3 = Y31 X13 1 2 3 = Y31 X13 1 2 3

1 4

1 1 2 3

1 4*1 4*2 4*3 1 4 8 12

2 5

2 5*1 5*2 5*3 2 5 10 15

3 6

3 6*1 6*2 6*3 3 6 12 18

この演算はこのテキストであまり使うことはありませんが、やはり必要

なときがあります。

Page 10: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

9

1.3.2. 行列とベクトルの積

行列のそれぞれの行に縦ベクトルを掛けます。この計算はデータ行列に

重みベクトルを掛けた合成ベクトルを作るときに使います。

X3 2 Y21 = Z3 1, Z3 2 = X(X32 , Y2 1)

X32 1 2 × Y21 1 = Z31 1 = Z31 1

1 1 2

1 2

1 1*2 + 2*3 1 8

2 3 4

2 3

2 3*2 + 4*3 2 18

3 5 1

3 5*2 + 1*3 3 13

次のように、横ベクトルと行列の行列積の結果は、横ベクトルと行列の

縦列の積和 (1*1 + 2*2 + 3*3 = 14) , (1*4 + 2*5 + 3*6 = 32)を成分とする行

列になります。

X1 3 Y32 = Z1 2, Z1 2 = X(X13 , Y3 2)

X13 1 2 3 × Y32 1 2 = Z12 1 2 = Z12 1 2

1 1 2 3

1 1 4 1 1*1 + 2*2 + 3*3 1*4 + 2*5 + 3*6

1 14 32

2 2 5

3 3 6

●行列と単位ベクトルの積

行列に単位ベクトル (Ip 1)を右から掛けると横和縦ベクトルが得られます。

X32 1 2 × I21 1 = Z31 1 = Z31 1

1 1 2

1 1

1 1*1 + 2*1 1 3

2 3 4

2 1

2 3*1 + 4*1 2 7

3 5 1

3 5*1 + 1*1 3 6

逆に、次のような単位横ベクトルと行列の積では、縦和横ベクトルが得

られます。

I13 1 2 3 × X32 1 2 = Z12 1 2 = Z12 1 2

1 1 1 1

1 1 4

1 1*1+1*2+1*3 1*4+1*45+1*6 1 6 15

2 2 5

3 3 6

Page 11: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

10

1.3.3. 行列と行列の積

行列 (Xnp)と行列 (Yp q)の積 (Zn q)の成分 Z(i, j)は左行列の i 行と右行列の j

列の積和です。たとえば、次の Z(1, 1)の成分は X の 1 行 (1, 2)と Y の 2 列

(9, 1)の積和 (1*9 + 2*1 = 11)になります。

X3 2 Y23 = Z3 3, Z3 3 = X(X32 , Y2 3)

X32 1 2 × Y23 1 2 3

1 1 2

1 7 9 2

2 3 4

2 8 1 3

3 5 1

= Z33 1 2 3 = Z33 1 2 3

1 1*7 + 2*8 1*9 + 2*1 1*2 + 2*3

1 23 11 8

2 3*7 + 4*8 3*9 + 4*1 3*2 + 4*3

2 53 31 18

3 5*7 + 1*8 5*9 + 1*1 5*2 + 1*3

3 43 46 13

行列積は第 1 行列の列数と第 2 行列の行数が同じでなければ計算できま

せん。行列積の結果の行列は第 1 行列の行数と第 2 行列の列数になります。

次の式のそれぞれの添え字に注意してください。

Xnp Ypm = Znm

*行列積の交換

行列積 Xn n Ynn と、行列積 Yn n Xnn は異なることがふつうです。そこで、

行列積の演算では「Xn n に Yn n を右から掛ける (Xnn Yn n)」や、「Xnn に Yn n

を左から掛ける (Ynn Xn n)」という表現を使います。以下では、それぞれに

「右積する」「左積する」という表現を使うことにします。

*スカラーの移動

スカラー (S)は行列積のどの位置からも自由に移動することができます。

このことはスカラーを行列の要素全体に掛けることから明らかです。

S Xn p Yp m = Xn p S Yp m = Xn p Yp m S

●単位行列の左積・右積

行列に単位行列 (Ip p)を右積しても左積してもその結果は元の行列は変わ

りません。この性質は重要です。

Page 12: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

11

(a) Xp p Ip p = Xpp

Xpp x y z × Ipp x y z

1 1 2 3

1 1 0 0

2 4 5 6

2 0 1 0

3 7 8 9

3 0 0 1

= Xpp x y z = Xpp x y z

1 1*1+2*0+3*0 1*0+2*1+3*0 1*0+2*0+3*1 1 1 2 3

2 4*1+5*0+6*0 4*0+5*1+6*0 4*0+5*0+6*1 2 4 5 6

3 7*0+8*0+9*1 7*0+8*1+9*0 7*0+8*0+9*1 3 7 8 9

(b) Ip p Xp p = Xpp

Ipp x y z × Xpp x y z

1 1 0 0

1 1 2 3

2 0 1 0

2 4 5 6

3 0 0 1

3 7 8 9

= Xpp x y z = Xpp x y z

1 1*1+0*4+0*7 1*2+0*5+0*8 1*3+0*6+0*9 1 1 2 3

2 0*1+1*4+0*7 0*2+1*5+0*8 0*3+1*6+0*9 2 4 5 6

3 0*1+0*4+1*7 0*2+0*5+1*8 0*3+0*6+1*9 3 7 8 9

●行列積の計算表

小林 (1967:10)は、行列積の計算のために次のような「計算表」を使うこ

とを勧めています。

1 2 × 5 6 = 1*5 + 2*7 = 19 1*6 + 2*8 = 22

3 4

7 8

3*5 + 4*7 = 43 3*6 + 4*8 = 50

計算表:

×

5 6

7 8

1 2 1*5 + 2*7 = 19 1*6 + 2*8 = 22

3 4 3*5 + 4*7 = 43 3*6 + 4*8 = 50

上の計算表を使って、行列積の左の行列は左から右に行方向に進み、右

の行列は上から下に列方向に進みながら、それぞれに対応する成分の積を

足していきます。

この計算法は次のようなベクトルと行列の積についても同様です。

Page 13: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

12

1 2 × 5 6 = 1*5 + 2*7 = 19 1*6 + 2*8 = 22

7 8

計算表:

×

5 6

7 8

1 2 1*5 + 2*7 = 19 1*6 + 2*8 = 22

1 2 × 5 = 1*5 + 2*7 = 19 1*6 + 2*8 = 22

3 4

7

3*5 + 4*7 = 43 3*6 + 4*8 = 50

計算表:

×

5

7

1 2 1*5 + 2*7 = 19

3 4 3*5 + 4*7 = 43

1.4. 転置行列

行列の転置 (transposition)とは行列の成分 X(i,j)を X(j,i)と交換することで

す。行列 Xn p の転置行列 (transposed matrix)は Xn pT と表記されます。

Xn1 1

Xn1T 1 2 3

1 1

x 1 2 3

2 2

3 3

Xn p 1 2

Xn pT 1 2 3

1 1 4

1 1 2 3

2 2 5

2 4 5 6

3 3 6

転置行列には次の性質があります。これらはよく使う演算です。

(a) (Xn pT)

T = Xn p

Xnp 1 2 → XnpT 1 2 3 → (Xnp

T)

T 1 2

1 1 4

x 1 2 3

1 1 4

2 2 5

y 4 5 6

2 2 5

3 3 6

3 3 6

Page 14: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

13

(b) (Xn p + Yn p)T = Xn p

T + Ynp

T

Xnp 1 2 + Ynp 1 2 = Znp 1 2 → ZnpT 1 2 3

1 1 4

1 7 10

1 8 14

1 8 10 12

2 2 5

2 8 11

2 10 16

2 14 16 18

3 3 6

3 9 12

3 12 18

XnpT 1 2 3 + Ynp

T 1 2 3 = Znp 1 2 3

1 1 2 3

1 7 8 9

1 8 10 12

2 4 5 6

2 10 11 12

2 14 16 18

(c) (Xn p Yp m)T = Yp m

T Xnp

T

Xnp 1 2 × Yp1 x = Zn1 x → Zn1T 1 2 3

1 1 4

1 1

a 9

1 9 12 15

2 2 5

2 2

b 12

3 3 6

c 15

Yp1T 1 2 × Xnp

T 1 2 3 = Z1n 1 2 3

1 1 2

1 1 2 3

1 9 12 15

2 4 5 6

*線形代数の基礎(行列・ベクトル)については次を参照しました:足立

(2005), 井上 (1998), 井上・広川 (2000), 三野 (2001), 奥村 (1986), 小林 (1967),

芝 (1975), 白井 (2009), 縄田 (1999), 長谷川 (2001)。「単位ベクトル」の定義

については芝 (1975)に従いました。

1.5. 行列演算の拡張

以上が厳密な線形代数の枠組みの中での基本的な行列演算です。このテ

キストでもこれらの演算を活用しますが、さらに以下の「行列成分間の演

算」を追加しておきます。これらは、行列計算が一般の数値計算と同じよ

うに行うことができるようにするためです。これらの成分間の演算を可能

にする関数のプログラムを用意すれば演算が単純化し、その理解がスムー

ズになります。このような行列成分間の演算は計算の便宜という実際的な

目的のために使うもので、厳密な線形代数の理論には含まれません。

1.5.1. 行列とスカラーの成分間の演算

次のような行列とスカラーの加算・減算を可能にしておきます。

Page 15: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

14

Xnp 1 2 + 5 = Znp 1 2

1 1 4

1 6 9

2 2 5

2 7 10

3 3 6

3 8 11

Xn p + 5 = Znp , Znp = X(Xn p , 5)

線形代数の厳密な枠組みの中で、このような行列とスカラーの加算・減

算をするには、次のようにスカラーに単位ベクトルを二重にかけて (縦単位

ベクトルと横単位ベクトル )、相手の行列と同じ大きさにしてから足したり

引いたりしなければなりません。

Xnp + 5 * In 1 * I1 p = Zn p , Zn p = A(Xnp , X(X(5, In 1), I1 p))

以下では加算 (+, A)や減算 (-, S)だけでなく、積算 (-, M)、除算 (/, D)、指数

(^, E)・対数 (@, L)の演算も含めておきます。次のようなベクトルを対象に

した場合も同様です。

Xn1 1 ^ 2 = Zn 1 1

1 1

1 1

2 2

2 4

3 3

3 9

Xn 1 ^ 2 = Zn 1 , Zn1 = E(Xn 1, 2)

●一様行列

先述のように、ベクトルは 1 列または 1 行の行列です。そして数値(ス

カラー)は 1 行 1 列の行列と見なすことができます。このように考えれば

さまざまな演算を、数値、ベクトル、行列という異なったデータどうしを

統一して計算できるようになります。

ここで一様行列 (homogeneous matrix)という概念を提案します。たとえば

次のような行列+数値の演算で、数値 (5)を下の Yn p ような成分をもつ行列

(「全体一様行列」 homogeneous matrix in all をよびます)とすれば、一般

に認められている行列の加算ができるようになります。

Xnp 1 2 + 5 = Xnp 1 2 + Ynp 1 2 = Znp 1 2

1 1 4

1 1 4 1 5 5 1 6 9

2 2 5

2 2 5 2 5 5 2 7 10

3 3 6

3 3 6 3 5 5 3 8 11

そこで、行列成分演算では次のようにスカラーと全体一様行列は同等 (~)

と見なします。

Page 16: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

15

5 ~ Ynp 1 2

1 5 5

2 5 5

3 5 5

1.5.2. 行列とベクトルの成分間の演算

次のような縦ベクトルを用いた演算では、列一様行列 (homogeneous

matrix in column)である Ynp を使えば、すべての演算が可能になります。

Xnp 1 2 + Yn1 1 = Xnp 1 2 + Ynp 1 2 = Znp 1 2

1 1 4

1 7

1 1 4 1 7 7 1 8 11

2 2 5

2 8

2 2 5 2 8 8 2 10 13

3 3 6

3 9

3 3 6 3 9 9 3 12 15

同様にして、次のような横ベクトルを用いた演算では、それを「行一様

行列」(homogeneous matrix in row)にします。下の Ynp は 3 行一様行列です。

Xnp 1 2 + Y1p 1 2 = Xnp 1 2 + Ynp 1 2 = Znp 1 2

1 1 4

1 7 8

1 1 4 1 7 8 1 8 12

2 2 5

2 2 5 2 7 8 2 9 13

3 3 6

3 3 6 3 7 8 3 10 14

このようにベクトルを一様行列に変換するのは、行列演算を可能にする

ための方法に過ぎません。元のベクトルとそれぞれの一様行列の間に数値

の本質的な変化はない、と見なすことができるでしょう。

Yn1 1 ~ Ynp 1 2

1 7

1 7 7

2 8

2 8 8

3 9

3 9 9

Y1p 1 2 ~ Ynp 1 2

1 7 8

1 7 8

2 7 8

3 7 8

この一様行列を使うことによって、次のような演算も可能になります。

Page 17: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

16

C 1 2 + D 1 = C 1 2

1 1 2

1 7

1 8 9

2 8

2 9 10

3 9

3 10 11

よって、これは次の演算と同じになります。

C 1 2 + D 1 2 = C 1 2

1 1 2

1 7 7

1 8 9

2 1 2

2 8 8

2 9 10

3 1 2

3 9 9

3 10 11

1.5.3. 行列と行列の成分間の演算

次は行列成分間の乗算 (*, M)を示します。M は対応する行列成分間の積

を成分とする行列を返す行列関数です。この行列成分間の乗算は先の「行

列積」 (x, X)と異なりますから注意してください。

はじめに、行列の行の成分についての積を扱います。

X23 1 2 3 * Y13 1 2 3 = Z23 1 2 3

1 1 2 3

1 1 2 3

1 1 4 9

2 4 5 6

2 4 10 18

X2 3 * Y1 3

= Z2 3 , Z23 = M(X2 3 , Y13)

ここで導入した行列成分間の演算では、 2 つの行列の行数または列数が

一致していれば可能です。次のように、小さい方の行列が相手の行列の行

または列の大きさの一様行列に拡張されるからです。

X23 1 2 3 * Y13 1 2 3 = Z23 1 2 3

1 1 2 3

1 1 2 3 1 1 4 9

2 4 5 6

2 1 2 3 2 4 10 18

行列積を使ってこの演算をするには、次のように Y の対角行列 (diag)を

用意して、X に右積します。

X23 1 2 3 x Y33 1 2 3 = Z23 1 2 3

1 1 2 3

1 1 0 0

1 1 4 9

2 4 5 6

2 0 2 0

2 4 10 18

3 0 0 3

X diag(Y) = Z, Z = X(X, diag(Y))

Page 18: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

17

次は、行列の列の成分の積です。

X 1 2 3 * Y 1 = Z 1 2 3

1 1 2 3

1 5

1 5 10 15

2 4 5 6

2 6

2 24 30 36

X * Y = Z, Z = M(X, Y)

Y 1 2 x X 1 2 3 = M M 1 2 3

1 5 0

1 1 2 3

1 5 10 15

2 0 6

2 4 5 6

2 24 30 36

diag(Y) X = Z, Z = X(diag(Y), X)

このように、掛けるベクトル (Y)を対角化し、行列 (X)に左積します。

行列成分間の割り算も同様です。

X 1 2 3 / Y 1 2 3 = Z 1 2 3

1 1 2 3

1 1 2 3

1 1.0 1.0 1.0

2 4 5 6

2 4.0 2.5 2.0

X / Y = Z, Z = D(X, Y)

行列積を使えば

X 1 2 3 x Y 1 2 3 = Z 1 2 3

1 1 2 3

1 1.00 .00 .00

1 1.00 1.00 1.00

2 4 5 6

2 .00 .50 .00

2 4.00 2.50 2.00

3 .00 .00 .33

ここで、Y の対角成分を 1, 2, 3 の逆数 (1/1, 1/2, 1/3)にして (rev)、X に右積

します。

X diag(rev(Y)) = Z, Z = X(X, diag(rev(Y)) )

さらに、行列成分間を拡張させて、次のように同じ行数と列数の行列の

成分間の積や商も計算可能にしておきます。

Xnp 1 2 * Ynp 1 2 = Znp 1 2

1 1 4

1 7 10

1 7 40

2 2 5

2 8 11

2 16 55

3 3 6

3 9 12

3 27 72

Xn p * Yn p = Zn p , Znp = M(Xn p , Ynp)

Page 19: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

18

1.5.4. 四則演算の一般化

以上のように考えれば、たとえば、X * Y = Z ならば(→)Y = Z / X で

ある、というような一般の四則演算と同じようにして、行列成分の四則演

算の導出も可能になります。この導出は数値どうしの演算、ベクトルどう

しの演算、行列どうしの演算では次のようにします。

2 * 3 = 6 → 3 = 6 / 2

Xn1 1 * Yn1 1 = Zn1 1 → Yn1 1 = Zn1 1 / Xn1 1

1 1

1 7

1 7 1 7 1 7 1 1

2 2

2 8

2 16 2 8 2 16 2 2

3 3

3 9

3 27 3 9 3 27 3 3

Xn1 1 2 * Yn1 1 2 = Zn1 1 2 → Yn1 1 2 = Zn1 1 2 / Xn1 1 2

1 1 4

1 7 10

1 7 40 1 7 10 1 7 40 1 1 4

2 2 5

2 8 11

2 16 55 2 8 11 2 16 55 2 2 5

3 3 6

3 9 12

3 27 72 3 9 12 3 27 72 3 3 6

それでは、数値とベクトル、数値と行列、ベクトルと行列のような異種

のデータ間でも同じように演算の導出が可能になるか、試してみましょう。

X 1 2 * 5 = Z 1 2 → 5 = Z 1 2 / X 1 2 = A 1 2

1 1 4

1 5 20 1 5 20 1 1 4 1 5 5

2 2 5

2 10 25 2 10 25 2 2 5 2 5 5

3 3 6

3 15 30 3 15 30 3 3 6 3 5 5

X 1 2 * Y 1 = Z 1 2 → Y 1 = Z 1 2 / X 1 2 = B 1 2

1 1 4

1 7

1 7 28 1 7 1 7 28 1 1 4 1 7 7

2 2 5

2 8

2 16 40 2 8 2 16 40 2 2 5 2 8 8

3 3 6

3 9

3 27 54 3 9 3 27 54 3 3 6 3 9 9

上の最初の表の右端の行列 A は全体一様行列ですから、先述のように、

数値(スカラー) (=5)と見なすことができます。また、下の B は 2 列一様

行列なので、1 列行列(縦ベクトル)の Y と同じと見なすことができます。

よって、以上のすべての場合で X * Y = Z ならば、Y = Z / X であることが

確認できました。このことは、乗算と除算の演算だけでなく、加算と減算

の演算、指数と対数の演算でも同じです。

X の成分にゼロ (0)があると先の行列の割り算 Z / X ができなくなります。

しかし、上の演算で X の成分が 0 ならば Z の対応成分も 0 になるので、0 /

0 という計算が行われます。この計算は一般にできないことになっていま

Page 20: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

19

すが、これを 0 / 0 = 0 と決めておけば、これも可能になります。

なお、ここで導入した「一様行列」は、通常の行列計算では、次のよう

に行列と単位ベクトルの行列積を使います。

X 1 x I 1 2 = H 1 2

1 4

1 1 1

1 4 4

2 5

2 5 5

3 6

3 6 6

Xn 1 I1 p = Hnp

I 1

X 1 2

H 1 2

1 1

1 7 8

1 7 8

2 1

2 7 8

In 1 X1 p = Hnp

このように四則演算を一般化すると、たとえば先述のベクトルの対角行

列化 (diag)や行列成分の逆数化 (rev)なども簡単に導くことができます。

X31 1 * I13 1 2 3 * I33 1 2 3 = Y33 1 2 3

1 1

1 1 1 1 1 1 0 0 1 1 0 0

2 2

2 0 1 0 2 0 2 0

3 3

3 0 0 1 3 0 0 3

diag(X3 1) = X3 1 * I1 3 * I3 3 = Y33 , Y = M(M(X3 1 , I1 3), I3 3)

X31 1 → Y31 1

1 1

1 1.00

2 2

2 0.50

3 3

3 0.33

rev(X3 1) = 1 / X3 1 = Y3 1 , Y31 = D(1, X31)

Page 21: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

20

2. 確率

このセクションでは偶然性の確率のあり方とその計算の仕方を扱いま

す。はじめに簡単な二項分布確率を見て、それを正規分布確率にまで一般

化します。次に、乱数実験から得られた確率と正規分布確率の分布が近似

することを確認し、連続量の確率を累積正規分布から計算する準備をしま

す。

2.1. 確率の分布

2.1.1. 確率変数

次の表は実際に 1 つのサイコロを 10 回投げて、それぞれの目が出た硬貨

の数 (X)とその頻度数 (F)を示します。

サイコロの目 (X) 1 2 3 4 5 6 和 (S)

実際の頻度 (F) 2 2 1 0 3 2 10

このような表は度数分布表 (Frecuency distribution)と呼ばれます。一方、

頻度数ではなくて、それぞれの頻度 (F)を和 (S)で割ると、それぞれの実験

の確率 (P)が計算されます。次のようにそれぞれを確率で示す表は確率分布

表 (Probability distribution)と呼ばれます。

サイコロの目 (X) 1 2 3 4 5 6 和 (S)

実際の確率 (P) 2/10 2/10 1/10 0/10 3/10 2/10 1

この確率を理論的に求めるならば次のようになるはずです。たとえば

X=0 のときの確率は P(X=0)のように書かれます。

P(X=1) = P(X=2) = ... = P(X=6) = 1/6

よって、理論的な確率分布表は次になります。

サイコロの目 (X) 1 2 3 4 5 6 和 (S)

理論的な確率 (P) 1/6 1/6 1/6 1/6 1/6 1/6 1

このように、実際と理論の微妙な違いはよくあることですが、それでも

2 枚の硬貨を投げる回数を多くすれば、その実験の実際の確率分布表は、

理論的な確率分布表に近づいていくはずです。なお、サイコロの {1, 2, 3, 4,

Page 22: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

21

5, 6}の目のように、数字が区切れて並ぶような変数の確率は離散的確率変

数と呼ばれます。

次に、次のように円盤の上に一本の針(ピン)を落とし、その針先の位

置が示す角度(円盤のある点をゼロ (0)としておきます)を測り、それぞれ

の角度が示す値 (X)の確率を求めることを考えましょう。

ルーレットの円周は 40 個ぐらいの升目に区切られていますが、ここでは

角度を正確に測ることを考えます。この角度の値は 0( 0 を含める )から

360(含めない )まで連続的であり、小数点以下まで求めれば、その精度は無

限にあります。このような連続的な範囲は [0, 360)のように書かれます。

このような連続的な変数の確率は、特定の 1 つの数値に対応する確率を

計ることは、それぞれが必ず 1 回の度数になり、全体の範囲内にある数値

の数は無限ですから、その確率は P = 1 / 無限 = 0 になってしまいます。

しかし、たとえば [0 ~ 60)の範囲にある確率ならば、離散的な確率とおなじ

ように想定できます。このような連続的確率変数の確率は P(0≤X<b)のよう

に書かれます。次が連続的確率変数の確率分布表です。

X [0, 60) [60, 120) [120, 180) [180, 240) [240, 300) [300, 360) 和

P 1/6 1/6 1/6 1/6 1/6 1/6 1

2.1.2. 平均と分散

データの中心を示す平均と、データの散らばり具合を示す分散は数値デ

ータを統計的に扱うときに最も重要な指標です。このことは頻度分布のデ

ータだけでなく、確率分布のデータでも同じです。このセクションでは、

頻度分布の平均・分散から出発して確率分布の平均・分散を理解し、その

重要な性質を確認します。

はじめに次のような簡単な数値分布の平均と分散を求めます。

d 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

x 1 1 5 5 5 3 3 3 3 3 4 4 4 4 6

この平均 (m)は

m = (Σ i x i) / n

= (1 + 1 + 5 + ... + 6) / 15 = 54 / 15 = 3.6

Page 23: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

22

そして分散 (v)は

v = Σ i (x i - m)2 / n

= (1 - 3.6)2 + (1 - 3.6)

2 + (5 - 3.6)

2 + ... + (6 - 3.6)

2] / 15

= 1.844

なお、次の分散の別式もよく使われます。

v = Σ i x i2

/ n - m2

v = Σ i (x i - m)

2 / n

= Σ i (x i2 - 2 m x i + m

2) / n

= (Σ i x i2 - Σ i 2 m x i + Σ i m

2) / n

= (Σ i x i2 - Σ i 2 m x i + Σ i m

2) / n

= (Σ i x i2 - 2 m Σ i x i + Σ i m

2) / n

= Σ i x i2

/ n - 2 m Σ i x i / n + Σ i m2

/ n

= Σ i x i2

/ n - 2 m2 + Σ i m

2 / n

= Σ i x i2

/ n - 2 m2 + n m

2 / n

= Σ i x i2

/ n - 2 m2 + m

2

= Σ i x i2

/ n - m2

この別式 v = Σ i x i2

/ n - m2 は「分散=二乗の平均-平均の二乗」である

ことを示しています。

次に、それぞれのデータに頻度 (f)があることを示す度数分布表のデータ

の頻度と偏差を求めましょう

d 1 2 3 4 5 和

x 1 5 3 4 6 20

f 2 3 5 4 1 15

m = (Σ i x i * f i) / Σ i f i

= [(1 * 2) + (5 * 3) + (3 * 5) + (4 * 4) + (6 * 1) / 15

= (2 + 15 + 15 + 16 + 6) / 15

= 54 / 15 = 3.6

v = [Σ i (x i - m) * f i] / Σ i f i

= [(1 - 3.6)2 * 2 + (5 - 3.6)

2 * 3 + (3 - 3.6)

2 * 5 + (4 - 3.6)

2 * 4

+ (6 - 3.6)2 * 1 ] / 15

= [(2.6)2 * 2 + (1.4)

2 * 3 + (0.6)

2 * 5 + (0.4)

2 + (2.4)

2 * 1 ] / 15

= [6.76 * 2 + 1.96 * 3 + 0.36 * 5 + 0.16*4 + 5.76 * 1 ] / 15

= [13.52 + 5.88 + 1.8 + 0.64 + 5.76] / 15

= 27.6 / 15 = 1.84

さらに、次は同じデータの確率分布表です。

Page 24: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

23

d 1 2 3 4 5 和

x 1 5 3 4 6 20

p 2/15 3/15 5/15 4/15 1/15 1

m = Σ i x i * p i

= [(1 * 2 / 15) + (5 * 3 / 15) + (3 * 5 / 15) + (4 * 4 / 15) + (6 * 1 / 15)

= (2 + 15 + 15 + 16 + 6) / 15

= 54 / 15 = 3.6

v = Σ i (x i - m)2 * p i

= [(1 - 3.6)2 * 2 / 15 + (5 - 3.6)

2 * 3 / 15 + (3 - 3.6)

2 * 5 / 15

+ (4 - 3.6)2 * 4 / 15 + (6 - 3.6)

2 * 1 ] / 15

= [(2.6)2 * 2 + (1.4)

2 * 3 + (0.6)

2 * 5 + (0.4)

2 + (2.4)

2 * 1 ] / 15

= [6.76 * 2 + 1.96 * 3 + 0.36 * 5 + 0.16*4 + 5.76 * 1 ] / 15

= [13.52 + 5.88 + 1.8 + 0.64 + 5.76] / 15

= 27.6 / 15 = 1.84

このように、同じ原データは度数分布でも確率分布でも平均と分散が同

じ結果になることを確認して、以下では確率分布の式を使います。

確率分布の平均と分散を計算するときに便利な次の E(X), V(X)の式が使

われます。平均 (m)は期待値 (Expectation, Expected value: E)とも呼ばれます。

m = E(X) = Σ i x i * p i = 1/n Σ i x i

v = V(X) = Σ i (x i - m)2 * p i= 1/n Σ i (x i - m)

2

ここで p i = P(X = x i)は確率変数 (X)が x i のときの確率、m はデータの平

均、 n はデータの個数を示します。V(X)を期待値 (E)で示すと

V(X) = E[(X - m)2] = Σ i (x i - m)

2 * p i

になることは、E(X) = Σ i x i * p i の x i を (x i - m)2 に置き換えれば理解でき

ます。V(X) = E[(X - m)2]を言葉で表現するならば、「分散 V(X)は (X - m)

2

の平均(期待値)である」ということなります。

確率分布の平均 E には次の性質があります。

E の性質 (1):E(X + Y) = E(X) + E(Y)

E(X − Y) = E(X) − E(Y)

E の性質 (2):E(aX + b) = a E(X) + b

(a = 0):E(b) = b

(b = 0):E(a X) = a E(X)

E の性質 (3):E[E(X)] = E(X)

E の性質 (4):E(XY) = E(X) E(Y) [X, Y:独立 ]

Page 25: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

24

E の性質 (1):E(X + Y)

= Σ i (x i + y i) p i ←E(X) = Σ i x i p i

= Σ i (x i p i + y i

p i) ← p i を分配

= Σ i x i p i + Σ i y i p i ←Σ i を分配

= Σ i x i p i + Σ i y i p i ← a, b を前に

= E(X) + E(Y) ←E(X) = Σ i x i p i

E(X − Y)

= Σ i (x i - y i) p i ←E(X) = Σ i x i p i

= Σ i (x i p i - y i

p i) ← p i を分配

= Σ i x i p i - Σ i y i p i ←Σ i を分配

= Σ i x i p i - Σ i y i p i ← a, b を前に

= E(X) − E(Y) ←E(X) = Σ i x i p i

E の性質 (2):E(aX + b)

= Σ i (a x i + b) p i ←E(X) = Σ i x i p i

= Σ i (a x i p i + b

p) ← p i を分配

= Σ i a x i p i + Σ i b p i ←Σ i を分配

= a Σ i x i p i + bΣ i p i ← a, b を前に

= a E (X) + b ←E(X) = Σ i x i p i ; [1] Σ i p i = 1

E の性質 (3):E[E(X)]

= E(m) ←E(X) = m i

= 1/n Σ i m ←E(m) = 1/n Σ i m

= 1/n n m ←Σ i m = n m

= m ← 1/n n = 1

= E(X) ←m = E(X)

E の性質 (4):E(XY)

ここにトランプのエース (A)1 枚と、「 2」のカード 2 枚を次のように用

意し

これを裏返してランダムに 1 枚引いたときのカードを X とします。次にそ

のカードを戻して、もう 1 枚引いたときのカードを Y とします。そうする

と X と Y は無関係(独立)になります(独立でない場合→後述「非独立の

確率変数」)。そのときの同時確率分布は次の表で示されます。

Page 26: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

25

X:Y Y =「A」 Y =「2」 和

X =「A」 1/3 * 1/3 = 1/9 1/3 * 2/3 = 2/9 1/9 + 2/9 = 3/9 = 1/3.

X =「2」 2/3 * 1/3 = 2/9 2/3 * 2/3 = 4/9 2/9 + 4/9 = 6/9 = 2/3.

和 1/9 + 2/9 = 3/9 = 1/3 2/9 + 4/9 = 6/9 = 2/3 1

たとえば、1 枚目が「A」であり、2 枚目が「2」であるときの確率 P(X=

「A」 , Y=「2」 )は、1/3 * 2/3 =2/9 になることは理解できます。そして、こ

の確率は、X=「A」の確率 P(X=「A」 )を示す(横)和 1/3 と、Y=「2」の

確率 P(Y=「2」 )を示す(縦)和 2/3 の積になることを確認します。ほかの

マスに対応する P(X=「A」, Y=「A」)=1/3 * 1/3 =1/9、P(X=「2」, Y=「A」)2/3

* 1/3 =2/9、P(X=「 2」 , Y=「 2」 )2/3 * 2/3 = 4/9 についても同様です。よっ

E(XY) = E(X) E(Y) [X, Y:独立 ]

ここで X, Y はそれぞれの確率変数を示します。よって積 E(XY)はそれぞれ

のマスにある積算を示し、E(X) E(Y)は確率の行和と列和の積を示します。

以上はカードの種類が「 3」「 4」…のように増えても同じです。そこで

一般化して、次の (X, Y)の確率分布を見ます(X, Y:独立)。

X:Y y1 y2 . . . 和

x1 p1 1 p1 2 . . . p1 .

x2 p2 1 p2 2 . . . p2 .

. . . . . . . . . . . . . . .

和 p.1 p.2 . . . 1

E(X Y) = Σ i Σ j x i y j p i j ←表の p1 1, p1 2, . . . , pnp を個別に足す

= Σ i Σ j x i y j p i . p. j ←表の行と列をまとめて全部足す

= Σ i x i p i . Σ j y j p. j ←Σ i Σ j x i y j = Σ i x i Σ j y j

= E(X) E(Y)

確率分布の分散 V には次の性質があります。

V の性質 (1): V(X) = E(X2) - [E(X)]

2

V の性質 (2): V(aX + b) = a2 V(X) ← a

2 と b=0 に注意

V の性質 (3): V(X + Y) = V(X) + V(Y) [ X, Y:独立 ]

V の性質 (4): V(X − Y) = V(X) + V(Y) [X, Y:独立 ] ←「+」に注意

それぞれを以下のように導きます。

(1) V(X) = E[(X - m)2] ←分散の定義

= E(X2 - 2 m X + m

2) ←かっこ (...)内を展開

= E(X2) - 2 m E(X) + m

2 ←E(X + Y) = E (X) + E (Y)

Page 27: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

26

= E(X2) - 2 m

2 + m

2 ←m

= E(X)

= E(X2) - m

2 ← - 2 m

2 + m

2 = - m

2

= E(X2) - [E(X)]

2 ←m

= E(X)

(2) V(aX + b) = E{[aX + b - E(a X + b)]2} ←V(X) = E[(X - E(X))

2]

= E{[aX + b - (a E(X) + b)]2} ←E(aX) = a E(X) (E の性質 )

= E{[aX + b - a E(X) - b]2} ← (...)を外す

= E{[aX - a E(X)]2} ←b を消去

= E(aX - a m)2 ←E(X) = m

= E[a2(X - m)

2] ← a を二乗して前へ

= a2

E(X - m)2 ←E(aX) = a E(X) (E の性質 )

= a2

V(X) ←V(X) = E(X - m)2 (定義 )

(3) V(X + Y) [X, Y:独立 ]

= E{(X + Y)2} - {E(X + Y)}

2 ←V(X) = E(X

2) - [E(X)]

2

= E(X2 + 2XY + Y

2} - {E(X + Y)}

2 ←展開

= E(X2) + 2E(XY) + E(Y

2) - {E(X + Y)}

2 ←E を配分

= E(X2) + 2E(XY) + E(Y

2) - {E(X) + E(Y)}

2 ←V(X) = E(X

2) - [E(X)]

2

= E(X2) + 2E(XY) + E(Y

2) - {[E(X)]

2 +2 E(X) E(Y) + [E(Y)]

2} ←展開

= E(X2) - [E(X)]

2 + 2[E(XY) - E(X)E(Y)] + E(Y

2) - [E(Y)]

2} ←整理

= V(X) + 2[E(XY) - E(X)E(Y)] + V(Y) ←V(X) = E(X

2) - [E(X)]

2

= V(X) + V(Y) ←E(XY) = E(X)E(Y) [X, Y:独立 ]

(4) V(X − Y) = V(X + (-1) Y)

= V(X) + V[(-1) Y] V(X+Y) = V(X) + V(Y) [X,Y 独立 ]

= V(X) + (-1)2

V(Y) V(a X) = a2

V(X)

= V(X) + V(Y)

*平均 E と分散 V の性質については小寺 (2002:97-111)を参照しました。

●非独立の確率変数

確率変数が独立していないときは、E(XY) = E(X) E(Y), V(X+Y) = V(X) +

V(Y)にはなりません。たとえばトランプのエース (A)1 枚と、「2」のカー

ド 2 枚を次のように用意し

これを裏返してランダムに 1 枚引いたときのカードを X とします。次にそ

のカードを戻さないで、残る 2 枚の中からもう 1 枚引いたときのカードを

Page 28: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

27

Y とします。そうすると、2 回目に引くカードの確率は 1 回目に引かれた

カードの種類に依存するので、X と Y は無関係(独立)ではなくなります。

そのときの同時確率分布は次の表で示されます。

X:Y Y =「A」 Y =「2」 和

X =「A」 1/3 * 0 = 0 1/3 * 1 =1/3 0 + 1/3= 1/3.

X =「2」 2/3 * 1/2 = 2/6 =1/3 2/3 * 1/2 = 2/6 = 1/3 1/3 + 1/3 = 2/3.

和 0 + 1/3 = 1/3 1/3 + 1/3= 2/3 1

たとえば、1 枚目が「A」のとき確率は 1/3 であり、そのカードを戻さな

いで 2 枚目が「 2」であるときの確率は「A」がなくなっているので、「 2」

のカード 2 枚の中から 1 枚をとるのでそれが「 2」になる確率は 1/3 * 1 =1/3

になります。確率の行和も列和も先に見た独立の場合と同じになりますが、、

この確率は、X=「A」の確率 P(X=「A」 )を示す(横)和 1/3 と、Y=「2」

の確率 P(Y=「2」 )を示す(縦)和 2/3 の積にはなっていないことを確認で

きます 1/3≠1/3 * 1/3:。ほかのマスに対応する P(X=「A」, Y=「A」)、P(X=

「 2」 , Y=「A」 )、P(X=「2」 , Y=「 2」 )についても同様です。そこで

E(XY) ≠ E(X) E(Y) ... X, Y:非独立

また、先に見たとおり

V(X + Y) = V(X) + V(Y) . . . X, Y:独立

を証明するときの途中の式で

E(XY) = E(X) E(Y) .. . X, Y:独立

を使っているので、X, Y が非独立であれば、次のようになります。

V(X + Y) ≠ V(X) + V(Y) . . . X, Y:非独立

2.1.3. 二項分布確率

ある事象が起こる確率にはさまざまなものがあります。たとえば、サイ

コロには {1, 2, 3, 4, 5, 6}という目があるので、 1 回サイコロを投げるとき

(「試行」と言います)、それぞれの目「 1」「2」…が出る確率はそれぞれ

1/6 ずつです。これらの目の中の 1 つ、たとえば「 1」が出る確率は 1/6 な

ので、逆に「 1」が出ない確率は 1 - 1/6 = 5/6 です。次の表の F (False)は「1」

が出ないことを示し、T (True)は「1」が出ることを示しています。確率の

総和が 1 になることを確認してください (5/6 + 1/6 = 1)。

Page 29: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

28

「1」 T の数 確率

T 1 1/6≒ 0.167

F 0 5/6≒ 0.833

次にサイコロを 2 回投げる場合 (試行回数 n=2)を考えましょう。たとえ

ば 1 回目が F で 2 回目が T とすると、これを F, T と書きます。4 つの場合

のそれぞれの確率は、 2 つのサイコロで T/F の確率の積になります 2。この

場合も確率の総和は 1 です (25/36 + 5/36 + 5/36 + 1/36 = 1)。

「1」 T の数 確率

T, T 2 (1/6) * (1/6) = 1/36≒0.028

T, F 1 (1/6) * (5/6) = 5/36≒0.139

F, T 1 (5/6) * (1/6) = 5/36≒0.139

F, F 0 (5/6) * (5/6) = 25/36≒ 0.694

さらに、サイコロを 3 回投げる場合 (試行回数 n=3)を考えます。この場

合も確率の総和は 1 になります。

「1」 T の数 確率

T, T, T 3 (1/6) * (1/6) * (1/6) = 1/216≒ 0.005

T, T, F 2 (1/6) * (1/6) * (5/6) = 5/216≒ 0.023

T, F, T 2 (1/6) * (5/6) * (1/6) = 5/216≒ 0.023

T, F, F 1 (1/6) * (5/6) * (5/6) = 25/216≒0.116

F, T, T 2 (5/6) * (1/6) * (1/6) = 5/216≒ 0.023

F, T, F 1 (5/6) * (1/6) * (5/6) = 25/216≒0.116

F, F, T 1 (5/6) * (5/6) * (1/6) = 25/216≒0.116

F, F, F 0 (5/6) * (5/6) * (5/6) = 125/216≒ 0.579

ここで、たとえばサイコロを 3 回投げて順番を問題にせずに、全部で 2

回「1」が出る場合 (T の数=2)の確率を求めると、上の表から

「1」 T の数 確率

T, T, F 2 (1/6) * (1/6) * (5/6) = 5/216≒ 0.023

T, F, T 2 (1/6) * (5/6) * (1/6) = 5/216≒ 0.023

F, T, T 2 (5/6) * (1/6) * (1/6) = 5/216≒ 0.023

2 互いに影響しない(独立な)複数の事象の確率はそれぞれの事象の確率

の積になります。たとえば、ある趣味の会に、 1/2 の確率で出席する A さ

んと 1/3 の確率で出席する B さんの 2 人が同時に出席する確率は (1/2) *

(1/3) = 1/6 になります。もし、A さんと B さんが知り合いで誘いあってこ

の趣味の会に出席することがあるときは、互いに独立していないので、こ

のような確率の積を使うことができません。一方、 2 つのサイコロの目の

出方はそれぞれ独立しています。

Page 30: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

29

を合計した確率、つまり、 (5/216) + (5/216) + (5/216) = 15/216≒ 0.069 にな

ることがわかります。これは「1」(T)が 2 回出る場合の確率 (5/216)を 3 倍

した数です。それぞれの場合の確率 5/216 は (1/6)2 (5/6)、つまり T の確率

1/6 の 2 回分と F の確率 5/6 の 1 回分の積になります。

次に T, T, F だけでなく、他にも T,F,T と F,T,T があるので、この積 5/216

を 3 倍します。この倍数 (=3)を求めるためには、このように少ない試行回

数 (3 回 )ならばすぐ計算できますが、それが多くなると一般式を使わなけれ

ばなりません。n 回の試行で T が r 回選ばれる場合の数は nCr という「組み

合わせ」 (Combination: nC r)の値になります 3。ここでは、T が 2 個で F が 1

個の組み合わせになるので 3C2 で計算します。そこで、3 回の試行で T が 2

回出る確率は

3C2 (1/6)2 (5/6) = (3 * 2) / (2 * 1) (1/6)

2 (5/6) = 15/216≒0.069

この確率(二項確率 Binomial probability: Binom)を一般式で示すと

Binom(x, n, p) = nCx (p)x (1 – p)

n - x

ここで n はサイコロを投げた総回数(試行数)、x は成功回数(T の数)、

p は T の確率 (成功確率:1/6)、1 - p は F の確率 (失敗確率:5/6)を示しま

す。次の表は Excel 関数 Binom を使って計算した二項確率です。 x が 2(T

の数が 2)のときの二項確率が先に見たように、 15/216 (=0.06944…)になっ

ています。

N 3

x↓: n=3 BinPr

P 0.1667

0 0.57870

M 0.5000

1 0.34722

V 0.4167

2 0.06944

3 0.00463

なお、上左表では個数 (N)と確率 (P)のほかに、平均 (M=E(X))と分散

(VR=V(X))も示してあります。それぞれ次のように数理的に導出されます。

3 これは互いに区別のつく 3 個の物 {a, b, c}の中から任意の 2 個 (= T)を取り

出す場合の数と同じです。もし、取り出す順番を考えるならば、ab, ac, ba,

bc, ca, cb という 6 個の場合があります。これが「順列」 (Permutation: nP r)

で、nPr = n (n – 1)(n – 2) … (n – r + 1). ここで、順番を考慮しなければ(「組

み合わせ」3C2)、ab と ba, ac と ca、bc と cb はそれぞれ同じなので場合の

数を 2 で割らなければなりません。この 2 は 2P2 の順列 (2! = 2 x 1)です。よ

って 3C2 = (3 * 2) / (2 * 1). 一般式は

nC r = nPr / r! = [n (n – 1) (n – 2) … (n – r + 1)] / r! = n ! / [r! (n - r)!]

Page 31: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

30

X 1 0 和

P p q 1

n 回の試行での確率変数 X1 , X2 , …, Xn についてのそれぞれの平均 (M)と

分散 (V)を計算します。

E(X i) = Σ i x i p i = 1 * p + 0 * q = p

V(X) = Σ i (x i - m) * p i

= (1 - p)2 * p + (0 - p)

2 * q

= q2 * p + p

2 * q ← p + q = 1

= p * q * (q + p)

= p * q ← p + q = 1

この平均と分散が n 回の X について考えると

二項分布の平均 (M):E(X) = n E(X i) = n * p

二項分布の分散 (V):V(X) = n * V(X i) = n * p * q

下左表は二項分布の試行数 (N)、確率 (P)、平均 (M)、分散 (V)を示します。

平均は N*P、分散は N*P*(1-P)になります。下右表は試行回数を 3, 5, 10, 20,

30 にしたときの、それぞれの確率分布を示します。下図は、それらを結ん

だ平滑線です。試行数 (N)が多くなるにつれ、左右対称の釣鐘状の分布(正

規分布)に近づきます。

N 10

x↓: n→ n=3 n=5 n=10 n=20 n=30

P 0.1667

0 0.5787 0.4019 0.1615 0.0261 0.0042

M 1.6667

1 0.3472 0.4019 0.3230 0.1043 0.0253

V 1.3889

2 0.0694 0.1608 0.2907 0.1982 0.0733

3 0.0046 0.0322 0.1550 0.2379 0.1368

4 0.0032 0.0543 0.2022 0.1847

5 0.0001 0.0130 0.1294 0.1921

6

0.0022 0.0647 0.1601

7

0.0002 0.0259 0.1098

8

0.0000 0.0084 0.0631

9

0.0000 0.0022 0.0309

10 0.0000 0.0005 0.0130

Page 32: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

31

上左図はそれぞれの試行数 (N)の確率分布を比較するために曲線で示し

ましたが、二項確率は N が離散的なので、本来ならば右図のようにそれぞ

れの N の確率を間隔のない棒グラフで示すべきです。

2.1.4. 正規分布確率

先に見たように、二項分布のそれぞれの確率は成功回数 (x)、試行回数 (n)、

成功確率 (p)で求められます。Excel 関数では BINOMDIST(x, n, p, 0)を使い

ます。一方、先述の正規分布の描く曲線は、平均と分散から得られる確率

密度を使います。n が 30 ほどになると、次の表が示すように二項確率 (BinPr)

と正規確率密度 (NormPr)の値は近似します。

N 30.000

x↓: n=30 BnPr NmPr BnCum NmCum NmCumC

P 0.167

0 0.004 0.0097 0.0042 0.0072 0.0137

M 5.000

1 0.025 0.0287 0.0295 0.0250 0.0432

V 4.167

2 0.073 0.0664 0.1028 0.0708 0.1103

3 0.137 0.1209 0.2396 0.1636 0.2312

4 0.185 0.1733 0.4243 0.3121 0.4032

5 0.192 0.1954 0.6164 0.5000 0.5968

6 0.160 0.1733 0.7765 0.6879 0.7688

7 0.110 0.1209 0.8863 0.8364 0.8897

8 0.063 0.0664 0.9494 0.9292 0.9568

9 0.031 0.0287 0.9803 0.9750 0.9863

-0.100

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

0 2 4 6 8 10

n=3

n=5

n=10

n=20

n=30

0.0000

0.0500

0.1000

0.1500

0.2000

0.2500

0 1 2 3 4 5 6 7 8 9 10

n=30

Page 33: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

32

10 0.013 0.0097 0.9933 0.9928 0.9965

下左図は n=30 のときの確率分布を示します。棒グラフは二項確率分布

を表し、折れ線は対応する正規分布を表します。ほぼ一致していることを

確認してください。下右図は、それぞれの累積確率分布を示します。

それぞれの Exce;関数は

二項確率(離散 :BnPr): =BINOMDIST(x,n,p,0)

正規確率(連続 :NmPr): =NORMDIST(x,m,v,0)

二項累積確率(離散 :BnCum):=BINOMDIST(x,n,p,1)

正規累積確率(連続 :NmCum):=NORMDIST(x,m,v,1)

上右図には、正規累積確率 NmCum と補正正規累積確率 NmCumC を示し

ました。二項確率に近似する正規累積確率 NmCum は、先に見たように、

1点での確率ではなく確率密度を示すので、累積二項確率とは一致しませ

ん。両者を一致させるために次のように、 x に 0.5 を足して「連続補正」

(Continuity correction)をします(稲垣 2003:104)。

補正正規累積確率(連続 :NmCumC):=NORMDIST(x+0.5,m,v,1)

この理由は上右図を見るとわかります。補正正規累積確率は x 軸を右に

0.5 移動した位置、つまり、それぞれの棒の長さ (1)の半分 (0.5)移動した y

軸の長さになるので、これで、対応する x に左側全部の面積を足したこと

になるからです。

さて、このように二項分布に近似する正規分布を求めると、正規分布は

連続的な x 値についても無限に計算できますから、二項分布の x のような

整数値でなくても、確率(密度)を求めることが可能になります。そこで、

引き続き二項分布を使って、試行回数 (N)を非常に多くしてみましょう。次

は、N=10000 の場合です。確率 (P)は N に反比例するように、小さくします

Page 34: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

33

(N * P = 10)。

N 10000

x↓ BnPr NmPr BnCum NmCum NmCumC

P 0.001

0 0.000 0.0008 0.0000 0.0008 0.0013

M 10.000

1 0.000 0.0022 0.0005 0.0022 0.0036

V 9.990

2 0.002 0.0051 0.0028 0.0057 0.0088

3 0.008 0.0109 0.0103 0.0134 0.0199

(…) (…) (…) (…) (…) (…)

下左図は二項分布の確率 (BnPr)と正規分布の確率密度 (NmPr)を示し、下

右図は二項分布の累積確率 (BnCum)、正規分布の累積確率密度 (NmCum))、

正規分布の補正累積確率密度 (NmCumC)を示します。

二項確率はサイコロの目のように数値が離散的で、かつ成功確率 (P)が想

定できるときにしか使えませんが、正規分布確率は連続的な数値の平均

(M)と分散 (V)がわかれば、数値に対応する確率密度を計算することができ

ます。

2.2. 乱数

2.2.1. 乱数の確率

先に見た投げたサイコロの目や、円盤に投げた針が示す角度のように、

それぞれの数値が次の数値を予測することができず、それぞれの数値や範

囲に対応する度数が均等になるような数は乱数 (ramdam numbers)とよばれ

ます。乱数を生成するエクセル関数 Rnd()は呼び出される度に、 [0, 1)の範

囲内で、次のように小数点以下 15 桁まで出力されます。

0.288230019515856

0.569841439211386

0.616048897998326

(…)

Page 35: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

34

はじめに次のプログラムで乱数を出力させます。

Function Test1(Xnp) '乱数実験 1

Dim i&, Dn(10, 1)

Dn(0, 0) = "Ex1": Dn(0, 1) = "Rnd"

For i = 1 To 10

Dn(i, 0) = i

Dn(i, 1) = Rnd()

Next

Test1 = Dn

End Function

出力:

Ex1 Rnd

1 .9276

2 .5495

3 .9850

4 .2122

5 .6167

6 .0829

7 .8321

8 .5783

9 .0458

10 .4628

次に乱数の確率が一定の階級の範囲内で等しいかどうかを確かめるプロ

グラムを作ります。ここでは 10 個の階級を用意します。

Function Test1(Xnp) '実験 2

Dim i&, P%, Dn(10, 1)

Dn(0, 0) = "Ex.2": Dn(0, 1) = "Cnt"

For i = 1 To 10 ^ 6

P = Int(Rnd() * 10) + 1

Dn(P, 0) = P

Dn(Int(P), 1) = Dn(Int(P), 1) + 1

Next

Test1 = Dn

End Function

上の P は乱数 [0, 1)を 10 倍した数 [0, 10)の整数部に 1 を足したもので、こ

れを配列 Dn の位置とし、この配列位置の数値を全体で 100 万個分足しあ

Page 36: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

35

げます。

出力:

Ex.2 Cnt

1 99613

2 99735

3 100225

4 100106

5 99997

6 100105

7 100022

8 100145

9 99716

10 100336

このように 100 万個の乱数がそれぞれの階級にほぼ均等に分配されてい

ることがわかります。

●乱数の平均

乱数 [0, 1)を多数発生させ、その平均 (=.5)を実験的に確かめます。プログ

ラム(→後述)を使って、たとえば 10 万個の乱数を発生させると、それら

の乱数の平均はおよそ 0.5 となり、分散は 0.0843...になりました。乱数の

範囲が [0, 1)ですから、この平均がおよそ 0.5 になることは想像できますが、

分散がこの数値 (0.0843....)になる理由は直ちにはわかりません。ここでは、

はじめに具体的な例で実験的に平均と分散を求め、次に数理的にそれを一

般化します。

次のような数値 (x)と、その頻度 (f)からなる頻度分布の例を見ましょう。

x 0 0.1 0.2 ... 0.9 和

f 100 100 100 ... 100 1000

この頻度分布表を使って平均 (m)を求めると次のようになります。

m = [(0 * 100) + (0.1 * 100) + (0.2 * 100) + ... + (0.9 * 100)] / 1000

次に、この頻度 (f)を確率 (P)に変えて、次の確率分布にします。

X 0 0.1 0.2 ... 0.9 和

P 1 / 10 1 / 10 1 / 10 ... 1 / 10 1

上表のように確率 (p)の和はかならず 1 になります。

Page 37: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

36

[1] Σ i p i = 1

この確率分布を使って平均 (m)を求めます。分数の分母のゼロの連続を避

けるためにマイナスの指数を使います。下の第一式が先の頻度分布表と同

じであることを確かめてください。

m = Σ i x i p i (i = 0, 1, 2, ... , 9)

= (0 * 10-1

) + (10-1

* 10-1

) + (0.2 * 10-1

) + ... + (0.9 * 10-1

)

= (0 + 0.11 + 0.2 + ... + 0.9) * 10

-1 ←各項の 10

-1 を外へ

= (0 + 1 + 2 + ... + 9) * 10-1

* 10-1

← (*)内の各項の 10-1 を外絵

= (0 + 1 + 2 + ... + 9) * 10-2

←分母を整理

= (9 * 10 / 2) * 10-2

←脚注 4

= 45 * 10-2

= 0.45

次に小数点以下 2 桁までの乱数の平均 (m')は

m' = Σ i x i p i (i = 0, 1, 2, ... , 99)

= (0 * 10-2

) + (0.01 * 10-2

) + (0.02 * 10-2

) + ... + (0.99 * 10-2

)

= (0 + 0.01 + 0.02 + ... + 0.99) * 10-2

= (0 + 1 + 2 + ... + 99) * 10-2

* 10-2

= (0 + 1 + 2 + ... + 99) * 10-4

= (99 * 100 / 2) * 10-4

= 4950 * 10-4

= 0.495

さらに、小数点以下 3 桁までの乱数の平均 (m")は

m" = Σ i x i p i (i = 0, 1, 2, ... , 999)

= (0 * 10-3

) + (0.001 * 10-3

) + (0.002 * 10-3

) + ... + (0.999 * 10-3

)

= (0 + 0.01 + 0.02 + ... + 0.999) * 10-3

= (0 + 1 + 2 + ... + 999) * 10-3

* 10-3

= (0 + 1 + 2 + ... + 999) * 10-6

= (999 * 1000 / 2) * 10-6

= 499500 * 10-6

= 0.4995

このように乱数の間隔を次第に小さくし乱数の種類を多くしていくと、

乱数の平均は次第に 0.5 に近づくことがわかります。後述するように、乱

数の間隔を無限にゼロ (0)に近づければ、平均は無限に 0.5 に近づくことが

予想できます。

4 数列 (1, 2, …, n)の和=n (n + 1) / 2、よって n = 9 のときの和は 45.←高校

数学 B. わかりやすいようにこの部分を括弧 (...)で囲みます。

Page 38: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

37

●乱数の分散

先に見たように、確率分布の分散は

V(X) = E(X2) - [E(X)]

2

そこで、分散 V(X)を求めるには、先に平均 E(X) = 0.5 を求めてあるので、

あとは E(X2)がわかればよいことになります。

X 0 0.1 0.2 ... 0.9 和

X2 0

2 (0.1)

2 (0.2)

2 (0.9)

2

P 0.1 0.1 0.1 ... 0.1 1

E(X2) = Σ i X i

2 p i (i = 0, 1, 2, ... , 9)

= 02*10

-1 + (10

-1)

2*10

-1 + (0.2)

2*10

-1 + (0.3)

2*10

-1 + ... + (0.9)

2*10

-1

= [02 + (0.1)

2 + (0.2)

2 + (0.3)

2 + ... + (0.9)

2] * 10

-1

= [0 + 12 + 2

2 + 3

2 + ... + 9

2] * 10

-2 * 10

-1

= [0 + 12 + 2

2 + 3

2 + ... + 9

2] * 10

-3

= [9 * (9 + 1) * (2 * 9 + 1) / 6] * 10-3

←注 5

= 285 * 10-3

= 0.285

よって、分散 V(X)は

V(X) = E(X2) - [E(X)]

2 = 0.285 - (0.5)

2 = 0.285 - 0.25 = 0.035

次に、小数点以下 2 桁までの乱数の分散 V(X)'を求めます。

E(X2)' = Σ i X i

2 p i (i = 0, 1, 2, ... , 99)

= 02*10

-2+(0.01)

2*10

-2+(0.02)

2*10

-2+(0.03)

2*10

-2+ ... + (0.99)

2*10

-2

= [0 + (10-2

)2 + (0.02)

2 + (0.03)

2 + ... + (0.99)

2] * 10

-2

= [0 + 12 + 2

2 + 3

2 + ... + 99

2] * 10

-4 * 10

-2

= [0 + 12 + 2

2 + 3

2 + ... + 99

2] * 10

-6

= [99 * (99 + 1) * (2 * 99 + 1) / 6] * 10-6

= 328350 * 10-6

= 0.32835

V(X)' = E(x2) - [E(x)]

2 = 0.328 - (0.5)

2 = 0.32835 - 0.25 = 0.07835

さらに、小数点以下 3 桁までの乱数の分散 V"(X)は

E(x2)" = Σ i x i

2 p i (i = 0, 1, 2, ... , 999)

= 02*10

-3+(0.001)

2*10

-3+(0.002)

2*10

-3+(0.003)

2*10

-3+...+ (0.999)

2*10

-3

= [0 + (0.001)2 + (0.002)

2 + (0.003)

2 + ... + (0.999)

2] * 10

-3

5 数列 (1

2, 2

2, …, n2

)の和= n (n+1) (2n+1) / 6、よって n=9 のときの和は 285.

←高校数学 B. わかりやすいようにこの部分を括弧 [...]で囲みます。

Page 39: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

38

= [0 + 12 + 2

2 + 3

2 + ... + 999

2] * 10

-6 * 10

-3

= [0 + 12 + 2

2 + 3

2 + ... + 999

2] * 10

-9

= [999 * (999 + 1) * (2 * 999 + 1) / 6] * 10-1 2

= 332833500 * 10-12 = 0.3328335

V(X)" = E(x2)" - [E(x)]

2 = 0.3328335 - (0.5)

2 = 0.3328335 - 0.25 = 0.0828335

この段階まで求めた分散 0.0828335 が、先に実験的に確かめた乱数の分

散 0.0843...に近似することがわかりました。以上で、それぞれの数値に対

応する確率を個別に区切ってその平均と分散を求めました。そのような個

別の確率は離散的確率 (discrete probability)と呼ばれます。

2.2.2. 連続的確率

たとえば、{1, 2, 3, 4, 5, 6}という目をもつサイコロを次々に投げたとき、

次に出る目は [1, 6]の範囲内でまったく予測できませんが、それぞれの確率

はすべて 1/6 で同じになります。このように確率が等しく、次の数値が予

測できない数値は乱数 (Random numbers)とよばれます。

先に離散的確率変数の平均と分散を求めましたが、実は乱数の小数点以

下の桁数は非常に大きく理論的には無限にあると考えられるので、厳密に

言えば、確率分布表の p ではなく、次のようなグラフと式で示される一様

分布 (uniform distribution)の確率密度 (probability density)の関数 f(x)を使わ

なければなりません。

f(x) = 1 / (b - a) [a ~ b]

0 [-∞ ~ a, b ~ +∞ ]

ここで、 a, b はそれぞれ区間の下端(開始点)と上端(終了点)を示しま

す。 [0, 1)の区間にある乱数では、 a = 0, b = 1 になります。 x が 0 以下また

は 1 以上のときは f(x)はゼロ (0)になります。

f(x)' = 1 / (1 - 0) =1 [0 ~ 1]

はじめに、このような一様分布の確率密度関数の全体の値 (総和:S)を積

分を使って求めます。先の離散的な確率ではシグマ(Σ:和)を使って、

個別の確率を掛けて足し合わせていきましたが、ここでは連続的な確率に

Page 40: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

39

なるので、次のような定積分を使います (←高校数学 II)。

S = ∫ f(x)1

0 dx = ∫ 1

1

0 dx = [x]0

1 = 1 - 0 = 1

上式では [0 ~ 1]の区間で計算していますが、特定の点での積分値はゼロ

になるので 6、乱数の区間 [0 ~ 1)でも同じです。また、 [0 ~ 1]の区間以外の

f(x)の値はゼロなので、区間 [-∞ ~ +∞ ]にしても同じように結果は 1 にな

り、このことは一様分布の確率の総和が 1 になることを示しています。

さて、この f(x) = 1 を用いて連続的確率変数の平均を求めると

E(x) = ∫ x f(x)1

0 dx = ∫ x 1

1

0 dx = [

x2

2]01 = (1

2 / 2) - (0

2 / 2) = 1 / 2

よって、連続的な乱数の平均値は 1 / 2 = 0.5 になります。

次に分散を求めるために、二乗の平均 E(x2)を計算します。

E(x2) = ∫ x2 f(x)

1

0 dx = ∫ x2 1

1

0 dx = [

x3

3]01 = (1

3 / 3) - (0

3 / 3) = 1 / 3

よって、分散 V(x)は

V(x) = E(x2) - [E(x)]

2 = (1 / 3) - (1 / 2)

2 = (1 / 3) - (1 / 4)

= (4 / 12) - (3 / 12) = 1 / 12 = 0.0833...

以上で、先に乱数の実験で求めた分散 0.0843...と、小数点以下 3 桁の離

散的確率変数で求めた分散 0.0828 が、連続的確率変数を使って数理的に求

めた分散 1 / 12 = 0.0833...と近似することを確かめました。

*一様分布の平均と分散については永田 (2005: 61, 66)を参照しました。

●プログラム

Sub RndTest() '●乱数の和・平均・分散

Dim i&, R&, Xn

R = 50000: ReDim Xn(R, 1): Rnd ( -1) '繰り返し数:シード値一定

For i = 1 To R

Xn(i, 1) = Rnd '乱数 [0, 1)

Next i

Cells(1, 1) = "和 ": Cells(1, 2) = Sm(Xn) '和

Cells(2, 1) = "平均 ": Cells(2, 2) = Av(Xn) '平均

Cells(3, 1) = "分散 ": Cells(3, 2) = Vr(Xn) '分散

End Sub

R 個の乱数を配列 Xn に格納し、Xn の和、平均、分散をユーザー関数 Sm,

6 ∫ 𝑓(𝑥)

𝑘

𝑘 dx = [𝐹(𝑥)]𝑘

𝑘 = F(k) − F(k) = 0 (F(x)は f(x)の原始関数 )

Page 41: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

40

Mem, VrM で求め、該当するセルに出力します。

2.2.3. 確率分布

これから見ていく、和・平均・分散などの各種の統計値や、相関係数・

連関係数・距離係数などの関係値の確率を計算するとき、一様分布に近似

する乱数(一様分布乱数)を使います 7。対象となる統計値・関係値を、一

様分布乱数データの統計値・関係値と比較することで、その対象が偶然で

も普通に起きる数値であるのか、偶然では起きない稀な数値であるのかが

判断できるようになります。

次は、一様分布乱数(平均 =5, 標準偏差=1, 範囲 [0, 1])を使って実験し

て求めた確率(縦軸)・個数(横軸)・平均値の関係を示す表です。

平均値の確率分布表

平均値 10 20 30 40 50 60 70 80 90 100

.05 .348 .393 .415 .426 .431 .439 .444 .446 .451 .452

.10 .378 .418 .433 .440 .446 .451 .456 .458 .460 .462

.15 .401 .432 .444 .451 .457 .461 .464 .465 .468 .469

.20 .421 .445 .455 .460 .464 .468 .471 .472 .474 .475

.25 .438 .457 .465 .468 .471 .474 .476 .477 .480 .480

.30 .453 .465 .472 .475 .477 .480 .482 .482 .484 .484

.35 .465 .474 .479 .482 .483 .485 .487 .487 .488 .488

.40 .477 .483 .487 .488 .489 .490 .491 .491 .492 .493

.45 .488 .492 .494 .493 .495 .495 .496 .495 .496 .496

.50 .499 .499 .500 .499 .500 .500 .500 .499 .499 .500

.55 .510 .508 .506 .505 .505 .505 .504 .504 .503 .503

.60 .522 .516 .513 .511 .510 .509 .509 .508 .507 .507

.65 .534 .525 .520 .517 .515 .514 .513 .512 .511 .511

.70 .547 .533 .527 .524 .521 .520 .517 .517 .515 .515

.75 .561 .545 .535 .531 .528 .526 .523 .522 .520 .519

.80 .578 .556 .544 .539 .535 .531 .528 .528 .525 .524

.85 .597 .568 .554 .548 .543 .539 .535 .535 .532 .530

.90 .616 .585 .568 .559 .553 .549 .545 .543 .539 .538

.95 .651 .608 .589 .576 .567 .562 .557 .555 .551 .548

7 正規分布乱数を使わない理由は、データ分布に存在すると想定される分

布(正規分布)ではなく、それに依存しない、まったくの偶然によって生

じる数値(一様分布)と比較するためです。また、正規分布乱数による確

率は、分布の中心を示す平均などの確率と比較することはできますが、分

布のバラツキを見る分散や標準偏差では、正規分布乱数は中央に集中する

ため、必然的にその値が小さくなり、比較が不可能になります。

Page 42: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

41

この表から、たとえば、正規分布(平均 =5, 標準偏差 =1)を示す乱数か

ら 10 個を抽出してその平均値を計算するという作業を多数回 (5000)行いま

す。すると、全体の 5% (.05)は .35 以下であり、50%(.50)は .50 以下であり、

95% (.95)は .65 以下でした。このようなバラツキは、個数が 100 の場合に

は少なくなっています。次のグラフを見ると、個数が多くなるほど平均値

のバラツキが小さくなるという、全体の傾向がわかります。

データ数 (N=10)が少ないと、有意性を示す 5%点が小さく (.35 以下 )、ま

た、 95%点が大きくなることは (.65 以上 )、数値がもつ偶然性が高くなり、

信頼性が低くなることを示しています。逆に、データ数 (N=100)が多くなる

と、数値がもつ偶然性が低くなるので信頼性が高まります。もちろん、デ

ータ数が少ない場合でも数値が平均から大きく逸脱するときに (.35 以下ま

たは .65 以上 )、有意性(偶然ではありえないこと)が生まれます。重要な

ことは、そのために必要な逸脱の程度がデータの個数に依存する、という

ことです。

このような確率の性質がわかると、平均値などの統計値や、相関係数な

どの関係値が示す確率から、偶然でも普通に起こる数値であるのか、また

は、偶然では起こりにくい異常な数値であるのか、が判断できるようにな

ります。その判断の基準の確率として、ふつう 5%, 95%や、 1%, 99%が使

われますが、これらの確率に絶対的な根拠があるわけではないので、注目

するときの目安ぐらいにして使うとよいでしょう。むしろ連続的な確率の

数値を評価すべきです。

.300

.350

.400

.450

.500

.550

.600

.650

.700

.05

.10

.15

.20

.25

.30

.35

.40

.45

.50

.55

.60

.65

.70

.75

.80

.85

.90

.95

平均値 10

20

30

40

50

60

70

80

90

100

Page 43: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

42

3. 統計量

行列演算を使ってデータ行列全体の「和」「平均」「分散」「標準偏差」

などの統計量 (Statistic)を扱います。計算する対象の行列の「行」「列」「全

体」について計算します。

3.1. 和

データ行列 Dn p の横和(横和)、縦和(縦和)、全体の和を計算します。

データ行列 Dn p の横和 Sn1 は、次のような行列積で計算します。

Sn 1 = Dnp Ip 1

Ip 1 は P 個の成分をもつ単位縦ベクトルです。

Dnp 1 2 3 X Ip1 1 = Sn1 1

1 6 8 5

1 1

1 19

2 7 10 6

2 1

2 23

3 8 4 8

3 1

3 20

4 9 7 2

4 18

5 10 9 4

5 23

縦和 S1p は次のような行列積で計算します。

S1 p = In 1T Dn p = I1 n Dnp

ここで In 1T は単位ベクトル In 1 を転置させたものです (=I1 n)。

I1 n 1 2 3 4 5 X Dnp 1 2 3 = S1 p 1 2 3

1 1 1 1 1 1

1 6 8 5

1 40 38 25

2 7 10 6

3 8 4 8

4 9 7 2

5 10 9 4

最後に行列全体の総和 S は、横和 Sn 1 または縦和 S1pT の和になります。

次は、縦和 SpT の総和 S を求める式です。

S = I1 n Sn 1 = S1p Ip 1

Page 44: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

43

S1 p 1 2 3 X Ip 1 1 = S 1

1 40 38 25

1 1

1 103

2 1

3 1

●正値統計量

下中表は行の和 (S), 個数 (N), 平均 (M)を示します。一方、下右表は空白

セルを除いたデータの和 (PS), 個数 (PN), 平均 (PM)を示します。和 (S, PS)

は同じになりますが、個数 (N, PN)と平均 (M, PM)は異なります。たとえば、

成績処理では 5 回の小テストと出席回数で成績をつけるときに、 M + N で

はなくて、PM + PN とする方法が考えられます。欠席(空白セル)がある

と、そのテストが 0 点になって M に大きく影響するためです。言語データ

でも、同時に多くの個体を比較すると変数に無関係なケースが多くなるこ

とがあります。そのときはこの正値統計量 (Positive Statistic Measure : PSM)

を使うことが考えられます。

X v1 v2 v3 v4 v5 行 S N M

行 .P PS PN. PM

d1 10 19 14 7 12

d1 62 5 12.4

d1 62 5 12.4

d2 11 7 10 1

d2 29 5 5.8

d2 29 4 7.3

d3

1 12 1

d3 14 5 2.8

d3 14 3 4.7

d4

1 2 3 3

d4 9 5 1.8

d4 9 4 2.3

●群(グループ)の中の統計量

下左表のようなデータ列 (v1, v2, v3)+群列 (Group)からなる入力行列を

群の分類内で各種の統計量を求めます。下右表は統計量として和を求めた

結果です。

D1 1 2 3 Group 和 1 2 3

1 5 2 7 a

a 5 2 7

2 3 3 2 b

b 5 3 4

3 2 0 2 b

c 7 14 12

4 4 2 2 c

5 2 4 3 c

6 1 8 7 c

●変量・個体の同質性・異質性

これから扱う統計量は、すべて縦列でも横行でも計算可能です。しかし、

そのように計算された統計量は同質でなければなりません。たとえば、縦

列が変数のとき、それらが、単語の長さ、単語内の母音の数、子音の数で

Page 45: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

44

あるようなとき、それぞれの個体(単語)について、これらの数値の和を

求めても意味がありません 8。このことは、年齢と月間読書量のように単位

が異なればさらに明らかです。たとえば 12 歳と 5 冊を足した数値 17 は何

の意味もありません。一方、変数として比較する文書(文書 -1, 文書 -2, 文

書 -3, ...)を扱っているのであれば、その扱ったすべての文書について、当

該の単語が出現した総数を計算することに意味があります 9。

同じことは個体にもあてはまります。たとえば、個体 -1 が定冠詞であり、

次の個体 -2 が前置詞であり、個体 -3, 4, 5, ... , が名詞であって、変数として

各文書内の頻度を扱うときは、これら個体のすべての頻度の和が何を意味

するのかを見据えておかなければなりません。目的によっては、このよう

な統計量が必要になることもありますが、そのときには異質なデータが混

在していることを忘れないようにしたいものです。

そこで、そのことを自分にも他者にも明らかにしておくするために、同

質個体 (homogeneous individual)、異質個体 (heterogeneous individual)、同質

変数 (homogeneous variable)、異質変数 (homogeneous variable)という用語を

使ってデータを記述するとよいでしょう。ここで「同質」「異質」という

のは同列に扱うことが可能・不可能な数値や名義のことです。

3.2. 平均

3.2.1. 算術平均値

一般に「平均値」 (Mean: M)とよばれる「算術平均値」 (Arithmetic Mean:

AM)はデータの和をその個数 N で割った値です。縦軸の平均 AMv は

AMv = In 1T Dn p / N, AMv = D[X(Tr(In1, Dnp), N]

( In 1:単位ベクトル、Dn p:データ行列)

D 1 2 3 縦軸 1 2 3

1 6 8 5 平均 8.0 7.6 5.0

2 7 10 6

3 8 4 8

4 9 7 2

5 10 9 4

次はデータの横軸の平均値とその確率 (P)を示します 10。

8 単語内の母音の数と子音の数の和ならば意味があります。

9 各文書の大きさを考慮に入れます(→相対頻度)。

10 確率の右に ^, +, #を付けて、 ^: (.05, .95), +: (.01, .05]; [.95, .99), #[0, .01];

[.99, 1]という確率の範囲を示しました。 ^は有意性が少ない(偶然性が高

Page 46: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

45

X v1 v2 v3 v4 v5

横軸 平均値 : P

d1 10 19 14 7 12

d1 12.400: .360^

d2 11 7 10 0 1

d2 5.800: .577^

d3 0 0 1 12 1

d3 2.800: .018+

d4 0 1 2 3 3

d4 1.800: .767^

3.2.2. 幾何平均値

次の式で示される平均は幾何平均 (Geometric Mean: GM)とよばれます。

GM = [ΠX(i)]1 /N

ここでΠX(i)は X(1) * X(2) * … * X(N)という累積する積を示し、指数の 1/N

は N 乗根を示します。たとえば、 (3, 4)の幾何平均は (3 * 4)1 /2

= 3.46 になり

ます。 (3, 4, 5)の幾何平均は (3*4*5)1 /3

= 3.91 です。

幾何平均はデータの成分が倍数や比率であるときの平均として使われま

す。たとえば、 13, 14, 15 世紀における同一規模の文書内における文字<j>

の頻度が、14 世紀全体で前世紀 (13 世紀 )の 2 倍になり、15 世紀には前世紀

(14 世紀 )の 10 倍になったとします。この 14, 15 世紀の 2 回の頻度の推移

の平均の倍数として単純に算術平均を用いると (2+10)/2 = 6 となり、1 世紀

ごとに 6 倍増加したことになります。しかし、たとえば 13 世紀の頻度が

100 であったとすると、世紀間の推移は (100, 200, 2000)ですから、1900 増

加したことになるはずです。しかし、算術平均で求めた 6 倍を適用すると

600 になってしまいます。そこで、幾何平均を使うと、 (2*10)1 /2

= 4.472…

倍になります。これが 1 世紀あたりの平均増加率ですから、100 に 4.472 を

2 回掛けると確かに 2000 になります (100 * 4.472… * 4.472… = 1999.878…)。

今度は比率の平均について考えます。たとえば、スペイン・カスティー

リャ地方の中世における語尾母音 e の脱落について、-nd(e)の -d(e)に対する

比率が 1/5 = .2 であり、東のアラゴン地方の nd(e)の -d(e)に対する比率が 2/5

= .4 であったとします。ここで、両者の算術平均を単純に計算すると、 (.2

+ .4) / 2 = .3 となります。しかし、逆に nd(e)の -d(e)に対する比率は、それ

ぞれ 5/1 = 5, 5/2 = 2.5 になりますから、その算術平均は (5 + 2.5) / 2 = 3.75

になります。先の .3 の逆数は 1/.3 = 3.33 ですから、これは 3.75 と一致しま

せん。そこで、それぞれの幾何平均を求めていると、 (.2 * .4)1 /2

= .283, (5 *

2.5)1 /2

= 3.53, そして 3.53 の逆数 1/3.53=.283 で両者は一致します 11。

幾何平均を計算するとき、 [ΠX(i)]の部分が掛け算の連続になるため、

い)確率、+は有意性がある確率、#は非常に有意性がある確率であること

を示しますが、これらを区別する切れ目に大きな意味があるわけではなく、

確率の有意性に注目するための目安にすぎません。 11

増加率の幾何平均については清水 (1996: 32-33)を参照し、比率の幾何平

均については池田 (1976: 41)を参照しました。

Page 47: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

46

X(i)が大きな数値が多くあるとき、プログラムの実行でオーバーフロー (扱

える数値範囲の最大値を超えてしまうこと )が起こるときがあります。また、

X(i)が 1 より小さく 0 に近いときは、アンダーフロー (扱える数値範囲の最

小値を超えてしまうこと )を起こすことがあります。そこで、プログラムで

は先の式の両辺の対数 (自然対数 )をとります。

log(GM) = log{[ΠX(i)]1 /N

} ←両辺の対数

= 1/N log {ΠX(i)} ← log XA

= A log X

= 1/N log {X(1) * X(2) * … * X(N)}

←ΠX(i) = X(1) * X(2) * … * X(N)

= 1/N log X(1) + log X(2) * … * log X(N)}

← log X*Y = log X + logY

= 1/N Σ log X(i) ←X(1) + X(2) + … + X(N) = ΣX(i)

= Σ log X(i) / N ←分母を整理

よって

GM = Exp (Σ log X(i) / N) ←Exp X = eX

, Exp(log(X)) = X

X v1 v2 v3 v4 v5 横軸 幾何平均値: P

d1 10 19 14 7 12

d1 11.74: .311^

d2 11 7 10 0 1

d2 .00: .000#

d3 0 0 1 12 1

d3 .00: .000#

d4 0 1 2 3 3

d4 .00: .000#

データセットの成分の 1 つに 0 があると、そのデータセットの幾何平均

は 0 になります。

3.2.3. 調和平均値

速度、濃度、平均、比率など、割り算を使って算出された値の平均は、

そのまま合計して個数で割るわけにはいきません。たとえば、次のような

ケースの平均時速を計算してみましょう。あるグループがハイキングで一

定の行程を往復し、往路は時速 6 km/h、復路は時速 4 km/h だったとします。

このとき往復の平均時速を算術平均で出すと (6 + 4) / 2 = 5 になるからとい

って、平均時速を 5(km/h)とすると不都合なことが起こります。なぜなら

往復の距離を平均時速で割っても時間が正しく出てこないのです。たとえ

ば片道 6 km だとすると、往復の所要時間は 12 (km) / 5(km/h) = 2.4 (h)にな

ってしまいますが、実際の往路は 6 (km) / 6 (km/h) = 1 (h)であり、復路は 6

(km) / 4 (km/h) = 1.5 (h)なので、所要時間は往路と復路をあわせて 2.5 (h) の

はずです。往復の平均時速は 12 (km) / 2.5 (h) = 4.8 (km/h)でなければなり

ません。

Page 48: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

47

この平均速度の計算は、単純に総距離を総時間で割った値ですが、いま

距離も時間も未知であり、行きと帰りの時速(X km/h と Y km/h)だけか

ら平均時速を出す方法として、調和平均 (Harmonic Mean: HM)が使われます12。片道の距離を K / 2 (km)とすると、K / 2 / X が往路の時間になります。

同様に復路の時間は K / 2 / Y です。往復の時間 (H)は

H = K / 2 / X + K / 2 / Y ←往復の時間

= K / 2 X + K / 2 Y ←各項の分母をまとめる

= (1 / X + 1 / Y) K / 2 ←共通部分をくくる

この式から全行程の時速、つまり平均時速(往復の距離/往復の時間 : K

/ H)を引き出します。

H = (1 / X + 1 / Y) K / 2 ←往復の時間

1 / H = 1 / [(1 / X + 1 / Y) K / 2] ←両辺を分母に

K / H = 1 / [(1 / X + 1 / Y) / 2] ←両辺に K を掛ける

調和平均 HM を一般式で書くと次のようになります 13。

HM(X, Y) = 1 / [(1 / X + 1 / Y) / 2] = 2 / (1 / X + 1 / Y)

先の例で計算すると次のようになります。

HM(6, 4) = 2 / (1 / 6 + 1 / 4) = 4.8

なお、この調和平均は次の「分数平均」の特殊なケースです(分子 K が

同数)。分子が異なるときは次の分数平均を使います。

3.2.4. 分数平均値

比率 R1 と R2 のそれぞれの分子 (A1 , B1)と分母 (A2 , B2)がわかっていると

き (R1 = A1 / B1, R2 = A2 / B2)、R1 と R2 の分子の和 (A1 + A2)を平均の分子とし、

R1 と R2 の分母 (B1 + B 2)の和を平均の分母とした分数を使うことを考えます。

これを分数平均 (Fractional Mean: FM)とよぶことにします 14。

FM (A1/B1, A2/B2) = (A1 + A2) / (B1 + B2)

それぞれの平均の結果は連関することがありますが、比率としての分数

12

たとえば池田 (1976: 40-41)、清水 (1996: 33-34)を参照。 13

ここでは 2 つの値の調和平均を説明しましたが、2 個以上でも同様です。

HM = N / Σ (1 / X(i), ここで X(i)はそれぞれのデータ値を示し、N はデー

タの個数を示します。いずれかのデータ X(i)が 0 のとき全体の調和平均は

0 になります。 14

一般に「加重算術平均」 (Weighted arithmetic mean)とよばれています。

Page 49: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

48

を扱うとき、分数平均は 2 つの分数の元の数に遡って計算するので、他の

平均より正確です。また、結果の解釈もわかりやすいと思います。ちょう

ど濃度と量の異なる 2 つのコップの食塩水を混ぜ合わせた食塩水の濃度の

ようなものになるからです。たとえば 1/4 と 2/5 という比率の平均は簡単

な算術平均 (AM)ならば

AM = (1/4 + 2/5) / 2 = .325

調和平均 (HM)ならば

HM. = 1 / [(4 / 1 + 5 / 2) / 2] = .308

になります。どちらも分子と分母の大きさに関わりなく一義的に計算され

ます。ここで提案した分数平均 (FM)を使うと、次のように計算されます。

FM = (1 + 2) / (4 + 5) = .333

10/40 と 4/10 のそれぞれの平均を比べてみましょう。

平均 1/4, 2/5 10/40, 4/10

算術平均 AM. .325 .325

幾何平均 GM. .316 .316

調和平均 HM. .308 .308

分数平均 FM. .333 .280

このように、他の平均と比べて分数平均では第一項の分子と分母を大き

くすると、全体的に薄まって数値が下降していることがわかります。

次の表は、調和平均の説明によく使われる往復(ハイキングなど)の平

均速度の計算を示すものです。この表が示すように、距離と時間のそれぞ

れの和から速度を計算すると、調和平均と分数平均は正しい平均値を出し

ます。

同距離 昨日 今日 和 算術平均 調和平均 分数平均

距離(km) 12 12 24

時間(h) 2 3 5

速度(km/h) 6 4 4.80 5.00 4.80 4.80

しかし往復ではなく、二日目は一日目の道を引き返すのではなく、さら

に先に進むような場合、次のように両日の距離が異なるのがふつうです。

Page 50: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

49

異距離 昨日 今日 和 算術平均 調和平均 分数平均

距離(km) 12 15 27

時間(h) 2 3 5

速度(km/h) 6 5 5.40 5.50 5.45 5.40

このとき、調和平均は距離と時間の和から算定される速度を正しく示し

てはいません。分数平均は、そのまま距離と時間の和から算定されるので、

直感的に理解できると思います。

このように分数平均は、分子の値の和を分母の値の和で割る、という簡

単な操作で求められます。 2 つの値だけでなく、次のように N 個のデータ

でも同じ計算方法を使うことができます。

FM = (A1 + A2 + … , + An) / (B1 + B2 + …, +Bn) = Sum(An) / Sum(Bn)

3.2.5. 切除平均値

データの中に極端に大きな値や小さな値(「外れ値」 outlier とよばれま

す)があるとき、それが作用して平均値が代表値として役に立たないこと

があります。たとえば、 {1, 55, 5, 2, 4}のようなデータでは 55 があるため

に、全体の平均値が 13.4 になり、この平均値が大多数を占める {1, 2, 4, 5}

からは大きく外れた値になり、代表値として適していません。

そこで外れ値の影響を除くために中央値(後述)が使われます。そのた

めにデータを {1, 2, 4, 5, 55}のように大小順に並べ替え、その中央にある値

4 を選びます(データ数が偶数のときは中央にある 2 つの数の平均を使い

ます)。しかし、中央値には中央値以外のデータの大きさは考慮されてい

ません。たとえば、 {2, 3, 4, 6, 9}でも、 {2, 3, 4, 7, 12}でも、中央値は同じ

4 になります。この場合には中央値よりも平均値の方がデータの代表値と

して適しています。

このように平均値と中央値には一長一短があり、データの代表値として

どちらを採用するか迷うことがあります。そこで、平均値と中央値の 2 つ

の考え方を総合した「切除平均値」 (Trimmed Mean: TM)という数値が使わ

れています 15。切除平均値を計算するためには、はじめにデータの平均値

を計算し、次にデータから最大値と最小値を除いたデータの平均値を計算

し、さらにデータがあれば、同様にその最大値と最小値を除いたデータの

平均値を計算します。こうして、データがなくなるまで平均値を計算して、

集めた平均値の合計をその平均値の数で割ります。

実際の計算では、最大値と最小値を簡単に探すために、データを大小順

に並べ変えておくとよいでしょう。以下に先の例 {1, 55, 5, 2, 4}を使って具

体的にプロセスを示します。

15

芝・渡部・石塚編『統計用語辞典』 (新曜社 1984)では「切除平均値」は

「調整平均値」と訳されています。

Page 51: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

50

(1) (1 + 2 + 4 + 5 + 55) / 5 = 13.4

(2) (2 + 4 + 5) / 3 = 3.67

(3) (4) / 1 =4

(4) (13.4 + 3.67 + 4) / 3 = 7.02

次は、ほかのデータ例を使ってそれぞれの平均値、切除平均値、中央値

を比べた結果です。

D v1 v2 v3 v4 v5

D Mean Trim.ave. Median

d1 10 19 14 7 12

d1 12.400 12.133 12.000

d2 11 7 10 0 1

d2 5.800 6.267 7.000

d3 0 0 1 12 1

d3 2.800 1.489 1.000

d4 0 1 2 3 3

d4 1.800 1.933 2.000

切除平均値 (TM)の計算の過程で、最初は全体の平均値をとり、最後の平

均値は中央値になります。そして途中の平均値は外れ値である可能性があ

る最大値と最小値を徐々に取り除いて計算します。そうすると、外れ値は

切除平均値の計算に除外されませんが、考慮される回数が少なくなります。

逆に中央値に近い数値は考慮される回数が多くなります。

L = Int(𝑁+1

2)

TM = [∑1

𝑁−2𝑖 ∑ 𝑋(𝑗)𝑁−𝑖

𝑗=1+𝑖𝐿−1𝑖=0 ] / L

ここで、L は (N+1)/2 の整数部 (Int)、N はデータ数、X(j)はソートされた

データを示します。

下右表の「確率」は切除平均値の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 切除平均値: 確率

d1 10 19 14 7 12

d1 12.133: .347^

d2 11 7 10 0 1

d2 6.267: .653^

d3 0 0 1 12 1

d3 1.489: .004#

d4 0 1 2 3 3

d4 1.933: .802^

3.2.6. 大数平均値

データの外れ値の影響を少なくする方法として前出の「切除平均値」が

考案されました。しかし、切除平均値を計算する過程で各段階の平均を算

出する際、徐々にデータ数が減少しています。初めはデータ全体を含みま

すが、最後は中央値だけになり、それぞれの平均の母数が異なるので、中

央値(付近)のデータの影響度が非常に大きくなります。

Page 52: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

51

そこで、各段階で最小値と最大値をトリム(切除)するのではなく、デ

ータ数の半数以上が含まれるグループ(ソート済み)を左から徐々に切り

出しながら、各段階の平均値を求め、その和の平均を求めた「大数平均値」

(Majority Average: MjAv)という数値を考えてみましょう。以下に先の例 {1,

55, 5, 2, 4}をソートしたデータ {1 + 2 + 4 + 5 + 55}を使って具体的にプロセ

スを示します。データ数は 5 なので、過半数は 3 個になります。

(1) (1 + 2 + 4} / 3 = 2.33

(2) (2 + 4 + 5) / 3 = 3.67

(3) (4 + 5 +55) / 3 = 21.33

(4) (2.33 + 3.67 + 21.33) / 3 = 9.11

次が大数平均値 (MjAv)の算出式です。ここで、L は過半数の幅、M は最

後のデータセットの開始位置を示します。

L = Int(𝑁+1

2)

M = Int(𝑁+2

2)

MjAv = [∑ ∑ 𝑋(𝑗)𝑖+𝐿−1𝑗=𝑖

𝑀𝑖=1 ] / (L * M)

大数平均値の計算の仕方を次のように考えれることで、計算式がシンプ

ルになります 16。上の (1), (2), (3)のプロセスを見ると、 {1 + 2 + 4 + 5 + 55}

の成分が計算に使われる回数はそれぞれ 1, 2, 3, 2, 1 回になっていることが

わかります。そこで、{1, 2, 3, 2, 1}のような昇降番号のベクトル An を次の

ように用意し、それをデータ Xn に重みとして掛けて和を求め、それを An

の和で割ることによって、大数平均値 MjAv を求めます。

For i = 1 To N '昇降番号 (1,2,3,2,1)

An(i, 1) = IIf(i >= N / 2, N + 1 - i, i)

Next

MjAv = Sm(M(Xn, An)) / Sm(An) '大数平均値

次は、ほかのデータ例を使ってそれぞれの平均値を比べた結果です。大

数平均値でも中央値付近のデータは重視されますが、それでも過半数の広

がりの中で平均を求めているので、より「平均性」が高い、と言えるでし

ょう。

16

堀川遼太さんからいただいたアイデアです (2015)。ご本人の許可をいた

だき、お名前を載せて謝意を表します。

Page 53: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

52

D v1 v2 v3 v4 v5

Row Av TrAv MjAv

d1 10 19 14 7 12

d1 12.400 12.133 12.222

d2 11 7 10 0 1

d2 5.800 6.267 6.000

d3 0 0 1 12 1

d3 2.800 1.489 1.889

d4 0 1 2 3 3

d4 1.800 1.933 1.889

下右表の「確率」は大数平均値の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 大数平均値: 確率

d1 10 19 14 7 12

d1 12.22: .346^

d2 11 7 10 0 1

d2 6.00: .613^

d3 0 0 1 12 1

d3 1.89: .007#

d4 0 1 2 3 3

d4 1.89: .796^

3.2.7. 正規平均値

前出の大数平均値の計算ではデータの成分が計算に使われる回数をそれ

ぞれ昇降番号の 1, 2, 3, 2, 1 回にしました。このとき、中央値からの距離と

して考慮するのは、中央値からの成分数だけになっています。よって、た

とえば、{1, 2, 3, 2, 1}のような単純な昇降番号のベクトル An を用意し、そ

れをデータ Xn に重みとして載せました。たとえば次のデータの d2 の最大

値 (Mx) 11 と d3 の最大値 12 は数値としては近く、また、中央値からの距

離はどちらも最大なので昇降番号は同じ 1 になります。

ここで、次のように、データの最大値 (Mx)の正規分布確率 (NormDist)を

データの平均 (Av)と標準偏差 (Sd)を使って求めると 17、d2 の 11 のほうが d3

の 12 よりも確率が相当に高くなっていることがわかります (.046: .012)。ま

た、 d1 の最大値 (Mx=19)は数値は確かに大きいのですが、データの中で見

ると確率は d2 の最大値 (Mx=11)の確率よりも小さくなっています。最大の

確率は d4 の最大値 (Mx=3)が示しています (.201)。

X v1 v2 v3 v4 v5 横軸 Mx Av. Sd NormDist

d1 10 19 14 7 12

d1 19 12.400 4.030 .026

d2 11 7 10 0 1

d2 11 5.800 4.534 .046

d3 0 0 1 12 1

d3 12 2.800 4.622 .012

d4 0 1 2 3 3

d4 3 1.800 1.166 .201

下右表は、各行の平均と標準偏差を使って計算した全成分の正規確率を

示します。

17

エクセル関数:=NORMDIST(x, Av, Sd, 0)

Page 54: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

53

X v1 v2 v3 v4 v5

X v1 v2 v3 v4 v5

d1 10 19 14 7 12

d1 .083 .026 .091 .040 .099

d2 11 7 10 0 1

d2 .046 .085 .057 .039 .050

d3 0 0 1 12 1

d3 .072 .072 .080 .012 .080

d4 0 1 2 3 3

d4 .104 .270 .337 .201 .201

このようにして算出した正規確率を数値に掛けて算出した平均値を正

規平均値 (Normal average)として使うことを提案します。正規確率が一番大

きな値は平均値に近い成分に現れ、逆に、平均値から遠い値は、その距離

に応じて確率が低くなるので、正規平均値は直感的に納得できる値になり

ます。

X v1 v2 v3 v4 v5 横軸 平均値 切除平均値 大数平均値 正規平均値

d1 10 19 14 7 12

d1 12.40 12.13 12.22 11.99

d2 11 7 10 0 1

d2 5.80 6.27 6.00 6.21

d3 0 0 1 12 1

d3 2.80 1.49 1.89 .96

d4 0 1 2 3 3

d4 1.80 1.93 1.89 1.93

下右表の「確率」は正規数平均値の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 正規平均値: 確率

d1 10 19 14 7 12

d1 11.990: .320^

d2 11 7 10 0 1

d2 6.209: .639^

d3 0 0 1 12 1

d3 .960: .001#

d4 0 1 2 3 3

d4 1.932: .794^

3.3. 中央値

中央値 (median)はデータを昇順または降順に並べ替えて、その順位のち

ょうど中央にあるデータの値です。たとえば下の 2 列の成分 {8, 10, 4, 7, 9}

を昇順に並べ替えて {4, 7, 8, 9, 10}とし、その中央にある 3 つめの成分の値

8 が中央値です。データの個数が偶数のときは中央の 2 つのデータの平均

をとります。下右表の「確率」は中央値の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 中央値: 確率

d1 10 19 14 7 12

d1 12.000: .359^

d2 11 7 10 0 1

d2 7.000: .739^

d3 0 0 1 12 1

d3 1.000: .006#

d4 0 1 2 3 3

d4 2.000: .782^

Page 55: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

54

3.4. 最大値・最小値・中間値・範囲

データ行列の「最大値」(Maximum)、「最小値」(Minimum)、「範囲」(Range)、

「中間値」 (Mid)を、それぞれの相(行、列、全体)で計算します。範囲は

最大値から最小値を引いた値です。中間値は範囲 / 2 の値です。中間値は

「範囲中央」または「ミッドレンジ」 (Mid-Range)とよばれますが、ここで

は簡単に「中間値」 (Mid)とよぶことにします 18。

X v1 v2 v3 v4 v5

Horizontal Minumum Maximum Mid Range

d1 10 19 14 7 12

d1 7 19 13.0 12

d2 11 7 10 0 1

d2

11 5.5 11

d3 0 0 1 12 1

d3

12 6.0 12

d4 0 1 2 3 3

d4

3 1.5 3

3.5. 最頻値

データの中で最も多く現れる数値は「最頻値」 (Mode)とよばれます。

D v1 v2 v3 v4 v5 横軸 最頻値 最頻値:頻度

d1 10 19 14 7 12

d1 No mode No mode

d2 11 7 10 0 1

d2 No mode No mode

d3 0 0 1 12 1

d3 No mode No mode

d4 0 1 2 3 3

d4 3 3: 2

このデータの d1 と d2 はどれも異なる数値なので最頻値がありません。

d3 は 0 と 1 がそれぞれ 2 回ずつ現れているので、最頻値が決定できません。

d4 では、3 が 2 回現れているので、これが最頻値になります。

●大数最頻値

最頻値はそれぞれのデータが異なる数値を示しているときには役立ちま

せん。また、最頻値と 2, 3…番目に頻度が高い値が離れているときは、そ

の最頻値だけが「最頻性」を代表している、とは言えないでしょう。そこ

で数値が集中しているデータの探し方として、データの過半数ができるだ

け狭い範囲に集中しているデータセットの平均を、集中した数値として代

表させる方法を考えます。これを大数最頻値 (Majority Mode)とよぶことに

します。ここで、「最も多く存在する同一の値」という「最頻値」の概念

を「最も多く存在する、近い値のセットの中心」という概念に拡大します。

たとえば d1 = {10, 19, 14, 7, 12}をソートした {7, 10, 12, 14, 19}という行

18

乱数を使って偶然確率を算する際に乱数をデータの規模(範囲:最大値

-最小値)に合わせているため、最大値・最小値・範囲・中間値の確率を

適切に計算することができません。

Page 56: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

55

について、次のように個数 =5 の過半数 3 個で一番小さい数値範囲のセット

(下線)を探します。

1: {7, 10, 12, 14, 19} 範囲 : 12 – 7 = 5

2: {7, 10, 12, 14, 19} 範囲 : 14 – 10 = 4

3: {7, 10, 12, 14, 19} 範囲 : 19 – 12 = 7

ここで、2:の範囲 (14-10=4)が一番小さいので、このデータセットの {10, 12,

14}の平均 12 を大数最頻値とします。最小の範囲が複数あるときには、セ

ットの幅を 3→4→ 5 のように 1 つずつ増やして検索を続けます。極端な場

合として、 {3, 4, 5, 6, 7}のように均等に連続するデータセットでは、どの

ような幅のデータセットをとっても集約させることができません。そのと

きは最大の幅としてデータの大きさ (N=5)を使うことになり、この場合は平

均値と等しくなります。

D v1 v2 v3 v4 v5 横軸 大数最頻値 大数最頻値:範囲

d1 10 19 14 7 12

d1 12.000 10 - 14

d2 11 7 10 0 1

d2 9.333 7 - 11

d3 0 0 1 12 1

d3 .500 0 - 1

d4 0 1 2 3 3

d4 2.667 2 - 3

下右表の「確率」は大数最頻値の乱数累積確率を示します。

■言語データの L 字型分布

身長や学力など、「正規分布」とよばれる分布を示すデータの頻度とそ

の順位は下図(行:順位、列:頻度)のようになります。つまり、順位の

最下位と最上位の数は少なく、多数が平均値の近くに集まります。一方、

言語データ(文字、音韻、単語など)は、高順位のデータ(少数)の頻度

がきわめて高く、低順位のデータ(多数)の頻度がきわめて低い、という

特徴を示します。これは「L 字型分布」とよばれています。以下で示すよ

うに、正規分布を示すデータと L 字型分布を示すデータは扱い方が異なり

ます。

X v1 v2 v3 v4 v5 横軸 大数最頻値: 確率

d1 10 19 14 7 12 d1 12.000: .423^

d2 11 7 10 0 1 d2 9.333: .912^

d3 0 0 1 12 1 d3 .500: .004#

d4 0 1 2 3 3 d4 2.667: .958+

Page 57: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

56

3.6. 変動

データを説明するときは平均や中央値などのデータの中心を示す値だけ

でなく、同時にデータの変動も示すとよいでしょう。たとえば同じ平均気

温が 20 度の土地でも、1年を通してほとんど 10-30 度である土地と、それ

が 0-40 度の土地では気温のあり方は大きく異なります。このセクションで

は、そのような変動のあり方を示す数値を扱います。

3.6.1. 分散・標準偏差

2 つのデータ、 {D1: 4, 5, 6, 7, 8}と {D2: 2, 4, 6, 8, 10}の平均を比べてみま

しょう。どちらも平均は 6 で同じですが、データの散らばりが異なります。

散らばり具合を計るには、データの偏差(平均からの差)が必要になりま

す。そこで、 {D1: 4-6, 5-6, 6-6, 7-6, 8-6}と {D2: 2-6, 4-6, 6-6, 8-6 10-6}のよ

うにそれぞれ平均を引いて、偏差 {D1: -2, -1, 0, 1, 2}と {D2: -4, -2, 0, 2, 4}

を作ります。偏差を全部足すと、どちらも 0 になってしまうので、データ

の散らばり方を比較できません。そこで、それぞれのデータを {D1: (-2)2,

(-1)2, 0

2, 1

2, 2

2} y {D2: (-4)

2, (-2)

2, 0

2, 2

2, 4

2} のように 2 乗して , {D1: 4, 1, 0,

1, 4}と {D2: 16, 4, 0, 4, 16}とし、+, -の符号をすべて +にします。その総和

{D1: 4+1+0+1+4}と {D2: 16+4+0+4+16}が分散 (Variance: V)です。それぞれ、

V(D1) = 10, V(D2)=40 になります。分散の計算ではもとのデータを 2 乗し

ているため、データの規模よりも大きくなっています。そこで、その平方

根 を と っ て 、 も と の デ ー タ の 規 模 に 直 し た 数 値 が 標 準 偏 差 (Standard

Deviation: Sd)です。この例では SD(D1) = 101 /2

≒ 3.16, Sd(D2) = 401 /2

6.32 になります。

次は行の分散 (V)と標準偏差 (Sd)を導出する行列式です。

Sn 1 = Xnp Ip 1 ←横和列 (N:行数;P:列数 )

Mn 1 = Sn1 / P ←横平均列 (P:列数 )

Dn p = Xnp – Mn1 ←偏差行列

Cn p = Dnp2 ←偏差 2 乗行列

Wn 1 = Cnp Ip 1 ←偏差 2 乗和列

Page 58: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

57

Vn 1 = Wn1 / P ←分散列

SDn 1 = Vn 11 /2

←標準偏差列

行列関数で示すと

Vn 1 = D(X(E(S(Xn p , D(X(Xn p , Ip1), P)), 2), Ip1), P)

SDn 1 = E(Vn 1 , 1/2)

はじめに横平均 (M)を求め、データ行列 (X)から横平均(縦ベクトル M)

を引いて偏差行列 (D)を作ります 19。このようにして出来上がった行列 (D)

は、行列のそれぞれの要素が横平均からの偏差を示しています。この大き

さの平均を求めますが、偏差の和はゼロになってしまいますから、はじめ

に行列 (D)全体を 2 乗にします (C)。その和を求め (W)、列右数 (P)で割った

値が横分散列 (V)です。そして、横分散列の 2 乗根が横標準偏差列 (Sd)です。

Xnp v1 v2 v3 v4 v5

Ip1 1

Sn1 1

Mn1 1

d1 10 19 14 7 12

1 1

1 62

1 12.40

d2 11 7 10 0 1

2 1

2 29

2 5.80

d3 0 0 1 12 1

3 1

3 14

3 2.80

d4 0 1 2 3 3

4 1

4 9

4 1.80

5 1

Dnp 1 2 3 4 5

Cnp 1 2 3 4 5

1 -2.40 6.60 1.60 -5.40 -.40

1 5.76 43.56 2.56 29.16 .16

2 5.20 1.20 4.20 -5.80 -4.80

2 27.04 1.44 17.64 33.64 23.04

3 -2.80 -2.80 -1.80 9.20 -1.80

3 7.84 7.84 3.24 84.64 3.24

4 -1.80 -.80 .20 1.20 1.20

4 3.24 .64 .04 1.44 1.44

Wn1 1

Vn1 1

SDn1 1

1 81.20

1 16.24

1 4.03

2 102.80

2 20.56

2 4.53

3 106.80

3 21.36

3 4.62

4 6.80

4 1.36

4 1.17

同様にして、列分散行と列標準偏差行を求めましょう。

S1 p = I1 n Xnp ←縦和行 (N:行数;P:列数 )

M1 p = S1p / N ←縦平均行

Dn p = Xnp – M1p ←偏差行列

Cn p = Dnp2 ←偏差 2 乗行列

19

行列から縦ベクトルを引くという演算は一般の線形代数の本には定義

されていませんが、このテキストでは1章で定義してあります。

Page 59: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

58

W1 p = I1 n Cn p ←偏差 2 乗和列

V1 p = W1p / N ←縦分散行

SD1 p = V1 p1 /2

←縦標準偏差行

行列関数で示すと

Vn 1 = D(X(I1 n , E(S(Xn p , D(X(I1 n , Xn p), N)), 2)), N)

SD1 p = E(V1 p , 1/2)

I1n 1 2 3 4

Xnp v1 v2 v3 v4 v5

1 1 1 1 1

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

S1p 1 2 3 4 5

Dnp 1 2 3 4 5

1 21.00 27.00 27.00 22.00 17.00

1 4.75 12.25 7.25 1.50 7.75

2 5.75 .25 3.25 -5.50 -3.25

M1p 1 2 3 4 5

3 -5.25 -6.75 -5.75 6.50 -3.25

1 5.25 6.75 6.75 5.50 4.25

4 -5.25 -5.75 -4.75 -2.50 -1.25

Cnp 1 2 3 4 5

W1p 1 2 3 4 5

1 22.56 150.06 52.56 2.25 60.06

1 110.75 228.75 118.75 81.00 82.75

2 33.06 .06 10.56 30.25 10.56

3 27.56 45.56 33.06 42.25 10.56

V1p 1 2 3 4 5

4 27.56 33.06 22.56 6.25 1.56

1 27.69 57.19 29.69 20.25 20.69

SD1p 1 2 3 4 5

1 5.26 7.56 5.45 4.50 4.55

下右表の「確率」は分散・標準偏差の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 分散: 確率 標準偏差: 確率

d1 10 19 14 7 12

d1 16.240: .905^ 4.030: .905^

d2 11 7 10 0 1

d2 20.560: .997# 4.534: .997#

d3 0 0 1 12 1

d3 21.360: .987+ 4.622: .987+

d4 0 1 2 3 3

d4 1.360: .989+ 1.166: .989+

3.6.2. 限定分散と不等性・均等性

分散を [0, 1]の範囲に限定した値を限定分散 (Limited Variance: LV)とよぶ

Page 60: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

59

ことにします。限定分散 (LV)は分散 (Vr)をその理論的な最大値 (Vr.max)で割

ることで求めます 20。

LV = Vr / Vr.max

先に見たように分散 (Vr)は次のように定義されています (M:平均 ; N:個数 )。

Vr = [(X1 – M)2 + (X2 – M)

2 + … + (Xn – M)

2] / N

ここで、たとえば {10, 0, 0, 0, 0}というような 1 つだけに数値があるデー

タを考えましょう。このようなとき分散が最大値になります。一般化して

{K, 0, 0, …, 0}という N 個のデータを考えます。そうすると、上の式の分

子の第 1 項だけが (K – M)2 になり、残り N – 1 個の成分はどれも (0 – M)

2 =

M2 になります。よって分散の最大値 (Vr.max)は

Vr.max = [(K – M)2 + (N – 1)(0 - M)

2] / N

= [(K – M)2 + (N – 1) M

2] / N

このとき K 以外にデータがないので K が総和になります。よって

K = Sum(Dn) = N M ← 平均 *個数=総和

よって

Vr.max = [(K – M)2 + (N – 1) M

2] / N

= [(N M – M)2 +

(N – 1) M

2] / N

← K = N M

= [((N – 1) M)2 +

(N – 1) M

2] / N

← M を外へ

= [(N – 1)2 M

2 +

(N – 1) M

2] / N

← 共通の M2

= (N – 1) [(N – 1) +1] M2 / N

← M2

(N – 1)が共通

= (N – 1) N M2

/ N ← (N – 1) +1 = N

= (N – 1) M2 ← N / N = 1

よって、限定分散 (LV)は

LV = Vr / Vr.max = Vr / [(N – 1) M2]

■不等性

データ間の量的な差異が大きい状態を示す数値(範囲 [0, 1])を不等度

(Inequality)と呼びます。データ間の差異の程度を数量化するために、次の

ような 2 乗和の性質を使います。たとえば、次の x1 と x2 のそれぞれの成

分間の差異を求めるために、それぞれを 2 乗し、その和 (K=x1^2 + x2^2)を

20

このように、理論的な最大値で割る、という限定化の方法は以下でもし

ばしば使います。

Page 61: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

60

求めます。

X x1 x2 x1^2 x2^2 K=x1^2+x2^2 K.max K.min K.lim 不等度

d1 0 10 0 100 100 100 50 1.00 1.00

d2 1 9 1 81 82 100 50 0.64 0.80

d3 2 8 4 64 68 100 50 0.36 0.60

d4 3 7 9 49 58 100 50 0.16 0.40

d5 4 6 16 36 52 100 50 0.04 0.20

d6 5 5 25 25 50 100 50 0.00 0.00

d7 6 4 36 16 52 100 50 0.04 0.20

d8 7 3 49 9 58 100 50 0.16 0.40

d9 8 2 64 4 68 100 50 0.36 0.60

d10 9 1 81 1 82 100 50 0.64 0.80

d11 10 0 100 0 100 100 50 1.00 1.00

上表が示すように、 (0, 10)のように差が最大になるとき K は最大値 100

になり、 (5, 5)のように差がないとき K は最小値 25 になります。K の最大

値 (K.max)は比較する 2 成分の最大値 (=和 S)の 2 乗です (S2=10

2 = 100)。K

の最小値 (K.min)は比較する 2 成分の平均 (M)の 2 乗和 (M2+M

2=2M

2)になり

ます (52 + 5

2 = 50)。そこで、K が最大値と最小値の幅(範囲)の中で占め

る位置 (K.lim)を次のように計算します。

K.lim = (K - K.min) / (K.max - K.min)

ここで、データを最初に 2 乗しているので、次数をもとのデータにそろ

えるために K.lim の根をとった値が不等度 (I)です。以下の式では、データ

(x)を 2 個から N 個に拡張します (x(1), x(2), … x(N))。よって K はΣX(i)2 に、

K の最大値 K.max は S2 に、K の最小値 K.min は NM2 になります。

I = K.lim1 /2

= [(K - K.min) / (K.max - K.min)]1 /2

= [(ΣX(i)2 - N M

2) / (S

2 - N M

2)]

1 /

実はこの集合性係数を先に見た限定分散 (LV)から導くことができます。

LV = Vr / [(N – 1) M2]

= Σ (X(i) - M)2 / N / [(N – 1) M

2] ←分散 (Vr):Σ (X(i) - M)

2 / N

= Σ (X(i) - M)2 / (N (N – 1) M

2) ←分母を整理

= Σ (X(i)2 - 2 M X(i) + M

2) / (N (N – 1) M

2) ←分子を展開

= (ΣX(i)2 - 2 M ΣX(i) + N M

2) / (N (N – 1) M

2) ←分子Σを分配

= (ΣX(i)2 - 2 M N M + N M

2) / (N (N – 1) M

2) ←和=ΣX(i)=NM

= (ΣX(i)2 - N M

2) / (N (N – 1) M

2) ←分子を整理

= (ΣX(i)2 - N M

2) / (N

2 M

2 - N M

2) ←分母を展開

Page 62: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

61

= (ΣX(i)2 - N M

2) / (S

2 - N M

2) ←N M = S

よって不等度 (D)は、次のように限定分散 (LV)の根(限定標準偏差 Limited

Standard Deviation: LSD とよびます)になります。

D = (LV)1 /2

= [Vr / [(N – 1) M2]]

1 /2 = SD / [(N – 1)

1 /2 M] = LSD

X v1 v2 v3 v4 v5 横軸 限定分散:確率 不等度:確率

d1 10 19 14 7 12

d1 .026: .906^ .162: .906^

d2 11 7 10 0 1

d2 .153: .896^ .391: .896^

d3 0 0 1 12 1

d3 .681: 1.000# .825: 1.000#

d4 0 1 2 3 3

d4 .105: .739^ .324: .739^

不等度 (D)と変動係数 (CV)の違いは、不等度の分母に (N – 1)1 /2 を掛けてい

ることです。データ行列は一般に N が大きいので、それに応じて不等度は

小さくなります。そのような場合には不等度は個体間の得点の変動ではな

く、むしろ比較的少数の変数間の変動を見るときに使うべきです 21。

■均等度・語の使用度

A. Juilland and E. Chang Rodríguez. Frequency dictionary of Spanish words,

(The Hague: Mouton, 1964)は、5 つの分野(演劇、小説、随筆、科学技術文、

報道文)の言語資料で使われるスペイン語単語の頻度辞典を作成し、単語

の「使用度」 (Usage: U)を示す数値として次の式を提案しました。

U = F * D

ここで F は単語の頻度 (Frequency)を示し、D は分野間の拡散度 (Dispersion)

を示します。つまり、単語の使用度を見るためには頻度 (F)だけでなく、各

分野に均等に使用されている度合 (拡散度:D)も勘案すべきだという考え方

です。そして、次のような拡散度の式が提示されました。

D = 1 – 標準偏差 / (2 * 平均値 )

この分母にある 2 は (分野数 5 – 1)1 /2 のことだと思います。よって次のよ

うな関係になります。このテキストではこの拡散度を均等度 (Equality: E)

とします。

均等度 (E) = 1 – 不等度 (I)

X v1 v2 v3 v4 v5 横軸 均等度: 確率

d1 10 19 14 7 12

d1 .838: .094^

21

代替として後述の平均分離度・平均近接度が有効です。

Page 63: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

62

d2 11 7 10 0 1

d2 .609: .104^

d3 0 0 1 12 1

d3 .175: .000#

d4 0 1 2 3 3

d4 .676: .261^

■線状拡散度

データの性質を見るとき、その頻度と分散を調べることが重要です。集

計された頻度データの分散の計算法は先に扱いました。ここでは次のよう

に、連続して続く 1 つの文字データの頻度と拡散度を計算します。

N Lema

1 l_C

2 ¡_B

3 su_T

4 comida_S

5 ,_B

6 sin_P

7 aditivo_S

8 !_B

9 el_T

10 aditivo_S

11 desaconsejable_A

… …

同じデータが全体の中でどのように集中・拡散しているかを示す係数を

「線状拡散度」 (Linear dispersion: L.Disp.)とよび、次のように定義します。

L. Disp. = 1 – (Σ (d(i) – md)2 / n)

1 /2 / ((n – 1)

1 /2 * Σ (d(i) / n)

ここで、 d(i)は同じデータが繰り返されるときの、それぞれの間隔

(distance)です。md はその平均、n は個数を示します。たとえば上のデータ

の aditivo の 1 回目の位置と 2 回目の位置は 7 と 10 なので、その間隔は 3

になります。md は平均距離 (mean distance)を示し、次のようにして計算し

ます。たとえば 5 つの単語が次のように d(1), d(2), …, d(5)の間隔で出現し

たとします。

d(0) d(1) d(2) d(3)

x V V V y

一方、この単語がテキスト内で、完全に等間隔で並ぶと仮定したときの

間隔が md です。

md md md md

Page 64: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

63

x V V V y

d(1)と md の差を計算します。同様に d(2)と md の差を計算します。最初

の d(0)と最後の d(n)を加算し、それと md の差を計算します(V の全体が

左右に移動しても逸脱度に影響しないためです。その相対標準偏差は平均

分布からの全体の逸脱度 (0 .0~ 1.0)を示します。「線状拡散度」 (L.Disp)は

その逆数になるので、 1 からこの値を引きます。結果は次のように出力さ

れます。

Lemma Freq. F.Rank F.Permil L.Disp. L.D.Rank Usage U.Rank

l_C 1 1 .500 1.000 10 1.000 1

¡_B 1 1 .500 1.000 10 1.000 1

su_T 8 4 4.002 .647 7 5.176 4

comida_S 1 1 .500 1.000 10 1.000 1

,_B 250 10 125.063 .882 9 220.534 10

sin_P 2 2 1.001 .190 2 .380 1

aditivo_S 8 4 4.002 .313 4 2.505 2

!_B 1 1 .500 1.000 10 1.000 1

el_T 165 10 82.541 .817 9 134.849 10

desaconsejable_A 2 2 1.001 .389 4 .778 1

それぞれの単語の頻度数 (Freq.)、頻度数ランク (F.Rank)、線状拡散度

(L.Disp)、線状拡散度ランク (L.D.Rank)、使用度 (Usage)、使用度ランク

(U.Rank)が示されています。使用度は頻度と線状拡散度を掛け合わせた値

です。それぞれの値 (n)のランク (Rank: 1, 2, …, 10)は最大値 (m)が 10 となる

ように最大値で割って 10 を掛けた結果です。RndUp は小数点以下の繰り

上げをする関数です。これによってランクは 1 ~ 10 の範囲の整数になりま

す。なお、頻度の低い語の拡散度はあまり普通でありません。頻度が 1 の

語の拡散度は必ず 1 になります。

Rank = RndUp (Freq. / Max * 10)

3.6.3. 不偏分散・不偏標準偏差

標本分散 (Vr)と並べて不偏分散 (Unbiased Variance: Uv)が次のように定義

されています。

Vr = 1 / N Σ i (X i - M)2

Uv = 1 / (N - 1) Σ i (X i - M)2

ここで X は標本、M は標本の平均、N は標本数です。この不偏分散 (Uv)

の (N - 1)の理由は次のように説明されます。先に見たように標本分散 (Vr)

Page 65: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

64

の平均は

E(Vr) = [(N - 1) / N] v

この右辺を v(母集団の分散)にするために上式の両辺に N / (N - 1)を掛け

ます。

N / (N - 1) E[Vr] = N / (N - 1) [(N - 1) / N] v = v

左辺 = N / (N - 1) E[Vr]

= E{[N / (N - 1)] Vr} ←E(a X) = a E(X)

= E{[N / (N - 1)] 1 / N Σ i (X i - M)} ←Vr = 1 / N Σ i (X i - M)

= E[1 / (N - 1) Σ i (X i - M)] ←N の項を整理

= E(Uv) ←Uv = 1 / (N - 1) Σ i (X i - M)

よって、右辺 v = E(Uv)となるので、標本の不偏分散 (Uv)の平均 E(Uv)が

母集団の分散 (v)になります。このことから、母集団の分散の推定値として、

標本分散 (Vr)ではなく、不偏分散 (Uv)が使われます。不偏分散 (Uv)の根が

不偏標準偏差 (Unbiased standard deviation: Usd)です。

Uv = 1 / (N - 1) Σ i (X i - M)

Usd= Uv1 /2

= [1 / (N - 1) Σ i (X i - M)]1 /2

不偏分散 (Uv)と不偏標準偏差 (Usd)は標本データから母集団の分散と標準

偏差をそれぞれ推定するときに使われます。

下右表の「確率」は不偏分散・不偏標準偏差の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 不偏分散: 確率 不偏標準偏差: 確率

d1 10 19 14 7 12

d1 20.300: .905^ 4.506: .905^

d2 11 7 10 0 1

d2 25.700: .997# 5.070: .997#

d3 0 0 1 12 1

d3 26.700: .987+ 5.167: .987+

d4 0 1 2 3 3

d4 1.700: .989+ 1.304: .989+

*不偏分散の導出は小寺 (2002:117)を参照しました。

3.6.4. 標準誤差

先の「中心極限定理」で見たように、標本平均 (M)の分散 V(M)は N を多

くすると v / N に近似します (v:母集団の分散 )。このことは標本平均 (M)の

分散が、母集団の分散 (v)を推定するために役立つことを示します。ただし、

母集団の分散そのものでなく母集団の分散 (v)/標本数 (N)の推定値になり

ます。つまり、標本数 (N)を多くすれば、それに反比例して標本平均 (M)の

分散 V(M)が小さくなります。標本数 (N)が少なければ標本平均 (M)の分散は

Page 66: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

65

大きく、標本数 (N)が多くなれば標本平均の分散が小さくなることは直感で

も理解できます。

標本平均 (M)の分散の根は標準誤差 (Standard Error: SE)とよばれます。

SE = [V(M)]1 /2

= (v / N)1 /2

= Sd / N1 /2

標準偏差 (Sd)は、先に見たように、データそのものバラツキを示します

が、一方、標準誤差 (SE)は標本平均 (M)の分散の根ですから、標本平均の標

準化されたバラツキを示します。当然、標本平均の分散と同様に、標準誤

差 (SE)も標本数 (N)を多くすると、N1 /2 の割合で小さくなります。つまり、

平均値のバラツキが小さくなるので、「平均値のバラツキが小さくして平

均値の普通性を高めるには標本数(データ数)を多くしなければならない」

ということになります。たとえば、標本数 (N)=100 にすると標本平均 (M)

のバラツキは 1/10 になります。

下右表の「確率」は標準誤差の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 標準誤差: 確率

d1 10 19 14 7 12

d1 1.802: .905^

d2 11 7 10 0 1

d2 2.028: .997#

d3 0 0 1 12 1

d3 2.067: .987+

d4 0 1 2 3 3

d4 .522: .989+

3.6.5. 変動係数

標準偏差は個々のデータの規模(平均)が大きくなると、それに応じて

大きくなる性質があります。そこで、こうした規模の違いを超えて比較で

きるように標準偏差 (Sd)を平均 (M)で割った値が変動係数 (Coefficient of

Variation: CV)です 22。標準偏差 (Sd)も平均 (M)もデータの規模を反映してい

ますから、標準偏差 (Sd)を平均 (M)で割った変動係数 (CV)によってデータの

規模に左右されることなく、だいたいのばらつき具合がわかります。

CV = Sd / M

下右表の「確率」は変動係数の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 変動係数: 確率

d1 10 19 14 7 12

d1 .325: .906^

d2 11 7 10 0 1

d2 .782: .896^

d3 0 0 1 12 1

d3 1.651: 1.000#

d4 0 1 2 3 3

d4 .648: .739^

22

参照:芝他『統計用語辞典』(新曜社)

Page 67: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

66

3.6.6. 平均偏差

標準偏差のベースとなる偏差(データと平均値の差)が 2 乗されている

ために、それが大きくなると極端に標準偏差が増加します。下左図 (X)は、

データ (0, 1, 2, …, 10)の標準偏差 (StDev=3.16)の計算過程を示します。ここ

で、X=0 のときの偏差 2 乗 /N が平均から離れるにつれて、その増加率が次

第に大きくなっていくことがわかります(下左図)。

X (X-M)^2 (X-M)^2/N

Y |X-M| |X-M|/N

0 25 2.27

0 5 0.45

1 16 1.45

1 4 0.36

2 9 0.82

2 3 0.27

3 4 0.36

3 2 0.18

4 1 0.09

4 1 0.09

5 0 0.00

5 0 0.00

6 1 0.09

6 1 0.09

7 4 0.36

7 2 0.18

8 9 0.82

8 3 0.27

9 16 1.45

9 4 0.36

10 25 2.27

10 5 0.45

StDev 3.16

MeanDev 2.73

一方、上右表と下右図が示すように偏差の絶対値の平均からの増加率は

一定です。

そこで、データ全体の偏差を示す指標の 1 つとして、次の平均偏差 (Mean

Deviation: MD)とよばれる式を使われています (M:平均 ; N:個数 )23。

MD = [Σ |X(i) - M| ] / N

次に平均偏差 (MD)の最大値 (MD.max)を使って、限定平均偏差 (Limited

23

池田 (1976: 54-55).

.000

.500

1.000

1.500

2.000

2.500

0 1 2 3 4 5 6 7 8 9

10

.000

.100

.200

.300

.400

.500

0 1 2 3 4 5 6 7 8 9

10

Page 68: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

67

Mean Devistion: LMD)を設定します。平均偏差の最小値は (3, 3, 3, 3)のよう

にすべての成分が平均値と同じときに生じる 0 です。平均偏差の最大値

(MD.max)はデータセットの和 (S)が 1 つのデータに集まった (S, 0, 0, 0)のよ

うなデータセットのときに起こる平均偏差なので

MD.max = ( |S - M| + |0 - M| + |0 - M| + …) / N ←M:平均

= [S - M + (N-1) M] / N ←分子を整理

= (S - M + NM - M) / N ←分子を整理

= (NM - M + NM - M) / N ←NM = S

= 2M(N - 1) / N ←分子を整理

= 2M (1 - 1/N) ←分子を整理

よって、限定平均偏差 (Limited Mean Devistion: LMD)は

LMD = MD / MD.max

= [Σ |X(i) - M| / N] / [2M (1 - 1/N)]

= Σ |X(i) - M| / [2MN (1 - 1/N)]

X v1 v2 v3 v4 v5 横軸 平均偏差 限定平均偏差

d1 10 19 14 7 12

d1 4.880 .212

d2 11 7 10 0 1

d2 4.240 .457

d3 0 0 1 12 1

d3 3.680 .821

d4 0 1 2 3 3

d4 1.040 .361

■平均分離度・平均近接度

データの変動を示す係数の 1 つとして、全成分の平均からの分離の程度

を計算した平均分離度 (Separativity from Mean: SM)と、その補数平均分離度

(Proximity to Mean: PM)を考えます。はじめに分離度 (Separation: Sep)を次

のように定義します。

Sep(X, Y) = |X - Y| / Max(X, Y)

上式の X, Y は比較する 2 つの値、 |X - Y|は両者の差の絶対値、Max(X, Y)

は X と Y の最大値 (大きな方の値 )です。たとえば、(2, 5)の分離度は |2 - 5| /

max(2, 5) = 3/5 = .6 です。分離度の範囲は [0, 1]です 24。

はじめにデータセットの成分と平均値の分離度の平均 (SM.mean)を求め

ます (M:平均;N:個数 )。

SM.mean = ΣSep[X(i), M] / N

24

X, Y を非負値 (0 または正値 )とします。分離度の最小値 0 は X=Y のとき

で、最大値 0 は X または Y が 0 のときです。X=Y=0 のときは、両者が分

離していないので、その分離度を 0 とします。

Page 69: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

68

たとえば (5, 4, 3, 0)の SM.mean は

SM.mean(5, 4, 3, 0) = (|5 -3 |/5 + |4-3 |/4 + |3-3 |/3 + |0-3 |/3) / 4

= (.4 + .25 + 0 + 1) / 4 = 1.65 / 4 = .41

この SM.mean は、 (5, 5, 5, 5)のようにすべての成分が等しいとき、それ

ぞれの成分は平均値 (5)と等しいので、最小値 0 になります。SM.mean の最

大値 (SM.mean.max)は (5, 0, 0, 0)のように 1 つの成分だけが正値の場合です。

このとき、その正値は和 (S)と同じになるので、 (S, 0, 0, …)という分布の分

離性係数 (SM)の最大値 (SM.mean.max)は

SM.mean.max = [ |S - M| / max(S, M) + (N-1) |0 - M| / max(0, M)] / N

= [(S - M) / S + (N-1) M / M] / N ←S > M; M > 0

= [S/S - M/S + (N - 1)] / N ←分子を整理

= [1 - M/(NM) + N - 1] / N ←S=NM

= [N - 1/N] / N = 1 - 1 / N2 ←分子を整理:分母を整理

平均分離度 (SM)は

SM = SM.mean / SM.mean.max

= {Σ (i=1,N) Sep[X(i), M]} / N / (1 - 1 / N2)

平均近接度 (PM)は

PM = 1 - SM

X v1 v2 v3 v4 v5 横軸 不等度 均等度 平均分離度 平均近接度

d1 10 19 14 7 12

d1 .1625 .8375 .2339 .7661

d2 11 7 10 0 1

d2 .3909 .6091 .6024 .3976

d3 0 0 1 12 1

d3 .8253 .1747 .8442 .1558

d4 0 1 2 3 3

d4 .3239 .6761 .4884 .5116

上のデータの不等度と平均分離度の大小関係はどちらも d1 < d4 < d2 <

d4 で同じです。

次の D2 は D1 を 4 回繰り返したものです。

d1: 10, 19, 14, 7, 12

d5: 10, 19, 14, 7, 12, 10, 19, 14, 7, 12, 10, 19, 14, 7, 12, 10, 19, 14, 7, 12

それぞれのデータの不等度・均等度・平均分離度・平均近接度は次のよ

うになります。

横軸 不等度 均等度 平均分離度 平均近接度

d1 .162 .838 .234 .766

Page 70: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

69

d5 .075 .925 .225 .775

この実験が示すように、不等度・均等度はデータ数が多くなるときの下

降率・上昇率が平均分離度・平均近接度より高くなりますが、逆に、平均

分離度・平均近接度はデータ数にあまり大きく影響されません。その理由

は、平均分離度・平均近接度の計算で、平均との偏差の平均がベースにな

っているためです。これはデータ成分全体の偏差の平均なのでデータ数に

影響されません。そして、 [0, 1]の範囲にするために最大値 SM.mean.max =

1 - 1 / N2 で割りますが、これはほとんど 1 に近く、しかも N が大きくなる

にしたがって非常に速く 1 に近似します。そこでデータ数が多いときには

多様性係数でデータの変動を見る方がよいでしょう。

3.6.7. ジニ係数

経済学や社会学で論じられる所得の不平等を示す指数として「ジニ係数」

(Gini coefficient: G)が使われます(範囲 : [0, 1])。不平等性を示すジニ係数

(G)は偏差の指標になるので、 1 - G は平等性、つまり一種の拡散度を示し

ます。その計算の仕方をデータ {2, 5, 1, 1, 1}(倉田・星野 2009:59)で説明

します。

はじめにこのデータを昇順にソートして、 {X: 1, 1, 1, 2, 5}とします。次

に、それぞれの値を累加して、 {X': 1, 2, 3, 5, 10}とします。X'のそれぞれ

の成分は、その成分以下の成分全体の和になります。

X X'

1 1

1 1 + 1 = 2

1 1 + 1 + 1 = 3

2 1 + 1 + 1 + 2 = 5

5 1 + 1 + 1 + 2 + 5 = 10

このような不平等な分布に対して、完全に平等な分布は {E: 2, 2, 2, 2, 2}

で、その累加データは {E': 2, 4, 6, 8, 10}になります。これを X'と E'をグラ

フにすると次のようになります。

Page 71: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

70

ジニ係数は不平等な X'が完全に平等な E'からどの程度離れているかを示

す数値です。そこで上の E'と X'の 2 つの線に囲まれた範囲の面積 (P)を求め

ます。その最小値は X'の線が E'の線と一致した場合で、そのときの面積は

ゼロです。その比較値を上のグラフの下三角形の面積 (T)とします。上三角

形でも同じです。ジニ係数 (G)は

[1] G = P / T

T は総和 (S=10)を使って求めます。

[2] T = N S / 2

Q の面積は

Q = Q1 + Q2 + Q3 + Q4+Q5

= 1 (0 + 1) / 2 + 1 (1 + 2) / 2 + 1 (2 + 3) / 2 + 1 (3 + 5) / 2 + 1 (5 + 10) / 2

上の式はそれぞれの台形の面積の総和 (Q)を示します。それぞれの台形の

上辺(左側の縦の長さ)と下辺(右側の縦の長さ)の和に高さ (=1)を掛け、

それを 2 で割ります。一般化するために最初の三角形 (Q1)も台形と見なし

てその上辺をゼロ (0)にします。最後の三角形 (Q5)の下辺も同じです。それ

ぞれの高さは 1 です。

よって

[3] Q = ∑ (𝑥′𝑖−1 + 𝑥′

𝑖)𝑁𝑖=1 / 2

= 2 ∑ 𝑥′𝑖

𝑁𝑖=1 / 2 ← x'0 = 0, x'N = 0

= ∑ 𝑥′𝑖

𝑁𝑖=1

よって、ジニ係数 (G)は

Page 72: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

71

G = P / T ←先の式 [1]

= ∑ 𝑥′𝑖

𝑁𝑖=1 / (N S / 2) ←先の式 [2], [3]

= 2 ∑ 𝑥′𝑖

𝑁𝑖=1 / (N S) ←分母を整理

次は x, y, z というデータ例で、これまでの変動を示す値とジニ係数を比

較した表です。

Gini x y z

値 x y z

1 2 2 3

標準偏差 1.549 .632 1.265

2 5 2 3

変動係数 .775 .316 .632

3 1 3 3

限定標準偏差 .387 .158 .316

4 1 2 1

拡散度 .613 .842 .684

5 1 1 0

ジニ係数 .360 .160 .320

先述のように、限定標準偏差や拡散度は N が大きくなると減少しますが、

ジニ係数は N の増加による影響を受けません。次は同じデータを繰り返し

た場合ですが、ジニ係数は変化していません。これは注目すべき特徴です。

Gini x y z

値 x y z

1 2 2 3

標準偏差 1.549 .632 1.265

2 5 2 3

変動係数 .775 .316 .632

3 1 3 3

限定標準偏差 .178 .073 .145

4 1 2 1

拡散度 .822 .927 .855

5 1 1 0

ジニ係数 .360 .160 .320

6 2 2 3

7 5 2 3

8 1 3 3

9 1 2 1

10 1 1 0

11 2 2 3

12 5 2 3

13 1 3 3

14 1 2 1

15 1 1 0

16 2 2 3

17 5 2 3

18 1 3 3

19 1 2 1

20 1 1 0

*ジニ係数については倉田・星野 (2009:51-60)を参照しました。

Page 73: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

72

プログラム

Function Gini(Xn) 'ジニ係数

Dim i&, N&, Yn, C#, S#

N = NR(Xn): S = Sm(Xn) 'データ数:和

Yn = SortR(Xn, 1, Bt) '昇順ソート

For i = 1 To N

C = C + Yn(i, 1) '累加量

Yn(i, 1) = S * i / N - C '右辺量

Next

Gini = Z(Sm(Yn) * 2, N * S) 'Yn の和 /(N*S)

End Function

●限定ジニ係数

ジニ係数 (G)の最大値は {0, 0, 0, 0, 10}のように 1 つだけに数値がある極

端ななケースになりますが、このとき 1 にはなりません。そこで、ジニ係

数の最大値 G.max を次のようにして求め、それを使って、ジニ係数を限定

化します。

G.max = 2 ∑ 𝑥′𝑖

𝑁𝑖=1 / (N S) ←分母を整理

ここで分母の N はデータの個数、S はデータの和を示します。分子のΣ x'

は上の例 {0, 0, 0, 0, 10}では、2+ 4+ 6+ 8+ 0=20 になります。また、別の例

{0, 0, 0, 0, 4}ならば、0.8+1.6+2.4+3.2+0 =8 です。一般化すると、{0, 0, 0, 0,

S}のデータのΣ x'は

Σ x' = S/N ∑ 𝑖𝑁−1𝑖=1

よって、限定ジニ係数 (Limited Gini: R.Gini)は

R.Gini = G / G.max

= [2 ∑ 𝑥′𝑖

𝑁𝑖=1 / (N S)] / [2 S/N ∑ 𝑖𝑁−1

𝑖=1 / (N S)]

= ∑ 𝑥′𝑖

𝑁𝑖=1 / ∑ 𝑖𝑁−1

𝑖=1

下右表の「確率」はジニ係数と限定ジニ係数の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 ジニ係数: 確率 限定ジニ係数: 確率

d1 10 19 14 7 12

d1 .181: .939^ .226: .939^

d2 11 7 10 0 1

d2 .428: .907^ .534: .907^

d3 0 0 1 12 1

d3 .714: 1.000# .893: 1.000#

d4 0 1 2 3 3

d4 .356: .748^ .444: .748^

Page 74: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

73

3.6.8. エントロピー

多くの成分の値が平均の近くに集まっているようなデータは「平均値に

近くなる確実性が高い」と考えられ、逆に、特定の場所に大きな値が分布

しているようなデータは「ばらばらに分布して平均値に近くなる確実性が

低い」と考えられます。このように確実性の観点から確率を見るならば、

たとえば、 {7, 7, 7, 7, 7}の平均は 7 であり、すべてのデータは平均と同じ

なので、それが平均に近い確実性が最大になります。

データのそれぞれの成分の頻度 (x)を和 (S)で割った値を、その成分の確率

(p)とし、全部の確率の平均を次の式で求めます(→「確率」)。この値は

エントロピー (Entropy: E)とよばれます。

E = -Σ p i log2 p i

ここでシグマ (Σ )の前にマイナス (-)がつくのは、確率 p が 1 より小さいた

め、その対数 (log)が-になるためです。そこで、-をつけて正の値としま

す。対数の底を 2 とするのは、情報の量を 0, 1 のような 2 値からの選択の

数を数える、という約束にしてあるためです。

下右行の第 1 列 (E)がデータ X のエントロピーを示します。

X v1 v2 v3 v4 v5 横軸 エントロピー: 確率 限定エントロピー: 確率

d1 10 19 14 7 12

d1 2.246: .094^ .033: .906^

d2 11 7 10 0 1

d2 1.723: .047+ .258: .953+

d3 0 0 1 12 1

d3 .735: .000# .684: 1.000#

d4 0 1 2 3 3

d4 1.891: .153^ .186: .847^

上の d3 のように大きく偏りがあるデータのエントロピー (E)は小さくな

り、d1 のような標準偏差が小さなデータでは、逆にエントロピー (E)は大

きくなります。しかし、エントロピーの数値が限定化されていないので、

その値だけでは、どのように評価すればよいのか判断が困難になります。

また、限定標準偏差や限定ジニ係数のように、[0, 1]の範囲にはならないの

で、比較しにくいと言えるでしょう。

そこで、エントロピーの最大値 E.max を求め、それを使って限定エント

ロピー (Limited Entropy: LE)を考えます。

エントロピーの最大値 E.max は、先に見たように、 {7, 7, 7, 7, 7}のよう

にすべての値が同じときに現れます。その成分の確率は、すべて 1/N です

から(たとえば {1/5, 1/5, 1/5, 1/5, 1/5})、エントロピーの最大値 E.max は

E.max = -Σ i 1/N log2 (1/N)

= − 1/N Σ i log2 (1/N) ← 1/N は i をもたない

= − 1/N Σ i (log2 1 − log2 N) ← log a/b = log a - log b

= − 1/N Σ i − log2 N ← log2 1 = 0 ←20 = 1

Page 75: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

74

= −1/N N (-log2 N) ← log2 N は i をもたない

= log2 N

よって、エントロピーの最大値 E.max はデータの値そのものには関わり

がなく、データ数 N だけに依存します。

限定エントロピー (LE)は

LE = E / E.max

= -Σp i log2 p i / log2 N

この限定エントロピーを、限定標準偏差や限定ジニ係数と同じ大小関係

にするために、上の式を 1 から引いて逆転させます。

LE' = 1 - (-Σ p i log2 p i / log2 N)

= 1 + Σp i log2 p i / log2 N

3.6.9. 最小値最大値比

データの変動を示す指標として最小値 (Min)と最大値 (Max)の平等性・格

差を考えます。最小値と最大値の差を示す指標は範囲(最大値-最小値)

ですが、最小値と最大値の比も重要な指標になります。両者の比として、

最小値/最大値と最大値/最小値が考えられますが、後者は最小値がゼロ

のときに計算ができなくなるので前者をとります。よって最小値最大値比

(Min-Max Ratio: M.M.R.)は

M.M.R. = Min / Max

最小値最大値比 (M.M.R.)の最小値 (0)は Min=0 のときで、最小値最

大値比 (M.M.R.)の最大値 (1)は Min=Max のときに生じます。よって、最小

値最大値比 (M.M.R.)を「平等性」 (equality)を示す指標とします。

一方、最小値最大値比 (M.M.R.)の 1 に対する補数 (1-M.M.R.)は「格差」

(gap)を示します。これは次のように範囲最大値比 (Range Max Ratio: R.M.R.)

になります。

R.M.R. = 1 - Min / Max = (Max - Min) / Max = Range / Max

X v1 v2 v3 v4 v5 横軸 最小値最大値比 範囲最大値比

d1 10 19 14 7 12 d1 .368 .632

d2 11 7 10 0 1 d2 .000 1.000

d3 0 0 1 12 1 d3 .000 1.000

d4 0 1 2 3 3 d4 .000 1.000

最小値最大値比と範囲最大値比は、最小値と最大値だけを使用するので、

Page 76: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

75

異常値の影響を強く受けます。

3.7. 推移

平均、中央値、最頻値などのデータの中心を示す指数と、分散や標準偏

差などの変動を示す指数が同じでも、データの成分の並び方(推移)が異

なると、データの意味が変わります。ここでは、どのような推移のあり方

と、それを数量化する方法を考えます。

3.7.1. 振動性

データの並びの上下動の様子を、振動性指数 (Index of Oscillation: I.O.)と

よぶ値によって数量化します。ここでは上昇距離 (Ascending distance: A)と

下降距離 (Descending distance: D)を使います。たとえば、データ {d1: 10, 19,

14, 7, 12}の上昇距離 (A)は A(10→ 19) = 9, A(7→ 12) = 5 で、合わせて

A=9+5=14 となり、下降値距離は D(19→ 14) = 5, D(14→ 7) = 7 で合わせて

D=5+7=12 になります。

振動指数 (Index of Oscillation: I.O.)を次のように定義します。

I.O. = (A – D) / (A + D)

よって

I.O.(d1) = (14 – 12) / (14 + 12) = .077

X v1 v2 v3 v4 v5 横軸 振動指数:Np

d1 10 19 14 7 12

d1 .077: .582^

d2 11 7 10 0 1

d2 -.556: .065^

d3 0 0 1 12 1

d3 .043: .546^

d4 0 1 2 3 3

d4 1.000: .997#

Page 77: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

76

3.7.2. 単峰性

分布の単峰性 (Unimodality)とは、山型の分布が 1 つだけの頂点をもつこ

とを示します。しかし、多少の凸凹があって完全に単峰でなくても、一定

の単峰性は存在すると考えます。そこで、振動指数の計算を分布の頂点ま

での範囲と頂点を超えた範囲に分けて、山型の分布に沿う隣接値の間隔の

和 (P)と、逆向きの隣接値の間隔の和 (N)を計算し、P と N を使って単峰性

指数 (Index of Unimodality): I.U.)を次のように定義します。

I.U. = (P - N) / (P + N)

たとえば、データ {d1: 10, 19, 14, 7, 12}では、頂点 (=19)に向けて 1 回上

昇し (+P: 19-10=9)、頂点を超えてから 2 回下降し (+P: 19-14=5, 14-7=7)、最

後に 1 回上昇しています (+N: 12-7=5)。このように、頂点を中心にした山型

に沿う行程の距離の和を P 値とし、それに沿っていない距離の和が N 値と

します。よって d1 の単峰性指数 I.U.(d1)は

I.U.(d1) = (P - N) / (P + N) = (9+5+7-5)/(9+5+7+5) = 16/26 = .615

始点と終点が同じデータならば、途中の上下運動が異なっても、全体の

上昇距離と下降距離は同じになるので、単峰性指数は同じになるのではな

いか、という疑問が生じるかもしれません。たしかに単峰性指数の分子は

変わりませんが分母は変化します。たとえば {x1: 0, 3, 5, 2, 0}と {x2: 0, 3, 5,

2, 4, 0}を比べると、P(x1) = 3 + 2 + 3 + 2 = 10, N(x2) = 0, P(x2) = 3 + 2 + 3 +

4 = 12, N(x2) = 2 となり、それぞれの単峰性指数は I.U.(x1) = (10 - 0) / (10 +

0) = 1, I.U.(x2) = (12 - 2) / (12 + 2) = 10 / 14 = .714 になります。

X v1 v2 v3 v4 v5 横軸 単峰性指数:Np

d1 10 19 14 7 12

d1 .615: .596^

d2 11 7 10 0 1

d2 .556: .516^

d3 0 0 1 12 1

d3 1.000: .938^

d4 0 1 2 3 3

d4 1.000: .938^

Page 78: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

77

■中世スペイン語の前置詞 pora と para

現代スペイン語の前置詞 para (意味は英語 for)は中世スペイン語 pora (<

por + a) に由来します。年代が確定している公証文書で両者の推移を見る

と次のような分布が示されました。

Cro

n.

12

20

12

40

12

60

12

80

13

00

13

20

13

40

13

60

13

80

14

00

14

20

14

40

14

60

14

80

単峰性

para

.00

.05

.08

.06

.44

.00

.16

.00

.00

.41

1.5

8

.48

.19

1.4

9

.3

04

po

ra

2.6

6

5.9

4

2.3

9

.97

.38

.00

.00

.00

.00

.00

.08

.00

.00

.00

.9

83

上の表と図を見ると、先行する pora が 13 世紀中葉に優勢であり、その

後 para が少しずつ出現し、 15 世紀にピークに達したことがわかります。

pora の使用が 13 世紀に突出していたため単峰性が .983 に達しています。

一方、後続する para の比較的低い単峰性 (.304)は、その使用に揺れがあっ

たことを示してます。

3.7.3. 正規性

年代順に並べた言語現象の頻度などは、しばしば次の図の青線のような

単峰性(頂上が 1 つ)で、最初と最後の頻度が少なく、平均を示す中央で

頻度が最大になる傾向があります。これは、言語変化がはじめは少ない頻

度で始まり、それが優勢になると一挙に高頻度に達し、衰退すると急激に

下降して、最後は小数だけが残り、それもやがて消滅する、という一種の

流行のような推移をたどるためです。

.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

12

20

12

40

12

60

12

80

13

00

13

20

13

40

13

60

13

80

14

00

14

20

14

40

14

60

14

80

#pora#

#para#

Page 79: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

78

この上昇・加工の傾向は、典型的には、確率で見た正規分布に近似しま

すが、もちろん完全に一致することはありません。そこで、傾向としてど

の程度まで正規分布(上図の赤線)に似ているかを示す指標があれば便利

です。そのために、次のような実験をして、実測値と正規分布の密度関数

との間の相関係数(→後述)を正規性指数 (Index of Normality: I.Norm)とし

て使うことにします。

I.Norm = Cor(Xn, Sn)

ここで、Cor は 2 つのベクトル間の相関係数を返す関数、Xn は実測値ベ

クトル、Sn は正規分布密度関数ベクトルです。

プログラムでは、実測値の成分の最大値がある位置を求め、この位置 (M)

から左右を見て長い方を幅 (W)とします。この最大値位置 (M)と幅 (W)を使

って、標準測度 (S)の最大値が 4 になるように計算し、それぞれの標準測度

から Excel 関数 NormDist を使って正規分布の密度を求め、これをベクトル

Sn に代入します。ベクトル Sn は次の表の SS にあたります。

N=10 D SS Nm

1 1 -3.200 0.002

2 5 -2.400 0.022

3 8 -1.600 0.111

4 9 -0.800 0.290

5 22 0.000 0.399

6 12 0.800 0.290

7 7 1.600 0.111

8 5 2.400 0.022

9 5 3.200 0.002

10 3 4.000 0.000

0.000

0.050

0.100

0.150

0.200

0.250

0.300

0.350

0.400

0.450

0

5

10

15

20

25

1 2 3 4 5 6 7 8 9 10

D2

NmDisAc

Page 80: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

79

ここでデータ (D)の最大値 (=22)の位置は 5 になり、これは中央値の位置

5.5 よりやや下にあるため、より長い幅は下側の [6, 10]になります。その最

大位置 (=10)の標準得点を 4.000 とします。上の表でわかるように、この標

準得点に対応する正規分布確率密度はゼロに近似します。正規性指数

(I.Norm)の計算は、データ (D)と正規分布確率密度 (Nm)の相関係数を使いま

す。ここでは .909 になりました。正規性指数が .8 を超えると実測値の分布

が正規分布に近似しているように思われますが、これは目安にすぎません。

■中世スペイン語の語頭の ff-

次は中世スペイン語公証文書に見られる語頭の ff-の頻度(千語率)です。

DN ffazer ffijo ffasta

値 ffazer ffijo ffasta

1250 0.38 0.97 0.05 正規性指数 .8671 .8737 .3777

1275 1.44 0.95 0.66

1300 1.91 1.93 0.64

1325 2.72 1.77 0.59

1350 1.10 0.88 0.44

1375 0.29 0.17 0.37

1400 0.03 0.03

このように、 ff-は 13 世紀中頃から 14 世紀にかけて頻出していますが、

その分布は次のグラフを見てわかるように、ラテン語起源の ffazer 「する」,

ffijo「息子」で正規性が高くなっています (FACERE > ffazer; FILIU > ff ijo)。

それぞれの正規性指数は .8671, .8737 でした。一方、アラビア語起源の ffasta

「~まで」の正規性はあまり高くなく (=.3777)、頻度も比較的少ないようで

した。

次の表が示すように、これらの語頭 ff-の語は語頭 f-の語と共存し、 f-の

0.00

0.50

1.00

1.50

2.00

2.50

3.00

1200 1250 1300 1350 1400 1450

ffazer

ffijo

ffasta

Page 81: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

80

語は連綿と長い期間使用されていました 25。そして、この伝統的な f-の語

形の正規性はあまり高くありませんでした (.7060, .7083, .5423)。

DN fazer fijo fasta

値 fazer fijo fasta

1200 0.28 0.06 正規性指数 .7060 .7083 .5423

1225 0.99 2.30 0.56

1250 2.55 2.07 0.69

1275 1.81 1.63 0.47

1300 0.95 1.51 0.53

1325 0.15

1350 1.43 0.22 0.11

1375 2.03 1.24 1.70

1400 3.08 1.22 1.26

1425 2.64 0.41 0.49

1450 2.14 0.61 1.11

1475 1.59 0.58 1.08

1500 1.06 0.27 0.35

1525 0.13

0.13

1550 0.04

0.07

1575

0.05

1600

0.07

1625 0.09

このように中世の一時期に生起し消滅した ff-の語形の原因として、当時

[f-] > [h-] > [ゼロ ]というスペイン語特有の音韻変化を意識した過剰訂正

25

やがて、語頭の f-も消えて、16 世紀に語頭が h-となって現代スペイン語

の形 hacer, hijo, hasta が成立しました。

0.00

0.50

1.00

1.50

2.00

2.50

3.00

3.50

1200 1300 1400 1500 1600

fazer

fijo

fasta

Page 82: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

81

(hypercorrection)であった、という説がありますが、私は、語頭子音の連続

が他にもあり (ss-. rr-. l l-)、とくに下図のように当時の「長い s, ss」 (ſ, ſſ)

と似ているため、それらによる類推作用が働いたのではないかと思います。

ff-はスペイン語に限らず、先の音韻変化が起きていない地域にも表れてい

ますが、それは過剰訂正説では説明できません。

(1) ff (2) f (3) ſſ (4) ſ

3.7.4. 連続性

一定の数値が続く程度を数量化するために、次のようにして連続性指数

(Continuity)を設定します。次のデータを例にすると、はじめに、データの

数値を結ぶ折れ線と最小値で囲まれる面積 (A)を計算します。左端の数値と

最大値、右端の数値を求め、データ全体が最大値であったときの面積 (T)

を計算します (Continuity=.325)。

N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

D 29 22 3 48 21 35 33 76 27 26 36 17 52 20 5 9 8 4

次のグラフで示すように

T = A + B

よって、連続性指数 (Continuity)は

Continuity = A / (A + B) = A / T

Page 83: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

82

■中世・近代スペイン語の完全形と省略形

次は、中世スペイン語の説話集『ルカノール伯爵』(ドン・フアン・マ

ヌエル作 1330, 写本は 15 世紀)の中で頻繁に使われた語 q<ui>ere「彼は

望む」と p<ar>a「~のために」の省略形です。

このような省略形の使用は、次のグラフが示すように、16 世紀以降は少

なくなり、現代スペイン語では一部の略語を除けば使用されていません。

スペイン語の写本や印刷本の歴史を見るためにサンプリングした資料で、

それぞれの連続性指数を計算すると、完全形 (Forma plena)が .629、省略形

(Forma abreviada)が .278 という数値を示しました。省略形は主に中世と近

代初期に限られていたため、定常性指数は低くなります。

3.7.5. 平滑性

言語現象の歴史的変化や地理的変異の中に、それらが示す数値の増大と

減少が平滑に続くことを観察することがあります。ここで扱う平滑性指数

(Index of Smoothness: IS)は、データの並びの連続性を [0, 1]の範囲で示す指

数です。

N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

D 29 22 3 48 21 35 33 76 27 26 36 17 52 20 5 9 8 4

例として上のデータを使います。次の図の青の線がその推移を示します。

このデータから平滑性が最も高い線を作るとすれば、7 つの凸部 {29, 48, 76,

52, 9, 8, 4}を結んだ線であると考えます。よって、そのような分布であれ

ばデータの推移が完全に平滑している、とみなします。このような線を「平

滑線」とよびます。平滑線を結ぶ点(平滑点:下図の赤丸印)を次のよう

に決めます。両端 (=29, 4)と最大値 (=76)を平滑点とします。最大値 (=76)の

0

500

1000

1500

2000

2500

3000

3500400045005000

13

a.C

id1

3b

.Faz

ien

da

13

c.A

lcal

á1

3d

.GE

14

a.A

lexa

nd

re1

4b

.Tro

yan

a1

4c.

LBA

14

d.L

uca

no

r1

5a.

Alb

a1

5b

.Esp

ecu

lo1

5c.

Gra

mát

ica

15

d.C

ele

stin

a1

6a.

Sum

ario

16

b.D

iálo

go1

6c.

Laza

rillo

16

d.C

asad

a1

7a.

D.Q

uijo

te1

7b

.Bu

scó

n1

7c.

Cri

ticó

n1

7d

.In

stan

te1

8a.

Au

stri

a1

8b

.Au

tori

dad

es1

8c.

Pic

arill

o1

8d

.Del

incu

en

te1

9a.

Ort

ogr

afía

19

b.D

iab

lo1

9c.

Som

bre

ro1

9d

.Pe

rfe

cta

Forma plena

Forma abreviada

Page 84: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

83

左側の平滑点は、左から右に推移する過程で、左の平滑点の値以上をもつ

点を平滑点とします。下図の場合は 4 番目のデータ (=48)が平滑点になりま

す。最大値の左側領域では、これが唯一の平滑点です。最大値の右側領域

の平滑点は右端から左に推移しながら平滑点を探します。該当する位置の

データが、その位置の右の平滑点以上であれば、その位置のデータが平滑

点とします。下図のデータでは、右から順に {4, 8, 9, 52, 76}が平滑点にな

ります。この平滑線とデータの最小値の線で囲まれた領域の面積を平滑面

(T)とします。次の図で

T = A + B

しかし、このデータの実際の線(「観測線」)では、横軸が {2, 3, 5, 6, 7, ...}

の位置で数値が下がり、平滑性を損なっています。そこで上図の A の面積

が全体の面積 (平滑面:T = A+B)の中で占める割合を平滑性指数 (IC)としま

す。よって、平滑性指数 (IS)は

IS = A / T = A / (A + B)

平滑性指数 (IS)の最大値 (= 1)は B=0 のとき、つまりデータの位置がすべ

て平滑点となっているときに生じます。一方、最小値 (= 0)は、A=0 のとき、

つまりデータがないときです。このときは必然的に B=0 となるので、 IC =

0 / 0 となり計算不能となります。プログラムでは分子も分母もゼロの場合

の分数をゼロで返し、それ以外の場合に分数の計算の結果を返すようにし

ます。

■中世・近代スペイン語の que / qui / qua

資料( 13c-19c までの 28 の文書・文学作品)を見ると、中世スペイン語

(13-14 世紀 )では q の後の母音字は省略されることが多かったのですが、中

世から近代の移行期 (15-16 世紀 )に略形が減少しはじめ、 18 世紀になると

Page 85: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

84

完全形にほぼ統一されたことがわかります。

それぞれの語形の平滑性を数量化します。

横軸 平滑性指数 (IC):Np

q<.+> .711: .836^

q.+ .888: .821^

どちらもかなり高い平滑性を示しています。それぞれの語形が歴史的な

流れの中で、一部の小さな例外を除けば、自然な推移を辿ってきたことが

わかります。文字が省略されるのは、従来、書く労力と紙・羊皮紙を節約

するためであったと説明されてきましたが、省略文字の種類は限られ(音

節末の<n>, q の後の母音、子音の後の<母音+r>または<r+母音>)、単語に

ついては nuestro, vuestro, tiempo, tierra など特定のものに限られていまし

た。また、上で <q>+母音のケースで見たように、その出現には歴史的に平

滑性があります。したがって、書き手たちは、労力と資源の節約のために

自由に省略形を使っていたのではなく、時代の推移の中で社会的な規範に

従っていた、と考えられます。

3.7.6. 定常性

次のような連続するデータ (D)の変化の度合いを知るために、限定化した

データ(LS・範囲:[0, 1])の隣接する値の差の 2 乗和の平均の根を計算し、

これを定常性指数 (Constancy)とします(範囲: [0, 1])。

Constancy = {Σ [D(i) - (Di + 1)]2 / (N - 1)}

1 /2

具体的には

{[(.356- 260)2 + (.260 - 0)2 +... + (068 - .014)2] / (18 - 1)}1 /2 = .658

0.0

20.0

40.0

60.0

80.0

100.0

120.0

13

a.C

id

13

b.F

azie

nd

a

13

c.A

lcal

á

13

d.G

E

14

a.A

lexa

nd

re

14

c.Tr

oya

na

14

d.L

BA

15

a.Lu

can

or

15

b.E

spe

culo

15

c.G

ram

átic

a

15

d.C

ele

stin

a

16

a.Su

mar

io

16

b.D

iálo

go

16

c.La

zari

llo

16

d.C

asad

a

17

a.D

.Qu

ijote

17

b.B

usc

ón

17

c.C

riti

cón

17

d.I

nst

ante

18

a.A

ust

ria

18

b.A

uto

rid

ades

18

c.P

icar

illo

18

d.D

elin

cue

nte

19

a.O

rto

graf

ía

19

b.D

iab

lo

19

c.So

mb

rero

19

d.P

erf

ect

a

%q<.+>%

%q.+%

Page 86: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

85

N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

D 29 22 3 48 21 35 33 76 27 26 36 17 52 20 5 9 8 4

SSc 1 2 3 (…) 17 18

LS .356 260 0 (…) .068 .014

X v1 v2 v3 v4 v5 横軸 定常性:P/N

d1 10 19 14 7 12 d1 .441: .537^

d2 11 7 10 0 1 d2 .490: .686^

d3 0 0 1 12 1 d3 .350: .230^

d4 0 1 2 3 3 d4 .711: .995#

3.8. 均衡

3.8.1. 歪度

平均値を中心にして、データの左右の偏(かたよ)りを計る指標として、

「歪度」(わいど)(Skewness: Sk)が使われます(芝・渡部・石塚 1984: 282)。

歪度を算出するために、初めにデータを「標準得点」 (Standard score)に変

換しなければなりません(後述→「標準得点」)。標準得点はそれぞれの

数値から平均を引き、標準偏差で割った値です。歪度は標準得点の 3 乗和

をデータ数 (N)で割った値です 26。

Sk = Σ i [(X i – M) / Sd]3 / N

Sk = Sum{E[(Dn – Me(Dn)) / Sd(Dn), 3]} / Ctn(Dn))

ここで、関数 Sum(Xn p)は行列 Xn p の成分の総和を返し、関数 E(Xn p, Y)は

行列 Xnp の成分をそれぞれ Y 乗にした行列を返し、Me(Dn), Sd(Dn), Ctn(Dn)

は、それぞれ Dn の成分の平均、標準偏差、個数を返します。

データの標準測度は平均よりも大きければプラスになり、小さければマ

イナスになるので、その 3 乗もプラスとマイナスの符号は変わりません。

たとえば、 (-2)3 = -8. 標準測度をそのまま使わずにそれを 3 乗にする理由

は、標準測度の分子が偏差(データ値 – 平均)なので、そのまま総和を

出すと、どのようなデータでもゼロになってしまうからです。

次は横軸の平均値と歪度を示す表です。たとえば、d3 の平均値は 2.8 な

ので、分布は v4:12 により、かなり右に傾いています。そこで、歪度は正

の 1.465 になっています。一方、 d4 の平均値は 1.8 であり、それを超える

2 と 3 との偏差はそれぞれ 0.2, 1.2, 一方、平均値以下の 0, 1 との偏差は、

それぞれ 1.8, 0.8 なので、0 に向かう左方向にデータが広がっていることが

26

歪度については他の定義もあります。

Page 87: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

86

わかります。そこで歪度はマイナス値になっています。 下右表の「確率」

は分散の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 平均値: 確率 歪度: 確率

d1 10 19 14 7 12

d1 12.400: .360^ .367: .732^

d2 11 7 10 0 1

d2 5.800: .577^ -.192: .380^

d3 0 0 1 12 1

d3 2.800: .018+ 1.465: .999#

d4 0 1 2 3 3

d4 1.800: .767^ -.363: .268^

●限定歪度

歪度 (Sk)は限定化されていないので同一の基準による評価が困難です。

これを限定化するために、その最大値 (Sk.max)を求めます。「限定歪度」

(Limited Skewness: LSk)を次のように定義します。

LSk = Sk / Sk.max

次に、歪度の最大値 (Sk.max)を、先の標準偏差 (Sd)の最大値 (Sd.max)と同

じようにして求めます。K は {K, 0, 0, 0, 0}のような唯一分布の唯一値です。

このとき SS は最大になります。

Sk.max = {([(K - M)3 + (N - 1)(0 - M)

3] / SD

3} / N

= [(N M - M)3 + (-M)

3 (N - 1)] / (N SD

3)

←K = N M

= [(M (N - 1))3 + (-M)

3 (N - 1)] / (N SD

3)

←M を外へ

= [(M (N - 1))3 + (-1)

3 M

3 (N - 1)] / (N SD

3)

← (-M)3 = (-1)

3 M

3

= [(M (N - 1))3 - M

3 (N - 1)] / (N SD

3)

← (-1)3 = 1

= [M3

(N - 1)3 - M

3 (N - 1)] / (N SD

3)

←共通の M3

= M3

(N - 1) [(N - 1)2 - 1] / (N SD

3) ←M

3 (N - 1)が共通

= M3

(N - 1) (N2 - 2N + 1 - 1] / (N SD

3)

← (N - 1)2 を展開

= (M3

(N - 1) N2 - 2N / (N SD

3)

← 1 - 1 = 0

= (M3

(N - 1) N (N - 2) / (N SD3)

←N を外へ

= (M3

(N - 1) (N - 2) / SD3 ←N / N = 1

先に見たように(→「限定標準偏差」)、 {K, 0, 0, 0, 0}のような唯一分布

のときの SD は

Sd.max = M (N - 1)1 /2

よって

Sk.max = M3

(N - 1) (N - 2) / (M (N - 1)1 /2

)3 ←Sd.max を代入

= M3

(N - 1) (N - 2) / M3 (N - 1)

3 /2

←分母の乗数 3 を配分

Page 88: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

87

= (N – 2) / (N - 1)1 /2 ←分子と分母の M

3 (N - 1)が共通

よって、限定歪度 (LSk)は

LSk = Sk / Sk.max = Sk * (N - 1)1 /2

/ (N – 2) ←分母を整理

次は歪度と限定歪度を比較した表です。歪度は標準偏差を使うため、限

定化された値に近くなりますが、限定歪度は範囲が [-1 ~ 1]になり、データ

の偏り方を [-1 ~ 1]の範囲で評価することができるようになりました。

X v1 v2 v3 v4 v5 横軸 歪度: 確率 限定歪度: 確率

d1 10 19 14 7 12

d1 .367: .732^ .245: .732^

d2 11 7 10 0 1

d2 -.192: .380^ -.128: .380^

d3 0 0 1 12 1

d3 1.465: .999# .977: .999#

d4 0 1 2 3 3

d4 -.363: .268^ -.242: .268^

●平衡指数

中央値からの偏差がプラスになる総量 (Positive: P)とマイナスになる総

量 (Negative: N)を計算し、P と N の両側相対値 27を平衡指数 (Index of Balance:

IB)とします。

IB = (P - N) / (P + N)

たとえば、 d1 行は中央値は 12 なので、P と N は

P= |19 – 12| + |14 - 12| = 7 + 2 = 9

N = |10 – 12| + |7 – 12| = 2 + 5 = 7

IB = (9 - 7) / (9 + 7) = .125

X 中央値 中央値正値 中央値負値 平衡指数 歪度

d1 12 9 7 .125 .367

d2 7 7 13 -.300 -.192

d3 1 11 2 .692 1.465

d4 2 2 3 -.200 -.363

歪度は平均値からの全体的な乖離の方向を示しますが、平衡度数は中央

値からの正と負のデータの平衡性(バランス)を示しています。

次は、乱数実験によって得られた平衡指数の平均と分散を示す表です。

Ib:N Ib:M Ib:V

10 0.0025 0.0872

27

後述 (3.1)のように、 (X-Y)/(X+Y)の値を X と Y の「両側相対値」とよび

ます。

Page 89: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

88

20 0.0010 0.0531

30 -0.0017 0.0377

40 -0.0019 0.0299

50 -0.0015 0.0243

60 0.0005 0.0204

70 -0.0015 0.0179

80 -0.0005 0.0161

90 -0.0004 0.0142

100 -0.0001 0.0131

平均 Ib:M は 0 に近似し、分散 Iv:V の近似式は次の累乗式になりました。

Iv:V= 0.6326 / N ^ 0.837

下右表の「確率」は平衡指数の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 平衡指数: 確率

d1 10 19 14 7 12

d1 .125: .587^

d2 11 7 10 0 1

d2 -.300: .282^

d3 0 0 1 12 1

d3 .692: .927^

d4 0 1 2 3 3

d4 -.200: .353^

3.8.2. 尖度

データの分布が平均値に集中してとがった度合いを示す指標として、次

のように定義される「尖度」(せんど:Kurtosis: Ku)が使われます 28。

Ku = Σ i [(X i – M) / Sd]4 / N

ここで、M はデータの平均、SD はその標準偏差、N は個数を示します。

尖度の式を見ると、標準化されたデータ (X i – M) / SD の 4 乗の平均である

ことがわかります。よって、データで平均からの標準化された逸脱が 1 以

下ならば、尖度はさらに小さく、それが 1 以上ならば、尖度はさらに大き

くなりますから、尖度によって逸脱の程度が強調されます。

●限定尖度

限定尖度 (Limited kurtosis: Rku)を次のように定義します。

Rku = Ku / Ku.max

次に、尖度の最大値 (Ku.max)は、{K, 0, 0, 0, 0, 10}のような唯一分布の値

28

ほかの定義もありますが、ここでは芝他 (1984: 145)に従います。

Page 90: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

89

です。このとき Ku は最大になります。

Ku.max = {([(K - M)4 + (N - 1)(0 - M)

4] / Sd

4} / N

= [(N M - M)4 + M

4 (N - 1)] / (N Sd

4)

←K = N M

= [(M (N - 1))4 + M

4 (N - 1)] / (N Sd

4)

←M を外へ

= [M4

(N - 1)4 + M

4 (N - 1)] / (N Sd

4)

←共通の M4

= M4

(N - 1) [(N - 1)3 + 1] / (N Sd

4) ←M

4 (N - 1)が共通

= M4

(N - 1) (N3 – 3N

2 + 3N - 1 + 1] / (N Sd

4)

← (N - 1)3 を展開

= M4

(N - 1) (N3 – 3N

2 + 3N) / (N Sd

4)

← 1 - 1 = 0

= M4

(N - 1) N (N2 – 3N + 3) / (N Sd

4)

←N を外へ

= M4

(N - 1) (N2 – 3N + 3) / Sd

4 ←N が共通

先に見たように(→「限定標準偏差」)、 {K, 0, 0, 0, 0}のような唯一分布

のときの Sd は

Sd.max = M (N - 1)1 /2

よって

Ku.max = M4

(N - 1) (N2 – 3N + 3) / (M (N - 1)

1 /2)

4 ←上式

= M4

(N - 1) (N2 – 3N + 3) / [M

4 (N - 1)

2]

←M4

(N - 1)

= (N2 – 3N + 3) / (N - 1)

←分母と分子の共通部分を除去

よって、「限定尖度」 (Rku)は

Rku = Ku / Ku.max = Ku * (N – 1) / (N^2 – 3N + 3) ←分母を整理

下右表の「確率」は尖度と限定尖度の乱数累積確率を示します。

X v1 v2 v3 v4 v5 横軸 尖度: 確率 限定尖度: 確率

d1 10 19 14 7 12

d1 2.114: .673^ .650: .673^

d2 11 7 10 0 1

d2 1.281: .097^ .394: .097^

d3 0 0 1 12 1

d3 3.203: .998# .986: .998#

d4 0 1 2 3 3

d4 1.628: .381^ .501: .381^

●分散・歪度・尖度

分散 (Vr)、歪度 (Sk)、尖度 (Kr)はそれぞれ分布の「ひろがり」、「ゆがみ」、

「とがり」を示します。どの式にも (X i – M)]E/N (E=2, 3, 4)が含まれていま

す 29。

29

芝・南風原 (1990:34-35)を参照。

Page 91: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

90

Vr = Σ i [(X i – M)]2 / N

Sk = Σ i [(X i – M) / Sd]3 / N

Ku = Σ i [(X i – M) / Sd]4 / N

上の M はデータの平均、N はデータ数、SD はデータの標準偏差です。

これらデータの分布の様子を示す 3 つの指標について、実際の計算過程を

くらべてみましょう。次の X はデータ、D は平均からの偏差 (X-M)を示し

ます。

X v1 v2 v3 v4 v5 M Sd

D v1 v2 v3 v4 v5 M

d1 10 19 14 7 12 12.40 4.03

d1 -2.40 6.60 1.60 -5.40 -.40 .00

d2 11 7 10 0 1 5.80 4.53

d2 5.20 1.20 4.20 -5.80 -4.80 .00

d3 0 0 1 12 1 2.80 4.62

d3 -2.80 -2.80 -1.80 9.20 -1.80 .00

d4 0 1 2 3 3 1.80 1.17

d4 -1.80 -.80 .20 1.20 1.20 .00

次の S は標準得点 ((X-M)/Sd)を示し、S2 は標準得点の 2 乗です。

S v1 v2 v3 v4 v5 M

S2 v1 v2 v3 v4 v5 M

d1 -.60 1.64 .40 -1.34 -.10 .00

d1 .35 2.68 .16 1.80 .01 1.00

d2 1.15 .26 .93 -1.28 -1.06 .00

d2 1.32 .07 .86 1.64 1.12 1.00

d3 -.61 -.61 -.39 1.99 -.39 .00

d3 .37 .37 .15 3.96 .15 1.00

d4 -1.54 -.69 .17 1.03 1.03 .00

d4 2.38 .47 .03 1.06 1.06 1.00

上の表を見ると、標準得点 (S)の平均 (M)はすべてゼロ (0)になっています。

この理由は標準得点の分子が偏差なので、先の表 (D)で見たように、和・平

均が 0 になるためです。また、標準得点の 2 乗 (S2)の平均はすべて 1 にな

ります。この理由は、 S2 の平均の分子も分母も分散 (Vr)になるためです。

Σ i [(Xi – M) / Sd]2 / N = Σ i (Xi – M)

2 / N SD

2 = Vr / Vr = 1

これらのことから、標準得点やその 2 乗の平均が分布の指標として役に

立たないことがわかります。それでは標準得点の 3 乗 (S3)や標準得点の 4

乗 (S4)の平均はどうでしょうか。

S3 v1 v2 v3 v4 v5 M:Sk

S

4 v1 v2 v3 v4 v5 M:Ku

d1 -.21 4.39 .06 -2.41 .00 .37

d1 .13 7.19 .02 3.22 .00 2.11

d2 1.51 .02 .79 -2.09 -1.19 -.19

d2 1.73 .00 .74 2.68 1.26 1.28

d3 -.22 -.22 -.06 7.89 -.06 1.47

d3 .13 .13 .02 15.70 .02 3.20

d4 -3.68 -.32 .01 1.09 1.09 -.36

d4 5.68 .22 .00 1.12 1.12 1.63

それぞれ異なる数値を示します。S3 の平均が歪度 (Sk)、S

4 の平均が尖度

(Ku)です。分布の「ひろがり」を示す分散 (Vr)と、「とがり」を示す尖度

(Ku) を 比 べ る と 数 値 も 大 小 関 係 も 異 な る こ と が わ か り ま す (Ku:

Page 92: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

91

d2<d4<d1<d3; Vr: d4<d1<d2<d3)。 .

D v1 v2 v3 v4 v5

D2 v1 v2 v3 v4 v5 M:Vr

d1 -2.40 6.60 1.60 -5.40 -.40

d1 5.76 43.56 2.56 29.16 0.16 16.24

d2 5.20 1.20 4.20 -5.80 -4.80

d2 27.04 1.44 17.64 33.64 23.04 20.56

d3 -2.80 -2.80 -1.80 9.20 -1.80

d3 7.84 7.84 3.24 84.64 3.24 21.36

d4 -1.80 -.80 .20 1.20 1.20

d4 3.24 0.64 0.04 1.44 1.44 1.36

3.9. 区別

3.9.1. 弁別度

たとえばある言語の古文献に <i>と<j>という文字が用いられ、どちら

も同じ条件で /i/という音韻を示していたとします。それぞれの頻度 (F)が

F(i)=32 と F(j)=2 の間のように大きな差があれば、ほとんどのケースで<j>

が使われたことになるので、その弁別する力は強かったと判断できます。

一方、それが 32 と 28 のように僅差であれば、<i> ~ <j>はほとんど「自由

変異」(free variation)であった、つまり両者は弁別されていなかったと考え

られます。そこで、「弁別度」 (Distinctive Grade: DG)を次のように定義し

ます。

DG(i, j) = [F(i) – F(j)] / F(i)

ここで F(i)は<i>の頻度を示し、 F(j)は<j>の頻度を示します。 F(i)と F(j)

が等しいと弁別度はゼロになり、F(j)がゼロになると i の弁別度は 1 になり

ます。

この弁別度はバリアントが 2 つの場合について計算しました。さらに

<i>,<j>だけでなく<y>が現れる文献では、次のように計算します。

DG(i : j, y) = {F(i) – [F(j) + F(y)] } / F(i)

一般に Fn = F(1, 2, …, n)の中の F(1)の弁別度 DG(1)は

DG(1) = {F(1) – [F(2) + F(3) + … F(n)] } / F(1)

= {F(1) – [Sum(Fn) – F(1)] } / F(1)

= [2 F(1) – Sum(Fn)] / F(1)

= 2 – Sum(Fn) / F(1)

F(1)を F(1, 2, …, n)の最大値 (Max(Fn))とすれば

DG(Max(Fn)) = 2 – Sum(Fn) / Max(Fn)

となります。この弁別度は、成分の最大値 F(1) = Max(Fn)が他の成分の和

Page 93: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

92

( [F(2) + F(3) + … F(n)])よりも小さいとマイナスになり、その理論的最小値

が一定になりません。

3.9.2. 対立度

先の弁別度の分母を次のように対称型にして、新たに「対立度」(Oppositive

Grade: OG)を設定します。

OG(i, j) = [F(i) – F(j)] / [F(i) + F(j)]

= [F(i) – F(j)] / Sum(Fn)

一般に F(1, 2, …, n)の中の F(1)の対立度 (Og(1))は

OG(1) = {F(1) – [F(2) + F(3) + … F(n)] } / {F(1) + [F(2) + F(3) + … F(n)] }

= {F(1) – [Sum(Fn) – F(1)] } / Sum(Fn)

= [2 F(1) – Sum(Fn)] / Sum(Fn)

= 2 F(1) / Sum(Fn) – 1

F(1)を F(1, 2, …, n)の最大値 Max(Fn)とすれば

OG(Max(Fn)) = 2 Max(Fn) / Sum(Fn) – 1

となります。

成分の最大値が他の成分の和よりも大きいときには弁別度を使用し、そ

うでないときは対立度を使用するとよいでしょう 30。

■15 - 17 世紀のスペイン語の<u>と<v>

従来の研究では 15, 16, 17 世紀のスペインで発刊された書籍では<u>と

<v>が弁別せずに使われていた、と説明されています。次は 15-17 世紀に

スペインで発刊された 6 冊の本(冒頭から 2 万字に限る)について、文字

u と v の頻度と弁別度を計算したものです。

全体 1.Nb 2.Rj 3.Lz 4.Cv 5.Qv 6.Gc Total

<u> 949 820 1.040 1250 1051 849 5959

<v> 165 139 191 194 209 402 1300

弁別度 0.826 0.830 0.816 0.845 0.801 0.527 0.782

このように全体を見るとたしかに比較的弁別度が低いことがわかります。

ところが、文字の現れる位置について、それぞれの弁別度を計算してみる

30

N が大きいと対立度もマイナスになるのが普通です。弁別度も対立度も

N が [2, 4]ぐらいの範囲のデータで利用すべきです。

Page 94: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

93

と、次のようになりました 31。

位置 1.Nb 2.Rj 3.Lz 4.Cv 5.Qv 6.Gc Total

#_V 0.974 1.000 0.942 1.000 1.000 1.000 0.996

#_C 1.000 1.000 0.985 1.000 1.000 1.000 0.896

V_V 0.625 1.000 1.000 1.000 1.000 0.939 0.757

V_C 0.971 0.429 0.917 1.000 1.000 0.978 0.929

C_V 0.967 1.000 0.998 1.000 0.998 0.901 0.980

C_C 0.995 1.000 1.000 1.000 0.996 0.997 0.998

たしかに、複数の本を取り上げれば全体的に <u>-<v>の弁別がないよう

に見えます。しかし、それぞれの本の中では、下線のような弁別度が低い

本もありますが、それを除けば文字の位置によって比較的統一されていた

ことがわかります。一般にデータの分布にさまざまな要因が隠れているに

もかかわらず、それを見ないで全体的な把握をすると、弁別や対立の真の

姿を見失うことがあります。

31

ここでは最大値を示すバリアントの弁別値を計算したので、すべてプラ

スの値になりました。v が使われるほうがふつうの位置では、u の弁別値が

マイナスになります。

Page 95: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

94

4. 関係

データ行列の変数間の関係を各種の相関係数行列や連関係数行列を使っ

て示します。そして、データ行列の個体間の関係を各種の距離行列を使っ

て測ります。また、一般に行列の成分は連続変数や 1-0 という二値変数(ま

たは「 v」など1文字の表示)になりますが、言語データ分析に欠かせない

文字行列を分析する方法も試みます。

4.1. 相関

4.1.1. 相関係数

次のデータはスペイン語の T-1 (Madrid)と T-2(Sevilla)に関して主要な前

置詞の頻度を集計したものです。

前置詞 T-1 Madrid T-2 Sevilla

a 151 163

con 38 45

de 202 195

en 105 81

por 54 45

この 2 つの文は前置詞の観点からみると、どの程度連関しているのでし

ょうか。本節ではこのような 2 つのデータの連関の強度を計算する方法を

見ていきます。はじめに 2 つのデータの関係性を捉えるために散布図にし

て視覚化してみましょう。

一見したところ、T-1 と T-2 は比例関係があるようです。T-1 の数値が

上昇すると、それに合わせて T-2 の数値が上昇しているからです。この 2

つのテキストの連関の強度を数値化するためには、前章で見た「縦標準得

Page 96: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

95

点」(Standardized Score.vartical: SSv)が使われます。これは次のようにして

計算されます。

M1 p = (I1 p Xn p) / N ←縦平均行

SD1 p = [I1 p (Xn p – M1 p)2 / N]

1 /2 ←縦標準偏差行

SS = (Xn p – M1p) / SD1 p ←縦標準得点行列

次の表が縦標準得点行列です。この行列の縦平均が 0、縦標準偏差が 1

になります。

SSv T-1 Madrid T-2 Sevilla

a .674 .922

con -1.184 -.980

de 1.513 1.438

en -.082 -.400

por -.921 -.980

この標準得点に変換したデータで、もう一度散布図を作成すると次のよ

うになります。

このように行の原点(ゼロの位置)を文 1 の平均までずらし、列の原点

を文 2 の平均までずらした散布図になります。この図を見れば、すべての

データがすべて A と C の領域に入っていることがはっきりと分かります。

A と C の領域は、T-1 軸の値と T-2 の軸の値の標準得点を掛け合わせると、

その 2 つとも正(+)、または 2 つとも負(-)であるので、その積は正

になります。一方、B と D の領域は 2 つの正負が異なるため積は負となる

ことがわかります。

よって、Xの標準得点とYの標準得点を掛けた値の総和を求めればXと

Yの連関する度合いが数値化できます。共に正(+)、または共に負(-)

であれば、それらの積は正になりますから、この積の数が多ければ多いほ

ど相関が強くなります。そしてすべてのデータが図中の斜線に近づけば相

Page 97: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

96

関の程度はますます高くなり、全部が斜めの線に完全に一致すれば相関は

最大になります。

逆に、B と D の領域にあるデータは正の相関を減少させます。それが多

くなればなるほど相関の程度は弱まります。それらのデータは X と Y の値

の積が負になるからです。もし、負ばかりのデータであれば、逆の相関が

強くなります 32。また、A, B, C, D に平均して分布しているとXとYの間

には相関関係がない、と考えられるでしょう。

このような積の合計(積和)はデータの量に左右されます。つまり、デ

ータ量が多くなればなるほど値はどんどん大きくなり、スケールが一定に

なりません。そこで、積和を全体の個数 (N)で割って積和の平均を出したも

のが「相関係数」(Coefficient of Correlation: CC)です。相関係数の求め方を

一般化した公式に変えましょう。

CC = Σ i [(Xi – Mx)/SDx]*[(Yi – My)/SDy] / N ←定義

Σ i (Xi – Mx)(Yi – My) / (N SDx SDy) ←SDx, SDy を外へ

CC = SSxn 1T SSyn 1 / N ←行列式 SS:標準得点

SScT a con de en por X SSc 2 Sevilla / 5

1 Madrid .674 -1.184 1.513 -.082 -.921

a .922

con -.980

de 1.438

en -.400

por -.980

次が、その計算の過程と結果です 33。

CC =

[(.674*.922)+(-1.184*-.980)+(1.513*1.438)+(-.082*-.400)+ (-.921*-.980) / 5

= .979

●相関係数の範囲

相関係数の範囲は [-1 ~ 1]です。その理由を簡単に説明します。 2 つの標準

得点が次の図の斜線のように 1 直線に並んだときが、最大の相関係数を示

します。この値は、一方の値 Xn 1 に一定の値 a を掛け、一定の値 b を足し

たような Yn 1 との間の相関係数となります。

32

中心の点 (0, 0)に近い位置のデータは、相関にあまり影響しません。逆に

中心から離れた位置のデータは相関に強く影響します。 33

ここでは例として、データ数が 5 つだけで計算しています。実際には、

後述するように、このような少数のデータの分布は偶然による可能性が高

いので相関係数を出す意味がありません。

Page 98: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

97

Yn 1 = a Xn1 + b

先の「標準得点の性質」で見たように、データに一定の一定の値 a を掛

け、一定の値 b を足したデータの標準得点は、もとのデータの標準得点と

同じ値になります。そこで、両者の相関係数は、Xn 1 と Xn1 の間の相関係数

と同じです。これは「自己相関」とよばれます。自己相関 CC(X, X)は

CC(X, X) = SSvn 1T SSvn 1 / N ←相関係数の定義

= [(Xn 1 – M) / Sd]T [(Xn 1 – M) / Sd] / N ←標準得点の定義

= {Σ [(Xi – M) / Sd]2} / N ←2 乗和

= {Σ [(Xi – M)2 / SD

2] / N ←乗数を分配

= {Σ [(Xi – M)2 / V] / N ←分散 (V) = SD

2

= Σ [(Xi – M)2 / N / V ←V を外へ

= V / V = 1 ←分散 (V)の定義

先の「標準得点の性質」で見たように、 a が -a のときは標準得点にすべ

て -1 がつくので

CC(X, -X) = SSxn 1T (-SSvx1) / N = - 1

これは上の図の斜線の傾き (a)が右下がりになることを示し、このような

関係は「逆相関」と呼ばれます。よって、相関係数 (CC)の最小値は -1 にな

ります。相関係数の範囲は -1 ≦ CC ≦ 1 です。

●相関係数の解釈

出力された数値について経験的に次のような解釈できます 34。

34

相関係数の範囲は -1≦ r≦ 1 になるので、ここではマイナスとなる逆相関

も含めて絶対値 |r |で示します。

Page 99: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

98

|r | = 0.0 XとYの間に相関がない

0.0 < |r | ≦ 0.2 XとYの間にほとんど相関がない

0.2 < |r | ≦ 0.4 XとYの間に弱い相関がある

0.4 < |r | ≦ 0.7 XとYの間にやや強い相関がある

0.7 < |r | ≦ 1.0 XとYの間に強い相関がある

●相関係数の注意

相関係数を計算することによってあらゆる数値データの間の相関関係

が一応わかります。しかし、これはデータの本質については何も知らない

コンピュータが、入力された数値だけをもとに出した結果にすぎないので

注意が必要です。いろいろなケースが考えられますが、たとえば次のよう

な場合に単に相関係数だけを求めて、それを現象の解釈の結論にしてしま

うのは危険です。

(0) そもそも 2 つが同じデータの場合。たとえば、値とその百分率(%)

はまったく同じデータです。

(1) データの数が極端に少ない場合。たとえば次のように 5 つのデータだ

けで相関係数を出してもあまり意味はないでしょう。このような分布は偶

然に生まれたのかも知れません。

(2) 異質なデータが混在している場合。全く異なるデータを寄せ集めて相

関係数を求めると、現象の正しい解釈ができないことがあります。

上左図は異質のグループを総合して判断したために、個々のグループの中

では強い相関がありながら、全体としてはそれが弱くなるケースです。上

右図は異質のグループの間には相関がないのに総合させると、相関らしき

ものが見えてしまうケースです。

Page 100: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

99

(3) 大きな偏りを持つデータの場合。データの分布に大きな偏りがあると

きは注意が必要です。相関係数を計算するには、一般に下左図のように平

均のそばに多く分布していて、周辺に少なくなるタイプのデータが適して

います。

ところが、たとえば大量のテキスト内の語彙の分布は上右図のようになる

ので一般に高い相関係数を示します。

このようなさまざまなケースについて正しく分析するするためには散布

図をしっかり観察することが大切です。

また、相関関係が必ずしも因果関係を示しているわけではないことに注

意しましょう。たとえば勉強時間と試験の成績の間に相関関係があったと

ても、それが必ずしも、勉強時間を増やせば試験の成績向上につながる、

という「原因→結果」の関係を示していることにはならないでしょう。そ

こには、たとえば「教科への関心・興味」のような隠れた要素があって、

それが勉強時間と試験成績のどちらにも影響していることが考えられます35。

相関係数の算出はあくまでも数学的な操作に過ぎません。資料の本質を

知らずに計算すると意味のない分析結果を示すことにもなりかねないので

す。分析者が散布図を提示せず相関係数だけを示すときはとくに注意すべ

きです。私たちは言語データを扱うとき、ただやみくもにデータを分析す

るのではなく、そのデータをしっかりと見つめること、できれば全部読む

ことが必要です。そうすれば、データについての理解が深まるので、変な

分析結果が出てきたときには直感で気がつくはずです。しっかりとデータ

を読みこんでおくと、そのデータについて自分がよくわかっている、とい

う自信につながります。自分の経験に基づいた直感と、数学的に得られた

データ分析の結果を比較しながら、一致しているかどうか、一致していな

いときは何の要因がありうるか考えなければなりません。

35

勉強時間と試験成績というように、単位が異なっていても、また、実技

テストと筆記試験のように規模(満点)が異なっていても、どちらも、標

準化された値(標準得点)を比べるので、そのまま相関係数を計算するこ

とができます。

Page 101: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

100

4.1.2. 相関行列

多変数間の相関係数を一度に示す「相関行列」 (Rp p:下右表 )を出力しま

す。

Dnp v1 v2 v3

Znp v1 v2 v3

Rpp v1 v2 v3

d1 45 48 66

d1 -.980 -.323 .115

v1 1.000 .643 -.335

d2 56 59 54

d2 .068 .673 -.324

v2 .643 1.000 -.545

d3 58 51 78

d3 .259 -.052 .554

v3 -.335 -.545 1.000

d4 77 72 20

d4 2.068 1.850 -1.569

d5 43 44 32

d5 -1.170 -.686 -1.130

d6 58 34 90

d6 .259 -1.591 .994

d7 50 53 100

d7 -.504 .129 1.360

はじめに、データ行列 (Dnp:下左表 )から標準測度行列 (Zn p:下中表 )を作

成します。

Zn p = (Dn p – M1 p) / S1p

ここで、M1 p は Dn p の縦平均行を示し、 S1 p は Dn p の縦標準偏差行を示しま

す。この標準測度行列 (Zn p)を掛け合わせて積和の正方対称行列を作り、個

数 (N)で割って平均を出したものが相関行列 (Rpp)です。

Rp p = Zn pT Zn p / N

この式は重要なので上の例で行列の成分を確かめておきましょう。

Zn pT Zn p = [

−0.98 0.07 … −0.50−0.32 0.67 … 0.130.12 −0.32 … 1.36

] [

−0.98 −0.32 0.120.07 0.67 −0.32… … …

−0.50 0.13 1.36

]

= [

𝑟11 𝑟12 𝑟13

𝑟21 𝑟22 𝑟23

𝑟31 𝑟32 𝑟33

]

行列積の演算により

r1 1 = -0.98*-0.98 + 0.07*0.07 + ⋯ + -0.50*0.50 ≒ 7.00

r1 2 = -0.98*-0.32 + 0.07*0.67 + ⋯ + -0.50*0.13 ≒ 4.50

r1 3 = -0.98*0.12 + 0.07*-0.32 + ⋯ + -0.50*1.36 ≒ -2.34

r2 1 = -0.32*-0.98 + 0.67*0.07 + ⋯ + 0.13*0.50 ≒ 4.50

r2 2 = -0.32*-0.32 + 0.67*0.67 + ⋯ + 0.13*0.13 ≒ 7.00

r2 3 = -0.32*0.12 + 0.67*-0.32 + ⋯ + 0.13*1.36 ≒ -3.82

Page 102: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

101

r3 1 = 0.12*-0.98 + -0.32*0.07 + ⋯ + 1.36*0.50 ≒ -2.34

r3 2 = 0.12*-0.32 + -0.32*0.67 + ⋯ + 1.36*0.13 ≒ -3.82

r3 3 = 0.12*0.12 + -0.32*-0.32 + ⋯ + 1.36*1.36 ≒ 7.00

このように Rp p がすべての成分が積の和になること、対角成分がそれぞ

れの列の 2 乗和になること、非対角成分が該当する 2 つの列の成分の積の

和になること、全体の行列の形が対称行列であること、そして行列の大き

さが [3 行 7 列 ]x[7 行 3 列 ]の積なので [3 行 3 列 ]になることを確認しましょ

う。

4.1.3. 共分散行列

次の右上表 (V.Cov)は共分散行列とよばれる行列で、その対角成分にそれ

ぞれの列の分散が配置され、非対角成分に該当する変数どうしの共分散

(Covariance: Cov)が配置されています。

Dnp v1 v2 v3

V.Cov v1 v2 v3

d1 45 48 66

v1 110.204 74.551 -95.959

d2 56 59 54

v2 74.551 121.959 -164.490

d3 58 51 78

v3 -95.959 -164.490 746.122

d4 77 72 20

d5 43 44 32

値 v1 v2 v3

d6 58 34 90

分散 110.204 121.959 746.122

d7 50 53 100

共分散は次の式で計算されます。

Cov = Σ i [(X i - AveX) (Y i - AveY)] / N

ここで X i は X 列のデータ、AveX は X 列の平均、Y i は Y 列のデータ、AveY

は Y 列の平均、N はデータ数を示します。次は共分散行列 (Rpp)を返すプロ

グラムの主要部です。

Wnp = S(Xnp, AveV(Xnp)) '縦偏差行列

Rpp = D(X(Tr(Wnp), Wnp), N) '共分散行列

相関係数の分子に使われています。共分散行列は実際のデータ分析であ

まり使われる機会がありませんが、多変量解析の導出過程の確認で必要に

なることがあります。

■語頭の無強勢 e-と語末の無強勢 -e

ラテン語の語頭の 「 s+子音」(sC-)はスペイン語になると、たとえば stare

Page 103: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

102

> estar, scribere > escribir のように「 es+子音」 (esC-)となって、語頭に e

を付加しました。しかし、この現象は中世スペイン語でとくにスペイン東

部のナバーラ・アラゴン地方では比較的少数でした (sC-)。一方、中世スペ

イン語の語末母音が 2 子音の後で脱落した現象 (-CC)も、とくにナバーラ・

アラゴン地方に多く見つかります。次表の左 3 列は、当時各地 (旧カスティ

ーリャ CV・ナバーラ NA・アラゴン AR)で発行された公証文書に現れた

(e)star と (e)scribir とその派生形の出現数を示します。右 3 列は -CC の後で

-e が脱落した語数 (present(e), veint(e) , adelant(e), part(e), est(e), end(e))です。

年:Año CV:sC- NA:sC- AR:sC- CV:-CC NA:-CC AR:-CC

1200

1220

4 1

1

1240

4 8

7

1260

5 9 5 22 13

1280

8 1 5 27 8

1300

8 3 2 34 8

1320 3 2 2

10 4

1340 1 1 34 1 25 29

1360

1 35

25 42

1380 4 2 91 2 2 102

1400

12 200 3 35 183

1420 4

48

47

1440

53 1 15 30

1460

18

29

1480 5 1 25 3 4 37

1500 3

13 1

19

1520 5

30

19

1540 5

1560 19

1

1580 35

1600 1

1620 9

1640 4

1660

1680 4

この 2 つはどちらも無強勢の母音 e に関わる現象ですが、両者間に通時

的な相関関係があるのでしょうか?次は上表から計算した相関行列です。

CC CV:sC- NA:sC- AR:sC- CV:-CC NA:-CC AR:-CC

CV:sC- 1.000 -.244 -.176 -.272 -.323 -.185

Page 104: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

103

NA:sC- -.244 1.000 .557 .465 .829 .574

AR:sC- -.176 .557 1.000 .148 .441 .984

CV:-CC -.272 .465 .148 1.000 .360 .188

NA:-CC -.323 .829 .441 .360 1.000 .435

AR:-CC -.185 .574 .984 .188 .435 1.000

はたして、NA でも AR でも sC-と -CC の間には強い相関があるようです。

CV では相関しません。次の2図はアラゴン地方の sC-と -CC の散布図です。

最初の図を見ると、 1380, 1400 のデータが強く作用して、大きな相関係数

(.984)を生んでいることがわかります。しかし、これらの外れ値を除いても

やはり相関が高いことが2番目の図からも、相関係数 (外れ値を除いた相関

係数は .863)からもわかりました。

従来の説では、極端な語末母音の脱落は当時の 13 世紀はじめのフランス

人越境者がカスティーリャに多かったことの影響によるものである、と説

明されていましたが、年代的にも (14, 15 世紀に多い )、地理的にも (CV より

も NA, AR に多い )、そして言語現象の相関関係からも (無強勢の e)、再考

の余地があると思います。

Page 105: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

104

■中世カスティーリャ語の 2 連続子音文字

現代スペイン語では語中に -ll-, -rr-という 2 連続子音文字 (CC)が用いら

れ、語頭では #ll-が用いられます。それが中世スペイン語では、さらに ff, ss,

ll, rr が語頭でも語中でも用いられていました。次の表は、中世公証文書に

おいて CC を含む語の頻度を千語率 (1000 語あたりの相対頻度 )にして計算

した結果です。

CC -ff- #ff- -ss- #ss- -ll- #ll- -rr- #rr-

1200 1.1 14.1 31.0 16.9

1225 .6 4.6 9.2

28.9

13.7

1250 3.9 11.2 15.0 1.4 31.1 .2 9.5 .4

1275 6.0 16.2 19.7 15.9 33.8 .8 10.0 3.5

1300 5.7 20.9 15.3 19.7 28.0 .8 9.6 9.3

1325 6.5 37.2 22.0 45.5 30.5 1.5 16.3 8.2

1350 3.8 17.2 7.5 25.2 24.4 .3 11.4 12.2

1375 .8 5.6 1.9 5.1 27.5 1.7 14.5 12.9

1400 .9 1.5 1.1 27.5 1.1 7.4 4.2

1425 .2 .2

23.4 2.0 10.1 8.3

1450 .1 1.8

25.1 1.2 7.7 2.6

1475 .2 .3 2.6 24.5 2.5 7.2 2.1

上表のそれぞれの CC 間の相関行列が次の表です。

1220

1240

12601280

1300

1320

1340

1360

1420

14401460

1480

1500 1520

15600

5

10

15

20

25

30

35

40

45

50

0 10 20 30 40 50 60

AR:-CC

AR:sC-

Page 106: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

105

相関係数 -ff- #ff- -ss- #ss- -ll- #ll- -rr- #rr-

-ff- 1.000 .913# .874# .816# .573+ -.256^ .214^ .255^

#ff- .913# 1.000 .763# .956# .393^ -.104^ .341^ .407^

-ss- .874# .763# 1.000 .636+ .817# -.455^ .442^ -.141^

#ss- .816# .956# .636+ 1.000 .233^ -.003^ .367^ .519+

-ll- .573+ .393^ .817# .233^ 1.000 -.506+ .404^ -.373^

#ll- -.256^ -.104^ -.455^ -.003^ -.506+ 1.000 -.322^ .325^

-rr- .214^ .341^ .442^ .367^ .404^ -.322^ 1.000 .143^

#rr- .255^ .407^ -.141^ .519+ -.373^ .325^ .143^ 1.000

上表を見ると、 ff と ss の相関が高いことがわかります。次の散布図は、

語中の -ff-と -ss-の相関の様子を示しています。

4.2. 連関

4.2.1. 連関係数

言語データとして、数値データ(量的データ)ではなく、+/-や「 v」印

で示されるような二値データ(質的データ)を扱うことがあります。たと

えば、次の表では「手紙」と「演劇」で共にプラスになっている語は abajo ,

abandonar, abeja , abogado の 4 語です 36。これは「共起回数」(Cooccurrence)

36

データは次を参照しました。 A. Juilland y E. Chang Rodríguez en su

1200

1225

1250

1275

1300

1325

1350

137514001425

1450 1475

0

5

10

15

20

25

30

0 2 4 6

-ss-

-ff-

Page 107: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

106

とよばれます。共起回数はデータの規模に左右されるので、これを標準的

な値にするためにいろいろな方法が提案されてきました。ここでは、2 つ

のデータ(たとえば、「手紙」と「演劇」)が連関している度合いを数値

化するための 7 つの係数を紹介します。

語 手紙 演劇 手紙 演劇 a (+/+) b (+/-) c (-/+) d (-/-)

abajo 5 10 + + 1 0 0 0

abandonar 9 6 + + 1 0 0 0

abandono 0 0 - - 0 0 0 1

abarcar 1 0 + - 0 1 0 0

abastecimiento 2 0 + - 0 1 0 0

abatir 0 1 - + 0 0 1 0

abeja 2 3 + + 1 0 0 0

abertura 0 0 - - 0 0 0 1

abismo 0 0 - - 0 0 0 1

abnegación 0 0 - - 0 0 0 1

abogado 3 6 + + 1 0 0 0

abonar 5 0 + - 0 1 0 0

abono 0 0 - - 0 0 0 1

abordar 0 0 - - 0 0 0 1

aborrecer 0 6 - + 0 0 1 0

次のような 2 × 2 の表を作り、それぞれ a, b, c, d の 4 つのマス目の値

を考慮します。 a は x も y も「有」 (=1)の個数です。 b は x が「有」 (=1)か

つ y が「無」 (=0)のとき、 c は x が「無」 (=0)かつ y が「有」 (=1)のとき、

そして d は x も y も「無」 (=0)の個数です。たとえば先の図のデータでは

となります。

X / Y Y (X) Y (-)

X (+) a (X+, Y+) 4 b (X+, Y-) 3

X (-) c (X-, Y+) 2 d (X-, Y-) 6

「連関係数」 (Coefficient of Association: CA)はこれらの数値 (a, b, c, d)を

利用します。d を使わない係数もあります。連関係数全体についてほぼ共

通していることは、どちらにも共通する肯定的要素 (a)と、どちらにも共通

している否定的要素 (d)の数が多ければ多いほど、連関係数は大きくなる、

ということです。逆に一方だけにある要素の数 (b, c)が大きくなればなるほ

ど、連関係数は小さくなります。以下の7つは、その連関度を正規化した

数値として求めるために考案された係数です。

Frequency dictionary of Spanish words, (The Hague: Mouton, 1964).

Page 108: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

107

(1) 「単純一致係数」(Simple Matching coefficient : S)では、対象 X と対象 Y

に共通して「 +」がある回数 (a)と、それが共に存在しない回数 (d)の和を全

体の数で割ります。 a = d = 0 のとき最小値 0 になり、 b = c = 0 のとき最大

値 1 になります。

S = (a + d) / (a + b + c + d) 0 ≦ SM ≦1

(2) 「 Jaccard 係数」(J)は分子にも分母にも d を使いません。a = 0 のとき最

小値 0 になり、 b = c = 0 のとき最大値 1.0 になります。

J = a / (a + b + c) 0 ≦ J ≦ 1

(3) 「Dice 係数」 (D)は Jaccard 係数の a を 2 倍にしたものです。 a = 0 のと

き最小値 0 になり、 b = c = 0 のとき最大値 1 になります。 (→後述 )

D = 2a / (2a + b + c) 0 ≦ D ≦1

(4) 「Yule 係数」(Y)は a*d と b*c の差を扱います。(1)の単純一致係数では

a と d を足していますが、Yule 係数では掛けます。それから分子は a*d と

b*c の差なので、それがマイナスになることもあります。 a*d = 0 のとき最

小値 -1 になり、 b*c = 0 のとき最大値 1 になります。 a*d = b*c のときは

中間値 0 になります。 a, b, c, d のいずれかが 0 のとき、結果に大きく影響

します。

Y = (ad – bc) / (ad + bc) -1 ≦ Y ≦ 1

(5) 「Hamann 係数」 (H)は a + d と b + c の差を問題にします。Yule 係数で

は a と d, b と c の関係を積で示しますが、Hamann 係数ではそれを和で示

しています。 a = d = 0 のとき最小値 -1 になり、 b = c = 0 のとき最大値 1

になります。 a + d = b + c のときは中間値 0 になります。

H = [(a+d) – (b+c)] / [(a+d) + (b+c)]

-1 ≦ H ≦1

(6) 「Phi 係数」 (P)は少し複雑な式です。これは積率相関係数と一致しま

す。 (→後述 )

P = (ad - bc) / [(a + b)(c + d)(a + b)(c + d)]1 /2 -1 ≦ Ph ≦ 1

(7) 「Ochiai 係数」 (O)は、 a / (a + b)と a / (a + c) の幾何平均です。それぞ

れの a の比率に注目しています。

O = a / [(a + b)(a + c)]1 /2 0 ≦ O ≦ 1

(8) 最後に次の係数 (Ueda: U)を提案します。U は後述するように他の係数

Page 109: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

108

と比較して利点が多いからです 37。

U = [2 a - (b + c)] /[2 a + (b + c)] [-1 (a=0), 1 (b=c=0)]

●連関係数の比較

実際の分析でこれらの連関度係数のうちどれを使えばよいのか迷うこと

があります。そのとき、いくつかの選択の方法が考えられるでしょう。そ

の選択の基準もさまざまです。たとえば、これらの係数を利用して誰かの

前で発表することを考えてみましょう。発表の目的が係数の数値自体によ

って裏づける根拠よりも、その先にある連関性を主張することであるなら

ば、S や J のように係数の説明に多くの時間を割かずに済む、わかりやす

い係数を選択するという決定も考えられます。連関係数が強い裏付けの根

拠として重要な意味を持つならば、Y や H を選択し、その数値の性質につ

いて丁寧な説明が必要になります。そして、統計に慣れている人に発表す

るならば、よく知られている P を使えばその説明は必要なくなります。 P

にわずかな説明を加えることで O を使うこともできるでしょう。(→後述)

1 つだけでなく複数の係数を選択して、それぞれを比較し、考察すること

も考えられます。

しかし、このような決定は本質的ではなく、実際的な条件に従っていま

す。本質を追究するには、それぞれの係数の性質と分析対象のデータの性

質をよく理解して、本質的な条件と実際的な条件のどちらも考慮に入れた

上で決定しなくてはいけません。そうすれば自分でも納得ができますし、

自信をもって説明できます。

それぞれの係数の性質を比べると、共通する性質があることがわかりま

す。「両者に存在しない特徴 (d)」の扱いのほかに、逆方向を検知するかど

うか(マイナスになるか)、完全に等質な分布のときゼロになるかどうか、

などについて、しっかり理解しておく必要があります。次の表はそれぞれ

の特徴の分布を比較したものです。

性質 S J Y H P O U

d (-/-)を扱う + - + + + - -

逆方向 (-)を検知 - - + + + - +

積算がある - - + - + + +

振幅 - - ++ - - + +

ここで、たとえば d 値 (-/-)を扱わない (-)、逆方向を検知する (v)、積算が

ない (-)、という条件をつけるならば U を選択するとよいでしょう。

データの性質として、方向性があるものならば、d(-/-)を探知する係数を

選択すべきです。たとえば「賛成」と「反対」で回答したアンケート調査

37

U は両側相対値ですが、その相対値 (2a / 2a+b+c)が Dice 係数 (D)です。

Page 110: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

109

などは、「賛成」の数だけでなく「反対」の数も考慮に入れるべきです。

一方、2 つの文献の語彙比較調査などは、ある単語が使われている、と、

使われていない、という数値を同等に扱うよりも、使われているケースだ

けで計算したほうがよいと思われます。どちらにも使われていない、とい

う語彙は無限に存在するからです。しかし、一定の語彙範疇(たとえば「指

示詞」「関係代名詞」など)で複数の文献を調査するときは、否定的な反

応も考慮に入れるべきでしょう。

逆方向 (-)を検知する係数 (Y, H, P, U)は範囲が [-1, 1]で、完全に等質な分

布のとき中間値のゼロ (0)になります。他の係数では、そのとき、0.5 (S, O),

0.33 (J) になる、ということを心得ておかなければなりません。たとえば、

相関係数が 0.5 ならば「中度の相関がある」と判断しますが、それが SM

や O の値ならばまったく相関がないことを示しています。

数値を積算している係数 (Y, P, U)は、それぞれの項目の増減がそれを構

成する要素の増減に比例しているので、考えてみると納得できますが、問

題点として積算の片方がゼロになると他方にどのような数値があっても、

ゼロになってしまうことがあげられます。また、分母で積算されていると

それがゼロになったとき計算できなくなります。たとえば O で (a+b)がゼロ

になった場合です。このとき c に値があっても計算されません。一方、数

値を積算していない係数は、結局「割合」に過ぎないので、ほとんど考え

なくてもわかります。これが実際的な選択の条件となることもあるかもし

れません。

次の表と図は b=5, c=4, d=10 で固定し、共起回数 (a)を 0 から 10 に上げて

いったときのそれぞれの係数の変化を示しています。

a(+/+) 0 1 2 3 4 5 6 7 8 9 10

b (+/-) 8 8 8 8 8 8 8 8 8 8 8

c(-/+) 2 2 2 2 2 2 2 2 2 2 2

d(-/-) 10 10 10 10 10 10 10 10 10 10 10

S 0.50 0.52 0.55 0.57 0.58 0.60 0.62 0.63 0.64 0.66 0.67

J 0.00 0.09 0.17 0.23 0.29 0.33 0.38 0.41 0.44 0.47 0.50

D 0.00 0.17 0.29 0.38 0.44 0.50 0.55 0.58 0.62 0.64 0.67

Y -1.00 -0.23 0.11 0.30 0.43 0.52 0.58 0.63 0.67 0.70 0.72

H 0.00 0.05 0.09 0.13 0.17 0.20 0.23 0.26 0.29 0.31 0.33

P -0.27 -0.08 0.04 0.13 0.19 0.24 0.28 0.32 0.34 0.37 0.39

O 0.00 0.19 0.32 0.40 0.47 0.52 0.57 0.60 0.63 0.66 0.68

U. -1.00 -0.67 -0.43 -0.25 -0.11 0.00 0.09 0.17 0.23 0.29 0.33

次の図は相対値 [0, 1]の係数の比較です。これを見ると、 S と J の振幅が

比較的小さく、とくに S の振幅が小さいことが確認できます。一方、Ochiai

の振幅は大きいことがわかります。係数の振幅が大きいことは弁別する力

が強いことを示します。

Page 111: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

110

両側相対値 [-1, 1]の係数については Y と U の振幅が大きいことが特徴的

です。Y の上昇は急ですが、U は比較的緩やかに上昇します。このことは

a[++]の値が大きい場合の Y の弁別力が弱くなりますが、U は比較的直線に

近いので一定した高い弁別性を保証します。U は d を入れないので d が大

きくても影響されません。Y の高い上昇値は d の影響によるものです。

●相関係数と Phi 係数

Phi 係数は「有 (+ )」を 1,「無 (-)」をゼロ (0)とすれば、一般の連続量を

扱う相関係数から導出できます。

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0 2 4 6 8 10

S

J

D

O

-1.00

-0.80

-0.60

-0.40

-0.20

0.00

0.20

0.40

0.60

0.80

1.00

0 2 4 6 8 10

Y

H

P

U

Page 112: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

111

X:Y Y = 1 Y = 0 和

X = 1 a (1,1) b (1,0) a + b

X = 0 c (0,1) d (0,0) c + d

和 a + c b + d N: a + b + c + d

はじめに総データ数を N とします。

[1] N = a + b + c + d

先に見たように相関係数 (CC)の式は次の通りです。

CC = Σ i (Xi – Mx)(Yi – My) / N [SDx SDy]

ここで、Mx は X の平均、My は Y の平均、SDx は X の標準偏差、SDy は

Y の標準偏差です。最初に、この分子だけを取り上げましょう。

CC の分子= Σ i (Xi – Mx)(Yi – My)

= Σ i (Xi Yi - Xi My - Mx Yi + Mx My) ←展開

= Σ i Xi Yi - Σ i Xi My - Σ i Mx Yi + Σ i Mx My ←Σを分配

= Σ i Xi Yi - My Σ i Xi - Mx Σ i Yi + N Mx My

←非 i 項を外へ

ここで、Xi Yi のうち、b(1, 0), c(0, 1), d(0, 0)にあたる部分ではXとYの

少なくとも1つがゼロなので、その積もゼロになります。よって

[2] Σ i Xi Yi = a ←積 Xi Yi が 1 のケースの合計

となります。また

[3] Σ i Xi = a + b ←X の和←上表 (X:Y)

[4] Σ i Yi = a + c ←Y の和←上表 (X:Y)

[5] Mx = Σ i Xi / N = (a + b) / N ←X の平均← [3]

[6] My = Σ i Yi / N = (a + c) / N ←Y の平均← [4]

となるので、分子は

CC の分子 =Σ i Xi Yi - My Σ i Xi - Mx Σ i Yi + N Mx My

= a - (a+c)(a+b)/N – (a+b)(a+c)/N + N (a+b)/N (a+c)/N [2-6]

= a - (a+c)(a+b)/N – (a+b)(a+c)/N + (a+b)(a+c)/N

= a - (a + b)(a + c) / N

= [Na - (a + b)(a + c)] / N

= [(a + b + c + d)a - (aa + ac + ba + bc)] / N ← [1]

= (aa + ab + ac + ad - aa - ac - ab - bc) / N

[7] = (ad - bc) / N

Page 113: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

112

次に CC の分母の1つ SDx を見ます。

SDx = {[Σ i (Xi – Mx)2]

1 /2 / N}

1 /2 ←X の標準偏差

= {[Σ i (Xi2 – 2 Xi Mx + Mx

2)]

1 /2 / N}

1/2 ←展開

= {[Σ i Xi2 – Σ i 2 Xi Mx + Σ i Mx

2)] / N}

1 /2 ←Σを分配

= {[Σ i Xi2 – 2 Mx Σ i Xi + N Mx

2)] / N}

1 /2 ←非 i 項を外へ

Xi はすべて 1 または 0 なので Xi2 の和は

[8] Σ i Xi2

= a + b ←X2 の和←上表 (X:Y)

SDx = {[(a + b) – 2 (a + b)2 / N + (a + b)

2 / N] / N}

1 /2 ← [8], [3], [5]

= {[a + b – (a + b)2 / N] / N}

1 /2 ← (a + b)

2 / N が共通

= {[(a + b)N - (a + b)2] / N

2}

1 /2 ←N を分母へ

= {[(a + b)(a + b + c + d) - (a + b)2] / N

2}

1 /2 ← [1]

= {(a + b)[(a + b + c + d) - (a + b)] / N2}

1 /2 ← (a + b) が共通

= [(a + b)(c + d) / N2]

1 /2 ← (a + b) が共通

[9] = [(a + b)(c + d)]1 /2

/ N ←N を外へ

同様にして、CC の分母の1つ SDy は

[10] SDy = (a + c)(b + d)1 /2

/ N ←Σ i Yi2

= a + c に注意

よって

CC の分母 = N [SDx SDy]

= N {[(a + b)(c + d)]1 /2

/ N}*{[(a + b)(c + d)]1 /2

/ N} ← [9, 10]

= [(a + b)(c + d)]1 /2

}*{[(a + b)(c + d)]1 /2

/ N ←N を整理

[11] = [(a + b)(c + d)(a + b)(c + d)]1 /2

/ N ←乗数 1/2 を整理

よって、相関係数 (CC)は

CC = Σ i (Xi – Mx)(Yi – My) / N [SDx SDy]

= [(ad - bc) / N] / {[(a + b)(c + d)(a + c)(b + d)]1 /2

/ N} ← [7, 11]

= (ad - bc) / [(a + b)(c + d)(a + c)(b + d)]1 /2

← /N が共通

= Phi ←定義

●Phi 係数と Ochiai 係数

Phi 係数を実際に適用してみると不都合なときがあります。次のデータ

A, B を比べてみましょう。

Page 114: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

113

A Y (+) Y (-) 和

B Y (+) Y (-) 和

X (+) 100 10 110

X (+) 4 10 14

X (-) 20 2 22

X (-) 20 50 70

和 120 12 132

和 24 60 84

どちらも Phi 係数の分子の ad- bc がゼロとなるので(100*2 - 10*20 =

0; 4*50 - 10*20 = 0)、Phi 係数はゼロになります。しかし、データ A と

データ B を比べれば A のほうがずっと連関度が高いように思えます。プラ

ス (+)を共有するケースが 100 もあるからです。これは全体 132 の 75.8%に

あたります。それに対して B はどうでしょうか。わずか 4 回の共起回数で

計算すると 4.8%になります。

この原因は d(-/-)の数値の扱い方にあります。XにもYにもない要素は与

えられたデータに限れば有限ですが、X、Y以外のデータに存在して、X

にもYにもなかったものです。そうした d の値は、XとYの内容にかかわ

らず、一般にいくらでも増やすことができます。つまり、理論的には d の

数は無限 (∞)であると考えられます。たとえば、Xと Y という二人が読ん

だことがある本を数えるとき、どちらも読んだことのない本の数は無限と

考えられます(本が無限に出版されるとして)。

そこで、先の Phi の式で d が無限になると仮定してみましょう。phi 係数

で d が無限大になるものを Phi'とします。

Phi = (ad - bc) / [(a + b)(c + d)(a + b)(c + d)]1 /2

Phi' = lim(d∞ ) (ad - bc) / [(a + b)(c + d)(a + c)(b + d)]1 /2

= lim(d∞ ) [(ad - bc)/d] / {[(a + b)(c + d)(a + c)(b + d)]1 /2

/d}

←分子と分母を d で割る

= lim(d∞ ) (a - bc/d) / [(a + b)(c + d)(a + c)(b + d) / d2]

1 /2

←d を移動

= lim(d∞ ) (a - bc/d) / [(a + b)(c/d + 1)(a + c)(b/d + 1)]1 /2

← /d を分配

= a / [(a + b)(a + c)]1 /2 ←分母 d を無限大に

これが Phi 係数の修正版(Ochiai 係数)です。とてもシンプルになりま

した。先のデータ A, B で計算してみましょう。

Phi'(A) = 100 / [(199+10)(100+20)]1 /2

= .870

Phi'(B) = 4 / [(4+10)(4+20)]1 /2

= .218

このように、Phi 係数で区別できなかった両者も Ochiai 係数 (Phi')を利用

すればデータ (A)の方がデータ (B)よりも連関性が高いという直感を裏づけ

ることができます。

Page 115: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

114

●相互情報量と Dice 係数

言語研究ではたとえば 2 つの語の結合度を調べるために、「相互情報量」

(Mutual Information: MI)という数値を使います。これは、共起回数 (A)を、

データ全体で理論的に期待できる共起得点(期待値)で割った値の対数(底

=2)です。

MI = Log(2) (A*T / X*Y)

ここで A は X と Y の共起回数;T は総数;X は X の頻度;Y は Y の頻

度です。たとえば、あるスペイン語の資料で調べると、muy (='very')という

語の頻度が 120, bien (='well ')の頻度が 167, 全語数が 26578 でした。そうす

ると、 muy と bien の共起得点が理論的に期待できる値は (120/26578) *

(167/26578)となります。これは、それぞれが出現する確率の積です。そし

て、実際の資料では muy + bien が 47 出現しました。これは 47/26578 とい

う確率です。そこで相互情報量を計算するために、はじめに共起得点をデ

ータ全体で理論的に期待できる共起得点(期待値)で割った値を求めます。

(47 / 26578) / [(120 / 26578) * (167 / 26578)]

= (47 * 26578) / (120*167) = 62.334

これの対数(底=2)は Log(2) (62.334) = 5.962 です。これが相互情報量

です。底を 2 とする対数は一般に情報量を示します。たとえば、16 の可能

性がある事象の情報量は 16 = 24 なので、 4 (=log216)になります。

同じ A, X, Y を使って、先に見た「Dice 係数」 (D)を導きます。ここでは

相互情報量のように全語数 (T)を計算に含めることはしません。

D = A / [(X + Y) / 2] 0.0 ≦ D ≦ 1.0

分子の共起得点 (A)は a(+/+)にあたります。得点 X は a + b にあたります。

これは x が y と共起するケース数と y と共起しないケース数の合計になり

ます。同様に得点 Y は a + c です。よって

Dice 係数 (D) = a

(2a + b + c) / 2 =

2a

(2a + b + c)

Dice 係数は Jaccard の a を 2 倍にしたものです。 a と b+c を対称化する、

と考えれば、 a が 2 数 (b, c)と対称化しているので、Dice 係数のほうがバラ

ンスがとれています。Dice 係数は U.a.r 係数と同じです。

●両者に存在しない特徴

かつて印欧言語学の分野では Phi 係数を使った Kroeber (1937, 1969)と

Ochiai 係数を使った Ellegard (1959)の間に論争がありました。これを安本

Page 116: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

115

(1995)が簡単に解説しています。この問題は、一般に連関係数のどちらか

が正しいということではなくて、データの種類や性格によって係数の選択

を考えるべきでしょう。たとえば、アンケート調査などで「賛成」と「反

対」という回答があるとすれば、単に両者が一致して「賛成」と答えた場

合の数 (a)だけでなく、一致して「反対」と答えた場合の数 (d)も同時に考慮

されるべきです。

2 つのデータだけでなく、多数のデータ間の連関度を見る場合には、問

題の両者に存在しない特徴であっても他のデータに存在する特徴であるな

らば、どちらもその特徴を持たないという否定的な一致はそれなりの意味

をもつと考えられます。

一方、 a « d、つまり先述の「Phi 係数と Ochiai 係数」で見たような d が

a を大きく上回るデータを扱うときは、d のない係数を選択するとよいでし

ょう。

●量的データと質的データ

先に見たように、単語の頻度数は非常に偏った分布を示すので相関係数

による分析には適しません。次の散布図には一応「線形近似曲線」が描か

れていますが、データは左下に固まっていて、右上になるとほとんどデー

タがありません。頻度の高い単語の数は少なく、一方あまり使われない単

語の数は非常に多いのです。

ここで、単語の頻度を単語使用の「有無」に変えて分析する方法を採り

ます。そうすれば、すべてのデータの分布は「有」と「無」の 2 種類の値

になります。頻度数などのような連続的なデータは「量的なデータ」

(Quantitative Data)とよばれ、このように単に有・無を示すようなデータは

「質的なデータ」 (Qualitative Data)とよばれます。

言語研究では、たった一度だけ出現するデータ (hapax)を特別に扱うこと

が一般的です。偶然に現れたケースかもしれないからです。2 度の偶然は、

ほとんどあり得ないので、 2 を基準値として、それ以上を「有」 (1)のデー

タとして基準化する場合があります。データが巨大になったときは、さら

Page 117: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

116

にこの基準を上げることも考えられます。いずれにしても、結果はこの基

準値に左右されますから、それをしっかりと認識しておくことが必要です。

■外国語学習・獲得と「価値」の優先度

語彙学習、さらに外国語学習一般において、学習者が認識する「価値」

の優先度が高い、という仮説を立てます。語彙についていうと、単語の意

味に学習者が「価値」を見出すと、それが優先的に獲得される、という仮

説です。ここでいう「価値」は、いわゆる「重要単語」のことではありま

せん。なぜなら、重要単語で示されている「重要性」は学習者の認める価

値とは異なる場合があるからです。

この仮説を検証するために次のような実験をしてみました。一定の量の

スペイン語の単語リストについて、はじめに「自分にとって価値の優先度

の高い」単語にマークし、その後単語リスト全体の記憶練習をして、その

結果をそれぞれの単語数について集計しました。この実験に「スペイン語

学習・教育法」の履修者 12 人が参加し、毎回語数と出席人数が異なる実験

を数回行いました。

個人 a (+/+) b (+/-) c (-/+) d (- /-) Yule Hamann

1 4 1 0 1 1.000 0.667

2 7 3 5 5 0.400 0.200

3 6 2 3 4 0.600 0.333

4 23 13 7 17 0.622 0.333

5 18 13 12 17 0.325 0.167

6 8 3 2 7 0.806 0.500

7 7 3 3 7 0.690 0.400

8 15 15 0 11 1.000 0.268

9 17 13 1 5 0.735 0.222

10 10 3 4 9 0.765 0.462

11 11 5 4 10 0.692 0.400

12 14 1 6 9 0.909 0.533

(a) +/+: 「比較的価値が高い単語 (+)」 /「学習成功 (+)」

(b) +/-: 「比較的価値が高い単語 (+)」 /「学習失敗 (-)」

(c) -/+: 「比較的価値が低い単語 (-)」 /「学習成功 (+)」

(d) -/-: 「比較的価値が低い単語 (-)」 /「学習失敗 (-)」

参加した 12 人の結果は Yule も Hamann もプラスになっていますから、

先の仮説に沿うものでした。

敷衍して考えてみると、はたして私たちは外国語をひたすら反復練習し

て獲得するのでしょうか?もしかしたら「価値」の優先度が強く働いた学

習項目は瞬間的に獲得されているのかもしれません。とくにがんばって記

Page 118: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

117

憶練習した覚えもないのに獲得してしまった語があるとすれば、それは学

習者にとって「価値」のある単語だった可能性が高いと思われます。そう

だとすると、外国語(やその他の科目)を、がんばって学習するよりも、

価値を見出して獲得してしまうほうが効果的ではないでしょうか。

価値を見出すためには、「形式→意味」という流れの教育・学習よりも、

「意味→形式」という流れのほうが効果があると思います。私たちは(外国

語の)形式を見て価値を見出すことはあまりありませんが 38、意味につい

ては、その価値の有無・程度を瞬間的に判断することができるからです。

4.2.2. 連関行列

各種の連関係数を使って連関係数行列を作るために、 1 または 0 からな

るデータ行列 (Qnp)の各変数(列)について、 2 つずつの変数 (X i, X j)の組み

合わせで、X i =1 , X j=1 のケース数を示す A(i, j)、X i =1 , X j=0 のケース数を

示す B(i, j)、X i =0 , X j=1 のケース数を示す C(i, j)、X i =0 , X j=0 のケース数を

示す A(i, j)の行列を作ります。そのためにはじめに次の Wn p を用意します。

Wn p = 1 - Qn p

この Wn p は、データ行列 Qn p のすべての成分について、 0 と 1 が交換さ

れた行列です。

Qnp v1 v2 v3 v4

Wnp v1 v2 v3 v4

d1 1 1 0 0

d1 0 0 1 1

d2 0 0 1 0

d2 1 1 0 1

d3 0 1 0 0

d3 1 0 1 1

d4 0 0 1 1

d4 1 1 0 0

d5 1 1 1 0

d5 0 0 0 1

この 2 つの行列を使って (Ap p , Bpp , Cp p , Dpp)を算出します。

Ap p = QnpT Qnp

Bp p = QnpT Wnp

Cp p = WnpT Qnp

Dp p = WnpT Wn p

Ap p は共起回数を示します。「行列」の転置と積の機能を使ってその成

分を確認しましょう。

38

この例外もあります。あるとき社会人向けのスペイン語コースを担当し

たとき、受講者から「パハロ」( pájaro:「小鳥」)という言葉の響きが

好きで、すぐに覚えてしまった」という感想をいただいたことがあります。

そのとき聞き忘れたのですが、この人は「パハロ」の響きだけでなく「小

鳥」も好きな人だったのかもしれません。

Page 119: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

118

Ap p = QnpT Qnp

QT d1 d2 d3 d4 d5 X Q v1 v2 v3 v4 = Q

TQ v1 v2 v3 v4

v1 1 0 0 0 1

d1 1 1 0 0

v1 2 2 1 0

v2 1 0 1 0 1

d2 0 0 1 0

v2 2 3 1 0

v3 0 1 0 1 1

d3 0 1 0 0

v3 1 1 3 1

v4 0 0 0 1 0

d4 0 0 1 1

v4 0 0 1 1

d5 1 1 1 0

他の対称行列の成分も確かめましょう。

Bp p = QnpT Wnp

QT d1 d2 d3 d4 d5 X W v1 v2 v3 v4 = Q

TW v1 v2 v3 v4

v1 1 0 0 0 1

d1 0 0 1 1

v1 0 0 1 2

v2 1 0 1 0 1

d2 1 1 0 1

v2 1 0 2 3

v3 0 1 0 1 1

d3 1 0 1 1

v3 2 2 0 2

v4 0 0 0 1 0

d4 1 1 0 0

v4 1 1 0 0

d5 0 0 0 1

Cp p = WnpT Qnp

WT d1 d2 d3 d4 d5 X Q v1 v2 v3 v4 = W

TQ v1 v2 v3 v4

v1 0 1 1 1 0

d1 1 1 0 0

v1 0 1 2 1

v2 0 1 0 1 0

d2 0 0 1 0

v2 0 0 2 1

v3 1 0 1 0 0

d3 0 1 0 0

v3 1 2 0 0

v4 1 1 1 0 1

d4 0 0 1 1

v4 2 3 2 0

d5 1 1 1 0

Dn p = WnpT Wn p

WT d1 d2 d3 d4 d5 X W v1 v2 v3 v4 = W

TW v1 v2 v3 v4

v1 0 1 1 1 0

d1 0 0 1 1

v1 3 2 1 2

v2 0 1 0 1 0

d2 1 1 0 1

v2 2 2 0 1

v3 1 0 1 0 0

d3 1 0 1 1

v3 1 0 2 2

v4 1 1 1 0 1

d4 1 1 0 0

v4 2 1 2 4

d5 0 0 0 1

この 4 つの行列から次の式で各種の係数行列を求めます。以下では np を

省いて、たとえば An p を A とします。

単純一致 = (A + D) / (A + B + C + D)

J = A / (A + B + C)

Page 120: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

119

H= [(A + D) - (B + C)] / [(A + D) + (B + C)]

Y = (A*D – B*C) / (A*D + B*C)

P = (A*D – B*C) / [(A + B)(C + D)(A + C)(B + D)]1 /2

O = A / [(A + B)(A + C)]1 /2

U. = (2A – B – C) / (2A + B + C)

* 連 関 係 数 に つ い て は Anderberg (1973:93-126), Romesburg (1989:

177-209)を参照しました。連関係数行列の A, B, C, D 行列の算出法は河口

(1978: II, 30-31)を参照しました。

●占有度

次のようなサンプル(下左表)を使って「占有度」(Degree of Possession)

と名づけるオプションを説明します。積和共起回数を計算すると下右表の

対称行列 Ap p になります。

Qnp v1 v2 v3 v4

App v1 v2 v3 v4

d1 1 1 0 0

v1 2 2 1 0

d2 0 0 1 0

v2 2 3 1 0

d3 0 1 0 0

v3 1 1 3 1

d4 0 0 1 1

v4 0 0 1 1

d5 1 1 1 0

v1, v2 の間の共起回数は 2 と計算されますが、ここで注目したいのは d1

における v1, v2 の間の共起の様子と、 d5 におけるその様子との違いです。

上左表を見ると d1 は唯一 v1, v2 だけを共有していますが、d5 では他に v3

でも共有されています。ここで d1 のようなケースのほうが d5 のようなケ

ースよりも重い価値があると解釈し、それを数量的に表現したいと思いま

す。

次は、先の A, B, C, D のそれぞれの対称行列を作成するために用意した

Qn p と Wnp です (Wn p = 1 – Qn p)。

Qnp v1 v2 v3 v4

Wnp v1 v2 v3 v4

d1 1 1 0 0

d1 0 0 1 1

d2 0 0 1 0

d2 1 1 0 1

d3 0 1 0 0

d3 1 0 1 1

d4 0 0 1 1

d4 1 1 0 0

d5 1 1 1 0

d5 0 0 0 1

これをそれぞれ次のように変換します。

Page 121: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

120

Qnp* v1 v2 v3 v4

Wnp* v1 v2 v3 v4

d1 0.500 0.500 0.000 0.000

d1 0.000 0.000 0.500 0.500

d2 0.000 0.000 1.000 0.000

d2 0.333 0.333 0.000 0.333

d3 0.000 1.000 0.000 0.000

d3 0.333 0.000 0.333 0.333

d4 0.000 0.000 0.500 0.500

d4 0.500 0.500 0.000 0.000

d5 0.333 0.333 0.333 0.000

d5 0.000 0.000 0.000 1.000

たとえば、d1 行には 1 が 2 個出現しているので、それぞれ 0.5 の価値が

ある、という考え方です。 d5 では 1 が 3 個なので、すべて 0.333 という数

値を与えます。Wnp についても同様です。このようにして用意した Qnp*と

Wn p*を使って、それぞれの占有度指数を加味した連関係数を算出します。

最後にこの占有度指数を使わない四分点相関係数(下左表 SM)と、使っ

た場合(下右表 SMp)を比較します(単純一致係数 SM)。以下に見るよ

うに大小関係の傾向は似ていますが、かなり大きな数値の差が観察されま

す。

SM. v1 v2 v3 v4

SMp v1 v2 v3 v4

v1 1.000 0.800 0.400 0.400

v1 1.000 0.684 0.211 0.211

v2 0.800 1.000 0.200 0.200

v2 0.684 1.000 0.087 0.087

v3 0.400 0.200 1.000 0.600

v3 0.211 0.087 1.000 0.478

v4 0.400 0.200 0.600 1.000

v4 0.211 0.087 0.478 1.000

●順序連関行列

データ行列の数値そのものの相関ではなく、大小関係の順序の連関から

相互の関係を見るために、グッドマンとクラスカルの順序連関係数を使い

ます(→後述「分析」)。たとえば、次のデータの v1 と v2 の順序連関係

数 (GK)を計算しましょう。

Xnp v1 v2 v3 v4 v5

Gpp v1 v2 v3 v4 v5

d1 10 19 14 7 12

v1 1.000 -.393 .028 .607 -.168

d2 11 7 10 0 1

v2 -.393 1.000 .371 .703 .113

d3 0 0 1 12 1

v3 .028 .371 1.000 .519 -.175

d4 0 1 2 3 3

v4 .607 .703 .519 1.000 -.472

v5 -.168 .113 -.175 -.472 1.000

はじめに、その肯定値 (Positive: P)と否定値 (Negative: N)を次のように計

算します。

P(v1, v2) = 10 * (7+1) + 11 * 1 = 91

N((v1, v2) = 11 * 19 = 209

Page 122: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

121

よって

GK (v1, v2) = (91 – 209) / (91 + 209) = -.393

*池田 (1976:130-132)を参照しました。

●文字連関行列

行列の成分が数値ではなく文字のデータ行列を扱います。A, B, C…は任

意の文字 (A, B, …など )、または文字列 (bueno, malo, regular, …など )としま

す。このような文字行列の変数の連関行列を「文字連関行列」 (Nominal

Association Matrix: NAM)とよぶことにします。たとえば、v1-v4 を地方名、

d1-d5 はそれぞれの地方で発行された文書、 A, B, C, … を言語特徴、とい

うような資料を想定します。

Lnp v1 v2 v3 v4

Npp v1 v2 v3 v4

d1 A A B C

v1 1.000 .600 -.600 -1.000

d2 A A C C

v2 .600 1.000 -.600 -.600

d3 A C B C

v3 -.600 -.600 1.000 -.200

d4 C C C A

v4 -1.000 -.600 -.200 1.000

d5 B B C C

たとえば、 v1 と v2 の相関 (0.600)は次のように計算します。両列に同じ

文字が使われている回数 (a:++)は 4, ある文字が v1 にあって v2 にない場合

の数 (b: +-)は 1, 逆にそれが v1 になくて v2 にある場合の数も 1 になるので、

先の優先係数の式 [2a – (b+c)] / [2a – (b+c)]を適用して、 [4x2 – (1+1)] / [4x2

+ (1+1)] = .600 となります。

この文字連関行列は次のような、 1 つの成分の中に、複数の文字がある

場合にも計算できます。

Lt.Oc. v1 v2 v3 v4

Ln p . v1 v2 v3 v4

d1 A A,B B C

v1 1.000 .500 .067 - .200

d2 B,D B,C,D B,C D

v2 .500 1.000 .333 - .467

d3 A,B B B C

v3 .067 .333 1.000 - .143

d4 C C A A

v4 - .200 - .467 - .143 1.000

d5 B,C C B,C B,C,D

たとえば、 v1 と v2 の文字連関係数 (0.520)は次のように計算します。d1

では、 v1 の A と v2 の A,B を比べて、両者にある文字数 1 を a(++)としま

す。 v1 にあって v2 にない文字数 0 を b(+-)とします。 v2 にあって v1 にな

い文字数 1 を c(-+)b とします。この a, b, c を他の行 d2, …, d5 でも加算し

て計算した優先係数の値が文字連関係数 (v1, v2) = 0.520 になります。すべ

Page 123: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

122

ての組み合わせ (v1, … , v4)の文字連関係数を計算すると文字連関行列がで

きます。

4.3. 距離

4.3.1. 単純距離

データ行列の中の 2 つの列 (x1, x2)の間の距離は一般に「ユークリッド距

離」 (Euclid distance: ED)とよばれる次の式を使います。

Euclid(i, j) = [Σ (k =1 ,n ) (xk i – xk j)

2]

1 /2 (i, j = 1, 2, .., p)

ユークリッド距離は、それぞれの対の差を 2 乗して次々に全部足し、そ

の平方根を求めた値です。このままではデータの数 (N)が増えると、距離が

どんどん大きくなるので、それぞれの対の差を 2 乗して次々に全部足し、

個数 (N)で割って平均をとり、その平均の平方根を求めます。これを単純距

離 (Simple Distance: SD)とよびます。よって

SD(Dnp) = {[Σ (k =1 ,n ) (xk i – xk j)

2] / N}

1 /2 (i, j = 1, 2, .., p)

Dnp v1 v2 v3

SD v1 v2 v3

d1 45 48 66

v1 .000 9.842 33.250

d2 56 59 54

v2 9.842 .000 36.393

d3 58 51 78

v3 33.250 36.393 .000

d4 77 72 20

d5 43 44 32

d6 58 34 90

d7 50 53 100

単純距離は、互いに近い関係にあるとき小さな値になり、自己との距離

はゼロになります。よって、相関係数や連関係数とは大小関係が逆になり

ます。また、範囲の最小値はゼロですが、最大値が定まりません。

4.3.2. 限定距離

先に見た単純距離の範囲を [0, 1]に限定した距離を限定距離 (Limited

Distance: LD)と呼びます。距離を [0, 1]の範囲にするために、はじめにデー

タの全体をデータ全体の範囲(最大値 -最小値 )で割ります。このように、

全体的に規模を縮小すると変数間の差が 1 を超えることがなくなります 39。

39

距離を計算するときは、差をとるので、Xnp = D(Dnp), Rg(Dnp))のよう

に簡単にしても距離係数の結果は変わりません。ここでは、表を見やすく

するために、分子から最小値を引いてあります。

Page 124: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

123

そして、相関係数や連関係数と大小の方向をそろえるために、 1 から距離

係数を引きます。よって、距離が近くなるほど限定係数は大きくなります。

このようにデータ全体を限定化した行列 (行限定得点:LSa)で計算した限定

距離対称行列を全限定距離 (Limited Distance in all: LDa)と呼びます。

LSa = D(S(Dnp, Av(Dnp)), Rg(Dnp))

LDa = 1 - SD(LSa)

Dnp v1 v2 v3

LSa v1 v2 v3

LDa v1 v2 v3

d1 45 48 66

d1 .313 .350 .575

v1 1.000 .877 .584

d2 56 59 54

d2 .450 .488 .425

v2 .877 1.000 .545

d3 58 51 78

d3 .475 .388 .725

v3 .584 .545 1.000

d4 77 72 20

d4 .713 .650 .000

d5 43 44 32

d5 .288 .300 .150

d6 58 34 90

d6 .475 .175 .875

d7 50 53 100

d7 .375 .413 1.000

この全限定距離はデータの規模(範囲)に左右されます。たとえば、 d2

の範囲は小さく ([54, 56]; [.425, .450])、 d7 の範囲は大きいので ([50, 100];

[.375, 1.000])、両者を同じように扱うことが適切でない、と考えることも

できます 40。そのときは、それぞれの行の最大値と最小値を使って次のよ

うにデータを限定化してから距離(単純距離:SD)を求めます。このよう

にして計算した距離を行限定距離 (Limited Distance in row: LDr)とします 41。

LSr = D(S(Dnp, MnR(Dnp)), S(MxR(Dnp), MnR(Dnp)))

LDr = 1 - SD(LSr)

ここで MnR は行の最小値 (縦ベクトル )を返し、MxR は行の最大値 (縦ベク

トル )を返す関数です。

40

分析の目的によっては両者を同じように扱う必要があることもありま

す。ここではデータの範囲に左右されないようにした場合の距離を問題に

します。たとえば、すべて同じ条件で計測・観察・収集したデータ行列を

扱う場合は単純距離を使うことも考えられます。 41

限定得点の計算ではそれぞれの数値から最小値を引きますが、これはす

べての数値に行われているので、距離の計算は最小値を引かなくても同じ

ことになります。

Page 125: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

124

Dnp v1 v2 v3

LSr v1 v2 v3

LDr v1 v2 v3

d1 45 48 66

d1 .000 .143 1.000

v1 1.000 .695 .165

d2 56 59 54

d2 .400 1.000 .000

v2 .695 1.000 .040

d3 58 51 78

d3 .259 .000 1.000

v3 .165 .040 1.000

d4 77 72 20

d4 1.000 .912 .000

d5 43 44 32

d5 .917 1.000 .000

d6 58 34 90

d6 .429 .000 1.000

d7 50 53 100

d7 .000 .060 1.000

行列の列の範囲を [0, 1]にした限定得点 (LSc)で計算した距離(単純距

離:SD)を列限定距離 (Limited Distance in column: LDc)と呼びます。

LSc = D(S(Dnp, MnC(Dnp)), S(MxC(Dnp), MnC(Dnp)))

LDr = 1 - SD(LSc)

ここで MnC は列の最小値 (横ベクトル )を返し、MxC は行の最大値 (横ベク

トル )を返す関数です。

D v1 v2 v3

LSc v1 v2 v3

LDc v1 v2 v3

d1 45 48 66

d1 .059 .368 .575

v1 1.000 .727 .441

d2 56 59 54

d2 .382 .658 .425

v2 .727 1.000 .439

d3 58 51 78

d3 .441 .447 .725

v3 .441 .439 1.000

d4 77 72 20

d4 1.000 1.000 .000

d5 43 44 32

d5 .000 .263 .150

d6 58 34 90

d6 .441 .000 .875

d7 50 53 100

d7 .206 .500 1.000

この列限定距離 (LDc)は変数 (v1, v2, …)の大きさ(範囲)をそろえて、変

数の距離を測るときに使います。

■中世スペイン語文字特徴の距離係数

次はおよそ中世スペイン語公証文書に見られる 80 個の文字特徴につい

て年代間の限定距離を計算した結果です。

Page 126: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

125

このグラフから、それぞれ、対角要素から次第に距離係数が小さくなる

ことがわかります。次の表はそれぞれの年代の単峰性、正規性、平滑性の

指数を示します。

LDr Unimodality Normality Smoothness

1220 .668 .850 .807

1240 .851 .897 .895

1260 .921 .910 .968

1280 .890 .847 .958

1300 .996 .892 .991

1320 .972 .844 .992

1340 .841 .780 .884

1360 .803 .748 .943

1380 .788 .773 .857

1400 .930 .831 .939

1420 .944 .850 .976

1440 .863 .871 .924

1460 .851 .824 .922

1480 .824 .865 .881

どの指数もかなり高く、グラフの形状からも自然な年代推移が観察でき

るので、選択した文字特徴が年代に沿って推移していることがわかります。

4.3.3. 標準距離

データの行や列には、それぞれ異なるばらつきがあります。そこで、デ

ータ行列 Dnp のそれぞれの行や列のばらつきが距離に影響することを考慮

して、はじめにデータ行列全体の標準偏差 Sd * 3 で割って変換した結果を

標準化 3 得点行列 (Standard Score 3 in all: SS3a)とし、その単純距離 (SD)を

Dist. limitada 1220 1240 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480

1220 1.000 .685 .707 .623 .622 .574 .551 .527 .550 .530 .499 .540 .504 .534

1240 .685 1.000 .790 .736 .703 .634 .550 .539 .533 .556 .534 .521 .482 .528

1260 .707 .790 1.000 .832 .814 .697 .657 .632 .618 .622 .595 .604 .556 .574

1280 .623 .736 .832 1.000 .867 .782 .706 .692 .666 .697 .679 .646 .604 .620

1300 .622 .703 .814 .867 1.000 .787 .758 .733 .701 .695 .669 .670 .628 .619

1320 .574 .634 .697 .782 .787 1.000 .740 .701 .682 .693 .662 .647 .625 .613

1340 .551 .550 .657 .706 .758 .740 1.000 .827 .792 .726 .692 .746 .731 .670

1360 .527 .539 .632 .692 .733 .701 .827 1.000 .804 .778 .728 .789 .767 .711

1380 .550 .533 .618 .666 .701 .682 .792 .804 1.000 .754 .728 .792 .780 .707

1400 .530 .556 .622 .697 .695 .693 .726 .778 .754 1.000 .806 .799 .755 .743

1420 .499 .534 .595 .679 .669 .662 .692 .728 .728 .806 1.000 .787 .739 .743

1440 .540 .521 .604 .646 .670 .647 .746 .789 .792 .799 .787 1.000 .854 .781

1460 .504 .482 .556 .604 .628 .625 .731 .767 .780 .755 .739 .854 1.000 .747

1480 .534 .528 .574 .620 .619 .613 .670 .711 .707 .743 .743 .781 .747 1.000

Page 127: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

126

標準距離対称行列 (Standard Distance 3 in all: SD4a)として計算します 42。

SS3a = D(S(Dnp, Av(Dnp)), Sd(Dnp) * 3)

SD3a = 1 - SD(SS4a)

Dnp v1 v2 v3

SS3a v1 v2 v3

SD3a v1 v2 v3

d1 45 48 66

d1 -.207 -.153 .168

v1 1.000 .824 .406

d2 56 59 54

d2 -.010 .043 -.046

v2 .824 1.000 .350

d3 58 51 78

d3 .026 -.100 .383

v3 .406 .350 1.000

d4 77 72 20

d4 .365 .276 -.653

d5 43 44 32

d5 -.242 -.225 -.439

d6 58 34 90

d6 .026 -.403 .597

d7 50 53 100

d7 -.117 -.064 .776

次は、データ行列 Dnp の行を、その標準偏差 Sd * 3 で割って変換した結

果を標準化 3 得点行列 (Standard Score 3 in row: SS3r)とし、その標準距離対

称行列 (Standard Distance 4 in row: SD4r)を計算した結果です。

SS3r = D(S(Dnp, AvR(Dnp)), SdR(Dnp) * 3)

SD3r = 1 - SD(SS4r)

Dnp v1 v2 v3

SS3r v1 v2 v3

DS3r v1 v2 v3

d1 45 48 66

d1 -.288 -.180 .467

v1 1.000 .755 .372

d2 56 59 54

d2 -.054 .433 -.379

v2 .755 1.000 .261

d3 58 51 78

d3 -.126 -.330 .456

v3 .372 .261 1.000

d4 77 72 20

d4 .267 .203 -.470

d5 43 44 32

d5 .204 .266 -.470

d6 58 34 90

d6 -.039 -.387 .426

d7 50 53 100

d7 -.257 -.214 .471

次は、データ行列 Dnp の列を、その標準偏差 Sd * 3 で割って変換した結

果を標準化 3 得点行列 (Standard Score 3 in column: SS4c)とし、その標準距

離対称行列 (Standard Distance 3 in column: SD4c)を計算した結果です。

SS3c = D(S(Dnp, AvC(Dnp)), SdC(Dnp) * 3)

SD3c = 1 - SD(SS3c)

Dnp v1 v2 v3

SS3c v1 v2 v3

DS3c v1 v2 v3

d1 45 48 66

d1 -.327 -.108 .038

v1 1.000 .718 .455

42

行の標準得点で求めた距離は「標準ユークリッド距離」とよばれます(奥

野他 1971:395)。ここでは分母の標準偏差に 3 を掛けました。これは、行

列 X の成分の絶対値を 1 以下とするためです。一般に標準偏差 *3 を超える

ようなデータ値は僅少です。

Page 128: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

127

d2 56 59 54

d2 .023 .224 -.108

v2 .718 1.000 .414

d3 58 51 78

d3 .086 -.017 .185

v3 .455 .414 1.000

d4 77 72 20

d4 .689 .617 -.523

d5 43 44 32

d5 -.390 -.229 -.377

d6 58 34 90

d6 .086 -.530 .331

d7 50 53 100

d7 -.168 .043 .453

■相関と距離:語末 e の異常な脱落形

相関係数と距離係数の違いを数値とグラフで確認します。次は、中世ス

ペイン語で語末の e が異常に脱落したケースの頻度表と、その相関行列・

距離行列です (a: adelant, en: end, es: est, pa: part, pr: present, v:veint )。

Año a en es pa pr v

CC a en es pa pr v

1200

4 13

adelant 1.000 .645 .172 .405 .508 .450

1220 8 3 23 18 2

end .645 1.000 .318 .079 .062 .512

1240 16 7 8 11 2

est .172 .318 1.000 .237 -.246 .114

1260 30 3 9 46 40 9

part .405 .079 .237 1.000 .614 .584

1280 29 17 15 50 35 26

present .508 .062 -.246 .614 1.000 .504

1300 22 1 6 29 59 1

veint .450 .512 .114 .584 .504 1.000

1320 12

6 83 44 11

1340 17

4 22 23 2

StD a en es pa pr v

1360 10 3 1 13 32 20

adelant .377 .405 .475 .603 .410

1380 51 13 3 29 66 10

end .377

.256 .660 .802 .209

1400 20 1 2 64 121 17

est .405 .256

.579 .841 .344

1420 5

1 10 32

part .475 .660 .579

.600 .621

1440 6 2 1 15 24 1

present .603 .802 .841 .600

.736

1460 6 7

2 26 2

veint .410 .209 .344 .621 .736

1480 2

3 17 23 3

1500 8 1 2 16 2

相関係数 (CC)が一番大きなペアは end-a(delan)t です (.645)。一方、距離

係数 (StD)が一番近いペアは end-veint です (.209)。このように両者は一致し

ません。その理由を探るためにそれぞれのペアの散布図を見ましょう。

Page 129: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

128

上図のように、end: adelant は 1280 と 1380 のデータが強く働いて、一定

の相関を示しています

一方、上図で end:veint の関係を見ると、データが左下に集中しているこ

とがわかります。相関はそれほど強くありません (.512)。

このように、相関係数は変数の直線的な方向の「動き」の関係性を示し、

距離係数は、変数が占める座標の「位置」の近さを示すので解釈が異なり

ます。データの流れが X 軸上の動きに合わせて Y 軸上で動くと相関が高く

なります。一方、X 座標と Y 座標が近いデータが多数を占めると距離が近

くなります。

4.4. 近接

2 つのデータセットの対応する成分間の近接度 (Proximity: Prox)の平均を

近接係数 (Coefficient of Proximity: CP)と呼びます。はじめに近接度 (Prox)

1220

1240

1260

1280

13001320 1340

1360

1380

1400

1420

1440

1460

1480 15000

5

10

15

20

0 10 20 30 40 50 60

end

adelant

1220

1240

1260

1280

1300

13201340

1360

1380

1400

1440

1460

1480

15000

5

10

15

20

0 5 10 15 20 25 30

end

veint

Page 130: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

129

を次のように定義します 43。

Prox(X, Y) = 1 - |X - Y| / Max(X, Y)

上式の X, Y は比較する 2 つの値、 |X - Y|は両者の差の絶対値、Max(X, Y)

は X と Y の最大値 (大きな方の値 )です。たとえば、(2, 5)の近接度は 1 - |2 -

5 | / max(2, 5) = 1 - 3/5 = .4 です。近接度の範囲は [0, 1]です 44。

近接係数 (CP)は 2 つのベクトルの成分間の近接度の平均とします (N: デ

ータ数 )。

CP = Σ (i) Prox(X(i), Y(i)) / N

近接係数のベースとなる近接度は、個別の成分間の近接の度合いをその

相対的な数値にして計算するので、たとえば先に見た Prox(2, 5) = .4 と、

Prox(20, 50) = 1 - 30/50 = .4 は同じになります。近接係数にはこの性質があ

るために、先述の相関係数や距離係数で、外れ値が大きく作用する問題を

回避することができます。たとえば、次の表で、相関係数・距離係数(全

限定距離係数)・近接係数を比較しましょう。次の表には、d7:v2 と d7:v3

に外れ値があります。

D3 v1 v2 v3

d1 1 3 8

d2 3 5 7

d3 5 7 5

d4 7 8 4

d5 4 9 3

d6 8 9 2

d7 9 41 62

相関係数 v1 v2 v3 距離 v1 v2 v3

近接係数 v1 v2 v3

v1 1.00 .68 .50

v1 1.00 .80 .67

v1 1.00 .58 .47

v2 .68 1.00 .97

v2 .80 1.00 .85

v2 .58 1.00 .50

v3 .50 .97 1.00

v3 .67 .85 1.00

v3 .47 .50 1.00

このように相関係数 (v2, v3)が大きな数値 (.97)を示していますが、これは

次の図が示すように、 d7 の外れ値が強く作用したためです。

43

近接度 (Prox)は分離度 (Sep)の補数です(→分散)。 Prox = 1 - Sep. 44

X, Y を非負値 (0 または正値 )とします。近接度の最大値 1 は X=Y のとき

で、最小値 0 は X または Y が 0 のときです。X=Y=0 のときは、両者が完

全に近接しているので、その近接度を 1 とします。

Page 131: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

130

距離係数 (v2, v3)も高くなっていますが、これは次の図を見るとわかるよ

うに、 d1, d2, …, d7 の比較的小さな距離が積み上げられた結果です。

上の図を見ると、v2, v3 の推移は d1 ~ d6 で逆相関になっていることがわ

かります。しかし d7 の外れ値が作用して全体の相関を正の .97 にまで高め

ています。距離係数においては、全体的に v1-v2, v1-v3 に比べて v2-v3 が

近いので、v2-v3 の距離係数を上げています。とくに d7 においては、v2-v3

の距離は v1-v2, v1-v3 の距離よりもかなり小さくなっています。一方、近

接係数は、それぞれ比較する数値を、その数値の大きな方の数値で相対化

しているために極端な値(外れ値)が大きく作用することを防いでいます。

4.5. 差

データ行列の列ごとの平均値や分散などの要約値を差を求めます。その

ような差が偶然で起こる程度も確率によって考慮します。

d1d2d3d4d5d6

d7

.00

10.00

20.00

30.00

40.00

50.00

60.00

70.00

.00 10.00 20.00 30.00 40.00 50.00

v3

v2

0

10

20

30

40

50

60

70

d1

d2

d3

d4

d5

d6

d7

D3

v1

v2

v3

Page 132: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

131

4.5.1. 平均値差

下右表は下左表の列限定得点です。

D v1 v2 v3

L v1 v2 v3

d1 45 48 66

d1 .059 .368 .575

d2 56 59 54

d2 .382 .658 .425

d3 58 51 78

d3 .441 .447 .725

d4 77 72 20

d4 1.000 1.000 .000

d5 43 44 32

d5 .000 .263 .150

d6 58 34 90

d6 .441 .000 .875

d7 50 53 100

d7 .206 .500 1.000

この限定得点の列の平均値は

Ap v1 v2 v3

平均値 .361 .462 .536

次の表は、それぞれの列の平均値の差を示したものです。距離行列と同

じように、このような「平均差行列」 (Average Difference Matrix: ADM)で

は近い関係のものは数値が小さくなります。

M.Df. 0 v1 v2 v3

v1 .000 -.101 -.174

v2 .101 .000 -.073

v3 .174 .073 .000

平均差行列 (Rpp)を次のような行列演算で導出します。

Ap = AvV(LmV(Xnp))

ADM = S(ApT Ap)

ここで、Ap は入力行列 (Xnp)の列の限定値の平均ベクトル(横ベクトル)

です。これを「行列」で定義したように、行列要素の差 (S)をベクトルから

一様行列の変換を含む演算で出力します。次のように差の行列の大きさは

p 行 p 列になります。

ADMp p = App1 - Ap1 p

Page 133: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

132

4.5.2. 中央値差

次は、列ごとの中央値の差と、その確率を求めた結果です。

D v1 v2 v3

MdD.N v1 v2 v3

d1 45 48 66

v1 .0000 -.0650: -.609^ -.1926: -.794^

d2 56 59 54

v2 -.0650: -.609^ .0000 -.1276: -.707^

d3 58 51 78

v3 -.1926: -.794^ -.1276: -.707^ .0000

d4 77 72 20

d5 43 44 32

MdD.R v1 v2 v3

d6 58 34 90

v1 .0000 -.0650: -.600^ -.1926: -.788^

d7 50 53 100

v2 -.0650: -.600^ .0000 -.1276: -.702^

v3 -.1926: -.788^ -.1276: -.702^ .0000

4.5.3. 分散値差

同様に「分散差行列」 (Variance Difference Matrix: VDM)それぞれの列の

分散の差を示します。

V.Df. 0 v1 v2 v3

v1 .000 .011 -.021

v2 -.011 .000 -.032

v3 .021 .032 .000

Vp = VrV[LmV(Xnp)]

VDM = S(VpT Vp)

4.5.4. 標準偏差値差

次は、列ごとの標準偏差値の差と、その確率を求めた結果です。

D v1 v2 v3

SdD.N v1 v2 v3

d1 45 48 66

v1 .0000 .0181: .594^ -.0327: -.667^

d2 56 59 54

v2 .0181: .594^ .0000 -.0508: -.748^

d3 58 51 78

v3 -.0327: -.667^ -.0508: -.748^ .0000

d4 77 72 20

d5 43 44 32

SdD.R v1 v2 v3

d6 58 34 90

v1 .0000 .0181: .598^ -.0327: -.654^

d7 50 53 100

v2 .0181: .598^ .0000 -.0508: -.744^

Page 134: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

133

v3 -.0327: -.654^ -.0508: -.744^ .0000

4.5.5. ジニ係数値差

次は、列ごとのジニ係数値の差と、その確率を求めた結果です。

D v1 v2 v3

GiniD.N v1 v2 v3

d1 45 48 66

v1 .0000 .1057: .796^ .0899: .759^

d2 56 59 54

v2 .1057: .796^ .0000 -.0158: -.549^

d3 58 51 78

v3 .0899: .759^ -.0158: -.549^ .0000

d4 77 72 20

d5 43 44 32

GiniD.R v1 v2 v3

d6 58 34 90

v1 .0000 .1057: .800^ .0899: .765^

d7 50 53 100

v2 .1057: .800^ .0000 -.0158: -.552^

v3 .0899: .765^ -.0158: -.552^ .0000

4.5.6. エントロピー差

次は、列ごとのエントロピーの差と、その確率を求めた結果です。

D v1 v2 v3

N.EntropyD.N v1 v2 v3

d1 45 48 66

v1 .0000 .0755: .866^ .0614: .817^

d2 56 59 54

v2 .0755: .866^ .0000 -.0140: -.582^

d3 58 51 78

v3 .0614: .817^ -.0140: -.582^ .0000

d4 77 72 20

d5 43 44 32

N.EntropyD.R v1 v2 v3

d6 58 34 90

v1 .0000 .0755: .855^ .0614: .814^

d7 50 53 100

v2 .0755: .855^ .0000 -.0140: -.580^

v3 .0614: .814^ -.0140: -.580^ .0000

Page 135: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

134

5. 得点

データ分析の目的によってデータ行列の成分全体を一定の規則で変換す

ることがあります。この節では、データを構成する個々のデータの「得点」

(Score)に着目し、データ内のそれぞれの値の特徴をデータ全体の中で観察

します。以下で扱う得点の中には「度数」という用語を使って「相対度数」

「期待度数」のように一般によく使われるものもありますが、「加重得点」

「限定得点」「代表得点」「卓立得点」は一般に使われていません。「標準

得点」は「標準スコア」「標準測度」などとよばれますが、ここではデー

タの個々の数値を変換した値を成分としてもつ行列をすべて「得点行列」

という用語で統一しました。最初に扱う実測値の分布を見るために使う「階

級得点」は、もとの実測値の行列と大きさ(行数と列数)が異なりますが、

そのほかはすべて実測値の大きさと同じです。

5.1. 階級得点

実測値を一定の大きさの階級に分けて、階級ごとの度数を計算したもの

を階級得点 (Class Score)とよびます。はじめに横軸による階級得点の例を

見ます (階級幅を 10 とします )。

D v1 v2 v3

Cl 20 ~ 30 ~ 40 ~ 50 ~ 60 ~ 70 ~ 80 ~ 90 ~ 100 ~

d1 45 48 66

d1 2 1

d2 56 59 54

d2

3

d3 58 51 78

d3

2

1

d4 77 72 20

d4 1

2

d5 43 44 32

d5 1 2

d6 58 34 90

d6 1

1

1

d7 50 53 100

d7 2 1

たとえば、 d1 行 {45, 48, 66}の成分は、それぞれ 40, 40, 60 の階級に入る

ので、40 の階級の度数が 2 になり、60 の階級の度数が 1 になります。上右

表全体を見ると、どの階級で比較的頻度が高いのかを観察することができ

ます。

次は同じデータで、縦軸による階級得点の表です。

Cl v1 v2 v3

20 ~ 1

30 ~ 1 1

40 ~ 2 2

Page 136: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

135

50 ~ 4 3 1

60 ~

1

70 ~ 1 1 1

80 ~

90 ~

1

100 ~ 1

今度は、 v1, v2, v3 のそれぞれの列の階級の分布の様子がわかります。

最後に見るのは次の、両軸による階級得点です。

v1/v2 30 ~ 40 ~ 50 ~ 60 ~ 70 ~

40 ~ 2

50 ~ 1

3

60 ~

70 ~ 1

このように、縦軸の v1 と v2 の階級を縦と横の両軸に置いて、それぞれ

の階級がクロスする位置に該当する度数を入れます。この表は一般に「相

関表」とよばれています。

5.2. 相対得点

先に見た実測値の問題点は、行と列ごとにスケールが異なるため、比較

が難しいということです。たとえば、列 v1 の d1=10 と d2=11 をそのまま

比較することができません。それぞれの横和 (62, 29)が異なるからです。

実測値 v1 v2 v3 v4 v5 横和 Sh

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

縦和 Sv 21 27 27 22 17 114

そこで有効になるのが「相対得点」(Relative Score: RS)(割合)です。そ

れぞれの得点 X を和 Sm で割ることで算出できます。X = 0 のとき RS は最

小値 0 で、X = Sm のとき最大値 1 になります 45。

RS = X / Sm

RS: [0.0 (x = 0) ≦ 0.5 (X = Sm / 2) ≦ 1.0 (x = Sm)]

45

この数値に 100 を掛けた値が「百分率」 (percent)です。

Page 137: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

136

(1) 行相対得点と列相対得点

「行相対得点」(Relative Score in Row: RSr)と、「列相対得点」(Relative Score

in Column: RSc)をそれぞの横和列 (SumH)と縦和行 (SumV)を使って計算し

ます。

RSrn p = Xnp / SumHn 1

RScn p = Xnp / SumV1 p

ここで、X はそれぞれのセルの値ですが、Xn p は行列全体をさします。

SumH が横和 (Horizontal Sum)の列ベクトルを示し、SumV は縦和 (Vertical

Sum)の行ベクトルを示します。たとえば行相対得点の d1:v1 では X = 10 な

ので、それを SumH (= 62)で割ると 10 / 62 = 0.16 になります。

RSR v1 v2 v3 v4 v5

RSC v1 v2 v3 v4 v5

d1 .16 .31 .23 .11 .19

d1 .48 .70 .52 .32 .71

d2 .38 .24 .34 .00 .03

d2 .52 .26 .37 .00 .06

d3 .00 .00 .07 .86 .07

d3 .00 .00 .04 .55 .06

d4 .00 .11 .22 .33 .33

d4 .00 .04 .07 .14 .18

(2) 両相対得点と全相対得点

行と列を総合した「両相対得点」 (Relative Score in both: RSb)は行相対得

点と列相対得点の平均とします。ここでは両者が比率であることを考慮し

て「分数平均」 (Fm)を使います (→「要約」「平均」)。

RSb = Fm(RSRn p , RSCnp)

= Fm(Xn p / SumHn 1 , Xnp / SumV1 p)

= (Xn p + Xnp) / (SumHn 1 + SumV1 p)

= 2 Xn p / (SumHn 1 + SumV1 p)

つまり、行相対得点 Xnp / SumHn1 と列相対得点 Xn p / SumV1p のそれぞれの

分子を足したものを分子とし(ここでは分子は同じ)、それぞれの分母の

和を分母としたものです。たとえば d1:v1 の分数平均は行の平均が 10/62、

列の平均が 10/21 なので、(10 + 10) / (62 + 21) = 0.24 になります。このよう

に両軸相対得点によって行と列の相対得点を同時に考慮することができま

す。

RSb v1 v2 v3 v4 v5

RSa v1 v2 v3 v4 v5

d1 .24 .43 .31 .17 .30

d1 .09 .17 .12 .06 .11

d2 .44 .25 .36 .00 .04

d2 .10 .06 .09 .00 .01

d3 .00 .00 .05 .67 .06

d3 .00 .00 .01 .11 .01

d4 .00 .06 .11 .19 .23

d4 .00 .01 .02 .03 .03

Page 138: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

137

上右表の「全体相対得点」(Relative Score in all: RSa)は、それぞれのセル

の値を全範囲の和 (S)(スカラー)で割ったものです。

RSa = Xn p / S

割合や百分率などの相対得点 (R.S.)の問題点は、データの規模が大きくな

ると分母が大きくなるので、小さな数値になりやすいことです。とくに全

体相対得点 (RSA)が小さな数値になる傾向があります。

(3) 総和による標準化

上で見た「全相対得点」は「総和による標準化」(Normalization by Sum: NS)

を示します。単純にデータ Xn p のそれぞれの成分をデータ総和 (T)で割った

値です。たとえば、 d1:v1 のセルでは 10 / 114 = 0.088 となります。

NSn p = Xn p / Sum(In p)

Xnp v1 v2 v3 v4 v5 和 Sh

NS. v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d1 .088 .167 .123 .061 .105 .544

d2 11 7 10 0 1 29

d2 .096 .061 .088 .000 .009 .254

d3 0 0 1 12 1 14

d3 .000 .000 .009 .105 .009 .123

d4 0 1 2 3 3 9

d4 .000 .009 .018 .026 .026 .079

和 Sv 21 27 27 22 17 114 和 Sv .184 .237 .237 .193 .149 1.000

*池田 (1976: 121-123)を参照しました。

(4) 分数平均による標準化

次は「分数平均による標準化」 (Normalization by Fractional Mean: NFM)

式と結果です。詳細は後述します(→標準化の理由)。

Wn p = 2 Xn p / (Shn 1 + Sv1 p)

NFMn p = Wn p / Sum(Wn p)

NFM v1 v2 v3 v4 v5 Sh

d1 .062 .109 .080 .043 .078 .371

d2 .112 .064 .091

.011 .279

d3

.012 .170 .016 .199

d4 .014 .028 .049 .059 .151

Sv .174 .187 .212 .262 .164 1.000

(5) モステラーの標準化

下左表のようなデータ行列のそれぞれのセルを一定の値で割って、縦和

Page 139: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

138

も横和もそれぞれすべての和が同一になるように変換すると、全体の中で

値を相対的に見ることができます(下右表)。この例では総和を 1 にして

います。

Xnp v1 v2 v3 v4 v5 和 Sh

NS.Mos v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d1 .068 .091 .043 .007 .041 .250

d2 11 7 10 0 1 29

d2 .132 .059 .053 .000 .006 .250

d3 0 0 1 12 1 14

d3 .000 .000 .041 .162 .047 .250

d4 0 1 2 3 3 9

d4 .000 .050 .063 .031 .106 .250

和 Sv 21 27 27 22 17 T:114

和 Sv .200 .200 .200 .200 .200 1.000

このように横和 Sh を一定にそろえ、総和 (T)を 1 にするためは、行列全

体を横和 *行数 (=4)で割ります。

X(1 )

n p = Xnp / (Sh * 4)

X1

np v1 v2 v3 v4 v5 Sh

d1 .040 .077 .056 .028 .048 .250

d2 .095 .060 .086 .000 .009 .250

d3 .000 .000 .018 .214 .018 .250

d4 .000 .028 .056 .083 .083 .250

Sv .135 .165 .216 .326 .158 1.000

次に、縦和 Sv を一定にそろえ、総和 (T)を 1 にするためは、行列全体を

縦和 Sv*列数 (=5)で割ります。

X(2 )

n p = Xnp(1)

/ (Sv * 5)

X2

np v1 v2 v3 v4 v5 Sh

d1 .060 .093 .052 .017 .061 .283

d2 .140 .073 .080 .000 .011 .304

d3 .000 .000 .017 .132 .023 .171

d4 .000 .034 .051 .051 .105 .242

Sv .200 .200 .200 .200 .200 1.000

このとき横和 Sh が変化しますから、再び横和 Sh*行数で割り、また縦和

Sv*列数で割る、という演算をします。この演算をセルの値の変化がほと

んでなくなるまで繰り返します。この方法は「モステラー (Mosteller)の標

準化」 (Mosteller Standardization)とよばれます。*池田 (1976: 123-124)

モステラーの標準化はすべての行和を同じにそろえ、すべての列和を同

じにそろえます。そのため個々のデータの規模がもとの数値と大きく異な

ることになるので (たとえば上でマークした数値 )、注意が必要です。

Page 140: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

139

●検索

データ行列の特徴的な値を観察するために特定の条件に一致したセルの

文字色や背景色を変えます。たとえば、「A 以上」という条件を選択しま

す。「平均」を選択すると「平均以上」が条件になりまる。ここで「指定」

を具体的な数値にすると、その数値以上の値を持つセルを検索します。

データ

データ v-1 v-2 v-3 v-4 v-5

d-1 10 40 70 50 20

d-2 20 40 60 50 20

d-3 100 400 700 500 200

条件:A 以上、A:平均

結果

データ v-1 v-2 v-3 v-4 v-5

d-1 10 40 70 50 20

d-2 20 40 60 50 20

d-3 100 400 700 500 200

●異常値と欠測値

サンプルのデータ行列は小さなものですが、実際の言語データ分析では

行数も列数もかなり大きな行列を扱うことがあります。そのとき、それぞ

れのセルのデータは全体の中に紛れてしまい、貴重な情報が見失われます。

とくに「異常値」とよばれるデータに注目しなければなりません。そこ

には何か特別なことが生じているためです。一般にデータ分析では普通で

はないデータを異常値として退けるのではなく、むしろそのようなデータ

が特別な「情報」をもっている、とも考えられます。逆に、普通に起こる

ことにはあまり情報がありません。そこで平均からの距離が大きな値や上

位 N 番などをマークして注目するのです。

データ行列の「欠測値」(missing value)も異常値の 1 つと考えられるでし

ょう。次のサンプルデータでは、10 点満点のテストで欠席のケース x でマ

ークしてありますが、「指定」「N:x」でさらに背景色や文字色を変えてみ

ました。このようにデータを視覚化すると、欠測値を見失うことはありま

せん。欠測値の扱いについては後述します。 .

Page 141: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

140

●卓立化

[1] 行卓立相対得点と列卓立相対得点

「自分(セル)が他のメンバー(セル)たちと違う」ことを示す「卓立

得点」(Prominent Score: PS)という数値を提案します。ここでは 1 つのセル

の値 (X)、たとえば d1:v1=10 を取り出して説明しましょう。

Xnp v1 v2 v3 v4 v5 和 SumHn 1 個数 P

d1 10 19 14 7 12 62 5

d2 11 7 10 0 1 29 5

d3 0 0 1 12 1 14 5

d4 0 1 2 3 3 9 5

和 SumV1 p 21 27 27 22 17 114

個数 N 4 4 4 4 4 20

ここで、X の実測値 (=10)を、横行の他の値全体の和 (SumH – X = 62 - 10 =

52)と比較します。このとき、そのまま比較するのではなく、X に列数 (P) -

1 = 5 - 1 = 4 を掛けた値 (P – 1) X と SumH – X を比較します。これは X (1

個 )の大きさを、他のセル全部 (P - 1 個 )と比べると不利になるからです。そ

こで、セルの数を同じと見なしたときの X の値、 (P – 1) X を考えます。 (P

- 1) X を、他の (SumH – X)と相対化した値は (P – 1) X / [(P – 1) X + (SumH –

X)]です。これを「行卓立相対得点」(Prominent Relative Score in Row: PRSR)

とします。卓立係数 (PS)は [0.0 ~ 1.0]の範囲になります。

PRSR = (P – 1) Xnp / [(P – 1) Xnp + (SumHn 1 – Xn p )]

= (P – 1) Xnp / [(P – 2) Xnp + SumHn 1]

同様に「列卓立相対得点」 (Prominent Relative Score in Colum: PRSC)は

PRSC = (N – 1) Xnp / [(N – 1) Xn p + (SumV1 p – Xn p )]

= (N – 1) Xnp / [(N – 2) Xn p + SumV1p]

Page 142: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

141

セルの数が多くなると、相対得点 (RS)は小さくなりがちですが、卓立相

対得点 (PRS)ではセルの数 (Cn)の大小にあまり左右されない数値が得られ

ます。これは PS の式の分子にも分母にも P, N があるためです。

PRSR v1 v2 v3 v4 v5

PRSC . v1 v2 v3 v4 v5

d1 .43 .64 .54 .34 .49

d1 .73 .88 .76 .58 .88

d2 .71 .56 .68 .00 .13

d2 .77 .51 .64 .00 .16

d3 .00 .00 .24 .96 .24

d3 .00 .00 .10 .78 .16

d4 .00 .33 .53 .67 .67

d4 .00 .10 .19 .32 .39

[2] 両卓立相対得点と全卓立相対得点

行と列の卓立得点の分数平均 (FM)を求め、これを「両軸卓立相対得点」

(Prominent Relative Score in Both: PRSB)と定義します。

PRSB = FM (PRSR, PRSC)

= [(P – 1) Xn p + (N – 1) Xn p]

/ {[(P – 2) Xnp + SumHn 1] + [(N – 2) Xn p + SumV1 p]}

= (P + N – 2) Xn p / [(P + N – 4) Xn p + SumHn 1 + SumV1 p]

「全卓立相対得点」 (Prominent Relative Score in All: PRSA)は X を行列

全体のその他のメンバーの和 (S – X) と比較します。そのとき、X には行列

全体の個数 (N*P) – 1 を加重して不利にならないようにします。

PRSA = (N P – 1) Xn p / [(N P – 1) Xnp + (S – Xn p )]

= (N P – 1) Xn p / [(N P – 2) Xnp + S]

PRSM v1 v2 v3 v4 v5

PRSA v1 v2 v3 v4 v5

d1 .53 .72 .62 .41 .60

d1 .65 .79 .73 .55 .69

d2 .73 .54 .66 .00 .14

d2 .67 .55 .65 .00 .14

d3 .00 .00 .15 .88 .19

d3 .00 .00 .14 .69 .14

d4 .00 .17 .30 .46 .51

d4 .00 .14 .25 .34 .34

■相対頻度とパーミル比: 2 重子音文字

次は中世スペイン語 (公証文書 )の鼻音と流音の 2 重子音文字を有する語

の頻度の実測値 (O)です。

O 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn 550 66 143 57 1 2 2 4 4 1 0 2 30

ll 2310 1166 4524 1354 243 367 325 571 902 217 439 589 776

rr 625 327 1563 846 109 309 283 533 290 181 152 249 273

Page 143: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

142

この 3 者 (<nn>, <ll>, <rr>)だけを比較した行相対得点は次のようになり

ます。

PRF 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn .638 .077 .166 .066 .001 .002 .002 .005 .005 .001 .000 .002 .035

ll .168 .085 .328 .098 .018 .027 .024 .041 .065 .016 .032 .043 .056

rr .109 .057 .272 .147 .019 .054 .049 .093 .051 .032 .026 .043 .048

次は年代ごとのすべての文書の総語数 (W)を示します。

W 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

& 62549 29396 114499 44040 6000 11732 10506 19276 27990 8131 15952 20792 27048

先の実測値 (O)を総語数 (W)で割り、1000 を掛けると次のパーミル比が得

られます (M)。

Mn p = Onp * 1000 / W1p

M 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn 9 2 1 1 1

ll 37 40 40 31 41 31 31 30 32 27 28 28 29

srr 10 11 14 19 18 26 27 28 10 22 10 12 10

相対得点 (R)では比較する相手が自分を除いた 2 者に限られますが、全数

を母数とするパーミル比 (M)を使うと、全体の語数 (W)の中でそれぞれの 2

重文字語の趨勢を見ることができます。14 世紀に<nn>が急減したのは、こ

れが n の上に省略記号の~を付けた形に変わったためです。これがスペイ

ン語特有の文字エニェ (ñ)の起源になりました。

yo era mas ni<n>no「私は幼少だった」

●片側相対値と両側相対値

数値 X と数値 Y を比較するとき「差」 (X – Y)と「比」 (X / Y)が使えま

す。さらに、X / (X + Y), Y / (X + Y)という式も考えられます。これは、分

子の X や Y を全体 (X + Y)の中で相対化しています。これを「片側相対値」

(Unilateral relative value: Urv)とよぶことにします。

Urv = X / (X + Y)

片側相対値は [0, 1]の範囲を持ちます。その最小値 (0)は X = 0 のとき、最

大値 (1)は Y = 0 のときに発生します (X / X = 1)。その中間値は X = Y のと

Page 144: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

143

きに発生します (X / (2 X) = 1/2)。

また、 (X – Y) / (X + Y)という計算もよく使われます。これを「両側相対

値」 (Bilateral relative value: Brv)とよぶことにします。

Brv = (X – Y) / (X + Y)

片側相対値 (Urv)と両側相対値 (Brv)の間には次の関係があります。

2 Urv – 1 = Brv (*)

なぜならば

2 Urv – 1

= 2X / (X + Y) – 1 ←Urv = X / (X + Y)

= 2X / (X + Y) – (X + Y) / (X + Y) ←分母を共通にするため

= [2X – (X + Y)] / (X + Y) ←共通分母でまとめる

= (X – Y) / (X + Y) ←分子を整理

= Brv ←Brv の定義 (*)

次が先に扱ったデータの行相対得点 (Urvn p)と、上式 (*)を使って両側相対

値 (Brvn p)に変換した結果です。

Brvn p = 2 Urvn p - 1

Urvn p v1 v2 v3 v4 v5

Brvn p v1 v2 v3 v4 v5

d1 .16 .31 .23 .11 .19

d1 -0.68 -0.39 -0.55 -0.77 -0.61

d2 .38 .24 .34 .00 .03

d2 -0.24 -0.52 -0.31 -1.00 -0.93

d3 .00 .00 .07 .86 .07

d3 -1.00 -1.00 -0.86 0.71 -0.86

d4 .00 .11 .22 .33 .33

d4 -1.00 -0.78 -0.56 -0.33 -0.33

両側相対値 (Brv)の範囲は [-1, 1]になります。ゼロ (0)を中心に、正負±1

に伸びます。最小値 (-1)は X = 0 のとき、そして最大値 (1)は Y = 0 のときに

発生します。中間値は 0 ですが、やはり X = Y のときに発生します。この

ように両側相対値の最大値と最小値はそれぞれ片側相対値 (Urv)と同じ条

件で発生しますが、その範囲が異なります。

片側相対値は一般に単に「相対値」 (relative value)や「割合・率」 (ratio)

ともよばれていますが、これらはは「X / 全体」という式で示されます。

ここで「片側相対値」とよぶものは本質的にこれらと同じですが、分母の

中を X と Y, つまり比較するものと比較されるものを分けて考えます。割

合では隠れて見えなかったことが、相対値にすると、自己を含めた全体と

比べる、ということからわかることがあるからです。

一方、両側相対値は「自己と他者の差」(X−Y)と「自己と他者の和」(X+Y)

を比べるわけですから、それにどのような意味があるのか、ただちにはわ

かりません。両側相対値を直感的に納得するには、次のように式を変形す

Page 145: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

144

るとよいでしょう。

(X – Y) / (X + Y) = X / (X + Y) − Y / (X + Y)

つまり、両側相対値は X の片側相対値と Y の片側相対値の差を求めたこ

とになります。よって相対的な X と Y を比較して評価することになるので

す。そこで、片側相対値が数値をポジティブに評価するためのもの、両側

相対値が数値をポジティブにもネガティブにも評価するためのもの、と考

えます。

先にも述べたとおり、「片側相対値」は一般に「相対値」、「割合・率」

とよばれますが、「両側相対値」は私たちが調べた限りではその名称が見

つかりません。しかし、先述の「振動係数」や、後述する「Yule 連関係数」

「Hamann 連関係数」「Goodman and Kruskal 順序連関係数」などで使われて

います。私たちもこのテキストの各所で応用します。以下のテキストで単

に「相対値」とよぶものは、「片側相対値」を指します。

●片側相対値から両側相対値へ

先に見たように、片側相対値 X / (X + Y)を 2 倍して 1 を引くと (X – Y) / (X

+ Y)という両側相対値になります。これをモデルに使いましょう。

2X

X + Y− 1 =

2X−X−Y

X + Y=

X−Y

X + Y

そこで、相対得点 RS を次のように両側相対値にするために、はじめに相

対値 X / (X + Y)にします。

RS = X

Sm=

X

X + (Sm−X) 0.0 (X=0) ≦ R.S. ≦ 1.0 (X=Sm)

これを両側相対値にした相対得点 (R.S.)を「対称相対得点」(Relative Score in

contrast: RS+c)とよぶことにします。RS+c は RS の X と Sm – X を、それぞ

れ X, Y として、先の両側相対値 (X – Y) / (X + Y)にしたものです。

RSC = X − (Sm−X)

X + (Sm−X)=

2X − Sm

Sm

-1 (X=0)≦ RS(c) ≦ 1 (X=Sm)

RS+c の左式のほうがわかりやすいですが、EXcel で計算するときは右式の

ほうが簡単です。または R.S.を計算してあれば、それを参照し 2 を掛けて

1 を引きます。次がその結果です。

Page 146: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

145

RF(r) v1 v2 v3 v4 v5

RF(r)+c v1 v2 v3 v4 v5

d1 .16 .31 .23 .11 .19

d1 -0.68 -0.39 -0.55 -0.77 -0.61

d2 .38 .24 .34 .00 .03

d2 -0.24 -0.52 -0.31 -1.00 -0.93

d3 .00 .00 .07 .86 .07

d3 -1.00 -1.00 -0.86 0.71 -0.86

d4 .00 .11 .22 .33 .33

d4 -1.00 -0.78 -0.56 -0.33 -0.33

相対頻度はデータの規模が大きくなると一般に全体の数値が下がり、 0.5

を超えることが少なくなります。その対称相対頻度は、上の図のように、

ほとんどが負になります。

卓立相対得点 (PRS)は次のように相対値 X / (X + Y)で示されます。

PRS = (p – 1)X

(p – 1)X + (s – X)

0.0 (X=0) ≦ PRS ≦ 1.0 (X = s)

よって、「対称卓立相対得点」 (Prominent Score (contrast): PSC)は次のよう

になります。

PSC = (p – 1)X −(s – X)

(p – 1)X + (s – X)

次がその結果です。

PRF(r) v1 v2 v3 v4 v5

PRF(r)+c v1 v2 v3 v4 v5

d1 .43 .64 .54 .34 .49

d1 -.13 .28 .08 -.33 -.02

d2 .71 .56 .68 .00 .13

d2 .42 .12 .36 -1.00 -.75

d3 .00 .00 .24 .96 .24

d3 -1.00 -1.00 -.53 .92 -.53

d4 .00 .33 .53 .67 .67

d4 -1.00 -.33 .07 .33 .33

次に限定得点(L.S.)を対称化します。はじめに、L.S.を次のように相対

値 (X – Y) / (X + Y)にします。Mn が X を含むデータの最小値、MX がその

最大値を示します。

L.S. = X−Mn

MX−Mn=

X−Mn

(X−Mn)+(MX−X)

0.0 (X=Mn) ≦ L.S. ≦ 1.0 (X=MX)

上の右式は相対値 X / (X + Y)なので、それを両側相対値 (X – Y) / (X + Y)

にしたものが「対称限定得点」 (Limited Score (contrast): L.S.C.)です。

L.S.+c. = = (X−Mn)−(MX−X)

(X−Mn)+(MX−X)=

2X− MX−Mn

MX−Mn

-1.0 (X=Mn) ≦ L.S.c. ≦ 1.0 (X=MX)

Page 147: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

146

この L.S.+c.を最初から計算するには上の右式を使います。L.S.がすでに

計算されているならば、それを参照して L.S.C. = (L.S.) × 2 – 1 の計算を

します。次がその結果です。

L.S.r. v1 v2 v3 v4 v5

L.S.r.+c v1 v2 v3 v4 v5

d1 0.25 1.00 0.58 0.00 0.42

d1 -0.50 1.00 0.17 -1.00 -0.17

d2 1.00 0.64 0.91 0.00 0.09

d2 1.00 0.27 0.82 -1.00 -0.82

d3 0.00 0.00 0.08 1.00 0.08

d3 -1.00 -1.00 -0.83 1.00 -0.83

d4 0.00 0.33 0.67 1.00 1.00

d4 -1.00 -0.33 0.33 1.00 1.00

■中世・近代スペイン語の前置詞

次は中世・近代スペイン語で起きた前置詞の形態変化 pora > para(「~

のために」という意味:英語 for)を示す相対頻度と対称頻度の比較です。

相対頻度を使うと、それぞれの形に注目して変化を観察することができ、

対称頻度を使うと、両者を同時に対称させて変化を観察することができま

す。

相対頻度 : Pora

相対頻度 : Para

Page 148: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

147

対称頻度 : Pora - Para

データ行列全体の総和を 1 として、それぞれのセルの値を相対化する方

法を「標準化得点」 (Normalized Score: NS)とよびます。

■標準化の理由: «s»の 2 異文字・死亡者と生存者

中世・近代スペイン語では、文字 «s»に、短い<s> と縦長の<ſ>という異

文字 (allograph)がありました。その分布の特徴は語末に短い<s> が使われ

る傾向があった、ということが観察されています。しかし、確かに語末で

短い <s>が多く使われているのですが、それは語頭・語中でもやはり使わ

れています(下左表:『アレクサンダー大王物語』 Libro de Alexandre (1300)

の冒頭から 2 万字まで)。下右表は総和による標準化 (NS)の結果です。

/s/ 語頭 語中 語末 和 Sh

NS 語頭 語中 語末 和 Sh

<s> 62 2 593 657

<s> .042 .001 .397 .440

<ſ> 314 412 109 835

<ſ> .210 .276 .073 .560

和 Sv 376 414 702 1492 和 Sv .252 .277 .471 1.000

短い<s>が語末に出現する傾向は、このような小さな規模( 2 行 3 列の大

きさの表)で頻度が低いデータ(総数 1492)ならばとくに標準化しなくて

も大体様子がわかるのですが、データの規模とスケールがさらに大きくな

ると、分布の傾向を見ることが難しくなります。そこで、よく行われるの

は次のような横和、または縦和で割った相対頻度の表示です。

RSR 語頭 語中 語末 和 Sh

RSC 語頭 語中 語末 和 Sh

<s> .094 .003 .903 1.000

<s> .165 .005 .845 1.014

<ſ> .376 .493 .131 1.000

<ſ> .835 .995 .155 1.986

和 Sv .470 .496 1.033 2.000 和 Sv 1.000 1.000 1.000 3.000

ここで気づくことは、横和で相対化すると (RSR)、観点は横軸に集中し、

たとえば、短い s が語頭・語中よりも語末に集中していることがわかり、

一方、縦和で相対化すると (RSC)、たしかに語末では短い s が多く現れてい

るのですが (.845)、語頭での長い ſ もそれに続くように高い比率 (.835)を占

Page 149: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

148

めていることです。そのことならば、横軸相対化得点(上左表)で見れば、

語頭の位置の短い s と縦長の ſ の割合が同じになるのではないか、と思わ

れるかもしれませんが、実は、 .094 / .470 = .200, .376 / .470 = .800 になる

ので、上右表の .165, .835 とは異なり、必ずしも正確には両者の比率が正し

く比較できません。

次の表 (NS.FM)は横比率と縦比率の分数平均による標準化得点を示して

います。

NS.FM 語頭 語中 語末 和 Sh

<s> .052 .002 .377 .430

<ſ> .224 .285 .061 .570

和 Sv .276 .286 .438 1.000

上表 (NS.FM)=両軸相対得点 (RSB)では、語頭の<s>の頻度を横和で割っ

た値 62/657 と、縦和で割った値 62/314 のそれぞれの分子と分母を足して

割り算をしています( (62 * 2) / (657+314) = .052)。このとき、単に<s>の

頻度の横の割合だけでなく、その縦の割合も考慮に入れています。

さらに大きな数値例として、たとえば、コレラ流行時の A 市と B 市の感

染死亡者数を比較する資料があると仮定しましょう(下左表「コレラ」)。

下 右 表 (RSC) は そ の 縦 軸 の 割 合 で す 。 そ れ ぞ れ の 市 の 死 亡 者 の 割 合

( .032, .012)が算出されるので、ここから A 市 (.032)は B 市 (.012)と比べて、

2.7 倍にもなる (.032 / .12 ≒ 2.66)、と言えるでしょうか?それならば、生

存 者 を 比 較 して (.968, .988)、 両 者 の 比 を 計算 す る と .980 (.968 / .988

≒ .980)なので、ほとんど同じになってしまいます。

コレラ A 市 B 市 和 Sh

RSC A 市 B 市 和 Sh

死亡者 1300 250 1550 死亡者 .032 .012 .045

生存者 39000 20000 59000 生存者 .968 .988 1.955

和 Sv 40300 20250 60550 和 Sv 1.000 1.000 2.000

実は、このおうに母数の異なる集団の中の割合(率、%など)を比較す

ることは本質的にできないはずです。そこでデータを標準化する必要が生

まれますが、そうすると次のような結果になります。

NS.S A 市 B 市 和 Sh

NS.FM. A 市 B 市 和 Sh

死亡者 .021 .004 .026 死亡者 .045 .017 .062

生存者 .644 .330 .974 生存者 .571 .367 .938

和 Sv .666 .334 1.000 和 Sv .616 .384 1.000

上左表 (NS.S)は単純な総和による標準化の結果です。それぞれの 4 つの

数値は同じ共通の総和( 60550)で割っているので、一応は比較できます。

これで、もとのデータ行列では見にくかった割合の内訳がわかるようにな

Page 150: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

149

りました。しかし、この方法では、たとえば、B 市の死亡者の割合 (.004)

を計算するとき、その分母に、直接関係のない、A 市の多数の生存者 (39000)

も含めるので、その結果非常に小さな数値 (.004)になっています。むしろ、

死亡者全体の中の B 市の割合と B 市全体の中の死亡者の割合を共に計算に

入れた両軸の割合の分数平均(上右表 NS.FM)を使ったほうが納得できる

数値 (.017)になっていることがわかります。

言語研究に限らず、さまざまな分野の研究で母数の異なる集団の数量的

比較が行われますが、そのとき、そもそも母数が異なれば絶対頻度(数え

た素数)では比較できません。そこで、割合やパーセント、パーミル、パ

ーミリオンなどの相対頻度が使われることが多いのですが、これらの率も、

厳密に言えば、簡単には比較できないはずです。とくに母数が大きく異な

るときにその問題(比較が困難なこと)が顕著になります。極端な例では、

250/1000=25%と、3/10=30%を比較してもほとんど意味がないでしょう。そ

れならば、母数が近いとき、たとえば、25/400, 25/450 ならばそれほど問題

にならない、ということも考えられます。しかし、どのような母数の隔た

りまで比較が許されるのでしょうか? 1.5 倍や 2 倍ならば問題がないので

しょうか?厳密に数値を相対化して比較するためには、データ行列全体に

適切な標準化を適用してみる価値があります 46。

5.3. 対立得点

先に要約のための統計値として扱った「対立度」 (Oppositive Grade: OG)

を次のように得点として設定します。「行対立得点」 (Oppositive Score in

Row: OSR)は

OSR = [Xn p – (SumHn 1 – Xn p)] / [Xn p + (SumHn 1 – Xn p)]

= (2 Xnp – SumHn 1) / SumHn 1

= 2 Xn p / SumHn 1 - 1

「列対立得点」 (Oppositive Score in Column: OSC)は

OSC = [Xn p – (SumV1 p – Xn p)] / [Xn p + (SumV1 p – Xn p)]

= (2 Xnp – SumV1 p) / SumV1 p

= 2 Xn p / SumV1 p - 1

「両対立得点」(Oppositive Score in Both: OSB)は OSR と OSC の分数平均

値 (FM)を使います。

OSB = FM (OSR, OSC)

= [(2 Xn p – SumHn1) + (2 Xn p – SumV1 p)] / (Sn 1 + SumV1 p)

46

確率を用いた検定については後述します。

Page 151: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

150

= (4 Xnp – SumHn 1 – SumV1 p) / (Sn 1 + SumV1 p)

「全対立得点」 (Oppositive Score in All: OSA)は

OSA = [Xn p – (S – Xn p)] / [Xn p + (S – Xn p)]

= (2 Xnp – S) / S

= 2 Xn p / S - 1

ここで、SumHn 1 は横和縦ベクトル、SumV1 p は縦和横ベクトル、S は総和

スカラーを示します。

OSR v1 v2 v3 v4 v5

OSC 1 2 3 4 5

d1 -.677 -.387 -.548 -.774 -.613

d1 -.048 .407 .037 -.364 .412

d2 -.241 -.517 -.310 -1.000 -.931

d2 .048 -.481 -.259 -1.000 -.882

d3 -1.000 -1.000 -.857 .714 -.857

d3 -1.000 -1.000 -.926 .091 -.882

d4 -1.000 -.778 -.556 -.333 -.333

d4 -1.000 -.926 -.852 -.727 -.647

OSB 1 2 3 4 5

OSA v1 v2 v3 v4 v5

d1 -.518 -.146 -.371 -.667 -.392

d1 -.825 -.667 -.754 -.877 -.789

d2 -.120 -.500 -.286 -1.000 -.913

d2 -.807 -.877 -.825 -1.000 -.982

d3 -1.000 -1.000 -.902 .333 -.871

d3 -1.000 -1.000 -.982 -.789 -.982

d4 -1.000 -.889 -.778 -.613 -.538

d4 -1.000 -.982 -.965 -.947 -.947

5.4. 加重得点

絶対頻度と相対頻度はそれぞれの特徴があるので、データを観察すると

きに併用されることがあります。一般に頻度を比較するときは相対頻度が

使われますが、相対頻度の計算で分母の規模が大きく異なるとき比較が困

難になります。次に、その 1 つの解決法を提案します。

(1) 行加重得点行列と列加重得点行列

たとえば、d1:v2 の 19 はその横和が 62 ですから、この相対得点は 19/62

= .31 になります。一方、w4L4 の 3 の相対得点は 3/9 = .33 になり、 d1:v2

よりも大きな値になります。しかし、私たちの直感では前者の 19 のほうが

後者の 3 よりも「重い」値だと感じられます。

Page 152: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

151

実測値 v1 v2 v3 v4 v5 横和

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

縦和 21 27 27 22 17 114

このように実測値の得点を比較するとき、その実測値 (OS)と相対得点

(RS)の積にすると、実態を表す数値として直感的に納得がいくことがあり

ます。実測値に相対得点という重みを与えたからです。たとえば、上表の

d1:v2 の 19 には 19 / 62 = .31 という重みを与え、 d4:v2 の 3 には 3 / 9 = .33

という重みを与えます。そこで加重得点 (Weighted Score: WS)として次の式

を提案します。

WSRn p = Xn p RSRn p = Xn p Xn p / SumHn 1 = Xn p2 / SumHn 1

WSR.: 0.0 (X = 0) ≦ 0.5 (X2 = SumH / 2) ≦ X (X = SumH)

WSCn p = Xn p RSCn p = Xn p Xn p / SumV1 p = Xn p2 / SumV1 p

WSC.: 0.0 (X = 0) ≦ 0.5 (X2 = SumV / 2) ≦ X (X = SumV)

ここで、WSR は行加重得点、WSC は列加重得点、X は実測値、RSR は

行相対得点、SumH は横和列(縦ベクトル)、RSC は列相対得点、SumV

は縦和行(横ベクトル)を示します。加重得点 (WS)は X = 0 のときに最小

値ゼロになり、X = SumH, X = SumV のとき、つまりデータの中に X 以外

の数値がないときに最大値 X になります。

WSR. v1 v2 v3 v4 v5

WSC. v1 v2 v3 v4 v5

d1 1.61 5.82 3.16 0.79 2.32

d1 4.76 13.37 7.26 2.23 8.47

d2 4.17 1.69 3.45 0.00 0.03

d2 5.76 1.81 3.70 0.00 0.06

d3 0.00 0.00 0.07 10.29 0.07

d3 0.00 0.00 0.04 6.55 0.06

d4 0.00 0.11 0.44 1.00 1.00

d4 0.00 0.04 0.15 0.41 0.53

(2) 両加重得点行列と全加重得点行列

両加重得点 (Weighted Score in Both: WSB)の式は行の加重得点と列の加

重得点の分数平均とします。

WSBn p = (Xn p2 + Xn p

2) / (SumHn 1 + SumV1 p)

= 2 Xn p2 / (SumHn 1 + SumV1 p)

全加重得点 (Weighted Score in All: WSA)を求めるには、分母に全得点の

総和 (S)を使います。全体加重得点 (WSA)は表全体の総和 (N)で相対化される

ために全体的に数値が低くなる傾向があります。

Page 153: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

152

WSA = Xn p2 / S

WSM. v1 v2 v3 v4 v5

WSA v1 v2 v3 v4 v5

d1 2.41 8.11 4.40 1.17 3.65

d1 0.88 3.17 1.72 0.43 1.26

d2 4.84 1.75 3.57 0.00 0.04

d2 1.06 0.43 0.88 0.00 0.01

d3 0.00 0.00 0.05 8.00 0.06

d3 0.00 0.00 0.01 1.26 0.01

d4 0.00 0.06 0.22 0.58 0.69

d4 0.00 0.01 0.04 0.08 0.08

●打率と安打数

たとえば、 1 シーズンに 10 打数 3 安打という成績の野球選手 A と 100

打数 25 安打の選手 B の成績を比べるとき、打率だけを見ると 0.3 と 0.25

になるので、A のほうが優秀、ということになります。しかし、安打数で

比べるならば後者 B のほうがずっとチームの成績に貢献しています。これ

を加重得点で比べるならば、 0.9 と 6.25 という数値になり、後者 B のほう

が前者 A の 7 倍近い成績 (6.944)になります。このように数値の評価をする

ときは、実測値(安打数)や相対得点(打率)よりも加重得点のほうが直

感に合う数値になるでしょう。

●絶対頻度・相対得点・加重得点の比較

1/10 と 10/100 を比べると、どちらも相対得点は同じですが (.100)、加重

得点は、それぞれ .100, 1.000 となって、両者の差は .900 になり、後者のほ

うがかなり「重い」値になります。次に、x / a と y / b の、それぞれの値を

次の表で比較しましょう。RS は相対得点、WS は加重得点、D は加重得点

の差を示します。 y を 10 から 0 まで -1 のステップで下げていきます。

x a y b RS(x) RS(y) WS(x) WS(y) D=WS(y)-WS(x)

1 10 10 100 .100 .100 .100 1.000 .900

1 10 9 100 .100 .090 .100 .810 .710

1 10 8 100 .100 .080 .100 .640 .540

1 10 7 100 .100 .070 .100 .490 .390

1 10 6 100 .100 .060 .100 .360 .260

1 10 5 100 .100 .050 .100 .250 .150

1 10 4 100 .100 .040 .100 .160 .060

1 10 3 100 .100 .030 .100 .090 -.010

1 10 2 100 .100 .020 .100 .040 -.060

1 10 1 100 .100 .010 .100 .010 -.090

1 10 0 100 .100 .000 .100 .000 -.100

そうすると、 y が 4 と 3 の間で差がなくなり、その後は x の加重得点の

ほうが大きくなっていることがわかります。このように、絶対頻度 (x <= y)、

Page 154: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

153

相対得点 (RS(x) >= SF(y))と、加重得点 (WS(x) < ~ > WS(y))の大小関係は常

に等しいわけではありません。 x と y の加重得点が等しくなるときの y の

値は、 x/a - y/b = 0 から y = x √𝑏/𝑎 を導いて数値を代入すると、 y = 1 *

√100/10 = 3.162 になります。

■中世スペイン語の語末母音 e の脱落

スペイン語史の初期に、語末の母音 -e は歯・歯茎の単子音 C の後で規則

的に脱落しましたが (ciudad(e), papel(e), mes(e), etc.)、中世スペイン語のあ

る時期に present(e), veint(e), adelant(e), part(e), est(e), end(e)のような 2 子音

連続 (CC)の後でもしばしば脱落しました。次は、およそ 1500 の公証文書に

おけるこれら 6 語の語末母音 -e の脱落 (-CC)と保持 (-CCe)の回数を示します。

年代 -CC -CCe 計 -CC の率 加重得点 (WS)

1075 2 2 4 .500 1.0

1100 7 5 12 .583 4.1

1150 15 5 20 .750 11.3

1175 10 15 25 .400 4.0

1200 25 68 93 .269 6.7

1225 70 173 243 .288 20.2

1250 101 361 462 .219 22.1

1275 228 605 833 .274 62.4

1300 137 418 555 .247 33.8

1325 165 315 480 .344 56.7

1350 102 358 460 .222 22.6

1375 189 312 501 .377 71.3

1400 239 623 862 .277 66.3

1425 52 283 335 .155 8.1

1450 74 535 609 .122 9.0

1475 48 374 422 .114 5.5

1500 45 749 794 .057 2.6

1525 7 386 393 .018 .1

1550

304 304

この表の加重得点を見ると、 -CC の出現がとくに 13 世紀後半から 14 世

紀にかけて顕著になっていることがわかります。従来の研究では 13 世紀前

半に多かった、と報告されていますが、公証文書ではその時期を後に移動

する必要があります。

上の表の 1150 の年代では、-CC の率は確かに .750 と高いのですが、この

時期はラテン語の文書が多くスペイン語の資料は限られているので、加重

得点はかなり低くなります (11.3)。

Page 155: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

154

■現代スペイン語の文法標識付与

スペイン語などの屈折型ヨーロッパ言語の分析のためには、テキスト中

に出現形(変化形)から代表形(名詞ならば単数形、形容詞ならば男性単

数形、動詞ならば不定詞)を導き、出現形の文法特徴(品詞、名詞の性・

数、動詞の法・時制・人称)を分析しなければなりません。短文ならば人

手でも分析できますが、たとえばセルバンテス『ドン・キホーテ』の全文

を分析することは無理です。そこで、統計学を利用した「文法標識付与プ

ログラム」 (grammatical tagger)を作成します。

変化形が常に一意的な対応があるならば、プログラムは対応表を参照し

ながら出現形に文法標識を与えればよいので簡単です。たとえば

Alicia estaba durmiendo. (アリシアは眠っていた )

出現形 代表形 文法特徴

Alicia Alicia 固有名詞

estaba estar 直説法・線過去・ 3 人称

durmiendo dormir 現在分詞

ところが、たとえば pienso という語形には、動詞 pensar「考える」の直

説法現在形 1 人称「私が考える」と、男性名詞「肥料」という 2 つの分析

が可能です。ここでは el pienso que compró ayer「彼が昨日買った飼料」を

分析例とします。はじめにプログラムはすべての品詞の可能性と、前文脈・

中文脈・後文脈における品詞連続の頻度 (*)を列挙します。

(1) 前文脈 : el pienso {que} : (58)

«定冠詞 - 名詞 - {関係代名詞 }» (54)

«定冠詞 - 名詞 - {接続詞 }» (4)

«定冠詞 - 動詞 - {関係代名詞 }» (0)

«定冠詞 - 動詞 - {接続詞 }» (0)

(2) 中文脈 : pienso {que} compró : (105)

«名詞 - {関係代名詞 } - 動詞 » (82)

«名詞 - {接続詞 } - 動詞 » (23)

(3) 後文脈 : {que} compró ayer: (16)

«{関係代名詞 } - 動詞 - 副詞» (2)

«{接続詞 } - 動詞 - 副詞» (14)

そして、 (1)前文脈で 4 つの可能性の中から括弧内の頻度が一番高い «定

冠詞 - 名詞 - {関係代名詞 }» (54)の確率を計算します。54 / (54 + 4 + 0 + 0)

= .931。 同様にして、 (2)中文脈と (3)後文脈でも最大頻度の確率を求めま

す。«名詞 - {関係代名詞 } - 動詞 » (82): 82 / (82 + 23) = .780; «{接続詞 } - 動

Page 156: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

155

詞 - 副詞»: 14 / (2 + 14) = .875。3 つの文脈の中で最大の確率を示すのは (1)

前文脈 (.931)になるので、プログラムはこの分析を提示します。

この分析は正しいのですが、ここで仮に (3)の «{関係代名詞 } - 動詞 - 副

詞 »の頻度が 2 ではなくて 1 であった、としましょう。そうすると、«{接続

詞 } - 動詞 - 副詞»の確率は 14 / (14 + 1) = .933 になりますから、 3 つの文

脈の中で最大になり、プログラムはこの誤った分析を提示するはずです。

しかし、私たちの直感では、54 / 58 のほうが 14 / 15 よりも重要度が高い、

と思われます。先ほどの打席と安打数の関係(打率)を思い出してくださ

い。そこで、確率などの率(割合)の軽重を比較するとき加重得点を使え

ば、542 / 58 = 50.3 のほうが 14

2 / 15=13.1 よりも大きくなります。次のプロ

グラムは品詞連続の決定のために加重得点を計算しています。

http:/ /lecture.ecc.u-tokyo.ac.jp/~cueda/lexis/

5.5. 限定得点

実測値の最小値を 0 とし、最大値を 1 として、範囲を [0.0 ~ 1.0]に限定し

て計算した値を限定得点 (Limited Score: LS)とよびます。次のような行、列、

全体の、最小値と最大値を使います。

実測値 v1 v2 v3 v4 v5 横最小値 MinH 横最大値 MaxH

d1 10 19 14 7 12 7 19

d2 11 7 10 0 1 0 11

d3 0 0 1 12 1 0 12

d4 0 1 2 3 3 0 3

縦最小値 MinV 0 0 1 0 1 0

縦最大値 MaxV 11 19 14 12 12

19

たとえば d1:v1 (= 10)は、{10, 19, 14, 7, 12}というデータの範囲 19 – 7 = 12

の中で、最小値 (= 7)から 3 進んだ位置にあります。そこで (10 – 7) / (19 – 7)

= 3 / 12 = .25 という計算をすると、10 が全体 {10, 19, 14, 7, 12}の中で、25%

Page 157: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

156

の位置にあることがわかります。

LS = (X – Min) / (Max – Min)

LS: 0.0 (X = Min) ≦ 0.5 (X = (Max – Min) / 2) ≦ 1.0 (X = MaX)

ここで Min がデータの最小値、MaX がその最大値を示します。X = Min

のとき、LS は最小値 0.0 になり、X = Max のとき、L.S.は最大値 1.0 にな

ります。中間点 (0.5)は X が Max と Min の中間にあるときです。

(1) 行限定得点と列限定得点

行限定得点 (LSR)と列限定得点 (LSC)の式は次のようになります。

LSRn p = (Xn p – MinHn1) / (MaxHn 1 – MinHn 1)

LSCn p = (Xn p – MinV1p) / (MaxV1 p – MinV1 p)

ここで MinHn 1 は行最小値の縦ベクトル、MinV1 p .は列最小値の横ベクト

ル、MaxHn 1 は行最大値の縦ベクトル、MaxV1 p .は列最大値の横ベクトルを

示します。

LSR. v1 v2 v3 v4 v5

LSC. v1 v2 v3 v4 v5

d1 0.25 1.00 0.58 0.00 0.42

d1 0.91 1.00 1.00 0.58 1.00

d2 1.00 0.64 0.91 0.00 0.09

d2 1.00 0.37 0.69 0.00 0.00

d3 0.00 0.00 0.08 1.00 0.08

d3 0.00 0.00 0.00 1.00 0.00

d4 0.00 0.33 0.67 1.00 1.00

d4 0.00 0.05 0.08 0.25 0.18

(2) 両限定得点と全限定得点

行の限定得点と列の限定得点の分数平均を「両限定得点」(Limited Score

in Both: LSB)とします。

LSB = [(Xn p – MinHn 1) + (X – MinV1 p)]

/ [(MaxHn 1 – MinHn 1) + (MaxV1p – MinV1 p)]

= (2Xnp – MinHn1 – MinV1 p) / (MaxHn1+ MaxV1 p– MinHn1 – MinV1 p)

「全限定得点」 (Limited Score in All: LSA)の式では、行列全体の最小値

MinA と最大値 MaxA を使います。

LSA. = (X – MinA) / (MaxA – MinA)

Page 158: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

157

LSB v1 v2 v3 v4 v5

LSA v1 v2 v3 v4 v5

d1 0.57 1.00 0.80 0.29 0.70

d1 0.53 1.00 0.74 0.37 0.63

d2 1.00 0.47 0.79 0.00 0.05

d2 0.58 0.37 0.53 0.00 0.05

d3 0.00 0.00 0.04 1.00 0.04

d3 0.00 0.00 0.05 0.63 0.05

d4 0.00 0.09 0.19 0.40 0.36

d4 0.00 0.05 0.11 0.16 0.16

限定得点は、個々の数値がデータ全体の中で、どのように位置づけられ

るかを知るために有用です。

■語彙の文法カテゴリーと出現頻度

次はセルバンテス『ドン・キホーテ』(1605, 1615)の全出現語彙を文法カ

テゴリーと頻度のランクによって分類したものです。頻度のランクは出現

度数を対数に変換し、さらに限定得点を使って、それを 1(最小頻度)か

ら 10(最大頻度)に分類しました。それぞれのセルには該当する異なり語

数を示しています。

Grammatical category (Members) and Rank (1 – 10)

Category / Rank 1 2 3 4 5 6 7 8 9 10 Total

Noun 1656 973 579 349 171 70 10 2 3.810

Verb 631 399 271 183 93 41 16 9 2 1 1.646

Adjective 562 279 191 122 39 25 5 2 1.225

Adverb 55 36 20 17 18 11 8 4 169

Interjection 10 7 3 1 1 22

Numeral 7 8 8 8 1 3 1 36

Demonstrative pronoun 1 2 1 1 1 6

Indefinite pronoun 2 2 1 8 3 16

Interrogative 2 1 2 2 1 8

Personal pronoun tonic 1 1 1 3 2 2 2 12

Preposition 3 1 4 4 1 3 2 3 21

Determinant 4 11 10 5 4 3 2 39

Conjunction 1 1 1 1 4 3 2 13

Unstressed personal

pronoun

3 7

3

13

Relative 1 3 1 5

語彙は冠詞や前置詞・接続詞などの「機能語」(Function Word: 一般に高

頻度で小数メンバー )と、名詞、形容詞、動詞などの「内容語」( content: word:

一般に低頻度で多数メンバー)に分類されます。しかし、上の表を見ると、

機能語であっても比較的低頻度の語があり、また、内容語であっても比較

的頻度が高い語があります。そこで、二分される文法カテゴリーと段階的

Page 159: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

158

な頻度について、次のように 4 分割をしました。

Lexicon type / Frequency High Frequency Low Frequency

Function Words Grammatical Words Instrumental Words

Content Words Common Words Specific Words

一般に高頻度語は短縮しやすく、また高頻度の不規則変化形が保持され

やすい、と言われます。しかし、同じ高頻度語について述べられているこ

とが、一方で語形が短縮し他方で語形の保持というのでは、一見、矛盾し

ているかのように思われます。

そこで、それぞれのメンバーを調べると、傾向として、語彙の短縮化は

むしろ高頻度の機能語(Grammatical Words:強勢アクセントがないため弱

化する)で起こりやすく、一方、不規則変化の保持は高頻度の内容語

(Common Words:強勢があるので弱化しない)の特徴だということがわか

りました。そこで、言語変化の直接的な要因として頻度を考えるのではな

く、むしろ語の機能の違いが、語彙の頻度や語形の(不)変化を引き起こ

している、と考えたほうがよいと思います。

5.6. 比較得点

個々のセルの値(実測値)を平均値、中央値、中間値、最小値、最大値

などのデータの「代表値」と比較したものを比較得点 (Comparative Score:

CS)とよびます。

(1) 平均値比較得点

Xnp v1 v2 v3 v4 v5 横平均値 MeH

d1 10 19 14 7 12 12.40

d2 11 7 10 0 1 5.80

d3 0 0 1 12 1 2.80

d4 0 1 2 3 3 1.80

縦平均値 MeV 5.25 6.75 6.75 5.50 4.25 5.70

平均値差比較得点 (Comparative Score. Mean Difference: CS.MeD)は、それ

ぞれのセルの値 (X)の、平均値からの差を示します 47。

行 平 均 値 差 比 較 得 点 (Comparative Score. Mean Difference in Row:

CS.MeD.R)と、列平均値差比較得点 (Comparative Score. Mean Difference in

Column: CS.MeD.C)は次のようにして求めます。MeHn1 は横平均列、MeV1 p

は縦平均行です。

CS.MeD.R = Xnp – MeHn1

47

「平均値差」は「偏差」 (deviation)とよばれています。

Page 160: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

159

CS.MeD.C = Xnp – MeV1p

た と え ば 、 d1:v1=10 の 行 平 均 値 差 比 較 得 点 は 、 d1 の 行 平 均 が

(10+19+14+7+12) / 5 = 62 / 5 = 12.4 なので、 10 – 12.4 = -2.4 になります。

CS.MeD.R v1 v2 v3 v4 v5

CS.MeD.C v1 v2 v3 v4 v5

d1 -2.40 6.60 1.60 -5.40 -0.40

d1 4.75 12.25 7.25 1.50 7.75

d2 5.20 1.20 4.20 -5.80 -4.80

d2 5.75 0.25 3.25 -5.50 -3.25

d3 -2.80 -2.80 -1.80 9.20 -1.80

d3 -5.25 -6.75 -5.75 6.50 -3.25

d4 -1.80 -0.80 0.20 1.20 1.20

d4 -5.25 -5.75 -4.75 -2.50 -1.25

両 平 均 値 差 比 較 得 点 (Comparative Score, Mean Difference in Both:

CS.MeD.B)は行と列の 2 つの平均値差得点の算術平均とします 48。全平均値

差比較得点 (Comparative Score, Mean Difference in All: CS.MeD.A)は行列全

体の平均 (MeA)を使います。

CS.MeD.B = [(CS.Me.D.r.) + (D.A.S.c.)] / 2

CS.MeD.A = Xn p – MeA.

CS.MeD.B v1 v2 v3 v4 v5

CS.MeD.A v1 v2 v3 v4 v5

d1 1.18 9.43 4.43 -1.95 3.68

d1 4.30 13.30 8.30 1.30 6.30

d2 5.48 0.73 3.73 -5.65 -4.03

d2 5.30 1.30 4.30 -5.70 -4.70

d3 -4.03 -4.78 -3.78 7.85 -2.53

d3 -5.70 -5.70 -4.70 6.30 -4.70

d4 -3.53 -3.28 -2.28 -0.65 -0.03

d4 -5.70 -4.70 -3.70 -2.70 -2.70

平均値比比較得点 (Comparative Score, Mean Ratio: CS.MeR)は実測値を平

均値で割った値(比)です。それぞれ行 (R)、列 (C)、両軸 (B)、全体 (A)の平

均値比を見ます。X = 0 のときに最小値 0.0 になり、X = 和 (Sm) のとき、

和 (Sm) / 平均 (Me) = 個数になります。中点の 1.0 は X = Me のときです。

CS.MeR.R = Xnp / MeHn1

CS.MeR.R: 0.0 (X = 0) ≦ 1.0 (X = MeHn 1) ≦ P (X = SumH)

CS.MeR.C. = Xn p / MeV1 p

CS.MeR.C.: 0.0 (x = 0) ≦ 1.0 (X = MeV1 p) ≦ N (x = SumV)

た と え ば 、 d1:v1=10 の 行 平 均 値 比 比 較 得 点 は 、 d1 の 行 平 均 が

(10+19+14+7+12) / 5 = 62 / 5 = 12.4 なので、 10 / 12.4 ≒ 0 .81 になります。

48

ここで分数平均を使わない理由は、比較得点が相対値 X/(X+Y)でないか

らです。

Page 161: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

160

CS.MeR.R v1 v2 v3 v4 v5

CS.MeR.C v1 v2 v3 v4 v5

d1 0.81 1.53 1.13 0.56 0.97

d1 1.90 2.81 2.07 1.27 2.82

d2 1.90 1.21 1.72 0.00 0.17

d2 2.10 1.04 1.48 0.00 0.24

d3 0.00 0.00 0.36 4.29 0.36

d3 0.00 0.00 0.15 2.18 0.24

d4 0.00 0.56 1.11 1.67 1.67

d4 0.00 0.15 0.30 0.55 0.71

両比較平均値比得点 (Comparative Score, Mean Ratio in Both: CS.MeR.B)は、

行比較平均値比得点と列比較平均値比得点の分数平均とします。全平均値

比得点 (Comparative Score, Mean Ratio in All: CS.MeR.A)は全体の平均値

(MeA)を使います。

CS.MeR.B = 2 Xnp / (MeHn 1 + MeV1 p)

CS.MeR.A. = Xn p / MeA.

CS.MeR.B v1 v2 v3 v4 v5

CS.MeR.A v1 v2 v3 v4 v5

d1 1.13 1.98 1.46 0.78 1.44

d1 1.75 3.33 2.46 1.23 2.11

d2 1.99 1.12 1.59 0.00 0.20

d2 1.93 1.23 1.75 0.00 0.18

d3 0.00 0.00 0.21 2.89 0.28

d3 0.00 0.00 0.18 2.11 0.18

d4 0.00 0.23 0.47 0.82 0.99

d4 0.00 0.18 0.35 0.53 0.53

平均値差得点はデータのスケールによって左右されるで、平均差得点を

平均値で割ってデータのスケールに合わせます 49。これを平均値差比得点

(Comparative Score. Mean Difference ratio: CS.MeDr.)と名づけます 50。 0.0 は

参照値 (x = Me)です。

CS.MeDr.R = (Xn p – MeHn1) / MeH1

CS.MeDr.R: -1 (x=0) ≦ 0.0 (x = MeH1) ≦ SumH–MeH1) / MeH1 (x=SumH)

CS.MeDr.C = (Xn p – MeV1p) / MeV1p

CS.MeDr.C: -1 (x=0) ≦ 0.0 (x = MeV1p) ≦ SumV – MeV1 p) / Me (x=SumV)

CS.MeDr.R. v1 v2 v3 v4 v5

CS.MeDr.C. v1 v2 v3 v4 v5

d1 - .19 .53 .13 - .44 - .03

d1 .90 1.81 1.07 .27 1.82

d2 .90 .21 .72 - 1.00 - .83

d2 1.10 .04 .48 - 1.00 - .76

d3 - 1.00 - 1.00 - .64 3.29 - .64

d3 - 1.00 - 1.00 - .85 1.18 - .76

d4 - 1.00 - .44 .11 .67 .67

d4 - 1.00 - .85 - .70 - .45 - .29

両平均値差比得点 (Comparative Score. Mean Difference ratio in Both:

CS.MeDr.B)は行平均値差比得点と列平均値差比得点の分数平均とします。

49

完全な正規化ではありません。 50

東京大学教養学部統計学教室 (1991:247)は「差比」を「相対誤差」とよ

んでいます。

Page 162: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

161

CS.MeDr.B = [(Xn p – MeRn 1) + (Xn p – MeC1 p .)] / (MeRn 1 + MeC1 p)

= (2 Xnp – MeRn1 – MeC1 p) / (MeRn1 + MeC1 p

全平均値差比得点 (Comparative Score. Mean Difference Ratio in All:

CS.MeDr.A)は、行列全体の平均を使います。

CS.MeDr.A = (Xn p – MeA) / MeA

CS.MeDr.B. v1 v2 v3 v4 v5

CS.MeDr.A. v1 v2 v3 v4 v5

d1 .13 .98 .46 - .22 .44

d1 .75 2.33 1.46 .23 1.11

d2 .99 .12 .59 - 1.00 - .80

d2 .93 .23 .75 - 1.00 - .82

d3 - 1.00 - 1.00 - .79 1.89 - .72

d3 - 1.00 - 1.00 - .82 1.11 - .82

d4 - 1.00 - .77 - .53 - .18 - .01

d4 - 1.00 - .82 - .65 - .47 - .47

比較基準値を平均値ではなく、以下のように、中央値、中間値、最小値、

最大値、大数平均値、大数最頻値とすることも可能です。

(2) 中央値比較得点

実測値 v1 v2 v3 v4 v5 中央値

d1 10 19 14 7 12 12.00

d2 11 7 10 0 1 7.00

d3 0 0 1 12 1 1.00

d4 0 1 2 3 3 2.00

中央値 5.00 4.00 6.00 5.00 2.00 3.00

中央値比較差得点 (Comparative Score. Median Difference: CS.MdD)

CS.MdD.R. v1 v2 v3 v4 v5

CS.MdD.C v1 v2 v3 v4 v5

d1 -2.00 7.00 2.00 -5.00 0.00

d1 5.00 15.00 8.00 2.00 10.00

d2 4.00 0.00 3.00 -7.00 -6.00

d2 6.00 3.00 4.00 -5.00 -1.00

d3 -1.00 -1.00 0.00 11.00 0.00

d3 -5.00 -4.00 -5.00 7.00 -1.00

d4 -2.00 -1.00 0.00 1.00 1.00

d4 -5.00 -3.00 -4.00 -2.00 1.00

CS.MdD.B. v1 v2 v3 v4 v5

CS.MdD.A v1 v2 v3 v4 v5

d1 1.50 11.00 5.00 -1.50 5.00

d1 7.00 16.00 11.00 4.00 9.00

d2 5.00 1.50 3.50 -6.00 -3.50

d2 8.00 4.00 7.00 -3.00 -2.00

d3 -3.00 -2.50 -2.50 9.00 -0.50

d3 -3.00 -3.00 -2.00 9.00 -2.00

d4 -3.50 -2.00 -2.00 -0.50 1.00

d4 -3.00 -2.00 -1.00 0.00 0.00

Page 163: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

162

(3) 中間値比較得点

実測値 v1 v2 v3 v4 v5 中間値

d1 10 19 14 7 12 13.00

d2 11 7 10 0 1 5.50

d3 0 0 1 12 1 6.00

d4 0 1 2 3 3 1.50

中間値 5.50 9.50 7.50 6.00 6.50 9.50

中間値比較差得点 (Comparative Score. Mid Difference: CS.MiD)

CS.Mi.D.R. v1 v2 v3 v4 v5

CS.Mi.D.R. v1 v2 v3 v4 v5

d1 -3.00 6.00 1.00 -6.00 -1.00

d1 4.50 9.50 6.50 1.00 5.50

d2 5.50 1.50 4.50 -5.50 -4.50

d2 5.50 -2.50 2.50 -6.00 -5.50

d3 -6.00 -6.00 -5.00 6.00 -5.00

d3 -5.50 -9.50 -6.50 6.00 -5.50

d4 -1.50 -0.50 0.50 1.50 1.50

d4 -5.50 -8.50 -5.50 -3.00 -3.50

CS.Mi.D.B. v1 v2 v3 v4 v5

CS.Mi.D.A. v1 v2 v3 v4 v5

d1 0.75 7.75 3.75 -2.50 2.25

d1 0.50 9.50 4.50 -2.50 2.50

d2 5.50 -0.50 3.50 -5.75 -5.00

d2 1.50 -2.50 0.50 -9.50 -8.50

d3 -5.75 -7.75 -5.75 6.00 -5.25

d3 -9.50 -9.50 -8.50 2.50 -8.50

d4 -3.50 -4.50 -2.50 -0.75 -1.00

d4 -9.50 -8.50 -7.50 -6.50 -6.50

(4) 最小値比較得点

実測値 v1 v2 v3 v4 v5 最小値

d1 10 19 14 7 12 7.00

d2 11 7 10 0 1 .00

d3 0 0 1 12 1 .00

d4 0 1 2 3 3 .00

最小値 .00 .00 1.00 .00 1.00 .00

最小値比較差得点 (Comparative Score. Minimum Difference: CS.MnD)

CS.MnD.R. v1 v2 v3 v4 v5

CS.Mn D. C v1 v2 v3 v4 v5

d1 3.00 12.00 7.00 0.00 5.00

d1 10.00 19.00 13.00 7.00 11.00

d2 11.00 7.00 10.00 0.00 1.00

d2 11.00 7.00 9.00 0.00 0.00

d3 0.00 0.00 1.00 12.00 1.00

d3 0.00 0.00 0.00 12.00 0.00

d4 0.00 1.00 2.00 3.00 3.00

d4 0.00 1.00 1.00 3.00 2.00

Page 164: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

163

CS.MnD.B v1 v2 v3 v4 v5

CS.MnD.A v1 v2 v3 v4 v5

d1 6.50 15.50 10.00 3.50 8.00

d1 10.00 19.00 14.00 7.00 12.00

d2 11.00 7.00 9.50 0.00 0.50

d2 11.00 7.00 10.00 0.00 1.00

d3 0.00 0.00 0.50 12.00 0.50

d3 0.00 0.00 1.00 12.00 1.00

d4 0.00 1.00 1.50 3.00 2.50

d4 0.00 1.00 2.00 3.00 3.00

(5) 最大値比較得点

実測値 v1 v2 v3 v4 v5 最大値

d1 10 19 14 7 12 19

d2 11 7 10 0 1 11

d3 0 0 1 12 1 12

d4 0 1 2 3 3 3

最大値 11 19 14 12 12 19

最大値比較差得点 (Comparative Score. Maximum Difference: CS.MxD)

CS.MxD.R. v1 v2 v3 v4 v5

CS.MxD.C. v1 v2 v3 v4 v5

d1 -9.00 0.00 -5.00 -12.00 -7.00

d1 -1.00 0.00 0.00 -5.00 0.00

d2 0.00 -4.00 -1.00 -11.00 -10.00

d2 0.00 -12.00 -4.00 -12.00 -11.00

d3 -12.00 -12.00 -11.00 0.00 -11.00

d3 -11.00 -19.00 -13.00 0.00 -11.00

d4 -3.00 -2.00 -1.00 0.00 0.00

d4 -11.00 -18.00 -12.00 -9.00 -9.00

CS.MxD.B. v1 v2 v3 v4 v5

CS.MxD.A. v1 v2 v3 v4 v5

d1 -5.00 0.00 -2.50 -8.50 -3.50

d1 -9.00 0.00 -5.00 -12.00 -7.00

d2 0.00 -8.00 -2.50 -11.50 -10.50

d2 -8.00 -12.00 -9.00 -19.00 -18.00

d3 -11.50 -15.50 -12.00 0.00 -11.00

d3 -19.00 -19.00 -18.00 -7.00 -18.00

d4 -7.00 -10.00 -6.50 -4.50 -4.50

d4 -19.00 -18.00 -17.00 -16.00 -16.00

(6) 大数平均値比較得点

実測値 v1 v2 v3 v4 v5 横大数平均値

d1 10 19 14 7 12 12.22

d2 11 7 10 0 1 6.00

d3 0 0 1 12 1 1.89

d4 0 1 2 3 3 1.89

縦大数平均値 5.17 5.83 6.50 5.33 3.50 4.90

Page 165: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

164

大数平均値比較差得点

(Comparative Score. Major Mean Difference: CS.MjMeD)

CS.MjMeD.R v1 v2 v3 v4 v5

CS.M jMe D.C v1 v2 v3 v4 v5

d1 -2.22 6.78 1.78 -5.22 - .22

d 1 4 .83 1 3 .1 7 7 .50 1 .67 8 .50

d2 5.00 1.00 4.00 -6.00 -5.00

d 2 5 .83 1 .17 3 .50 -5 .3 3 -2 .5 0

d3 -1.89 -1.89 - .89 10.11 - .89

d 3 -5 .1 7 -5 .8 3 -5 .5 0 6 .67 -2 .5 0

d4 -1.89 - .89 .11 1.11 1.11

d 4 -5 .1 7 -4 .8 3 -4 .5 0 -2 .3 3 - . 5 0

CS.MjMeD.B v1 v2 v3 v4 v5

CS.MjMeD.A v1 v2 v3 v4 v5

d1 1.31 9.97 4.64 -1.78 4.14

d1 5.10 14.10 9.10 2.10 7.10

d2 5.42 1.08 3.75 -5.67 -3.75

d2 6.10 2.10 5.10 -4.90 -3.90

d3 -3.53 -3.86 -3.19 8.39 -1.69

d3 -4.90 -4.90 -3.90 7.10 -3.90

d4 -3.53 -2.86 -2.19 -.61 .31

d4 -4.90 -3.90 -2.90 -1.90 -1.90

(7) 大数最頻値比較得点

実測値 v1 v2 v3 v4 v5 横大数最頻値

d1 10 19 14 7 12 12.00

d2 11 7 10 0 1 9.33

d3 0 0 1 12 1 .50

d4 0 1 2 3 3 2.67

縦大数最頻値 3.33 2.67 4.33 3.33 1.67 1.09

大数最頻値比較差得点

(Comparative Score. Major Mode Difference: CS.MjMoD)

CS.MjMoD.R v1 v2 v3 v4 v5

CS.MjMoD.C v1 v2 v3 v4 v5

d1 -2.00 7.00 2.00 -5.00 .00

d1 6.67 16.33 9.67 3.67 10.33

d2 1.67 -2.33 .67 -9.33 -8.33

d2 7.67 4.33 5.67 -3.33 -.67

d3 -.50 -.50 .50 11.50 .50

d3 -3.33 -2.67 -3.33 8.67 -.67

d4 -2.67 -1.67 -.67 .33 .33

d4 -3.33 -1.67 -2.33 -.33 1.33

CS.MjMo.B v1 v2 v3 v4 v5

CS.MjMo.A v1 v2 v3 v4 v5

d1 2.34 11.67 5.84 -.67 5.17

d1 8.91 17.91 12.91 5.91 10.91

d2 4.67 1.00 3.17 -6.33 -4.50

d2 9.91 5.91 8.91 -1.09 - .09

d3 -1.92 -1.59 -1.42 10.09 -.09

d3 -1.09 -1.09 - .09 10.91 - .09

d4 -3.00 -1.67 -1.50 .00 .83

d4 -1.09 - .09 .91 1.91 1.91

Page 166: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

165

5.7. 標準得点

それぞれの行、列または行列全体を同じスケールとばらつきで評価する

には、データの平均が 0 に、標準偏差が 1 になるようにする必要がありま

す。この操作は平均 (M)からの差(偏差)を標準偏差 (Sd)で割ることで可能

になります。この値は標準得点 (Standard Score: SS)とよばれます 51。

実測値 Xnp v1 v2 v3 v4 v5 平均 M.Rn1 標準偏差 SD.Rn1

d1 10 19 14 7 12 12.40 4.03

d2 11 7 10 0 1 5.80 4.53

d3 0 0 1 12 1 2.80 4.62

d4 0 1 2 3 3 1.80 1.17

平均 M.C1p 5.25 6.75 6.75 5.50 4.25 5.70

標準偏差 SD.C.1p 5.26 7.56 5.45 4.50 4.55 5.66

次が行標準得点 (Standard Score in Row:SSRn p)と列標準得点 (Standard

Score in Column:SSCn p)の式です。

SSRn p = (Xn p – M.Rn1) / Sd.Rn1

SSCn p = (Xn p – M.C1p) / Sd.C1p

SSR v1 v2 v3 v4 v5

SSC v1 v2 v3 v4 v5

d1 -0.60 1.64 0.40 -1.34 -0.10

d1 0.90 1.62 1.33 0.33 1.70

d2 1.15 0.26 0.93 -1.28 -1.06

d2 1.09 0.03 0.60 -1.22 -0.71

d3 -0.61 -0.61 -0.39 1.99 -0.39

d3 -1.00 -0.89 -1.06 1.44 -0.71

d4 -1.54 -0.69 0.17 1.03 1.03

d4 -1.00 -0.76 -0.87 -0.56 -0.27

両標準得点 (Standard Score in Both:SSBn p)は行標準得点 (SSRn p)と列標準

得 (SSCn p)の分数平均 (FM)とします。

SSBn p = FM(SSrn p , SScn p)

= [(Xn p – M.Rn 1) + (Xn p – M.C1 p)] / (Sd.Rn 1 + Sd.C1 p)

= (2 Xnp – M.Rn 1 – M.C1p)] / (Sd.Rn 1 + Sd.C1 p)

全標準得点 (SSAn p)は全平均 (M.A)と全標準偏差 (Sd.A)を使います。

SSAn p = (Xn p – M.A) / Sd.A

51「標準得点」は Standarized measure, Z-Score ともよばれます。池田央 (1975)

『統計的方法 I 基礎』(新曜社)。

Page 167: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

166

SSBn p v1 v2 v3 v4 v5

SSAn p v1 v2 v3 v4 v5

d1 0.25 1.63 0.93 -0.46 0.86

d1 0.76 2.35 1.47 0.23 1.11

d2 1.12 0.12 0.75 -1.25 -0.89

d2 0.94 0.23 0.76 -1.01 -0.83

d3 -0.81 -0.78 -0.75 1.72 -0.55

d3 -1.01 -1.01 -0.83 1.11 -0.83

d4 -1.10 -0.75 -0.69 -0.23 -0.01

d4 -1.01 -0.83 -0.65 -0.48 -0.48

このようにして尺度を、平均が 0、標準偏差が 1 になるように標準化さ

せた値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺

度になり、全データの中での相対的な価値が勘案されていないことになり

ます。一方、標準得点は平均がゼロ、標準偏差が 1 になるように標準化さ

れているので、点数とか温度とか価格とか(キロ)メートルのような単位

がなくなります。これにより、異なる概念(単位)の数値の間の関係も標

準得点によって数値化できるようになります。

●標準得点の平均と標準偏差

標準得点 (SS)の平均は 0 になり、標準偏差が 1 になります。はじめに、

標準得点 (SS)の平均 E[SS]が 0 になることを確かめます。

E[SS] = E[(X - m) / Sd] ←SS = (X - m) / Sd

= (1 / Sd) E(X - m) ←E(aX) = a E(X)

= (1 / Sd) [E(X) - E(m)] ←E(X + Y) = E(X) + E(Y)

= (1 / Sd) [m - E(m)] ←E(X) = m

= (1 / Sd) [m - m] ←E(m) = m

= 0

次に、標準得点 (SS)の分散 V[SS]が 1 になることを確かめます。分散が 1

であれば標準偏差(=分散 1 /2)も 1 になります。

V[SS] = V[(X - m) / Sd] ←SS = (X - m) / Sd

= (1 / Sd)2 V(X - m) ←V(a X) = a

2 V(X)

= (1 / Sd)2 V(X) ←V(X - a) = V(X)

= (1 / Sd)2 Sd)

2 ←V(X) = Sd

= 1

標準偏差 SD は分散の根(ルート)ですから、標準得点の標準偏差も 1

となります。このように平均 E(X)と分散 V(X)の基本性質を使うと、数理

的証明が完結になります。(→「確率」)

●偏差値

テストでよく使われる偏差値 (Z)は標準得点 (SS)を 10 倍し 50 を足して計

算します。

Page 168: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

167

Z = 10 SS + 50

そうすると以下のように偏差値 (Z)の平均 E(Z)は 50 になり、標準偏差は

10 になります。ここでは分散 V(Z)が 100 になることを確認します。

E(Z) = E(10 SS + 50) ←Z = 10 SS + 50

= E(10 SS) + E(50) ←E(X + Y) = E(X) + E(Y)

= 10 E(SS) + E(50) ←E(a X) = a E(X)

= 10 0 + E(50) ←E(SS) = 0

= 50 ←E(50) = 50

V(Z) = E(10 SS + 50) ←Z = 10 SS + 50

= V(10 SS) + V(50) ←V(X + Y) = V(X) + V(Y)

= 100 V(SS) + V(50) ←V(a X) = a V(X)

= 100 1 + V(50) ←V(SS) = 1

= 100 ←V(50) = 0

標準得点によって、せっかく平均 0, 標準偏差 1 にして標準化したのに、

偏差値では平均 50, 標準偏差 10 にしているのです。これは、私たちが 100

点満点のテストに慣れているためで、そのほうがわかりやすいからでしょ

う。

●限定標準得点

標準得点をよく観察すると絶対値が 1 を超える数値がしばしば現れるこ

とがわかります。これは得点と平均値の差が標準偏差を超えたことを示し

ています。そこで、標準得点の範囲を [-1 ~ 1]というスケールで限定化した

数値を求めれば、この同じ尺度で数値を評価・比較することができます。

これを限定標準得点 (Limited Standard Score: LSS)と名づけます。限定標準

得点 (LSS)は標準得点 (SS)を標準得点の最大値 (SSmax)で割った値 (SS /

SSmax)とします。最大標準得点は、 {X, A, A, A, A}のようなデータ (X > A)

のときの X の標準得点になります。上で見たように、データ全体を加減乗

除しても標準得点に変化がないので、 {X-A, 0, 0, 0, 0}を {K, 0, 0, 0, 0}とし

て、この K の標準得点を最大標準得点 SSmax とします。そうすると、相対

標準得点 (LSS)は次の式になります。

LSS = SS / SSmax

つまり、SS を SS の最大値で割った値です。 SS が最大値 SSmax に達し

たときに 1 になります。

データ {K, 0, 0, 0, 0}の平均は

[1] M = K / N (M:平均値;N:個数 )

Page 169: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

168

また、先の「限定標準偏差」(LSd)で見たように(→「分散・標準偏差」)、

{K, 0, 0, 0, 0}のようなデータの標準偏差 (Sd)は標準偏差の最大値 (Sd.max)

になります。

[2] Sd.max = M (N – 1)1 /2 (M:平均値;N:個数 )

よって

標準得点 (SS)の最大値 SSmax は

SSmax = (K – M) / Sd.max ←標準得点の定義

= (K - M) / [M (N -1)1 /2

] ←上述 [2]

= (K – K / N) / [K / N (N -1)1 /2

] ←上述 [1]

= (N K – K) / N / [K / N (N -1)

1 /2] ← / N を外へ

= [(N – 1) K / N] / [K / N (N -1)1 /2

] ←K を外へ

= (N – 1) / (N - 1)1 /2

←共通 K / N を消去

= (N-1)

1 /2 ←X / √X = √X

よって、限定標準得点 (LSS)は

LSS = SS / SSmax = SS / (N - 1)1 /2

= [D - Av(D)] / [Sd(D) * (N - 1)1 /2

]

次が行 (r)、列 (c)、両軸 (b)、全体 (a)の限定標準得点 (LSS)です(範囲:[-1, 1])。

LSSr. v1 v2 v3 v4 v5

LSSc. v1 v2 v3 v4 v5

d1 -.30 .82 .20 -.67 -.05

d1 .52 .94 .77 .19 .98

d2 .57 .13 .46 -.64 -.53

d2 .63 .02 .34 -.71 -.41

d3 -.30 -.30 -.19 1.00 -.19

d3 -.58 -.52 -.61 .83 -.41

d4 -.77 -.34 .09 .51 .51

d4 -.58 -.44 -.50 -.32 -.16

LSSb. v1 v2 v3 v4 v5

LSSa. v1 v2 v3 v4 v5

d1 .14 .89 .51 -.25 .46

d1 .17 .54 .34 .05 .26

d2 .60 .07 .40 -.67 -.48

d2 .21 .05 .17 -.23 -.19

d3 -.44 -.43 -.40 .92 -.29

d3 -.23 -.23 -.19 .26 -.19

d4 -.62 -.42 -.39 -.13 .00

d4 -.23 -.19 -.15 -.11 -.11

●標準3得点

先の限定標準得点 (LSS)の分母にデータの個数 (N)が使われています。そ

のためデータ数が多くなると限定標準得点 (LSS)は必然的に小さくなりま

す。とくに大量のデータを扱うときには限定標準得点は適しません。

平均値からの偏差が標準偏差の 3 倍を超えることは極めて稀なので、次

Page 170: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

169

の式で標準 3 得点 (Standard Score 3: SS3)を定義します。この式は限定標準

得点 (LSS)の分母の (N - 1)1 /2 を 3 に固定したことになります。

SS3 = [D - Av(D)] / [Sd(D) * 3]

SS3r v1 v2 v3 v4 v5

SS3c v1 v2 v3 v4 v5

d1 -.20 .55 .13 -.45 -.03

d1 .30 .54 .44 .11 .57

d2 .38 .09 .31 -.43 -.35

d2 .36 .01 .20 -.41 -.24

d3 -.20 -.20 -.13 .66 -.13

d3 -.33 -.30 -.35 .48 -.24

d4 -.51 -.23 .06 .34 .34

d4 -.33 -.25 -.29 -.19 -.09

SS3c v1 v2 v3 v4 v5

SS3a v1 v2 v3 v4 v5

d1 .11 .75 .41 -.20 .37

d1 .25 .78 .49 .08 .37

d2 .48 .05 .32 -.53 -.37

d2 .31 .08 .25 -.34 -.28

d3 -.35 -.35 -.32 .72 -.23

d3 -.34 -.34 -.28 .37 -.28

d4 -.56 -.39 -.35 -.12 .00

d4 -.34 -.28 -.22 -.16 -.16

5.8. 期待得点

ここで提案する期待得点 (Expectation Score: ES)の計算では、次に示す期

待値 (Expected Frequency: EF)を使います 52。期待値はそれぞれのセルの値が

横の和と縦の和から見て、平均に分布しているとすればどのような値とし

て期待されるかを示すものです。「期待される」というよりも「予想され

る」 (expected)と考えたほうがわかりやすいかも知れません。

実測値 v1 v2 v3 v4 v5 和 Shn1

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

和 Sv1p 21 27 27 22 17 総和 St 114

予想される値「期待値」は横和 Sh と縦和 Sv から計算されます。たとえ

ば、 d1 の横和 Sh は 62 です。一方、 d1 がある v1 の縦和は 21 です。総和

St は 114 ですから、 d1:v1 は、横和の 62 のうち、21 / 114 の割合で出てく

ると予想されます。つまり、期待値は 62×(21 / 114) ≒ 11.42 となります。

EFn p = (Srn 1 Sc1 p) / St

52

「期待値」 (EF)は一般に「期待度数」とよばれることが多いのですが、

ここでは「実測値」と「期待値」を対等に比較する、という意図から両者

に「値」という訳語を使います。この訳語「期待値」も使われています。

「期待値得点」と、以下で扱う得点 (Score)は使われていません。

Page 171: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

170

EF v1 v2 v3 v4 v5

d1 11.42 14.68 14.68 11.96 9.25

d2 5.34 6.87 6.87 5.60 4.32

d3 2.58 3.32 3.32 2.70 2.09

d4 1.66 2.13 2.13 1.74 1.34

実測値 (Xnp)と期待値 (EFn p)の差 (difference: d)、比 (ratio: r)、差比 (difference

ratio: dr)で比較したものを比較期待得点 (Comparative Expectation Score:

CES)とよぶことにします。それぞれを次の式で導きます。

CESdn p = Xn p – EFnp

CESrn p = Xn p / EFn p

CESdrn p = (Xn p – EFn p) / EFnp

CESd v1 v2 v3 v4 v5

CESr v1 v2 v3 v4 v5

d1 -1.42 4.32 -0.68 -4.96 2.75

d1 0.88 1.29 0.95 0.59 1.30

d2 5.66 0.13 3.13 -5.60 -3.32

d2 2.06 1.02 1.46 0.00 0.23

d3 -2.58 -3.32 -2.32 9.30 -1.09

d3 0.00 0.00 0.30 4.44 0.48

d4 -1.66 -1.13 -0.13 1.26 1.66

d4 0.00 0.47 0.94 1.73 2.24

CESdr v1 v2 v3 v4 v5

d1 -0.12 0.29 -0.05 -0.41 0.30

d2 1.06 0.02 0.46 -1.00 -0.77

d3 -1.00 -1.00 -0.70 3.44 -0.52

d4 -1.00 -0.53 -0.06 0.73 1.24

比較期待得点は全体の期待値と比較するので、軸のオプション(縦軸、

横軸、両軸、全体)はありません。

5.9. 確率得点

それぞれのセルの頻度が全体の中での起こる確率を計算した得点を確

率得点 (Probability Score: PS)とよびます。

実測値 Xnp v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

和 Sv 21 27 27 22 17 T: 114

Page 172: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

171

この確率得点 (PS)は二項確率の確率密度を返す Excel 関数 BinomDist(r, n,

p, 0)を使って求めます(→確率)。このとき、成功数 (r) = 実測値、試行数

(n) = 和、成功率 (p) = 列数 (P)とします。上の実測値を使って、たとえば

d1:v1 の横確率得点 PS(d1:v1)を求めるには、d1:v1 の値 (10)を成功数 (r)とし、

該当するセルの横和 (Sh=62)を試行数 (n)とし、縦和 (Sv=21)/総和 (T=114)

を成功率 (p)とします。よって d1:v1 の確率 PSh(d1:v1)は 53

PSr(d1:v1) = BinomDist(r, n, p, 1) = BinomDist(10, 62, 1/5, 0) = .054

全体の計算結果は行確率得点 (下左表 : PSf)です。

PSr v1 v2 v3 v4 v5 PSc v1 v2 v3 v4 v5

d1 .101 .015 .106 .029 .126 d1 .014 .000 .002 .139 .000

d2 .013 .147 .030 .002 .011 d2 .005 .172 .060 .002 .043

d3 .044 .044 .154 .000 .154 d3 .002 .000 .004 .002 .043

d4 .134 .302 .302 .176 .176 d4 .002 .004 .017 .102 .189

列確率得点 (PSc)は

PSc(d1:v1) = BinomDist(r, n, p, 1) = BinomDist(10, 21, 1/4, 0) = .014

両確率得点 (PSb)は行確率得点 (PSr)と列確率得点 (PSc)の幾何平均としま

す。

PSb(d1:v1) = (PSr * PSc)1 /2

= (.054 * .014)1 /2

= .028

全確率得点 (PSa)の成功率 (p)は全セル数 (N*P=20)になります。よって

PSa(d1:v1) = BinomDist(r, n, p, 0) = BinomDist(10, 114, 1/20, 0) = .046

PSb v1 v2 v3 v4 v5

PSa v1 v2 v3 v4 v5

d1 .038 .000 .014 .064 .003

d1 .032 .000 .001 .133 .007

d2 .008 .159 .042 .002 .022

d2 .016 .133 .032 .003 .017

d3 .010 .004 .024 .000 .081

d3 .003 .003 .017 .007 .017

d4 .018 .034 .071 .134 .183

d4 .003 .017 .052 .101 .101

同様にして、累積確率を計算した得点を累積確率得点 (Accumulative

Probability Score: APS)とよびます。

APSr v1 v2 v3 v4 v5

APSc v1 v2 v3 v4 v5

d1 .280 .984 .753 .053 .525

d1 .994 1.000 .999 .838 1.000

d2 .993 .790 .980 .002 .013

d2 .998 .643 .947 .002 .050

53

これは正 5 面体のサイコロを 62 回投げて目の和が 10 になるときの確率

です。

Page 173: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

172

d3 .044 .044 .198 1.000 .198

d3 .002 .000 .004 .999 .050

d4 .134 .436 .738 .914 .914

d4 .002 .004 .021 .162 .353

APSb v1 v2 v3 v4 v5

APSa v1 v2 v3 v4 v5

d1 .528 .992 .868 .211 .725

d1 .972 1.000 .999 .789 .995

d2 .996 .713 .964 .002 .025

d2 .988 .789 .972 .003 .020

d3 .010 .004 .029 1.000 .100

d3 .003 .003 .020 .995 .020

d4 .018 .043 .124 .385 .568

d4 .003 .020 .072 .173 .173

■接触言語の子音文字 (1)

ラテンアメリカの先住民言語 Aymara (Bolivia), Gyuarani (Paraguay),

Mextec (Mexico)は文字体系の中にスペイン語特有の文字エニェ (ñ)を取り

入れて使用しています 54。この文字の使用頻度を調べるために次の『世界

人権宣言』 1 条の各言語の文字表記を利用します。

AYMARA: Taqpach jaqejh khuskat uñjatatäpjhewa munañapansa,

lurañapansa, amuyasiñapansa, ukatwa jilani sullkanípjhaspas ukham

uñjasipjhañapawa.

GUARANÍ: Mayma yvypóra ou ko yvy ári iñapyty'yre ha eteîcha

tecoruvicharendá ha acatúape jeguerekópe; ha ikatu rupi oikuaa añetéva ha

añete'yva, iporâva ha ivaíva, tekotevê pehenguéicha oiko oñondiveku éra.

MIXTEC: Taka ma ñayi nguiakoi ñayivi ñatu na ja'a tnu'u ja kusa'a

ndeva'ña-i, su'uva kajito va'aña-i, yuka ku ja jiniñu'u ja kukototna-i.

この資料から子音文字を取り出して整理し(下左表 C1)、その確率得点

(下中表 PSc)と累積確率得点(下右表 APSc)を計算しました (Aym: Aymara;

Guar: Guarani; Mixt: Mixtec)。

C1 Aym Guar Mixt

PSc Aym Guar Mixt

APSc Aym Guar Mixt

b 0 0 0

b .033 .021 .117

b .033 .021 .117

c 1 5 0

c .115 .149 .117

c .148 .826 .117

d 0 2 1

d .033 .163 .257

d .033 .268 .374

f 0 0 0

f .033 .021 .117

f .033 .021 .117

g 0 2 1

g .033 .163 .257

g .033 .268 .374

h 7 9 0

h .031 .009 .117

h .982 .996 .117

j 8 1 6

j .012 .084 .013

j .994 .105 .995

k 5 7 8

k .124 .048 .001

k .884 .966 1.000

l 4 0 0

l .188 .021 .117

l .760 .021 .117

m 3 2 1

m .225 .163 .257

m .571 .268 .374

54

資料は Omniglot by Simon Ager: http://www.omniglot.com (2015/11/13)

Page 174: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

173

n 6 3 6

n .067 .209 .013

n .951 .477 .995

ñ 6 4 6

ñ .067 .199 .013

ñ .951 .676 .995

p 9 7 0

p .004 .048 .117

p .998 .966 .117

q 2 0 0

q .198 .021 .117

q .346 .021 .117

r 1 9 0

r .115 .009 .117

r .148 .996 .117

s 9 0 2

s .004 .021 .276

s .998 .021 .650

t 5 9 6

t .124 .009 .013

t .884 .996 .995

v 0 10 4

v .033 .003 .099

v .033 .999 .943

w 3 0 0

w .225 .021 .117

w .571 .021 .117

y 1 9 3

y .115 .009 .193

y .148 .996 .844

z 0 0 0

z .033 .021 .117

z .033 .021 .117

資料が小さいので、それぞれの文字の頻度(上左表)が偶然でも起こる

頻度なのかもしれません。たとえば、エニェ (ñ)はアイマラ語 (Aym.)、グア

ラニ語 (Guar.)、ミステク語 (Mixt.)でそれぞれ、6, 4, 6 個見つかりましたが、

この頻度の列確率得点 (PSc)を見ると、 5%の確率以下のものが見つかりま

せん。一方、列累積確率得点 (APSc)は、当該の頻度以下のケースの割合を

示しています。たとえば、アイマラ語 (Aym.)のエニェ (ñ)の頻度 6 以下の文

字は全体の 95% (.951)を占めます。

上の小さな資料(『世界人権宣言』の 1 条)では、統計的に有意性 (5%)

がある頻度が見つかりませんでした。そこで、さらに大きなデータ(『世

界人権宣言』の全文)の子音文字の頻度を調べました。その結果、エニェ

(ñ)の列確率得点は以下のすべての言語で有意性 (5%以下 )を示しました 55。

C2 Aymara Garifuna Guarani Mixteco Otomí Quechua

b 0 253 94 2 53 6

c 141 26 200 94 72 268

d 0 271 179 99 251 36

f 1 65 7 0 76 3

g 0 482 174 19 137 7

h 369 214 363 61 161 266

55

アイマラ語 (Aymara, Bolivia), ガリフナ語 (Galifuna, Honduras), グアラニ

語 (Guarani, Paraguay), マサテコ語 (Mazateco, Mexico), ミステコ語 (Mixteco,

Mexico), オトミ語 (Otomí, Mexico), ケチュア語 (Quechua, Peru), サポテコ

語 (Zapoteco, Mexico). 資料は United Nations Human Rights のサイト:

http://www.ohchr.org/EN/Pages/WelcomePage.aspx (2015/11/13)

http://www.ohchr.org/EN/UDHR/Pages/SearchByLang.aspx

このサイトでは数種の Quechua 語が記録されていますが、ここではペルー

の Cusco のバリアントを使いました。

Page 175: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

174

j 330 0 100 155 265 91

k 492 42 206 420 306 354

l 104 512 85 37 5 274

m 269 217 252 82 149 252

n 474 693 198 519 575 886

ñ 182:

.013

92:

.000

84:

.000

231:

.000

66:

.000

50:

.000

p 358 1 338 1 63 386

q 232 0 0 1 0 419

r 236 381 463 35 187 180

s 394 199 81 137 43 389

t 479 205 320 387 370 291

v 0 0 297 96 0 2

w 183 79 0 0 0 80

x 0 0 0 23 57 0

y 140 77 186 158 98 318

z 0 0 4 1 72 3

5.10. 順位得点

(1) 降順位得点

降順位得点 (Descending Rank Score: DRS)によって横、縦、全体の範囲で

最大値を 1 番とした降順の順位をつけます。

実測値 v1 v2 v3 v4 v5

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

DRSr v1 v2 v3 v4 v5

DRSc v1 v2 v3 v4 v5

d1 4 1 2 5 3

d1 2 1 1 2 1

d2 1 3 2 5 4

d2 1 2 2 4 3

d3 4 4 2 1 2

d3 3 4 4 1 3

d4 5 4 3 1 1

d4 3 3 3 3 2

行列の順位得点 (D.R.S.m.)は行の順位得点と列の順位得点の平均とします。

Page 176: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

175

DRSb v1 v2 v3 v4 v5

DRSa v1 v2 v3 v4 v5

d1 3.0 1.0 1.5 3.5 2.0

d1 6 1 2 8 3

d2 1.0 2.5 2.0 4.5 3.5

d2 5 8 6 17 13

d3 3.5 4.0 3.0 1.0 2.5

d3 17 17 13 3 13

d4 4.0 3.5 3.0 2.0 1.5

d4 17 13 12 10 10

(2) 昇順位得点

昇順位得点 (Ascending Rank Score: ARS)は最小値を 1 番とした昇順の順

位を示します。

ARSr. v1 v2 v3 v4 v5

ARSc. v1 v2 v3 v4 v5

d1 2 5 4 1 3

d1 3 4 4 3 4

d2 5 3 4 1 2

d2 4 3 3 1 1

d3 1 1 3 5 3

d3 1 1 1 4 1

d4 1 2 3 4 4

d4 1 2 2 2 3

ARSb. v1 v2 v3 v4 v5

ARSa v1 v2 v3 v4 v5

d1 2.5 4.5 4.0 2.0 3.5

d1 14 20 19 12 17

d2 4.5 3.0 3.5 1.0 1.5

d2 16 12 14 1 5

d3 1.0 1.0 2.0 4.5 2.0

d3 1 1 5 17 5

d4 1.0 2.0 2.5 3.0 3.5

d4 1 5 9 10 10

■接触言語の子音文字 (2)

先に見たように(→確率得点)、ラテンアメリカの先住民言語 Aymara

(Bolivia), Gyuarani (Paraguay), Mextec (Mexico)は文字体系の中にスペイン

語特有の文字エニェ (ñ)を取り入れています。それぞれの言語の子音文字の

中で文字エニェ (ñ)が占める位置を調べるときの 1 つの方法として以下のよ

うな降順位得点があります 56。

C Aymara Garifuna Guarani Mazateco Mixteco Otomí Quechua Zapoteco

b 17 6 14 13 17 17 18 4

56

アイマラ語 (Aymara, Bolivia), ガリフナ語 (Galifuna, Honduras), グアラニ

語 (Guarani, Paraguay), マサテコ語 (Mazateco, Mexico), ミステコ語 (Mixteco,

Mexico), オトミ語 (Otomí, Mexico), ケチュア語 (Quechua, Peru), サポテコ

語 (Zapoteco, Mexico). 資料は United Nations Human Rights

http://www.ohchr.org/EN/Pages/WelcomePage.aspx (2015/11/13)

このサイトでは数種の Quechua 語が記録されていますが、ここではペルー

の Cusco のバリアントを使いました。

Page 177: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

176

c 13 16 8 11 10 12 9 14

d 17 5 11 8 8 5 16 5

f 16 14 18 15 21 11 19 20

g 17 3 12 6 16 9 17 11

h 5 8 2 12 12 7 10 15

j 7 18 13 2 6 4 13 16

k 1 15 7 3 2 3 5 2

l 15 2 15 17 13 19 8 9

m 8 7 6 9 11 8 11 8

n 3 1 9 1 1 1 1 1

ñ 12 11 16 16 4 14 15 18

p 6 17 3 19 18 15 4 13

q 10 18 20 19 18 20 2 20

r 9 4 1 14 14 6 12 9

s 4 10 17 7 7 18 3 6

t 2 9 4 4 3 2 7 3

v 17 18 5 18 9 20 21 19

w 11 12 20 19 21 20 14 20

x 17 18 20 5 15 16 22 7

y 14 13 10 10 5 10 6 12

z 17 18 19 19 18 12 19 16

文字エニェ (ñ)は、どの言語でも比較的低い頻度順位を示しますが、メキ

シコの Mixteco 語では非常に高い順位 (n, k, t につづく 4 位 )になっています。

その語内の出現位置を調べると語頭位置 (#ñ&)での頻度が高いことがわかり

ます(184)。文字エニェ (ñ)を使う接触言語の特徴として、語頭位置 (#ñ&)に硬

口蓋鼻音 [ɲ]が現れることがあげられます。例: ña (Otomí), ña-i (Mixteco),

ñambohasa (Guarani). これは文字エニェ (ñ)を生成したスペイン語(語中に限

る)にはなかった特徴です。

Lengua #ñ& &ñ& &ñ# Total

Aymara 6 160 9 175

Garifuna 14 76

90

Guarani 16 60

76

Mazateco

8

8

Mixteco 184 44 2 230

Otomí 28 38

66

Quechua (Cuzco) 31 19

50

Zapoteco 3

3

Total 282 405 11 698

Page 178: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

177

5.11. 連関得点

後述する各種の連関係数 (Coefficient of Association)を応用して、行と列

の連関性を示す得点を連関得点 (Association Score: AS)とよびます。連関得

点の計算には An p , Bn p , Cn p , Dnp という行列が必要です。An p は行と列がどち

らも選択されている個数 (+/+)と見なします。これは入力行列 Xnp と同じで

す。Bn p は行が選択され列が選択されていない個数を示し (+/-)、Cnp は逆に、

行が選択されず列が選択されていない個数を示します (-/+)。そして、Dnp

は行も列も選択されていない個数を示します (-/-)。

実測値 v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

和 Sv 21 27 27 22 17 T: 114

たとえば、 d1:v1 の 10 を、 d1(+):v1(+)の回数 (A:+/+)とみなします。

d1(+):v1(–)の回数 (B:+/–)は、横和 (Sh) – X (10) = 62 – 10 = 52 になります。

また、 d1(–):v1(+)の回数 (C:–/+)は、縦和 (Sv) – 10 = 21 – 10 = 11 です。そし

て d1(–):v1(–)の回数 (D:–/–)は、総和 (T)から A+B+C を引けば求めることが

できます (D=114 – (10+52+11) = 41)。

実測値 v1 v2 v3 v4 v5

d1 A:10 B:52

d2

C:11 D:41 d3

d4

ほかの成分についても同様に A, B, C, D の値が求められます。たとえば、

d2:v2 については、

実測値 v1 v2 v3 v4 v5

d1 D:10 C:19 D:33

d2 B:11 A:7 B:11

d3 D:0 C:1 D:22

d4

そこで、次の行列を用意します。

An p = Xnp

Bn p = Shn 1 – Xnp

Page 179: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

178

Cn p = Svp – Xn p

Dn p = S − An p – Bnp − Cn p

Anp v1 v2 v3 v4 v5

Bnp v1 v2 v3 v4 v5

d1 10 19 14 7 12

d1 52 43 48 55 50

d2 11 7 10 0 1

d2 18 22 19 29 28

d3 0 0 1 12 1

d3 14 14 13 2 13

d4 0 1 2 3 3

d4 9 8 7 6 6

Cnp v1 v2 v3 v4 v5

Dnp v1 v2 v3 v4 v5

d1 11 8 13 15 5

d1 41 44 39 37 47

d2 10 20 17 22 16

d2 75 65 68 63 69

d3 21 27 26 10 16

d3 79 73 74 90 84

d4 21 26 25 19 14

d4 84 79 80 86 91

この A, B, C, D という行列を用いて、それぞれのセルに該当する連関係

数を求め、これを連関係数得点 (Association Score: AS)とよぶことにします。

たとえば、次は単純一致係数 (Simple matching coefficient)を使った単純一致

係数得点 (Simple matching score: AS.Sm)を示します。S.m.s.は D 値を重視す

るため、全体に数値が高くなる傾向があります。

AS.Sm = (An p + Dn p) / (An p+ Bn p + Cn p + Dn p)

AS.Sm v1 v2 v3 v4 v5

d1 .447 .553 .465 .386 .518

d2 .754 .632 .684 .553 .614

d3 .693 .640 .658 .895 .746

d4 .737 .702 .719 .781 .825

次は Jaccard 係数得点 (AS.J)と Jaccard-2 係数得点 (AS.J2)です。

AS.J = An p / (An p + Bnp + Cn p)

AS.J2 = An p*2 / (An p*2 + Bn p + Cnp)

AS.J v1 v2 v3 v4 v5

AS.J2 v1 v2 v3 v4 v5

d1 .137 .271 .187 .091 .179

d1 .241 .427 .315 .167 .304

d2 .282 .143 .217 .000 .022

d2 .440 .250 .357 .000 .043

d3 .000 .000 .025 .500 .033

d3 .000 .000 .049 .667 .065

d4 .000 .029 .059 .107 .130

d4 .000 .056 .111 .194 .231

次は Russel & Rao 係数得点 (RR)と Russel & Rao-3 係数得点 (RR3)です。

Page 180: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

179

AS.RR = An p / (An p + Bnp + Cn p + Dnp)

AS.RR3 = An p*3 / (An p*3 + Bn p + Cnp + Dn p)

AS.RR v1 v2 v3 v4 v5

AS.RR3 v1 v2 v3 v4 v5

d1 .088 .167 .123 .061 .105

d1 .224 .375 .296 .164 .261

d2 .096 .061 .088 .000 .009

d2 .243 .164 .224 .000 .026

d3 .000 .000 .009 .105 .009

d3 .000 .000 .026 .261 .026

d4 .000 .009 .018 .026 .026

d4 .000 .026 .051 .075 .075

次は Hamann 係数得点 (AS.H)と Yule 係数得点 (AS.Y).です。

AS.H = [(An p + Dnp) – (Bn p + Cnp)] / [(An p + Dnp) + (Bnp + Cn p)]

AS.Y = [(An p * Dn p) – (Bnp * Cnp)] / [(An p * Dn p) + (Bn p * Cn p)]

AS.H v1 v2 v3 v4 v5

AS.Y. v1 v2 v3 v4 v5

d1 -.105 .105 -.070 -.228 .035

d1 -.165 .417 -.067 -.522 .386

d2 .509 .263 .368 .105 .228

d2 .642 .017 .356 -1.000 -.733

d3 .386 .281 .316 .789 .491

d3 -1.000 -1.000 -.641 .964 -.425

d4 .474 .404 .439 .561 .649

d4 -1.000 -.449 -.045 .387 .529

次は Phi 係数得点 (AS.Ph)と Ochiai 係数得点 (AS.O)です。

AS.Ph = [(An p * Dn p) – (Bn p * Cn p)]

/ [(An p + Bn p)*(Cn p+Dn p)*(An p+Cn p)*(Bn p+Dn p)]1 /2

AS.O = Sn p / [(An p + Bn p)*(An p+Cn p)]1 /2

AS.Ph. v1 v2 v3 v4 v5

AS.O v1 v2 v3 v4 v5

d1 -.065 .179 -.028 -.222 .136

d1 .277 .464 .342 .190 .370

d2 .294 .006 .148 -.286 -.188

d2 .446 .250 .357 .000 .045

d3 -.178 -.208 -.146 .630 -.082

d3 .000 .000 .051 .684 .065

d4 -.139 -.087 -.010 .104 .151

d4 .000 .064 .128 .213 .243

次は Ueda.ac 係数得点 (AS.U.ac)です。

AS.U.ac = [An p * 2 – (Bnp + Cnp)] / [An p * 2 + (Bn p + Cnp)]

AS.U.ac v1 v2 v3 v4 v5

d1 -.518 -.146 -.371 -.667 -.392

d2 -.120 -.500 -.286 -1.000 -.913

d3 -1.000 -1.000 -.902 .333 -.871

d4 -1.000 -.889 -.778 -.613 -.538

Ueda 係数得点 (AS.U.ac)は、ほとんどの得点が負になっています。これは

Page 181: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

180

ふつう分子の 2A よりも B+C が多いからです。ここで、とくに d3:v4 の値 .333

に注目すると、この数値は反例 (B, C)がありながらも、d3 と v4 の間に一定

の関係があることがわかります。それぞれの連関係数の特徴については後

述します(→「相関」「連関係数」)。

5.12. 補充得点

(1) 隣接値による欠損値補充

データ行列に欠測値があるとき、隣接の値を参照することが可能である

と判断したときに使用します。これはとくに集中化されたデータ行列で有

効です(→「集中」)。隣接値の平均値を使ってデータ行列(下左表)の

欠測値を補充します(下右表)。

P2 v-1 v-2 v-3 v-4

P2 v-1 v-2 v-3 v-4

d-1 1 1 2

d-1 1 1 2 1

d-2 2 3 4

d-2 2 2 3 4

d-3 1 3 2

d-3 1 3 2 1

d-4 3 2 4

d-4 3 2 2 4

d-5 2 3 2 4

d-5 2 3 2 4

欠測値のある欠測値を含めてセルの上下左右の値の平均値で補充します。

上下左右のセルに値があれば、 4 つの値を足して 5 で割りますが、行列の

端に位置するセルの場合は隣接する値の数 +1 で割ります。結果は他のセル

を揃えるために四捨五入して整数部だけを出力します。補充は 1 回だけで

なく可能な限り繰り返します。隣接値として列、行、両軸の選択ができま

す。

(2) 期待値による欠損値補充

期待値(→ 3.7)を使ってデータ行列の欠測値を補充します。次の例では

「 3.活動」の「 a.効果」の値 48 を x とします。これを期待値で補充すると、

47.52 という近似値を得ます。

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 86 29

1.文法解説 86.00 29.00

2.ビデオ 53 78

2.ビデオ 53.00 78.00

3.活動 x 53

3.活動 47.52 53.00

4.映画 43 96

4.映画 43.00 96.00

*この例では、次の期待値の方程式から x を直接求めることができます。

Page 182: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

181

En p[期待値 ]=Sn [横和 ] * Tp [縦和 ]/T [総和 ]

x = (86 + 53 + x + 43)(x + 53) / (86 + 53 + x + 43 + 29 + 78 + 53 + 96)

x = (182 + x) (53 + x) / (438 + x)

438x + x2 = 9646 + 235x + x

2

203x = 9646

x = 47.52

複数の欠測値があるときは、このような簡単な計算ができないので、プロ

グラムで収束するまで繰り返します。

5.13. 名義尺度の数量化

下左表 (D1)は名義尺度の行列です。このそれぞれの名義尺度を列内のパ

ーセントで数値化します。たとえば、x1 列の A は 2 個あるので、2/5 = .4 *

100 = 40 となります。プログラムは、それぞれの名義の相対頻度を計算し

て下右表 (Qr)を出力します。この方法を名義尺度の割合による数量化

(Quantification of nominal scale by ratio)とよびます。

D1 x1 x2 x3

Qr x1 x2 x3

d1 A D K

d1 40 60 80

d2 A D K

d2 40 60 80

d3 B D K

d3 60 60 80

d4 B E L

d4 60 40 20

d5 B E K

d5 60 40 80

下左表 (D2)では説明変数 x1, x2, x3 が名義尺度であり、最終列 (目的変

数: y)が数量です。この名義尺度説明変数を、最終列の該当する初出値に

よって数量化します 57。

D2 x1 x2 x3 y

Qf x1 x2 x3 Y

d1 A D K 5

d1 5 5 5 5

d2 A D L 6

d2 5 5 5 6

d3 B D L 7

d3 7 5 5 7

d4 B E K 8

d4 7 8 8 8

d5 B E K 9

d5 7 8 5 9

たとえば、x1:A は d1:5, d2:6 にあるので、A に初出の d1:5 を割り当てま

す。d2:A についても同様です。d3:B は d3:7, d4:8, d5:9 の中から初出の d3:7

を割り当てます。プログラムはこの計算をすべてのセルについて実行し上

57

これを全体の平均値だけにすると {x3: K, L, L, L, K}の全部の成分が 7 に

なるので、これらを初期値 K:5, L:6 で差異化します。

Page 183: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

182

右 表 (Q) を 出 力 し ま す 。 こ の 方 法 を 名 義 尺 度 の 初 出 値 に よ る 数 量 化

(Quantification of nominal scale by first value)とよびます。

下左表 (D3)の名義尺度を、それぞれに対応する最終列の値の平均値に変

えます。たとえば、x1:A は最終列 (y)の d1:5 と d2:6 の平均値を割り当てま

す。 x2:A も同じです。B は d3, d4, d5 にあるので、 7, 8, 9 の平均値 8 を割

り当てます。この方法を名義尺度の平均による数量化 (Quantification of

nominal scale by mean)とよびます。

D3 x1 x2 x3 y

Q.m x1 x2 x3 y

d1 A D K 5

d1 5.50 6.00 6.75 5

d2 A D K 6

d2 5.50 6.00 6.75 6

d3 B D K 7

d3 8.00 6.00 6.75 7

d4 B E L 8

d4 8.00 8.50 8.00 8

d5 B E K 9

d5 8.00 8.50 6.75 9

下左表 (D3)では説明変数 x1, x2, x3 も最終列 (目的変数: y)も名義尺度で

す。ここでは、最終行のそれぞれの成分 {y: X, X, Y, Y, Z}に、連続番号を

割り当てて {y: 1, 1, 2, 2, 3}とします。次に、名義尺度説明変数 x1, x2, x3

を、先と同じように、たとえば最終列の平均によって数量化します (出力:

N)。この方法を名義尺度の名義尺度による数量化 (Quantification of nominal

scale by nominal scale)とよびます。

D3 x1 x2 x3 y

N x1 x2 x3 y

d1 A D K X

d1 1.00 1.33 1.75 1

d2 A D L X

d2 1.00 1.33 1.75 1

d3 B D L Y

d3 2.33 1.33 1.75 2

d4 B E K Y

d4 2.33 2.50 2.00 2

d5 B E K Z

d5 2.33 2.50 1.75 3

下左表 (D)のデータと一致する表頭を列を独立させて作り、該当するセル

を 1 とし、それ以外のセルを 0 とします。この方法をダミーによる数量化

(Quantification by dummy)とよびます。

D x1 x2 x3

Qd A B D E K L

d1 A D K

d1 1 0 1 0 1 0

d2 A D K

d2 1 0 1 0 1 0

d3 B D K

d3 0 1 1 0 1 0

d4 B E L

d4 0 1 0 1 0 1

d5 B E K

d5 0 1 0 1 1 0

下左表 (D)の縦に探索して異なるデータに連番をつける方法を連番による

数量化 (Quantification by sequencial number)とよびます。

Page 184: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

183

D x1 x2 x3

S x1 x2 x3

d1 A D K

d1 1 1 1

d2 A D K

d2 1 1 1

d3 B D K

d3 2 1 1

d4 B E L

d4 2 2 2

d5 B E K

d5 2 2 1

下左表の表頭 (A, E, L)と一致するセルを 1 とし、それ以外のセルを 0 と

します。この方法を表頭による数量化 (Quantification by top title)とよびます。

D4 A E L

Qt A E L

d1 A D K

d1 1 0 0

d2 A D K

d2 1 0 0

d3 B D K

d3 0 0 0

d4 B E L

d4 0 1 1

d5 B E K

d5 0 1 0

■年代による言語形式の数量化

名義尺度を数量化するときは、数量化の基準値を選択する理由・根拠が

なければなりません。ここでは、名義が数値を得る理由として歴史的言語

形式の年代を考えます。次の下左表 (D)は N 列に nn, <n>n, n<n>, ny, ñ など

の古スペイン語バリアント、Form 列が具体的な形式、P 列が文書の発行地、

T 列が文書類(国事尚書・裁判記録 J・教会文書 E・私文書 P)、Y 列が発

行年代を示します。

D N Form P T Y

D N Y

d1 ny adanyo Zaragoza P 1369

d1 1443.7 1369.0

d2 n<n> an<n>o Zaragoza E 1356

d2 1387.6 1356.0

d3 n<n> an<n>o Burgos J 1521

d3 1387.6 1521.0

d4 n<n> dan<n>o Jaén P 1521

d4 1387.6 1521.0

d5 nn dannaia Burgos P 1096

d5 1260.3 1096.0

d1:ny は 1369 年に発行された文書で見つかったバリアントですが、この

ny は他の年代の文書にも存在するので、ny がある全文書の年代の平均値を

求め ny の平均年代とします。名義尺度数量化の結果 (上右表 )、ny は 1369.0

という平均年代が与えられました。

上表の N だけの平均年代を求め、発行地 (P)・文書類 (T)の平均年代を求

めませんでした。その理由は、発行地 (P)や文書類 (T)が発行年代 (Y)と関連

しないためです。たとえば d1:Zaragoza は 1369 年に発行された文書を示し

Page 185: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

184

ていますが、Zaragoza 発行の文書は ny の有無に拘わらず広範囲の年代に分

布します。文書類 (T)と年代 (Y)についても同じで、その年代分布はさらに

広範囲です。発行地 (P)と文書類 (T)が参照すべき数値は発行年 (Y)ではなく、

先に数量化された言語バリアント (N)の値です。 なぜなら、 たとえば

d1:Zaragoza の平均年代が言語バリアント (N)の年代の線上で占める位置を

問題にしているからです。プログラムは次を出力します。

D Form Y P T N

d8016 adanyo 1369 1333.2 1368.3 1387.6

d7674 an<n>o 1356 1393.6 1397.3 1387.6

d13183 an<n>o 1521 1333.2 1426.5 1387.6

d13185 dan<n>o 1521 1333.2 1397.3 1387.6

d102 dannaia 1096 1330.8 1368.3 1260.3

P(Zaragoza)は 1333.2 という数値になりました。よって、このデータの中

の言語形式 (N)について見るならば、Zaragoza は 14 世紀前半に中心(平均)

をもつ発行地である、と考えられます。文書類 T(P)は、対応する N の値が

さらに小さくなったため 14 世紀後半 (1368.3)が中心になりました。

このようにして、すべての名義尺度が数量化することによって、後述の

重回帰分析や主成分分析などの多変量解析にかけることができます。

5.14. 数値尺度の名義化

下右表 (N1)は下左表 (X)の列平均 (Am)を基準にして名義化した行列です。

名義 (-): if X < Am

たとえば X(1, 1) = 10 は、列平均 (5.25)を超えているので v1:+とします 58。

X v1 v2 v3 v4 v5

N1 v1 v2 v3 v4 v5

d1 10 19 14 7 12

d1 v1:+ v2:+ v3:+ v4:+ v5:+

d2 11 7 10 0 1

d2 v1:+ v2:+ v3:+

d3 0 0 1 12 1

d3 v4:+

d4 0 1 2 3 3

d4

上右表 (N2)をダミー変数にすると下右表 (D1)になります。

X v1 v2 v3 v4 v5

D1 v1:+ v2:+ v3:+ v4:+ v5:+

d1 10 19 14 7 12

d1 1 1 1 1 1

d2 11 7 10 0 1

d2 1 1 1 0 0

58

この表を後述する主成分名義分析で使うため、各セルに表頭 (v1, …, v5)

を付加します。

Page 186: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

185

d3 0 0 1 12 1

d3 0 0 0 1 0

d4 0 1 2 3 3

d4 0 0 0 0 0

同様にして、次の基準によって名義を +と -の 2 つにします。

名義 (-): if X < Am

名義 (+): if X >= Am

N2 v1:+ v1:- v2:+ v2:- v3:+ v3:- v4:+ v4:- v5:+ v5:-

d1 1 0 1 0 1 0 1 0 1 0

d2 1 0 1 0 1 0 0 1 0 1

d3 0 1 0 1 0 1 1 0 0 1

d4 0 1 0 1 0 1 0 1 0 1

さらに、次のように、列の平均 (AmC)と標準偏差 (SdC)を基準にして 3 段

階 (-:$:+)に分けて名義化をします。

名義 (-): if X <= Am - Sd / 2

名義 ($): if X > Am - Sd / 2 and X < Am + Sd / 2

名義 (+): if X >= Am - Sd / 2

N3 v1:+ v1:- v2:+ v2:$ v2:- v3:+ v3:- v4:+ v4:$ v4:- v5:+ v5:$ v5:-

d1 1 0 1 0 0 1 0 0 1 0 1 0 0

d2 1 0 0 1 0 1 0 0 0 1 0 0 1

d3 0 1 0 0 1 0 1 1 0 0 0 0 1

d4 0 1 0 0 1 0 1 0 0 1 0 1 0

4 段階 (-:$:+)の名義化の基準は

名義 (=): if X <= Am - Sd

名義 (-): if X < Am and X > Am - Sd

名義 (+): if X >= Am and X < Am + Sd

名義 (#): if X >= Am + Sd

5 段階 (=:-:$:+:#)の名義化の基準は

名義 (=): if X <= Am - Sd

名義 (-): if X <= Am and X > Am - Sd

名義 ($): if X > Am - Sd / 2 and X < Am + Sd / 2

名義 (+): if X >= Am and X < Am + Sd

名義 (#): if X >= Am + Sd

この方法を数値尺度の名義化 (Nominalization of numeric scale)とよびま

す。

Page 187: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

186

5.15. 名義行列

下左表のような名義を成分とする行列を名義行列 (Nominal Matrix)とよび

ます。 Lt.Oc.のように名義の出現を示す名義行列を名義出現行列 (Nominal

Occurrence Matrix)とよび、Lt.Fq.のように名義ごとの頻度を示す名義行列

を名義頻度行列 (Nominal Frequency Matrix)とよび、Lt.Dt.のように、カテ

ゴリー (d1, d2, …, dn)ごとの分布を示す名義行列を名義分布行列 (Nominal

Distribution Matrix)とよびます。これらを用いて、後述するさまざまな分析

をします。

Lt.Oc. v1 v2 v3 v4

Lt.Oc. > Lt.Dt. v1 v2 v3 v4

d1 A A,B B C

d1:A v v

d2 B,D B,C,D C D

d1:B v v

d3 A,B C B C

d1:C

v

d4 C C,D C A

d2:B v v

d5 B C B,C B,C,D

d2:D v v

v

d2:C v v

Lt.Oc. > Lt.Fq. v1 v2 v3 v4

d3:A v

A 2 1 1

d3:B v

v

B 3 2 3 1

d3:C v

v

C 1 4 3 3

d4:C v v v

D 1 2 2

d4:D v

d4:A

v

d5:B v

v v

d5:C v v v

d5:D v

●質的データ

量的データを質的データに変換したり、質的データの表示形式を変えた

りするための操作です。

(1) データの 50 以上の数値 (A)を 1 に変換します。 50 未満を 0 とします。

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 86 29

1.文法解説 1 0

2.ビデオ 53 78

2.ビデオ 1 1

3.活動 48 53

3.活動 0 1

4.映画 43 96

4.映画 0 1

(2) 上右表の 1/0 を v/(空白 )に変換します(下左)。また、 v/(空白 )を 1/0

に戻します(下右)。

Page 188: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

187

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 v

1.文法解説 1 0

2.ビデオ v v

2.ビデオ 1 1

3.活動

v

3.活動 0 1

4.映画

v

4.映画 0 1

Page 189: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

188

6. 分析

データ行列全体をさまざまな視点から分析します。

6.1. 統計量の分析

6.1.1. 範囲の分析

データの範囲の状態を示す「最小値」「中間値」「最大値」「範囲」(最

大値-最小値)を調べます。

X v1 v2 v3

X v1 v2 v3

d1 38 18 5

最小値 22 10 5

d2 35 10 6

中間値 30 27 47

d3 28 44 48

最大値 38 44 89

d4 22 30 62

範囲 16 34 84

d5 24 29 89

6.1.2. 中心の分析

データの中心を示す平均値、中央値、最頻値と大数平均値、大数最頻値

と、平均値・中間値との関係を差・両側相対値・範囲内位置で調べます。

たとえば、平均値 (Me)と中央値 (Md)の両側相対値 (Contr)は

Contr(Me, Md) = (Me - Md) / (Me + Md)

また、たとえば平均値 (Me)の「範囲内位置」 (Pos.Rg)は次のようにして

求めます (Min:最小値 ; Max:最大値 )。

Pos.Rg(Me) = (Me – Min) / Max

X v1 v2 v3

X v1 v2 v3

平均値 29.40 26.20 42.00

中央値 28.00 29.00 48.00

中央値 28.00 29.00 48.00

平均値 29.40 26.20 42.00

差(-) 1.40 -2.80 -6.00

差(-) -1.40 2.80 6.00

両側相対値 .02 -.05 -.07 両側相対値 -.02 .05 .07

中間値 30.00 27.00 47.00

中間値 30.00 27.00 47.00

差(-) -.60 -.80 -5.00

差(-) -2.00 2.00 1.00

両側相対値 -.01 -.02 -.06 両側相対値 -.03 .04 .01

範囲内位置 .46 .48 .44 範囲内位置 .38 .56 .51

Page 190: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

189

X v1 v2 v3

X v1 v2 v3

大数平均値 29.11 26.33 41.56 大数最頻値 24.67 25.67 66.33

平均値 28.00 29.00 48.00

平均値 28.00 29.00 48.00

差(-) 1.11 -2.67 -6.44

差(-) -3.33 -3.33 18.33

両側相対値 .02 -.05 -.07 両側相対値 -.06 -.06 .16

中間値 30.00 27.00 47.00

中間値 30.00 27.00 47.00

差(-) -.89 -.67 -5.44

差(-) -5.33 -1.33 19.33

両側相対値 -.02 -.01 -.06 両側相対値 -.10 -.03 .17

範囲内位置 .44 .48 .44 範囲内位置 .17 .46 .73

6.1.3. 変動の分析

平均を中心にした変動を示す各種の統計量を比較します。

X v1 v2 v3

X v1 v2 v3

d1 38 18 5

分散 38.24 133.76 1062.00

d2 35 10 6

標準偏差 6.18 11.57 32.59

d3 28 44 48

変動係数 .21 .44 .78

d4 22 30 62 限定標準偏差 .11 .22 .39

d5 24 29 89

拡散度 .89 .78 .61

●階級変動の分析

下の表は、データ行列 (X)と、その各列の和・平均値・分散・標準偏差・

限定標準偏差を示します (Xr)。

X v1 v2 v3

Xr v1 v2 v3

d1 38 18 5

和 147 131 210

d2 35 10 6

平均値 29.40 26.20 42.00

d3 28 44 48

分散 38.24 133.76 1062.00

d4 22 30 62

標準偏差 6.18 11.57 32.59

d5 24 29 89 限定標準偏差 .11 .22 .39

一方、下左表 (Y)には先のデータ行列 (X)に加えて、階級値 (Class)の列が

あります。この列の値を各変数に積算して、同じ統計量を取り直したもの

が下右表 (Yr)です。これを「階級による変動分析」 (Analysis of variation by

class)とよびます。

Page 191: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

190

Y v1 v2 v3 Class

Yr v1 v2 v3

d1 38 18 5 1

和 400 435 854

d2 35 10 6 2

平均値 2.72 3.32 4.07

d3 28 44 48 3

分散 2.00 1.64 .98

d4 22 30 62 4

標準偏差 1.41 1.28 .99

d5 24 29 89 5 相対標準偏差 .71 .64 .49

M1p = SumV(Xnp * Cn1) ←縦和行

M1p = M1 p / SumV(Xn p) ←縦平均行

V1 p = SumV(Cn 1 - M1p)2 * Xnp / SumV(Xn p) ←縦分散行

V1 p = V1p1 /2

←縦標準偏差行

上の Xnp はデータ行列、Cn 1 は階級値の列 (Class)を示します。ここでの目

的は、階級を外的基準として利用し、それに基づいた変動を比較すること

です。Xn p の単純な分析では中心点(平均値)が全体で一様に共通して計

算されますが (Xr)、Yr では階級を外部基準として変動を分析し、個別の階

級値を使って平均値を出します。たとえば Xr の v1 の平均値はデータの尺

度の 29.4 ですが、Yr の平均値は階級値の尺度の 2.72 になります。

両者の分散・標準偏差を比較すると、Xr では v1 < v2 < v3 という大小関

係を示しますが、Yr では、逆に v1 > v3 > v3 という順番です。データ行列

を見ると、たしかに v3 のデータが d3, d4, d5 に集中していることがわかり

ます。その中心点(階級平均値)は 4.07 です。分散・標準偏差はたしかに

データの散らばり具合を示し v3 が全体的に見れば拡散しているようです

が、一方、大きな値に焦点を当てて見れば集中しているように思われます。

たとえば、D.var の v3 の中心(平均値)42 は d2-d3 間にありますが、D.var.C

の中心(平均値) 4.067 は d4-d5 間になります。

このようにデータ行列だけの変動と、階級を考慮した変動の様子は異な

りますが、どちらを採用するかは分析の目的によります。この階級による

変動分析は、たとえば年代順などの順番があらかじめ決められている外的

な基準に従ってデータが集中する度合いを調べるときに役立ちます。

■中世・近代スペイン公証文書の略記形

中世・近代スペインの公証文書では、多くの語が完全形でなく、語中・

語尾が省略されて書かれていました。次の表は頻繁に使われた略記形の頻

度(千語率を分数平均で相対化)を示します。

Page 192: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

191

NS.FM d<e> d<e>l d<e>la d<e>los d<ic>ha d<ic>ho d<ic>hos dich<o>

1260 348 61 28 174 22

1280 100 66 71

541

1300 629 824 922 686 3

2556

1320 1048 1087 1016 438

5250

1340 215 237 379 103

833

1360 1196 702 805 273

2289

1380 906 1147 1081 451 37 23 65 1372

1400 545 387 396 210 13 24 27 706

1420 981 847 517 331 153 299 195 63

1440 989 1354 938 138 461 548 233 18

1460 914 473 397 158 250 306 303

1480 2623 1669 902 201 1118 1164 598

1500 1465 1207 811 412 776 687 541 10

1520 1503 1110 629 231 1021 1052 667

1540 2707 1854 842 284 1315 1719 865

1560 660 481 280 121 1533 1192 901

1580 154 52 88

554 611 457

1600 558 378

1490 1566 1049

1620 30

93 63 74

1640 66

1570 1932 1170

1660

288 229 78

1680 43 3566 4953 2579

上の分布を見ると年代の推移と集中があることがわかります。d<e>はど

のバリアントも 15 世紀後半を頂点とし、dicho を dho とするタイプの略記

形は 16 世紀前半を頂点としています。一方、 dich のように語尾が脱落す

るのは、かなり早期に見られるので( 14 世紀前半)、これは略記というよ

りも当時頻繁に起きた語末母音の脱落によるものだと思われます。

次の表は年代を外的基準にした階級変動の分析を示します。

NS.FM d<e> d<e>l d<e>la d<e>los d<ic>ha d<ic>ho d<ic>hos dich<o>

和 192590 144323 91631 34261 245069 286587 168847 63807

平均値 10.892 10.358 9.072 8.137 17.209 17.507 17.226 4.671

分散 18.292 17.435 16.910 19.211 14.900 15.968 15.771 2.594

標準偏差 4.277 4.176 4.112 4.383 3.860 3.996 3.971 1.611

変動係数 .393 .403 .453 .539 .224 .228 .231 .345

相対歪度 .274 .122 .031 .202 .424 .575 .477 .580

相対尖度 .196 .107 .072 .165 .333 .490 .387 .453

平均位置 1460 1440 1420 1400 1580 1600 1580 1340

Page 193: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

192

この表の平均値を見ると、平均位置を参照することによって、それぞれ

の語形のおおよその頂点の位置を特定することができます。また、変動係

数や相対尖度を見ると、 d<e>の略記形がやや広く広がり、 dicho の分布が

集中していることがわかります。いずれにしても、それぞれの語形が一定

の年代に集中しているんで、公証人たちが当時の規範に従っていたことを

示しています。

6.1.4. 平衡の分析

次のデータの列の数値の偏りを示す指標として、以下のような対称数

(Contrastive count)を考えます。

X v1 v2 v3

d1 38 18 5

d2 35 10 6

d3 28 44 48

d4 22 30 62

d5 24 29 89

たとえば、v1 {38, 35, 28, 22, 24)の中間値 [(最大値+最小値)/2]は (38 + 22)

/ 2 = 30 ですが、この中間値より大きな数値 (Positive: Ps)は 38, 35 の 2 数で

す。また、中間値より小さな数値 (Negative: Ng)は 28, 22, 24 の 3 数です。

そこで、中間値平衡度数 (Mid Balance Count: Mid.BC)は

Mid.BC = (Ps – Ng) / (Ps + Ng) = (2 – 3) / (2 + 3) = -.20

となり、ややデータ数が中間値より下に多いことがわかります。

次に、データの数ではなく、次のような数値を計算し、その結果を中間

値平衡値 (Mid Balalance Value: Mid.BV)とします。たとえば、v1 {38, 35, 28,

22, 24)のなかで中間値 30 より大きな数値 38, 35 の差は、8, 5 なので、

Ps=8+5=13 になります。また、中間値 30 より小さな数値 28, 22, 24 の差は、

2, 8, 6 なので、Ng=2+8+6=16 になります。そこで

Mid.BC = (Ps – Ng) / (Ps + Ng) = (13- 16) / (13+16) = -.10

となります。

Page 194: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

193

X v1 v2 v3

X v1 v2 v3

中間値 30 27 47

中間値 30 27 47

正数 2 3 3

正値 13 22 58

負数 3 2 2

負値 16 26 83

平衡度 -.200 .200 .200

平衡度 -.103 -.083 -.177

相対歪度 .139 .079 .057 相対歪度 .139 .079 .057

相対尖度 .434 .599 .469 相対尖度 .434 .599 .469

平衡度数も平衡値も、Ps と Ng が同じ数値であればゼロになり、Ps>Ng

のときは正値になり、Ps<Ng のときは負値になります。どちらもは –1 < Ccm

/ Cvm< +1 の両端を含まない範囲をとります。

このようにそれぞれのデータと比較する参照値は、中間値だけでなく、

平均値 (Mean)や中央値 (Median)を使うことができます。平均値を使うと平

衡値がかならずゼロ (0)になるので平衡度数を使います。逆に、中央値を使

うと平衡度数がかならずゼロ (0)になるので平衡値を使います。

X v1 v2 v3

X v1 v2 v3

平均値 29 26 42

中央値 28 29 48

正数 2 3 3

正値 17 16 55

負数 3 2 2

負値 10 30 85

平衡度 -.200 .200 .200

平衡度 .259 -.304 -.214

相対歪度 .139 .079 .057 相対歪度 .139 .079 .057

相対尖度 .434 .599 .469 相対尖度 .434 .599 .469

この中央値平衡値は先述の平衡指数です(→「要約」「歪度」)。

6.1.5. 推移の分析

データの並びの推移の様子を、振動性・平衡性・単峰性・正規性・連続

性・平滑性・定常性を示す係数で数量化します。

X v1 v2 v3 v4 v5

X v1 v2 v3 v4 v5

d1 10 19 14 7 12 振動性 -.833 -.900 -.857 -.143 -.692

d2 11 7 10 0 1 平衡性 .048 .440 .143 .125 .692

d3 0 0 1 12 1 単峰性 1.000 .900 .857 .500 .692

d4 0 1 2 3 3 正規性 .679 .996 .957 .757 .861

連続性 .485 .298 .410 .472 .197

平滑性 1.000 .810 .762 .642 .333

定常性 .420 .577 .560 .204 .413

Page 195: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

194

6.2. 距離集中分析

データ行列の列と行にあたえられる数値情報を使って、拡散した行列の

分布パタンを再編成し、行列の対角部分などに高い数値を集中化すること

によって、データ全体の分布構造を探る技法を「集中分析」 (Concentration

Analysis)と名づけます。原点からの距離の平均を測る方法と多変数解析を

利用する方法を探ります。多変量解析は次節で扱い、この節では私たちが

開発した「距離集中分析」 (Concentration Analysis)を説明します。

6.2.1. 外的基準

はじめに「外的基準による集中化」 (Concentration with exterior criterion)

を説明します。これは、たとえば下左表のようなデータ行列があり、これ

の行 (d-1, 2, …, 5)を並べ替えて v 印で示した反応の分布を近接させる(こ

の場合は対角線に近い位置に並べる)というのがねらいです。

Lv v1 v2 v3 v4

Lv v1 v2 v3 v4

d1 v v

d1 v v

d2

v d3

v

d3

v

d5 v v v

d4

v v

d2

v

d5 v v v

d4

v v

このように集中化すると行に関しては [d-1, 3, 5]と [d-2, 4]がそれぞれ集

中し、列に関しては [v1, v2]と [v3, v4]がそれぞれ集中化されていることが

わかります。ここで「集中化」(concentration)とは反応の分布が互いに近接

し、全体で一定の傾向を示すことを意味します。上の右図の左上のグルー

プはデータ d1, d3, d5 が変数 v1, v2 を選択していることを示します。右下

のグループも同様です。そして、 d1-d3-d5-d2-d4 という順序が v1-v2-v3-v4

に対応していることをデータ «v»の位置が裏付けています。このようにして、

大きな行列では見えにくい行と列の関係を行列全体を見ながら観察できる

ようになります。

行の並べ替えをするために、それぞれの行がもつ数値情報を次のように

して探ります。距離集中分析では、それぞれの反応点の原点からの距離の

平均値を使います。

d1: [(12 + 2

2) / 2]

1 /2 = 1.581 (...1)

d2: [(32) / 1]

1 /2 = 3.000 (...4)

d3: [(22) / 1]

1 /2 = 2.000 (...2)

d4: [(32 + 4

2) / 2]

1 /2 = 3.535 (...5)

d5: [(12 + 2

2 + 3

2) / 3]

1 /2 = 2.160 (...3)

Page 196: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

195

この距離縦ベクトル D を行列で示すと

Dn 1 = [SumH(Xn p * Sp 12) / SumH(Xn p)]

1/2

ここで SumH は行列の横和縦ベクトルを返す関数です。

SumH(Xn p) = Xn p Ip 1

Sp1 は連番 {1, 2, …, P}を成分にする縦ベクトルです。

●同距離異分布問題

原点からの距離の平均は等しいけれど分布のパタンが異なる 2 つのデー

タのあります。たとえば次のような例 (P2)です。

P2 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11

P2 係数

d1 v v v

d1 7.594

d2 v v v

d2 7.594

これを先のように計算すると次のように結果が同じになります。

d-1 ... [(42 + 6

2 + 11

2) / 3]

1 /2 = 7.594

d-2 ... [(32

+ 82

+ 102) / 3]

1 /2 = 7.594

このとき Minkowsky の距離で 3 乗を選択すると、この同距離異分布問題

を解決できます。

P2 v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11

P2 係数

d2 v v v

d2 8.005

d1 v v v

d1 8.128

d1 ... [(43 + 6

3 + 11

3) / 3]

1 /3 = 8.128

d2 ... [(33

+ 83

+ 103) / 3]

1 /3 = 8.005

■地理的配列基準

次のデータ (p6)はラテンアメリカスペイン語の「農夫」を示す言語形式

とその地理的分布です (Cahuzac: 1980)。語形はアルファベット順に並べ、

国名は北から南に配置されています。(México, Cuba, República Dominicana,

Puerto Rico, Guatemala, El Salvador, Honduras, Nicaragua, Costa Rica, Panamá,

Venezuela, Colombia, Ecuador, Perú, Bolivia, Chile, Paraguay, Iruguay,

Argentina).

Page 197: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

196

このデータ行列の列を外的基準にして固定し、原点平均距離 (N=2)によっ

て行を並べ替えると全体の分布は次のように集中化されます。

Agricultor MX CU RD PR GU HO EL NI CR PN VE CO EC PE BO CH PA UR AR

01 cacahuero v v

02 cafetalista v v v

03 camilucho v v v

04 campero v v v

05 camperuso v v

06 campirano v v v v v v v v

07 campiruso v v v v v v

08 campista v v v v v v v v v

09 campusano v v v

10 campuso v v v v v

11 colono v v

12 comparsa v v v

13 conuquero v v v v v

14 coquero v v v

15 chagrero v v

16 changador v v v

17 chilero v v v v v v v

18 chuncano v v v

19 enmaniguado v v v

20 estanciero v v v

21 gaucho v v v v

22 guajiro v v

23 guanaco v v v v v v

24 guaso v v v v v v

25 huasicama v v

26 huertero v v v v

27 hulero v v v v v v v

28 invernador v v v v v

29 jíbaro v v

30 lampero v v v

31 lanudo v v v

32 llanero v v

33 macanero v v

34 manuto v v

35 montero v v

36 montubio v v v v v

37 paisano v v v

38 pajuerano v v v

39 partidario v v v

40 payazo v v

41 piona v v v

42 ranchero v v v v

43 rondín v

44 sabanero v v

45 veguero v v

46 viñatero v v v v v

47 yanacón v v v v

Page 198: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

197

このようにデータ行列全体の反応パタンが対角化されると、一定の地域

に集中する一定の語形の集まりを観察することができます。

6.2.2. 内的基準

先の外的基準による集中化では行を固定して(外的基準として選択して)、

列を原点平均距離という基準で並べ替えました。ここでは行も固定せずに、

つまり外的基準を設定しないで集中化する方法を考えます。

Dst.R MX CU RD PR GU HO EL NI CR PN VE CO EC PE BO CH PA UR AR

22 guajiro v v

35 montero v v

02 cafetalista v v v

19 enmaniguado v v v

11 colono v v

29 jíbaro v v

42 ranchero v v v v

33 macanero v v

10 campuso v v v v v

17 chilero v v v v v v v

27 hulero v v v v v v v

08 campista v v v v v v v v v

07 campiruso v v v v v v

23 guanaco v v v v v v

34 manuto v v

45 veguero v v

13 conuquero v v v v v

06 campirano v v v v v v v v

36 montubio v v v v v

01 cacahuero v v

05 camperuso v v

32 llanero v v

40 payazo v v

44 sabanero v v

38 pajuerano v v v

37 paisano v v v

31 lanudo v v v

15 chagrero v v

25 huasicama v v

14 coquero v v v

24 guaso v v v v v v

43 rondín v

26 huertero v v v v

47 yanacón v v v v

30 lampero v v v

09 campusano v v v

28 invernador v v v v v

46 viñatero v v v v v

21 gaucho v v v v

39 partidario v v v

03 camilucho v v v

04 campero v v v

12 comparsa v v v

16 changador v v v

18 chuncano v v v

20 estanciero v v v

41 piona v v v

Page 199: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

198

先のサンプルデータは、たとえば 5 つの地域 (d-1, 2, …, 5)について 4 つ

の言語特徴 (v-1, 2, 3, 4)がどのように反応しているかを示していることを

想定しましょう。ここでは言語地理区分をする上で外部的な基準がなく、

あるのは地域を共有する特徴の集合と特徴を共有する地域の集合だけです。

そこで、特徴がどの地域にあるかを調べ、該当するときに v 印をつけたの

が下左表です。このままでは地域についても特徴についてもどのような分

布パタンがあるのかわからないので、地域については特徴の選択が近いも

のを並べ、特徴については地域の選択の仕方が近いものを並べるという操

作をすると下右表が得られます。

Lv v1 v2 v3 v4

Lv v2 v1 v3 v4

d1 v v

d3 v

d2

v d1 v v

d3

v

d5 v v v

d4

v v

d2

v

d5 v v v

d4

v v

「内的基準による集中化」Concenration with interior criterion とは上左表

のようなデータから上右表のようなパタンを得る方法です。「最良のパタ

ン」とは反応するデータ (v 印 )がなるべく対角線の近くに集まるようなパタ

ンであると決めて、このようなパタンを得る方法を考えましょう。

先と同様の計算を何度か繰り返しますが方法はとても簡単です。はじめ

に「外的基準のある集中化」と同様に横行の中で反応した v 印の原点から

の距離 (原点からの標準偏差 )を計算します。

d1: [(12 + 2

2) / 2]

1 /2 = 1.581 (...1)

d2: [(32) / 1]

1 /2 = 3.000 (...4)

d3: [(22) / 1]

1 /2 = 2.000 (...2)

d4: [(32 + 4

2) / 2]

1 /2 = 3.535 (...5)

d5: [(12 + 2

2 + 3

2) / 3]

1 /2 = 2.160 (...3)

この数値を基準にして昇順 (上の計算式で . . .で示しました )で並べ替える

と次のようになります。ここまでは前節の外的基準による分類と同じです。

Lv v1 v2 v3 v4

Lv 係数

d1 v v

d1 1.581

d3

v

d3 2.000

d5 v v v

d5 2.160

d2

v

d2 3.000

d4

v v

d4 3.536

次にこの各縦列の原点からの距離を計算します。

Page 200: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

199

v1: [(12 + 3

2) / 2]

1 /2 = 2.236 (...2)

v2: [(12 + 2

2 + 3

2) / 3]

1 /2 = 2.160 (...1)

v3: [(32 +4

2 + 5

2) / 3]

1 /2 = 4.082 (...3)

v4: [(52) / 1]

1 /2 = 5.000 (...4)

この数値によれば v1 と v2 が位置を交代しなければなりません。その結

果が次の表です。

Lv v2 v1 v3 v4

Lv 係数

d1 v v

d1 1.581

d3 v

d3 1.000

d5 v v v

d5 2.160

d2

v

d2 3.000

d4

v v

d4 3.536

Lv v2 v1 v3 v4

係数 2.160 2.236 4.082 5.000

これで第 1 回目の縦と横の並べ替えが終わりました。この段階で再び各横

行の原点からの平均距離を計算すると次のようになります。

d1: [(12 + 2

2) / 2]

1 /2 = 1.581 (...2)

d3: [(12) / 1]

1 /2 = 1.000 (...1)

d5: [(12 + 2

2 + 3

2) / 3]

1 /2 = 2.160 (...3)

d2: [(32) / 1]

1 /2 = 3.000 (...4)

d4: [(32 + 4

2) / 2]

1 /2 = 3.535 (...5)

これを見ると、 d1 と d3 を交替しなければならないことがわかります。そ

のように並べ替えたのが次の表です。

Lv v2 v1 v3 v4

Lv 係数

d3 v

d3 1.000

d1 v v

d1 1.581

d5 v v v

d5 2.160

d2

v

d2 3.000

d4 v v

d4 3.536

Lv v2 v1 v3 v4

係数 2.160 2.550 4.082 5.000

さらに各縦列の原点からの標準偏差を計算すると次のようになります。

v-2: [(12 + 2

2 + 3

2) / 3]

1 /2 = 2.160 (...1)

Page 201: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

200

v-1: [(22 + 3

2) / 2]

1 /2 = 2.550 (...2)

v-3: [(32 +4

2 + 5

2) / 3]

1 /2 = 4.082 (...3)

v-4: [(52) / 1]

1 /2 = 5 (...4)

これで横行も縦列も正しく昇順に並んだので分布パタンは集中したことに

なります。さらに大きなデータ行列では繰り返しの数が増えます。

■行列内的基準

先に行(南北の配置)を外的基準にした分析をしましたが、今回は外的

基準を設定しないでデータ行列 (Cahuzac: 1980)の内的基準にしたがって同

じデータ行列を分析してみましょう。次の表を見ると先の分析と比べて、

さらにつよく集中化されていることがわかります。

Page 202: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

201

一般にデータを扱うときは分析者が先に一定の基準を設けて、それにし

たがって分析をすることが多いのですが、それではデータの構造が本来有

している内的基準が考慮されていません。このような方法を「前範疇化」

(precategorization)とよぶことにします。本当はさらに良い結果が得られる

のに、分析者が先に基準に縛りをかけて、その結果に自らが縛られている

ことがあります。いつも先に決めた基準で同じような分析をするよりも、

むしろ内的基準による分析の結果によって範疇化をすれば、方法が柔軟に

なり、新しい発見に出会う可能性が高まります。このような方法を「後範

疇化」(postcategorization)とよぶことにします。どちらの方法も可能ですが、

Dst.cct. EL HO NI GU CR PR PN MX RD VE CU CO EC PE CH BO AR UR PA

10 campuso v v v v v

23 guanaco v v v v v v

7 campiruso v v v v v v

17 chilero v v v v v v v

27 hulero v v v v v v v

8 campista v v v v v v v v v

6 campirano v v v v v v v v

33 macanero v v

29 jíbaro v v

11 colono v v

34 manuto v v

45 veguero v v

2 cafetalista v v v

42 ranchero v v v v

19 enmaniguado v v v

13 conuquero v v v v v

22 guajiro v v

35 montero v v

32 llanero v v

40 payazo v v

1 cacahuero v v

44 sabanero v v

5 camperuso v v

31 lanudo v v v

36 montubio v v v v v

37 paisano v v v

15 chagrero v v

25 huasicama v v

38 pajuerano v v v

26 huertero v v v v

14 coquero v v v

24 guaso v v v v v v

9 campusano v v v

47 yanacón v v v v

30 lampero v v v

43 rondín v

46 viñatero v v v v v

28 invernador v v v v v

39 partidario v v v

21 gaucho v v v v

41 piona v v v

4 campero v v v

18 chuncano v v v

3 camilucho v v v

20 estanciero v v v

12 comparsa v v v

16 changador v v v

Page 203: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

202

言語研究で後者の方法はあまり行われていないようです。

6.2.3. 軸の解釈

並べ替えの手段とした原点平均距離はパタン化が集中したとき各個体と

各属性それぞれの近さを示しています。そこで、平均距離またはその標準

測度を出力させ、それをグラフに示すことによって個体のグルーピングと

属性のグルーピングができます。サンプルデータ (p 1)が内的基準によって集

中したとき、それぞれの軸の原点からの平均距離は次のようになります。

次は先のサンプルデータの列と行の係数を標準化した結果です。

Lv v2 v1 v3 v4

Lv 係数

d3 v

d3 1.418

d1 v v

d1 0.709

d5 v v v

d5 0.014

d2

v

d2 0.760

d4 v v

d4 1.381

Lv v2 v1 v3 v4

係数 1.097 0.821 0.582 1.336

それぞれの軸を折れ線グラフにしてみましょう。

列係数の直線は一様ですが、行係数は v-2, v-1 の傾斜が緩くなっていま

す。これは v-2, v-1 のデータの分布が近いことを示します。

■軸の傾き

次の図は「農夫」 (Cahuzac: 1980)の分析の行係数を標準化し、折線グラ

フにしたものです。これを見ると、大きく中米諸国 (CR, EL, HO, NI, GU)

からメキシコ (MX)、カリブ海 (RD, VE, CU), アンデス諸国 (CO, EC, PE, CH,

BO)、ラプラタ諸国 (AR, UR, PA)という連続があることがわかります。そし

て、この図は中米諸国は横に一直線に並んでいるので、分布パタンが変わ

らないことを示しています。このことは集中化されたデータ行列の分布パ

タン (2)で確認することができます。

Page 204: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

203

このようにグラフや係数は確かに全体の傾向をつかむのに役立ちますが、

一定の変形や抽象化を得ています。そこで、グラフや係数が示すことを、

データ行列で再確認すると分析結果がより納得できるものになります。数

字や図はそれを支援するものですが、最終的な判断をするときはデータ行

列に立ち返って確認すべきです。

■関係行列の集中化

次は優先係数の出力 (上図 )と、それを集中化した結果(下図)です。

このようにして言語的に近い国どうしの関係を近くの位置に寄せて観察

することができます。

Preference CU RD PR MX GU EL HO NI CR PN VE CO EC PE BO CH PA UR AR

CU 1.000 0.200 -0.200 -0.500 -1.000 -1.000 -1.000 -1.000 -1.000 -0.789 -0.778 -0.600 -0.294 -0.368 -0.750 -0.714 -1.000 -1.000 -0.840

RD 0.200 1.000 -0.059 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -0.429 -0.800 -0.636 -0.579 -0.619 -1.000 -1.000 -1.000 -1.000 -1.000

PR -0.200 -0.059 1.000 -0.385 -0.692 -0.692 -0.692 -0.692 -0.714 -0.750 -0.467 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

MX -0.500 -0.778 -0.385 1.000 -0.143 -0.143 -0.143 -0.143 0.067 -0.059 -0.750 -1.000 -1.000 -0.765 -1.000 -0.667 -1.000 -1.000 -0.826

GU -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

EL -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

HO -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

NI -1.000 -1.000 -0.692 -0.143 1.000 1.000 1.000 1.000 0.867 0.412 -0.500 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

CR -1.000 -1.000 -0.714 0.067 0.867 0.867 0.867 0.867 1.000 0.333 -0.529 -0.789 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

PN -0.789 -0.429 -0.750 -0.059 0.412 0.412 0.412 0.412 0.333 1.000 -0.579 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -0.846

VE -0.778 -0.800 -0.467 -0.750 -0.500 -0.500 -0.500 -0.500 -0.529 -0.579 1.000 0.600 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

CO -0.600 -0.636 -0.765 -1.000 -0.778 -0.778 -0.778 -0.778 -0.789 -0.810 0.600 1.000 -0.158 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000

EC -0.294 -0.579 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -0.158 1.000 0.111 -0.467 -0.692 -1.000 -1.000 -0.833

PE -0.368 -0.619 -1.000 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.810 0.111 1.000 -0.059 0.333 -0.600 -0.636 -0.077

BO -0.750 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.467 -0.059 1.000 -0.333 -0.765 -0.579 -0.130

CH -0.714 -1.000 -1.000 -0.667 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.692 0.333 -0.333 1.000 -0.467 -0.529 -0.048

PA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.600 -0.765 -0.467 1.000 0.818 0.538

UR -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -1.000 -1.000 -1.000 -0.636 -0.579 -0.529 0.818 1.000 0.714

AR -0.840 -1.000 -1.000 -0.826 -1.000 -1.000 -1.000 -1.000 -1.000 -0.846 -1.000 -1.000 -0.833 -0.077 -0.130 -0.048 0.538 0.714 1.000

Dst.cct. EL HO NI GU CR PN MX VE PR CO RD CU EC PE CH BO AR UR PA

EL 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

HO 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

NI 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

GU 1.000 1.000 1.000 1.000 0.867 0.412 -0.143 -0.500 -0.692 -0.778 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

CR 0.867 0.867 0.867 0.867 1.000 0.333 0.067 -0.529 -0.714 -0.789 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

PN 0.412 0.412 0.412 0.412 0.333 1.000 -0.059 -0.579 -0.750 -0.810 -0.429 -0.789 -1.000 -1.000 -1.000 -1.000 -0.846 -0.818 -1.000

MX -0.143 -0.143 -0.143 -0.143 0.067 -0.059 1.000 -0.750 -0.385 -1.000 -0.778 -0.500 -1.000 -0.765 -0.667 -1.000 -0.826 -1.000 -1.000

VE -0.500 -0.500 -0.500 -0.500 -0.529 -0.579 -0.750 1.000 -0.467 0.600 -0.800 -0.778 -0.765 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

PR -0.692 -0.692 -0.692 -0.692 -0.714 -0.750 -0.385 -0.467 1.000 -0.765 -0.059 -0.200 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000

CO -0.778 -0.778 -0.778 -0.778 -0.789 -0.810 -1.000 0.600 -0.765 1.000 -0.636 -0.600 -0.158 -0.810 -1.000 -1.000 -1.000 -1.000 -1.000

RD -1.000 -1.000 -1.000 -1.000 -1.000 -0.429 -0.778 -0.800 -0.059 -0.636 1.000 0.200 -0.579 -0.619 -1.000 -1.000 -1.000 -1.000 -1.000

CU -1.000 -1.000 -1.000 -1.000 -1.000 -0.789 -0.500 -0.778 -0.200 -0.600 0.200 1.000 -0.294 -0.368 -0.714 -0.750 -0.840 -1.000 -1.000

EC -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -1.000 -0.158 -0.579 -0.294 1.000 0.111 -0.692 -0.467 -0.833 -1.000 -1.000

PE -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.765 -1.000 -1.000 -0.810 -0.619 -0.368 0.111 1.000 0.333 -0.059 -0.077 -0.636 -0.600

CH -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.667 -1.000 -1.000 -1.000 -1.000 -0.714 -0.692 0.333 1.000 -0.333 -0.048 -0.529 -0.467

BO -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.750 -0.467 -0.059 -0.333 1.000 -0.130 -0.579 -0.765

AR -1.000 -1.000 -1.000 -1.000 -1.000 -0.846 -0.826 -1.000 -1.000 -1.000 -1.000 -0.840 -0.833 -0.077 -0.048 -0.130 1.000 0.714 0.538

UR -1.000 -1.000 -1.000 -1.000 -1.000 -0.818 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.636 -0.529 -0.579 0.714 1.000 0.818

PA -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -1.000 -0.600 -0.467 -0.765 0.538 0.818 1.000

Page 205: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

204

●量的データの距離

距離集中分析を次のような量的データに適用します。

P1 v1 v2 v3 v4 → Dst.A v1 v2 v4 v3

Row Xn

d1 1 1 5 3

d4 7 2 2 2

d4 .00

d2 3 4 4 4

d5 5 6 4 2

d5 .07

d3 1 2 4 3

d2 3 4 4 4

d2 .51

d4 7 2 2 2

d3 1 2 3 4

d3 .82

d5 5 6 2 4

d1 1 1 3 5

d1 1.00

Colum v1 v2 v4 v3

Yp .00 .29 .71 1.00

それぞれの距離は先と同じ式を使います。

Dn 1 = [SumH(Xn p * Sp 13) / SumH(Xn p)]

1/3

このとき、Xnp は、先は 0 または 1 でしたが、ここでは行列成分の数値

になります。

●荻野の数量化

以下に荻野綱男 (1980)によって提案された非常に簡単な軸の数量化の方

法を紹介します。

P1 v1 v2 v3 v4 → Ogi.A v3 v4 v2 v1

Row Xn

d1 1 1 5 3

d1 5 3 1 1

d1 .000

d2 3 4 4 4

d3 4 3 2 1

d3 .143

d3 1 2 4 3

d2 4 4 4 3

d2 .449

d4 7 2 2 2

d5 2 4 6 5

d5 .771

d5 5 6 2 4

d4 2 2 2 7

d4 1.000

Colum v3 v4 v2 v1

Yp .000 .288 .615 1.000

はじめに縦軸の d1 ~ d5 に 1 ~ 5 という成分をもった縦ベクトル Xn を用

意し、これを入力行列 Xnp に左積し、その結果を横ベクトル Yp とし、こ

の Yp を列和横ベクトル Svp で割って相対化します。

Yp ← XnT Xnp / Svp

たとえば行列 P1 の 1 列では次のように計算します。

(1*1 + 3*2 + 1 * 3 + 7*4 + 5*5 = 1 + 6 + 3 + 28 + 25) / 17 = 63 / 17 ≒ 3.71

Page 206: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

205

Yp の成分全体は、 (3.71, 3.53, 2.53, 3.00)になります。

このベクトル Yp 成分の最大値 Max(=3.71)と最小値 Min(= 2.53)を使って

限定得点とします 59。

Yp ← (Yp – Min) / (Max – Min)

Yp = (1.00, .85, .00, .40)

次にこの Yp を行列 Xnp に右積して、行について同様の計算をし、新た

な縦ベクトル Xn を得ます。

Xn ← Xnp YpT / Shn

Xn ← (Xn - Min) / (Max – Min)

Xn = (.00, .54, .20, 1.00, .90)

これで新たな Xn が求められ、これを使って再度 Yp を計算し、その Yp

を使って Xn を計算します。次がその結果です。

Xn = (.00, .48, .16, 1.00, .81)

さらに何度も同じ計算を繰り返すと次第に変化が少なくなるので、その

ときに計算を終了します。

上の表の Xn と Yp はソートされています。先の「量的データの距離」で

見た結果と違うようですが、行と列の順番が異なるだけで本質的には同じ

です。さらに大きなデータを扱うと結果が微妙に異なることがあります。

6.2.4. 集中係数

デ ー タ が 集 中 す る 状 態 を 測 る 係 数 「 集 中 係 数 」 (Coefficient of

concentration)を設定し、これらを集中化の効果を示す指標とします。

(1) 最大分割

(a) 最大分割数

次は集中分析の結果を分布の分割対称数が最大になるように分割した図

です。

59

荻野はこの場合の最大値を 5、最小値を 1 としていますが、ここでは正

規化するために最大値を 1、最小値を 0 とします。また計算も少し簡単に

なります。

Page 207: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

206

Cor.A v2 v1 v3

Cor.A v2 v1 v3

d1 v

d1

A B d4 v v

d4

d5 v v

d5

d2 v v v

d2

d3

v v

d3 C D

ここで、左上の区画と右下の区画になるべく多く反応点が集まり、右上

と左下の反応点が少なくなるような位置を探すと、その分割点が (4, 2)の位

置 (d2:v2)であることがわかります。ここで、分割点に左上、右上、左下、

右下の区分をそれぞれ A, B, C, D として、A, D の反応点の平均 (Positive:Ps)

と B, C の反応点の平均 (Negative:Ng)を計算し、さらに次の両側相対値 (Z)

を計算します。

Z = (Ps – Ng) / (Ps + Ng)

上の表で計算すると

Ps = (7 + 1) / (8 + 1) = .889, Ng = (1 + 1) / (4 + 2) = .333

Z = (.889 - .333) / (.889 + .333) = .456

実際にはプログラムを使ってすべての可能な分割点をくまなく探し、そ

れぞれの Z 係数を計算して、その最大値を求めます。その最大値を「最大

分割数」 (Maximal Division Count: MDC)とよびます。

なお、次の分割も Z 値は同じになります。

Dst.A v1 v2 v3

d1 v

d4 v v

d5 v v

d2 v v v

d3 v v

しかし、この場合 AD 領域の反応数 (3+4=7)と BC 領域の反応数 (2+1=3)

を先の場合 (7+1=8; i1+1=2 と比べると、区画が最大化されていないようで

す。(一方、AD 領域が完全に反応点でおおわれています。)そこで、そ

れぞれの領域の反応数を全領域を 10 倍した数 (N*P*10)で割って、これを重

みとして、Ps と Ng にそれぞれ加えて Z 値を計算します。

(b) 最大分割値

区画内の反応数だけでなく、それぞれの反応点の位置を次のようにして

考慮します。たとえば、先の表で d1:v1 の反応点の座標 (1, 1)と分割点の座

Page 208: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

207

標 (4, 2)のユークリッド距離 (E)を計算すると

E(1, 1, 4, 2) = [(1 – 4)2 + (1 – 2)

2]

1 /2 = (9 + 1)

1 /2 = 3.162

同様にして、すべての反応点について分割点との距離を測り、その距離

を、先の「最大分割数」と同様に、A, B, C, D の区画に割り振って求めた

量を「最大分割値」 (Maximal Division Value: MDV)と呼びます。

Dst.A v1 v2 v3

Contr.coef. 値

d1 v

MaxDiv.C: 4-2 .600

d4 v v

MaxDiv.V: 4-2 .770

d5 v v

d2 v v v

d3 v v

■アンダルシア方言の開母音

スペイン語アンダルシア方言では語末子音が消失し、それとともに先行

する母音が開く現象が地域によって見られます。次の表は『アンダルシア

言 語 民 俗 地 図 』 (Manuel Alvar y Antonio Llorente: Atlas lingüístico y

etnográfico de Andalucía , 1973)の資料をもとに作成した各県の出現頻度表

です(調査地点数によって標準化)。+が開母音化、++が大きな開母音化

を示します。

Page 209: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

208

R CA SE H MA CO GR J AL

1533B:miel:el>e+ 9 10 17 15 20 46 29 30

1533C:miel:el>e: 4 6 11 16 12 16 11 3

1615A:caracol:-ól>ó+(:) 3 3 2 5 15 19 14 11

1615B:caracol:-ól>ó(:) 15 27 18 16 3 6 1 2

1616A:árbol:-ol>o+

1 2

6 6 8 6

1616B:árbol:-ol>o 17 30 23 26 18 23 11 11

1618A:sol:-ól>ó+(:) 3 9 7 13 13 19 12 11

1618B:sol:-ól>ó(:) 15 21 15 13 1 6 1 1

1623A:beber:-ér>é+l

2 1 10 19 11 20

1623B:beber:-ér>é+ 3 7 4 6 13 15 17 8

1623C:beber:-ér>é 15 24 19 19 2 4

1626C:tos:o++

2 7 18 10 12

1626C:tos:-ós>ó+ 5 7 7 13 18 27 17 19

1626D:tos:-ós>ó 11 22 10 9 2 2 1

1627B:nuez:-éθ>é+ 5 13 7 17 20 39 25 26

1627C:nuez:e++

5 14 26 18 18

1627C:nuez:-éθ>é 12 16 12 9 3 1 1

1629B:voz:-óθ>ó+ 3 5 3 12 22 44 30 30

1629C:voz:-óθ>ó 14 23 18 13 2 2 1 1

1689A:niños:-os>-o+

2 1 4 22 44 31 30

1689B:niños:-os>oh[os)

1 4

2 8 3 8

1690A:pared:-éd>é+

8 6 10 17 24 19 11

1693B:redes:redes>re+ 4 6 14 12 3 16 6 6

1694B:clavel:-él>é+, 3 6

15 20 40 24 29

1694C:clavel:-él>ér

5 1 1

1695A:claveles:e-es>-e-e+

2

4 2 4 2 3

1695B:claveles:e-es>-e+-e+

1

7 18 33 24 21

1695C:claveles:-e-es>-e-e: 1 3 1 1 2 1

これを集中分析した結果の最大分割数 (MDC)と最大分割値 (MDV)を示し

ます。

Contr.coef. Valuer

MaxDiv.C: 7-4 .581

MaxDiv.V: 7-4 .755

次に集中化した分布表を分割点 (28, 4)で区分しました。+は開母音、#は

最大開母音を示します。

Page 210: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

209

Dst.A CA SE H MA CO GR J AL

1626D:tos:-ós>ó 11 22 10 9 2 2 1

1627C:nuez:-éθ>é 12 16 12 9 3 1 1

1623C:beber:-ér>é 15 24 19 19 2 4

1629C:voz:-óθ>ó 14 23 18 13 2 2 1 1

1618B:sol:-ól>ó(:) 15 21 15 13 1 6 1 1

1615B:caracol:-ól>ó(:) 15 27 18 16 3 6 1 2

1616B:árbol:-ol>o 17 30 23 26 18 23 11 11

1533C:miel:el>e: 4 6 11 16 12 16 11 3

1693B:redes:redes>re+ 4 6 14 12 3 16 6 6

1618A:sol:-ól>ó+(:) 3 9 7 13 13 19 12 11

1695C:claveles:-e-es>-e-e: 1

3 1 1 2 1

1623B:beber:-ér>é+ 3 7 4 6 13 15 17 8

1695A:claveles:e-es>-e-e+ 2

4 2 4 2 3

1690A:pared:-éd>é+ 8 6 10 17 24 19 11

1626C:tos:-ós>ó+ 5 7 7 13 18 27 17 19

1533B:miel:el>e+ 9 10 17 15 20 46 29 30

1627B:nuez:-éθ>é+ 5 13 7 17 20 39 25 26

1615A:caracol:-ól>ó+(:) 3 3 2 5 15 19 14 11

1694B:clavel:-él>é+, 3 6

15 20 40 24 29

1629B:voz:-óθ>ó+ 3 5 3 12 22 44 30 30

1616A:árbol:-ol>o+ 1 2

6 6 8 6

1694C:clavel:-él>ér

5 1 1

1695B:claveles:e-es>-e+-e+ 1

7 18 33 24 21

1689B:niños:-os>oh[os) 1 4

2 8 3 8

1627C:nuez:e++

5 14 26 18 18

1689A:niños:-os>-o+ 2 1 4 22 44 31 30

1626C:tos:o++

2 7 18 10 12

1623A:beber:-ér>é+l 2 1 10 19 11 20

アンダルシア方言の開母音化の現象は東地域、すなわちコルドバ (CO),

コルドバ (CO), ハエン (J), グラナダ (GR), アルメリア (AL) で優勢である

ことがわかります。一方、西部のカディス (CA), セビリア (SE)、ウエルバ

(H), マラガ (MA)では上表の左上部 (A 領域)の数値が高く、これは開母音

化が比較的少ない領域です。

* 参 照 : Manuel Alvar. 1973. Estructuralismo, geogafía lingüística y

dialectología actual , p.203.

Page 211: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

210

(2) 平均距離

(a) 連番平均距離

集中化されたデータ行列は、かりに集中相関値があまり高くなくても反

応点が特定の位置に集中していれば、その集中領域は注目に値します。た

とえば後で扱う「クラスター集中分析」では反応点の相関値よりもその集

中度を重視します。集中領域に列と行の強い連関を見ることができるから

です。

「連番平均距離」 (Sequent Mean Distance: SMD)はすべての反応点につい

て比較対をつくり、その X 座標と Y 座標の差を 2 乗し、これを距離の最大

値で割った値の根をとり、その対の数で割って平均をとります。数式で示

すと次のようになります。

SMD = Σ iΣ jΣ aΣ b ( i<>a , j<>b ){[(i – a)2 + (j – b)

2 / (N

2 + P

2)]

1 /2 |X i j Xa b |} / N

ここで (i, j)は Xij の座標を示し、 (a, b)は Xab の座標を示します。比較対

の総数です。このように差を 2 乗してその和の根をとることはユークリッ

ド距離を求めていることになります。さらにそれぞれの値の積の絶対値の

根をウェイトとして掛けます。この場合 X i j, Xab はどれも 1 または 0 ですか

ら、掛け合わせて 1 となるときだけが距離としてカウントされます。

一方、次のような量的データでは距離だけでなく対のそれぞれの値をウ

ェイト |X i j Xa b |として考慮に入れることにします 60。

P2 v1 v2 v3 v4

d1 1 1 2 3

d2 2 4 3 4

d3 1 3 2 3

d4 3 3 2 4

d5 2 3 2 4

(b) 参照平均距離

ここで単なる連番ではなく原点平均距離を使うとさらに精密な距離を測

ることができます。「集中参照平均距離」(Referential Mean Distance: RMD)

の式は次のとおりです。

RMD = Σ iΣ jΣ aΣ b( i<>a , j<>b )[(V i – Ha)2 + (V j – Hb)

2 / Mx]

1 /2 |X i j Xa b | / N

ここで V と H はそれぞれ列と行の係数ベクトルを示します。Mx は

Mx = (Vmax – Vmin)2 + (Hmax – Hmin)

2

60

絶対値とするのはデータの中に負値があるときのためです。

Page 212: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

211

ここで Vmax, Vmin, Hmax, Vmin はそれぞれ V の要素の最大値と最小値、H

の要素の最大値と最小値です。

X v1 v2 v3 v4

Y v2 v1 v3 v4

d1 v v

d3 v

d2

v d1 v v

d3

v

d5 v v v

d4

v v

d2

v

d5 v v v

d4

v v

原点距離集中行列 X Y 差

連番平均距離 .591 .549 -.042

参照平均距離 .630 .588 -.042

(3) 集中相関係数

(a) 連番相関係数

以下に先の表を再掲します。

Lv v1 v2 v3 v4

Lv v2 v1 v3 v4

d1 v v

d3 v

d2

v d1 v v

d3

v

d5 v v v

d4

v v

d2

v

d5 v v v

d4

v v

縦と横の軸のデータ行列からなる表を散布図と見て、これから次のよう

な X と Y の軸のデータ行列を作り、そこから「連番相関値」 (Sequent

Correlation Coefficient: SCC)を次のように計算します。

データ:(X, Y) = (1, 1) (2, 1) (2, 2) (3, 1) (3, 2) (3, 3) (4, 3) (5, 3) (5, 4)

SCC = 0.820

(b) 参照相関係数

実は、それぞれの反応点は連番のように等間隔で並んでいるのではなく、

次のように列と行の係数が対応しているので、次にそれぞれの係数を参照

した数直線を軸にすべきでしょう。

Page 213: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

212

Lv v2 v1 v3 v4

Lv 係数

d3 v

d3 1.42

d1 v v

d1 0.71

d5 v v v

d5 0.01

d2

v

d2 0.76

d4 v v

d4 1.38

Lv v2 v1 v3 v4

係数 1.10 0.82 0.58 1.34

次の「集中バブル図」はそれぞれの反応点を X 軸と Y 軸の標準化された

係数の位置によってプロットしています。X 軸は 4 座標あり、Y 軸は 5 座

標です。

「集中係数相関値」 (Referential Correlation Coefficient: RCC)はこの座標

にもとづいて計算した相関係数です。

データ: (X, Y) = (-1.10, -1.42) (-1.10, -0.71) … (1.34, 1.38)

RCC = 0.835

原点距離集中行列 集中前 集中後 差

連番相関係数 .226 .820 .594

参照相関係数 .563 .835 .273

それぞれのセルにある値を反応の頻度と見なします。

(4) 相補係数

次の 2 つのデータ例 (1), (2)を比べると、(1)では反応点 (v)の縦横の重なり

がなく、 (2)では d2:v4 に反応点があって、その行と列の反応点と重なって

いることがわかります。(1)のような分布は、反応点が行列の中で互いに補

い合っているため「相補分布」 (complementary distribution)とよばれます。

この相補分布を示すデータでは v1, v4 ならば必ず d1 を選択し、v2, v3 なら

Page 214: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

213

ば d2 を選択しています。相補分布を示す行列では行または列を反応点を失

うことなく重ね合わせることができます。一方、 (2)の v4 は d1 と d2 を同

時に選択しているので、この状態は「自由変異」 (free variation)とよばれま

す。自由変異がある行列で行または列を重なると、一部の反応点(ここで

は d2:v4)が失われます。

(1) v1 v2 v3 v4

(2) v1 v2 v3 v4

d1 v v

d1 v v

d2 v v

d2 v v v

相補分布と自由変異の間にはさまざまな程度の差があります。 (2)は v1,

v2, v3 までは相補分布になっていますが、d1:v3 に反応点があればその相補

分布性はさらに低くなります。そこで、このような相補性を示す指標とし

て次のような「相補係数」 (complement coefficient : CC)を考えます。

相補分布ではそれぞれの反応点の縦または横に競合する反応点がありま

せん。(1)では横にが競合反応点がありますが、縦に競合する反応点があり

ません。一方、 (2)の d2:v4 は縦と横にそれぞれ 2 個 (v2, v3)と 1 個 (v4)があ

ります。そこで d2:v4 の変異数を 2 x 1 = 2 とします。完全な自由変異は行

列のすべての成分に反応点がある場合です。よって、各反応点には最大で

3 x 1 = 3 の変異数が考えられます。

相補係数 (CC)は次の式で求めます。

CC = 1 - (Σ iΣ j D i j X i Y i) / [Σ iΣ j D i j (P - 1) (N - 1)]

ここで D はデータ、X は縦の競合反応点数、Y は横の競合反応点数、N

は行数、P は列数を示します。この式の P - 1 は同じ行で競合するデータ数

の考えられる最大値を示します。N-1 も同様です。

上の (2)の行列では d1:v1 で X=0, Y=1; d1:v4 で X=1, Y=1; d2:v2 で X=0,

Y=2, d2:v3 で X=0, Y=2; d2:v4 で X=1, Y=2 なので分子は

(1*1*0 + 0*2*1 + 0*2*1 + 1*1*1) + (0*3*1 + 1*2*0 + 1*2*0 + 1*2*1) = 3

このようにデータがゼロであるときや、行和または列和がゼロになると

き、すなわち相補分布を示すときはカウントされなくなります。分母は

(1*3*1 + 0*3*1 + 0*3*1 + 1*3*1) + (0*3*1 + 1*3*1 + 1*3*1 + 1*3*1) = 15

この商 3 / 15 = .200 は自由変異の大きさを示し、競合する反応点が大きけ

れば大きいほど、この商は大きくなります。そこで、相補係数 (CC)はその

逆数にします。

CC = 1 - .200 = .800

Page 215: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

214

次のような定量的データについては、積の項の行と列の最大値を考慮し

て相補係数 (CC)を計算します。

(3) v1 v2 v3 v4

d1 2 3

d2 4 5 6

CC = 1 - (Σ iΣ j D i j * X i * Y i) / (Σ iΣ j D i j * Mr i * Mc j)

ここで、D はデータ、X は縦の競合反応点数、Y は横の競合反応点数、

Mr は該当行の最大値、Mc は該当列の最大値を示します。

上のデータ例で相補係数 (CC)を計算します。分数の分子は

[2*3*0 + 0*(2+3)*4 + 0*(2+3)*5 + 3*2*6] +

[0*(4+5+6)*2 + 4*(5+6)*0 + 5*(4+6)*0 + 6*(4+5)*3] = 36 + 162 = 198

分数の分母は

[2*(3+3+3)*2 + 0*(3+3+3)*4 + 0*(3+3+3)*5 + 3*(3+3+3)*6] +

[0*(6+6+6)*2 + 4*(6+6+6)*4 + 5*(6+6+6)*5 + 6*(6+6+6)*6]

= (36 + 162) + (288 + 450 + 648) = 1584

よって相補係数 (CC)は

CC = 1 – 198 / 1585 = .875

行列 (1)では分子の項がどれも 0 になるので CC = 1.000 になります。この

セクションで扱ってきた行列 Lv の相補係数は .861 になります。なお、行

列を集中化しても相補係数は変化しません。

(5) 結合係数

下左表の d-1/v-1 と d-1/v2 は横方向で隣接しています。また、 d-4/v-3 と

d-5/v3 は縦方向で隣接しています。このような隣接点の数は全部で 5 つで

すが、集中化された下右表では 9 つになります。

X v1 v2 v3 v4

Y v2 v1 v3 v4

d1 v v

d3 v

d2

v

d1 v v

d3

v

d5 v v v

d4

v v

d2

v

d5 v v v

d4

v v

隣接度数は質的データ( v, 1-0 データ)だけでなく、次の A のような量

Page 216: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

215

的データについても適用します。A のとき、それぞれの反応点を差異化す

るために、値がその全体の平均 (2.6)以上のものを反応点 (v)とします。

A v1 v2 v3 v4 → B v1 v2 v3 v4

d1 1 1 2 3

d1 v

d2 2 4 3 4

d2 v v v

d3 1 3 2 3

d3 v

v

d4 3 3 2 4

d4 v v

v

d5 2 3 2 4

d5 v v

隣接度数の数を相対化するために、隣接度数の理論的な最大値を求めま

す。隣接度数の実測値をこの最大値で割って 0 ~ 1 の間を動く相対化され

た係数が求めます。これを「結合係数」 (Union Coefficient: UC)とします。

UC では結合線の数だけを求め、それぞれのセルの値は考慮しません。

結合線数の最大値 (Uma x)は反応点の数 (R)によって決まりす。たとえば、

R=2 では Uma x は 1 です。これを Uma x(2) = 1 と表現します。R=3 では、次の

図のように、どちらのケースでも Uma x(3) = 2 となります。

«R=3; U= 2» «R=3; U=2»

R=4 のとき下左図では U = 3 ですが、下右図のようになると U = 4 になりま

す。よって正方形の分布で Uma x(4)=4 になります。

«R=4; U=3» «R=4; Uma x=4»

R=5, 6, 7, 8 については、それぞれ次のように正方形を含む分布で Umax を

示します。

«R=5; U=5» «R=6; U=7» «R=7; U=8» «R=8; Uma x=10»

R=8 のとき下左図でも下右図でも同じ最大値 (10)になります。どちらも長

方形に 2 つの反応点が結合したものなので同じ値になるからです。

Page 217: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

216

«R=8; Uma x=10» «R=8; Uma x=10»

R=9 のときは結合の仕方で結合線の数が異なります。

«R=9; U=11» «R=9; Uma x=12»

このように正方形の配列が最大結合線を作ります (Uma x = 32

= 9)。

R=14 のケースを見ましょう。次が Umax(=20)を作る結合です。

«R=14; Uma x=20»

このように正方形と長方形と残余が結合したときに結合数は最大になり

ます。最初に可能な正方形の 1 辺の長さ (S)を探します。

S = Int(R1 /2

)

ここで関数 Int(X)は X の整数部を返します。そして、3 x 3 の正方形には

次のように横方向の結合が 2 * 3 個、縦方向の結合が 2 * 3 個になります。

«R=9; Uma x=12»

よって正方形の結合数 (W)は

W = 2 S (S - 1)

残りは次のように正方形に結合する部分と残余の部分に分けます。

Page 218: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

217

R=5, U=8

長方形になる部分については、その列数( C:ここでは 1)を次の式で求め

ます。

C = Int((R - S2) / S)

ここで R は反応数で、 S は正方形の 1 辺の長さ Int(R1 /2

)です。

C = Int((R - S2) / S) = Int((14 - 3

2) / 3) = 1

それぞれの列は、正方形の辺数 S と同じ数の横結合数と S-1 個の縦結合数

をもちます。

S + S - 1 = 2 S -1

たとえば、S = 3 であれば、次のように結合線が 2*3-1 = 5 になります。

«R=3, U=5»

よって長方形の結合線 (T)は

T = C (2 S – 1) = Int[(R – S2) / S] (2S – 1)

最後に残りの反応数 (14 – 9 – 3 = 2)の結合数 (Q)を計算します。このように

残余の反応数が 2 であれば結合線は 3 になります。

«R=2, U=3»

ここで、割った余りを示す演算子 Mod を使用します。たとえば、14 Mod 3

= 2 となります。よって残余部の接合点 (Q)は次の式で求められます。

Q = (R Mod S) + (R Mod S) - 1 = 2 (R Mod S) - 1

よって、最大反応数 Umax は次の式になります。

Page 219: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

218

Umax(R) = 2 S (S – 1) + Int[(R – S2) / S] (2S – 1) + Q

ここで S = Int(R2), R は反応数、Q は残りがあるときの 2 (R Mod S) – 1 を示

します。このように Umax は反応数 R によって決まります。

次がサンプルデータを原点平均距離法によって集中した結果です。

X v1 v2 v3 v4

Y v2 v1 v3 v4

Contr.coef. X Y

d1 v v

d3 v

Union Coef. .417 .750

d2

v

d1 v v

d3 v

d5 v v v

d4

v v

d2

v

d5 v v v

d4 v v

(6) 順序連関係数

個体と変数の順序がそれぞれ決まっているとき、その順序に従った数値

の配列を示す数 (Positive:Ps)と、逆の順序に従った数値の配列を示す数

(Negative:Ng)の両側相対値は「グッドマンとクラスカルの順序連関係数」

(Goodman and Kruskal 's Rank Measure of Association: GK)とよばれます。こ

の GK を集中係数のひとつとして使います。集中化した行列の個体と変数

の並び方が GK の算出に向いているからです。アンケート調査の集計表な

どで行も列も変化させることができないデータについては、両方とも外的

基準として固定し GK などの集中係数を計算します。GK の計算の具体例

は次を見てください。

■スペイン語の普通語 tú と丁敬語 usted

下左表はスペイン語で ¿Adónde vas?「どこに行くの」という表現を、

Niño(子供 ), Joven (若者 ), Mayuor (大人 ), Anciano (老人 )に対してさまざま

な条件(親疎・上下関係)で使うときの、それぞれ No (使わない ), A veces

(ときどき ), Siempre (いつも )の使用頻度を調べて集計したものです。

¿Vas? Niño Joven Mayor Anciano

G. & K. ¿Vas?

No 1 5 192 92

Positive v. 10600

A veces 3 22 58 20

Negative v. 101941

Siempre 56 153 110 8

G. & K. - .812

このように、横の分類も縦の分類も一定の順序を持った変数であると

き、全体の分布が横と縦の順序にどの程度従っているかを示す係数 GK を

算出するために、クロス表で、 1 つのマス目にあるデータとそれよりも行

と列の位置が大きくなる右下の位置のデータの対の総数である「肯定対総

数」 (Positive pairs: Ps)を、次のようにして計算します。

Page 220: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

219

Ps(Vas) = 1 * (22+58+20+153+110+8) + 5 * (58+20+110+8) + 192 * (20+8) + 3

* (153+110+8) + 22 * (110+8) + 58 * 8 = 10600

一方、1 つのマス目にあるデータとそれよりも行と列の位置が小さくな

る左下の位置データの対の総数である「否定対総数」(Negative pairs: N)を、

次のようにして計算します。

Ng(Vas) = 5 * (3+56) + 192 * (3+22+56+153) + 92 * (3+22+58+56+153+110) +

22 * 56 + 58 * (56+153) + 20 * (56+153+110) = 101941

順序連関係数 GK は Ps と Ng の両側相対値です。

GK(Vas) = (P - N) / (P + N) = (10600 – 101941) / (10600 + 101941) = -.812

この数値は大きなマイナス値を示しているので、相手の年齢と普通語の

使用が逆相関の関係になります。

次は同じことを敬語を使った ¿Adónde va usted?「どちらに行かれます

か?」という表現の使用頻度の集計です。

¿Va usted? Niño Joven Mayor Anciano

G. & K. ¿Va usted?

No 55 147 142 18

Positive v. 93267

A veces 5 24 99 33

Negative v. 15854

Siempre 0 9 119 69

G. & K. .709

P(Va usted) = 93267

N(Va usted) = 15854

GK(Va usted) = (93267 - 15854) / (93267 + 15854) = .709

このように、GK を使うことによって、スペイン語の普通体は対話者の

年代層と逆連関し、丁寧体はそれと正連関していることがわかります。対

話者の年代層だけでなく、各種の変数を比較すると、スペイン語の普通語・

丁寧語の選択は上下関係よりも親疎の関係のほうが強く働いていることが

わかります。比較した日本語ではその逆の傾向が見つかりました。

*「グッドマンとクラスカル の順序連関係数」については池田 (1976:

130-132)を参照しました。

(7) 予測連関指数

クロス集計表の列と行の連関度の指数として Goodman and Kruskal の「予

測関連指数」 (Index of Predictive Association: IPA)が使われます。はじめに

次のような集計表を縦に分析して指数を求める方法を説明します。

Page 221: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

220

G.K.Pred. y1 y2 y3

x1 8 3 1

x2 1 2 7

x3 3 2 9

x4 2 8 1

Sv 14 15 18

この表の縦和 (Sv)の最大値は y3 の 18 です。よって、Sv だけで y1, y2, y3

の選択を予測すると、残りの 14 + 15 = 29 個の誤りが生じます (P)。

P = 14 + 15 = 29

一方、 x1 ~ x4 の情報を利用して y1, y2, y3 の選択を予測すると次の個数の

誤りが生じます (Q)。

Q = (3 + 1) + (1 + 2) + (3 + 2) + (2 + 1) = 15

縦の予測連関指数 (IPAv)は次のように定義されます。

IPAv = (P – Q) / P

これは、x1 ~ x4 の情報がないときの誤りの数 (P)が x1 ~ x4 の情報を使う

ことによって減少する数 (P – Q)の、P をベースにした相対値を求めたこと

になります。Q がゼロのとき最大の 1 になります。

IPAv = (29 – 15) / 29 ≒ .483

この IPAv は、縦和の最大値 SvM とそれぞれの行の最大値 RM i を使うほ

うが計算しやすいので、 IPAv を次のように変形します。

P = S – SvM ←総和 (S) – 縦和 (Sv)の最大値 (SvM)

Q = S – Σ i RM i ←総和 (S) – 行最大値 (RM)の和

IPAv = (P – Q) / P

= [(S – SvM) – (S – Σ i RMi)] / (S – SvM)

= (Σ i RMi – SvM) / (S – SvM)

上表のデータで計算すると

IPA = [(8 + 7 + 9 + 8) – 18] / (47 – 18) = 14 / 29 ≒ .483

次に横の予測連関指数 (IPAh)を求めます。

Page 222: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

221

G.K.Pred. y1 y2 y3 Sh

x1 8 3 1 12

x2 1 2 7 10

x3 3 2 9 14

x4 2 8 1 11

先と同様に

P = S – ShM ←総和 (S) – 横和 (Sh)の最大値 (ShM)

Q = S – Σ i CMi ←総和 (S) – 列最大値 (CM)の和

IPAh = (P – Q) / P

= [(S – ShM) – (S – Σ i CMi)] / (S – ShM)

= (Σ i CMi – ShM) / (S – ShM)

上表のデータで計算すると

IPAh = [(8 + 8 + 9) – 14] / (47 – 14) = 11 / 33 ≒ .333

全体の予測連関指数 (IPA)は、 IPAv と IPAh の分数平均が使われます。

IPA = [(Σ i RMi – SvM) + (Σ i CMi – ShM)]

/ [(S – SvM) + (S – ShM)]

= (Σ i RMi + Σ i CMi – SvM – ShM) / (2S – SvM - ShM)

上表のデータで計算すると

IPA = (14 + 11) / (29 + 33) = 25 / 62 ≒ .403

予測連関指数は行列を集中化しても数値は変わりません。

*「グッドマンとクラスカル の予測連関指数」については池田 (1976:

127-130)を参照しました。

(8) クラメア連関係数

クロス集計表の列と行の連関度の指数として「クラメアの連関係数」

(Cramer's Measure of Association: CMA)が使われます。CMA は期待値から計

算されるカイ 2 乗値を、その理論的な最大値で割ることによって求められ

ます。次はデータ例(下左表 : Xn p)と、その期待値(下右表 : Enp)です。

En p = (Sh * Sv) / S

ここで Sh, Sv, S はそれぞれ引数行列 (Xn p)の横和列、縦和行、総和を示しま

す。

Page 223: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

222

Xnp v1 v2 v3 和 Sh

Enp v1 v2 v3

d1 45 48 66 159

d1 54.860 53.465 50.675

d2 56 59 54 169

d2 58.310 56.827 53.863

d3 58 51 78 187

d3 64.520 62.880 59.599

d4 77 72 20 169

d4 58.310 56.827 53.863

和 Sv 236 230 218 S: 684

次は、その χ2 乗値 (Cn p)と、クラメアの連関係数 (CMA)を示します。

Cn p = (Xn p – Enp)2 / En p

Cn p v1 v2 v3

CMA 0.185

d1 1.772 0.559 4.634

d2 0.092 0.083 0.000

d3 0.659 2.245 5.681

d4 5.991 4.051 21.289

χ 2 は次のように Cnp の総和として定義されます。

χ 2 = Σ iΣ j [(X i j – E i j)

2 / E i j]

ここで、X i j はデータの実測値を示し、 E i j はその期待値を示します。

クラメアの連関係数 (CMA)の式はχ 2 を、χ 2 の最大値χ 2ma x で割って相

対化した値です。

CMA = (χ 2 / χ 2

ma x)1 /2

χ 2 の最大値χ 2ma x を次のようにして求めます。はじめに、期待値を求め

るために、横和 (Sh)と縦和 (Sv)と総和 (S)を使います。

E i j = Sh i Sv j / S

よって

χ 2 = Σ iΣ j [(X i j – Sh i Sv j / S)

2 / (Sh i Sv j / S)]

= Σ iΣ j [(S X i j – Sh i Sv j) / S]2 / (Sh i Sv j / S)

= Σ iΣ j {[(S2

X i j2 – 2 S X i j Sh i Sv j + Sh i

2 Sv j

2) / S

2] (S / Sh i Sv j)}

= Σ iΣ j [(S2

X i j2 / Sh i Sv j – 2 S X i j + Sh i Sv j) / S]

= Σ iΣ j (S X i j2 / Sh i Sv j) – 2Σ iΣ j X i j + Σ iΣ j (Sh i Sv j / S)

ここで、第 2 項のΣ iΣ j X i j は総和 (S)を示します。また、第 3 項のΣ iΣ j Sh i

Sv j は総和の 2 乗 (S2)を示します。

よって

Page 224: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

223

χ 2 = S Σ iΣ j (X i j

2 / Sh i Sv j) – 2S + S

[1] = S [Σ iΣ j (X i j2 / Sh i Sv j) – 1]

さて、χ 2 が最大のχ 2ma x となるのは、次のようにセルの縦和と横和がセ

ルの値と同じ、というケースです。一般に、次のような最大の連関度を示

すデータ行列のχ 2 を求めてみましょう。このとき、行と列のそれぞれの

選択において一方が他方と完全に連関しています。

Xmax v1 v2 … vP 和 Sh

d1 X1 0 0 0 0 X1

d2 0 X2 0 0 0 X2

: 0 0 … 0 0 …

dN 0 0 0 XM 0 XM

和 Sv X1 X2 … XM 0 S

ここで M は行数 N と列数 P を比べて小さなほうの値を示します。

[2] M = min(N, P)

このように長方形のデータ行列の場合、その中の最大の正方形の中で縦

も横も他と共有しない、というケースを考えるからです。この場合、先の

χ 2 式を使うとχ 2ma x は次のように計算されます。

χ 2ma x = S [Σ iΣ j (X i j

2 / Sh i Sv j) – 1] ← [1]

= S (X12 / X1X1 + X2

2 / X2X2 + ... + XM

2 / XM XM - 1) ←上表

= S (M – 1) ←すべて分子=分母、これらが M 個

= S [min(N, P) – 1] ←[2]

よってクラメア (Cramer)連関係数 (CMA)は次の式になります。

CMA = {χ 2 / χ 2

ma x}1 /2

= {χ 2 / [S (min(N, P) – 1)]

1 /2

この式で根をとるのは、分子と分母の計算で次数が 2 になっているため

です。

なお、クラメア連関係数は、軸の順序を変えても全体の期待値は変化し

ないので、次のように集中化の前後で変化しません。よって、これを、集

中化の有無にかかわらず、データ行列がもつ列と行の連関度を示すものと

して使用します。

Page 225: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

224

X v1 v2 v3 v4

Y v1 v2 v3 v4

Contr.coef. X Y

d1 v v

d1 v v

MaxDiv.C: 1-2 .333 .778

d2

v

d2

v

MaxDiv.V: 1-2 .195 .896

d3 v

d3 v

Sq.Dist .591 .549

d4

v v

d4

v v

Rf..Dist .630 .588

d5 v v v

d5 v v v

Sq.Correl. .226 .820

Rf.Correl. .563 .835

Union Coef. .417 .750

G & K Rank .167 .917

Cramer .616 .616

■多変数集中分析の比較

同じデータ (Cahuzac 1980)を使ってこれまでに見た集中化の 4 つの方法

の分析結果を比較します。次が集中化された分布パタンです。

(1) データ行列 (2) 原点距離集中分析 (N=3)

Page 226: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

225

(3) 主成分集中分析 (4) 因子集中分析

(5) 対応集中分析 (6) クラスター集中分析

これらの図を見ると、 (2) 原点距離、 (4)主成分、 (6) 対応分析は分布の

対角化を示し、 (6)因子分析と (7)クラスター分析では分布の局在化を示し

ていることがわかります。

主成分分析、因子分析、対応分析は両軸で分析しますが、原点距離とク

ラスター分析では列または行だけでも分析可能です。しかし、クラスター

分析では 1 軸(列または行)だけでは次のようにあまり良い局在化の結果

が得られません。

Page 227: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

226

(8) クラスター分析:列 (9) クラスター分析:行

一方、原点距離による集中化は、たとえば行を外的基準として固定し、

列を集中化することができます。そのとき、行の状態によって結果が変わ

るので、対応分析など他の方法で適した配列を見つけ、それを外的基準に

する、という方法が考えられます。次は、先の主成分分析と対応分析の結

果として得られた行(各国の地理的な配置)を固定し、列を集中化した結

果です。

(10) 主成分分析→原点距離:列 (11) 対応分析→原点距離:列

このように、主成分分析の結果を利用した原点距離法では相関係数と隣

Page 228: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

227

接係数を上げています。一方、対応分析の結果と比べると少し成績が下が

ります。数量化Ⅲ類は理論的に相関係数を最大化する目的で考案された方

法だからです。

一方、原点距離法は相関係数だけでなく探索的な分析に適した分布パタ

ンの集中化を目指します。たしかにこの方法は対応分析よりも少し成績を

下げているのですが、研究の目的によっては外的基準を変えられない場合

があるので、そのようなときは原点距離法が有効です。

■古文献の成立年代推定

次の研究(Kawasaki 2012)は発行日が記されていない中世スペイン語公

証文書の年代を、発行日が記されている他の文書の言語特徴の集中化され

た分布から推定しています。

この図では列に年代を入れ固定し、行(言語特徴)を集中化しています。

次に左上の部分を拡大しました。

この黄色の部分の横行が年代不詳の文献です。これを含めて全体を集中

化すると、この行が一定の年代に位置づけられるので、その年代を推定す

ることができます。そのためには適切な言語特徴(年代差を示す、頻度が

高い、地域差が少ない、など)を選択し、実験を繰り返さなければなりま

せん。

azer

alg

un

t

ffij

o1

cast

ell

a

co

no

cid

a1

nen

gu

n

uie

re

fata

dep

ues

mie

ntr

e

fijo

1

po

ra

fazer1

alc

ald

e1

Co

no

çu

da

cib

dad

1

seell

ar

merc

et

ffij

o2

cast

iell

a

alg

un

1

ffazer

vall

ad

oli

t

ssu

mie

nte

ten

ud

o

verd

at

seg

un

t

reg

no

alc

all

e

ciu

dat

fast

a

jud

gar

-ad

go

ciu

dad

1

ass

i

fazer2

fijo

2

nin

gu

n

desp

ues

merc

ed

alg

un

d

cib

dad

2

seg

un

d

fast

a

vie

re

para

ten

ido

co

no

cid

a2

asi

men

te

sell

ar

vall

ad

oli

d

cast

illa

alc

ald

e2

verd

ad

rey

no

ciu

dad

juzg

ar

hast

a

hij

o

seg

un

alg

un

2

hazer

ciu

dad

2

-azg

o

xam

as

ast

a

ziu

dad

1221-1240 v v v v v v v v v v v v v v v v v v v v v v v

1097-1200 v v v v v v v v v v

1201-1220 v v v v v v v v v v v v v

1241-1260 v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

1261-1280 v v v v v v v v v v v v v v v v v v v v v v v v v v v v

1281-1300 v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

1301-1320 v v v v v v v v v v v v v v v v v v v v v v v v v v v

1321-1340 v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

X341(1326) v v v v v v v v v v v v v v v v v v

1341-1360 v v v v v v v v v v v v v v v v v v v v v v v v v v

1361-1380 v v v v v v v v v v v v v v v v v v v v v v v v v v

1381-1400 v v v v v v v v v v v v v v v v v v v v v v v v v

1401-1420 v v v v v v v v v v v v v v v v v v v v v v v v v v v

1441-1460 v v v v v v v v v v v v v v v v v v v v v v v v v v

1421-1440 v v v v v v v v v v v v v v v v v v v v v v v v v v

1461-1480 v v v v v v v v v v v v v v v v v v v v v v v v v v

1481-1500 v v v v v v v v v v v v v v v v v v v v v v v v v v

1501-1520 v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

1521-1540 v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

1541-1560 v v v v v v v v v v v v v v v v v v v v v v v v v v v

1581-1600 v v v v v v v v v v v v v v v v v v v v v v v v v v

1561-1580 v v v v v v v v v v v v v v v v v v v v v v v v v v

1601-1620 v v v v v v v v v v v v v v v v v v v v v v v v v

1621-1640 v v v v v v v v v v v v v v v v v v v v v v v v v v v

1641-1660 v v v v v v v v v v v v v v v v v v v v v v v v v v

1661-1680 v v v v v v v v v v v v v v v v v v v v v v v v v v

1681-1700 v v v v v v v v v v v v v v v v v v v v v v v v v v v v

Page 229: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

228

6.3. 主成分分析

データの各変数に適当な重み(ウェイト)を共通に掛け、データの変数

の分散を最大にし、同時に変数間の相関係数がゼロになるようにすると、

そのような重みを掛けた新変数と個体は新たな総合的な意味をもつように

なります。その新変数は主成分 (Principal component)とよばれます。たとえ

ば生徒の外国語文解釈テストと外国語作文テストの結果を総合して、新し

く外国語能力を示すような数値が得られます。この方法は、主成分分析

(Principal Component Analysis: PCA)とよばれます。

データの分散が最大になるように重みを掛けて作られた主成分は、その

データを最も的確に説明します。そして、この主成分と相関しない、別の

主成分のなかでその次に大きな分散を示すものは、それに続いて的確な説

明をする主成分であると考えられます。両方の新変数間の相関をなくすの

で、それぞれ独自の解釈が可能です。そのような主成分は、もとの変数の

数だけ存在しますが、そのデータを説明する力は分散が少なくなるにつれ

て次第に落ちてくるので、最初のいくつかの主成分までを考察するだけで

十分です。

そのような重みを求めるために、はじめにデータ行列 (Dn p)から縦平均

Mp を引き、それを縦標準偏差 Sp で割って標準化した行列 Xnp を使います。

Xn p = (Dn p – Mp) / Sp

これに適当な未知の重みベクトル (Wp)を右積した変数ベクトルを Zn と

します。

[1] Zn = Xn p Wp

この標準化合成変数ベクトル Zn の分散 (V)を求めます。

[2] V = (ZnT Zn) / N

= (Xn p Wp)T (Xn p Wp) / N ← [1]

= WpT Xnp

T Xnp Wp / N ← (A B)

T = B

T A

= WpT (Xn p

T Xn p / N) Wp ←N はスカラーなので移動可

= WpT Rpp Wp ←Rp p = Xnp

T Xnp / N

このような未知の重みベクトル Wp の条件として、その長さ(成分の 2

乗和)を 1 とします 61。

[3] WpT Wp = 1

この条件 [3]のもとで [2]分散 V の最大値を求めるには

61

このような条件をつけないと重みベクトルは無数に存在することにな

るからです。

Page 230: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

229

F = WpT Rp p Wp – L (Wp

T Wp – 1)

という式 F を Wp で偏微分した値を 0 とします。L はラグランジュ乗数で

す(→後述「ラグランジュの未定乗数法」)。

[4a] Df(F, Wp) = 2 Rpp Wp – 2 L Wp = 0 ←F を Wp で微分

[4b] Rp p Wp = L Wp ←左辺 L Wp を右辺に移項

この式から固有値 (L)と固有ベクトル (Wp)を求めます(→後述「固有値問

題」)。固有値 L は次の演算によって分散 (V)になることがわかります。

V = WpT

Rpp Wp ← [2]

= WpT

L Wp ← [4b]

= L WpT

Wp ←L はスカラー

= L ← [3]

固有値も固有ベクトルも変数の数だけ存在します。それらを新しい合成

変数(「成分」component)として、固有値(=分散)の大きさによって順

に成分番号をつけます。

下左表 (D)は成績のデータ例です (E:英語 , L: ラテン語 , M:数学 )。その分

析例の #1-#3 が Wp が掛けられた新しい変数です。PCAd は新しい変数によ

る個体の得点 62、PCAv は固有行列、PCAe は固有値ベクトル c と、その寄

与率 (%)・累積寄与率 (Ac.%)を示します。

D E L M

PCAd #1 #2 #3

d1 58 34 90

d1 -.461 .263 -.342

d2 50 53 100

d2 -.305 .255 .278

d3 45 48 66

d3 -.274 -.181 .108

d4 58 51 78

d4 -.059 .196 .002

d5 43 44 32

d5 -.170 -.556 -.090

d6 56 59 54

d6 .212 -.050 .123

d7 77 72 20

d7 1.057 .073 -.080

下左表 (PcMr.e)は固有値とその寄与率、累積寄与率を示します。これを

見ると、第 1 成分 (#1)と第 2 成分 (#2)だけでほとんどの分散 (情報 )をカバー

していることがわかります。そして、下右表 (PcMr.v)は、それぞれの主成

分の固有ベクトルを示します。これを見ると題 1 成分 (#1)は、英語・ラテ

ン語 vs 数学、つまり「文系・理系」の軸を示し、第 2 成分 (#2)は英語・数

学 vs ラテン語、つまり「現代・古典」の軸を示しているようです。

62

個体 (PCA)の行列は比較しやすいように縦列で標準化してあります。

Page 231: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

230

PcMr.e #1 #2 #3

PcMr.v #1 #2 #3

E.value 2.026 .672 .303

E .569 .616 -.545

Ratio .675 .224 .101

L .635 .093 .767

Ac.ratio .675 .899 1.000

M -.523 .782 .338

主成分分析では説明変数と目的変数を同一平面上で扱うことができます。

固有ベクトルの成分の軸と先の個体の主成分得点の軸は、同じ意味(解釈:

「文系・理系」と「現代・古典」)を持つ、と考えられるので、第 1 成分 (#1)

と第 2 成分 (#2)から成る平面上に個体と変数をプロットしてみましょう。

変数 (E, L, M)と個体 (d1, d2, ... , d7)を同じ #1, #2 の平面でプロットした散布

図です。このような図はバイプロット (biplot)とよばれます。このような散

布図によって変数と個体の関係を明らかにすることができます。たとえば

第 1 主成分 (#1)については E, L, d6, d7L が近くにあり、第 2 主成分 (#2)につ

いては E, M, d1, d2, d4 が近くなることがわかります。また、M の方向に

d1, d2, d4 があることがわかります。このように変数と個体間の関係は、そ

の「近さ」ではなく「方向」(向き)で見るべきです。一方、同じ個体間

の関係は方向と近さを考慮します。そのとき、変数の方向が参考になりま

す。

PcMr.g #1 #2

E .569 .616

L .635 .093

M -.523 .782

d1 -.461 .263

d2 -.305 .255

d3 -.274 -.181

d4 -.059 .196

d5 -.170 -.556

d6 .212 -.050

d7 1.057 .073

Page 232: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

231

●転置行列の主成分分析

下表 (T)は、先のデータ (D)の転置行列です。

T d1 d2 d3 d4 d5 d6 d7

E 58 50 45 58 43 56 77

L 34 53 48 51 44 59 72

M 90 100 66 78 32 54 20

これを主成分分析します。

Correl. d1 d2 d3 d4 d5 d6 d7

d1 1.000 .880 .840 .982 -.934 -.981 -.868

d2 .880 1.000 .997 .954 -.992 -.770 -1.000

d3 .840 .997 1.000 .927 -.979 -.717 -.999

d4 .982 .954 .927 1.000 -.984 -.926 -.945

d5 -.934 -.992 -.979 -.984 1.000 .845 .988

d6 -.981 -.770 -.717 -.926 .845 1.000 .753

d7 -.868 -1.000 -.999 -.945 .988 .753 1.000

Page 233: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

232

PCA.v #1 #2

PCA.d #1 #2

PCA.e #1 #2

d1 .376 -.404

E -1.300 -.922

E.value 6.511 .489

d2 .383 .296

L -2.265 .770

% .930 .070

d3 .376 .405

M 3.565 .153

Ac.% .930 1.000

d4 .390 -.139

d5 -.391 -.114

d6 -.347 .665

d7 -.381 -.332

このように、データ (D)の変数と個体が入れ替わったので、相関行列は大

きくなりますが、固有値・固有ベクトルは逆に 2 個だけが出力されます 63。

これを個体 (E, L, M)に掛け合わせた PCA.d を見ると、先とはやや異なる観

察ができます。また新たな変数 d1, d2, d3, d4 が第 1 主成分に強く反応して

いることがわかります。そして、この第 1 主成分の固有値は累積率の 93%

を占めているので、その重要性が理解できます。

●数値名義主成分分析

下左表 (D)を縦平均の平均値を基準にして 2 名義化した行列が下右表で

す(→得点)。

D E L M

N2 E L M

d1 58 34 90

d1 E:+ L:- M:+

d2 50 53 100

d2 E:- L:+ M:+

d3 45 48 66

d3 E:- L:- M:+

d4 58 51 78

d4 E:+ L:- M:+

d5 43 44 32

d5 E:- L:- M:-

d6 56 59 54

d6 E:+ L:+ M:-

d7 77 72 20

d7 E:+ L:+ M:-

この行列を対象に名義主成分分析をすると次の結果になります。

d #1 #2 #3

v #1 #2 #3

PCA.e #1 #2 #3

d1 -.616 -1.367 .000

E:+ .291 -.645 .000

E.value 3.046 1.788 1.167

d2 -.234 1.202 -1.871

E:- -.291 .645 .000

% .508 .298 .194

d3 -1.289 .581 .000

L:- -.456 -.205 .500

Ac.% .508 .806 1.000

d4 -.616 -1.367 .000

L:+ .456 .205 -.500

d5 -.234 1.202 1.871

M:+ -.456 -.205 -.500

63

行数がわずかに 3 なので、この相関係数はデータ分析として信頼性はあ

まりありません。ここでは個体 (d1, d2, …, d7)間の相関をデータ分析してい

るのではなく、限られたデータにおける個体と変数の関係を示す数値を抽

出しています。

Page 234: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

233

d6 1.495 -.125 .000

M:- .456 .205 .500

d7 1.495 -.125 .000

こ の 方 法 を 数 値 名 義 化 主 成 分 分 析 (Nominalized numeric principal

component analysis: NNPCA)とよびます。次の図は主成分分析 (PCA)の結果

です。NNPCA は数値の弁別がおおまかになるので全体の傾向を探るため

に役立ちます。また、変数 (E, L, M)のマイナス方向も示されるので、参考

になります。

d1

d2

d3

d4

d5

d6d7

E:+

E:-

L:-

L:+

M:+

M:-

-2.0

-1.5

-1.0

-.5

.0

.5

1.0

1.5

2.0

-2.0

-1.5

-1.0 -.5 .0 .5

1.0

1.5

2.0

Y:

#2

X: #1

Page 235: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

234

3 段階で数値名義化主成分分析をすると、さらに詳細な傾向がわかりま

す。

●固有値ベクトル・固有行列

下左表はデータ行列、下右表はその相関係数行列です。

d1 d2

d3

d4

d5

d6

d7

E

L

M

-3.0

-2.5

-2.0

-1.5

-1.0

-.5

.0

.5

1.0

-1.0 -.5 .0 .5

1.0

1.5

2.0

2.5

3.0

Y:

#2

X: #1

d1

d2

d3

d4

d5d6

d7

E:$E:-

E:+

L:-

L:$

L:+

M:+

M:$

M:-

-2.0

-1.5

-1.0

-.5

.0

.5

1.0

1.5

2.0

-1.0 -.5 .0 .5

1.0

1.5

2.0

2.5

Y:

#2

X: #1

Page 236: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

235

D E L M

Rpp E L M

d1 45 48 66

E 1.000 .643 -.335

d2 56 59 54

L .643 1.000 -.545

d3 58 51 78

M -.335 -.545 1.000

d4 77 72 20

d5 43 44 32

d6 58 34 90

d7 50 53 100

このような正方行列 Rp p において

Rp p Wp = L Wp

の等式(「固有値問題」とよばれます)が成り立つとき、この式の中の数

値 L は「固有値」(eigen value) とよばれ、ベクトル Wp は「固有ベクトル」

(eigen vector)とよばれます。ここで未知数の固有値 (L)と固有ベクトル (Wp)

は最大で Rp p の列(=行)の数だけあるので、ここではそれらの集合を「固

有値ベクトル」 (eigen value vector: Lp)と、「固有行列」 (eigen matrix: E p p)

とよぶことにします。よって、先の式は次のようになります 64。

Rp p Epp = Lp * Ep p

下左表が相関行列 (Rp p)、下中表がその固有行列 (Epp)、下右表が両者の行

列積 (Rpp Ep p)です。

R M S L X E #1 #2 #3 = R E #1 #2 #3

M 1.000 .643 -.335

M .569 .616 -.545

M 1.152 .414 -.165

S .643 1.000 -.545

S .635 .093 .767

S 1.286 .062 .232

L -.335 -.545 1.000

L -.523 .782 .338

L -1.060 .526 .102

次の左表が上の相関行列の固有値ベクトル (Lp)、中表がその固有行列

(Ep p)、右表が両者の積 (Lp Ep p)です。ここで上と下のそれぞれの右表が同じ

になることを確認してください (Rp p Ep p = Lp Ep p)。

L #1 #2 #3

E #1 #2 #3

L E #1 #2 #3

Value 2.026 .672 .303

M .569 .616 -.545

M 1.152 .414 -.165

S .635 .093 .767

S 1.286 .062 .232

L -.523 .782 .338

L -1.059 .526 .102

64

一般に線形代数の本は、Lp * Ep p のようにベクトルと行列の要素間の積

を定義していないので、この演算を可能にするために、やや複雑なベクト

ル→行列の対角化、という操作をしますが、このテキストでは先にベクト

ルと行列の要素間の積を定義してこれを使います。→「行列」の章。

Page 237: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

236

次のように固有行列の中のそれぞれの固有ベクトルは長さが 1 になり ,

内積がゼロになることを確認します。 (EppT Ep p = Ip p [単位行列 ])。

ET M S L X E #1 #2 #3 = E

T E 1 2 3

#1 .569 .635 -.523

M .569 .616 -.545

1 1.000 .000 .000

#2 .616 .093 .782

S .635 .093 .767

2 .000 1.000 .000

#3 -.545 .767 .338

L -.523 .782 .338

3 .000 .000 1.000

●固有行列の直交性

固有行列 Epp を構成する 2 つの固有ベクトル Ep( i)と Ep ( j)の行列積は 0 に

なります。

Ep ( i)T Ep( j) = 0 [i ≠ j]

このことを次のようにして導きます。

1. Rp p Ep( j) = L ( j) Ep ( j) ←固有値問題の定義

1.の両辺に同じ操作をします。

2. Ep ( i)T Rpp Ep ( j) = Ep ( i)

T L( j) * Ep ( j) ←1 の両辺に Ep ( i)

T を左積

3. = L( j) Ep ( i)T Ep ( j) ←L( j)はスカラーなので移動可

1.の左辺を変形します。

4. Ep ( i)T Rpp Ep ( j) = [Rp p

T Ep ( i)]

T Ep ( j) ←B

T A = (A B)

T

5. = [Ep ( j)T Rpp Ep ( i)]

T ←B

T A = (A

T B)

T

6. = [Ep ( j)T L( i) Ep ( i)]

T ←固有値問題:R Ep = L Ep

7. = L( i) [Ep ( j)T Ep ( i)]

T ←L はスカラーなので移動可

8. = L ( i) Ep ( i)T Ep ( j) ← (A

T B)

T = B

T A

2.と 4.の左辺は同じなので

9. L( j) Ep ( i)T Ep ( j) = L ( i) Ep ( i)

T Ep ( j) ← 3. = 8.

10. [L( i) – L( j)] Ep ( i)T Ep ( j) = 0 ←左辺を右辺に移項

11. Ep ( i)T Ep( j) = 0 ←L( i) ≠ L( j)

ベクトル成分の積和が 0 であることは、それらのベクトルが直交してい

ることを示します。また、前提として固有ベクトルの長さは 1 とします。

12. Ep ( i)T Ep( i) = 1

11.と 12.をすべての固有ベクトルについてみると、次の式になります。

Page 238: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

237

13. Ep pT Ep p = Ip p ←Epp は単位行列

*固有行列の直交性については足立 (2005)を参照しました。

●スペクトル分解

次の固有値問題の式

Rp p Epp = Lp Epp

の Rp p は 次 のよ うに 分 解で きます 。 これ は スペクトル分解 (Spectoral

decomposition)とよばれ、次に扱う冪乗法 (べきじょうほう )で使います。

a. Rp p = L (1 ) E (1 ) E(1)T + L (2 ) E (2) E(2 )

T + … + L (p ) E(p) E(p )

T

ここで (1), (2), …, (p)は、それぞれ固有値 L とそれに対応する固有ベクトル

Ep を示します。この式を導くために次を準備します。

b1. Ep pT Ep p = Ip p ←先述の固有行列 E の直交性を示す 13.の式

b2. Ep p-1

Epp = Ip p ←逆行列の定義 : X-1

X = I

b3. Ep pT = Epp

-1 ← b1, b2

b4. (Ep pT)

-1 Epp

T = Ip p ←逆行列の定義 : X

-1 X = I

b5 (Ep p-1

)T Epp

T = Ip p ←逆行列の規則 : (X

T)

-1 = (X

-1)

T

b6 (Ep pT)

T Ep p

T = Ip p ← b3

b7 Ep p EppT = Ip p ←転置行列の性質 : (X

T)

T = X

b8 Ep pT Ep p = Ep p Epp

T = Ip p ← b1, b7

これで準備ができたので固有値問題から始めます。

c1. Rp p Epp = Lp Epp ←固有値問題

c2. Rp p Epp Ep pT = Lp Epp Ep p

T ←両辺に Ep p

T を右積

c3. Rp p EppT Epp = Lp Epp Ep p

T ← b8: Ep p

T Ep p = Ep p Epp

T

c4. Rp p Epp-1

Ep p = Lp Epp Ep pT ← b3: Ep p

T = Ep p

-1

c5. Rp p Ip p = Lp Epp Ep pT ← c4, b2: Epp

-1 Epp = Ip p

c6. Rp p = Lp Ep p EppT ←R I = R

次に、 c6.の Epp Ep pT の行列積を展開します。

Ep p (1) (2) (…) (p) X Ep pT 1 2 … p

1 e1 1 e1 2 … e1 p (1) e1 1 e2 1 … ep 1

2 e2 1 e2 2 … e2 p (2) e1 2 e2 2 … ep 2

… … … . . . … (…) … … … …

p ep 1 ep 2 … ep p (p) e1 p e2 p … ep p

=

Page 239: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

238

e1 1e1 1+e1 2e1 2+...+e1 pe1p e1 1e2 1+e1 2e2 2+...+e1 pe2p . . . e1 1ep 1+e1 2ep 2+...+e1 pepp

e2 1e1 1+e2 2e1 2+...+e2 pe1p e2 1e2 1+e2 2e2 2+...+e2 pe2p . . . e2 1ep 1+e2 2ep 2+...+e2 pepp

. . . . . . . . . . . .

ep 1e1 1+ep 2e1 2+...+ep pe1p ep 1e2 1+ep 2e2 2+...+ep pe2p … ep 1ep 1+ep 2ep 2+...+ep pepp

固有行列 (E)を構成する縦ベクトル(固有ベクトル)E (1 ) , E (2 ) , … E (p )につ

いて次の式を展開します。E (1 )T E (1 )のような積でないのでスカラーにはな

りません。はじめに、固有行列の第 1 行の固有ベクトルの積を見ます。

E (1 ) E (1 )T =

E (1) X ET 1 2 … p

1 e1 1 (1) e1 1 e2 1 … ep 1

2 e2 1

… …

p ep 1

=

e1 1e1 1 e1 1e2 1 . . . e1 1ep 1

e2 1e1 1 e2 1e2 1 . . . e2 1ep 1

. . . . . . . . . . . .

ep 1e1 1 ep 1e2 1 … ep 1ep 1+

このように行列積 E (1 ) E (1 )T の要素は、先の行列積 Ep p Epp

T の要素のそれぞ

れの第 1 項になります。 2 番目のベクトルの次の積を見ます。

E (2 ) E (2 )T =

E (2) X ET 1 2 … p

1 e1 2 (2) e1 2 e2 2 … ep 2

2 e2 2

… …

p ep 2

=

e1 2e1 2 e1 2e2 2 . . . e1 2ep 2

e2 2e1 2 e2 2e2 2 . . . e2 2ep 2

. . . . . . . . . . . .

ep 2e1 2 ep 2e2 2 … ep 2ep 2

ここでも行列積 E (2 ) E (2 )T の要素が行列積 Ep p Epp

T の要素のそれぞれの第

2 項になることを確認します。同様にして p 番目のベクトルの次の積は

E (p ) E (p )T =

Page 240: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

239

E (p) X ET 1 2 … p

1 e1 p (p) e1 p e2 p … ep p

2 e2 p

… …

p ep p

=

e1 pe1 p e1 pe2 p . . . e1 pep p

e2 pe1 p e2 pe2 p . . . e2 pep p

. . . . . . . . . . . .

ep pe1 p ep pe2 p … ep pep p

よって、それぞれの固有ベクトルの積 E ( i) E ( i)T (i = 1, 2, …, p)を全部足すと、

固有行列全体の積 E ET になります。

Ep p EppT

= E (1) E(1 )T + E (2 ) E(2)

T + … + E (p ) E (p )

T

よって

Rp p = Lp Epp Ep pT ← c6.

= L (1 ) Ep (1 ) Ep (1 )T + L (2) Ep (2) Ep (2 )

T + … + L (p ) Ep (p ) Ep (p )

T

←L(1 ), L(2 ), . . ., L (p ) はスカラー

*スペクトル分解については足立 (2005)と岩崎・吉田 (2006)を参照しました。

●冪乗法

Rp p の固有値ベクトルと固有行列を求めるために冪乗法(べきじょうほ

う : Power method)を使います。この方法は最大固有値を求め、その残差行

列を使って次のステップで残差行列の最大固有値を求める、というステッ

プを次々に列の数だけ行います。

Rp p Epp = Lp Epp

はじめに、Lp を構成するそれぞれの固有値を L(1), L(2), …, L(p)とする

と、これらの固有値の大きな方から順番に取り出す方法を次のように考え

ます。

Epp を構成するそれぞれの縦ベクトルを Ep(1), Ep(2), …, Ep(p)とすると、

それらにそれらの和 (Sp)の初期状態 Sp(0 )を次にようにします。

Sp(0 )

= Ep(1) + Ep(2) + … + Ep(p)

この両辺に Rp p を次々に左積していきます。

Page 241: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

240

Sp(1 )

= Rp p Sp(0)

= Rp p Ep(1) + Rpp Ep(2) + … + Rpp Ep(p)

[両辺に Rpp を左積 ]

= L(1) Ep(1) + L(2) Ep(2) + … + L(p) Ep(p) [←Rp p Ep = L Ep]

Sp(2 )

= Rp p2 Sp

(0 ) = L(1)

2 Ep(1) + L(2)

2 Ep(2) + … + L(p)

2 Ep(p)

[さらに両辺に Rpp を左積 ]

(…) [順次両辺に Rpp を左積 ]

Sp(k )

= Rp pk Sp

(0 ) = L(1)

k Ep(1) + L(2)

k Ep(2) + … + L(p)

k Ep(p)

ここで右辺の L(1), L(2), …, L(p)の中の最大のものを L(m)とします。

L(m) > L(1), L(2), …, L(p)

先の式は

Sp(k )

= L(1)k Ep(1) + … + L(m)

k Ep(m) + … + L(p)

k Ep(p) [L(m)が最大 L]

= L(m)k [L(1)

k/L(m)

k A(p)1 + … + Ep(m) + … + L(p)

k/L(m)

k Ep(p)]

[L(m)k を外に出す ]

kを十分に大きくすると […]の中の Ep(m)以外は、その係数の分数がゼロ

に近づくので無視できるほど小さくなります。よって

Sp(k )

≒ L(m)k Ep(m) [k →∞ , L(p)

k/L(m)

k → 0]

最初の(最大の)固有値 L(1)と固有ベクトル Ep(1)を次の式で求めます。

L(1) = [Sp(k )T

Sp(k )

]1 /2 [L の長さは 1]

Ep(1) = Sp(k )

/ L(1) [Sp(k ) ≒ L(m)

k Ep(m)]

次に大きな固有値 L(2)と固有ベクトル Ep(2)を求めるための Rpp(2)は、最

初の Rp p(1)から一定の行列を引いた残差行列になります。そのために Rp p

を次のようにスペクトル分解 (Spectral decomposition)します。

Rp p = Lp * Epp Ep pT

この式を展開すると次のようなスペクトル分解の式になります。

Rp p = v1 Ep 1 Ep1T + v2 Ep2 Ep2

T + … + Lp Ep p Epp

T

そこで、上式から v1 Ep1 Ep1T を除いた残差行列を次のステップの Rpp(2)と

します。

Rp p(2) = Rpp(1) – L(1) Ep(1) Ep(1)T

この新たな Rpp(2)を使って、先のプロセスを繰り返します。同じプロセ

Page 242: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

241

スを、Rp p(3), Rpp(4), …, Rpp(p)までのうち、望む固有値の数だけ繰り返して

終了します。

それでは、次に最初の(最大の)固有値と固有ベクトルを算出します。

固有値問題 Rp p Ep = Lp Ep の Ep は、それを定数倍しても成立するので無数

に存在します。そこで縦ベクトル (Ep)の長さ(2 乗和)を 1 とする条件をつ

けます。Ep p のそれぞれの縦ベクトルを Ep (1 ) , Ep(2 ), …, Ep(p )とすると

[1] Ep ( i)T Ep( i) = 1 (i = 1, 2, …, p)

そして Ep ( i)と Ep ( j) [i ≠ j] が直交する、という条件を加えます。

Ep ( i)T Ep( j) = 0 (i, j = 1, 2, … , p; i ≠ j)

よって

Ep pT Ep p = Ip p (単位行列 )

はじめに Ep の初期値を単位ベクトル (Ip)とし

Ep ← Ip

そして

[2] Ep ← Rp p Ep ←Ep に Rpp を左積

[3] L ← (EpT Ep)

1 /2

[4]

Ep ← Ep / L ←Ep の長さを 1 にする [1]

[5] Ep の変化が大きければ [4]に戻る、小さければ終了し次へ

の [2]-[4]のプロセスを Ep に変化がなくなるまで繰り返すと、最初の(最大

の)固有値 L(1 )と固有ベクトル Ep (1 )が求められます。このプロセスを具体

的に追ってみましょう。

Rpp 1 2 k 0 1 2 3 4 5 6

1 1 0.8 Ep ← Rpp Ep

1.000 1.273 1.280 1.281 1.281 1.281 1.281

2 0.5 1 1.000 1.061 1.024 1.015 1.013 1.013 1.012

L←√(Ep

T Ep) 1.414 1.657 1.640 1.634 1.633 1.633 1.632

Ep←Ep / L .707 .768 .781 .784 .784 .784 .784

.707 .640 .625 .621 .620 .620 .620

上右表の k=0 の Ep は初期値です。その下の L←√(EpT Ep)は Ep の長さを示

します。その下の Ep←Ep / L で Ep の長さを 1 に揃えます。

次に k = 1 の列の Ep は Ep ← Rpp Ep の行列積の結果です。その後は、先と

同じことを繰り返します。そして Ep が変化しなくなるまで、K=3, 4, .. と繰り

返して、最終的な Ep とLを求めます。

Page 243: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

242

ここで、Rpp Ep = L Ep という関係になることは上の表から明らかです。すな

わち、Rpp Ep = (1.281, 1.012)T = 1.632 * (.784, .620)

T = L * Ep となります。

次に先に見たように、Rpp をスペクトル分解した

Rp p = L(1 ) Ep(1 ) Ep(1 )T + L (2 ) Ep (2 ) Ep(2 )

T + … + L (p ) Ep (p ) Ep(p )

T

から、今回算出した第 1 項 L(1 ) Ep (1 ) Ep (1 )T を除いた

Rp p(2 )

= Rp p(1 )

– L(1 ) Ep (1) Ep (1 )T

を計算し、先のプロセスによって、Rp p(2 )の最大の固有値 L(2 )と固有ベクト

ル Ep (2 )を求めます。以下同様に、Rpp(p )までを求めて、最終的な固有値の集

合である固有値ベクトル (Lp)と固有ベクトルの集合である固有行列 (Ep p)を

完成します。

R 1 2

Ev(R) #1 #2

Em(R) #1 #2

1 1 0.8

E.value 1.632 .368

1 .784 .016

2 0.5 1

2 .620 1.000

*冪乗法とプログラムについては白井 (2009: 99-101)と Nakos and Joyner

(1999:467-472)を参照しました。

●ダミー変数相関行列の固有値・固有ベクトル

下左表 (N)は名義尺度行列です。それをダミー変数で二値化した行列が下

中表 (D)です。下右表 (Cor.)はその相関行列です。

N x1 x2

D A B C D E

Cor. A B C D E

d1 A C

d1 1 0 1 0 0

A 1.000 -1.000 -.091 .167 -.091

d2 A D

d2 1 0 0 1 0

B -1.000 1.000 .091 -.167 .091

d3 A D

d3 1 0 0 1 0

C -.091 .091 1.000 -.548 -.400

d4 A E

d4 1 0 0 0 1

D .167 -.167 -.548 1.000 -.548

d5 B C

d5 0 1 1 0 0

E -.091 .091 -.400 -.548 1.000

d6 B D

d6 0 1 0 1 0

d7 B E

d7 0 1 0 0 1

ダミー変数行列 (D)の特徴は、上の A:B と C:D:E のように、互いに (1, 1)

になったり、(0, 0)になったりせず、必ずどれかが 1 であって、そのほかは

ゼロになることです。たとえば、A が 1 であれば、かならず B が 0 になり

ます。その逆も成り立ちます。C:D:E については、C が 1 であれば、D, E

はかならず 0 です。そこで、A の値がわかれば B が決定され、また C, D

の値がわかれば E の値が決定されているので、全体の自由度は 1+2 =3 とい

うことになります。

Page 244: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

243

このように情報が冗長な対称行列の固有値は自由度を超えるとすべてゼ

ロになることが以下の出力でわかります。

Ev #1 #2 #3

Em #1 #2 #3

E.value 2.159 1.441 1.400

A -.624 .333 .000

B .624 -.333 .000

C .204 .382 -.707

D -.372 -.698 .000

E .204 .382 .707

このようにダミー変数は 5 個ですが、その自由度は 3 なので、 3 個の固

有値・固有ベクトル (#1, #2, #3)になります。それでも、次のように、固有

値・固有ベクトルの定義通り (Rpp Ep = L Ep)、相関行列と固有ベクトルの積

と、固有値・固有ベクトルの成分積は同じになります。

Cor. Em #1 #2 #3

Ev*Em #1 #2 #3

A -1.347 .480 .000

A -1.347 .480 .000

B 1.347 -.480 .000

B 1.347 -.480 .000

C .440 .551 -.990

C .440 .551 -.990

D -.803 -1.005 .000

D -.803 -1.005 .000

E .440 .551 .990

E .440 .551 .990

このダミー変数相関行列の固有値・固有ベクトルの性質を、後述する主

成分重回帰分析で確認します。

●ラグランジュ乗数法

条件付きの微分にはラグランジュ乗数法 (Lagrange multiplier method)が使

われます。次の関数

[1] Y = f (x1 , x2 , … , xn)

の極値を求めるために、Y の (x1, x2, …, xn)による偏微分

Df(Y, x1)=0, Df(Y, x2)=0, …, Df(Y, xn)=0

から x1 , x2, …, xn を求めます。このとき

[2] G = g(x1 , x2 , … , xn) = 0

というような別の条件がついていることがあります。このように条件付き

の関数を微分するときには「ラグランジュの未定乗数法」L をつけて

[3] W = Y − L G

Page 245: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

244

= f (x1 , x2 , …, xn) – L g(x1 , x2 , …, xn)

この W を次のように x1, x2 , …, xn, L で微分し、W の極値を求めます。

[4] Df(W, x1) = 0, Df(W, x2) = 0, …, Df(W, xp) = 0, Df(W, L) = 0

[3]の W= Y – L G を [4]の各式に代入すると、それぞれ次のようになります。

Df(W, x1) = Df(Y, x1) – L Df(G, x1) = 0

Df(W, x2) = Df(Y, x2) – L Df(G, x2) = 0

(…)

Df(W, xn) = Df(Y, xn) – L Df(G, xn) = 0

そして、最後の式( [4]下線)は次のようになります。

Df(W, L) = Df(Y – L G, L) = – G = 0 [Y はゼロ ]

よって

G = g(x1 , x2 , … , xn) = 0

このように W をそれぞれの未知数で微分すると、たしかに [2]の条件が

満たされることがわかります。この理由から条件付き関数を微分するとき

はその条件に L という乗数をつけた式 (3)を使って x1, x2 , …, xn , L を求める、

という方法をとります。

*小林 (1967:89-90)を参照しました。

■集中分析

変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよ

うな集中化した得点になります。

■地域変異語彙の主成分分析

次の図は現代スペイン語の地域変異語彙 841 語を 20 か国で調査した結果

P C A . C c t L a t in E nglis h P hys ic s

B 88 28 20

C 64 43 32

A 59 56 54

F 48 45 66

E 51 58 78

G 22 32 90

D 16 50 100

Page 246: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

245

を主成分分析し、第 1 主成分を行に、第 2 主成分を列にして各国をプロッ

トしたものです。第 1 主成分(行)はスペイン (ES)とラテンアメリカ諸国

を分けています。右上の○で囲んだ国々はメキシコ (MX)・中米諸国 (HO, EL,

GI, PN)・カリブ海諸国 (PR, CI, RD)・コロンビア (CO)・ベネズエラ (VE)で

す。その下にアンデス諸国 (EC, BO, PE)、チリ (CH)、ラプラタ諸国 (PA, IR,

AR)が続きます。このようにラテンアメリカ諸国は第 2 主成分(列)によ

っておよそ南北に配置されます。このように地域変異語彙はバラバラに分

布するのではなく、一定の地理的な連続性 (continuum)を示しています。

■中世近代スペイン語文字使用頻度の主成分分析

13 世紀から 19 世紀までのスペイン語史の中に位置づけられる 28 作品を

サンプルにし、使用されているすべての文字の頻度からなる行列を作成し

ました。それを主成分分析にかけると、第 1 主成分はとくにデータを特徴

づけることがありませんが、第 2 主成分(中世と近代)と第 3 主成分( 17-18

世紀と 19 世紀)の特徴が明らかに示されています。文字の変異に関しては、

とくに s, d, r のバリアントが重要です。

Page 247: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

246

1207

1220

1230

1270

1300

1330

1350

1389

1433

1450

1492

1499

1514

1535

1554

1583

1605

1626

16511677

1704

1726

1747

1787

18151841

1874

1899

- .300

- .200

- .100

.000

.100

.200

.300

- .300 - .200 - .100 .000 .100 .200 .300#3

#2

Page 248: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

247

■スペイン語の硬口蓋鼻子音の文字の発達

言語データ分析では、さまざまな検索式を使ってアイテム(検索された

文字連続)を出力させます。そのときに検索したアイテムには地域・年代・

文体・文字種などのパラメータが付加されています。その中から、単数・

複数の説明変数と単数の目的変数の関係を論じるときの手段の 1 つとして

名義主成分分析が役立ちます。

次は、中世スペイン語の公証文書に現れた文字 4 つの形態 nn, <n>n, n<n>,

ñ を目的変数とし、それに関係する文書類 (T: P 私文書;C 王室事文書など )、

年代 (年代幅 50 年:Y50)、地域 (R)を説明変数とする名義尺度データの一部

です。

D T Y50 R N

d1 P 1200 CV nn

(...)

d9 P 1200 CV <n>n

(...)

d677 C 1250 AN n<n>

(...)

d9570 C 1400 CV ñ

(...)

次は第 1 主成分 (#1)と第 2 主成分 (#2)を x 軸と y 軸にして、それぞれの名

義尺度をプロットした図です。この図から第 1 主成分が初期 (13 世紀 )と中

期 (14, 15 世紀 )・後期 (16, 17 世紀 )を分け、第 2 主成分が中期 (14, 15 世紀 )

と後期 (16, 17 世紀 )を分けていることがわかります。そして、初期の領域

に nn, <n>n が配置され、後期の領域に n<n>, ñ が配置されています。旧カ

スティーリャ地方 (CV)は初期の語形を特徴とし、新カスティーリャ地方

(NV)は後期の語形を特徴としています。文書類については国事文書 (C)が古

い語形 nn, <n>n に、教会文書 (E)と市会文書 (M)と法令文書 (J)が新語形 n<n>,

ñ に近い位置を占めています。

Page 249: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

248

6.4. 名義主成分分析

下左表 (N)は名義変数行列で、下右表 (Q)はそれをダミー変数で数値化し

た行列です(→名義尺度の数量化)。

N x1 x2 y

Q A B C D E X Y Z

d1 A C X

d1 1 0 1 0 0 1 0 0

d2 A D X

d2 1 0 0 1 0 1 0 0

d3 A D Y

d3 1 0 0 1 0 0 1 0

d4 A E X

d4 1 0 0 0 1 1 0 0

d5 B C X

d5 0 1 1 0 0 1 0 0

d6 B D Y

d6 0 1 0 1 0 0 1 0

d7 B E Z

d7 0 1 0 0 1 0 0 1

上右表 (Q)を主成分分析すると、固有値・固有ベクトルは次のように 5

個まで算出されます。

nn

<n>n

n<n>ñ

P

E

C

JM

1200

1250

1300

13501400

1450

1500

1550

1600

1650

CV

AR

NA

LE

CN

AN

PV

EX

MU

AS

-.4

-.3

-.2

-.1

.0

.1

.2

.3

.4

.5

-.5

-.4

-.3

-.2

-.1 .0 .1 .2 .3 .4

Y:

#2

X: #1

Page 250: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

249

Pca.d #1 #2 #3 #4 #5

Pca.v #1 #2 #3 #4 #5

d1 -.405 .213 -.122 .178 .050

A -.474 -.122 .407 .289 .105

d2 -.302 -.151 .124 -.197 .172

B .474 .122 -.407 -.289 -.105

d3 -.042 -.516 .108 .161 -.001

C -.235 .302 -.546 .487 .071

d4 -.197 .222 .358 -.062 -.197

D -.002 -.570 .009 -.395 .380

d5 -.022 .312 -.451 -.056 -.035

E .236 .322 .537 -.055 -.487

d6 .341 -.417 -.221 -.072 -.087

X -.464 .313 -.079 -.499 -.049

d7 .628 .337 .205 .048 .099

Y .164 -.537 -.108 .354 -.436

Z .445 .251 .252 .249 .632

Pca.e #1 #2 #3 #4 #5

E.value 6.726 6.403 3.867 .926 .744

% .841 .800 .483 .116 .093

Ac.% .841 1.641 2.125 2.240 2.333

主成分分析では説明変数と目的変数をとくに区別することなく、両者を

同一平面上で扱うことができます。次は、ダミー変数行列 (Q)のデータ

(d1...d7)と、変数 (A...E, P, Q)と、目的変数 (X, Y, Z)を同じ平面でプロット

した散布図です。このような図はバイプロット (biplot)とよばれます。これ

を見ると、X の方向に d1, d4, d5, C があり、Y の方向に d3, d6, D があり、

Z の方向に E, B, d7 があることがわかります。このように変数 (A, B, C, X, Y,

Z)と個体 (d1, d2, ... , d7)間の関係は、その「近さ」ではなく「方向」(向き)

で見るべきです。一方、同じ個体間の関係は方向と近さを考慮します。そ

のとき、変数の方向が参考になります。

Page 251: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

250

6.5. 対応分析

対応分析 (Correspondence analysis)とよばれる方法はフランスの Jean-Paul

Benzécri が開発した多変数解析法です 65。たとえば、次のような得点表の個

体(Xn : Ana, Juan, Mary, Ken)と変数 (Yp: English, Physics, Latin)の間の相関

係数が最大になるように個体と変数に適当な負荷値を与え、その負荷値に

よってそれぞれの意味を探る、という方法です。

Test: Dnp Y1: English Y2: Physics Y3: Latin Sn

X1: Ana 9 14 18 41

X2: Juan 17 7 11 35

X3: Mary 15 13 14 42

X4: Ken 5 18 8 31

Tp 46 52 51 149

個体ベクトル Xn と変数ベクトル Yp の平均 (Mx, My)をそれぞれ 0 としま

す。Sn は行和ベクトル、Tp は列和ベクトル、S は総和スカラーを示します。

Sn = SumR(Dn p); Tp = SumV(Dn p); S=Sum(Dn p)

[1a] Mx = (41X1 + 35X2 + 42X3 + 31X4) / 149 = SnT Xn / S = 0

[1b] My = (46Y1 + 52Y2 + 51Y3) / 149 = TpT Yp / S = 0

個体 (Xn)と変数 (Yp)の分散 (Vx, Vy)をそれぞれ 1 とします。そのために、

次のように行和 Sn と列和 Tp を対角に並べた「対角行列」をそれぞれ Sn n . Tp p

として用意します。

[2] Sn n = dg(Sn); Tp p = dg(Tp) [dg: 対角行列 ]

Sn n 1 2 3 4 Tp p 1 2 3

1 41 1 46

2 35 2 52

3 42 3 51

4 31

[2a] Vx = [(41X1 – Mx)2 + (35X2 – Mx)

2 + (42X3 – Mx)

2 + (31X4 – Mx)

2 / 149

= (41X12 + 35X2

2 + 42X3

2 + 31X4

2) / 149 ← [1a] Mx = 0

= XnT Sn n Xn / S = 1

[2b] Vy = [(46Y1 – My)2 + (52Y2 – My)

2 + (51Y3 – My)

2] / 149

= (46Y12 + 52Y2

2 + 51Y3

2) / 149 ← [1b] My = 0

65

日本の林知己夫が独自に開発した数量化Ⅲ類と同等のアルゴリズムで

す。

Page 252: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

251

= YpT Tp p Yp / S = 1

Dn p を散布図と見なすと、その X 軸:Xn と Y 軸:Yp の間の相関係数 (R)

は ,

[3] R = [9(X1–Mx)(Y1–My)

+ 14(X1–Mx)(Y2–My)

+ 18(X1–Mx)(Y3–My)

+ 17(X2–Mx)(Y1–My)

+...

+ 8(X4–Mx)(Y3−My)] / 149

= (9X1Y1 + 14X1Y2 +... + 8X4Y3) / 149 ←Mx = My = 0

= XnT Dnp Yp / S

この相関係数 R が最大になるときの Xn , Yp を求めることが目的です。R

を最大化するためには、それぞれの分散 Vx = Vy = 1 という条件を加えた

次の式の S を Xn と Yp で微分し (Df(S, Xn), Df(S,Yp))、その結果をゼロベク

トル (On , Op)とします。Lx, Ly はラグランジュ乗数です。

S = (XnT Dn p Yp) / S – Lx [(Xn

T Sn n Xn) / S – 1] – Ly [(Yp

T Tp p Yp) / S - 1]

[4a] Df(S, Xn) = Dn p Yp / S – 2 Lx Sn n Xn / S = On (ゼロ )

Df(S, Lx) = (XnT Sn n Xn) / S – 1 = 0 ← [2a]

[4b] Df(S, Yp) = Dn pT Xn / S – 2 Ly Tp p Yp / S = Op (ゼロ )

Df(S, Ly) = [(YpT Tp p Yp) / S – 1 = 0 ← [2b]

[5a] Dn p Yp / S = 2 Lx Sn n Xn / S ← [4a]の第 2 項を右辺に移項

XnT Dnp Yp / S = 2 Lx Xn

T Sn n Xn / S ←両辺に Xn

T を左積

R = 2 Lx ← [3] R = XnT Dn p Yp / S; [2a] Xn

T Sn n Xn / S = 1

[5b] Dn pT Xn / S = 2 Ly Tp p Yp / S ← [4b]の第 2 項を右辺に移項

XnT Dnp / S = 2 Ly Yp

T Tp p / S ←行列移動;Tp p 対角行列

XnT Dnp Yp / S = 2 Ly Yp

T Tp p Yp / S ←両辺に Yp を右積

R = 2 Ly ← [3] R = XnT Dn p Yp / S; [2b] Yp

T Tp p Yp / S = 1

[5a], [5b]から

[6] R = 2 Lx = 2 Ly

[7a] Dn p Yp = R Sn n Xn ← [5a] Dn p Yp / S = 2 Lx Snn Xn / S; [6] R = 2 Lx

R Sn n Xn = Dn p Yp ←両辺交換

Sn n Xn = Dnp Yp / R ←スカラーR 移動

Page 253: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

252

Sn n-1

Sn n Xn = Sn n-1

Dnp Yp / R ←両辺に Sn n-1 を左積

Xn = Sn n-1

Dnp Yp / R ←Sn n-1

Snn = In n

[7b] Dn pT Xn = R Tp p Yp ← [5b] Dn p

T Xn / S = 2 Ly Tp p Yp / S; [6] R= 2 Ly

[7a]の最終行の Xn を [7b]の Xn に代入して

[8] Dn pT 1/R Sn n

-1 Dn p Yp = R Tp p Yp

Dn pT Sn n

-1 Dnp Yp = R

2 Tp p Yp ←スカラーR 移動

Dn pT Sn n

-1 Dnp (Tp p

1 /2)

-1 Tp p

1 /2 Yp = R

2 (Tp p)

1 /2 (Tp p)

1 /2 Yp

← (Tp p1 /2

)-1

Tp p1 /2

= Ip p; (Tp p)1 /2

(Tp p)1 /2

= Tp p (後述 )

ここで

[9] (Tp p)1 /2

Yp = Ap

とすると、 [8]の第 3 行は

Dn pT Sn n

-1 Dnp (Tp p

1 /2)

-1 Ap = Tp p

1 /2 R

2 Ap

(Tp p1 /2

)-1

Dn pT Sn n

-1 Dn p (Tp p

1 /2)

-1 Ap = (Tp p

1 /2)

-1 Tp p

1 /2 R

2 Ap

←両辺に (Tp p1 /2

)-1 を左積

(Tp p1 /2

)-1

Dn pT Sn n

-1 Dn p (Tp p

1 /2)

-1 Ap = R

2 Ap ← (Tp p

1 /2)

-1 Tp p

1 /2 = Ip p

ここで、 (Tp p/2

)-1

Dn pT Snn

-1 Dnp (Tp p

/2)

-1 = Ap p とすれば

Ap p Ap = R2 Ap

という固有値問題になります。プログラムはこの固有値問題の既知の Ap p

から未知の R2 と Ap を同時に求めます。Yp は [9]の次式から求めます。

Yp = [Tp p1 /2

]-1

Ap

ここで、ベクトル Yp は横和ベクトル Sn との積和の平均が 0、分散が 1

となるような小さな値です(← [1a])。そこでデータの規模に合わせるため

に、全体にデータの総和の根 Sum(Dn p)1 /2 を掛けます。また、さらに相関係

数 Rp を掛けると相関係数の大きさを反映した座標になります 66。

Yp' = Yp * Sum(Dn p)1 /2

* Rp

Xn は [7a]の最終行から求めます。

Xn = Sn n Dnp Yp / R

*数理とプログラムは奥村 (1986), 高橋 (2005), 三野 (2005)を参照しました。

66

高橋 (2005: 127-129).

Page 254: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

253

●行列の 1/2 乗と -1/2 乗

非負正方行列 Ap p について、Xp p Xp p = Xpp2 = Ap p となる Xpp は Ap p の 1/2

乗 Ap p1 /2 と定義されます。

Xp p2 = Xp p Xpp = Ap p; Xp p = Ap p

1 /2

また、非負正方行列 Ap p に逆行列 Ap p-1 が存在するとき、Yp p Ypp = App

-1

となる Ypp は Ap p の -1/2 乗 Ap p-1 /2 と定義されます。

Yp p2 = Yp p Ypp = Ap p

-1; Ypp = App

-1 /2

●対角行列の逆行列

Tpp が対角行列のとき、その逆行列 Tpp-1 は対角行列であり、その成分は

Tp p の逆数になります。

Tpp 1 2 3

Tpp-1

1 2 3

1 A

1 1/A

2

B

2

1/B

3

C

3

1/C

Tpp が対角行列のとき、Tp p1 /2 は対角行列であり、その対角成分は Tpp の対

角成分の平方根になります。

Tpp 1 2 3

Tpp1 /2

1 2 3

1 A

1 √A

2

B

2

√B

3

C

3

√C

●個体と変数の対応

下左表 (Dnp)はデータ行列、下右表は個体の負荷値 Xn です。

Dnp Y1: English Y2: Physics Y3: Latin

CA.d. (Xn) #1 #2

X1: Ana 9 14 18

x1: Ana -.094 -.211

X2: Juan 17 7 11

x2: Juan .400 .086

X3: Mary 15 13 14

x3: Mary .108 .026

X4: Ken 5 18 8

x4: Ken -.473 .146

下左表は相関係数 (Correl)を示し、下右表は変数の負荷値 (Yp)を示します。

Page 255: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

254

Corresp. 1 2

CA.v. (Yp) #1 #2

Correl. .300 .136

y1: English .377 .110

y2: Physics -.361 .087

y3: Latin .028 -.189

Xn と Yp を連続させた項目名付散布図 (Item scatter)です。

これらの図を見ると、Ken と Physics, Juan と English、Ana と Latin がそ

れぞれ近い関係になることがわかります。Mary が全体の中で中立ですが、

やや English に近づいています。なお、作図のプログラムが可能な R で出

x1: Ana

x2: Juan

x3: Mary

x4: Ken

y1: Englishy2: Physics

y3: Latin

-.300

-.250

-.200

-.150

-.100

-.050

.000

.050

.100

.150

.200

-.500 -.300 -.100 .100 .300#2

#1

Page 256: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

255

力した 2 番目の図では、科目 (English, Physics, Latin)をバイプロットにしま

した。

●集中分析

変数と個体の係数得点を昇順でソートし得点を並び替えると次のような

集中化した得点になります。対応分析による集中化は X1 :4 と Y1 :3 の間の相

関係数が最も高い得点の分布を示します。

Cor.A Y2: Physics Y3: Latin Y1: English

X4: Ken 18 8 5

X1: Ana 14 18 9

X3: Mary 13 14 15

X2: Juan 7 11 17

次は、両軸の負荷値と点数の大きさを考慮して作図した分布図です。

●片側対応分析

前述の対応分析では、個体と変量に与える未知のベクトルを求めました

が、ここでは、どちらかを既知のベクトルとし、残るほうを未知のベクト

ルとします。既知のベクトルとして、この成分の順番を固定するために、

連続数 1, 2, …, N(または P)の標準得点を与えます。これを外的基準とし

Page 257: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

256

て固定し、未知の行、または未知の列のベクトルを求めます。そのとき、

ベクトルの平均を 0 とし、分散を 1 として標準化します。目的は、(前述

の両側)対応分析と同様に、データ行列の分布の相関係数を最大化するこ

とです。

はじめに、変数の横ベクトル Yp を連続数の標準得点で固定し、個体のベ

クトル Xn を未知として、これを求めます。

対応分析の説明で使ったデータを下に再掲します。

Dnp Y1: English Y2: Latin Y3: Science Sn

X1: Ana 9 14 18 41

X2: Juan 17 7 11 35

X3: Mary 15 13 14 42

X4: Ken 5 18 8 31

Tp 46 52 51 149

この「対応個体分析」の目的は、変数 (Y1 , Y2, Y3) = Yp を既知として、未

知の個体 (X1 , X2, X3 , X4) = Xn のベクトルを求めることです。

個体ベクトル Xn と変数ベクトル Yp の平均 (Mx, My)をそれぞれ 0 としま

す。

Sn = SumR(Dn p); Tp = SumV(Dn p); N=Sum(Dn p)

Sn n = dg(Sn); Tp p = dg(T1 p) [dg: 対角行列 ]

[1a] Mx = (41X1 + 35X2 + 42X3 + 31X4) / 149 = SnT Xn / N = 0

[1b] My = (46Y1 + 52Y2 + 51Y3) / 149 = TpT Yp / N = 0

個体 (Xn)の分散 (Vx)を 1 とします。

[2] Vx = [(41X1 – Mx)2 + (35X2 – Mx)

2 + (42X3 – Mx)

2 + (31X4 – Mx)

2 / 149

= (41X12 + 35X2

2 + 42X3

2 + 31X4

2) / 149 ← 1a. Mx = 0

= XnT Sn n Xn / N = 1

Dn p を散布図と見なし、その X 軸:Xn と Y 軸:Yp の間の相関係数 (R)は ,

[3] R = [9(X1–Mx)(Y1–My)

+ 14(X1–Mx)(Y2–My)

+ 18(X1–Mx)(Y3–My)

+ 17(X2–Mx)(Y1–My)

+...

+ 8(X4–Mx)(Y3−My)] / 149

= (9X1Y1 + 14X1Y2 +... + 8X4Y3) / 149 ←Mx = My = 0

= XnT Dnp Yp / N

Page 258: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

257

この R を最大化するためには、分散 Vx = 1 という条件を加えた次の式の

S を Xn で微分し (Df(S, Xn))、その結果をゼロベクトル (On)とします。L はラ

グランジュ乗数です。

S = (XnT Dnp Yp) / N – L [Vx- 1]

= (XnT Dnp Yp) / N – L [(Xn

T Sn n Xn) / N - 1]

[4] Df(S, Xn) = Dn p Yp / N – 2 L Sn n Xn / N = On (ゼロ )

[5] Dn p Yp / N = 2 L Sn n Xn / N ← 4.の第 2 項を移項

XnT Dnp Yp / N = 2 L Xn

T Sn n Xn / N ←両辺に Xn

T を左積

R = 2 L ← 2. XnT Sn n Xn / N = 1; 3. R = X n

T Dn p Yp / N

[6] Dn p Yp = R Sn n Xn

← 5. Dn p Yp / N = 2 v1 Sn n Xn / N; 6. R = 2 v1

R Sn n Xn = Dn p Yp ←両辺交換

Sn n Xn = Dnp Yp / R ←スカラーR 移動

Sn n-1

Sn n Xn = Sn n-1

Dnp Yp / R ←両辺に Sn n-1 を左積

Xn = Sn n-1

Dnp Yp / R ←Sn n-1

Snn = In n

このようにして、Xn が求められましたが、右辺の R(相関係数)は既知

ではなりません。しかし、ここでは Xn のベクトルを最終的に標準化します

ので、R がどんな値であってもかまいません。そこで、 R を除いた次の式

を使います。

Xn” = StdS(Sn n-1

Dn p Yp)

一方、個体のベクトルを固定して、変数のベクトルを求めるときは、 [2]

以下を次のようにします。

[2b] Vy = [(46Y1 – My)2 + (52Y2 – My)

2 + (51Y3 – My)

2] / 149

= (46Y12 + 52Y2

2 + 51Y3

2) / 149 ← 1b. My = 0

= YpT Tp p Yp / N = 1

[3] R = XnT Dnp Yp / N

この R を最大化するためには、Vy = 1 という条件を加えた次の式の S を

Yp で微分し (Df(S,Yp))、その結果をゼロベクトル (Op)とします。L はラグラ

ンジュ乗数です。

S = (XnT Dnp Yp) / N – L [Vy - 1]

= (XnT Dnp Yp) / N – L [(Yp

T Tp p Yp) / N - 1]

[4b] Df(S, Yp) = Dn pT Xn / N – 2 L Tp p Yp / N = Op (ゼロ )

Page 259: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

258

[5b] Dn pT Xn / N = 2 L Tp p Yp / N ← 4b.の第 2 項を移項

XnT Dnp / N = 2 L Yp

T Tp p / N ←A

T B = B

T A;Tpp 対角行列

XnT Dnp Yp / N = 2 L Yp

T Tp p Yp / N ←両辺に Yp を右積

R = 2 L ← [3] R = XnT Dn p Yp / N; [2b] Yp

T Tp p Yp / N = 1

[6b] Dn pT Xn = R Tp p Yp ← 5b. Dnp

T Xn / N = 2 v2 Tp p Yp / N; 6. R= 2 v2

R Tp p Yp = Dn pT Xn ←両辺交換

Tp p Yp = DnpT Xn / R ←スカラーR 移動

Tp p-1

Tp p Yp = Tp p-1

DnpT Xn / R ←両辺に Tp p

-1 を左積

Yp = Tp p-1

DnpT Xn / R ←Tp p

-1 Tpp = Ip p

ここでも先と同じ理由で R を無視し、最後に標準化します。

Yp” = StdS(Tp p-1

Dn pT Xn )

■アンダルシア方言の音声特徴の地域差

次表はスペイン、アンダルシア地方の 8 県で得られた資料中の、語末子

音の脱落による先行母音の開母音化の相対頻度を示します。

R / N * 100 H SE CA MA CO J GR AL

1533B:miel:el>e+ 17 10 9 15 20 29 46 30

1533C:miel:el>e: 11 6 4 16 12 11 16 3

1615A:caracol:-ól>ó+(:) 2 3 3 5 15 14 19 11

1615B:caracol:-ól>ó(:) 18 27 15 16 3 1 6 2

1616A:árbol:-ol>o+ 2 1

6 8 6 6

1616B:árbol:-ol>o 23 30 17 26 18 11 23 11

1618A:sol:-ól>ó+(:) 7 9 3 13 13 12 19 11

1618B:sol:-ól>ó(:) 15 21 15 13 1 1 6 1

1623A:beber:-ér>é+l 2

1 10 11 19 20

1623B:beber:-ér>é+ 4 7 3 6 13 17 15 8

1623C:beber:-ér>é 19 24 15 19 2

4

1626A:tos:-ós>ó+h 6 2 2 4 7 13 17 9

1626C:tos:o++

2 7 10 18 12

1626C:tos:-ós>ó+ 7 7 5 13 18 17 27 19

1626D:tos:-ós>ó 10 22 11 9 2 1 2

1627A:nuez:-éθ>é+h 5 2 1

2 3 8 3

1627B:nuez:-éθ>é+ 7 13 5 17 20 25 39 26

1627C:nuez:e++

5 14 18 26 18

1627C:nuez:-éθ>é 12 16 12 9 3 1 1

1629A:voz:-óθ>óh 5 3

1 1 1 5 3

1629B:voz:-óθ>ó+ 3 5 3 12 22 30 44 30

Page 260: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

259

1629C:voz:-óθ>ó 18 23 14 13 2 1 2 1

1689A:niños:-os>-o+ 1 2

4 22 31 44 30

1689B:niños:-os>oh[os) 4 1

2 3 8 8

1690A:pared:-éd>é+ 6 8

10 17 19 24 11

1693A:redes:redes>rede 3 2 1 1 4 12 8 18

1693B:redes:redes>re+ 14 6 4 12 3 6 16 6

1693C:redes:redes>reh 1

2

1 4 7

1694A:clavel:-él>-él 3 2 1 3 6 5 11 15

1694B:clavel:-él>é+, 6 3 15 20 24 40 29

1694C:clavel:-él>ér

1 5 1

1695A:claveles:e-es>-e-e+ 2

4 2 2 4 3

1695B:claveles:e-es>-e+-e+ 1

7 18 24 33 21

1695C:claveles:-e-es>-e-e: 1

3 1 2 1 1

1695D:claveles:e-es>-e-eh 3 1 5 4 9 5

この分布表を対応分析(両側)にかけると次のような結果になりました。

Cor.A AL J GR CO MA H SE CA

1694C:clavel:-él>ér 1 1 5

1626C:tos:o++ 12 10 18 7 2

1623A:beber:-ér>é+l 20 11 19 10 1 2

1627C:nuez:e++ 18 18 26 14 5

1689A:niños:-os>-o+ 30 31 44 22 4 1 2

1695B:claveles:e-es>-e+-e+ 21 24 33 18 7

1

1616A:árbol:-ol>o+ 6 8 6 6

2 1

1693A:redes:redes>rede 18 12 8 4 1 3 2 1

1629B:voz:-óθ>ó+ 30 30 44 22 12 3 5 3

1694B:clavel:-él>é+, 29 24 40 20 15

6 3

1695D:claveles:e-es>-e-eh 5 4 9 5

3 1

1694A:clavel:-él>-él 15 5 11 6 3 3 2 1

1615A:caracol: -ól>ó+(:) 11 14 19 15 5 2 3 3

1689B:niños:-os>oh[os) 8 3 8 2

4 1

1626A:tos:-ós>ó+h 9 13 17 7 4 6 2 2

1690A:pared:-éd>é+ 11 19 24 17 10 6 8

1693C:redes:redes>reh 4 7 1

1

2

1627B:nuez:-éθ>é+ 26 25 39 20 17 7 13 5

1626C:tos:-ós>ó+ 19 17 27 18 13 7 7 5

1623B:beber:-ér>é+ 8 17 15 13 6 4 7 3

1533B:miel:el>e+ 30 29 46 20 15 17 10 9

1695A:claveles:e-es>-e-e+ 3 2 4 2 4

2

1618A:sol:-ól>ó+(:) 11 12 19 13 13 7 9 3

Page 261: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

260

1627A:nuez:-éθ>é+h 3 3 8 2

5 2 1

1695C:claveles:-e-es>-e-e: 1 2 1 1 3

1

1533C:miel:el>e: 3 11 16 12 16 11 6 4

1629A:voz:-óθ>óh 3 1 5 1 1 5 3

1693B:redes:redes>re+ 6 6 16 3 12 14 6 4

1616B:árbol:-ol>o 11 11 23 18 26 23 30 17

1615B:caracol: -ól>ó(:) 2 1 6 3 16 18 27 15

1618B:sol:-ól>ó(:) 1 1 6 1 13 15 21 15

1623C:beber:-ér>é

4 2 19 19 24 15

1627C:nuez:-éθ>é 1 1 3 9 12 16 12

1629C:voz:-óθ>ó 1 1 2 2 13 18 23 14

1626D:tos:-ós>ó 1 2 2 9 10 22 11

左上の区画の頻度は西地方 (MA, H, SE, CA)で開母音化が少ないことを

示し、右下の区画には、逆に東地方 (AL, J, GR, CO)で開母音化が多くなっ

ていることを示しています。これは一般的な傾向であって、上右や下左の

区画にも多くの数値があるので例外が多いことがわかります。

*資料:『アンダルシア言語民俗地図』 (Manuel Alvar y Antonio Llorente:

Atlas lingüístico y etnográfico de Andalucía , 1973)

■中世・近代スペイン語公証文書書体の年代推移

次は古スペイン語の手稿本や公証文書で用いられた書体の例です。

(a) Cid, 1207, Letra gótica libraria {7} ffablo myo çid bien e tan meſurado

(b) CODEA:0287, Madrid, 1340, Letra de albalaes

{14} Et a los que lo aſi non quiſſieren ffazer

(c) CODEA:3931, Madrid 1386, Letra gótica cortesama

{31} E que pagando los ſſu prinçipal aquello que ffueſſe ſabido en verdad

上の (a)は「手稿本ゴチック体」、 (b)は「勅書体」、 (c)は「宮廷ゴチック

体」の写真です。他にも十数種の書体がありました。次の表はある研究計

画で記録された文書数の年代推移を示します。

Page 262: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

261

Letr

a

Caro

lin

a

Co

rt

De a

l.

De p

riv

G.

c.

G.

c.

al

G.

c.

p.

G.

lib

G.

r.

tica

H.

c

H.

r.

Pre

c

Pro

c.

1075 1

1100 2

1125 1

1150 7

1

1

1175 2

5 1

1200 3

14 5 10

1225 3

1

48 5 12

1250 1

2 4 14

45 4 8

1275

14 5 32 22

13 3 1

1300

4

46 1

8

1325

1

29

3

1

1350

1

25

3

5

1375

6

7

3

6

1400

4

2

1

1

1 20

1425

12

1 1

3

1450

30

2

1

1475

9

3 1

1

1500

20

4

1 3

1525

8

1

1 1

2

1550

1

3 11

1575

1

2 3

2

1600

4 3

1625

8

1

1650

4

1675 7

次に、縦軸の年代を固定し、横軸だけを対象とした片側対応分析をすると、

次のような結果になりました。次の表で、左上から右下にかけて推移する

段階的なグラデーションが観察されます。ここで、 (1)から (14)の書体が年

代に沿って変化していくことがわかります。

Page 263: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

262

Le

tra

(1)

Ca

roli

na

(2)

G.

lib

(3)

De

pri

v

(4)

tic

a

(5)

G.

c.

al

(6)

De

al.

(7)

G.

c.

(8)

G.

r.

(9)

G.

c.

p.

(10

) P

rec

(11

) C

ort

(12

) H

. r.

(13

) P

roc

.

(14

) H

. c

1075 1

1100 2

1125 1

1150 7 1 1

1175 2 5 1

1200 3 14 10 5

1225 3 48 1 12 5

1250 1 45 4 8 2 14 4

1275 13 5 1 22 14 32 3

1300 8 1 4 46

1325 3 1 1 29

1350 3 1 25 5

1375 7 3 6 6

1400 1 1 2 20 4 1

1425 1 1 3 12

1450 2 30 1

1475 1 3 9 1

1500 4 3 20 1

1525 1 8 1 2 1

1550 1 11 3

1575 1 3 2 2

1600 3 4

1625 1 8

1650 4

1675 7

Letra: (1) Carolina, (2) Gótica libraria, (3) De privilegios, (4) Gótica, (5)

Gótica cursiva [albalaes], (6) De albalaes, (7) Gótica cursiva, (8) Gótica

redonda, (9) Gótica cursiva [precortesana], (10) Precortesana, (11)

Cortesana, (12) Humanística redonda, (13) Procesal, (14) Humanística

cursiva

*資料:CODEA +2015: «Corpus de Documentos Españoles Anteriores a 1700»

(Pedro Sánchez Prieto Borja, GITHE: (Grupo de Investigación de Textos para la

Historia del Español, Universidad de Alcalá). Contiene 1502 textos provenientes

de distintas regiones de España de l siglo XI al XVII.

Page 264: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

263

6.6. 因子分析

「因子分析」 (Factor analysis)は主成分分析と対称的な考え方をする分析

法です。主成分分析ではデータ行列の全変数を説明するような軸を探しま

すが、因子分析では、成分が互いにできるだけ異なるようなベクトル(因

子 factor)を探します。成績データを例にすると、たとえば英語と国語を

説明するような変数(文系因子)が、数学と理科を説明するような変数(理

系因子)と明確に異なるようにします。因子分析の多くの手法の中からこ

こでは芝 (1975:90-103)にしたがって Horst の「バリマックス法」 (Varimax

method)を説明します。

未知の因子 (A1 , A2 , …, Ap) ができるだけ互いに異なるようにするために、

因子ベクトル (Ap)の分散 (V)を最大化することが目的です。以下は簡略化し

て分散の分母 (N)を外し、次のように変動を使います (V*)。M は Ap の平均

を示し、P は Ap の成分の個数です。

V* = Σ (A i – M)2

= Σ (A i2 – 2 M A i + M

2)

= ΣA i2 – 2 M ΣA i + P M

2

= ΣA i2 – 2 (ΣA i)

2 / P + P (ΣA i)

2 / P

2 ← M = (ΣA i) / P

= ΣA i

2 – (ΣA i)

2 / P

これを行列で示すと次のようになります(→後述)。

V* = ApT (Ip p – Ip Ip

T / P) Ap

ここでΣA i の計算で負値が相殺されるのを防ぐため、A ではなく A2 とし

た「分散」 (V**)を求めます。Ap(2)はベクトル Ap のすべての成分を 2 乗し

た成分をもつベクトルを示します。

[1] V** = Ap(2 ) T

(Ip p – Ip IpT / P) Ap

(2 )

ここで次の対角行列

Ap p =

[ 𝐴1

𝐴2

…𝐴𝑝]

を導入すると、先の式 [1]は

[1b] V** = ApT Ap p (Ip p – Ip Ip

T / P) Ap p Ap

となります(後述)。

これから求める因子ベクトル Ap は相関行列 Rp p に未知のベクトル Tp を

Page 265: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

264

右積したものとします。Tp の長さを 1 と規定します。

[2] Ap = Rp p Tp

[2b] TpT Tp = 1

TpT Tp = 1 [2b]という条件付きで V**の最大値を求めるために Lagrange

乗数 L をつけた次の式を設定します。

W = V** – L (TpT Tp -1)

= ApT Ap p (Ip p – Ip Ip

T / P) Ap p Ap – L (Tp

T Tp – 1) ← [1b)]

= TpT Rp p

T Ap p (Ip p – IpIp

T / P) Ap p Rp p Tp – L (Tp

T Tp – 1) ← [2]

この W を未知の Tp で微分した式 Df(W, Tp)を 0 とします。

Df(W, Tp) = 2 [RppT Ap p (Ip p – Ip Ip

T / P) Ap p Rpp Tp – L Tp] = 0

[3] Rp pT Ap p (Ip p – Ip Ip

T / P) Ap p Rpp Tp = L Tp ←L Tp を右辺に

左辺 = Rp pT Ap p (Ip p – Ip Ip

T / P) Ap p Ap ← [2] Ap = Rpp Tp

= Rp pT (Ap p Ip p Ap p Ap – Ap p Ip Ip

T Ap p Ap / P) ←Rp p

T を外に

= Rp p (Ap p Ap(2)

– Ap ApT Ap / P)

←Rp p は対称行列 ; Ap p Ip p = App; Ap p Ap = Ap(2)

; IpT Ap p = Ap

T

= Rp p (Ap(3 )

– Ap ApT Ap / P) ←App Ap

(2) = Ap

(3)

よって [3]は次の [3b]になり、この [3b]が成立するときに V は最大化します。

[3b] Rp p (Ap(3 )

– Ap ApT Ap / P) = L Tp

ここで

[4] Bp = Ap(3 )

– Ap ApT Ap / P

とすると [3b]は次になります。Bp, L, Tp は未知数です。

[3c] Rp p Bp = L Tp

相関行列 Rpp と任意の負荷ベクトル Wp によって次のようにして導出され

るベクトルは「構造ベクトル」とよばれます(→後述)。

Rp p Wp / (WpT Rp p Wp)

1 /2

上の Wp の代わりに [4]の Bp を負荷ベクトルとした構造ベクトルを Ap とし

します。適当な初期値をもたせた Ap を使って [4]を計算します。

[5] Ap = Rp p Bp / (BpT Rpp Bp)

1 /2

[6] Bp = Ap(3 )

– Ap ApT Ap / P ← [4]

Page 266: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

265

このままでは [5][6]を同時に満足する Ap , Bp を計算できません。 [5]の式

の右辺の Bp は [6]の式の左辺であり、 [6]の式の右辺の Ap は [5]の式に左辺

であるので、互いに依存しているからです。そこでプログラムではじめに

Bp に適当な値を入れ、[5]によって Ap を求め、それを使って [6]で Bp を求め

ます。そして、さらに [5]に戻って、 [6]で得られた Bp から Ap を求め、 [6]

で Bp を求めます。このような繰り返しを Ap に変化がなくなるまで行うと、

[5][6]を満足させる Ap と Bp の値が決まります。この Ap が最初の構造(因

子)ベクトルです。

1 つの因子が見つかった後は残差の相関行列 (Rpp)から、順次同じプロセ

スで因子を探します。毎回因子ベクトルが得られたら、Bp と標準化データ

行列 (Zn p)を使って因子得点行列 (Sn p)を計算します。

●単位行列・単位ベクトルの利用

行列の演算は、その成分を展開すると理解できます。

[1] V* = ΣA i2 – (ΣA i)

2 / P = Ap

T (Ip p – Ip Ip

T / P) Ap

この右辺の成分を確かめます。

ApT (Ip p – Ip Ip

T / P) Ap

= ApT ([

11

…1

] – [

11…1

] [1, 1, …, 1] / P) Ap

= ApT ([

11

…1

] – [

1 1 … 11 1 … 1… … . . 11 1 1 1

] / P) Ap

M = 1 / P とおくと

V* = ApT ([

11

…1

] – [

𝑀 𝑀 … 𝑀𝑀 𝑀 … 𝑀… … . . 𝑀𝑀 𝑀 𝑀 𝑀

]) Ap

= [A1 , A2 , …, Ap] [

1 − 𝑀 −𝑀 … −𝑀−𝑀 1 − 𝑀 … −𝑀… … … …

−𝑀 −𝑀 … 1 − 𝑀

] Ap

= [A1(1 - M) + A2(-M) + … + Ap(-M),

A1(-M) + A2(1 - M) + … + Ap(-M),

Page 267: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

266

A1(-M) + A2(-M) + …+ Ap(1 - M)] [

𝐴1

𝐴2

…𝐴𝑝

]

= [A1(1 - M) + A2(-M) + … + Ap(-M)] A1

+ [A1(-M) + A2(1 - M) + … + Ap(-M)] A2

+ …

+ [A1(-M) + A2(-M) + …+ Ap(1 - M)] Ap

= A12 + A2

2 + … + Ap

2 – M (A1 + A2 + … + Ap)

2

= A12 + A2

2 + … + Ap

2 – (A1 + A2 + … + Ap)

2 / P ←M = 1 / P

= ΣA i

2 – (ΣA i)

2 / P =V*

[2] V** = Ap(2 ) T

(Ip p – Ip IpT / P) Ap

(2 )

= ApT Ap p (Ip p – Ip Ip

T / P) Ap p Ap … (1b)

上の等式が成立することを ApT App と Ap p Ap の成分で確認します。

ApT Ap p = [A1 , A2 , … , Ap]

[ 𝐴1

𝐴2

…𝐴𝑝]

= [A12, A2

2, …, Ap

2] = Ap

(2 ) T

Ap p Ap =

[ 𝐴1

𝐴2

…𝐴𝑝]

[

𝐴1

𝐴2

…𝐴𝑝

] =

[ 𝐴1

2

𝐴22

…𝐴𝑝

2]

= Ap(2 )

●構造ベクトル

標準化されたデータ行列の Znp の相関行列は (N:データの個数 )

[1] Rp p = Zn pT Zn p / N

Zn p に重みベクトル Wp を右積して合成した変数ベクトル Fn とします。

[2] Fn = Zn p Wp

合成変数ベクトル Fn の分散 V(Fn)は、Fn の平均は 0 なので

[3] V(Fn) = FnT Fn / N

= (Zn p Wp)T Zn p Wp / N

= WpT

Zn pT Zn p Wp / N

= WpT Rpp Wp

合成変数ベクトル Fn を標準化したベクトル Gn は

Page 268: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

267

[4] Gn = Fn / V(Fn)1 /2

= Zn p Wp / (WpT Rpp Wp)

1 /2 ← [2], [3]

この標準化されたデータ行列 Zn p と合成変数ベクトル Gn との相関係数ベ

クトルを Ap とすると

Ap = Zn pT Gn / N

= Zn pT Zn p Wp / (Wp

T Rpp Wp)

1 /2 / N ← [4]

= Rp p Wp / (WpT Rpp Wp)

1 /2 ← [1]

*芝 (1975)を参照しました。同書は Ap を「構造ベクトル」とよび、その重

要性を強調しています。先述の因子ベクトルの導出では Bp が Wp に対応し

ます。

■音象徴の実験

下左図は 1 音節の音の個人的な感覚を 5 つの -3 ~ 3 の尺度で記入したも

のです。たとえば pa と聞いてとても clear という感じがすれば 3, 逆にと

ても dark という感じがあれば -3 とします。どちらでもなければ 0 でその間

に 2, 1, 0, -1, -2 という段階をつけてみました(自分で実験したデータ例で

す)。

Ss Big Sharp Clear Hard Heavy

FA.d. #1 #2 #3 #4

1.pa -1 2 2 2 -3

1.pa -1.329 .823 -.733 .196

2.ba 2 -3 -3 1 2

2.ba .989 .246 -2.171 -.667

3.ta -1 2 1 2 -2

3.ta -.946 .823 -.057 -.463

4.da 2 -1 -3 1 2

4.da 1.134 .274 .664 -.761

5.ka 0 3 1 3 -1

5.ka -.400 1.390 1.430 .912

6.ga 3 -2 -3 2 3

6.ga 1.535 .813 -.684 .708

7.sa -2 2 2 1 -2

7.sa -1.355 .305 -.138 -.397

8.za 2 -1 -2 0 3

8.za 1.203 -.221 1.416 .522

9.ma 0 -1 -1 -2 0

9.ma -.127 -1.328 .601 -1.663

10.na 0 -1 0 -2 0

10.na -.286 -1.311 .257 -.589

11.ra 1 -2 2 -3 0

11.ra -.419 -1.815 -.585 2.202

FA.v. #1 #2 #3 #4

a. Big .960 -.063 -.106 .217

b. Sharp -.728 .557 .399 .004

c. Clear -.940 -.063 .072 .327

d. Hard .008 1.000 -.013 -.015

e. Heavy .979 -.150 .016 .048

上右図が因子得点行列、下図が因子行列です。

Page 269: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

268

第 1 因子は Big と Heavy に強く反応しているので「重厚さ」を示してい

るようです。第 2 因子は Hard と Sharp に反応しているので「切れ味」のよ

うなものを示していると思います。それぞれの因子は次の相関係数行列が

示すように無相関になります。このことは軸が直交していることを意味し

ます。

それぞれの音節の得点とそのグラフ( x 軸=第 1 因子;y 軸=第 2 因子;)

を示すと、第 1 因子では有声音と無声音が対立し、第 2 因子では、破裂音

(閉鎖音)と摩擦音・鼻音・流音の対立していることがわかります。

■集中分析

変数の重みと個体の得点を昇順でソートし、得点を並び替えると次のよ

うな集中化した得点になります。

Correlation 1 2 3 4

1 1.000 .000 .000 .000

2 .000 1.000 .000 .000

3 .000 .000 1.000 .000

4 .000 .000 .000 1.000

Page 270: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

269

6.7. クラスター分析

関係行列(相関行列、連関行列、距離行列、文字行列)や、多変数分析

の結果を見ると互いに関係の深い成分とそうでない成分があることがわか

ります。こうした関係にもとづいて全体がどのようなグループ(群)に分

類されるのかを見る手法の1つが「クラスター分析」(Cluster analysis)です。

「樹形図」 (Dendrogram)というグラフを出力します。

(1) 最近隣法

クラスター分析には多くの方法があります。はじめに一番簡単な「最近

隣法」 (Nearest neighour method)を取り上げましょう。スペイン語圏の語彙

バリエーション研究から得られた相関係数行列を用いて説明します。デー

タの規模を小さくして 6 カ国だけにしたサンプルデータを使います。それ

ぞれ ES:スペイン , GE:赤道ギニア , CI:キューバ , RD:ドミニカ共和国 , PR:プ

エルトリコ , MX:メキシコを示します。

6 か国 1. ES 2. GE 3. CI 4. RD 5. PR 6. MX

1. ES 1.00

2. GE 0.61 1.00

3. CI 0.51 0.45 1.00

4. RD 0.54 0.45 0.54 1.00

5. PR 0.58 0.49 0.56 0.68 1.00

6. MX 0.45 0.34 0.39 0.45 0.50 1.00

これを距離行列に変換します。→ 3.6.4.

Fct.cct c. Clear b. Sharp d. Hard a. Big e. Heavy

7.sa 2 2 1 -2 -2

1.pa 2 2 2 -1 -3

3.ta 1 2 2 -1 -2

11.ra 2 -2 -3 1 0

5.ka 1 3 3 0 -1

10.na 0 -1 -2 0 0

9.ma -1 -1 -2 0 0

2.ba -3 -3 1 2 2

4.da -3 -1 1 2 2

8.za -2 -1 0 2 3

6.ga -3 -2 2 3 3

Page 271: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

270

6 か国 1. ES 2. GE 3. CI 4. RD 5. PR 6. MX

1. ES 0.00 0.20 0.25 0.23 0.21 0.28

2. GE 0.20 0.00 0.28 0.27 0.25 0.33

3. CI 0.25 0.28 0.00 0.23 0.22 0.30

4. RD 0.23 0.27 0.23 0.00 0.16 0.28

5. PR 0.21 0.25 0.22 0.16 0.00 0.25

6. MX 0.28 0.33 0.30 0.28 0.25 0.00

最初のクラスタリングで距離の最小値 (0.16)をもつ組み合わせである 4:RD

と 5:PR が合体します。

6 か国 1. ES 2. GE 3. CI 4. RD:5. PR 6. MX

1. ES 0.00 0.20 0.25 0.21 0.28

2. GE 0.20 0.00 0.28 0.25 0.33

3. CI 0.25 0.28 0.00 0.22 0.30

4. RD: PR 0.21 0.25 0.22 0.00 0.25

6. MX 0.28 0.33 0.30 0.25 0.00

2 番目のクラスタリングで次に距離が近い値 (.20)をもつ成分 1 と成分 2 が

合体します。

6 か国 1. ES: 2. GE 3. CI 4. RD: .16;5. PR 6. MX

1. ES: 2. GE 0.00 0.25 0.21 0.28

3. CI 0.25 0.00 0.22 0.30

4. RD: 5. PR 0.21 0.22 0.00 0.25

6. MX 0.28 0.30 0.25 0.00

3 番目のクラスタリングではすでに存在する (1+2)のグループと (4+5)のグ

ループが合体します。このとき、(1+2) と 3 の距離は、1-3, 2-3 の間のそれ

ぞれの距離のうち小さなほうの値とします。同様に (1+2)と (4+5)の距離は

1-4, 1-5, 2-4, 2-5 の中で一番小さな値をとります。以下同様にして最後の 5

番目のクラスタリングで成分 6 が全体に組み込まれます。

6 か国 1. ES: 2. GE:4. RD:5. PR 3. CI 6. MX

1. ES: 2. GE:4. RD:5. PR 0.00 0.22 0.25

3. CI 0.22 0.00 0.30

6. MX 0.25 0.30 0.00

6 か国 1. ES: 2. GE: 4. RD:5. PR: ;3. CI 6. MX

1. ES: 2. GE: 4. RD:5. PR: ;3. CI 0.00 0.25

6. MX 0.25 0.00

Page 272: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

271

各国を空間に配置しそのグルーピングを行うと次のようになります。

*この例では相関係数行列を一度距離に置き換えてからクラスター分析に

かけていますが、上の図(樹形図)にはクラスターの合流点として入力の

数値(相関係数)が出力されています。

(2) 最遠隣法

最近隣法ではグループと1つの成分またはグループ間の距離をグループを

構成する成分のあらゆる組み合わせのペアで一番距離の近い数値を示すも

のとして定義しました。たとえば次の図で

[A+B+C]というグループと [D+E]というグループの間の距離を A-D, A-E,

B-D, B-E, C-D, C-E というペアの中から一番近いものを選んで、この場合、

C-E によって、 2 つのグループ間の距離と見なしています。F も含めた 3

つのグループの距離は、C-E, C-F, E-F によって計測されます。

次に取り上げる「最遠隣法」 (Furthest neighbour method)はグループ間の最

も遠い成分の間の距離を採用します。つまり、上図の A-D, A-F, D-F の距

離で 3 つのグループの距離と見なすのです。最近隣法では近くにデータが

Nearest R. Max. 1.00 + Min. 0.00

1. ES -1.00

2. GE 0.61

4. RD 0.58

5. PR 0.68

3. CU 0.56

6. MX 0.50

Page 273: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

272

あれば、それを結びつけるという手法をとりますが、最遠隣法では一番遠

くにあるデータを見つけ、これの距離を 2 つのグループの距離とする点が

違います。グループ間の距離が決定されたならば、あとの操作は同じです。

(3) 平均結合法

最近隣法と最遠隣法はグループ間の距離を決定するのに正反対の考え方を

しています。しかし、グループ間の距離を 1 つの代表値で計算しているこ

とではどちらも同じです。ここで取り上げる「平均結合法」 (Mean linkage

method)はグループ間の距離を前二者のように単純にそれぞれのグループ

の 1 成分に代表させず、すべての組み合わせのペアの距離の平均値をもっ

て 2 つのグループの距離と見なす手法です。たとえば、次の図で

[A+B+C]というグループと [D+E]というグループ間の距離を A-D, A-E, B-D,

B-E, C-D, C-E というペアのすべての距離を足して、ペアの数 (6)で割った値

を 2 つのグループ間の距離と見なします。

先の距離行列の中で、すべての距離の中で最小値は 4:RD と 5:PR の間の .16

です。最初にこの 2 国を 1 つのグループをなすと見なすのは最近隣法や最

遠隣法と同じです。新しいグループ名を (4+5)と名付けて、新たに相関行列

を作成します。このときグループ (4+5)と 1, 2, 3, 6 との相関係数は、それ

ぞれの組み合わせの平均値とします。これが群間平均法の要点です。たと

えば、1 と (4+5)では、1-4 の .23 と 1-5 の .21 を足して 2 で割ります。以下、

2, 3, 6 についても同様に比較します。最後に次の図が得られます。

Farthest R. Max. 1.00 + Min. 0.00

1. ES -1.00

2. GE 0.61

3. CU 0.45

4. RD 0.54

5. PR 0.68

6. MX 0.34

Page 274: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

273

(4) 過程平均結合法

クラスター分析法にはほかにも多くの手法があります。これまで扱ってき

た 3 つの手法は代表的なものですが、どれも原初の対称行列の成分をもと

に距離を測っています。ここで提案する「過程平均法」は平均結合法に連

関しますが、クラスタリングの各ステップで、原初の対称行列の成分に戻

るのではなく、ステップを踏むときの対称行列の状態をもとに、新しく距

離を平均して求めます。

次は「成績 1」のデータ行列(下左)からマハラノビス距離(下右)を計

算した結果です(平均化、最大値比:→ 3.6.4 (3))。

項目 a.役立つ b.楽しい

S A B C D E F G H

A.文法解説 86 29

A 0.00 0.48 0.40 0.66 0.50 0.19 0.56 0.17

B.ビデオ 53 78

B 0.48 0.00 0.40 0.18 0.60 0.66 0.58 0.62

C.活動 48 53

C 0.40 0.40 0.00 0.54 0.81 0.48 0.19 0.44

D.映画 43 96

D 0.66 0.18 0.54 0.00 0.70 0.84 0.70 0.80

E.音読 110 42

E 0.50 0.60 0.81 0.70 0.00 0.63 1.00 0.63

F.筆写 93 11

F 0.19 0.66 0.48 0.84 0.63 0.00 0.59 0.04

G.観察 37 50

G 0.56 0.58 0.19 0.70 1.00 0.59 0.00 0.55

H.小テスト 89 15

H 0.17 0.62 0.44 0.80 0.63 0.04 0.55 0.00

はじめに F+H が全体の最短距離 (.04)によって結合します。

S A B C D E [F+H] G

A 0.00 0.48 0.40 0.66 0.50 0.18 0.56

B 0.48 0.00 0.40 0.18 0.60 0.64 0.58

C 0.40 0.40 0.00 0.54 0.81 0.46 0.19

D 0.66 0.18 0.54 0.00 0.70 0.82 0.70

E 0.50 0.60 0.81 0.70 0.00 0.63 1.00

[F+H] 0.18 0.64 0.46 0.82 0.63 0.02 0.57

G 0.56 0.58 0.19 0.70 1.00 0.57 0.00

結合した [F+H]と他の成分、たとえば A との距離 D ( [F+H] :A)は次のように計

算されています。

Average R. Max. 1.00 + Min. 0.00

1. ES -1.00

2. GE 0.61

3. CU 0.50

4. RD 0.55

5. PR 0.68

6. MX 0.41

Page 275: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

274

D ( [F+H] :A) = [D (F :A) + D (H:A)] / 2 = (.19 + .17) / 2 = .18

他も同様です。これは平均結合法と同じです。次に上の表の中での最短距

離 (.18)をもつ [B+D]が結合します。

D A [B+D] C E [F+H] G

A 0.00 0.57 0.40 0.50 0.18 0.56

[B+D] 0.57 0.09 0.47 0.65 0.73 0.64

C 0.40 0.47 0.00 0.81 0.46 0.19

E 0.50 0.65 0.81 0.00 0.63 1.00

[F+H] 0.18 0.73 0.46 0.63 0.02 0.57

G 0.56 0.64 0.19 1.00 0.57 0.00

上と同様に [B+D]に関わる距離が再計算されています。次のステップで

[A+[F+H]]という群が形成されます(最短距離: .18)。

D [A+[F+H]] [B+D] C E G

[A+[F+H]] 0.09 0.65 0.43 0.57 0.57

[B+D] 0.65 0.09 0.47 0.65 0.64

C 0.43 0.47 0.00 0.81 0.19

E 0.57 0.65 0.81 0.00 1.00

G 0.57 0.64 0.19 1.00 0.00

このとき過程平均法では、たとえば [A+[F+H]]と [B+D]の距離を次の式で計

算します。上の表ではなく直前のステップの表から D(A:[B+ D] ) と D( [F+H] :[B+D] )

に該当する値を求めます。

D ( [A+[F+H] ] :[B+D] ) = [D (A:[ B+D] ) + D ( [F+H] :[B+D] )] / 2 = (.57 + .73) / 2 = .65

*一方、群平均法では、この計算を原初の対称行列に戻って次の式を適用

しました。

D ( [A+F+H] :[B+D] ) = [D (A:B) + D (A:D) + D (F:B ) + D (F:D) + D (H:B) + D (H:D)] / 6 = 67.7

過程平均法における距離の再計算法として幾何平均を使用する次を提案し

ます。先の最初のステップの例で示すと次のようになります。

D ( [F+H] :A) = [D (F :A) D (H:A)]1 /2

= (.19 x .17)1 /2

= .18

この結果は先とほとんど変わりませんが、多くの計算では結果にかなりの

影響が出ます。先の算術平均をとる方法を「過程算術平均結合法」とよび、

今回の幾何平均をとる方法を「過程幾何結合平均法」とよぶことにします。

次は、これまで扱った 5 つの方法を同じデータに適用して比較した結果で

Page 276: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

275

す。

(1) 最近隣法

(2) 最遠隣法

(3) 平均結合法

Nearest D. Min. 0.000 + Max. 1.000

A.文法解説 1.000

F.筆写 0.165

H.小テスト 0.044

B.ビデオ 0.402

D.映画 0.179

C.活動 0.400

G.観察 0.193

E.音読 0.496

Furthest D. Min. 0.000 + Max. 1.000

A.文法解説 1.000

F.筆写 0.190

H.小テスト 0.044

C.活動 0.587

G.観察 0.193

B.ビデオ 1.000

D.映画 0.179

E.音読 0.703

Average D. Min. 0.000 + Max. 1.000

A.文法解説 1.000

F.筆写 0.178

H.小テスト 0.044

C.活動 0.503

G.観察 0.193

B.ビデオ 0.628

D.映画 0.179

E.音読 0.696

Page 277: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

276

(4) 過程算術平均結合法

(5) 過程幾何平均結合法

5 つの方法を比較すると結果は連関していますが、最近隣法が他の方法に

比べて分類する力が弱いことがわかります。他の 4 つの方法ではそれぞれ

の結合点が異なっています。一般に結合点が最小値に近いほどクラスター

が原点に近い位置で形成されているので分類能力があると解釈できます。

上の例では過程幾何平均法が全体的に結合点が小さな値になっています。

■地域語彙変異によるクラスター分析

クラスター分析はさまざまな分野で使われています。その理由のひとつ

として他の多変数解析法と比べて理解しやすく、また結果も明示的でわか

りやすいことが挙げられるでしょう。

連関度係数として何を使うか、また、クラスタリングアルゴリズムをど

れにするかで、さまざまな組み合わせが可能です。それぞれの性質をよく

理解しデータの特徴や先行研究を踏まえたうえで納得できる結論を導くよ

うにしたいと思います。

コンピュータは一定の条件さえ与えれば、それなりの答えを出してくれ

ますが、これは可能な分析法の一つにすぎません。他の方法による結果と

比較しながら総合的に判断すべきです。

次は、スペイン語の語彙変異によるスペイン語圏地域をクラスター分類

したものです。全体はスペイン・アフリカ、カリブ海地域、メキシコ・中

米、南米北部、アンデス・ラプラタに分類されました。このような分類は、

P. A. Av. D. Min. 0.000 + Max. 1.000

A.文法解説 1.000

F.筆写 0.178

H.小テスト 0.044

C.活動 0.497

G.観察 0.193

B.ビデオ 0.602

D.映画 0.179

E.音読 0.694

P. G. Av. D. Min. 0.000 + Max. 1.000

A.文法解説 1.000

F.筆写 0.177

H.小テスト 0.044

C.活動 0.492

G.観察 0.193

B.ビデオ 0.590

D.映画 0.179

E.音読 0.680

Page 278: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

277

異なる言語特徴を選択しても、しばしば同じ結果になります。

クラスター分析:スペイン語圏の語彙バリエーション

■大規模データのクラスター集中分析

次は、カタルニア語の動詞形態の地理分布を列(動詞形態)と行(地点)

でクラスター分析し、それぞれを集中化した結果です。大きな分布の塊の

他に、一定の語形と地点で収集した部分(赤い線で囲みました)が観察さ

れます。その部分についての語形の特徴を探ると、地理的な基準ではなく

言語的な基準から地域を確定することができます。また、逆に、そのよう

に確定された地域の言語特徴を抽出することができます。

Page 279: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

278

*プログラムは奥村 (1986:170-180)を参照しました。

6.8. 多重条件分析

言語現象に限らず、自然や社会の現象を記述するデータには単一の条件

ではなく複数の条件が組み合わさって一定の結果に関係していることがあ

ります。ここでは、たとえば、ある言語形式の使用が、歴史、地理、社会、

文体、…の変数によって変化する場合の分析法を考えます。

6.8.1. 多重条件リスト

多重条件分析 (Multiple condition analysis)とよぶ方法によって、たとえば上

の表の条件 c1, c2, c3, c4 と結果の E の間の関係について分析し、単一の条

件や多重に結合する条件の影響度を計測します。

Page 280: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

279

M c1 c2 c3 c4 E

d1 A C F I X

d2 A D F J X

d3 A D G K Y

d4 B D H L Z

d5 B E H M Z

はじめに条件 (c)と結果 (E)の該当するセルにタイトル列のデータに出力

します。

MA.c1 X Y Z

c2 X Y Z c3 X Y Z c4 X Y Z

A d1 d3

C d1 F d1 I d1

A d2

D d2 d3 d4 F d2 J d2

B d4

E d5 G d3 K d3

B d5

H d4 L d4

H d5 M d5

ここで A が条件で X が結果であるとすると、A→X という関係を示して

いるデータが d1, d2 であることがわかります。このことは上のような単一

条件でも、また下のような二重条件でも同様です。さらに三重条件、四重

条件まで条件の組み合わせを増やすことができます。

MA.c1+c2 X Y Z

MA.c1+c3 X Y Z

MA.c1+c4 X Y Z

A + C d1

A + F d1

A + I d1

A + D d2 d3

A + F d2

A + J d2

B + D d4

A + G d3

A + K d3

B + E d5

B + H d4

B + L d4

B + H d5

B + M d5

(…)

MA.c1+c2+c3+c4 X Y Z

A + C + F + I d1

A + D + F + J d2

A + D + G + K d3

B + D + H + L d4

B + E + H + M d5

6.8.2. 多重条件頻度

次にそれぞれの条件と結果の組み合わせに該当するデータの頻度を計算

します。

Page 281: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

280

(1) 単一条件頻度

MA.f.c1 X Y Z

c2 X Y Z

c3 X Y Z

c4 X Y Z

A 2 1

C 1

F 2

I 1

B 2

D 1 1 1

G 1

J 1

E 1

H 2

K 1

L

1

M 1

出力の X, Y, Z 列は結果列 (E)の各成分の絶対頻度です。

(2) 二重条件頻度

すべての条件の中から 2 つの組合せについて頻度を計算します。

MA.f.c1+c2 X Y Z

MA.f.c1+c3 X Y Z

MA.f.c1+c4 X Y Z

A + C 1

A + F 2

A + I 1

A + D 1 1

A + G 1

A + J 1

B + D

1

B + H 2

A + K 1

B + E 1

B + L

1

B + M 1

さらに、 c2+c3, c2+c4, C3+c4 も同様にして計算します。

(3) 三重条件頻度

すべての条件の中から 3 つの組合せについて頻度を計算します。

MA.f.c1+c2+c3 X Y Z

MA.f.c1+c2+c4 X Y Z

A + C + F 1

A + C + I 1

A + D + F 1

A + D + J 1

A + D + G 1

A + D + K 1

B + D + H

1

B + D + L

1

B + E + H 1

B + E + M 1

MA.f.c1+c3+c4 X Y Z

MA.f.c2+c3+c4 X Y Z

A + F + I 1

C + F + I 1

A + F + J 1

D + F + J 1

A + G + K 1

D + G + K 1

B + H + L

1

D + H + L

1

B + H + M 1

E + H + M 1

さらに四重条件も同様にして計算します。これらはすべて絶対頻度を示

Page 282: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

281

すので、各種の得点計算をして相対化した値も考慮すべきです。

MA.f.c1+c2+c3+c4 X Y Z

A + C + F + I 1

A + D + F + J 1

A + D + G + K 1

B + D + H + L

1

B + E + H + M 1

6.8.3. 多重条件係数

多重の条件と結果との関連度を調べるために次のような多重条件係数

(Coefficient of multiple condition: CMC) を考えます。

(1) 単一条件係数

次のような単一条件での条件係数 CMC は先述の卓立化 Jaccard 係数を使

います。CMC(1)の (1)は条件が 1 つであることを示します。

条件 (c) 結果 (e) ウェイト (w) 頻度 (f) 区分

+1 (有 ) +1 (有 ) w1:(+1)(+1) = +1 f 1 a

+1 (有 ) −1 (無 ) w2:(+1)(−1) = −1 f 2 b

−1 (無 ) +1 (有 ) w3:(−1)(+1) = −1 f 3 c

−1 (無 ) −1 (無 ) w4:(−1)(−1) = +1 f 4 d

たとえば、次の A:X の場合の多重条件係数を計算します。

MA.f.c1 X Y Z

MA.t.c1 X Y Z

A 2 1

A .857 .600

B 2

B 1.000

区分 :a は条件 (+):結果 (+)の場合で、A:X=2 になります。区分 b は条件 (+):

結果 (−)の場合で、A:Y+A:Z=1 です。区分 c は条件 (−):結果 (+)の場合ですが

データにはありません。区分 d は条件 (−):結果 (−)の場合で、上の表の B:Z=2

がそれにあたります。しかし、Jaccard 係数 (J)は a / (a + b + c)という式を使

うので、 d は考慮しません。

J = 2 / (2 + 1 + 0) = 2 / 3 ≒ .666

条件係数 (CMC)は、 (N:行数;P:列数 ; abs:絶対値 )

CMC = w1*f1*(N+P–2) / [w1*f1*(N+P–2)+abs(w2)*f2 + abs(w3)*f3]

Page 283: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

282

次の A:X の単一条件の CMC(1 )を次の分布表に適用すると、

MA.f.c1 X Y Z MA.t.c1 X Y Z

A f1: 2 (a) f2: 1 (b) A .857 .600

B f4: 2 (d) B 1.000

CMC(1)

= 1*2*(2+3- 2) / [1*2*(2+3- 2)+1*1+0]

= 6 / 7 ≒ .857

A:Y の単一条件係数 CMC(1 )は、

MA.f.c1 X Y Z MA.t.c1 X Y Z

A f2: 2 (b) f1: 1 (a) A .857 .600

B f4: 2 (d) B 1.000

CMC(1)

= 1*1*(2+3–2) / [1*(2+3–2)*2+1*2+0] = 3 / 5 = .600

(2) 二重条件係数

二重条件ではウェイトを拡大して加算します。ウェイト (w)は条件の和と

結果を積算します。区分は条件の和の正負と結果の正負で決まります。条

件がゼロの場合は区分がありません。

条件 (c1) 条件 (c2) 結果 (e) ウェイト (w) 頻度 (f) 区分

+1 +1 +1 w1:(+1+1)(+1) = +2 f 1 a

+1 +1 −1 w2:(+1+1)(−1) = −2 f 2 b

+1 −1 +1 w3:(+1−1)(+1) = 0 f 3 -

+1 −1 −1 w4:(+1−1)(−1) = 0 f 4 -

−1 +1 +1 w5:(−1+1)(+1) = 0 f 5 -

−1 +1 −1 w6:(−1+1)(−1) = 0 f 6 -

−1 −1 +1 w7:(−1−1)(+1) = −2 f 7 c

−1 −1 −1 w8:(−1−1)(−1) = +2 f 8 d

上のウェイトはそれぞれ +2, −2 になっていて、これは +1, −1 としても

CMC の計算に変わりありません。しかし、三重条件、さらに多重条件では

異なる数値になるので、一般化するために、二重条件でもこのままにして

おきます。

MA.f.c1+c2 X Y Z

MA.t.c1+c2 X Y Z

A + C 1

A + C 1.000

A + D 1 1

A + D .833 .833

B + D

1

B + D

1.000

B + E 1

B + E 1.000

Page 284: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

283

たとえば上の [A+C]:X の二重条件係数 CCM(2 )は(ウェイト w は絶対値と

します)、

MA.f.c1+c2 X Y Z

MA.t.c1+c2 X Y Z

A + C f1:1 (a)

A + C 1.000

A + D f3: 1 (-) f4: 1 (-)

A + D .833 .833

B + D

f8: 1 (d)

B + D

1.000

B + E f8: 1 (d)

B + E 1.000

CCM(2)

= w1*f1*(N+P–2) / [w1*f1*(N+P–2)+w2*f2+w7*f7]

= 2*1*(4+3- 2) / [2*(4+3- 2) + 2*0 + 2*0]

= 10 / 10 = 1.000

ここで条件 [A+D]の行は、条件 [A+C]との比較において、c1=+1, c2=−1 に

なるので加算すると 0 になり、 a, b, c, d のどの区分にも入りません。

次に上の [A+D]:X の二重条件係数 .833 は次のように計算します。

MA.f.c1+c2 X Y Z

MA.t.c1+c2 X Y Z

A + C f3:1 (-)

A + C 1.000

A + D f1: 1 (a) f2: 1 (b)

A + D .833 .833

B + D

f8: 1 (d)

B + D

1.000

B + E f8: 1 (d)

B + E 1.000

CCM(2)

= w1*f1*(N+P–2) / [w1*f1*(N+P–2)+abs(w2)*f2+abs(w7)*f7]

= 2*1*(4+3- 2) / [2*1*(4+3- 2) + 2*1 + 0]

= 10 / 12 = .833

ここでも条件 [A+C]は c1=+1, c2=−1 になるので加算すると 0 になり、a, b,

c, d のどの区分にも入りません。

(3) 三重条件係数

次は三重条件ですが、条件の数が増えるだけで、計算方法は同じです。

Page 285: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

284

c1 c2 c3 結果 (e) ウェイト (w) 頻度 (f) 区分

+1 +1 +1 +1 w1:(+1+1+1)(+1) = +3 f 1 a

+1 +1 +1 −1 w2:(+1+1+1)(−1) = −3 f 2 b

+1 +1 −1 +1 w3:(+1+1−1)(+1) = +1 f 3 a

+1 +1 −1 −1 w4:(+1+1−1)(−1) = −1 f 4 b

+1 −1 +1 +1 w5:(+1−1+1)(+1) = +1 f 5 a

+1 −1 +1 −1 w6:(+1−1+1)(−1) = −1 f 6 b

+1 −1 −1 +1 w7:(+1−1−1)(+1) = −1 f 7 c

+1 −1 −1 −1 w8:(+1−1−1)(−1) = +1 f 8 d

−1 +1 +1 +1 w9:(−1+1+1)(+1) = +1 f 9 a

−1 +1 +1 −1 w10:(−1+1+1)(−1) = +1 f 10 b

−1 +1 −1 +1 w11:(−1+1−1)(+1) = −1 f 11 c

−1 +1 −1 −1 w12:(−1+1−1)(−1) = +1 f 12 d

−1 −1 +1 +1 w13:(−1−1+1)(+1) = −1 f 13 c

−1 −1 +1 −1 w14:(−1−1+1)(−1) = +1 f 14 d

−1 −1 −1 +1 w15:(−1−1−1)(+1) = −3 f 15 c

−1 −1 −1 −1 w16:(−1−1−1)(−1) = +3 f 16 d

三重条件ではそれぞれウェイトが異なりますが、これまでと同じように

条件 (c1, c2, c3)の和の正負と結果 (e)の正負の組み合わせから区分 a, b, c, d

を決めます。

MA.f.c1+c2+c3 X Y Z

MA.t. X Y Z

A + C + F 1

A + C + F 1.000

A + D + F 1

A + D + F .960

A + D + G

1

A + D + G .947

B + D + H

1

B + D + H

1.000

B + E + H

1

B + E + H 1.000

たとえば上の [A+C+F]:X の多重条件係数 CMC は(ウェイト w は絶対値

とします)、

MA.f.c1+c2+c3 X Y Z

MA.t. X Y Z

A + C + F f1: 1 (a)

A + C + F 1.000

A + D + F f5: 1 (a)

A + D + F .960

A + D + G f8: 1 (d)

A + D + G .947

B + D + H

f16: 1 (d)

B + D + H

1.000

B + E + H f16: 1 (d)

B + E + H 1.000

CMC = (w1*f1+w3*f3+w5*f5+w9*f9)*(N+P–2)

/ (w1*f1+w3*f3+w5*f5+w9*f9)*(N+P–2)

Page 286: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

285

+ (w2*f2+w4*f4+w6f6+w10*)

+ (w7*f7+w11*f11+w13*f13+w15+f15)]

= (3*1+1*1)*(5+3-2)

/ (3*1+1*1)*(5+3- 2)

+ 0

+ 0

= 24 / 24 = 1

[A+D+F]:X の多重条件係数 CMC は、

MA.f.c1+c2+c3 X Y Z

MA.t. X Y Z

A + C + F f1: 1 (a)

A + C + F 1.000

A + D + F f5: 1 (a)

A + D + F .960

A + D + G f4: 1 (b)

A + D + G .947

B + D + H

f16: 1 (d)

B + D + H

1.000

B + E + H f16: 1 (d)

B + E + H 1.000

CMC = (w1*f1+w3*f3+w5*f5+w9*f9)*(N+P–2)

/ (w1*f1+w3*f3+w5*f5+w9*f9)*(N+P–2)

+ (w2*f2+w4*f4+w6f6+w10*)

+ (w7*f7+w11*f11+w13*f13+w15+f15)]

= (3*1+1*1)*(5+3-2)

/ (3*1+1*1)*(5+3- 2)

+ 1*1

+ 0

= 24 / (24 + 1) = .960

ここでは [A+D+G]の条件が、[A+D+F]と [+, +, −]のように 2 回一致するの

で、 f4、区分 [b]になり、分母をわずかに増やしています。

プログラムでは四重条件まで計算して出力します。入力行列の列数が 5

以上の場合もすべての可能な四重条件までを計算すれば、実際上不都合が

ほとんでないからです。このことは多変量分析で固有値・固有ベクトルを

算出するときと同様です。逆に五重条件などを出力してもほとんど分析が

不可能になります。

●多重条件分析による相対化の実験

言語資料は次のような分布を示すことがおおいのですが、しばしば、デ

ータを数量化したとき、それが正しく相対化されているかどうか、問題に

なることがあります。

Page 287: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

286

ID 1.Rasgo Entorno 2.A25 3.Tipo Letra

2 /y/ #V_V a0925 1.V i

3 /y/ #V_V a0925 1.V i

4 /y/ #V_V a0950 1.V i

4 /i/ #V_V a0950 1.V i

5 /y/ #V_V a0975 1.V i

5 /y/ #V_V a0975 1.V i

5 /y/ #V_V a0975 1.V i

9 /y/ #V_V a1225 4.Gc y

9 /y/ #V_V a1225 4.Gc y

次のような簡略化したデータを使って相対化の実験をします。M1 には 5

データあります。

M1 c1 c2 c3 c4 E

d1 A C F I X

d2 A D F J X

d3 A D G K Y

d4 B D H L Z

d5 B E H M Z

次の M2 には M1 の d5 をさらに 5 回繰り返して追加してあります。

M2 c1 c2 c3 c4 E

d1 A C F I X

d2 A D F J X

d3 A D G K Y

d4 B D H L Z

d5 B E H M Z

d6 B E H M Z

d7 B E H M Z

d8 B E H M Z

d9 B E H M Z

d10 B E H M Z

M2 のように母数が多くなると、当然頻度が多くなり、このことを考慮

しない絶対頻度による分析の不備が指摘されます。このことは次の M1.f

と M2.f.のそれぞれの絶対頻度 (f)を比べると明らかです。M2.f の B:Z=7 は

データ行列に該当する多くのデータ (d6, ... , d10)が含まれているためです。

Page 288: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

287

M1.f X Y Z

M1.c X Y Z

A 2 1

A .857 .600

B 2

B 1.000

M2.f X Y Z

M2.c X Y Z

A 2 1

A .857 .600

B 7

B 1.000

ところが、それぞれの右の表の条件係数 (c)については、M1.c と M2.c で

は変化がありません。B:Z の値はどちらも 1.000 を示しますが、これは条

件 B と競合する行が他にないためです。このような分布を「排他分布」

(Exclusive distribution)とよびます。排他分布は、分布行列全体で示される

こともあれば、一定の個別の分布だけで示されることもあります。上の例

では、A:X, A:Y, B:Z はどれも排他分布を示しています。

上の例のように分布が排他的であれば、入力データの偏りは、条件係数

に影響しません。このことは先の Jaccard 係数の式 a / (a + b + c)を見れば明

らかです。この式の b, c の数値が排他分布を示す B:Z で 0 になるからです。

また、A:X, A:Y にも影響しないのは、M1 と M2 の差分 d6-10 に A:X, A:Y

が含まれないためです。

次の条件 c2 の場合は様子が少し異なります。

MA1.f. X Y Z

MA1.c. X Y Z

C 1

C .800

D 1 1 1

D .571 .667 .571

E 1

E .800

MA2..f. X Y Z

MA2.c. X Y Z

C 1

C .800

D 1 1 1

D .571 .667 .333

E 6

E .960

上の E:Z を見ると、絶対頻度 (f)の増加によって、条件係数 (c)の値も上昇

しています。これは、E:Z が排他分布ではなく、D:Z と競合しているので

(「競合分布」 (Competitive distribution)とよびます)、その影響を受けるか

らです。このように、条件係数は絶対頻度のように自己だけの値で評価す

るのではなく、自己と他者との関係を評価します。しかし、自己の数値(絶

対頻度)が非常に大きくなっても (1→ 6)、極端な上昇を示しません (.800

→ .960)。

このように条件係数は、データが排他分布を示すときは、絶対頻度の変

化に影響されず、また、データが競合分布を示すときでも絶対頻度のよう

な極端な変化を示さないので、データの分布の解釈がより正確になります。

Page 289: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

288

一方、絶対頻度は収集されたデータの状態をそのまま示しますので、相対

化すると見失われてしまう実態を見るために役立ちます。分析には両者を

考慮を入れるべきです。

■スペイン語の硬口蓋有声摩擦音と文字<j>

次は 10-13 世紀のスペイン北部で記された文献中の <i>, <j>, <y>の文字

について多重条件分析(二重条件)をした結果の抜粋です。下左表が絶対

頻度、下右表が多重条件係数です。どちらも <j>の列で降順に並べ替えてあ

ります。

MA.f.Fonema+a25 <i> <j> <y>

MA.t.Fonema+a25 <i> <j> <y>

/i/ + 1200 1465 451 1

/i/ + 1200 .988 .922 .020

/i/ + 1175 805 122 2

/i/ + 1225 .955 .896 .547

/i/ + 1225 333 111 18

/i/ + 1175 .984 .834 .070

/ly/ + 1200 201 56

/ly/ + 1200 .695 .784

/ʒ/ + 1250 21 52

/i/ + 1150 .967 .741 .061

/i/ + 1150 386 42 1

/ʒ/ + 1250 .142 .710

/ʒ/ + 1225 4 37

/i/ + 1275 .831 .684 .853

/ly/ + 1225 15 26

/ʒ/ + 1225 .031 .667

/i/ + 1250 233 21 70

/ʒ/ + 1200 .122 .659

/ʒ/ + 1275 1 21

/i/ + 1250 .941 .640 .890

/ly/ + 1175 116 20

/ly/ + 1225 .117 .585

/ʒ/ + 1200 13 20

/ʒ/ + 1275 .008 .498

/i/ + 1275 70 18 33

/ly/ + 1175 .530 .483

この表を見ると、たとえば fijo, ojo, concejo などのように、 <i>ではなく

<j>が音素 /ʒ/を表示するのは 13 世紀から多くなったことがわかります。多重連

関係数を使うと絶対頻度だけでわかりにくい場合に相対的な判断ができるよう

になります。

Page 290: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

289

7. 予測

ここでは説明変数と目的変数の関係を求め、その関係を使って未知の目

的変数を予測します。

7.1. 重回帰分析

重回帰分析 (Multiple regression)とよばれる方法によって、次のような複

数の説明変数 (x1, x2 , …)と 1 個の目的変数 (y: Yn)をもつデータから、未知の

目的変数を予想する重回帰式を求めます。各説明変数に重み(負荷、ウェ

イト)Wp を掛けて重回帰式を作りますが、実際の結果 Yn と重回帰式で求

めた予測値ベクトル En の差が小さければ小さいほどその式が高く評価さ

れます。そこで、実測値ベクトル Yn と予測値ベクトル En の平方和が最小

になるようにします。

たとえば、次のような成績表で、小テスト 3 回 (x1, x2, x3)と、最終成績

(POINT)の関係を見ます。

X x1 x2 x3 y

d1 6 8 5 12

d2 7 10 6 11

d3 8 4 8 13

d4 9 7 2 7

d5 10 9 4 14

ここで、POINT に該当する予測値 En を、切片 W(0)と、各変数 (X)に重み

としての係数 (Wp)を掛けたものを加算して作った式から求めます。[i = 1, 2,

…, n]

[1] E(i) = W(0) + W(1) X(i, 1) + W(2) X(i, 2) + ... + W( p) X(i, p)

この式の第 1 項 W(0)は回帰式の切片 (intercept)を示します。この切片を

すべての個体 (1, 2, … , n)に共通に加えます。したがって、この列には単位

ベクトル Ip を左積します。

E(i) = Ip W(0) + X(i, 1) W(1) + X(i, 2) W(2) + ... + X(i, p) W(p) [i = 1…n]

行列で示すと

En = Xn p Wp [Xn p の第 1 列は単位ベクトル ]

この式で求められた値と実測値 Yn の間の残差のベクトルを Rn とします。

Page 291: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

290

[2] Rn = Yn – En = Yn – Xnp Wp

この残差 Rn の平方和 S を求めます。

S = RnT Rn = (Yn – Xn p Wp)

T (Yn – Xn p Wp) ←上式 [2]

= [YnT – (Xnp Wp)

T] (Yn – Xn p Wp) ←転置行列の性質 (T)

= YnT Yn – Yn

T Xn p Wp – (Xnp Wp)

T Yn + (Xn p Wp)

T Xn p Wp ←展開

= YnT Yn – Yn

T Xn p Wp – Yn

T (Xn p Wp) + Wp

T Xnp

T Xnp Wp ←T

= YnT Yn – 2 Yn

T Xnp Wp + Wp

T Xnp

T Xnp Wp 2, 3 項を整理

この式中の Wp は未知数です。重回帰分析の目的は、この残差平方和 S

を最小化することです。そのために、S を変数のベクトル Wp で微分し(→

後述)、その値がゼロベクトル (OpT)になるときの Wp を求めることです(多

変数空間中の変数が形成する「曲面」の最小値の位置座標をイメージして

ください)。

ここで、S = YnT Yn – 2 Yn

T Xnp Wp + Wp

T Xnp

T Xn p Wp の第 1 項 Yn

T Yn には

Wp がないので、Wp で微分するとゼロになります。第 2 項の–2 YnT Xn p Wp

と第 3 項の WpT Xn p

T Xn p Wp の微分については後述します。第 3 項の中の

Xn pT Xn p は対称行列です。

𝜕 𝑆

𝜕 𝑊𝑝 = – 2 Xn p

T Yn + 2 Xn p

T Xn p Wp = Op

T

2 XnpT Xnp Wp = Op

T+2 Xn pT

Yn ← 2 XnpT

Yn を移項

Xn pT Xn p Wp = Xn p

T Yn ←Op

T はゼロベクトル

(Xn pT Xnp)

-1 (Xn p

T Xn p) Wp = (Xn p

T Xn p)

-1 Xn p

T Yn ←(注 67)

Ip p Wp = (XnpT Xnp)

-1 Xn p

T Yn ←A A

-1 = Ip p

Wp = (XnpT Xnp)

-1 Xnp

T Yn ← Ip p A = A

このようにして求めたベクトル Wp が下に示す「係数」 (Value)の列です。

Mr.w. x1 x2 x3 Interc. R.m.:Prp

Org. .740 .462 1.157 -3.819 1.410

Std. .433 .394 .957 .000 .591

予測値 (En) は前述の式 [1]で求めます。残差ベクトル (Residual: Res: Rn)

は、次の式で求めます。

Rn = Yn – En

なお、上表の R.m.(1.410)は残差の絶対値の平均を示します (Residual

67

Wp を求めるためには左辺を Wp にします。そのために Wp の係数を単位

行列 Ip p にする必要があるので両辺に (XnpT Xnp)

-1 を左積します。

Page 292: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

291

mean)。

Res.Ratio = Sm(AbsM(Rn)) / N

また、Prp (.591)は寄与率 (Proportion)と呼ばれる数値で、重回帰式によっ

て得られた分散 (情報 )が全体の分散 (情報 )に占める割合を示します 68。

Prp. = Σ [En - Am(Yn)]^2 / Σ [Yn - Am(Yn)]^2

そして、上表の Std は説明変数行列と目的変数を標準化して行列につい

て重回帰分析した結果を示しています。説明変数と目的変数をそれぞれ標

準化すると(→「標準得点」)、それらの平均が 0 となり、その回帰直線

は座標の原点 (0, 0)を通るので、回帰式の切片がなくなります(→「相関係

数」)。また、変数をその標準偏差で割っているので、次表のように、説

明変数のバラツキをなくした標準化された「重み」が計算されます。変数

の重みを比較するためには、この重みのほうが適しています。

このようにして求めた回帰式を先の [1]

En = Xn p Wp

によって次の導出変数 (Derived)を計算します。データの目的変数 (y)と回帰

式による導出変数 (y^)を比較してください。そのとき残差 (Res)が参考にな

ります。

X x1 x2 x3 y y^ Res.

d1 6.000 8.000 5.000 12.000 10.104 -1.896

d2 7.000 10.000 6.000 11.000 12.926 1.926

d3 8.000 4.000 8.000 13.000 13.207 .207

d4 9.000 7.000 2.000 7.000 8.392 1.392

d5 10.000 9.000 4.000 14.000 12.371 -1.629

次に、先にもとめた係数ベクトル Wp を、目的変数が未知のデータ Dnp

に右積して、次の予測変数 Zn を求めます。

Zn = Dnp Wp

ここで、求めた係数からなる重回帰式 [1]を使って、目的変数 (POINT)が

未知のデータで、その目的変数を予測してみましょう。次のデータ X.e の

e1 は先の d1 と同じです。よって、同じ係数を掛けた予測変数 (Expected)は

当然先の d1:Derived と同じになります (10.104)。e2, e3 は変数の値が異なり

ます。よって、それに応じて予測変数が変化しています。

68

Prp の分子も分母も分散であり同じ個数 (N)で割りますから、N の割り算

を省きます。

Page 293: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

292

X.e x1 x2 x3 Exp.

e1 6.000 8.000 5.000 10.104

e2 6.000 8.000 2.000 6.633

e3 5.000 5.000 4.000 6.821

e4 7.000 5.000 4.000 8.301

e5 8.000 5.000 9.000 14.826

●多重共線性

次は、それぞれの説明変数と目的変数を合わせた相関行列です。これを

見ると、 x3 と POINT の相関が他と比べて高いことがわかります 69。

C.Cor x1 x2 x3 POINT

x1 1.0000 -.0687 -.4243 .0000

x2 -.0687 1.0000 -.3885 -.0080

x3 -.4243 -.3885 1.0000 .6207

POINT .0000 -.0080 .6207 1.0000

重回帰分析をするとき、このような変数間の相関係数を見る必要がある

のは、説明変数と目的変数の相関が変数のポジティブな評価に役立つだけ

でなく、説明変数どうしの相関がネガティブに問題を引き起こすためです。

係数間に強い相関があるときは、そのことが影響して異常な係数を生み出

します。

このことは重回帰式が説明変数に重みを掛けた積の和になっていること

から理解できます。たとえば説明変数 X(i, 1)と X(i, 2)の間に .98 などの強

い相関があるとすると、回帰式の総和(積和)としての目的変数は一定な

ので、この 2 つの変数の値は競合して分け合うことになります。一方が強

く働けば、他方を弱くしなければなりません。符号がプラスからマイナス

に変わってしまうこともあります。もし、経験や直感から判断して、係数

の符号(プラス・マイナス)が逆転していたり 70、変数の係数がその変数

の重要度を反映していないようなことなどが起きていれば、係数間の相関

が高い可能性が高いのです。これは多重共線性 (multicollinearity)とよばれ

る問題です。極端な場合は変数間の相関係数が 1 のときです。これでは、2

つの変数に固有の情報がなく 1 つの情報だけで十分になります。そして、

重回帰式の中で使われる逆行列の計算(→後述)が不可能になります。相

関係数が高い場合も情報が少ないので、同様の問題が起きます。そのとき

69

それぞれのセルの右項は確率を示します。このデータでは、データ数が

少ないので、どの相関係数もあまり確率は高くありません。 70

回帰式の係数 Wp の符号(プラス・マイナス)が、説明変数と目的変数

の符号が異なっているときは、多重共線性の問題があります。この例では、

回帰式の係数の符号はすべてプラスですが、x2:POINT の相関がマイナス値

(-.008)になっています。

Page 294: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

293

は、重要な変数だけを残し、回帰式を単純化して、残りの重要な変数に注

目する、という手段がとられます。

回帰式に多くの係数を入れると、それだけあてはまりがよくなりますが、

それは与えられたデータについてのあてはまりにすぎません。予測の一般

性を高めるためには、実験を繰り返して適切な変数を選択し、なるべく少

ない変数で予測式を求めるべきです。そうすれば目的変数を説明する変数

が何なのかを的確に、そして「きれいに」示すことができるからです。ま

た、複数の相関が高い変数群の中から 1 つを選ぶことによって変数のグル

ーピング(→「分類」)ができるので、変数間の関係の理解につながりま

す。せっかく集めた変数の分布データを捨てるのが惜しい、ということで

したら、相関する変数の「どちらにも当てはまるケース」の頻度を計算し、

これを新たな変数として使う、ということも考えられます。または、相関

する変数の「どちらかに当てはまるケース」を数えて、比べてみるとよい

でしょう。さらに後述する「主成分重回帰分析」を使えば、変数の情報を

すべてつかった重回帰分析ができます。

●逆行列

(1) 逆行列の定義

正方行列 (Xpp)について

Xp p Ypp = Ip p (単位行列 ) → Ypp = Xp p-1

となる正方行列 (Yp p)は、Xp p の「逆行列」 (Inverse matrix: X p p-1

)とよばれま

す。逆行列が関係する次の演算は統計の計算によく使われます。

(a) Xp p Xpp-1

= Ip p

Xpp 1 2 × Xp p-1

1 2 = I 1 2

1 7 8

1 -5 4

1 1 0

2 9 10

2 4.5 -3.5

2 0 1

(b) Xpp-1

Xp p = Ip p

Xp p-1

1 2 × Xpp 1 2 = Ipp 1 2

1 -5.0 4.0

1 7 8

1 1 0

2 4.5 -3.5

2 9 10

2 0 1

Page 295: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

294

(2) 逆行列の性質

(a) (Xp p-1

)-1

= Xp p

Xpp 1 2 → Xp p-1 1 2 → (Xp p

-1) -1 1 2

1 7 8

1 -5.0 4.0

1 7 8

2 9 10

2 4.5 -3.5

2 9 10

(b) (Xp p Yp p)-1

= Yp p-1

Xpp-1

Xpp 1 2 × Ypp 1 2 = XppYpp 1 2 → (Xp pYp p)-1

1 2

1 1 3

1 7 8

1 34 11

1 0.154 -0.085

2 2 4

2 9 1

2 50 20

2 -0.385 0.262

Yp p-1

1 2 × Xp p-1

1 2 = Yp p-1

Xp p-1

1 2

1 -2.00 1.500

1 -0.015 0.123

1 0.154 -0.085

2 1.00 -0.500

2 0.136 -0.108

2 -0.385 0.262

(c) (Xp pT)

-1 = (Xp p

-1)

T

Xpp 1 2 → XppT 1 2 → (Xpp

T)

-1 1 2

1 7 8

1 7 9

1 -5.0 4.5

2 9 10

2 8 10

2 4.0 -3.5

Xpp 1 2 → Xpp-1

1 2 → (Xpp-1

)T 1 2

1 7 8

1 -5.0 4.0

1 -5.0 4.5

2 9 10

2 4.5 -3.5

2 4.0 -3.5

(3) 逆行列の求め方

与えられた行列 (Xp p)と、初期値が単位行列である行列 (Zp p=Ip p)を同時に

変形していきます。Xpp が単位行列 (Ip p)になるように、Xp p と Zpp に左から

変形行列 Tpp を繰り返して掛けていきます。そのために

(a) 2 つの行を交換する Tpp

(b) 実数倍した 1 つの行全体に、実数倍した他の行を加算する Tpp

という 2 つの変換を使います。これらの変換を可能にする変形行列 Tpp を

次々に左積すると、Zp p が App の逆行列になることを次の演算で確認しまし

ょう (「Gauss の消去法」Gauss reduction)。

0. X(0 )

, Z(0 )

= I ←X, Z の初期状態 (0 )

1. X(1 )

= T(1 )

X(0 )

, Z(1 )

= T(1)

I ←X(0 )と Z

(0 )=I に T

(1 )を左積

Page 296: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

295

2. X(2 )

= T(2 )

T(1 )

X(0)

, Z(2)

= T(2 )

T(1 )

I ←さらに T(2)を左積

(…) ←さらに T(3)

, …,T(k)を順次左積

3. I = T(k )

… T(2)

T(1 )

X(0 )

←X(0 )に T を順次左積し I に至る

4. Z(k)

= T(k )

… T(2 )

T(1 )

I ←Z(0 )

=I に T を順次左積し Z(k)を得る

5. I X(0 ) -1

= T(k )

… T(2 )

T(1)

X(0 )

X(0) -1

←3 の両辺に X(0 ) -1 を右積

6. X(0 ) -1

= T(k )

… T(2 )

T(1)

I ← 5. I A = A; A A-1

=I

7. Z(k)

= X(0 ) -1 ← 4.右辺= 6.右辺、よって Z

(k)は X(0 )の逆行列になる

たとえば次の行列 X(0 )の逆行列を求めることを考えましょう。以下の演

算のために、作業用の行列 T(1 )

と出力用の単位行列 Z(1 )

= I を用意します。

目的は T(1)

, T(2 )

, …, T(k)の左積を繰り返して、X

(k )を単位行列にすることで

す。

X(0) 1 2 3 Z(0) 1 2 3

1 0 2 1 1 1 0 0

2 2 1 2 2 0 1 0

3 2 1 1 3 0 0 1

はじめに、X(1, 1)を 1 にするために次の演算をします。

R1 ← R1 / X(1, 1)

これは X の第一行 R1 を X(1, 1)で割って新たな R1 にする、ということ

です。ここでは、X(1, 1)が 0 なので割り算ができません。そのときは、第

一列 C1 が 0 でない行と交換します。その結果 X(1 )となります。

R1 ← R2, R2 ← R1

X(1 )

1 2 3 Z(1 )

1 2 3

1 2 1 2 2 0 1 0

2 0 2 1 1 1 0 0

3 2 1 1 3 0 0 1

こうして新たな X(1, 1)← 2 で先の除算をします。

R1 ← R1 / X(1, 1) ← R1 / 2

X(2 )

1 2 3 Z(2 )

1 2 3

1 2/2=1 1/2 2/2=1 1 0/2=0 1/2 0/2=0

2 0 2 1 2 1 0 0

3 2 1 1 3 0 0 1

次に R2 と R3 を R1 を使って、それぞれの C1 の値を 0 にします。ここ

では R2 の X(2, 1)が 0 なので R3 だけを次のようにして変えます。

Page 297: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

296

R3 ← R3 – X(3, 1) R1 ← R3 – 2 R1

X(3 )

1 2 3 Z(3 )

1 2 3

1 1 1/2 1 1 0 1/2 0

2 0 2 1 2 1 0 0

3 2-2*1=0 1-2*(1/2)=0 1-2*1=-1 3 0-2*0=0 0-2*1/2=-1 1-2*0=1

これで C1 は完成です。次に同様なことを C2 で行います。

X(4 )

1 2 3 Z(4 )

1 2 3

1 1 1/2 1 1 0 1/2 0

2 0 2 1 2 1 0 0

3 0 0 -1 3 0 -1 1

今度は X(2,2)=2 は 0 でないので、そのまま R2 を 2 で割ります。

R2 ← R2 / X(2, 2) ← R2 / 2

X(5 )

1 2 3 Z(5 )

1 2 3

1 1 1/2 1 1 0 1/2 0

2 0/2=0 2/2=1 1/2 2 1/2 0/2 0/2

3 0 0 -1 3 0 -1 1

そして R1 と R2 の C2 を次の演算で 0 にします。

R1 ← R1 – X(1, 2) R2 ← R1 – 1/2 R2

R3 ← R3 – X(3, 2) R2 ← R3 – 0 R2

X(6 )

1 2 3 Z(6 )

1 2 3

1 1-(1/2)*0

=1

1/2-(1/2)*1

=0

1-(1/2)*(1/2

)=3/4

1 0-(1/2)*(1/2)

=1/4

1/2-(1/2)*0

=1/2

0-(1/2)*0

=0

2 0 1 1/2 2 1/2 0 0

3 0-0*0=0 0-0*1=0 -1-0*(1/2)=-1 3 0-0*(1/2)=0 -1-0*0=-1 1-0*0=1

これで C2 は完成です。次に同様なことを C3 で行います。

X(7 )

1 2 3 Z(7 )

1 2 3

1 1 0 3/4 1 1/4 1/2 0

2 0 1 1/2 2 1/2 0 0

3 0 0 -1 3 0 -1 1

R3 ← R3 / X(3, 3) ← R3 / -1

X(8 )

1 2 3 Z(8 )

1 2 3

Page 298: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

297

1 1 0 3/4 1 1/4 1/2 0

2 0 1 1/2 2 1/2 0 0

3 0/-1=0 0/-1=0 -1/-1=1 3 0/-1=0 -1/-1=1 1/-1=-1

R1 ← R1 – X(1, 3) R3 ← R1 – 3/4 R3

R2 ← R1 – X(2, 3) R3 ← R1 – 1/2 R3

X(9 )

1 2 3 Z(9 )

1 2 3

1 1-(3/4)x0

=1

0-(3/4)x0

=0

3/4-(3/4)x1

=0

1 1/4-(3/4)x0

=-1/4

1/2-(3/4)x1

=-1/4

0-(3/4)- 1

=3/4

2 0-(1/2)x0

=0

1-(1/2)x0

=1

1/2-(1/2)x1

=0

2 1/2-(1/2)x9

=1/2

0-(1/2)x1

=-1/2

0-(1/2)x-1

=1/2

3 0 0 1 3 0 1 -1

これらの演算の結果、次のように X は単位行列になり、Z に X の逆行列

が得られました。

X(k )

1 2 3 Z(k )

1 2 3

1 1 0 0 1 -1/4 -1/4 3/4

2 0 1 0 2 1/2 -1/2 1/2

3 0 0 1 3 0 1 -1

プログラムで実行すると確かに X の逆行列 X-1 が得られ、X と X

-1 の行

列積を計算すると単位行列が得られます。

X 1 2 3

X-1

1 2 3

X X-1

1 2 3

1 0 2 1

1 -.250 -.250 .750

1 1 0 0

2 2 1 2

2 .500 -.500 .500

2 0 1 0

3 2 1 1

3 .000 1.000 -1.000

3 0 0 1

*長谷川 (2000:129-136)を参照しました。プログラムは縄田 (1999:58-80)を参

照しました。

(4) 逆行列演算の証明

次の演算はしばしば使われます。しっかりと理解しておくために証明を

しておきましょう。

[1] I-1

= I

I I-1

= I ←逆行列の定義 : X X-1

= I, ここで X = I]

I-1

= I ← I X = X, X=I

Page 299: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

298

[2] (A-1

)-1

= A

A-1

(A-1

)-1

= I ←逆行列の定義 : A A-1

= I

A A-1

(A-1

)-1

= A I ←両辺に A を左積

I (A-1

)-1

= A I ←逆行列の定義 : A A-1

= I

(A-1

)-1

= A ←X I = X; I X = X

[3] (A B)-1

= B-1

A-1

(A B) (A B)

-1 = I ←X X

-1 = I, X = A B

(A B) (A B)

-1 = A A

-1 ←A A

-1 = I

(A B) (A B)

-1 = A I A

-1 ←A = A I

(A B) (A B)

-1 = A B B

-1 A

-1 ← I = B B

-1

(A B)

-1 = B

-1 A

-1 ←両辺から A B を削除

[4] A A-1

= A-1

A

A A-1

= I ←逆行列の定義 : A A-1

= I

(A-1

A) (A A-1

) = (A-1

A) I ←両辺に A-1

A を左積

A-1

A A A-1

= A-1

A ←X I = X, X = A-1

A

I A A-1

= A-1

A ←A-1

A = I

A A-1

= A-1

A ← I A = A

* [2], [3]は足立 (2005:110-111)を参照しました。

プログラム 71

Function Iv(ByVal Xpp) '逆行列 (Gauss-Jordan 法 . ver. 2013/06/28-2015/1/22)

Dim TT$, P&, i&, j&, Tpp, Zpp, E: P = NC(Xpp): E = -15 'P=行数=列数

TT$ = Xpp(0, 0): Zpp = Um(P) 'X 対象の行列:Zpp 単位行列

For i = 1 To P '1 列から P 列まで

If Abs(Xpp(i, i)) < 10 ^ E Then '対角成分が 0 ならば行交換

For j = i + 1 To P 'i+1 行から P 行まで

If i < P And Abs(Xpp(j, i)) > 10 ^ E Then '非対角成分が 0

Tpp = Um(P): Tpp(i, i) = 0 : Tpp(j, j) = 0: Tpp(i, j) = 1: Tpp(j, i) = 1

'変形行列

Xpp = X(Tpp, Xpp): Zpp = X(Tpp, Zpp) 'i 行と j 行を交換

Exit For 'For j を脱出

End If

Next j

71

Tpp(i, i) = 1 / Xpp(i, i)を、最終プロセスではなく各行のプロセスに置く

ことによって数値のオーバーフローを回避する方法は堀川遼太さんからい

ただいたアイデアです (2013)。

Page 300: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

299

End If

If Xpp(i, i) = 0 Then '対角成分=0

MsgBox Ln(29): Exit Function 'Msg「逆行列は存在しません。」

End If

For j = 1 To P '1 行から P 行まで、非対角成分 =0, 対角成分=1

If i <> j And Abs(Xpp(j, i)) > 10 ^ E Then

Tpp = Um(P): Tpp(i, i) = 1 / Xpp(i, i) '変形行列 (Horikawa 2013)

Xpp = X(Tpp, Xpp): Zpp = X(Tpp, Zpp) 'X(i, i) = 1

Tpp = Um(P): Tpp(j, i) = -1 * Xpp(j, i) '変形行列

Xpp = X(Tpp, Xpp): Zpp = X(Tpp, Zpp) 'Rj=Rj -X(j,i)*Ri→X(j,i) = 0

End If

Next j

Next i

Zpp(0, 0) = TT$ & "^": Iv = Zpp '返し値

End Functio

●変形行列

単位行列の一部を変更した行変形用行列を作成し、これをある行列に左

積すると、一定の行変形ができます。ここではそのような行列を「変形行

列」 (Transformation matrix)とよぶことにします。これらを逆行列の計算に

使います。

(a) R1 ← 0

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 0 0 0

1 1 2 3

1 0 0 0

2 0 1 0

2 4 5 6

2 4 5 6

3 0 0 1

3 7 8 9

3 7 8 9

(b) R1 ← R2

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 0 1 0

1 1 2 3

1 4 5 6

2 0 1 0

2 4 5 6

2 4 5 6

3 0 0 1

3 7 8 9

3 7 8 9

(c) R1 ~ R2 (交換 )

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 0 1 0

1 1 2 3

1 4 5 6

2 1 0 0

2 4 5 6

2 1 2 3

3 0 0 1

3 7 8 9

3 7 8 9

Page 301: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

300

(d) R1 ← 3 R1 (倍数 )

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 3 0 0

1 1 2 3

1 3 6 9

2 0 1 0

2 4 5 6

2 4 5 6

3 0 0 1

3 7 8 9

3 7 8 9

(e) R2 ← R2 + R1

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 1 0 0

1 1 2 3

1 1 2 3

2 1 1 0

2 4 5 6

2 5 7 9

3 0 0 1

3 7 8 9

3 7 8 9

(f) R2 ← R2 + 2 R1

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 1 0 0

1 1 2 3

1 1 2 3

2 2 1 0

2 4 5 6

2 6 9 12

3 0 0 1

3 7 8 9

3 7 8 9

(g) R2 ← 3 R2 + 2 R1

Tpp 1 2 3 × App 1 2 3 = Rpp 1 2 3

1 1 0 0

1 1 2 3

1 1 2 3

2 2 3 0

2 4 5 6

2 14 19 24

3 0 0 1

3 7 8 9

3 7 8 9

最後の演算を見ると、変形行列の対角成分で自分の行を積算し、非対角

成分でその列番にあたる行を積算していることがわかります。行のゼロ化

[1]や行の移動 [2][3]も同様です。

*芝 (1975: 197-199)を参照しました。

●行列の微分

多変量分析ではしばしば行列をベクトルで微分します。行列の積の成分

を展開すればベクトルで微分した結果が行列とベクトルの積になることが

わかります。

[1] はじめに、次のような行列 Tp p の Wp による微分について見ましょう。

Tp p = YnT Xn p Wp = [y1 , y2, . . ., yn] [

𝑥11 𝑥12 … 𝑥1𝑝

𝑥21 𝑥22 … 𝑥2𝑝

… … … …𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑝

] [

𝑤1

𝑤2

…𝑤𝑝

]

Page 302: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

301

を,「ベクトル Wp = [

𝑤1

𝑤2

…𝑤𝑝

] で微分する」ということの意味を理解するた

めに Tpp を展開します。

Tp p = [y1 x11 + y2 x21 + ... + yn xn 1 ,

y1 x1 2 + y2 x2 2 + ... + yn xn 2 ,

. . . ,

y1 x1 n + y2 x2 n + ... + yn xn p ] [

𝑤1

𝑤2

…𝑤𝑝

]

= (y1 x1 1 + y2 x2 1 + ... + yn xn 1) * w1

+ (y1 x1 2 + y2 x2 2 + ... + yn xn 2) w2

+ ...

+ (y1 x1 n + y2 x2 n + ... + yn xn p ) * wp

偏微分の記号 𝜕𝑆

𝜕𝑎 を Df(S, w)で示すと(「S を w で微分する」という意味)

Df(Tp p , w1) = y1 x11 + y2 x21 + . . . + yn xn 1 (上式の 1 行目 )

Df(Tp p , w2) = y1 x12 + y2 x22 + . . . + yn xn 2 (上式の 2 行目 )

. . .

Df(Tp p , wp)= y1 x1 p + y2 x2 p + .. . + yn xn p (上式の p 行目 )

これらをまとめて示すと次のようになります。

Df(Tp p , Wp)= Df(YnT Xn p Wp , Wp) = Xnp

T Yn [←縦ベクトル ]

高等学校で既習の次の微分と比べてみてください。

Df(yxw, w) = yx

[2] 次は微分する項 (Wp)が 2 乗されている場合です。たとえば

Tp p = WpT Xp p Wp = [w1 , w2 , .. . , wp] [

𝑥11 𝑥12 … 𝑥1𝑝

𝑥12 𝑥22 … 𝑥2𝑝

… … … …𝑥1𝑝 𝑥2𝑝 … 𝑥𝑝𝑝

] [

𝑤1

𝑤2

…𝑤𝑝

]

を、ベクトル Wp =[

𝑤1

𝑤2

…𝑤𝑝

]で微分します。ここでは Xp p を対称行列とします。

Tp p = [w1 x11 + w1 x12 + ... + w1 x1 p,

Page 303: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

302

w1 x21 + w2 x22 + ... + w2 x2 p,

. . . ,

w1 xn1 + w2 xn2 w2 + ... + wp xn p ] [

𝑤1

𝑤2

…𝑤𝑝

]

= w1 x11 w1 + w1 x1 2 w2 + ... + w1 x1 p wp

+ w2 x12 w1 + w2 x2 2 w2 + ... + w2 x2 p wp

+ ...

+ wp x1p w1 + wp x2 p w2 + ... + wpxpp wp

= x11 w12 + w1 x12 w2 + ... + w1 x1p wp

+ w2 x12 w1 + x2 2 w22 + ... + w2 x2p wp

+ ...

+ wp x1p w1 + wp x2 p w2 + ... + xp p wp2

この式で w1 を含む成分は 1 行と 1 列の成分です。よって

Df(Tp p , w1) = 2w1 x11 + 2(w2 x1 2 + . . . + wp x1 p) = 2(w1 x1 1 + w2 x1 2 + . .. + wp x1p)

同様に、w2 を含む成分は 2 行と 2 列の成分です。よって

Df(Tp p , w2) = 2w2 x1 2 + 2(w2 x22 + . . . + 2wp x2 p) = 2(w2 x12 + w2 x2 2 + . .. + wp x2p)

. . .

同様にして

Df(Tp p , wp) = 2wp x1p + 2(d2 x2 p + . . . + wp xpp) = 2(wp x1 p + 2 x2p + . . . + wp xp p)

以上をまとめて示すと次のようになります。

Df(Tp p , Wp) = Diff. (WpT Xpp Wp, Wp) = 2 Xp p Wp

次の微分と比べてみてください。

Df(wxw, w) = 2xw

●数量化 I 類

次のように、説明変数が数量ではなく質的なデータ (v)を扱うとき、これ

を 0-1 に変換して、同様に重回帰分析をすることができます。この方法は

数量化 I 類 (Quantification method of first type )とよばれます。

Page 304: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

303

X v1 v2 v3 POINT

X POINT Expected Residual

d1 v 12

d1 12.000 12.000 .000

d2 v v v 11

d2 11.000 11.000 .000

d3 v

v 13

d3 13.000 13.000 .000

d4 v v

7

d4 7.000 10.500 -3.500

d5 v v 14

d5 14.000 10.500 3.500

Weight P: Intercept v1 v2 v3 Std res.

Value 14.000 -1.500 -2.000 .500 2.214

この方法を使用するにあたって注意しなければならないのは、次のよう

なケースです。

X v1 v2 v3 POINT

X v1 v2 v3 POINT

d1 v v 12

d1 v 12

d2 v v v 11

d2 v v

11

d3 v

v 13

d3 v

v 13

d4 v v

7

d4 v v

7

d5 v v 14

d5 v v 14

上左表では v1 がすべて選択されていますので、この v1 には弁別する情

報がありません。また、右表では v2 と v3.が相補分布 (complementary

distribution)をしています。この場合は、どちらかを選択すれば他方が決ま

っているので、どちらか 1 つにしか弁別する情報がないことになります。

このような行列ではすべて逆行列が存在せず分析ができないので、データ

から該当する行を取捨選択しなければなりません。

■文字頻度の変遷と年代

下左表は 13~19 世紀の文字母数を揃えたスペイン語文献の特定の文字の

頻度と 文献の成立年代 (Y)を示します。下右表は重回帰分析の結果です。

<*>は文字が略されている箇所の頻度を示します。

Obra <*> ñ è á τ y y^ Residual

Cid 836

144 1207 1396 -189

Fazienda 902

157 1220 1382 -162

Alcalá 921

444 1230 1249 -19

GE 1,349

301 1270 1266 4

Alexandre 877

78 1300 1421 -121

Lucanor 1,877

227 1330 1241 89

Troyana 1,105

399 1350 1249 101

Page 305: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

304

LBA 1,366

146 1389 1335 54

Alba 464 156

543 1433 1485 -52

Especulo 1,024 52

215 1450 1419 31

Gramática 577 51

4 192 1492 1482 10

Celestina 573 41

131 1499 1491 8

Sumario 329 70

322 1514 1474 40

Diálogo 561

1535 1492 43

Lazarillo 297 33

142 1554 1505 49

Casada 139 40

1583 1598 -15

Quijote 165 57 3

2 1605 1621 -16

Buscón 93 47 7

1 1626 1617 9

Criticón 147 45 20

1651 1616 35

Instante 4 21 94 2

1677 1641 36

Austria 7 60 39

1704 1665 39

Autoridades

27 3 196

1726 1780 -54

Picarillo 4 123 108

1747 1798 -51

Delincuente

42

229

1787 1831 -44

Ortografía

35

93

1815 1694 121

Diablo

55

223

1841 1845 -4

Sombrero

89

222

1874 1894 -20

Perfecta 63 184 1899 1820 79

次は切片と変数の係数を示します。

Intercept <*> ñ è á τ Std res.

1554.853 - .112 1.475 .572 .936 - .457 70.948

略字<*>と接続詞の τ の係数がマイナスなので、年代の推移と逆相関し

ていることがわかります。一方、スペイン語特有文字のエニェ ñ や、アク

セント符号がついた母音文字は年代の推移と相関しています。しかし、標

準残差が 70 なので、これらの文字の出現による予測はかなり困難です。

■スペイン語の ñ のバリアント

先に名義尺度の数量化をしたデータ(Y:文書の発行年代・P:文書の発行

地・T:文書の類別 ; N:ñ のバリアント(目的変数):→得点)で重回帰分析

をすると、プログラムは次の結果(下左表)を出力しました。

M.Coef. Value

Correl. Y P T N

Y .255

Y 1.000 .548 .435 .553

P .442

P .548 1.000 .356 .434

T -.116

T .435 .356 1.000 .241

Page 306: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

305

Intercept 578.629

N .553 .434 .241 1.000

Res.Ratio .031

上左表を見ると発行年代 (Y)の係数 (.255)が発行地 (P)の係数 (.442)より低

くなっています。一方、相関係数(上右表)を見ると、発行年代 (Y)が目的

変数と一番大きく相関していますから (.553)、先の係数は納得できません。

これは、発行年代 (Y)のと発行地 (P)の相関が高いため (.548)、多重共線性の

問題が起きたためだと考えられます。そこで、主成分重回帰分析を実行し

ました。その結果が次の表です。

PCAe #1 #2 #3 PCA.Coef. Value

E.value 1.898 .662 .440 #1 25.977

#2 -15.125

PCAv #1 #2 #3 #3 -16.200

Y .614 -.213 -.760 Intercept 1374.154

P .585 -.523 .620 Res.Ratio .031

T .530 .825 .196

固有値 (E.value)を見ると第 1 主成分 (#1)の働きがとくに強いことがわか

ります (1.898)。それに対応する固有ベクトルを見ると、発行年代 (Y)、発行

地 (P)、文書類別 (T)という重要性の順を示しています。次の表は、それぞ

れの主成分と目的変数 (N)の相関係数を示します。

Correl. #1 #2 #3 N

#1 1.000 .000 .000 .523

#2 .000 1.000 .000 -.180

#3 .000 .000 1.000 -.157

N .523 -.180 -.157 1.000

これは、第 1 主成分 (#1)と N が強く相関し、他の主成分は N とほとんど

相関していないことを示しています。あらためて、発行年代 (Y)、発行地 (P)、

文書類別 (T)が、それぞれ、 .614, .585, .530 の割合で構成されている総合的

な第 1 主成分 (#1)の重要性が認められます。この割合は、先に見た重回帰

分析による係数値と大きく異なります。また、N の実測値と、回帰式で予

想される N 値の間の残差率 (Res.Ratio)が少ないことにも注目すべきです

(.031)。

7.2. ロジット重回帰分析

次の表は変数 X と、それに対応する確率(または何らかの比率 :P)を示

します。たとえば、1 週間の学習時間 (X)と英語のテストの正解率のような

ものを考えます。確率や比率の範囲は [0, 1]です。

Page 307: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

306

L X P Linear Logit

d1 0 0.04 -0.035 .032

d2 2 0.07 0.143 .093

d3 4 0.24 0.321 .242

d4 6 0.50 0.499 .499

d5 8 0.77 0.677 .757

d6 10 0.90 0.855 .907

d7 12 0.97 1.033 .968

上の Linear は単回帰分析による導出変数です。これをグラフにすると、

次図の直線のようになります。ここで、近似があまりよくないことと、X=0

で P がマイナスになり、X=12 で P が 1 を超えていることがわかりますが、

これは率の範囲が [0, 1]であるので現実的ではありません。一方、上表の

Logit はかなりよく P に近似しています。また、グラフを見ても [0, 1]の範

囲を超えることはありません。

次の表と図は確率 P、その関数であるロジット (Logit: L)、そしてロジッ

トから確率 P を導く逆関数 InvLogit を示します。ロジット (L)は

L = Ln [P / (1 − P)]

つまり、ロジット (L)は、あることが起こる確率 P とそれが起こらない確

率 1 − P の比率(P / (1 − P): オッズ Odds とよばれます)の自然対数 (Ln)

を示します。

P Logit P'

0.05 -2.944 0.05

0.10 -2.197 0.10

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

0 2 4 6 8

10

12

Linear

Logit

Page 308: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

307

0.15 -1.735 0.15

0.20 -1.386 0.20

0.25 -1.099 0.25

0.30 -.847 0.30

0.35 -.619 0.35

0.40 -.405 0.40

0.45 -.201 0.45

0.50 .000 0.50

0.55 .201 0.55

0.60 .405 0.60

0.65 .619 0.65

0.70 .847 0.70

0.75 1.099 0.75

0.80 1.386 0.80

0.85 1.735 0.85

0.90 2.197 0.90

0.95 2.944 0.95

下図は横軸が確率 P であり、それに応じてロジットがどのように変化す

るかを縦軸で示しています。P の範囲は [0, 1]ですが、ロジットは範囲が自

由で P=0 のときに-∞、P=1 のときに+∞になります。

次の図では横軸がロジット、縦軸が確率です。

-4.000

-3.000

-2.000

-1.000

.000

1.000

2.000

3.000

4.000

0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00

Logit

Page 309: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

308

上の確率 P はロジット (L)から次のようにして導出します (e: 自然対数の

底 )。

Ln [P / (1 - P)] = L

P / (1 - P) = e L

P = (1 - P) e L

= e L - P e

L

P + P e L

= e L

(1 + e L) P = e

L

よって

P = e L

/ (1 + e L)

= 1 / [1 / (e L + 1)] ←分子を分母に移動

= 1 / (e -L

+ 1) ←分母を整理

= 1 / (1 + e -L

) ←分母を整理

次の表は確率 P をロジットに変換して重回帰分析をし、その導出変数を

確率に戻して出力した結果です。この方法をロジット重回帰分析 (Logit

Multiple Regression: L.Regres)とよびます。

L.Regres. P Derived Res.

L.Coef. Value

d1 .040 .032 .008

X .569

d2 .070 .093 -.023

Intercept .033

d3 .240 .242 -.002

Res.Ratio .016

d4 .500 .499 .001

d5 .770 .757 .013

d6 .900 .907 -.007

d7 .970 .968 .002

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

-4.000 -3.000 -2.000 -1.000 .000 1.000 2.000 3.000 4.000

P'

Page 310: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

309

説明変数が複数の場合は次のモデルで回帰分析をします。

L = Ln [P / (1-P)] = W(0) + W(1) X(i, 1) + W(2) X(i, 2) + ... + W(p) X(i, p)

= Xn p Wp

上式で求めた Ln [P / (1-P)]から確率 (P)を導くためには先の式を使います。

P = 1 / (1 + e -L

)

7.3. 正規回帰分析

先の図(ロジットを横軸に、確率を縦軸にしたグラフ)は累積正規確率

分布とよく似ています(→「確率」)。次の表と図が示すように、その中

心の座標は、ロジットに対応する確率 (P)でも、正規分布 (NormDist)でも同

じですが (0.5)、傾きが少し違っています 72。

Logit P' NormDist

-2.9444 .0500 0.0502

-2.1972 .1000 0.0721

-1.7346 .1500 0.1006

-1.3863 .2000 0.1367

-1.0986 .2500 0.1807

-.8473 .3000 0.2326

-.6190 .3500 0.2919

-.4055 .4000 0.3575

-.2007 .4500 0.4276

.0000 .5000 0.5000

.2007 .5500 0.5724

.4055 .6000 0.6425

.6190 .6500 0.7081

.8473 .7000 0.7674

1.0986 .7500 0.8193

1.3863 .8000 0.8633

1.7346 .8500 0.8994

2.1972 .9000 0.9279

2.9444 .9500 0.9498

72

NormDist 関数の引数である平均を 0.5 とし、 標準偏差を Logit の範囲で

求めました。

Page 311: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

310

ロジット回帰分析の回帰式の目的変数はロジットに対応する確率 (P)を

使いますが、その確率分布ではデータ(目的変数)の平均と分散(または

標準偏差)が考慮されていません。どのようなデータの目的変数でも、す

べて同じようにロジットに対応する確率分布をあてはめて一般化していま

す。

ここで、重回帰式の目的変数(確率)がこの変数の平均と分散によって

求められる正規累積分布にしたがう、と見なし、正規累積分布の逆関数

NormInv で変換した数値を使って重さベクトルを算出する方法を正規回帰

分 析 (Normal Regression: N.Regres) と 名 づ け て 提 案 し ま す 。 導 出 変 数

(Derived)の計算では、もとの目的変数の平均 (m)と分散 (v)を使った正規累

積分布関数 NormDist(x, m, sqr(v), 1)を適用します。

次の表が先のロジスティック回帰分析と同じデータを使った、正規回帰

分析 (N.Regres)の結果です。残差 (Res)と残差比 (Res.Ratio)がさらに小さくな

りました。

L X P

N.Regres. P Derived Res.

N.Coef. Value

d1 2 .017

1 .017 .016 .000

X .002

d2 4 .023

2 .023 .024 -.001

Intercept -.005

d3 6 .037

3 .037 .035 .001

Res.Ratio .015

d4 8 .050

4 .050 .050 .000

d5 10 .070

5 .070 .070 .000

正規回帰分析は目的変数が直線式でなく、むしろ正規分布(の一部分)

のような分布をしているときに有効です。そこで、次のように複数の説明

変数 (X1, X2)があるときはその相関係数行列を計算して、P と相関が高い変

数 (X1)を使って P の散布図を描きます。

.0000

.1000

.2000

.3000

.4000

.5000

.6000

.7000

.8000

.9000

1.0000

-4.0000 -3.0000 -2.0000 -1.0000 .0000 1.0000 2.0000 3.0000 4.0000

P'

NormDist

Page 312: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

311

L X1 X2 P

C.Cor X1 X2 P

d1 2 6 .017

X1 1.0000 -.2582 .9853

d2 4 5 .023

X2 -.2582 1.0000 -.1272

d3 6 5 .037

P .9853 -.1272 1.0000

d4 8 3 .050

d5 10 6 .070

上の図を見ると分布は直線になっていないことがわかります。そこで、

直線式による重回帰係数は適切でないことになります。次の 2 つの表によ

って重回帰分析と正規回帰分析の結果を比較すると(残差と残差比)、正

規回帰分析のほうがこのデータに適していることが確認できます。

L X1 X2 P

M.Regres. P Derived Res.

M.Coef. Value

d1 2 6 .017

d1 .0167 .0141 .0026

X1 .0069

d2 4 5 .023

d2 .0233 .0255 -.0022

X2 .0024

d3 6 5 .037

d3 .0367 .0393 -.0027

Intercept -.0140

d4 8 3 .050

d4 .0500 .0484 .0016

Res.Ratio .0494

d5 10 6 .070

d5 .0700 .0693 .0007

L X1 X2 P

N.Regres. P Derived Res.

N.Coef. Value

d1 2 6 .017

d1 .0167 .0164 .0002

X1 .0016

d2 4 5 .023

d2 .0233 .0244 -.0010

X2 .0001

d3 6 5 .037

d3 .0367 .0355 .0012

Intercept -.0050

d4 8 3 .050

d4 .0500 .0499 .0001

Res.Ratio .0155

d5 10 6 .070

d5 .0700 .0705 -.0005

7.4. 主成分重回帰分析

次のデータ (D)は、英語 (E)、ラテン語 (L)、数学 (M)の成績と、年間に読

. 0 0 0

. 0 1 0

. 0 2 0

. 0 3 0

. 0 4 0

. 0 5 0

. 0 6 0

. 0 7 0

. 0 8 0

0 2 4 6 8 10 12

P

Page 313: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

312

んだ小説の冊数 (NH)を示す架空のデータ例です。はじめに、重回帰分析を

した結果 (Mr)を見ましょう。

D E L M N

Mr. E L M N N^ Res.

d1 58 34 90 3

d1 58.000 34.000 90.000 3.000 2.541 -.459

d2 50 53 100 5

d2 50.000 53.000 100.000 5.000 4.030 -.970

d3 45 48 66 6

d3 45.000 48.000 66.000 6.000 5.890 -.110

d4 58 51 78 7

d4 58.000 51.000 78.000 7.000 8.703 1.703

d5 43 44 32 9

d5 43.000 44.000 32.000 9.000 8.856 -.144

d6 56 59 54 13

d6 56.000 59.000 54.000 13.000 13.523 .523

d7 77 72 20 28

d7 77.000 72.000 20.000 28.000 27.457 -.543

Mr.w. E L M Interc. R.m.:Prp

Org. .279 .267 -.135 -10.591 .636

Std. .373 .375 -.469 .000 .989

上右表 (Mr)の N^は重回帰式を適用した予測変数で、Res は目的変数と導

出変数の残差 (Residual)を示します。その下の表 (Mr.w)は、元の行列 (Org.)

の重みとなる負荷ベクトルと、元の行列を標準化した行列 (Std)の負荷ベク

トルです。どちらを適用しても同じ結果になりますが、同じ尺度で E, L, M

の負荷を比較するときには、Std のほうが適しています。また、Std では切

片 (Interc.)がゼロになるので、負荷だけを考慮すればよいことになります。

次に、説明変数 (E, L, M)と目的変数 (N)の相関を見ましょう。

Correl. E L M N

E 1.000 .643 -.335 .771

L .643 1.000 -.545 .871

M -.335 -.545 1.000 -.799

N .771 .871 -.799 1.000

上の相関行列を見ると、 L:N の相関 (.871)がとくに高く、それに続いて

E:L の相関 (.771)が高くなっています。しかし、E:L に相関があるので (.643)

があるので、たとえば、E:N の相関に E:L の相関が影響していると考えら

れます。つまり、E:N の相関は、純粋に E と N の関係を示しているのでは

なく、そこには L も影響しているはずです。理想的には変数間の相関がゼ

ロになっていれば、純粋に変数の負荷を比較できるのですが、どのような

変数であっても、それらの変数の間の相関がゼロになることは、ふつうは

ありえません。

そこで、主成分得点の相関がゼロになるという特徴を利用すれば(→主

成分分析)、相関のない変数(主成分)が示す純粋な重みを知ることがで

きるはずです。はじめに、E, L, M の列だけを用いて主成分分析 (PCA)をし

Page 314: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

313

ます。下右表 (Pc.Mr.)は標準化した主成分得点、主成分得点を使って行った

重回帰分析の結果です 73。

PcMr #1 #2 #3 N N^ Res.

d1 -.461 .263 -.342 3.000 2.541 -.459

d2 -.305 .255 .278 5.000 4.030 -.970

d3 -.274 -.181 .108 6.000 5.890 -.110

d4 -.059 .196 .002 7.000 8.703 1.703

d5 -.170 -.556 -.090 9.000 8.856 -.144

d6 .212 -.050 .123 13.000 13.523 .523

d7 1.057 .073 -.080 28.000 27.457 -.543

このように、導出変数 (N^)と残差 (Res)は、先の重回帰分析と同じです。

しかし、標準化行列 (Std)の第 1 主成分 (#1)の負荷がとくに大きな数値 (.990)

を示していることに注目します。

PcMr.w. #1 #2 #3 Intercept R.m.:Prp

Org. 16.414 -2.418 -1.753 10.143 .636

Std. .990 -.084 -.041 .000 .989

そして、次の相関行列 (Correl.)で、主成分間の相関がゼロになることを

確認した後で、各主成分と目的変数 (N)の相関が、上の標準化行列の負荷ベ

クトルと同じになっていることに注目しましょう。このことは主成分間の

相関がないことから、それらが理想的な軸(直角)になることを示してい

ます。

Correl. #1 #2 #3 N

#1 1.000 .000 .000 .990

#2 .000 1.000 .000 -.084

#3 .000 .000 1.000 -.041

N .990 -.084 -.041 1.000

次は、各主成分変数の固有値 (PcMr.e)と固有ベクトル (PcMr.v)を示します。

このように第 1 主成分と第 1 主成分で 90%近く (.899)の累積寄与率を示し

ているので、もとのデータの分布は 2 次元で近似できることになります。

PcMr.e #1 #2 #3

PcMr.v #1 #2 #3

E.value 2.026 .672 .303

E .569 .616 -.545

Ratio .675 .224 .101

L .635 .093 .767

Ac.ratio .675 .899 1.000

M -.523 .782 .338

73

後で、個体と変数の関係を同一の尺度を使って観察するために、主成分

得点を(ゼロでない)正値の固有値の数 (3)で割って平均化してあります。

Page 315: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

314

主成分重回帰分析では、先に見た各主成分の負荷(重み:重要度)と、

その主成分の構成(固有ベクトル)です。このデータでは言語:数学の軸

を示す第 1 主成分が目的変数 (N)と .990 という高い相関係数を示し、そして

その相関係数がそのまま標準重回帰式の負荷になります。第 2 主成分と第

3 主成分の負荷量は少ないのですが、第 2 主成分の固有値は全体の 22.4%

を占めているので無視できません。

7.5. 名義主成分重回帰分析

言語研究では数値行列を扱うばかりでなく、次の下左表 (N)のような文字

(名義)行列を扱うことも多いので 74、文字行列の重回帰分析法を考えます。

N x1 x2 y

D1 A B C D E X Y Z

d1 A C X

d1 1 0 1 0 0 1 0 0

d2 A D X

d2 1 0 0 1 0 1 0 0

d3 A D Y

d3 1 0 0 1 0 0 1 0

d4 A E X

d4 1 0 0 0 1 1 0 0

d5 B C X

d5 0 1 1 0 0 1 0 0

d6 B D Y

d6 0 1 0 1 0 0 1 0

d7 B E Z

d7 0 1 0 0 1 0 0 1

はじめに、この文字行列 (N)を上右表 (D1)のような 2 値の数値行列に変換

します。たとえば、A があるセルは A 列に 1 を代入し、そればなければ 0

とします。このような変数は「ダミー変数」とよばれています。

たとえ 0 と 1 しかない行列でも、それらが数値であることに変わりはな

いので重回帰分析が可能です。しかし、これまでの重回帰分析とは異なり、

目的変数がダミー変数のバリエーションの数だけ存在することになります。

上の例では目的変数 (y)には、X, Y, Z のバリエーションがあるので、ダミ

ー変数の列は 3 列になります。

そこで、これまでの重回帰分析の方法に従えば、複数の説明変数+単数

の目的変数のケースを、それぞれの行で 3 回行って、その 3 つの導出変数

の中から 1 に最も近い数値(実際には最大値)のあるケースに該当する目

的変数(文字)を割り当てます。このときの重回帰分析の方法として、主

成分重回帰分析を使います。この方法を名義主成分重回帰分析 (Nominal

Principal Component Multiple Regression:N.Pc.Mr)とよびます。

プログラムははじめに次を出力します。

74

たとえば、x1 が性別 (m, f)、 x2 が地域コード(都市名)、 y が検索され

た文字列などのデータです。また、年代の数値であっても適切な間隔で区

分して名義化することにより、それぞれの年代の特徴が明らかになります。

Page 316: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

315

N.Pc.Mr. #1 #2 #3 y y^ Ac:.857 X Y Z

d1 -.188 .514 -.522 X X Ok 1.250 -.100 -.150

d2 -.589 -.237 .000 X Y Ng .500 .600 -.100

d3 -.589 -.237 .000 Y Y Ok .500 .600 -.100

d4 -.188 .514 .522 X X Ok .750 -.100 .350

d5 .652 .066 -.522 X X Ok .750 .100 .150

d6 .251 -.686 .000 Y Y Ok .000 .800 .200

d7 .652 .066 .522 Z Z Ok .250 .100 .650

ダミー変数行列の説明変数は 5 列ありますが、A と B は互いに排除しあ

う関係にあるので、どちらかの値がわかれば、別の値は自動的に決まりま

す。C, D, E の場合は、そのうちの 2 つの値がわかれば、残りの値が決まり

ます。よって、それぞれの自由度は 1, 2 となるので、その和 (3)が固有値(=

主成分)の数になります。次の列 (y)が目的名義変数、次の y^が導出名義変

数です。多くの場合、重回帰式で求めた値は目的変数と一致しますが、完

全であることは稀で、ふつう残差が生じます。たとえば d2 は回帰式では Y

が求められましたが、データは X なので一致していません。Ac 行の Ok は

一致した場合を示し、Ng は一致しなかった場合を示します。Ac:857 は Ok

の数をデータ数 (N)で割った正答率 (Acuracy)です。X, Y, Z の列は、それぞ

れのケースで導出された数値です。たとえば、d1 では、X(1)を目的変数と

すると、 1.250 になり、これが最大値なので、導出名義値を X とします。

下左表が、それぞれの目的変数に対応する導出値を計算するために使われ

る負荷ベクトルです。下右表は、切片をなくし、全体の尺度を揃えるため

に、主成分得点と目的変数を標準化したときの負荷ベクトルを示します。

N.PcMr.w #1 #2 #3 Intercept

N.PcMr.s #1 #2 #3

X -.092 .306 -.189 .571

X -.185 .618 -.382

Y -.099 -.330 .000 .286

Y -.218 -.730 .000

Z .190 .024 .189 .143

Z .544 .067 .540

さて、先の不一致 (Ng)のケース (d2)を少し追跡してみましょう。実は、

d3 にも同じ説明変数 (A, D)があり、この場合の目的変数は Y ですから、こ

の回帰分析から導出された値 Y と一致します。つまり、データ全体から見

て、説明変数が A, D ならば目的変数は Y になる、ということが予想され

たわけです。このことは次の相関行列を見ると、たしかに A:X の相関 (.417)

よりも D:Y の相関 (.730)が高くなっているので納得できます。

Page 317: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

316

Correl. A B C D E X Y Z

A 1.000 -1.000 -.091 .167 -.091 .417 -.091 -.471

B -1.000 1.000 .091 -.167 .091 -.417 .091 .471

C -.091 .091 1.000 -.548 -.400 .548 -.400 -.258

D .167 -.167 -.548 1.000 -.548 -.417 .730 -.354

E -.091 .091 -.400 -.548 1.000 -.091 -.400 .645

X .417 -.417 .548 -.417 -.091 1.000 -.730 -.471

Y -.091 .091 -.400 .730 -.400 -.730 1.000 -.258

Z -.471 .471 -.258 -.354 .645 -.471 -.258 1.000

次表は、それぞれの主成分の固有値と寄与率、累積寄与率を示します。

#2 と#3 に大きな差がないので、 #3 までを考慮すべきでしょう。

N.PcMr.e #1 #2 #3

E.value 2.159 1.441 1.400

Ratio .432 .288 .280

Ac.ratio .432 .720 1.000

たとえば、 d5, d7, B, Z の集団について、 #1:#2 の図では見えない関係が

#1:#3 の図でわかるようになります。

A

B

C

D

E

X

Y

Z

d1

d2d3

d4

d5

d6

d7

-.8

-.6

-.4

-.2

.0

.2

.4

.6

-.7

-.5

-.3

-.1 .1 .3 .5 .7

Y: #

2

X: #1

Page 318: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

317

7.6. 群別分析

この節では、データ行列の右に 1 列にそれぞれのデータ行と連関する 1

つの実測値が示されている行列(データ行列+実測値)を入力行列として、

はじめにデータ行列と実測値の関係を分析します。続いて、実測値を持た

ないデータ行列について先の実測値に対応する予測値を求めます。データ

行列と実測値には二名義 (binominal)、多名義 (multinominal)、数値 (numerical)

の 3 種が考えられます。先の二名義の「判別分析」 (Discriminant analysis)

と区別して、ここで扱う多名義の分析を「群別分析」 (Group analysis)とよ

びます。

7.6.1. 共起回数による群別

下左表の行列には v1-v3 のデータ列と右端の名義群 (Group)があります。

D の行列の中から X のそれぞれの行 x1, x2 に近い行を探し、既知の D の群

にしたがってを未知の X を群別します。

簡単な方法は、データが一致する回数が多い個体を探し、その群を推定

群として未知のデータに与えることです。この方法を「共起回数による群

別」 (Grouping by cooccurrence)とよぶことにします。下右表 (Co.g)は既知群

(Grp)と、推定群 (Grp.i)を出力し、それが一致したときは評価列 (Eval.)に Ok

を出力します。この場合既知データの評価はかならず Ok になり、一致度

(値)は 1 になります。

A B

C

D

E

X

Y

Z

d1

d2

d3

d4

d5

d6

d7

-.8

-.6

-.4

-.2

.0

.2

.4

.6

.8

-.7

-.5

-.3

-.1 .1 .3 .5 .7

Y: #

3

X: #1

Page 319: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

318

D v1 v2 v3 Grp

Co.g v1 v2 v3 Grp Grp.i Eval. 値

d1 A D H a

d1 A D H a d1: a Ok 1.000

d2 A D I b

d2 A D I b d2: b Ok 1.000

d3 A F H b

d3 A F H b d3: b Ok 1.000

d4 A E H c

d4 A E H c d4: c Ok 1.000

d5 B F G c

d5 B F G c d5: c Ok 1.000

d6 B F I c

d6 B F I c d6: c Ok 1.000

次左表では群が未知のデータであり、右表の Grp.i がその推定群です。

x1 では d1 と D が 1 つ一致しているので、値は 1/3 ≒ .333 となります。

複数一致するときは最初に一致したデータの群を採用します。

X v1 v2 v3

Co.g v1 v2 v3 Grp.i 値

x1 B D J

x1 B D J d1: a .333

x2 B E H

x2 B E H d4: c .667

次に、個体ではなくて群全体の平均と比較する、という方法を考えます。

たとえば、X の x1 は D の d1 と v2:D を共起させているので、係数 1/3 とな

り、これが d1-d6 のそれぞれの係数と比較して最大となるので群別を d1 の

a とします。 v2:D は d2 とも共起しますが、 d2 は 2 成員の群なので、平均

は 1 / (2 * 3)になります。

D v1 v2 v3 Grp

Co.g v1 v2 v3 Grp Grp.i Eval. 値

d1 A D H a

d1 A D H a a Ok 1.000

d2 A D I b

d2 A D I b a No .667

d3 A F H b

d3 A F H b a No .667

d4 A E H c

d4 A E H c a No .667

d5 B F G c

d5 B F G c c Ok .556

d6 B F I c

d6 B F I c c Ok .556

X v1 v2 v3

Co.g v1 v2 v3 Grp.i 値

x1 B D J

x1 B D J a .333

x2 B E H

x2 B E H c .444

x2 と c 群全体の共起回数は、v1: B*2, v2:E, v3:H の 4 回です。c 群全体全

体が 9 個あるので係数は 4/9≒ .444 になります。これが他の群と比べたと

きの最大値です。

7.6.2. 距離による群別

次のような多名義の群別値 (a, b, c, …)が既知のデータ D から、ベクトル

Page 320: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

319

間の「距離」によって、X のような群別値が未知のデータを分析し、D の

中の個体 (d1, d2, …)または群 (a, b, c)に近い横ベクトルを探し、その群別値

を X に与えます。

D v1 v2 v3 Group

X v1 v2 v3

d1 5 2 7 a

x1 4 2 5

d2 3 3 2 b

x2 3 7 6

d3 2 2 b

d4 4 2 2 c

d5 2 4 3 c

d6 1 8 7 c

たとえば、d1 と x1 の距離 (Distance: Dist)を次のように定義します。この

ように算出される距離は「ユークリッド距離」とよばれます。

Dist(d1, x1) = {Σ i [Dnp(1, i) - Xnp(1, i)]2}

1 /2

d1 の成分は (5, 2, 7), x1 の成分は (4, 2, 5)なので、両者間の距離は次のよ

うに計算されます。

Dist(d1, x1) = [(5 - 4)2

+ (2 – 2)2 + (7 - 5)

2]

1 /2

= (12 + 0

2 + 2

2 )

1 /2 = 5

1 /2 ≒ .236

このような計算を d2, …, d6 でも行い、これら 6 つの距離の最小値が得ら

れたときの群別値 (a, b, c)を x1 の群とします。 x2 についても同様です。そ

の結果、以下のように x1 は d1 と一番近く、 x2 は d6 に一番近いという結

果になります。

Dt.g v1 v2 v3 Grp.i Val.

x1 4 2 5 d1:a 2.236

x2 3 7 6 d6:c 2.449

●群平均値などによる群別

次に D の個々の行ではなく、それぞれの群全体と比較します。そのとき

群の代表値としてここでは次のように平均値を使います。

D v1 v2 v3

a 5.000 2.000 7.000

b 2.500 1.500 2.000

c 2.333 4.667 4.000

上の 3 行と先の X の 2 行の間のそれぞれの距離を比較すると、結果は次

Page 321: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

320

のようになります。

Dt.g v1 v2 v3 Grp.i Val.

x1 4 2 5 a 2.236

x2 3 7 6 c 3.145

群の代表値として平均値のほかに、データの分散の状態によって中央値、

中間値、大数平均値を使うことも考えられます。次は大数平均値を使った

ときの結果です。

Dt.g v1 v2 v3 Grp.i Val.

x1 4.0 2.0 5.0 a 2.236

x2 3.0 7.0 6.0 c 3.446

●標準化距離による群別

次の v3 のように平均・標準偏差が大きく異なるデータを使うときには注

意が必要です。

D2 v1 v2 v3 Group

X2 v1 v2 v3

d1 5 2 56 a

x1 4 2 50

d2 3 3 33 b

x2 3 7 60

d3 2 21 b

d4 4 2 22 c

d5 2 4 45 c

d6 1 8 72 c

上の v3 のような変数が群別に過大に影響することを防ぐために、データ

D と X を合体したデータ Xn p を標準得点に変換します。

Xn p = [In p – MeC(In p)] / SdC(In p)

D2 v1 v2 v3

d1: a 1.633 -.588 .649

d2: b .000 -.196 -.693

d3: b -.816 -1.373 -1.393

d4: c .816 -.588 -1.335

d5: c -.816 .196 .007

d6: c -1.633 1.765 1.583

次が群別の結果 (群平均 )です。

Dt.g v1 v2 v3 Grp.i Val.

Page 322: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

321

x1 .816 -.588 .299 a .888

x2 .000 1.373 .883 c 1.330

●マハラノビス距離による群別

主成分得点を使って、各変数の標準偏差だけでなく変数間の相関もゼロ

になるように変換し、個体間のマハラノビス距離を計算して群別します。

以下がその結果です。

D2 v1 v2 v3

d1: a -.493 1.811 -.907

d2: b -.389 -.397 .750

d3: b -1.009 -1.636 -1.030

d4: c -1.095 -.031 1.681

d5: c .341 -.732 -.277

d6: c 2.010 -.485 -.454

Dt.g v1 v2 v3 Grp.i Val.

x1 -.399 .866 -.981 a .953

x2 1.036 .603 1.218 c 1.493

●既知データの再評価

次は、先のデータ (D2)を使って、既知データを標準化距離と群平均を使

って再分析した結果です。群は既知ですが、群の平均をとるため、一部推

測値が合わないケースが出ました。これは重回帰分析や判別分析と同様に、

既知データを分析して得られたパラメータを改めて、既知データにあては

めた結果です。

Dt.g v1 v2 v3 Disc. Grp.i Eval. Val.

Grp. Pos. Neg. AR.

d1 1.633 -.588 .649 a a Ok .000

Val. 5.000 1.000 .833

d2 .000 -.196 -.693 b b Ok .797

d3 -.816 -1.373 -1.393 b b Ok .797

d4 .816 -.588 -1.335 c b No 1.274

d5 -.816 .196 .007 c c Ok .385

d6 -1.633 1.765 1.583 c c Ok 2.267

上右表の Pos[sitive]は一致した数 (Ok の数 )を示し、Neg[ative]は一致しなか

った数 (No)の数を示します。AR(Acuracy rate)は全体の中の Pos の割合です。

この結果から、 d4 は、 c よりも b に近い、ということがわかります。たし

かに、 d4 は c の他のメンバーと大きく異なっています。分析の過程では、

a, b, c の分類が便宜的な分類であるならば、 d4 を改めて b 群においてもよ

Page 323: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

322

いでしょう。先験的な分類を守る方法を前範疇化とよび、データを再評価

して新たな分類を作る方法を後範疇化とよびます。言語研究では前者の方

法をとることが多いのですが、柔軟な後者の方法が行われることもありま

す。

7.6.3. 確率による群別

群別値が既知のデータ行列の群内の列相対頻度を、それが該当する事象

が起きる確率と見なして、行全体の確率を計算し、これを群別値が未知の

データ(横ベクトル)にあてはめて、一番大きな確率を示すデータの群別

値を示す群の群別値を得ます。

次の左表 (Q)のような質的データの既知の群別値から、右のような未知の

群別値を確率を使って予測します。

Q v1 v2 v3 Group

Y v1 v2 v3

d1 v v a

x1 v v

d2 v

v a

x2 v

d3 v

a

d4 v a

d5 v v b

d6 v v b

次が各群 (a, b)の確率表です。それぞれの v1, v2, v3 が群内の列の中で使

用された率を示します。 a:v1 = .667 は (3 + 1) / (4 + 2)の結果です。分子に

は 1 を加算し、分母には群数 (2)を加算します 75。

Likel. v1 v2 v3

a .667 .500 .333

b .500 .500 .750

D.data v1 v2 v3 Disc. Grp.i Eval. mx:mn

Grp. Pos. Neg. AR

d1 v v a a Ok .711

Val. 5.000 1.000 .833

d2 v

v a b No .006

d3 v

a a Ok .711

d4 v

a a Ok .495

d5 v

v b b Ok .006

d6 v v b b Ok .339

75

ここで確率がゼロのとき積がすべてゼロになるため、すべての生起回数

に 1 を加えました。

Page 324: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

323

D.pred v1 v2 v3 Grp.i mx:mn

x1 v v a .711

x2 v b .339

ここで、たとえば、 x1 (v, v, x)の確率は

P(X=a|Y=x1) = (4/6) * (.667) * (500) * (1 - .333)

P(X=b|Y=x1) = (2/6) * (.500) * (.500) * (.750)

P(X=a|Y=x1)の最後の (1 - .250)で確率を逆転させるのは、 v3 が選択さ

れていないため、それが起きない場合の確率を示すためです。

D.pred Ct(mx, mn) Group

x1 .711 a

x2 .339 b

●ベイズの定理

2 つの事象 X と Y が同時に起こる確率 P(X, Y)を次のように計算します。

P(X, Y) = P(X) P(Y|X)

P(X, Y) = P(Y) P(X|Y)

上の最初の式は、同時確率 P(X, Y)が、X が起こる確率 P(X)と、X が起

きたとき Y が起こる確率 P(Y|X)の積になる、ということを示しています。

たとえば、X がトランプのスペード、Y がエースであるとすると、スペー

ドのエースが出る確率は (1/4) x (1/13) = 1/52 になります。 2 番目の式も同

様です。そこで、どちらも左辺が同じなので、 1 つの式にまとめます。

P(X) P(Y|X) = P(Y) P(X|Y)

よって、次の式(「ベイズの定理」Bayes' theorem)が導かれます。

P(X|Y) = P(X) P(Y|X) / P(Y)

この定理は重要なので簡単な応用例を説明します。次の表は多数の文書

からなる資料を A 地方と B 地方の割合 P(X)と、それぞれの地方の資料の

中で観察される、ある言語現象(たとえば語末母音の脱落)がそれぞれの

文書に起こる割合 P(Y/X)を示しています。たとえば、A 地方の文書は全体

の 17 文書の中で 4 文書あり P(X)、その A 地方 4 文書の中で、3 文書で語

末母音の脱落があった P(Y|X)、ということを示します。

Page 325: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

324

資料 (X) P(X) P(Y|X) P(X) P(Y|X) P(X) P(Y|X) / P(Y) = P(X|Y)

X=A 4/17 3/4 4/17 x 3/4 = 3/17 (3/17) / (8/17) = 3/8

X=B 13/17 5/13 13/17 x 5/13 = 5/17 (5/17) / (8/17) = 5/8

和 1 8/17 = P(Y) 1

上表の P(X)は P(Y)を考慮しないので「事前確率」 (prior probability)とよ

ばれ、 P(Y|X)は、それぞれの群内での確率を示すので「尤度 (ゆうど )」

(likelihood)とよばれます。事前確率と尤度の積 P(X) P(Y|X)は、先に見たよ

うに、X と Y の同時確率 (joint probability)です。たとえば A の同時確率 3/17

は資料全体の中での A 地方の該当文書(現象のある文書)の割合を示しま

す。B の P(X) P(Y|X) = 5/17 も同様です。この同時確率の計算で、積の第 1

項の分子 (4)が第 2 項の分母と同じであることに注意してください。これは、

群内で占める該当文書の割合(事前確率)を計算するときの分子が、尤度

を計算するときのベース(分母)になる、と考えるとわかりやすいと思い

ます。ここでそれぞれの確率を分数で示し小数やパーセント表示にしなか

ったのは、それぞれの分母と分子がどのような意味を持っているのかを確

認したかったためです。

さて、A と B の尤度の和 (3/17 + 5/17=8/17)になりますが、これがベイズ

の定理の分母 P(Y)にあたります。つまり、全文書数 17 の中で現象 (Y)が起

きている文書数 (8)の確率 (8/17)を示します。

最後に、上表の右端の列でベイズの定理にしたがって P(X|Y)を求めます。

これは、先に求めた地方 (X)と現象 (Y)のそれぞれの同時確率 P(X) P(Y|X)を、

その和である、文書全体で現象が起こる確率で割った割合を示します。

Y の事象が複数のときは条件付き確率(尤度)を次のように拡張します。

P(Y|X) = P(Y1 |X) P(Y2 |X) ... P(Yp |X)

*高村 (2000: 99-117), 加藤・羽室・矢田 (2008: 111-115)を参照しました。

■アンダルシア方言の前範疇化と後範疇化

アンダルシアの市町村 230 で調査された言語地理資料から 164 の音声特徴

を選んでデータ行列を作り、各県を郡として質的確率による群別分析にか

けました。行政区画と言語特徴による群別がどの程度一致するかを見るこ

とが目的です。次の表は音声特徴と地点の一部を抜粋したものです。Huelva

県 (H)のほとんどが H に群別されていますが、中には Cádiz 県 (Ca)や Sevilla

県 (Se)に郡別されている地点もあります。しかし、 Ca と Se は H に隣接し

ます。

154 155 156 157 158 159 160 161 162 163 164 Grp.d Grp.i Eval.

v

H H Ok

v

H H Ok

Page 326: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

325

v

v v H H Ok

v

v v H H Ok

v

H H Ok

v

v

v v H H Ok

v

v

H H Ok

v

H H Ok

v

H H Ok

H H Ok

v

H H Ok

v

H H Ok

H H Ok

v

H H Ok

H H Ok

H H Ok

v

H Ca No

v

H Ca No

v

H Ca No

v

H Ca No

v

H Ca No

v

H H Ok

v

H Se No

v

H Se No

全体を見ると、正しい県に群別された地点は 173, 異なる県に郡別され

た地点は 57 であり確率による正答率は 75%でした。

Grp. Pos. Neg. Pres.

Val. 173 57 .752

個体との距離による群別以外の方法であれば、どの方法を使っても、完

全に一致することはありません。個体との距離による群別は既知のデータ

どうしの同定ということなので、正しくは「群別」ではありません。未知

のデータの群別では、既知データの中に近いデータがあるか否かがポイン

トになるので、全体を見渡した言語分析ができません。

上の表に戻って、2 つの県名群 (H, Ca, Se)の列を見ると、左の列は行政区

画による「前範疇化」を示します。後の列は群別分析による「後範疇化」

を示します。前範疇化によっておおよその区分ができたら、言語特徴から

後範疇化をし、言語とは直接関係のない行政区画とは別の言語区画を探求

する方法を考えてみたいと思います。

Page 327: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

326

7.6.4. 判別分析

次のようなデータの説明変数行列に、適当な重みベクトルを与え、最終

列の質的目的変数 (v)を予想する方法は判別分析 (Discriminant Analysis )と

よばれます。そのとき求められた重みベクトルは、それぞれの変数の重み

の意味を探るのに役立ちます。また、その重みベクトルを使えば未知のデ

ータの目的変数を一定の精度で予想することもできます。

English Read Write Vocab. POINT

d1 6 8 5

d2 7 10 6

d3 8 4 8 v

d4 9 7 2

d5 10 9 4 v

この例では d1, d2, ... , d5 という生徒の小テスト (x1:Read, x2:Write,

x3:Vocab[ulary])の得点と、最終試験の評価 (v:優 )が示されているとします。

はじめに説明変数行列を次のように標準化します。

[1] Xn p = Std(Xn p) …標準化 : (X – 列平均 ) / 列標準偏差

Std.s. Read Write Vocab.

d1 -1.414 .194 .000

d2 -.707 1.166 .500

d3 .000 -1.748 1.500

d4 .707 -.291 -1.500

d5 1.414 .680 -.500

この Xnp に未知の重みベクトル Wp を右積した合成ベクトルを Zn としま

す。

[2] Zn = Xn p Wp

重みベクトル Wp が求められれば、上の式で Zn が求められます。Zn の平

均 M は次のようにゼロ (0)になります。

M = (Σ ( i : N) Zn) / N ← 平均の定義

= Σ ( i : N) (Xn p Wp) / N ← [2]

= Σ ( i : N) (X i1W1 + X i2W2 + … + X ipWp) / N ← 行列積の成分

= (Σ ( i : N)X i1W1 + Σ ( i :N)X i2W2 + … + Σ ( i :N)X ipWp) / N ← Σを分配

= (W1Σ ( i :N)X i1 + W2Σ ( i :N)X i2 + … + WpΣ ( i :N)X ip) / N ←定数を前に

Page 328: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

327

ここで Xn p は標準化されているので、それぞれの縦和は 0 です。

Σ ( i :N)X i1 = Σ ( i :N)X i2 = … = Σ ( i :N)X i p = 0

よって、Zn の分子の項がすべて 0 になるので、Zn の平均 M は

[3] M = 0

Zn の全変動 S は

S = Σ ( i :N) (Z i – M)2 ← 変動の定義

= Σ ( i :N) Z i2 ← [3] M = 0

合成ベクトル Zn 全体を、優をとった学生群 Zv と、そうでない学生群 Zc

に分けて考え、それぞれの群の個数(人数)を Nv, Nc、群内の平均を Mv,

Mc とします。

Zv 内の変動と Zc 内の変動の和は「群内変動」 (within-groups sum of

squares: Sw)とよばれます。

Sw = Σ ( i :N v)(Zv i -Mv)2

+ Σ ( i :Nc)(Zc i -Mc)

2

M は 0 ですが、Mv と Mc は 0 になるとは限りません。なぜならば列全体

を標準化しているので M=0 になるのですが、Zv, Zc はそれぞれの群内で標

準化しているわけではないからです。

それぞれの群の成分がすべて同じだと仮定して、それと全体の平均 M (=

0)との編差の 2 乗和は「群間変動」 (between-groups sum of squares: Sb)とよ

ばれます。群間変動はそれぞれの群が全体(平均は M=0)の中でどのよう

に変動するかを示します。群間変動は次のような式になります。

Sb = Σ ( i :N v)(Mv -M)2

+ Σ ( i :Nc)(Mc -M)

2

= Σ ( i :N v)Mv2

+ Σ ( i :N c)Mc2 ← [3] M = 0

[4] = Nv Mv2

+ Nc Mc2 ← 定数の倍数

このとき、全変動 (S)が群内変動と群間変動の和 S = Sw + Sb であること

が、次のようにして確かめられます。

Sw = Σ ( i :N v)(Zv i -Mv)2

+ Σ ( i :Nc)(Zc i -Mc)

2

= Σ ( i :N v)(Zv i2

- 2 Zv i Mv + Mv2) ← 展開

+

Σ ( i :N c) )(Zc i2

- 2 Zc i Mc + Mc2)

= Σ ( i :N v)Zv i2-Σ ( i :N v)2Zv i Mv + Σ ( i :N v)Mv

2 ← Σを分配

+

Σ ( i :N c) )Zc i2-Σ ( i :N v)2Zc i Mc + Σ ( i :N v)Mc

2

= Σ ( i :N v)Zv i2

- 2 MvΣ ( i :N v)Zv i + Nv Mv2 ←定数を前に

Page 329: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

328

+

Σ ( i :N v)Zc i2

- 2 McΣ ( i :N v)Zc i + Nc Mc2

= Σ ( i :N v)Zv i2

- 2 Mv Nv Mv + Nv Mv2 ←Σ ( i :N v)Zv i = Nv Mv

+

Σ ( i :N v)Zc i2

- 2 Mc Nc Mc + Nc Mc2 ←Σ ( i :N v)Zv i = Nv Mc

←和=個数 *平均

= Σ ( i :N v)Zv i2

- 2 Nv Mv2 + Nv Mv

2 ← Mv を合体

+

Σ ( i :N v)Zc i2

- 2 Nc Mc2 + Nc Mc

2 ← Mc を合体

[5] = Σ ( i :N v)Zv i2

- Nv Mv2

+ Σ ( i :N v)Zc i

2 - Nc Mc

2 ← -2* + * = -*

よって

Sw + Sb = Σ ( i :N v)Zv i2

- Nv Mv2

+ Σ ( i :Nc)Zc i

2 - Nc Mc

2 ← [5] Sw

+ Nv Mv

2 + Nc Mc

2 ← [4] Sb

= Σ ( i :N v)Zv i2

+ Σ ( i :Nc)Zc i

2 = St

次に、群間変動 (Sb)が全変動 (S)の中で占める割合を問題にします。この

割合は「相関比」 (correlation ratio: CR)とよばれます。

CR = 群間変動 (Sb) / 全変動 (S)

[6] = 群間変動 (Sb) / (群内変動 (Sw) + 群間変動 (Sb))

たとえば、各群のすべての成分が群内の平均と等しいときは(Zv = Mv,

Zc = Mc のとき)、群内変動 (Sw)はゼロになり、すべての成分が1点に集

中し群を完全に判別でき、上の式 [6]から相関比 (CR)は最大の 1 になります。

また、それぞれの群内の平均(Zv の平均と Zc の平均)が全体の平均と同

じときは (Mv = M, Mc = M), 群間変動 Sw はゼロになるので(群を判別でき

ないので)、相関比 (CR)は最小のゼロ (0)になります。

相関比 CR の分母の Zn の全変動 S を Wp を含む式にします。

S = ZnT Zn

= (Xn p Wp)T (Xn p Wp) ← [2] Zn = Xnp Wp

= WpT Xnp

T Xnp Wp ← 行列演算

ここで

[7] Sp p = XnpT Xnp

とすると

[8] S = WpT Sp p Wp , ← [1]

相関比 CR の分子の Zn の群間変動 Sb を Wp を含む式にします。

Page 330: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

329

[9] Sb = Nv Mv2

+ Nc Mc2 ← [4]

= Nv (SvpT/Nv Wp)

2 ← Svp: Xnp の v 群縦和ベクトル

+ Nc (ScpT/Nc Wp)

2 ← Scp: Xnp の c 群縦和ベクトル

= Nv (SvpT Wp)

2 / Nv

2 ← Nv はスカラー

+ Nc (Scp

T Wp)

2 / Nc

2 ← Nc はスカラー

= (SvpT Wp)

2 / Nv

← Nv はスカラー

+ (Scp

T Wp)

2 / Nc ← Nc はスカラー

= (SvpT Wp)

T (Svp

T Wp)

/ Nv

← 行列演算

+ (Scp

T Wp)

T (Scp

T Wp)

/ Nc ← 行列演算

= WpT Svp Svp

T Wp

/ Nv

← 行列演算

+ Wp

T Scp Scp

T Wp

/ Nc ← 行列演算

= WpT (Svp Svp

T / Nv + Scp Scp

T / Nc) Wp

= WpT Bpp Wp ← Bpp は以下の式

[9b] Bpp = Svp SvpT / Nv + Scp Scp

T / Nc

よって、先の [6]の相関比 CR = Sb / S は次のようになります。

[10] CR = Sb / S = WpT Bp p Wp / Wp

T Sp p Wp

Sp p = XnpT Xnp ← [7]

Bp p = Svp SvpT / Nv + Scp Scp

T / Nc ← [9]

この相関比 [10] CR が最大になるときのベクトル Wp を求めるのが判別分

析の目的です。つまり、もっとも良く 2 群を判別するときの Wp を探すこ

とになります。そこで、相関比の式を未知数の Wp で微分しますが、この

ような分数の微分については、分母 (S: WpT Sp p Wp← [8])を 1 とする条件を

つけて、相関比が最大化する値を求めます。そこで、ラグランジュの未定

乗数 L と、全変動 ST = 1 → ST- 1 = 0 という条件をつけた関数 F (Wp)を

考えます。

F (Wp) = Sb – L (S – 1) ←ラグランジュの未定乗数法

= WpT Bpp Wp - L (Wp

T Sp p Wp - 1) ← [8], [9]

この F を Wp で微分した式がゼロ (0)であるときの Wp を求めます。

Diff.(F, Wp) = 2 Bp p Wp - 2 L Sp p Wp = 0 ←行列の微分

よって

Page 331: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

330

[11] (Bp p - L Sp p) Wp = 0

Sp p-1

(Bp p - L Sp p) Wp = Sp p-1

0 ← Spp-1 を左積

(Sp p-1

Bp p - Sp p-1

L Sp p) Wp = 0 ← Spp-1

をそれぞれの項に

(Sp p-1

Bp p - L Sp p-1

Sp p) Wp = 0 ← スカラーL を移動

(Sp p-1

Bp p - L Ip p) Wp = 0 ← Spp-1

Sp p = Ip p (単位行列 )

Sp p-1

Bpp Wp - L Ip p Wp = 0 ← Wp をそれぞれの項に

Sp p-1

Bpp Wp - L Wp = 0 ← Ip p Wp = Wp

となり、これが固有値問題の形 (Rp p Ap-L Ap = 0)になります。ここで、Sp p-1

Bp p から固有値 L と固有ベクトル Wp を求めることができます。

また、先の式 [11]から、次のようにして固有値が相関比であることがわ

かります。

(Bp p - L Sp p) Wp = 0 ← [11]

WpT (Bp p - L Sp p) Wp = Wp

T 0 ←両辺に Wp

T を左積

WpT Bpp Wp - Wp

T L Sp p Wp = 0 ←展開

WpT Bpp Wp - L Wp

T Spp Wp = 0 ← スカラーL を移動

Sb - L S = 0 ← WpT Bp p Wp = Sb, Wp

T Sp p Wp = S

Sb = L S ← L ST を右辺に移動

L = Sb / S ← Sb / ST = 相関比

相関比は分母も分子も変動を使い 2 次関数になるので、その根をとった

ほうがわかりやすく、それが使われることもあります。ここではそれを「根

相関比」 (Root Correlation Ratio: RCR)とよぶことにします。

根相関比 RCR = (Sb / St)1 /2

Std.s. Read Write Vocab. POINT Expect. Score Eval.

d1 -1.414 .194 .000 -1.090 Ok

d2 -.707 1.166 .500

-.297 Ok

d3 .000 -1.748 1.500 v v 1.088 Ok

d4 .707 -.291 -1.500

-.408 Ok

d5 1.414 .680 -.500 v v .707 Ok

上表(標準得点 Standard score: Std. s.)の期待値 (Expect[ed value])の列で

は Zn の成分が正であれば v を出力します。実測値(ここでは POINT)と

期待値が一致したときに評価列 (Eval[uation])に Ok を出力します。

得点列 (Score)は [2]の合成ベクトル Zn です。

次の変数表 (Var[iable])の重み (Weight)は求められた固有ベクトル Wp で

あり、その下にそれぞれの変数の和 (Sum)、平均 (M.)、標準偏差 (St[andard]

dev[iation])を出力します。

Page 332: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

331

Var. Read Write Vocab. T. eval. Ac. R. R.C.R.

Weight .761 -.070 .644 Value 1.000 .927

Sum 40.000 38.000 25.000

M. 8.000 7.600 5.000

DT 1.414 2.059 2.000

最後の表、総合評価 (T[otal] eval[uation])には正答率 (Ac[curacy] R[atio])

と根相関比 (Root Correlation Ratio: RCR)を出力します。正答率は上の評価

の Ok の数を行数で割った値です。

*三野 (157-161)、石井 (2014: 140-149)を参照しました。

●未知の判別値

既知のデータ (Xn p)で得られた重みベクトル (Wp)を、判別値が未知のデー

タ (Dnp)に適用するときは、先に得られた平均 M(Xnp)と標準偏差 Sd(Xnp)を

使って、判別値が未知のデータ行列を標準化し、これに重みベクトルを左

積します。

Yn p = [Dn p -Me(Xn p)] / Sd(Xnp)

En = Yn p Wp

●数量化2類分析

次のような説明変数が質的データの場合は、チェック (v)を 1 に変換して

数量化し同じ判別分析をします。この方法は「数量化2類分析」とよばれ

ます。

English-5 Read Write Vocab. POINT

d1 v

d2 v v v

d3 v

v v

d4 v v

d5 v v v

■東西アンダルシア方言の判別

次の表はアンダルシア地方を西 (H, SE, CA, MA)と東 (CO, J, GR, AL)に分

ける音声特徴の相対的な頻度を示します。両側相対値の大小順にソートし

ました。

Page 333: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

332

Ñ1000 H SE CA MA CO J GR AL West East Cntr

1602B:disgusto:-sg->x 710 217 600 0 1527 1.000

1660B:unos granos:s=g>x

581 174 233 0 988 1.000

1694C:clavel:-él>ér

32 109 33 0 174 1.000

1663B:las juergas:s=xwe>xwe

38

774 348 833 38 1955 .961

1577A:naranja:-nx->nx 42

839 196 900 42 1934 .958

1647A:las lentejas:-x->x 42

871 217 833 42 1922 .958

1624A:decir:-ír>í+l 83

280 516 413 633 83 1843 .913

1626C:tos:o++

77 280 323 391 400 77 1394 .895

1623A:beber:-ér>é+l 83

38 400 355 413 667 122 1835 .875

1627C:nuez:e++

192 560 581 565 600 192 2306 .846

1632D:los árboles:s=a>a

59 77 80 387 370 767 136 1603 .844

1581C:carne:-rn->ln 65

240 355 65 33 65 693 .830

1695B:claveles:e-es>-e+-e+ 32

269 720 774 717 700 301 2912 .812

1631C:los ojos:s=o>o

269 240 742 783 667 269 2431 .801

1620A:mar:-ár>ál 125 32

38 320 452 370 500 196 1641 .787

1616A:árbol:-ol>o+ 83 32

240 258 130 200 116 828 .755

1614A:peregil:-íl>í+(:) 32 59 77 320 258 239 267 168 1084 .732

1613A:zagal:-ál>á+(:) 42 97 59

360 194 348 267 197 1168 .711

これらの県別の音声特徴を使って、下図の原資料(個人の回答の集計)

の判別分析をすると、下表の結果になりました。

Var. Weight Sum M. St.dev.

1613A:zagal:-ál>á+(:) .147 44.000 .191 .393

1631C:los ojos:s=o>o .137 92.000 .400 .490

1614A:peregil:-íl>í+(:) .120 39.000 .170 .375

1635A:las vacas:s=b>ph .107 41.000 .178 .383

1623A:beber:-ér>é+l .102 63.000 .274 .446

1581C:carne:-rn->ln .100 23.000 .100 .300

1620E:mar:-ár>ár .090 36.000 .157 .363

1627C:nuez:e++ .073 81.000 .352 .478

1620A:mar:-ár>ál .072 59.000 .257 .437

1632D:los árboles:s=a>a .072 57.000 .248 .432

1695B:claveles:e-es>-e+-e+ .061 104.000 .452 .498

1602B:disgusto:-sg->x .040 50.000 .217 .412

1616A:árbol:-ol>o+ .034 29.000 .126 .332

H.1

01

H.1

02

H.2

00

H.2

01

H.2

02

H.2

03

H.2

04

H.3

00

H.3

01

H.3

02

H.3

03

H.4

00

H.4

01

H.4

02

H.5

00

H.5

01

H.5

02

H.5

03

H.5

04

H.6

00

H.6

01

H.6

02

H.6

03

Se.1

00

Se.1

01

Se.1

02

Se.2

00

Se.2

01

Se.3

00

Se.3

01

Se.3

02

Se.3

03

Se.3

04

Se.3

05

Se.3

06

Se.3

07

Se.3

08

Se.3

09

Se.3

10

Se.4

00

Se.4

01

Se.4

02

Se.4

03

Se.4

04

Se.4

05

Se.4

06

Se.5

00

Se.5

01

Se.5

02

Se.5

03

Se.6

00

Se.6

01

Se.6

02

Se.6

03

Ca.1

00

Ca.1

01

Ca.1

02

Ca.2

00

Ca.2

01

Ca.2

02

Ca.2

03

Ca.2

04

Ca.2

05

Ca.2

06

Ca.3

01

Ca.3

02

Ca.4

00

Ca.5

00

Ca.6

00

Ca.6

01

Ca.6

02

Ma.1

00

Ma.1

01

Ma.1

02

Ma.2

00

Ma.2

01

Ma.2

02

Ma.2

03

Ma.3

00

Ma.3

01

Ma.3

02

Ma.3

03

Ma.3

04

Ma.4

00

Ma.4

01

Ma.4

02

Ma.4

03

Ma.4

04

Ma.4

05

Ma.4

06

Ma.4

07

Ma.4

08

Ma.5

00

Ma.5

01

Ma.5

02

Ma.5

03

Ma.6

00

Co

.10

0

Co

.10

1

Co

.10

2

Co

.10

3

Co

.10

4

Co

.20

0

Co

.20

1

Co

.20

2

Co

.30

0

Co

.30

1

Co

.30

2

Co

.40

0

Co

.40

1

Co

.40

2

Co

.40

3

Co

.60

0

Co

.60

1

Co

.60

2

Co

.60

3

Co

.60

4

Co

.60

5

Co

.60

6

Co

.60

7

Co

.60

8

Co

.60

9

J.1

00

J.1

01

J.1

02

J.1

03

J.2

00

J.2

01

J.2

02

J.2

03

J.2

04

J.2

05

J.3

00

J.3

01

J.3

02

J.3

03

J.3

04

J.3

05

J.3

06

J.3

07

J.3

08

J.3

09

J.4

00

J.4

01

J.4

02

J.4

03

J.4

04

J.5

00

J.5

01

J.5

02

J.5

03

J.5

04

J.6

00

Gr.

20

0

Gr.

20

1

Gr.

20

2

Gr.

20

3

Gr.

30

0

Gr.

30

1

Gr.

30

2

Gr.

30

3

Gr.

30

4

Gr.

30

5

Gr.

30

6

Gr.

30

7

Gr.

30

8

Gr.

30

9

Gr.

40

0

Gr.

40

1

Gr.

40

2

Gr.

40

3

Gr.

40

4

Gr.

40

5

Gr.

40

6

Gr.

40

7

Gr.

40

8

Gr.

40

9

Gr.

41

0

Gr.

50

0

Gr.

50

1

Gr.

50

2

Gr.

50

3

Gr.

50

4

Gr.

50

5

Gr.

50

6

Gr.

50

7

Gr.

50

8

Gr.

50

9

Gr.

51

0

Gr.

51

1

Gr.

51

2

Gr.

51

3

Gr.

51

4

Gr.

51

5

Gr.

60

0

Gr.

60

1

Gr.

60

2

Gr.

60

3

Gr.

60

4

Al.

10

0

Al.

20

0

Al.

20

1

Al.

20

2

Al.

20

3

Al.

20

4

Al.

20

5

Al.

30

0

Al.

30

1

Al.

30

2

Al.

30

3

Al.

40

0

Al.

40

1

Al.

40

2

Al.

40

3

Al.

40

4

Al.

40

5

Al.

50

0

Al.

50

1

Al.

50

2

Al.

50

3

Al.

50

4

Al.

50

5

Al.

50

6

Al.

50

7

Al.

50

8

Al.

50

9

Al.

60

0

Al.

60

1

Al.

60

2

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v v

Page 334: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

333

1663B:las juergas:>xwe .031 66.000 .287 .452

1693A:redes:redes>rede .028 49.000 .213 .409

1624A:decir:-ír>í+l .018 63.000 .274 .446

1626C:tos:o++ .015 49.000 .213 .409

1660B:unos granos:s=g>x .011 33.000 .143 .351

1694C:clavel:-él>ér .002 7.000 .030 .172

1647A:las lentejas:-x->x -.003 63.000 .274 .446

1577A:naranja:-nx->nx -.030 63.000 .274 .446

T. eval. Ac. R. R.C.R.

値 .943 .910

とくに末尾子音の脱落による開母音化現象が東方言の特徴であることが

わかりますが、さらに <j>の強い摩擦音 [x]と語末の -s と続く語頭の g が融

合した [x] (unos granos > unoxranos)もその顕著な特徴です。

*資料:『アンダルシア言語民俗地図』 (Manuel Alvar y Antonio Llorente:

Atlas lingüístico y etnográfico de Andalucía , 1973)

●分散分析

次のようなデータから変数(M1, M2, M3)間の分散の差の有意性を調べ

るときに分散分析 (Analysis of Variance: Anova)が使われます。

Xnp M1 M-2 M-3

ANOVA Variation D.f. Variance F.ratio P. 5%:1%:

A 44 34 33

Among g, 410.800 2 205.400 28.137 3.885

B 39 29 32

Within g. 87.600 12 7.300

6.927

C 42 33 35

All 498.400 14 35.600 0

D 45 36 32

E 48 30 31

この分析のために変数間の変動( Sb: 群間の偏差平方和)と、各変数の

中での変動( Sw: 郡内の偏差平方和)、そして全体の変動 (S: 全体の偏差

平方和 )を求めます。目的は群間の偏差平方和と郡内の偏差平方和の比(「分

散比」)を計算し、それが有意であるかどうかを判定することです。

はじめに列(群)の縦平均行 (Mp)と全体の平均(M)を求めます。個数

を N, 変数を P とします。

Mp = IpT Xn p / N

M = Σ (Xnp) / (N * P)

次にそれぞれの変動 Sb, Sw, S を求めます。

Page 335: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

334

Sb = N Σ (Mp – M)2

Sw = Σ (Xnp – Mp i)2

S = Σ (Xnp – M)2

全体の自由度 (Degree of freedom: D.frd.)はすべての成分数 -1 で計算され

ます (N * P - 1)。1 を引くのは、総和と 1 つの成分を除く全成分が決定され

ていれば、その成分は自動的に決まるので自由がないからです。同様に群

間の自由度は P - 1 になります。郡内の自由度は同様にして求めた各群の自

由度 (N - 1)に群の数 (P)を掛けた値です。それぞれの分散 (Variance)は変動を

自由度で割って求めます。フィッシャー比率 (Fisher ratio: F. ratio)は群間の

分散を郡内の分散で割った値です。

全体変動:V = S / (N * P – 1)

群間変動:Vb = Sb / (P – 1)

群内変動:Vw = Sw / [(N – 1) * P]

F.ratio = Vb / Vw

このフィッシャー比率があらかじめ決めた基準 (5%, 1%)を超えていれば、

群間の分散に差がない、という帰無仮説を棄却できます。上図の最後の列

は、F の基準値 (5%, 1%)と、確率を示します。

Page 336: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

335

8. 検定

ここでは、クロス集計の表から連関度を数値化する方法を扱います 76。次

の表を見て下さい。

and but so 合計

全体 58 43 28 129

単純集計表

and but so 合計

文頭 12 7 11 30

文中 46 36 17 99

全体 58 43 28 129

クロス集計表

上の表は 1 つの指標(英語の等位接続詞)について数値(頻度)を表した

ものです。一方、下の表は (1)「英語の等位接続詞」と (2)「出現位置」とい

う 2 つの指標を基に集計したものです。このようなものをクロス集計表と

よびます。ここで問題となるのは、この 2 つの指標はお互いに連関してい

るかどうかということです。具体的に言うと、 2 つが関係している場合、

「 (1)英語の等位接続詞の (2)出現位置は単語によって異なる」という結論に

なりますし、関係していない場合、「 (1)英語の等位接続詞の (2)出現位置は

単語に左右されない」(それぞれの現象は「独立」である)ということに

なります。この判定をする手法が、カイ二乗検定です。ここではカイ二乗

検定を理解するために、単純な例として 2-2 の表を用いて説明します。

8.1.1. 検定の方法

なぜカイ二乗検定が必要なのでしょうか。次のようなケースで考えてみま

しょう。ある現象を数えるにあたって、次のように、それが出現した場合

だけを数えるやり方があります。

「方法 A」…効果があったケース:59

「方法 B」…効果があったケース: 49

「方法 A」に効果があった場合の数を 59、「方法 B」に効果があった場合

の数を 49 として単純に比較すると、確かに「方法 A」のほうが優れている、

という結論になるかもしれません。しかし、ここで「方法 A」(そして「方

法 B」)に効果があったことを確かめるには、「方法 A」(そして「方法

B」)に効果がなかったケースも調べることが必要です。その結果が次の

76

*参考:池田央. 1976.『統計的方法 I 基礎』新曜社. pp .121-132.

Page 337: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

336

表です。

実測値1の結果を見ると、やはり「方法 A」のほうが「方法 B」より優れ

ているように見えますが、仮に次の実測値2ようなケースになったときは

判断が逆転してしまいます。

「方法 A」と「方法 B」はどちらも効果がある場合よりも効果がない場合の

方が上回り、それぞれの方法の差は6ですが、「方法 A」の「効果がない」

の数が大きくなっています。

さらに、次の実測値 3 のようなケースがあります。「方法 A」も「方法

B」もどちらも「効果がある」の数が「効果がない」の数よりも上回って

います。両者は「効果がある」と「効果がない」の差は 10 となっています。

はたして「方法 A」が「方法 B」に比べて効果があると言えるのでしょう

か。

これらは単に「効果がある」という肯定的な反応だけを数えていては見つ

からなかった問題を示しています。つまり、方法 A と方法 B の差を考える

には、効果があった場合と効果がなかった場合の両方を考える必要がある

ということです(「方法」と「効果の有無」という 2 つの指標でクロス集

計する必要があるということです)。

それでは実測値 1~ 3 の場合、方法 A と方法 B に差があるといえるのは

どれでしょうか。この数値を統計的に算出するのがカイ二乗検定です。こ

の方法を用いることで、差があるかどうかをはっきりと数値で示すことが

できます。

8.1.2. 期待値

カイ二乗検定の基になるデータは、(1)実測値と (2)期待値です。以下、例と

して実測値 1 を見ていきましょう 77。

77

比率は「効果がある」の値を「効果がない」の値で割った値です。 1 よ

Page 338: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

337

このデータをグラフにして視覚化しておきます。

期待値の計算方法に関しては 5 章(→)で見ましたが、ここでは少し違っ

た角度から算出方法を再度考えてみます。説明のために、観測値を次のよ

うによぶことにします。

次の表では各セルに「期待される」得点 (期待得点: expected score)が示さ

れています。期待得点は次のような式で計算されます。

期待値 効果がある 効果がない

方法 A (a + b)×(a + c)

a + b + c + d

(a + b)×(b + d)

a + b + c + d

方法 B (c + d)×(a + c)

a + b + c + d

(c + d)×(b + d)

a + b + c + d

り大きいと「効果がある」ほうが多いことを示します。

Page 339: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

338

たとえば、方法 A の効果がある期待値は、方法 A の総数 (a + b) 94 に「効

果がある」と期待できる率 (a + c) 108、掛けた数値を総数で割った値です。

総数 94 が 108:88 に分割されるときに 108 の側に当然期待できる数値、94 x

(108 / 196)を示します 78。

「方法 A」・「効果がある」の期待得点 94 x 108 / 196 = 51.796

「方法 A」・「効果がない」の期待得点 94 x 88 / 196=42.204

「方法 B」・「効果がある」の期待得点 102 x 108 / 196=56.204

「方法 B」・「効果がない」の期待得点 102 x 88 / 196=45.796

もし実際に観察される値が当然予測される値(期待値)と近いならば、「偶

然でも起こるかもしれない分布」ということになります。逆に、もしそれ

が期待値から大きく外れるならば、観察されたデータは有意味な分布を示

していると考えられます。「偶然ではほとんどあり得ない」と考えるので

す。つまり、カイ二乗検定のポイントは、「実測値と期待値のズレを見る」

というところにあります。

8.1.3. カイ二乗値

期待値と実測値のずれを総合的に判断するため、すべての升目 (a, b, c, d)

における実際の観測値と期待値の「相対的な差」の総和で求めます。相対

化するには、実測値から期待値を引いたものを期待値で割ります。また、

「相対的な差」の合計は、そのままでは 0 になってしまいますので、単純に

期待値からの距離を求めるために二乗しておきます(これがカイ「二乗」

という名前の由来です)。

標準化した値 = (実測値―期待値 )

2

期待値

このような操作を「標準化」とよびます。データには一定の単位がありま

すが、標準化すると単位がなくなります。単位がなくなると、どのような

データでも統計的に同じ処理ができるようになるのです 79。次がそれぞれ

78

ここで、これらの期待値のすべてが 5 以上であるかどうかを確かめてお

きます。いずれかが 5 以下だと誤差が大きくてカイ二乗検定には向いてい

ないデータと判断されます。 79 たとえば、データの絶対的な値を 3 メートルだとして、それが全体の 10

メートルの中での割合を見ると、 0.3 という単位(メートル)がなくなっ

た数値になり、この数値は他のケースの割合と同じ尺度で(標準化された

Page 340: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

339

の相対的な差です。

これらの値を合計した値が「カイ二乗の統計量」( χ2)とよばれるもので

す。

χ2 =1.002 + 1.230 + 0.923 + 1.133 = 4.288

式を一般化しましょう。実測値 a, b, c, d の期待値をそれぞれ、aT, b

T, c

T, d

T

とし、標準化した値の総和は次のようになります。

χ2 =

(a - a ')2

a' +

(b - b')2

b' +

(c - c ')2

c' +

(d - d')2

d'

カイ二乗の統計量は、期待値からのズレ(距離)の総和ということになり

ます。この値が大きいほど、期待値とのズレが大きいということが言えま

す。

8.1.4. 検定の考え方

値や差を推定する統計は確率に基づいています。確率は全くありえない

0%から、絶対そうである 100%までありますが、たとえば方法 A と方法 B

の間に「差が 100%ある」と言い切ることは難しいです。では、どうする

かというと「差がないとは言えない」という消極的な言い方をします。こ

の証明には、100%とは反対の 0%から出発します。つまり、「方法 A と方

法 B には(全く)差がない」という仮説からスタートするのです。この仮

説を帰無仮説 (H0)とよびます。無に帰したい(棄却したい)仮説なのでこ

のようによばれます。この逆の「差がある」という仮説を対立仮説 (H1)と

よびます。

H0: 方法 A と方法 B には差がない

H1: 方法 A と方法 B には差がある

推測統計が求める確率は H0 が成立する確率です。たとえば検定の結果、3%

と出れば、これは「方法 A と方法 B には差がない可能性が 3%」というこ

とです。逆に言えば、97%の確率で H1(差がある)が成立します。この場

合、H1 が成立する可能性がかなり高いですので、H0 は棄却できることにな

ります。

このように棄却する基準のことを「有意水準」とよびます。一般に 5%

尺度で)比較できます。期待値を使った標準化もそれとよく似ています。

Page 341: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

340

と 1%が用いられます。たとえば「 5%の有意水準で H0 が棄却できる」と

いう結論は、H0 の成り立つ確率が 5%以下(H1 が成り立つ確率が 95%以上)

ということになります。

8.1.5. 検定の評価

カイ二乗統計量は、期待値とのズレであるということを見ました。それで

はこの値がどの程度大きければ差があるといえるのでしょうか。 2-2 の分

割表では次のように決まっています。

有意水準 閾値

5% 3.841

1% 6.634

閾値とは、カイ二乗統計量の値がそれ以下であれば成り立たないというこ

とです。あらためて先ほどの値は 4.288 なので、5%の閾値よりも大きいこ

とになります。従って、この結果は「 5%水準で有意な差がある」と解釈で

きます。一方、 1%水準の閾値は 6.634 ですので、この水準では H0 を棄却

することはできません。

さきほど「 2-2 の分割表では」という但し書きをつけましたが、この点

は重要ですので触れておきます。カイ二乗統計量は期待値からのズレの合

計であるということを見ましたが、マス目が増えれば増えるほど合計の値

が大きくなります。たとえば、 2-2 のマスと 4-4 のマスではマスの数は 4

マスと 16 マスですので、平等に扱うのはおかしいでしょう。つまり、有意

水準の閾値の値も、マス目の数によって大きくなっていくということにな

ります。

この基準は「自由度」 (degree of freedom, df)とよばれます。自由度とい

うのは自由に値を決めることができるマスの数のことです。たとえば、2-2

のマスでは、1 つのマスを決めると、縦と横の合計が同じならば他のすべ

てのマスの値は自動的に決まってしまうので自由度は 1 ということになり

ます。次の表で方法 A の「効果がある」を 10 とすると、方法 A の「効果

がない」は 84、方法 A の「効果がある」は 98、方法 B の「効果がない」

は 4 に決まります。

実測値 1 効果がある 効果がない

方法 A 10 94-10 94

方法 B 108-10 102-(108-10) 102

108 88 196

なお、n-p のクロス集計表の自由度は、(n-1)-(p-1)で求めることができます。

Page 342: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

341

以上のことをまとめて次のように表します 80。

χ2

= 4.288 > χ2

(df: 1, p: 0.05) = 3.841

これは「カイ二乗統計量は 4.288 で、自由で 1 の場合の 5%有意水準

の 3.841 よりも大きく統計的に有意である」という意味です。

8.1.6. イェイツの補正

2-2 の数値表ではカイ二乗の統計量が一般に大きくなる傾向があります。

そのため、先の χ2 の代わりに次の式を使って少し補正します( Yates'

correction)。

χ2

(Yates ' cor.) =

n( |ad - bc | - n

2)

2

(a+b)(a+c)(c+d)(b+d)

そうすると、イェイツの補正をした結果 χ2

(YateTs cor.)は 3.714 となって、

先ほどの値よりも少し小さくなりました。この場合も有意水準 1%で帰無

仮説を棄却できないことになります。このようにイェイツの補正を利用す

ることでより慎重な評価ができます。

●カイ二乗・イェイツの補正・Phi 係数

イェイツの補正はχ二乗値の分子から n / 2 を引いた数値になります。この

ことを確かめておきましょう。

はじめに次が実測値です。

O X(+) X(-) 和

Y(+) a b a + b = s

Y(-) c d c + d = t

和 a + c = u b + d = v a + b + c + d =n

次に a, b, c, d それぞれのχ二乗値を計算します。

χ2(a) = (a – su / n)

2 / (su / n) = [(an – su)

2 / n

2][n / su] = (an – su)

2 / nsu

χ2(b) = (b – sv / n)

2 / (sv / n) = [(bn – sv)

2 / n

2][n / sv] = (bn – sv)

2 / nsv

χ2(c) = (c – tu / n)

2 / (tu / n) = [(cn – tu)

2 / n

2][n / tu] = (cn – tu)

2 / ntu

χ2(d) = (d – tv / n)

2 / (tv / n) = [(dn – tv)

2 / n

2][n / tv] = (dn – tv)

2 / ntv

この和がχ二乗 (χ2)です。

80

df は自由度 (degree of freedom)、p は確率 (probability)を示します。

Page 343: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

342

χ2

= [ tv(an – su)2 + tu(bn – sv)

2 + sv(cn – tu)

2 + su(dn – tv)

2 ] / nstuv

= [ tv (a2n

2 – 2ansu + s

2u

2)

+ tu (b2n

2 – 2bnsv + s

2v

2)

+ sv (c2n

2 -2cntu + t

2u

2)

+ su (d2n

2 – 2dnvt + t

2v

2) ] / nstuv

= (a2n

2tv – 2ansutv + s

2u

2tv

+ b2n

2tu – 2bnsvtu + s

2vtu

2

+ c2n

2sv -2cntusv + t

2u

2sv

+ d2n

2su – 2dnvtsu + t

2v

2su) / nstuv

縦列で足します。

= [ n2 (a

2tv + b

2tu + c

2sv + d

2su)

- 2stuvn (a + b + c + d)

+ stuv (su + sv + tu + tv) ] / nstuv

= [ n2 (a

2tv + b

2tu + c

2sv + d

2su)

- 2stuvn2

+ stuv (s + t)(u + v) ] / nstuv

= [ n2 (a

2tv + b

2tu + c

2sv + d

2su) - 2n

2stuv + n

2stuv] / nstuv

= n2 (a

2tv + b

2tu + c

2sv + d

2su - stuv) / nstuv

= n (a2tv + b

2tu + c

2sv + d

2su - stuv) / stuv

s = a + b, t = c + d, u = a + c, v = b + d なので

= n [ a2(c + d)(b + d)

+ b2(c + d)(a + c)

+ c2(a + b)(b + d)

+ d2(a + b)(a + c)

- (a + b)(c + d)(a + c)(b + d) ] / stuv

= n [a2(bc + cd + bd + d

2)

+ b2(ac + c

2 + ad + cd)

+ c2(ab + ad + b

2 + bd)

+ d2(a

2 + ac + ab + bc)

– (ac + ad + bc + bd)(ab + ad + bc + cd) ] / stuv

= n [ a2bc + a

2cd + a

2bd + a

2d

2

+ ab2c + b

2c

2 + ab

2d + b

2cd

Page 344: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

343

+ abc2 + ac

2d + b

2c

2 + bc

2d

+ a2d

2 + acd

2 + abd

2 + bcd

2

- a2bc - a

2cd – abc

2 – ac

2d

- a2bd – a

2d

2 – abcd – acd

2

- ab2c – abcd – b

2c

2 – bc

2d

- ab2d – abd

2 – b

2cd – bcd

2 ] /stuv

= n (a2d

2 – 2abcd + b

2c

2) / stuv

= n (ad – bc)2 / [(a + b)(a + c)(c + d)(b + d)]

この式は先に見た χ2

(YateTs cor.)とわずかに分子の一部が異なるだけです。

また、この式は先に見た Phi 係数を二乗して n(= a + b + c + d)を掛けた数値

になります。

χ2

= n Phi2

●Excel によるカイ二乗検定

それでは Excel でカイ二乗検定を行ってみましょう。カイ二乗検定では

実測値と期待値、そして標準化した値を基にして計算しますので、次のよ

うなカイ二乗検定をするためのシートを作成します。

実測値は横和と縦和の両方を求めておきます。

期待値

「実測値」の和を参照して「期待値」を計算します。 B7 に次の式を書き込

み、全体にコピーします。なお、表示はセルの書式設定から小数点以下 3

位までの設定にしました。

B7=$D2*B$4/$D$4

Page 345: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

344

標準化

(1)「実測値」と「期待値」を参照して期待値との差を標準化した各値を計

算します。二乗には ^(キャレット)を使います。次の式を入力し、残りの

セルにコピーします。

B11 =(B2-B7)^2/B7

Page 346: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

345

カイ二乗統計量

カイ二乗統計量は標準化した値の合計です。次の式を入力します。

B14= sum(B11:C12)=4.288

有意水準・自由度・限界値

Excel には CHIINV という関数が用意されており、「有意水準」と「自由度」

を基に閾値を算出できます。引数は、CHIINV(確率 ,自由度 )です。ここでは

自由度 1 の場合の 5%と 1%の閾値を求めてみましょう。

B15=CHIINV(0.05,1)

B16=CHIINV(0.01,1)

以上の結果から、カイ二乗統計量は 5%水準の閾値よりも大きく、 1%水準

の閾値よりも小さいので、 5%水準で有意、 1%水準ではそうではないとい

うことがいえます。

Yates の補正

イェイツの補正を求める関数は残念ながら用意されていませんので、数式

を自分で入力します。絶対値に変換するには ABS 関数を利用します。次の

式を入力してみましょう。

B17 =(ABS(B2*C3-B3*C2)-D4/2)^2*D4/(B4*C4*D2*D3)=3.714

Page 347: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

346

CHITEST 関数を使う

Excel には CHITEST 関数が用意されており、これを利用すると実測値と期

待値から H0 が成り立つ確率を直接計算することができます。CHITEST(実

測値 ,期待値 )という形で使います。

B18 =CHITEST(B2:C3,B7:C8)

この計算の結果、 0.038 と出ます。これは H0 が成り立つ可能性が 3.8%で

あることを示しています。つまり、5%水準では十分に棄却できる値である

ということを示します。

Page 348: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

347

この手法を使うと、標準化の手順が省略できるというメリットと、直接

確率を求めることができるというメリットがあります。先ほどまでの結果

では 5%水準では有意だが 1%水準では違うということでしたが、 3.8%は

ちょうどこの間に入ります。

実測値 2、実測値 3 について

実測値 2 と 3 について同じように計算するにはシートをコピーして実測値

の値を入れ替えればよいでしょう。次のような結果になりました。

カイ二乗統計量もイェイツもかなり小さい値になっています。このことか

ら、実測値 2 と 3 では方法 A と方法 B に差があるとは言えません(H0 を

Page 349: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

348

棄却できません)。

■カイ二乗分布

カイ二乗の「限界値」は「有意水準」と「自由度」によって決まります。

たとえば、自由度=1、有意水準=0.05 ならば、限界値は 3.841 になります。

この限界値は非常に複雑な数式によって導かれるもので、これを理解す

ることは私たちの「文系のデータ分析」の範囲を超えていると思います。

次に示すシートは、カイ二乗分布を示す関数を自由度 1, 2, 3 について求め

たものですが、セル [B2]の数式は、次のような関数を使います。このよう

に非常に複雑な式なのです。

B2==$A2^(B$1/2-1)*EXP(-1*$A2/2)/(2^(B$1/2)*EXP(GAMMALN(B$1/2)))

ここで、自由度 (F)=1 の線の 3.841 の値の右側の面積が全体の 5%になるこ

とを示しています。

私たちは実験をすることによってこれを実際に納得することができます。

次は、ランダムに 1000 ほどの偏りのないケースを発生させ、自由度 =1 の

カイ二乗値の頻度を計算した結果です。

Page 350: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

349

それぞれ、先に示した理論的に導かれる連続線の形状に近似していること

がわかります。この実験は何度やっても、具体的な数値は変わりますが、

グラフの形はそれぞれ連関しています。

■ブラックボックス・リープ・ディスコネックション

書店には統計学の参考書が多く並んでいます。「 Excel を使ってこのよ

うにすればよい」と説明する手法の本もたくさんあります。実際に手にと

って見ると、簡単に統計処理ができるように書かれていて参考になる本も

ありますが、なかには手法だけを扱って、その応用法についての注意など

がなく、数学的な背景については大まかに理解していればよい、という姿

勢で書かれているものも多いようです。

たしかに書かれてあるとおりのテクニックを使えばそれなりの結果が出

るのですが、どうしてそのような結果が出るのか具体的にわからないこと

があります。これでは計算過程が「ブラックボックス」になってしまい、

自分が出した結果を説明できません。

参考書の中には説明が「飛躍している」(リープ)と思われるケースも

あります。これは説明の段落がどのようにつながるのかわからないような

状態です。もしかしたら自分の数学的な知識が不足しているため、リープ

だと勝手に判断しているのかもしれません。

また、説明の中には「~ということが知られている」「~という公式を

使う」というような背景知識に対するリンクになっていることがあります。

しかし、私たちが「知られている」という事実や「公式」に疎いとき、背

景知識とのリンクは切れてしまっています(ディスコネクション)。

このような理論的な理解がない状態で手法だけを応用してしまうと、結

局自分が何をやっているのかわからないのに、自分の名前をつけたレポー

ト・論文・発表を生産してしまうことになりかねません。本人がわかって

いないのに、レポート・論文を読む人や発表を聞く人がいるというのは望

ましくありません。

Page 351: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

350

そこで、自分にとって、ブラックボックス、リープ、ディスコネクショ

ンがあると思われる参考書の説明については、ぜひ自分で実際にいろいろ

な実験をして納得がいくまで確かめてください。Excel はその実験道具と

して役立ちます。そして、実験をしながら感覚的に様子がわかったら、今

度は統計学や数学の本を読んで数式を理解してください。誰でも難しそう

な記号が並んだ数式を目にすると尻込みすることはよくあることですが、

そこでしっかり学習してみると案外身近なものであることはよくあること

です。理論の理解と実験の順番は逆でも、同時でもよいでしょう。机上の

書籍と Excel の往復作業です。いずれにしても自分で納得できた手法を使

うことを勧めます。ちょっと面倒かもしれませんが、努力のあとで自分が

納得できる成果を得たとき、その達成感が次のステップにつながります。

Page 352: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

351

9. 図・グラフ

データ行列には多くの情報が含まれていますが、縦と横に並んだ数値の

連続のままでは、その情報を読み取ることが困難です。そこで、さまざま

なグラフを使って数値の情報を視覚化します。

ここで変数の関係を示す図を描くためのプログラムを扱います。Excel

の標準的なグラフにないものをマクロで作成しました。

9.1. 比率棒グラフ

入力データ「評価」は、スペイン語の授業についてのアンケートの結果で

す。たとえば、第 1 行の「文法解説」について、それがスペイン語の学習

上「効果がある」と思う人の総数は 86 名でした(総数 124 名)。また、同

じ項目が「楽しい」と思う人の総数は 29 名であることを示しています。

はじめに複数の棒グラフの間のパーセントの比較をします。

データと結果

項目 a.役立つ b.楽しい 項目 a.役立つ b.楽しい

A.文法解説 86 29

A.文法解説 0.75 0.25

B.ビデオ 53 78

B.ビデオ 0.40 0.60

C.活動 48 53

C.活動 0.48 0.52

D.映画 43 96

D.映画 0.31 0.69

E.音読 110 42

E.音読 0.72 0.28

F.筆写 93 11

F.筆写 0.89 0.11

G.観察 37 50

G.観察 0.43 0.57

H.小テスト 89 15

H.小テスト 0.86 0.14

*プログラムははじめに上右の表を作成し、これを参照して次のグラフを

表の上に出力します。グラフをドラッグして他の場所に移動すると、表の

内容を確認することができます。書式を「 0%」にすると次のようにパーセ

ント表示になります。

Page 353: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

352

9.2. バブルチャート

データの値をバブルの大きさで表示した散布図を作成します。

はじめに行と列に連番をつけ、これを標準化した値を X と Y の座標として

使います。それぞれの座標に位置するデータの値を第 3 列に用意します。

項目 行 列 値

1 -1.00 -1.53 86.00

2 1.00 -1.53 29.00

3 -1.00 -1.09 53.00

4 1.00 -1.09 78.00

5 -1.00 -0.65 48.00

6 1.00 -0.65 53.00

7 -1.00 -0.22 43.00

8 1.00 -0.22 96.00

9 -1.00 0.22 110.00

10 1.00 0.22 42.00

11 -1.00 0.65 93.00

12 1.00 0.65 11.00

13 -1.00 1.09 37.00

14 1.00 1.09 50.00

15 -1.00 1.53 89.00

16 1.00 1.53 15.00

次にこれを参照してバブルチャートを出力します。

Page 354: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

353

*この図は Excel の「条件付き書式」の「データバー」(下図)とほとん

ど同じ情報を示しますが、列と行の参照値を座標としていることが異なり

ます。→『基礎』 p.**.

9.3. ボックスチャート

「QT ボックスチャート」は最大値、最小値、第 1 四分点、第 3 四分点、中

央値を使ってデータの分布の様子を示します。四分点と中央値については

→『基礎』(p.**)。ボックスチャートはデータの分布の様子(拡がりと中央

値の位置)を観察するときに役立ちます。プログラムはデータ行列から次

の表を作成します。

Page 355: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

354

結果

要約値 a.役立つ b.楽しい

第 3 四分位数 90.00 59.25

最大値 110.00 96.00

最小値 37.00 11.00

第 1 四分位数 46.75 25.50

中央値 69.50 46.00

次にこれを参照してボックスチャートを出力します。

「SD ボックスチャート」を選択すると要約値として平均と標準偏差 (Sd)を

使います。

要約値 a.役立つ b.楽しい

平均 + Sd 95.70 74.31

最大値 110.00 96.00

最小値 37.00 11.00

平均 - Sd 44.05 19.19

平均 69.88 46.75

Page 356: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

355

9.4. 二変数対比図

棒グラフの一種である対比図は棒が左右に伸びていくので、それぞれの量

を比べながら観察するときに便利です。「最大値」は、セル内の最大値を

超える値で切りのよい数を設定をします。ここではセルの最大値が 110 な

ので、グラフの最大値を 120 とします。

プログラムははじめに次のような行を反転した表を作成します。

項目 a.役立つ b.楽しい

H.小テスト 89 15

G.観察 37 50

F.筆写 93 11

E.音読 110 42

D.映画 43 96

C.活動 48 53

B.ビデオ 53 78

A.文法解説 86 29

次にこれを参照して次のような二変数対比図を出力します。

Page 357: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

356

結果

9.5. ラベル付き散布図

散布図は 2 つの変数をもつデータが 2 次元の平面上にどのような配置され

るのかを見るために使います(→『基礎』 p.**)。ここでは散布図の中に

データのラベル(項目名)を表示するラベル付き散布図を作ります。

*この図を見ると、それぞれの項目が「+楽しい・-役立つ」のグループ

と、「-楽しい・+役立つ」のグループに分類できることがわかるでしょ

う。次は「描画キャンパス」を使ってそれぞれのグループを○で囲ってみ

ました。

Page 358: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

357

9.6. 始点・終点棒グラフ

Excel の積み上げ棒グラフの奇数番号の成分の色と枠線を消すことによ

って、始点 (s1, s2, …)と終点 (e1, e2, …)の範囲を示すグラフを作成します 81。

プログラムで次の下左表(入力行列)から下右表(作業行列)を作成し、

この作業行列を使ってグラフを出力します。下右表は、入力行列の行方向

の増加分だけにした行列です。

X s1 e1 s2 e2

X s1 e1 s2 e2

d1 1 3 5 8

d1 1 2 2 3

d2 2 4 7 10

d2 2 2 3 3

d3 2 5 8 9

d3 2 3 3 1

d4 3 8

d4 3 5 -8 0

Excel の棒グラフは、これを積み上げて、連続する 4 つの部分棒からな

る次のような棒グラフを作ります。このとき、データの行/列を切り替え、

軸を反転し、データラベルを記入します。

81

堀川遼太さんの創案です (2015)。

Page 359: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

358

プログラムは上の s1, s2 の背景色をなくし、 e1, e2 の色を統一し、さら

に入力行列がゼロの領域を消して (d4:e2)、次のグラフを出力します。

s1

s1

s1

s1

e1

e1

e1

e1

s2

s2

s2

s2

e2

e2

e2

e2

-10 -5 0 5 10 15

d1

d2

d3

d4

s1

e1

s2

e2

d1: 1-3

d2: 2-4

d3: 2-5

d4: 3-8

d1: 5-8

d2: 7-10

d3: 8-9

0 2 4 6 8 10

d1

d2

d3

d4

Page 360: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

359

10. Excel の操作

以下では、Excel シートに直接関数を書き込むことはしないで、データ行

列全体を選択し、それを対象にして、プログラムを使って、様々な変換や

分析を行います。プログラムは Excel の VBA (Visual Basic for Ap plication)

を使います。

私たちが開発してきた NUMEROS のすべてのプログラムコードを解説す

ることはスペースの関係でできません。また、プログラムは随時改訂して

いるので、バージョンがすぐ古くなってしまいます。一定のコーディング

を習得した後では、全体のプログラムの解説は不要になると思います。そ

こで、プログラムでは NUMEROS の主要部だけを取り上げて簡単に説明し

ます。ここでは、行列を受け取って一定の演算をした行列を返す一連の関

数を「行列関数」とよぶことにします。行列関数の引数は Variant 型の変

数です。

このテキストでは、おもに言語の変化・変異を数量的に分析する方法を

説明しますので、プログラムで用いる様々な関数やコードの規則について

は、自分に適した難易度の本を選択して、各自自習しておいてください。

Excel の Help やウェブで提供されている多くの情報も役立ちます。

10.1. 相関係数

(1) 次のデータを使用します(前節と同じものです)。

鍵語 1 Madrid 2 Sevilla

a 151 163

con 38 45

de 202 195

en 105 81

por 54 45

(2) 次の計算をします。

B7 =SIM(B2:B6)

B8 =AVERAGE(B2:B6)

B9 =STDEVP(B2:B6)

Page 361: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

360

(3) B7:B9 をコピーし、C7 に貼付けます。

(4) D2 に標準得点の式を入れます。

D2 =(B2-B$8)/B$9

(5) D2 を D2:E6 にコピー。桁数が不統一だと比較しにくいので D, E 列の書

式を小数点以下 3 とします。

(6) B7:C9 をコピーして D7 に貼付けます。

これで正しく標準化されたことがわかります。次に、これらの数値をもと

に相関係数を求めてみましょう。まず、それぞれの項目の標準得点の積と

全体の積平均を求めます。

Page 362: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

361

F2 = D2*E2

F2 を (F3:F6)にコピー

(B7:B8)を (F7:F8)にコピー

これで標準得点をもとに相関係数を求めることができました。

結果を確認するために、Excel 関数を使って相関係数を算出し比較してみ

ましょう。Excel には COREEL という関数が用意されており、対象となる

2 つのデータをコンマ区切りで選択します。

B10 =CORREL(B2:B6,C2:C6)

F8 と B10 の値が同じになることを確認しましょう。

それぞれの特徴を見るために値を操作するのに「スピンボタン」を使うと

便利です。

(1) はじめにリボンに「開発」タブを設定します。◆「ファイル」→「オ

プション」→「リボンのユーザー設定」→ ]を選択し、「リボンのユーザー

設定」で「メインタブ」の「開発」のチェックボックスをオンにします。

Page 363: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

362

Excel 2007:「Office ボタン」→「Excel のオプション」→「基本設定」→

「 [開発 ]タブをリボンに表示する」をチェック

(2)「開発」→「コントロール」→「挿入」→「フォームコントロール」の

中のスピンボタンをクリック→シート内の適当な位置にドラッグして配置

します。

(3) シートに配置したスピボタンを右クリック→「コントロールの書式設

定」

Page 364: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

363

(4) 「コントロール」タブ→「最小値」「最大値」「変化の増分」「リン

クするセル」を設定します。「リンクするセル」にスピンボタンによる入

力の結果が表示されます。

(5) スピンボタンなどのコントロールは右クリックすることにより、大き

さの変更、ドラッグ、コピー、などが可能になります。

スピンボタンは便利なのですが、たとえば 1 から 100 まで移動するときは

大変です。スピンボタンをつけたらそれでしか値が操作できなくなるとい

うわけではなく、直接セルに 100 と記入することもできます。

10.2. 連関係数

連関係数を使ってデータを比較するにはまず量的なデータを質的なデータ

に変換する必要があります。これには IF 関数を使えば便利です。例として

次のデータを使用します。

Page 365: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

364

(1) はじめに、量的データの質化の基準を設定します。

A17 を質的データに変換するための基準値とします。この値よりも大きい

場合、「 1」に変換するというルールにします。0 よりも大きいときに変換

する場合は F17=0 と記入しておきます。

(2) IF 関数を使って量的データ (B2)を質的データ (E2)に変換します。

E2=IF(B2>$F$17, 1, 0)82

この式の意味は、E2 が基準値の値 (0)よりも大きい場合は、1 をそれ以

外は 0 を返す、ということです。

(3) E2 を E2:F16 にコピーします。これで 0 より大きい値を 1 と表示するこ

とができました。

次に、さきほどの変換の結果を基に、共通して使われているもの、一方だ

け使われているもの、どちらも使われていないものを集計しましょう。

82 ここでは基準値を動かすことができるように $F$17 としましたが、下記

のように $F$17 を使用しなくても同じ結果を得ることができます。

E2=IF(B2>0, 1, 0)

Page 366: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

365

(5) はじめに E2 と F2 を対象としてデータを入力します。

H2 =IF(AND($E2=1, $F2=1), 1, 0)

この式の意味は、E2(手紙)と F2(演劇)が共に 1 の場合、1 を返し、そ

れ以外は 0 にする、ということです。AND を使って複数の条件を指定して

いることに注意してください。

H2 を I2:K2 にコピーして、一部を次のように修正します。

I2=IF(AND($E2=1, $F2=0), 1, 0)

J2=IF(AND($E2=0, $F2=1), 1, 0)

K2 IF(AND($E2=0, $F2=0), 1, 0)

(6) H2:K2 を H2:K16 にコピーします。

(7) G17 を書き込み、SIM で H17:K17 を計算します。

H17 =SIM(H2:H16)

H17 を I17:K17 にコピーします。 I17 =SIM(I2:I16)

J17 =SIM(J2:J16)

K17 =SIM(K2:K16)

最終的には次のような値になります。

これで四象限での集計が完了です。

Page 367: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

366

各種の連関係数

それでは各種の連関係数を計算してみましょう。

M19:M27 でそれぞれの係数を求めます。

(1) 共起回数:M19=H17

(2) Simple match 係数:M20=(H17+K17)/(H17+I17+J17+K17)

(3) Russel and Rao 係数:M21=H17/(H17+I17+J17+K17)

(4) Jaccard 係数:M22=H17/(H17+I17+J17)

(5) Yule 係数:M23=((H17*K17)-(I17*J17))/((H17*K17)+(I17*J17))

(6) Hamann 係数:M24=((H17+K17)-(I17+J17))/((H17+K17)+(I17+J17))

(7) Phi 係数:

M25=((H17*K17)-(I17*J17))

/SQRT((H17+I17)*(H17+J17)*(I17+K17)*(J17+K17))

(8) Ochiai 係数:M26=H17/SQRT((H17+I17)*(H17+J17))

(9) Prominence 係数:M27=(H17/(H17+I17)+H17/(H17+J17))/2

(10) Preference 係数:M30=(2*H17-I17-J17)/(2*H17+I17+J17)

10.3. マクロプログラム

Excel VBA によるマクロプログラム (NIMEROS.xlsm)を使って言語資料

の分析をします。そのときに用いる簡単な統計の概念についても説明しま

す。ここで扱う統計的手法の多くは一般の参考書(→参考書)で説明され

ているものですが、一部は私たちが提案する手法や計算法も含めます。

Page 368: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

367

Excel ファイル NIMEROS.xlsm は Excel2010, Excel2013 で動作します。起

動時にマクロを有効にしてください。

すべての演算の対象は次のような行列です。シート内の一定の範囲に展

開されているデータは条件として次のような構成にしなければなりません。

A v1 v2 v3 v4 v5

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

この行列は「タイトルセル」 (A), 「タイトル行」 (v1, v2, …, v5),「タイ

トル列」(d1, d2, d3, d4),「データ」(10, 19, …, 3, 3)という構成になります。

この行列を「データ行列」Dnp とよびます。Dn p(1,1)=10, Dn p(1,2)=19, とい

う行列です。タイトルセルは Dn p(0,0)に、タイトル行は Dnp(0,1), Dnp(0, 2), …

に、タイトル列は Dn p(1, 0), Dn p(2,0), …に格納されます。

シート内の上のようなデータの一部のセルを選択し、 NIMEROS の「入

力 1」ボタンを押すと、その行列全体が選択されます。その後、この行列

から離れたセルをクリックし、「出力」ボタンを押すと、選択されたセル

が出力の開始セルになります。ここが出力領域の上・左端になります。こ

のテキストで説明したさまざまな数値データ処理のメニューはタブを開い

て、選択してください。「始」以外のタブを開くと、「実行」ボタンがク

リックできる状態になります。

Page 369: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

368

次が「行列入力」のコードの主要部です。これを適当なコマンドボタン

と連結させます。

Sub MATRIX_INP IT() '●行列入力 ()

In p = Selection: N = Ir(In p) - 1: P = Ic(In p) - 1

ReDim Gn p(N, P)

For i = 0 To N: For j = 0 To P

Dn p(i, j) = In p(i + 1, j + 1) '入力行列

Next: Next

In p=Dnp

End Sub

Function Ir(Fn p): Ir = IBound(Fn p , 1): End Function '行数

Function Ic(Fn p): Ic = IBound(Fn p , 2): End Function '列数

バリアント型変数 In p に選択範囲 (Selection)の内容を代入し、N を行数、P

を列数とします。Ir と Ic はそれぞれ行列の行数と列数を返すユーザー定義

関数です (Function … End Function)。 Ibound(*, *)は Excel 関数です。概説書

やウェブで確認してください。Inp にはシートに選択された内容が、そのま

ま格納されてるので、 In p(1,1)="O.S"になります。行についても列について

も、番地を 1 つずつ減らして移動したものが Dn p です。For … Next を 0 か

ら N, 0 から P まで繰り返して移動します。その結果 Dn p(0,0)="O.S.",

Dn p(1,1)=10, …, Dnp(4,5)=3 になります。この Dn p を改めて In p に代入します。

この In p が新たな入力行列になります。これに、以下で説明する一定の処理

をして、できあがった行列を次の「行列出力」に渡します。ユーザーは、

適当なコマンドボタンと連結した次の「出力位置」を実行しておき、出力

位置の情報を確保しておきます。

Sub OITPIT_POSITION() '●出力位置

OpSheet% = ActiveSheet .Index '出力シート番号

Op Position$ = ActiveCell.Address(bF, bF) '出力位置のアドレス

OpRowNum& = ActiveCell.Row '出力位置の行番号

OpColNum& = ActiveCell.Column '出力位置の列番号

End Sub

これらを、「入力」「出力」ボタンに連動させます。

次が行列出力の主要部です。

Sub MATRIX_OITPIT(Fn p , F1&, F2&) '●行列出力

Sheets(OpSheet%).Select '出力シートを選択

Cells(OpRowNum&, OpColNum&).Offset(F1, F2).Select '出力セルを選択

Page 370: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

369

Selection.Resize(Ir(Fn p) + 1, Ic(Fn p) + 1).Select '拡大リサイズ

Selection = Fn p '行列を代入

End Sub

「出力位置」で得た出力シート番号で出力シートを選択し、出力位置の

セルを選択し、F1, F2 で位置を移動し(複数の出力がある処理のためです)、

さらに、行列の行数と列数にそれぞれ 1 を加えた数だけ拡大リサイズした

選択位置に行列 Fn p を代入します。これで指定されたシート位置に行列が

出力されます。

これを、たとえば、次のように出力部から呼び出します。

Sub MATRIX()

Dim Xnp , Yn p: Xn p = In p: Yn p = Dn p

Select Case fN.lstMat.ListIndex + 1 'ListBox

Case 1: Onp = Iv(fN.cboScalar1) '0.単位ベクトル _Iv

Case 2: Onp = Im(fN.cboScalar1) '1.単位行列_Im

'…

End Select

Call MATRIX_OITPIT(On p , 0, 0)

End Sub

ExcelVBA のプログラミングについては多くの書籍が出版されています。

ま た 、 ウ ェ ブ サ イ ト で も 情 報 が た く さ ん 得 ら れ ま す 。 以 下 で は 、

NIMEROS.xlsm の主要部のコードについて解説します。コード全体につい

ては VBA Editor を開いてください。

Page 371: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

370

11. 参考書

基礎

池田央 (1976)『統計的方法 I 基礎』新曜社(記述統計について数理と具体

例で納得できる説明がなされています)

石村貞夫 (1995)『グラフ統計のはなし』東京図書(やさしく説明してある

のでクラスター分析がどのようなものかがわかります)

芝祐順・渡部洋・石塚智一 (1984)『統計用語辞典』新曜社 (一般的な統計学

の用語と英語を知るのに便利です。参考書目も充実しています)

清水誠 (1996)『データ分析はじめの一歩』講談社ブルーバックス(書名の

とおりデータ分析法を学ぶために最初に読むとよいでしょう)

東京大学教養学部統計学教室 (1991)『統計学入門』(東京大学出版会) (理

論をしっかりと理解するために役立つ入門書です)

渡辺美智子・神田智弘 (2008)『統計データ分析』秀和システム(Excel を使

った記述統計学の分析法を具体的に説明しています)

応用・開発

足立堅一 (2005)『多変数解析入門:線形代数から多変数解析へ』篠原出版

新社.(多変数解析に向けて線形代数の基本を語りかけるような文体

で丁寧に説明されています)

Anderberg, Michael R. (1973) Cluster analysis for applications. New York,

Academic Press. 西田英朗・佐藤嗣二他訳『クラスター分析とその応用』

内田老鶴圃 (1988).(クラスター分析を知るための古典的な図書です)

Ávila, R. Samper, J. A. y Ueda, H. (2003) Pautas y pistas en el análisis del

léxico hispanoamericano. Iberoamericana Vervuert, 278 p p.(言語統計分析

の方法をスペイン語の語彙バリエーションの研究に応用しました)

Bertin, Jacques. (1977) La graphique et le traitement graphique de

lTinformation. Paris: Flammarion. 森田喬訳『図の記号学』平凡社 , 1982.

(ここで取り上げた集中分析に連関したことを手作業で実行していま

す)

Cahuzac, Philippe. (1980) "La División del español de América en zonas

dialectales: Solución etnolingüística o semántico -dialectal." Lingüística

Española Actual, 10, pp. 385-461.(集中分析で資料を引用しました)

Hartigan, J. A. (1975) Clustering Algorithms . New York. John Wiley & Sons.

長谷川勝也 (2001)『はじめての行列とベクトル』技術評論社 (高校で数学 III

を履修していない人ははじめてに読んでおくとよいでしょう)

Hoel, P. G. Introduction to mathematical statistics .浅井晃・村上正康訳 (1978)

Page 372: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

371

『入門数理統計学』培風館(少し難易度が高いですが、数式だけでな

く言葉による説明が多い本です)

Horst, Paul. (1965) Factor Analysis of Data Matrices . Holt, Rinehart and

Winston. 柏木繁男・芝祐順・池田央・柳井晴夫訳『コンピュータによ

る因子分析法』科学技術出版社 , 1978.(難解)

稲垣宣生 (2003)『数理統計学』裳華房(本格的な統計学の理論書。かなり

難解ですが問題解決のヒントが得られます)

倉田博史・星野崇宏 (2009)『入門統計解析』新生社(多くの統計数理の証

明が丁寧です。ジニ係数が詳しく説明されています)

小寺平治 (2002)『ゼロから学ぶ統計解析』講談社(書名のとおり統計解析

をはじめて勉強する人に適した本。抽象的な確率を具体的な例で説明

し、証明もわかりやすい)

井上勝雄 (1998)『パソコンで学ぶ多変数解析の考え方』筑波出版会(説明

がやさしくわかりやすいです。このテキストの数量化Ⅲ類・対応分析

のプログラミングで参考にしました)

井上勝雄・広川美津雄 (2000)『エクセルで学ぶ多変数解析の作り方』筑波

出版会(Excel VBA のプログラミング法の具体的な説明があります)

石井俊全 (2014)『意味がわかる多変数解析』ベレ出版(数理の証明がとて

もわかりやすく納得できます)

岩崎学・吉田清隆 (2006)『統計的データ解析入門 線形代数』東京図書(線

形代数のエッセンスを簡潔に説明しています)

河口至商 (1978)『多変数解析入門 I, II』森北出版 (連関係数行列の説明が参

考になります)

小林竜一 (1967)『社会科学のための数学概説』共立出版 (私が 1 年生のとき

の数学の教科書。今でも参照しています)

三野大來 (2001)『統計解析のための線形代数』共立出版(多変数解析にと

って重要な行列演算が簡潔にわかりやすく説明されていて、行列関数

によるプログラミングにとても役立ちます。このテキストでも各所で

応用しました)

長沢伸也・中山厚穂 (2009)『Excel ソルバー多変量解析:因果関係分析・予

測手法編』日科技連(ロジスティック回帰分析の方法を参照しました)

永田靖 (2005)『統計学のための数学入門 30 講』朝倉書店(文系の高校数学

を超える数理についてはこの本を参考にするとよいでしょう)

縄田和満 (1999)『Excel による線形代数入門』朝倉書店(Excel の操作を通

して数理と具体的な方法が学べます)

荻野綱男 (1980)「敬語における丁寧さの数量化:札幌における敬語調査か

ら (2)」『国語学』vol. 120, pp. 13-24.(クロス集計表の簡易的な両軸の

数量化法が提案されています。この数量化された軸を使って集中分析

をすることができます)

Page 373: 言語研究のための数値データ分析法 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...NUMEROS.docx ver. 2015.12.15 言語研究のための数値データ分析法 2015

372

奥野忠一・久米均・芳賀敏郎・吉澤正 (1971)『多変量解析法』日科技連(本

格的な学術書)

奥村晴彦 (1986)『パソコンによるデータ解析入門.数理とプログラミング

実習』技術評論社 .(BASIC 言語によるプログラムがあります。クラス

タリングとデンドログラムのマクロはこのプログラムを参考にしまし

た)

Rosemburg, Ch. H. (1989) Cluster analysis for researchers . Robert E. Krieger

Publishing Company, Inc. Malabar, Florida . 西田英朗・佐藤嗣二訳『実

例クラスター分析』内田老鶴圃 (1992).

芝祐順 (1975)『行動科学における相関分析法』東京大学出版会.(さまざ

まな相関分析法が簡潔に説明されています。巻末の FORTRAN プログ

ラムが参考になります)

芝祐順・南風原朝和 (1990)『行動科学における統計解析法』東京大学出版

会.(統計の各種指標の理論的な背景がわかります)

白井豊 (2009)『Excel と VBA による実用数値解析入門』ゆたか創造舎.(固

有値と重回帰分析のプログラムを参考にしました)

高村大也 (2010)『言語処理のための機械学習入門』コロナ社.(数式の意

味が例題の具体例でわかるように工夫されています)

高橋信 (2005)『Excel で学ぶコレスポンデンス分析』オーム社.(対応分析

の手順が具体的にわかりやすく説明されています。この本を参照しな

がらこのテキストのプログラムを作成しました)

竹内啓・柳井晴夫 (1972)『多変数解析の基礎』東洋経済新報社(Horst では

わかりにくい Varimax 法の理論を詳しく論じています)

内田治 (2002)『すぐわかる EXCEL による回帰分析』東京書籍(数値例を使

って Excel 関数による分析をしているので方法が具体的に理解できま

す。ロジスティック回帰分析について参照しました)

安田三郎・海野道朗 (1977)『社会統計学』(改訂 2 版)丸善(クラスター

分析がわかりやすく具体的に解説されています)

*はじめて行列・ベクトルについて勉強する人は、長谷川 (2001)→縄田

(1999)→三野 (2001)→芝 (1975)→白井 (2009)の順で読み進めるとよいでしょ

う。

*はじめて確率について勉強する人は、小寺 (2002)→倉田・星野 (2009))→

Hoel(1978)→稲垣 (2003))の順で読み進めるとよいでしょう。

[FIN]