Gengo Africa

51
言言言言言言言言言 (Science, Atkinson 2011) niam 言言 言 1

Transcript of Gengo Africa

Page 1: Gengo Africa

1

言語アフリカ起源説(Science, Atkinson 2011)

niam江原 遥

Page 2: Gengo Africa

2

自己紹介

• 計算言語学の院生です• ユーザの語学力を推定して、分からなそう

な語にあらかじめ訳をつけておく読解支援システムの研究をしてきました。

• ローマ字で書くと名前が 7 文字です。

http://yoehara.com/

Page 3: Gengo Africa

3

Science, Atkinson 2011 の衝撃

NLP 界でも話題になっている

Page 4: Gengo Africa

4

大学にいるメリット:論文をダウンロード出来る特徴:• 論文本体はたった3ページ!

– ( Science だから)– ただし、 Supporting Online Material が付いており、

これは 38 ページぐらいある• データは zip で配布されてる WALS dataset• 手法: Phonemic diversity (音素数)をアフリ

カからの距離で線形回帰。• アフリカ起源: 2,560 箇所の候補地から BIC でモ

デル選択して結果アフリカ。

Page 5: Gengo Africa

5

図でざっと見る

Page 6: Gengo Africa

6

音素が減る原理:創始者効果 (founder effect)• すぐに思いつく疑問:

– 音素が増える場合を考えてるの?→考えてます。• 創始者効果とは:「隔離された個体群が新しく作られるとき

に、新個体群の個体数が少ない場合、元になった個体群とは異なった遺伝子頻度の個体群が出来ること」

• 個体群が分裂する際に、音素が減るケースの方が多ければ、音素はアフリカからの距離に対して漸減する。 旧個体群

新個体群

Page 7: Gengo Africa

7

遺伝学領域との関連

アフリカからの距離は• Neutral genetic markers の 80% ~ 85%• Human mitochondrial DNA の 18%• Phenotypic data の 14%~18%• Phonemic diversity の 19%を説明する。

← この論文の貢献

Page 8: Gengo Africa

8

本日の流れ

• 音素と発音– 子音– 母音

• 古代の音を復元してみる– ラテン語の [r] の音を例に取って復元を体験し

てみる– 音が減るとき増えるとき

• アフリカの言語の音• 線形回帰

– BIC

PRML や情報理論の基礎の方が分かりやすく正確に書いてあります

音声学の基本的な話。音声学の専門家では全然ないので間違いがきっとあります。

Page 9: Gengo Africa

9

音素

• この論文は、 phonemic diversity (音素数)をアフリカの言語からの距離で線形回帰している

• 世界の言語の音は、大体、 IPA (国際音声字母)で表現できる。

• 子音、母音の順に見ていきます。

Page 10: Gengo Africa

10

子音:調音位置 x 調音方法

ここにきちんと現れていない区別:無声音、有声音、有気音

調音位置

Page 11: Gengo Africa

11

有声音、無声音、有気音:

閉鎖音に有声音、無声音、有気音の区別。p/b, p/ph の区別はよくある。日本語や英語は p/b 。 p/ph の区別は中国語・韓国語でおなじみ。p/b/ph の3つを区別する言語の例:古代ギリシア語。ギリシア文字はもともと…π /β/ φ: p/b/phτ/δ/θ: t/d/thκ/γ/χ: k/g/khという音だった。

Page 12: Gengo Africa

12

有声音、無声音、有気音は何が違う?: Voice Onset Timep/b の区別は我々には母語。 p/ph の区別は、中国語の入門書でも「 ph は強く発音します」などの不正確な記述が多く入門者は混乱。厳密には voice onset time 声帯を震わせるタイミン

グが違う。b

p

ph

Page 13: Gengo Africa

13

色々な言語の VOT

Page 14: Gengo Africa

14

余談:無声鼻音

鼻音 (Nasal) は、世界のどの言語でも大抵有声。しかし、無声鼻音は発音できないわけではない。/m/ は最も基本的な音なのに、なぜ p/ph の区別をする言語でも /m/ は有声なのか?→ 母音が続かないと聞こえないから。

Page 15: Gengo Africa

15

異音 (allophone)歯茎 軟口蓋

za a

da a

na a

摩擦

破裂

Page 16: Gengo Africa

16

異音 (allophone)歯茎 軟口蓋

za a

da a

na a

摩擦

破裂

な がどの音素を区別して音韻に対応させるかは言語によって恣意的。「言語とは恣意的なものである」 by ソシュール余談:格助詞の「が」は /   a/ で発音すべきか?アナウンサーの鼻母音問題。

Page 17: Gengo Africa

17

母音: openness x backness x roundedness

Page 18: Gengo Africa

18

日本語の母音

最大の特徴:「う」~非円唇の u ~「い→う」で backness の練習が出来る!

Page 19: Gengo Africa

19

Backness は第2フォルマントに対応Praat で、「い→う→い」と連続的に発音してみる

い う い

Page 20: Gengo Africa

20

California English の母音

Page 21: Gengo Africa

21

日本語の母音と英語の母音を重ねてみる

黒:日本語セピア色:英語

Page 22: Gengo Africa

22

日本語の母音と英語の母音を重ねてみる

この辺が日本語話者にとって難しいはず。

Page 23: Gengo Africa

23

英語の母音の練習方法:

日本語の / あ / から、Backness を前後に振る練習を僕はしました。

cat father

Page 24: Gengo Africa

24

Father-brother merger

Page 25: Gengo Africa

25

Suprasegmentals:vowel length や tone など

Vowel length→↓tone

short long

低はじまり yuki  (雪) yu:ki  (悠木)

高はじまり yuki  (有希) yu:ki  (勇気)

• 長短 x高低 x5 母音 =20種類ある?通常、「音素」といった場合にSuprasegmentals はカウントしない。が、今回の解析では、 tone の数は前処理でカウントしているらしい。Suprasegmentals の他の例: vowel nasality (台湾語)や母音調和(モンゴル語)

Page 26: Gengo Africa

26

母音調和

• 一語の中に現れる母音の組み合わせに一定の制限が生じる現象のこと。

• 上のモンゴル語の例では、「女性母音と男性母音はそれぞれ一語中で共存できないが、中性母音はどちらとも共存できる」らしい。

• アルタイ語系の言語には、母音調和が見られる。• 日本語がアルタイ語系統であることを示すには、

古代日本語に母音調和が存在したかどうかが議論される。

Page 27: Gengo Africa

27

古代語の音を復元する~ラテン語の場合~ラテン語の簡単な紹介:• 長短2つの Vowel length の区別があっ

た:– 日本語と同じ!

母音の長短が表記されていないだけ。Ave Maria→Ave: MariaPuella magi Madoka magica→Puella magi: Madoka magica• 母音の数も a,e,i,o,u の5つで日本語と同じ。

Page 28: Gengo Africa

28

ラテン語を例にあげた理由:系統が分かっているから

Page 29: Gengo Africa

29

ラテン語の [r]

ラテン語の [r] の音は何だったか?

Dental/alveolar trill か uvular trill かどっち?

“r” と表記される音は、現代語でもこんなにたくさんある。R は littera canina(犬の字)との記述からたぶん、 trill である。(犬の唸り声)

Page 30: Gengo Africa

30

古代の音を復元する~ Rhotacism~母音に挟まれた /s/ が /r/ の音になる!ラテン語 genus  (種は) →英語 genusラテン語 generis (種の) →英語generics/s/ が /r/ に変化するということは、ラテン語の [r] の調音位置は /s/ と同じ部分であった可能性が高い→uvular trill の可能性が消えて、ラテン語の[r] は alveolar trill であったことが分かる。

Page 31: Gengo Africa

31

Guttural Rラテン語の [r] はalveolar trill であることが分かった。一方、今のフランス語の [r] は uvular fricative.いつ [r] は uvularになったのか?18 世紀中頃~後半と言われている。

Page 32: Gengo Africa

33

音素が減るとき:日本語の「ひ」と「し」の区別

ひし

Page 33: Gengo Africa

34

音素が増えるときの一例:suprasegmentals が崩れるとき

古典ラテン語→Vulgar Latinの変化の際に、vowel length の区別が消失し、代わりに、音価で音を区別するようになった。

フランス語→

Page 34: Gengo Africa

35

図でざっと見る(再掲)

Page 35: Gengo Africa

36

アフリカの言語の音~クリック音~• Khoekhoe 語のビデオ

Page 36: Gengo Africa

37

Xhosa 語 (コサ語)

話者約160万人Nelson Mandela元大統領はXhosa 語話者らしいです。

Page 37: Gengo Africa

38

図でざっと見る(再掲)

Page 38: Gengo Africa

39

Piraha 語

Page 39: Gengo Africa

40

WALS データセット

The World ATLAS of language structures 504 言語について色々な特徴が記述されている。全部ダウンロード出来る。言語処理学会でも使われていたりする• Relation between Word Order Characteristics and

Suicide/Homicide Rates (2), ○ 江原暉将 (山梨英和大 ), NLP2011

• 数理的手法を用いた日本語の系統に関する考察 , ○ 小橋昌明 , 田中久美子 ( 東大 ), NLP2011

この手の研究をしようと思うと、実質、これ一択?

Page 40: Gengo Africa

41

Phonemic diversity

Phoneme diversity と phonemic diversity の 2種類が使われているが…たぶん、同じ。WALS には、 consonant の数、 vowel の数、 toneの数の3つの情報が入っている。 (small [2-4], medium [5-6], large [7-14]), consonant (small [6-14], moderately small [15-18], average [19-25], moderately large [26-33], large [34+])

前処理として、どうやら、次のことをやり、 phonemic diversity と呼んでいるらしい。pd = n(n(c)+n(v)+n(t))n(x) は平均 0 、分散 1 で正規化。

Page 41: Gengo Africa

42

線形回帰

Page 42: Gengo Africa

43

アフリカ起源

• 2,560 箇所の候補地を作る。候補地からの距離とphonemic diversity を線形回帰し、 BIC でモデル選択した結果、アフリカ起源だと思うのが一番良いという結果に。

• Controlling for other demographic variables in this way, sub-Saharan Africa remains the most likely area of origin (fig. S7).

Page 43: Gengo Africa

44

BIC

BIC はベイズ的にはモデルエビデンスの近似モデルエビデンス:

データが出てくる確率をパラメータで周辺かしたもの。 PRML3章 , 4章。また、 MDL の枠組みでは、モデルとデータの総符号長 (MDL) と一致。オッカムのかみそり。

Page 44: Gengo Africa

45

線形回帰

Page 45: Gengo Africa

47

BIC

Page 46: Gengo Africa

48

BIC

PRML4章章末

情報理論の基礎 5.4

Page 47: Gengo Africa

49

BIC

5.5

Page 48: Gengo Africa

50

BIC

w_2 がwell-determinedパラメータ。PRML3.5.3

PRML4.4.1

Page 49: Gengo Africa

51

論文中でやっているが今回省いたこと線形回帰の P値も出している。 Mantel test もしている。言語の起源が複数ある場合とも比較して、アフリカ単一起源の方が当てはまりがよいことを示している。語族( Language family )による影響を考えるために、• Language family でまとめて回帰をかけたり• 階層線形回帰をやったりしている。Language expansion としては、人類のアフリカからの exodus の他に、より新しく、最終氷河期(LGM) の後のものが考えられる。そこで、 LGM の後に言語拡散したモデルとも比較している。

Page 50: Gengo Africa

52

まとめ

• 言語の起源がアフリカであること自体は、信じていいんじゃないでしょうか。

• 創始者効果を表していることも信じていいのかなぁ…?

• ただ、 BIC だけに頼っているのはちょっと不安。モデルエビデンスをより正確に近似してもいいのでは。

• Vowel, consonant, tone の 3次元の空間で線形回帰したらどうなるのだろう…?

Page 51: Gengo Africa

53

ご清聴ありがとうございました。