Gengo Africa
Transcript of Gengo Africa
1
言語アフリカ起源説(Science, Atkinson 2011)
niam江原 遥
2
自己紹介
• 計算言語学の院生です• ユーザの語学力を推定して、分からなそう
な語にあらかじめ訳をつけておく読解支援システムの研究をしてきました。
• ローマ字で書くと名前が 7 文字です。
http://yoehara.com/
3
Science, Atkinson 2011 の衝撃
NLP 界でも話題になっている
4
大学にいるメリット:論文をダウンロード出来る特徴:• 論文本体はたった3ページ!
– ( Science だから)– ただし、 Supporting Online Material が付いており、
これは 38 ページぐらいある• データは zip で配布されてる WALS dataset• 手法: Phonemic diversity (音素数)をアフリ
カからの距離で線形回帰。• アフリカ起源: 2,560 箇所の候補地から BIC でモ
デル選択して結果アフリカ。
5
図でざっと見る
6
音素が減る原理:創始者効果 (founder effect)• すぐに思いつく疑問:
– 音素が増える場合を考えてるの?→考えてます。• 創始者効果とは:「隔離された個体群が新しく作られるとき
に、新個体群の個体数が少ない場合、元になった個体群とは異なった遺伝子頻度の個体群が出来ること」
• 個体群が分裂する際に、音素が減るケースの方が多ければ、音素はアフリカからの距離に対して漸減する。 旧個体群
新個体群
7
遺伝学領域との関連
アフリカからの距離は• Neutral genetic markers の 80% ~ 85%• Human mitochondrial DNA の 18%• Phenotypic data の 14%~18%• Phonemic diversity の 19%を説明する。
← この論文の貢献
8
本日の流れ
• 音素と発音– 子音– 母音
• 古代の音を復元してみる– ラテン語の [r] の音を例に取って復元を体験し
てみる– 音が減るとき増えるとき
• アフリカの言語の音• 線形回帰
– BIC
PRML や情報理論の基礎の方が分かりやすく正確に書いてあります
音声学の基本的な話。音声学の専門家では全然ないので間違いがきっとあります。
9
音素
• この論文は、 phonemic diversity (音素数)をアフリカの言語からの距離で線形回帰している
• 世界の言語の音は、大体、 IPA (国際音声字母)で表現できる。
• 子音、母音の順に見ていきます。
10
子音:調音位置 x 調音方法
ここにきちんと現れていない区別:無声音、有声音、有気音
調音位置
11
有声音、無声音、有気音:
閉鎖音に有声音、無声音、有気音の区別。p/b, p/ph の区別はよくある。日本語や英語は p/b 。 p/ph の区別は中国語・韓国語でおなじみ。p/b/ph の3つを区別する言語の例:古代ギリシア語。ギリシア文字はもともと…π /β/ φ: p/b/phτ/δ/θ: t/d/thκ/γ/χ: k/g/khという音だった。
12
有声音、無声音、有気音は何が違う?: Voice Onset Timep/b の区別は我々には母語。 p/ph の区別は、中国語の入門書でも「 ph は強く発音します」などの不正確な記述が多く入門者は混乱。厳密には voice onset time 声帯を震わせるタイミン
グが違う。b
p
ph
13
色々な言語の VOT
14
余談:無声鼻音
鼻音 (Nasal) は、世界のどの言語でも大抵有声。しかし、無声鼻音は発音できないわけではない。/m/ は最も基本的な音なのに、なぜ p/ph の区別をする言語でも /m/ は有声なのか?→ 母音が続かないと聞こえないから。
15
異音 (allophone)歯茎 軟口蓋
za a
da a
na a
摩擦
破裂
鼻
16
異音 (allophone)歯茎 軟口蓋
za a
da a
na a
摩擦
破裂
鼻
ざ
だ
な がどの音素を区別して音韻に対応させるかは言語によって恣意的。「言語とは恣意的なものである」 by ソシュール余談:格助詞の「が」は / a/ で発音すべきか?アナウンサーの鼻母音問題。
17
母音: openness x backness x roundedness
18
日本語の母音
最大の特徴:「う」~非円唇の u ~「い→う」で backness の練習が出来る!
19
Backness は第2フォルマントに対応Praat で、「い→う→い」と連続的に発音してみる
い う い
20
California English の母音
21
日本語の母音と英語の母音を重ねてみる
黒:日本語セピア色:英語
22
日本語の母音と英語の母音を重ねてみる
この辺が日本語話者にとって難しいはず。
23
英語の母音の練習方法:
日本語の / あ / から、Backness を前後に振る練習を僕はしました。
cat father
24
Father-brother merger
25
Suprasegmentals:vowel length や tone など
Vowel length→↓tone
short long
低はじまり yuki (雪) yu:ki (悠木)
高はじまり yuki (有希) yu:ki (勇気)
• 長短 x高低 x5 母音 =20種類ある?通常、「音素」といった場合にSuprasegmentals はカウントしない。が、今回の解析では、 tone の数は前処理でカウントしているらしい。Suprasegmentals の他の例: vowel nasality (台湾語)や母音調和(モンゴル語)
26
母音調和
• 一語の中に現れる母音の組み合わせに一定の制限が生じる現象のこと。
• 上のモンゴル語の例では、「女性母音と男性母音はそれぞれ一語中で共存できないが、中性母音はどちらとも共存できる」らしい。
• アルタイ語系の言語には、母音調和が見られる。• 日本語がアルタイ語系統であることを示すには、
古代日本語に母音調和が存在したかどうかが議論される。
27
古代語の音を復元する~ラテン語の場合~ラテン語の簡単な紹介:• 長短2つの Vowel length の区別があっ
た:– 日本語と同じ!
母音の長短が表記されていないだけ。Ave Maria→Ave: MariaPuella magi Madoka magica→Puella magi: Madoka magica• 母音の数も a,e,i,o,u の5つで日本語と同じ。
28
ラテン語を例にあげた理由:系統が分かっているから
29
ラテン語の [r]
ラテン語の [r] の音は何だったか?
Dental/alveolar trill か uvular trill かどっち?
“r” と表記される音は、現代語でもこんなにたくさんある。R は littera canina(犬の字)との記述からたぶん、 trill である。(犬の唸り声)
30
古代の音を復元する~ Rhotacism~母音に挟まれた /s/ が /r/ の音になる!ラテン語 genus (種は) →英語 genusラテン語 generis (種の) →英語generics/s/ が /r/ に変化するということは、ラテン語の [r] の調音位置は /s/ と同じ部分であった可能性が高い→uvular trill の可能性が消えて、ラテン語の[r] は alveolar trill であったことが分かる。
31
Guttural Rラテン語の [r] はalveolar trill であることが分かった。一方、今のフランス語の [r] は uvular fricative.いつ [r] は uvularになったのか?18 世紀中頃~後半と言われている。
33
音素が減るとき:日本語の「ひ」と「し」の区別
ひし
34
音素が増えるときの一例:suprasegmentals が崩れるとき
古典ラテン語→Vulgar Latinの変化の際に、vowel length の区別が消失し、代わりに、音価で音を区別するようになった。
フランス語→
35
図でざっと見る(再掲)
36
アフリカの言語の音~クリック音~• Khoekhoe 語のビデオ
37
Xhosa 語 (コサ語)
話者約160万人Nelson Mandela元大統領はXhosa 語話者らしいです。
38
図でざっと見る(再掲)
39
Piraha 語
40
WALS データセット
The World ATLAS of language structures 504 言語について色々な特徴が記述されている。全部ダウンロード出来る。言語処理学会でも使われていたりする• Relation between Word Order Characteristics and
Suicide/Homicide Rates (2), ○ 江原暉将 (山梨英和大 ), NLP2011
• 数理的手法を用いた日本語の系統に関する考察 , ○ 小橋昌明 , 田中久美子 ( 東大 ), NLP2011
この手の研究をしようと思うと、実質、これ一択?
41
Phonemic diversity
Phoneme diversity と phonemic diversity の 2種類が使われているが…たぶん、同じ。WALS には、 consonant の数、 vowel の数、 toneの数の3つの情報が入っている。 (small [2-4], medium [5-6], large [7-14]), consonant (small [6-14], moderately small [15-18], average [19-25], moderately large [26-33], large [34+])
前処理として、どうやら、次のことをやり、 phonemic diversity と呼んでいるらしい。pd = n(n(c)+n(v)+n(t))n(x) は平均 0 、分散 1 で正規化。
42
線形回帰
43
アフリカ起源
• 2,560 箇所の候補地を作る。候補地からの距離とphonemic diversity を線形回帰し、 BIC でモデル選択した結果、アフリカ起源だと思うのが一番良いという結果に。
• Controlling for other demographic variables in this way, sub-Saharan Africa remains the most likely area of origin (fig. S7).
44
BIC
BIC はベイズ的にはモデルエビデンスの近似モデルエビデンス:
データが出てくる確率をパラメータで周辺かしたもの。 PRML3章 , 4章。また、 MDL の枠組みでは、モデルとデータの総符号長 (MDL) と一致。オッカムのかみそり。
45
線形回帰
47
BIC
48
BIC
PRML4章章末
情報理論の基礎 5.4
49
BIC
5.5
50
BIC
w_2 がwell-determinedパラメータ。PRML3.5.3
PRML4.4.1
51
論文中でやっているが今回省いたこと線形回帰の P値も出している。 Mantel test もしている。言語の起源が複数ある場合とも比較して、アフリカ単一起源の方が当てはまりがよいことを示している。語族( Language family )による影響を考えるために、• Language family でまとめて回帰をかけたり• 階層線形回帰をやったりしている。Language expansion としては、人類のアフリカからの exodus の他に、より新しく、最終氷河期(LGM) の後のものが考えられる。そこで、 LGM の後に言語拡散したモデルとも比較している。
52
まとめ
• 言語の起源がアフリカであること自体は、信じていいんじゃないでしょうか。
• 創始者効果を表していることも信じていいのかなぁ…?
• ただ、 BIC だけに頼っているのはちょっと不安。モデルエビデンスをより正確に近似してもいいのでは。
• Vowel, consonant, tone の 3次元の空間で線形回帰したらどうなるのだろう…?
53
ご清聴ありがとうございました。