GNMT CH10180 第10章 連鎖解析に見る尤度と変数 10.2...

20
10 連鎖解析に見る尤度と変数 10.1 尤度を使った形質マッピング ―― 連鎖解析 尤度の計算は、とりうる仮説のすべてについて、観察データをもたらす確率 を計算することから始まります。連鎖解析とは、DNA 配列上にある、形質原因変異の位置を探索する手法の 1 つで、数多くの遺伝因子の同定に成功して きた手法ですが、家系情報とフェノタイプ情報とジェノタイプ情報とから、尤 度を計算する解析手法です。連鎖解析では非常に多くの仮説について尤度を計 算する必要があります。この章では、尤度を利用することの一環として、その 手法の概要を見てみることにします。 連鎖解析は大きく 2 つに分けられ、パラメトリック手法とノンパラメトリッ 手法があります。対象とする形質としては、前者が比較的少数の大家系に認 められる強い遺伝因子に向いているのに対して、後者は比較的弱い遺伝因子を 小規模家系を多数集めて解析するのに向いています。また、前者は尤度を計算 するべき仮説空間が広く、込み入っていますので、尤度についての理解を深め る題材として適当であり、後者は遺伝因子を変数化することについて考えるの に好適と思われますので、それぞれ、順を追って説明することとします。

Transcript of GNMT CH10180 第10章 連鎖解析に見る尤度と変数 10.2...

第 10章

連鎖解析に見る尤度と変数

10.1 尤度を使った形質マッピング――連鎖解析

尤度の計算は、とりうる仮説のすべてについて、観察データをもたらす確率を計算することから始まります。連鎖解析とは、DNA 配列上にある、形質の原因変異の位置を探索する手法の 1 つで、数多くの遺伝因子の同定に成功してきた手法ですが、家系情報とフェノタイプ情報とジェノタイプ情報とから、尤度を計算する解析手法です。連鎖解析では非常に多くの仮説について尤度を計算する必要があります。この章では、尤度を利用することの一環として、その手法の概要を見てみることにします。

連鎖解析は大きく 2 つに分けられ、パラメトリック手法とノンパラメトリック手法があります。対象とする形質としては、前者が比較的少数の大家系に認められる強い遺伝因子に向いているのに対して、後者は比較的弱い遺伝因子を小規模家系を多数集めて解析するのに向いています。また、前者は尤度を計算するべき仮説空間が広く、込み入っていますので、尤度についての理解を深める題材として適当であり、後者は遺伝因子を変数化することについて考えるのに好適と思われますので、それぞれ、順を追って説明することとします。

第 10章 連鎖解析に見る尤度と変数180

10.2 パラメトリック連鎖解析と尤度

◉ 10.2.1 マーカーの伝達木と原因座位の伝達木

パラメトリック連鎖解析では、染色体の家系内での受け渡しと組み換えとのパターンをすべて数え上げます。そして、フェノタイプの情報とジェノタイプの情報を利用して、どの染色体のどの位置に原因因子が存在していると考えることがもっともらしいかを調べます。そして、その原因因子の存在場所としてもっともらしい箇所が、どれくらい原因因子のありかとして信憑性があるかを数値で示します。

まず、染色体の家系内での受け渡しと組み換えのパターンとはどういうことかを見てみましょう。家系図は個人のつながりでしたが、それは、染色体の伝達のグラフを中に隠し持っているものだ、ということは第 5 章で述べました。そして、染色体上の 1 点について限れば、必ず木が描けることも確認しました。

今、家系図が与えられたとき、可能性のある木のパターンは、家系図での辺の数(伝達の数)nに対して 2n あります。図 10.1 の例では、4 人は V1, V2, V3, V4 の 4 点と、それを結ぶ 4 本の辺 E1, E2, E3, E4 とでできているグラフを構成します。染色体・アレルに着目すれば、各個人には 2 つの要素があります。染色体・アレルの伝達関係でグラフにすると、辺 1 本につき、2 通りの引き方があるので、2 辺の数 =16 パターンが作れます。これが、ゲノム上の 1 箇所に関する、木の形の数です。図 10.1 では 16 パターンのすべてを示しています。

ゲノム上のすべての箇所は、同様に 2n パターンの可能性があります。この木のパターンを行列で表すことにします。染色体・アレルのうち、父親から受け取ったものを 0、母親から受け取ったものを 1 として、図に表すときには、父由来のそれを左に母由来のそれを右に置くことにしましょう。図の染色体の伝達パターンの左上隅のパターン(P1)は、(E1, E2, E3, E4)=(0, 0, 0, 0) と表せて、その隣のパターン(P2)は (0, 0, 0, 1) と表せます。

R でパターンを作ってみます(R10-1.R)。

18110.2 パラメトリック連鎖解析と尤度

Rソース 10.1 R10-1.R:順列

1 library(gtools)

2 permutations(2,4,c(0,1),repeats=TRUE)

# 長さ 4のベクトルを作る。抜き出し元は要素数 2個で、それは c(0,1)。 抜いては戻し (repeats)を TRUEで実行する

V2

V4

V1

V3

P1

P5

P2 P4P3

P6 P8P7

P9 P10 P12P11

P13 P14 P15 P16

E1 E2E3

E4

優性遺伝形式で父親と娘が表現型陽性。左上は個人のつながりを表すグラフで、右上は染色体のアレルのパターンをしまします。下段には P1, P2, ..., P16 の染色体伝達パターンが示されています。すべての伝達パターンを示していますので、色の違う染色体が辺で結ばれている場合も含んでいます。

図 10.1 両親と 2人の子の例

第 10章 連鎖解析に見る尤度と変数182

■Rの出力結果

[,1] [,2] [,3] [,4]

[1,] 0 0 0 0

[2,] 1 0 0 0

[3,] 0 1 0 0

[4,] 1 1 0 0

[5,] 0 0 1 0

[6,] 1 0 1 0

[7,] 0 1 1 0

[8,] 1 1 1 0

[9,] 0 0 0 1

[10,] 1 0 0 1

[11,] 0 1 0 1

[12,] 1 1 0 1

[13,] 0 0 1 1

[14,] 1 0 1 1

[15,] 0 1 1 1

[16,] 1 1 1 1

全部で、L箇所のことを考えれば、16L と、膨大な数になります。2 箇所(M1, M2)(L=2)で考えます。親子 4 人という小さい単位で考えます。M1は、この 16 パターンのどれかをとります。M2 も同様です。したがって、すべての可能性を考えると 162 のパターンを考慮すればよいです。M1 が P1 パターンで、M2 が P2 パターンだったとします。

P1 P2

E1 E1

E1

E2 E2

E2

E3 E3

E3

E4

E4

下段の E4(右側の親から右側の子への伝達)が、M1 の木では右親の▲からの辺であるのに対して、M2 の木では右親の△からの辺となっており、V 字を作っています。

図 10.2 上段はM1, M2の木、下段はそれを重ね合わせた図

18310.2 パラメトリック連鎖解析と尤度

辺 E4 に相当する部分で、V の字が生じています。これは、組み換えが起きたことを表しています。(E1, E2, E3, E4) の表し方でいうと、P1 は (0, 0, 0, 0)、P2 は(0, 0, 0, 1) です。P1 と P2 の間のマンハッタン距離が 1 なので、それがこの 4 人家族での組み換えの伝達数であることを確認してください。全部の伝達(全部の辺)で組み換えが起きたときが、組み換え回数の最大値で、この図の例ではそれは 4 です。組み換えの起きていない伝達数はこの図の場合 4 - 1 = 3 です。

R で M1 の 16 パターン対 M2 の 16 パターン(162 パターン)のすべてについて、組み換えありの伝達の数と組み換えなしの伝達の数を表す行列を作ってみます。

Rソース 10.2 R10-2.R:組み換えの数

1 n<-4

2 m<-permutations(2,4,c(0,1),repeats=TRUE)

3 RecNumberMat<-as.matrix(dist(m,method="manhattan",diag=TRUE,

upper=TRUE)) # 隣接ツリー間の組み換え回数 4 NonRecNumberMat<-n-RecNumberMat # 隣接ツリー間の非組み換え回数 5 RecNumberMat

組み換えあり伝達数行列は次のようになります。1 行目と 1 列目は行番号・列番号を表しています。

■Rの出力結果

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 161 0 1 1 2 1 2 2 3 1 2 2 3 2 3 3 42 1 0 2 1 2 1 3 2 2 1 3 2 3 2 4 33 1 2 0 1 2 3 1 2 2 3 1 2 3 4 2 34 2 1 1 0 3 2 2 1 3 2 2 1 4 3 3 25 1 2 2 3 0 1 1 2 2 3 3 4 1 2 2 36 2 1 3 2 1 0 2 1 3 2 4 3 2 1 3 27 2 3 1 2 1 2 0 1 3 4 2 3 2 3 1 28 3 2 2 1 2 1 1 0 4 3 3 2 3 2 2 19 1 2 2 3 2 3 3 4 0 1 1 2 1 2 2 310 2 1 3 2 3 2 4 3 1 0 2 1 2 1 3 211 2 3 1 2 3 4 2 3 1 2 0 1 2 3 1 212 3 2 2 1 4 3 3 2 2 1 1 0 3 2 2 113 2 3 3 4 1 2 2 3 1 2 2 3 0 1 1 214 3 2 4 3 2 1 3 2 2 1 3 2 1 0 2 115 3 4 2 3 2 3 1 2 2 3 1 2 1 2 0 116 4 3 3 2 3 2 2 1 3 2 2 1 2 1 1 0

第 10章 連鎖解析に見る尤度と変数184

さて、M1, M2 のジェノタイプデータがあると、M1, M2 のそれぞれについて、16 パターンの条件付確率(ジェノタイプデータという条件)がわかります。今、M1 では、図 10.1 のように V1, V2, V3, V4 のジェノタイプが、(0, 0), (1, 0), (0, 0), (0, 1) だったとします。図 10.1 の伝達パターンでは、P1 と P3 はありえますが、P2 と P4 はありえません。このように、ジェノタイプの情報から、伝達の木にはありえる木とありえない木があります。ありえないパターンは確率が 0 で、ありえるパターンはみな同じ条件付確率を持ちます。

一方、病気の原因座位(G)については、別の理由から木の条件付確率が決まります。こちらの理由は、家系の表現型です。今、病気の遺伝形式を決めると、フェノタイプのパターンを起こしうる伝達パターンと起こしえないパターン、より起こしやすいパターンの条件付確率が決まります。優性遺伝形式であるとか、劣性遺伝形式であるとかを仮定します。このとき、ジェノタイプによってフェノタイプが確実に決まるとします※1。ジェノタイプが決まるとフェノタイプが決まるとしても、その逆は必ずしも正しくはありません。優性遺伝形式のときは、フェノタイプが出ているときに、ホモ接合体かもしれないし、ヘテロ接合体かもしれないからです。ですから、フェノタイプがわかっていて、遺伝形式がわかっているときには、個人の「原因遺伝子のジェノタイプ」を確率的に割り当てます※2。確率的にではありますが、原因遺伝子のジェノタイプがわかったので、原因遺伝子の伝達パターンとして、どれがどれくらいありそうかも確率的に決まります。

さて、ここまでで、M1, M2 におけるありえる伝達パターンと、原因座位(G)の伝達パターンとがわかりました。G は M1, M2 の間にあるかもしれないと考えます。「Ma, Mb, G の伝達パターンがそれぞれ、Pi, Pj, Pkである場合」がありえるかどうかもわかります。「Pi, Pj, Pk」の 3 つ組が、起きやすい組み合わせかそうでないかは、Piと Pkの間と Pjと Pkの間で組み換え数と非組み換え数がそれぞれ何回ずつかに応じて決まります。

Ma と G の間で組み換えが起きる確率が qaG、同様に G と Mb の間のそれがqGb とします。組み換えが起きる確率は、0 から 0.5 の値をとります。0.5 の場合は相互に独立な場合で、異なる染色体に乗っているような場合とも言えま

※1 このようにジェノタイプが決まるとフェノタイプが完全に決まることを、浸透率が 1 である、と言います。

※2 浸透率が 1 ではないときには、それに応じて、個々人の「原因遺伝子のジェノタイプ」を確率的に割り当てることが必要です。

18510.2 パラメトリック連鎖解析と尤度

す。Piと Pjの間で、組み換えが起きた伝達数と組み換えの起きなかった伝達数を Nreci,j, Nnoni,j とすれば、

が尤度です。これにより、「ありそうな Pi, Pj, Pkの組み合わせ」と「ありそうでない Pi,

Pj, Pkの組み合わせ」に高低がつきました。組み換えあり伝達数が多い区間は、距離が長い方が尤度が上がりますし、組み換えなし伝達数が多い区間は、距離が短い方が尤度が上がるからです。これをすべての Pi, Pj, Pkの組み合わせについて足し合わせます。考慮するべきのは M1 と G の間と M2 と G の間です。足し合わせるときには、Pi, Pj, Pkの条件付確率(M1, M2 のジェノタイプ条件と G のフェノタイプ条件)を pi, pj, pkとしてこれらを考慮します。

これが、すべての可能性のあるパターンに関して得られる尤度です。家族 4人の例では、全部で 163 通りの (Pi, Pj, Pk) の組み合わせがあります。

◉ 10.2.2 マーカーと原因座位の間の組み換え

今、M1 と M2 の間の組み換え確率 q12 は、マーカーと原因座位の間の組み換え確率 q1G, qG2 と次のような関係にあります。

M1-G 間で組み換えが起きて、M2-G 間で起きなかった場合と、M1-G 間では起きずに M2-G 間で起きた場合との和が、M1-M2 間で起きた場合だからです。少し工夫をして

L i j k Nrec Nnon Nri k i k( , , ) ( ), ,P P P aG aG Gb= × - ×q q q1 eec Nnonk j k j, ,( )× -1 qGb

L l i j k pi pj pki j k

= ∑( , , )

( , , )P P P

P P Pすべての の組み合わせ

q q q q q12 1 2 2 11 1= - + -G G G G( ) ( )

qq

qq

1

212

120 50 5

2

0 50 5

G

G

= --

= --

.. cos( )

sin( )

..

tt

22sin( )cos( )tt

第 10章 連鎖解析に見る尤度と変数186

のように変数 tの関数で表すことができます。ここで、tは q1G, q2G が 0 以上になるような範囲にとります。tを変化させてやって、

を最大になるような tを探すことが連鎖解析です。考えなくてはいけないパターンはたくさんありましたが、場合の数が多い

だけです。唯一、知りたくて、変化させたいのは G の位置です。そして観察されたジェノタイプとフェノタイプをもたらす尤度を最大にする G の位置を知ることが目的です。G の位置は tで変数化しましたから、この値をたくさん調べて、最大の尤度が出る値を見つけてやりましょう。G の位置を動かすと、Ma と G の間と Mb と G の間で組み換えあり・なし伝達が多い方がよいのか、少ない方がよいのかの値が変わるために、尤度が変化します。

実際の連鎖解析では、ゲノム上のマーカーを用います。それは、マーカー間の組み換え割合(q12)がわかっているからです。その値と、G の位置(t)から、M1-G, M2-G の間の組み換え割合が決まりますから、G がその場所だったときの尤度をすべてのパターンに関して計算してやりましょう。

残念ながら 4 人家族では、伝達に関する情報が大変少ないので、試しに計算するにしてもつまらないので、次のようにして、勝手にありえる伝達パターンを作ってみます。作り方の考え方としては、M1, M2 のマーカーの伝達パターンとして「ありえる」か「ありえないか」の二者択一を適当に割り振ります。G のそれについては、M1, M2 の伝達パターンと似ていることが、G がこのあたりに存在するということなので、両者の伝達パターンに似させることとし、浸透率などの影響で、どのパターンも可能性が若干はあるようにしています。

まずは、尤度を計算して、G の位置に関してプロットしてみましょう。ソースは少し長くなりますが、コメントを頼りに処理を追いかけてみてください。

Rソース 10.3 R10-3.R:連鎖解析の尤度計算

1 # 以下の引数を用いて対立仮説と帰無仮説の尤度を計算 2 # n: 木の枝の数 3 # m1,m2,G: 2マーカーの木の確率分布とジェノタイプが決める木の確率分布 4 # theta: マーカー間の組み換え率 5 # k: マーカー間の尤度計算地点数

L l i j k pi pj pki j k

= ∑all P P P

P P P, ,

( , , )

18710.2 パラメトリック連鎖解析と尤度

6 CalcLike<-function(n,m1,m2,G,theta,k){

7 x<-seq(from=0,to=1,by=1/k)

8 t<-x*pi/2

9 theta1<--sqrt((0.5-theta)/(2*sin(t))*cos(t))+0.5

10 theta2<--sqrt((0.5-theta)/(2*cos(t))*sin(t))+0.5

11 range<-which(theta1>=0 & theta2>=0)

12 x<-x[range]

13 theta1<-theta1[range]

14 theta2<-theta2[range]

15 library(gtools)

16 trvec<-permutations(2,n,c(0,1),repeats=TRUE)

17 #隣接ツリー間の組み換え回数と非組み換え回数18 RecNumberMat<-as.matrix(dist(trvec,method="manhattan",

diag=TRUE,upper=TRUE))

19 NonRecNumberMat<-n-RecNumberMat

20 Lalt<-rep(0,length(x)) # 対立仮説の場合の尤度を格納21 for(i in 1:length(Lalt)){

22 m1G<-m1%*%t(G) #Maと Gとの確率の積23 #組み換えあり伝達数を考慮24 m1Gx<-m1G*theta1[i]^RecNumberMat*

(1-theta1[i])^NonRecNumberMat

25 m1Gx<-apply(m1Gx,2,sum)

#(2^n)^2の行列から、Gのパターン (2^n)パターンに集約26 m2G<-m1Gx%*%t(m2) #Mbの確率との積27 m2G<-m2G*theta2[i]^RecNumberMat*

(1-theta2[i])^NonRecNumberMat

# Gと Mbとの組み換えあり伝達数を考慮28 Lalt[i]<-sum(m2G) #全パターンについて足し合わせ29 }

30 # 帰無仮説の場合31 m12<-m1%*%t(m2)

32 m12x<-m12*theta^RecNumberMat*

(1-theta)^NonRecNumberMat/(2^n)

33 Lnull<-rep(sum(m12x),length(Lalt))

34 list(logLikeAlt=Lalt,logLikeNull=Lnull,location=x)

35 }

36 n<-4 # 木の枝の数37 set.seed(65432) # 適当なデータを作るために疑似乱数列の種を与える38 m1<-sample(c(0,1),n^2,replace=TRUE,prob=c(0.8,0.2))

39 m1<-m1/sum(m1) # マーカー 1での木パターンの確率分布40 m2<-sample(c(0,1),n^2,replace=TRUE,prob=c(0.8,0.2))

41 m2<-m2/sum(m2) # マーカー 2での木パターンの確率分布

第 10章 連鎖解析に見る尤度と変数188

42 G<-0.9*m1+0.1*m2

43 G<-G/sum(G) # ジェノタイプが決める木パターンの確率分布44 theta<-0.4 # 2マーカー間の組み換え率45 k<-100 # マーカー間を 100等分した場所で尤度を計算46 LL<-CalcLike(n,m1,m2,G,theta,k)

47 ylim<-c(min(LL$logLikeAlt,LL$logLikeNull),

max(LL$logLikeAlt,LL$logLikeNull))

48 ylim<-c(0,max(LL$logLikeAlt,LL$logLikeNull))

49 plot(LL$location,LL$logLikeAlt,type="l",ylim=ylim)

# 対立仮説の尤度のグラフ50 par(new=T)

51 plot(LL$location,LL$logLikeNull,type="l",col="red",

ylim=ylim) # 帰無仮説の尤度のグラフ

このようにして計算した尤度が最も大きくなる位置に、G があると予想します。次に、この G の予想位置が、信じるに足るものなのかの判断をしないといけません。G がどのマーカーとも同じ染色体上に乗っていないとした場合(帰無仮説)の尤度と較べて、十分に高い尤度が得られていたら、信じる

横軸が G の位置(変数 t)、縦軸が尤度、水平線は帰無仮説における尤度

図 10.3 連鎖解析の尤度計算

18910.2 パラメトリック連鎖解析と尤度

に足るとみなします。図 10.3 では、水平線が帰無仮説での尤度です。尤度は比で判断すればよいので、帰無仮説の場合の尤度に較べて、10 の何乗倍尤度が高いかを数値で表すことが多く、それをロッドスコア(LOD, logarithm of odds)と呼びます。

実際の計算では、木のパターンの組み合わせの網羅をどういう手順で計算するか、とか、木のパターンの組み合わせとはいっても、全マーカーでの組み合わせはせず、近いところのマーカーについてのみパターンの組み合わせを考慮するなどの実際上の工夫がなされます。

◉ 10.2.3 隠れマルコフモデルと連鎖解析の尤度計算

2 つのマーカーに挟まれた座位の位置決めをするために座位数 3 個(マーカー 2 個、原因座位 1 個)に関する伝達パターンと、位置をずらす変数との 4 変数が作る場合をすべて網羅するのは気が利かないので、気を利かせる方法を考えてみます。隠れマルコフモデルと呼ばれる方法です。

M1, G, M2 と並んだ座位について考えます。M1 の伝達パターンから、G のパターンへ変化すると考えます。M1 のパターンは複数あって、G のパターンも複数あります。M1 のどのパターンからも、G のすべてのパターンへと変化する可能性はあります。問題は、M1 と G との間の組み換え割合の多寡によって、移りやすいパターンと移りにくいパターンがあることです。M1 の 2n=16パターンと G の 2n=16 パターンの組み合わせで、162 のパターンを考える必要があります。

次に、G から M2 への変化を考えます。このとき、M1 → G のパターン 162

通りのすべてについて、M2 の 2n = 16 パターンへの推移を考えるわけで、このようにすると、163 通りを考えなくてはなりません。しかしながら、G とM2 との関係(組み換え割合と伝達パターンの変化)は、G のパターンにはよりますが、M1 のパターンにはよりません※3。

したがって、M1 と G の 162 パターンのうち、G のパターンが共通するパターン(それは 16 パターンあります)は M2 との関係において、同じに扱って

※3 実際の染色体の組み換えでは、Ma と G の間で組み換えが起きていると、G と Mb の間で組み換えは起きにくくなりますが(紐をねじるときに、続けざまにねじるには力がいります)、163 回のループを回して計算しているときにも、そこまで考慮していないので、今回も考慮するには及びません。

第 10章 連鎖解析に見る尤度と変数190

しまうことができます。同じに扱うということは、まとめてしまうわけです。16 × 16 行列から、G のパターンが同じものを合算して、長さ 16 のベクトルにしてやります。その上で、Mb の 16 パターンとの関係を組み換えに考慮して計算すればよいです。この方法のよいところは、増えたパターンを元のパターン数に戻してから、次のステップに進めることで、これならば、次から次へと処理を続けていくときに、同じことを繰り返すだけで済みます。

このように、順番に移り変わっていくときに、次のステップへの変化は、現在の状態のみから(確率的に)決められるような移り変わりを単純マルコフ連鎖と言います※4。

座位のアレルの伝達パターンの塩基配列上での移り変わりは、座位間の組み換え割合によって決まりますので、マルコフ連鎖です。マルコフ連鎖の定義にあるように、「次のステップに関係しない前段階」はあってもなくても、「次のステップ」について決められます。それを利用して、パターンが増えた後で、少ないパターンに戻してやることができました。

今、観察しているのは、マーカーのジェノタイプや個人のフェノタイプです。これらは、「隠れて」いないので観察できます。一方、最も興味のある原因座位 G の位置はもちろん、観察することはできませんし、その位置のありそうな場所を知るための情報である、各座位の 2n の伝達パターンと、座位間のパターン同士をつなぐ組み換えのあり・なしも、観察することができません。「隠されて」いるのです。「隠れていない」観察データから、興味の対象である「隠された」状態の推移を探索する作業なので、「隠れ(た)マルコフ連鎖」と呼ばれます。

※4 単純でないマルコフ連鎖として次のステップへの変化が、現在とそれより前の何段階の状態から決まるような移り変わりが定義されますが、いずれにしろ、次のステップが限定された前段階のみから決められるようなものがマルコフ連鎖です。

19110.2 パラメトリック連鎖解析と尤度

1Gk(1 1G)(n k) G2

k'(1 G2)(n k')

M1ーG間の推移行列 GーM2間の推移行列

遺伝子型M1

表現型G1

遺伝子型M2

3 座位のそれぞれに 2n の伝達パターンがあり、左から右へと伝達パターンが推移します。パターン間の推移のしやすさは、組み換えあり伝達数(k(M1-FG 間の組み換えあり伝達数)、k'(G-M2間の組み換えあり伝達数))と組み換えなし伝達数(n - k, n - k')と座位間の組み換え割合(q)とで決まります。推移のしやすさは、パターン数×パターン数の行列です。2 番目の座位のパターンと 3 番目の座位のパターンとの推移には、1 番目の座位のパターンは関係していません。伝達パターンはすべて推定されたもので、観察できないので「隠れ」ています。

図 10.4 伝達パターン

第 10章 連鎖解析に見る尤度と変数192

10.3 ノンパラメトリック連鎖解析――罹患同胞対解析

◉ 10.3.1 相対危険度を変数とする

連鎖解析では、伝達パターンについて推定することを基本にします。10.2 節では、遺伝形式や浸透率などをパラメタとして仮定して尤度を計算しました。そしてその尤度に基づいて、原因座位の位置を探しました。本節では、ノンパラメトリックという名前が示す通り、遺伝形式や浸透率を仮定せずに解析を進める方法を扱います。こちらの方法では、ジェノタイプがフェノタイプに影響しているか否か、影響しているとしたら、その強さはどれくらいかを変数とします。そして、影響がないとみなすよりも、あるとみなす方がもっともらしい位置をゲノム上から探します。

このノンパラメトリック連鎖解析手法は、ある病気を同胞(兄弟姉妹)が揃って発病しているペア(罹患同胞対)を収集して解析する研究で用いられる例が多いので、それに沿って話を進めます。では、ジェノタイプがフェノタイプに影響している強さを変数にする方法と、それが、伝達パターンとどのような関係にあるかを見ていくことにします。

ある座位のあるアレルが、あるフェノタイプを起こしやすくしているとします。そのアレルを A、それ以外のアレルを a とすると、3 つの遺伝子型 AA, Aa, aa が考えられます。それぞれのジェノタイプのときに、R2, R1, R0 の確率でフェノタイプを起こすとします。この座位がフェノタイプと関係がなければR2 = R1 = R0 です。

罹患同胞対のジェノタイプの組み合わせは、32 = 9 通りあります。それぞれの場合で、同胞対が揃って病気である確率は、1 人目のジェノタイプから決まる病気の確率と 2 人目のジェノタイプから決まる病気の確率の積です。表にすると以下の通りです。

AA Aa aa AA Aa aa

Risk R2 R1 R0 AA R22 R2 × R1 R2 × R0

Aa R1 × R2 R12 R1 × R0

aa R2 × R0 R1 × R0 R02

19310.3 ノンパラメトリック連鎖解析――罹患同胞対解析

◉ 10.3.2 IBD数ごとに場合分けする

ここで、同胞対について伝達パターンを考えます。1 人につき親子 2 人からの伝達があるので、伝達数は 4 つあります。4 つの伝達が、それぞれ親の持つ2 つの染色体のどちらからの伝達かの区別をするので、24=16 の伝達パターンがあるのでした。それを 4 × 4 の行列で表してみます。父親の 2 つの染色体を F1, F2、母親のそれを M1, M2 と書くことにします。同胞の 1 人に F1M1, F1M2, F2M1, F2M2 の 4 パターンがありえます。同胞 2 人の 1 人目を縦軸に、2 人目を横軸にして、各軸に 4 パターンを対応させます。

ここで、同胞対が揃ってフェノタイプを持っている場合について考えるためには、同胞対のジェノタイプを考慮する必要があります。同胞対のジェノタイプを考慮するためには、親が持つ 2 アレルがそれぞれ、リスク型かそうでないかの区別が必要ですから、そのことを考えます。

両親の 4 染色体の中に、リスク型(A)がいくつあるかで分類します。0, 1, 2, 3, 4 の 5 通りあります。0 の場合、子どもは必ず非リスク型のホモ接合体

(aa)です。1 の場合、子どもは非リスク型のホモ接合体(aa)か、ヘテロ接合体(Aa)です。2 の場合、その 2 本を片親が持っている場合には、子どもは必ずヘテロ接合体(Aa)です。2 の場合で、両親が 1 本ずつ持っている場合には、子どもは非リスク型のホモ接合体(aa)も、リスク型のホモ接合体

(AA)も、ヘテロ接合体(Aa)もありえます。3 の場合、子どもはリスク型のホモ接合体(AA)か、ヘテロ接合体(Aa)です。4 の場合、子どもは必ずリスク型のホモ接合体(AA)です。

両親のリスク型保有数別に考えていくこととして、代表パターンを決めます。両親リスクアレル数が 0 の場合は、F1 = M1 = F2 = M2 = a です。両親リスクアレル数が 1 の場合は、F1 = A, M1 = F2 = M2 = a を代表にします。両親リスクアレル数が 2 の場合は、2 通り考える必要があります。リスクアレルが片親に偏っていて、子どもが必ずヘテロ接合体の場合は F1 = F2 = A, M1 = M2 = a を代表にします。他方、両親がリスクアレルを 1 本ずつ持つ場合は、F1 = M1 = A, F2 = M2 = a を代表にします。両親リスクアレル数が 3 の場合は、F1 = a, M1 = F2 = M2 = A を代表にします。両親リスクアレル数が 4 の場合は、F1 = M1 = F2 = M2 = A です。

16 伝達パターンごとに、2 人の子どものジェノタイプと、2 人が揃ってフェ

第 10章 連鎖解析に見る尤度と変数194

ノタイプを持つ確率を表 10.1 に示します。

表 10.1 ジェノタイプと確率

F1 = M1 = F2 = M2 = a の場合(2 人揃って発病する確率が、伝達パターンによりません)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 aa aa aa aa aa aa aa aa F1M1 R02 R0

2 R02 R0

2

F1M2 aa aa aa aa aa aa aa aa F1M2 R02 R0

2 R02 R0

2

F2M1 aa aa aa aa aa aa aa aa F2M1 R02 R0

2 R02 R0

2

F2M2 aa aa aa aa aa aa aa aa F2M2 R02 R0

2 R02 R0

2

F1 = A, M1 = F2 = M2 = a の場合(2 人揃って発病する確率が、伝達パターンによりません)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 Aa Aa Aa Aa Aa AA Aa AA F1M1 R12 R1

2 R0×R1 R0×R1

F1M2 Aa Aa Aa Aa Aa AA Aa AA F1M2 R12 R1

2 R0×R1 R0×R1

F2M1 AA Aa AA Aa AA AA AA AA F2M1 R0×R1 R0×R1 R02 R0

2

F2M2 AA Aa AA Aa AA AA AA AA F2M2 R0×R1 R0×R1 R02 R0

2

F1 = F2 = A, M1 = M2 = a の場合(2 人揃って発病する確率が、伝達パターンによりません)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 Aa Aa Aa Aa Aa Aa Aa Aa F1M1 R12 R1

2 R12 R1

2

F1M2 Aa Aa Aa Aa Aa Aa Aa Aa F1M2 R12 R1

2 R12 R1

2

F2M1 Aa Aa Aa Aa Aa Aa Aa Aa F2M1 R12 R1

2 R12 R1

2

F2M2 Aa Aa Aa Aa Aa Aa Aa Aa F2M2 R12 R1

2 R12 R1

2

F 1= M1 = A, F2 = M2 = a の場合(2 人揃って発病する確率が、伝達パターンによって変わります)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 AA AA AA Aa AA Aa AA aa F1M1 R22 R1×R2 R1×R2 R0×R2

F1M2 Aa AA Aa Aa Aa Aa Aa aa F1M2 R1×R2 R12 R1

2 R0×R1

F2M1 Aa AA Aa Aa Aa Aa Aa aa F2M1 R1×R2 R12 R1

2 R0×R1

F2M2 aa AA aa Aa aa Aa aa aa F2M2 R0×R2 R0×R1 R0×R1 R02

F1 = a, M1 = A, F2 = M2 = Aの場合(2人揃って発病する確率が、伝達パターンによって変わります)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 Aa Aa Aa Aa Aa AA Aa AA F1M1 R12 R1

2 R1×R2 R1×R2

F1M2 Aa Aa Aa Aa Aa AA Aa AA F1M2 R12 R1

2 R2×R1 R1×R2

F2M1 AA Aa AA Aa AA AA AA AA F2M1 R1×R2 R1×R2 R22 R2

2

F2M2 AA Aa AA Aa AA AA AA AA F2M2 R1×R2 R1×R2 R22 R2

2

19510.3 ノンパラメトリック連鎖解析――罹患同胞対解析

表 10.1 ジェノタイプと確率(つづき)

F1 = M1 = F2 = M2 = A の場合(2 人揃って発病する確率が、伝達パターンによりません)

F1M1 F1M2 F2M1 F2M2 F1M1 F1M2 F2M1 F2M2

F1M1 AA AA AA AA AA AA AA AA F1M1 R22 R2

2 R22 R2

2

F1M2 AA AA AA AA AA AA AA AA F1M2 R22 R2

2 R22 R2

2

F2M1 AA AA AA AA AA AA AA AA F2M1 R22 R2

2 R22 R2

2

F2M2 AA AA AA AA AA AA AA AA F2M2 R22 R2

2 R22 R2

2

両親のアレルの持ち方を場合分けした上で、子どものアレルの持ち方 16 通りごとに、同胞が揃って病気になる確率がわかりましたから、伝達パターン16 通りのそれぞれの尤度を計算することが可能です。もう少し工夫してみることにします。

16 伝達を場合分けします。IBDという考え方がありました(2.1.3 項参照)。アレルの由来染色体が同じであることでした。この IBD の数で 16 パターン

を分類してみます。IBD 数は 2, 1, 0 の 3 通りあります。16 パターンよりは 3パターンの方が、考えるのが簡単そうです。

IBD 数を同胞対のパターンの組み合わせごとに表に記します。IBD 数が 2の場合が 4 通り、1 の場合が 8 通り、0 の場合が 4 通りあります。16 パターンはどれも等確率でおきますから、偏りがなければ、IBD 数が 2, 1, 0 になる確率は、0.25, 0.5, 0.25 であることがわかります。

表 10.2 IBD数

F1M1 F1M2 F2M1 F2M2

F1M1 2 1 1 0

F1M2 1 2 0 1

F2M1 1 0 2 1

F2M2 0 1 1 2

同胞対がフェノタイプを持っているときに、IBD 数が 0, 1, 2 のどれにどれくらいなりやすいかの計算は、16 伝達パターンの IBD 数と、16 伝達パターンごとの 2 人揃ってフェノタイプを持つ確率とから、計算が可能です。実際に計算すると以下の表のようになります。

第 10章 連鎖解析に見る尤度と変数196

表 10.3 IBD数のなりやすいかの計算①

F1 M1 F2 M2 IBD 数 2 IBD 数 1 IBD 数 0

a a a a

A a a a

A a A a

A A a a S

a A A A

A A A A

表 10.4 IBD数のなりやすいかの計算②

F1 M1 F2 M2 IBD 数 2 IBD 数 1 IBD 数 0

a a a a

A a a a

A a A a

A A a a

a A A A

A A A A

14

12

14

12

14

12

14

12

14

12

14

14

12

12

14

1 1 02( )+ >D 1

2

14

1 1 02( )- >D

14

12

14

14

1 22 1 0 12

2 1 02( ),+ +> > > >D D

12

1 2 1 0 12( ),- > >D

14

1 22 1 1 02

2 1 02( ),+ -> > > >D D

14

1 2 12( )+ >D

12

14

1 2 12( )- >D

14

12

14

141 1 0

1 0

2R RR R

141 1 0

1 0

2R RR R

121

22 0

2 1 0

2

SR R

R R R

121

22 0

2 1 0

2

SR R

R R R

141 2 1

2 1

2R RR R

141 2 1

2 1

2R RR R

SR R RR R R

121

2

22 1 0

2 1 0

2

19710.3 ノンパラメトリック連鎖解析――罹患同胞対解析

16 パターンのすべてで 2 人揃ってフェノタイプを持つ確率が等しい場合があります。両親のリスクアレル保有数が 0 の場合と 4 の場合(表の 1 行目と 6 行目)、そして 2 であってその 2 つのリスクアレルが片親に偏っている場合(表の 3 行目)です。この場合には、IBD 数が 0, 1, 2 の尤度は 0.25, 0.5, 0.25 です。

両親の 4 アレルのうち、1 アレルだけがリスクアレルの場合(表の 2 行目)と、1 アレルだけが非リスクアレルの場合(表の 5 行目)とは、IBD 数 1 の尤度は 0.5 ですが IBD 数 2 の尤度が 0.25 より大きくなり、それと引き換えにIBD 数 0 の尤度が小さくなります。この出入りの大きさは、表では D2 で表しているように、IBD 数が 2 のときに 0.25 より大きくなり、IBD 数が 0 のときには 0.25 より小さくなります。その逆はありません。

次に両親が揃って Aa の場合(表の 4 行目)を見てみます。この行だけ、IBD 数 1 の列の値が 0.5 ではありません。そして、そのずれは -D2 と表している通り、0.5 より小さくなる方向にずれます。このとき、IBD 数 2 の場合とIBD 数 0 の場合は IBD 数 1 の場合のずれの分を均等に引き受けて大きくなり

(D22>1,0>1 の項)、その上で、IBD 数 2 が大きくなり(D2

2>1>0 の項)、その分だけ IBD 数 0 が小さくなります。

ずれの項の大きさがどのように決まるかを見てみましょう。両親がリスクア

レルを 1 つだけ持つ場合(表の 2 行目)のずれの項は、         で

す。これは、Aa と aa とのリスクの差が 0 のときに 0 となり、それ以外は正の値を持つ項です。これは優性遺伝形式の場合に最もよく当てはまります。優性遺伝形式では、両親のうちの片方だけが有病であることが多く、また、Aaのリスクと AA のリスクは同じです。実際に優性遺伝形式の場合の有病者は

D

D

D

1 01 0

1 0

2 12 1

2 1

2 1 0 12 2

>

>

> >

=-

+

=-

+

=-

R RR R

R RR R

R,

RR RR R R

R R R RR R R

1 0

2 1 0

2 1 0 1

2 1 02

+

+ +=

- + -

+ + +

( ) ( )

( ) ( RR

R R RR R R R

R R

1

2 0 1

2 1 0 1

2 1 02 0

2

)

( )

( ) ( )=

+ -

+ + +

=-

> >DRR R R

R R R RR R R R2 1 0

2 1 1 0

2 1 1 02+ +=

- + -

+ + +

( ) ( )

( ) ( )

1 02 1 0

1 0

2R RR R

第 10章 連鎖解析に見る尤度と変数198

たいてい、リスクアレルを 1 本だけ持ちますので、Aa と aa のリスクの差が問題となることと、符合します。

両親が 3 本のリスクアレルを持つ場合(表の 5 行目)のずれの項は、

         です。これは、AA のリスクと Aa のリスクの差で尤度の

ずれが決まります。劣性遺伝形式の場合に AA と Aa の違いが問題となります。実際には、劣性遺伝形式の場合には、両親が揃ってリスクアレルを 1 本保有していることが多いので、このパターンを調べることは多くありませんが、IBD 数の尤度に関しては、このパターンが劣性形式に対応していることがわかります。

最後に両親が揃って Aa の場合(表の 3 行目)の尤度のずれの項についてで

す。まず、IBD 数 1 の場合のずれの項                は、

R2 + R0 = 2R1 の場合に 0 になります。Aa のリスクが AA と aa の中間のときのことです。この項は、IBD 数 0 のときも 2 のときも尤度のずれをもたらします。リスクアレルを 1 本持つ場合のリスクが、リスクアレルを 2 本持つ場合のちょうど半分であるか、それよりずれるかが、IBD 数のすべての場合に影響することになります。リスクアレルが相加的にリスクを持つ状態を基準にして、優性遺伝形式寄りか劣性遺伝形式寄りにずれていることを表す項です。

IBD 数 0 と 2 のときに、さらにずれる項             を見てく

ださい。これは、AA と aa のリスクの差の項です。つまり、AA, Aa, aa のリスクは AA と aa のリスクの差を問題にし、その上で、Aa のリスクについては AA と aa の中間を基準にして、そこからのずれについて考慮している、という構図になっています。R2, R1, R0 が相互に異なっていれば、両親から罹患同胞対への伝達パターン 16

通りの尤度が影響を受けることを見てきました。その 16 パターンを IBD 数によって 3 グループに分けたときには、3 グループの尤度が影響を受けることも見ました。罹患同胞対を用いたノンパラメトリック連鎖解析では、このことを使って、原因座位の位置を探します。R0, R1, R2 の値を変えれば、IBD 数 0, 1, 2 の尤度は増減しますから、それを変化させた上で、原因座位がどこにありそうかを尤度で表し、さらにそれが帰無仮説と比較して有意なのかどうかを判定します。

1 02 1 0

1 0

2R RR R

2 1 0 12 2 0 1

2 1 0 1

2,

( )

( ) ( )

R R RR R R R

2

2 1 02 2 0

2 1 0

2

2

R RR R R