レアバリアント解析（rare-variant association study）

レアバリアントの関連解析

名古屋大学大学院医学系研究科藤井亮輔（ D2）

この資料の目的

Lee S (2014)の論文を基本的にレビューし、下記のポイントを押さえる。

• レアバリアント解析の意義を理解する• レアバリアント解析の現状を把握する• レアバリアント・シーケンス、研究デザインの利点と欠点を理解する

• レアバリアント解析法をマスターする

2

これまでの GWAS従来のGWAS（コモンバリアント *1について）により、およそ 2000個の疾患関連遺伝子を同定している。

一方で、『失われた遺伝率 *2,3』問題が山積みしている• 複合的な形質（糖尿病や肥満など）についての遺伝的な寄与率・説明率が低いのが現状。

• また、 GWASにより同定された変異は主に、疾患や形質に中等度の影響しか与えていないことも明らかになっている。

*1 コモンバリアント：ある座位の頻度の少ない変異（アレル）の頻度（minor allele frequency: MAF）が 5%以上の変異*2 Eicher EE, et al. (2010) Missing heritability and strategies for finding the underlying causes of complex disease.*3 Zuk O, et al. (2012) The mystery of missing heritability: Genetic interactions create phantom heritability. 3

レアバリアントとは？レアバリアントはコモンバリアント（MAF>0.05）に対して、MAF≤0.05の変異のこと

コモンバリアント（ common SNPs）レアバリアント（ rare SNPs）

• MAF 0.01 ~ 0.05• しばしば、近傍の SNPsと強い

LD（ linkage disequilibrium*1）にある

• MAF 0.01 ~ 0.05• 相対的に、新しい変異である• 他の SNPsとは弱い相関関係にある

*1 連鎖不平衡（ linkage disequilibrium）：複数の座位で集団内でハプロタイプレベルで考えた場合のアレルが独立であることを連鎖平衡（ linkage equilibrium）といい、そうでない状況のことを LDという

4

なぜ、レアバリアント？• ヒトの変異の多くは、レアバリアントである（図 1）• 機能的に関連がある可能性が高い（図 2）• 疾患への影響が大きい

図 1 図 2

つまり、レアバリアント解析が『失われた遺伝率』問題を解決する一つの方法になり得る。 5

シーケンス技術の向上この数十年間のうちに、ヒトの DNAを読む（シーケンス）技術は向上し、全ゲノム解析（WGS）やエクソーム解析にかかる費用も飛躍的に低下している。大規模な集団を対象とした研究でもこれらの技術を利用して、異なる形質・疾患の遺伝的背景を明らかにする試みが進んでいる。

6

レアバリアント解析の壁しかし、依然としてレアバリアント解析はかなり挑戦的なもの（ substantial challenges）である。

• 集団のWhole genome sequence（全ゲノム・シーケンス：WGS）は金銭的に負担が大きい。それゆえ、代替の方法によって、効率性を増やすことが求められる

• 単一の変異ごとの関連解析では統計学的な問題に直面する。例えば、サンプル数や効果量が大きくない場合には、統計学的な検出力は低下する。また、多くの検定を補正する手法についても確立した手法は未開発である。

7

レアバリアント解析の研究デザインシーケンス技術の向上により、WGSが可能になったが、実際に大規模な集団を対象とした場合には、莫大なコストがかかる。コスト面でWGSが研究に用いることができるまでは下表の代替案を使用することが望ましい。

長所短所Low-depth WGS コスト効率が良いレアバリンアントの検出に限界が

ある（ vs High-depth WGS ）Whole-exome sequence 全エクソームの変異を同定できる

WGS より安いエクソーム領域のみに限られるGWAS chip and imputation 安価であるレアバリアントのインピュテー

ションについて低精度Exome chip エクソームシーケンスよりかなり

安価レアバリアントや欧米人以外のカバー率が低い

8

レアバリアントの関連解析• 多くのサンプル数が必要である例えば、 99%の確からしさでMAFが 0.5%もし kは0.05%のレアバリアントを検出するためには、それぞれ少なくとも 460名、 4600名のジェノタイピングが必要になる。

• 単一変異の関連解析では検出力不足である多くの領域ごと、遺伝子ごとに変異をまとめて解析する手法が提唱されている（表 1）。

9

表 1.レアバリアント解析のまとめLee S, et al (2014) Am J Hum Genetより

10

Single-variant test• 従来GWASで用いられてきた方法であり、相加的なモデルを仮定し、回帰モデルで分析する

• 100 万カ所の変異との関連解析を行った時のゲノムワイドの有意水準は 5×10-8以下となる

• サンプルサイズが十分な時には、レアバリアントの探索に single-variant testも有効である*1

*1 例えば、ある先行研究で 8,000 人程度の個人でインシュリンの生成とSGSM2（MAF=1.4%, p=8.7×10-10）やMADD（MAF=3.7%, p=7.6×10-15）といった変異との関連を発見している。

11

Single-variant testしかし、同一の効果量であれば、コモンバリアントよりもレアバリントの single-variant testは検出力が低下する。例えば、オッズ比が 1.4、疾患の割合が 5%かつ有意水準を 5×10-8とすると、検出力 80%を達成するためには、MAFが0.1、 0.01、 0.001の時それぞれ 6,400名、 54,000名、 540,000名が必要になる。

1.サンプル数が多い場合2.効果が大きい場合3.変異がそれほどレアでない場合

Single-variant testが有効な場合

12

レアバリアント解析のスコア統計量

ある領域内に個の変異があることを想定する。個体の表現型を（平均）と表記し、共変量。

h (𝜇𝑖 )=𝛼0+𝛂 ′𝐗𝑖+𝛃 ′𝐆𝑖

とはそれぞれ共変量と個のバリアントベクトルの回帰係数である。ここでの変異のスコア統計量は、下記のように書き表すことができる。

𝑆 𝑗=∑𝑖=1

𝑛

𝐺𝑖𝑗(𝑦 𝑖−�̂�𝑖)

は帰無仮説のもとで推定されたの条件付き期待値である。はの変異が形質や疾患のリスクを増加させるものであれば正の値を、減少させるものであれば負の値をとる。

(1)

13

Gene- or Region-based aggregation test

下に示している回帰モデルをベースとしている手法についてまとめる（共変量で補正可能）

1. burden test2. adaptive burden test3. variance-component test4. combined burden & variance-component test5. exponential-combination (EC) test

これらの手法は想定している遺伝モデル（ genetic model）や疾患との関連（ true disease model）に違いがあり、それらを理解して適切な手法を使用することが必要である

14

Burden test複数の変異を単一のスコアにまとめて、検定を行う方法

burden testはある領域中の全ての変異が同一方向かつ同程度の効果であるという仮説に基づいている。そのため、そうでないケースや原因となる変異（ causal variants）の割合が少ない場合には検出力が低下する。

＜このタイプの手法 *1 ＞ARIEL test, CAST, CMC method, MZ test, WSS*1それぞれの手法に関しては、参考文献にあるそれぞれの論文を参照

15

Burden test最もシンプルな方法は、個体のあるセット内のマイナーアレルの数との関連を探索する方法である。

𝑄𝑏𝑢𝑟𝑑𝑒𝑛=(∑𝑛=1

𝑚

𝑤 𝑗𝑆𝑖)2

𝐶𝑖=∑𝑖=1

𝑚

𝑤 𝑗𝐺𝑖𝑗

はバリアントに対する既知の重み付けである。この方法は、と考えて、モデルにおいて、の検定を行うことに相当する。その時のスコア検定統計量は、

は固定されたものとして扱うため、 p 値は自由度 1のカイ二乗分布と比較して求められる。

16

Variance-component testそれぞれの変異に変量効果モデルを仮定し、変量効果の分散成分を検定する手法が SKATである。もし、共変量がない場合は C-alpha検定と同義。

variance-component testはある領域中に形質を増加させる変異と減少させる変異が混在する場合に高い検出力を持つ。そのため、そうでないケースや原因となる変異（ causal variants）の割合が多い場合には検出力が低下する。

＜このタイプの手法 *1 ＞SKAT, SSU test, C-alpha test*1それぞれの手法に関しては、参考文献にあるそれぞれの論文を参照

17

Variance-component testSKAT では、等式 (1) において、が平均 0 、分散という任意の分布に従うと考えて、その分散が 0 となる帰無仮説（）をスコア検定を用いて検定する。（は変異に対する既知の重み付けである。）

single-variant testのスコア統計量の二乗値の重み付け和である。は漸近的に混合カイ二乗分布に従うと考えられ、容易に p 値を算出することが可能である。

18

𝑄𝑆𝐾𝐴𝑇=∑𝑛=1

𝑚

𝑤 𝑗2𝑆 𝑗

2

Burden testと VC testの比較

統計量をよく見ると、 burden testの方は重み付けたスコア統計量の和を二乗している一方で、 variance-component testではスコア統計量を二乗したを総計している。このようにスコア統計量の違いによって、 burden testでは同じ向き（正負値の一致）かつ同程度の効果を持つ変異が多い時に、 variance-component testでは効果の向きが異なっている場合（正負値の混合）に検出力が向上すると考えられる。

𝑄𝑏𝑢𝑟𝑑𝑒𝑛=(∑𝑛=1

𝑚

𝑤 𝑗𝑆𝑖)2

𝑄𝑆𝐾𝐴𝑇=∑𝑛=1

𝑚

𝑤 𝑗2𝑆 𝑗

2

burden testの統計量 variance-component testの統計量 19

Combined test領域内に含まれている変異に依存して、 burden testとvariance-component testによる結果は異なることが分かった。そこでそれぞれの検定を折衷する方法が提唱されている。

一つ目が Derkachら *1による Fisher’s methodを用いた p 値の結合である。下記の統計量の有意性をパーミュテーション検定により求める。

二つ目が Lee Sら *2によるそれぞれの方法で求めた統計量を線形結合で求める方法である。についていくつかの p 値を算出し、その中で最小となる p 値の分布を理論的に導き、有意性の判定をしている。

Fisher=−2 log (𝑃𝑆𝐾𝐴𝑇 )−2 log (𝑃𝑏𝑢𝑟𝑑𝑒𝑛)

𝑄𝑝= (1−𝜌 )𝑄𝑆𝐾𝐴𝑇−𝜌𝑄𝑏𝑢𝑟𝑑𝑒𝑛 ,0 ≤𝜌 ≤1*1 Derkach A, et al. (2013) Genet Epidemiol.*2 Lee S, et al. (2012) Biostatistics. 20

単独かそれともグループか？領域別の検定（ gene-, pathway-based）は、複数のレアバリアントをまとめることで検出力を向上させている。しかし、形質と関連のある変異が領域内にごくわずかである場合、多くの変異が影響のない場合、原因となる変異が非常に低頻度である場合には single-variant testの方が優れていると言われている。

Cruchagaらの研究 *1では、遺伝子ごとの検定が単一の変異ごとの解析よりも優れていることを示している。彼らは PLD3内には p<10-6

を持つ単一の変異はないにも関わらず、アルツハイマー病と PLD3の間に p=1.4×10-11の関連を見つけた。

一方で、 Liuら *2は血液中の脂質と BCAMと CD300LGとの関連について解析する中で、 gene-basedの解析では弱い関連しか示さなかったのに対して、 single-SNP approachでは明確な関連を示した。これは領域内に脂質と関連のある not tooレアな変異がごくわずか含まれている結果だと推測できる。

*1 Cruchaga C, et al. (2014) Nature. *2 Liu DJ, et al. (2014) Nat Genet. 21

参考資料• Lee S, et al. (2014) Rare-variant association analysis: Study

designs and statistical tests. Am J Hum Genet• 冨田誠・植木優夫（ 2016）『統計 OnePoint1 ゲノムデータ解析』共立出版

• 田宮元・植木優夫・大森理（ 2015）『クロスセクショナルリーズ 3 ゲノム医学のための遺伝統計学』共立出版

• 鎌谷直之（ 2007）『遺伝統計学入門』岩波書店

22

レアバリアント解析（rare-variant association study）

Health & Medicine

Transcript of レアバリアント解析（rare-variant association study）