DNAマイクロアレイの解析と多重検定補正

DNAマイクロアレイの解析と多重検定補正

東京理科大学薬学研究科薬科学専攻

露崎弘毅

DNAマイクロアレイの解析

mRNA

転写

翻訳,折りたたみ

…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム

mRNA

タンパク質

DNAマイクロアレイはこのmRNAを定量的に計測する技術

⇒遺伝子の機能解析、遺伝子間相互作用の解析等に利用

各種生体内機能

マイクロアレイとは

マイクロアレイ = 基盤上に何かを固定化させたもの Micro：1/1000レベルに分割して Array：並べたもの DNAマイクロアレイ = DNAを基盤上に固定化細胞マイクロアレイ = 細胞を基盤上に固定化タンパク質マイクロアレイ抗体アレイ組織マイクロアレイ化合物マイクロアレイ …

DNAマイクロアレイの原理

生物の細胞からmRNAを抽出

ハイブリダイゼーション反応

各スポットにcDNAと相補的なプローブが並んだ基盤

ビオチン

アレイ解析の基礎

-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3

5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1

2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000

5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2

t3 t2 t1 c3 c2 c1

1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる

各統計手法（例：t検定）

p=0.1

p=0.007

p=0.001

p=0.09

対照群

何も刺激を与えていないもの

処置群

試薬の投与、培養条件の変化など、刺激を与えたもの

発現変動遺伝子の判定等

FDR制御

画像データ

(.DAT)

数値データ、生データ

(.CEL)

正規化 & log2変換

実験

データ取得

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30668

対照群 (n=4)

カロリー制限群 (n=4)

AL1.CEL AL2.CEL AL3.CEL AL4.CEL CR1.CEL CR2.CEL CR3.CEL CR4.CEL



正規化、対数変換

1色法（Affymetrix型）はRMA,MAS5がよく使われる 2色法（Oxford型）はLOWESSがよく使われる

# ライブラリロード library(“affy”) # CELファイルを読み込む Data <- ReadAffy() # RMA正規化+対数変換 est <- rma(Data) express <- exprs(est) # コントロールプローブ削除 express <- express[1:31042,] # データ保存 write.table(express, “rma.txt”)

31042×8 行列

1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9

1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0

2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.3 1399167_a_at

1367453_at

1367452_at

AL1 .CEL

AL2 .CEL

AL3 .CEL

AL4 .CEL

CR1 .CEL

CR2 .CEL

CR3 .CEL

CR4 .CEL

検定

たくさんの検定手法が提案されているを参考

# t検定 p <- c() for(i in 1:31042){ p[i] <- t.test( express[i, 1:4], express[i, 5:8] )$p.value } # データ保存 names(p) <- rownames(express) write.table(p, “p.txt”)

0.1405

0.0013

0.0355 p値

1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9

1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0

2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.3 1399167_a_at

1367453_at

1367452_at

AL1 .CEL

AL2 .CEL

AL3 .CEL

AL4 .CEL

CR1 .CEL

CR2 .CEL

CR3 .CEL

CR4 .CEL

1399167_a_at

1367453_at

1367452_at

FDR制御

FDR、q値（またはQ値）って何なのかは次のページ以降で説明

q値

# 別途パッケージロード library(“fdrtool”) # FDR制御 fdr1 <- p.adjust(p, “BH”) fdr2 <- fdrtool(p, statistic=“pvalue”)$qvql fdr3 <- fdrtool(p, statistic=“pvalue”)$lfdr # データ保存 names(fdr1) <- rownames(express) names(fdr2) <- rownames(express) names(fdr3) <- rownames(express) write.table(fdr1, “BH.txt”) write.table(fdr2, “Q.txt”) write.table(fdr3, “LFDR.txt”)

0.1405

0.0013

0.0355 p値 1399167_a_at

1367453_at

1367452_at

0.1555

0.0257

0.0592 1399167_a_at

1367453_at

1367452_at

多重検定補正

提案された色々な多重検定法

• FWER: Family-wise Error Rate

– Bonferroni、Tukey、Dunnet …

• FDR: False Discovery Rate

– BH、ABH、BY、Q-value、LocalFDR …

• その他：GFWER、TPPFP、EFP、ETP

BH法の原著論文（みんなが引用するからすごいことに）

最近の論文は多重性を考慮していないと査読で何かと文句言われる

Gabriele Zoppoli, et. Al., PNAS, 2012

Barry S. Taylor, et. al., Cancer Cell, 2010

Simon Anders, et. Al., Genome Biology, 2010

多重検定って？

検定数があまりにも多いと、通常の有意水準0.05はほぼ100%一度は間違う事に相当する

有意水準を0.05と設定したとする n=1の時 0.05 n=2の時 1 - (1-0.05)2 = 0.0975 n=3の時 1 - (1-0.05)3 = 0.142625 … n=kの時 1 – (1-0.05)k

仮説検定数

有意水準

複数回検定をする場合、間違った結果を含む確率が増加する

多重検定って？

n=1

n=2

n=3

かつての多重検定はこのくらいのものを想定していた（多群検定）

N血糖値、赤血球数など一つの値

FWER制御法：Bonferroni法

マイクロアレイ等の超多重検定の場合、FWERでは基準が厳しすぎ → 一つの遺伝子も有意に判定できない

Bonferroniの不等式

𝑃 𝐸𝑖

𝑘

𝑖=1

≤ 𝑃(𝐸𝑖)

𝑘

𝑖=1

有意水準をα=0.05にしたい場合、検定数で割る α/N

𝑃(𝐸𝑖):事象Eiが起こる確率

例：k=3

𝑃 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ≤ 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃(𝐸3)

FWER制御：一度でも間違う確率を制御する

FDR制御法一つも間違わないでいる確率（FWER）は基準として厳しすぎる

↓

間違っても良い事にしよう

↓

ただし、発現変動遺伝子のリストの中にどのくらいの間違いが含まれているのかを推定してそれを新たな基準にしよう（FDR）

＋自分がどれくらいまで間違いを許すかの有意水準はp値と区別するためにq値と呼ぼう

↓

どれが間違いか正解かは神様しかしらないので、各手法が何らかの統計学的な仮定（p

値の一様分布性など）をもうけて、FDRの期待値を計算する

p値の分布は一様分布とする

BH法

Yes No

p値の分布は帰無仮説と対立仮説の混合分布とする（混合比 π0 : 1 - π0)

自然スプライン回帰でπ0を推定 +

BH法のq値にπ0をかける

ベイズの定理における事後分布として解釈

Q-value法 LocalFDR法

𝑞𝑖 = 𝑝𝑖 × 𝑁

𝑖

𝑄𝑖 = 𝜋0 × 𝑝𝑖 × 𝑁

𝑖 𝑙𝑓𝑑𝑟 =

𝑓0 𝑝 × 𝜋0𝑓(𝑝)

𝜋(𝜃|𝐷) = 𝑓(𝐷|𝜃) × 𝜋 (𝜃)

𝑓(𝐷)

FDR制御法：BH法 ①p値を昇順に並べ替え

②p値をq値に変換

i：昇順に並べた時の上からの順番

N：全遺伝子数

③閾値以下のq値の遺伝子を発現変動したとする

0.005 gene5

0.06 gene4

0.1 gene3

0.001 gene2

0.21 gene1

p-value

0.001（gene2）

0.005（gene5）

0.06（gene4）

0.1（gene3）

0.21（gene1） ○ gene5

× gene4

× gene3

○ gene2

× gene1

発現変動

0.001*(5/1) = 0.005

0.005*(5/2) = 0.00125

0.06*(5/3) = 0.1

0.1*(5/4) = 0.125

0.21*(5/5) = 0.21 ① ②

③ q値 p値

< 0.05

< 0.05

> 0.05

> 0.05

> 0.05

閾値

= P

= E[FP] 𝑞𝑖 = 𝑝𝑖 × 𝑁

𝑖

p値の一様分布性の破綻

BH法が想定しているp値の分布実際のデータでのp値の分布（0側に偏る場合が多い）

# 一様分布シミュレーション for(i in 1:31042){ x <- rnorm(4) y <- rnorm(4) pp[i] <- t.test(x, y)$p.value } # プロット hist(pp) # 実際のデータのプロット hist(p)

FDR制御法： Q-value法

帰無仮説（差が無い）

対立仮説（差が有る）

0側に寄る

一様分布する 0側に寄り気味な一様分布ができる

平均値の差

頻度

0

0

0 1

1

1

頻度

頻度

頻度

混合分布

0

𝑄𝑖 = 𝝅𝟎 × 𝑝𝑖 × 𝑁

𝑖

帰無仮説：対立仮説 = 𝜋0 ∶ 1 − 𝜋0

FDR制御法： LocalFDR法

𝑃 𝐻0|𝑝 = 𝑙𝑓𝑑𝑟 = 𝑓0 𝑝 × 𝜋0𝑓(𝑝)

帰無仮説（差が無い）

対立仮説（差が有る）

平均値の差

頻度

0

𝑃 𝐻1| 𝑝 = 1 −𝑓0 𝑝 × 𝜋0𝑓(𝑝)

ベイズの定理

𝑃 𝐻|𝐷 = 𝑃(𝐷|𝐻) × 𝑃(𝐻)

𝑃(𝐷)

D: データ H: 仮説

まとめ

CELファイル ↓

正規化 ↓

対数変換 ↓ 検定

↓ FDR制御

↓ 発現変動遺伝子リスト

RMAかMAS5が無難

みんな対数とる

p値を計算するようなもののほうが良い

p値の分布に合わせて、各手法を利用 (FDR<0.1くらいが一つの目安)

DNAマイクロアレイの解析と多重検定補正

Technology

Transcript of DNAマイクロアレイの解析と多重検定補正