H1-2 4 P01 - Cosmo Bio Co Ltd · パスウェイに特化した抗体マイクロアレイ 12 脂質マイクロアレイ 13 Gタンパク質活性測定アッセイキット 13 ...
DNAマイクロアレイの解析と多重検定補正
-
Upload
antiplastics -
Category
Technology
-
view
6.452 -
download
3
Transcript of DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析 と多重検定補正
東京理科大学 薬学研究科 薬科学専攻
露崎弘毅
DNAマイクロアレイの解析
mRNA
転写
翻訳,折りたたみ
…ATGCATCGTAGATGCTAGCATGCTAGTAGCT… ゲノム
mRNA
タンパク質
DNAマイクロアレイはこのmRNAを定量的に計測する技術
⇒遺伝子の機能解析、遺伝子間相互作用の解析等に利用
各種生体内機能
マイクロアレイとは
マイクロアレイ = 基盤上に何かを固定化させたもの Micro:1/1000レベルに分割して Array:並べたもの DNAマイクロアレイ = DNAを基盤上に固定化 細胞マイクロアレイ = 細胞を基盤上に固定化 タンパク質マイクロアレイ 抗体アレイ 組織マイクロアレイ 化合物マイクロアレイ …
DNAマイクロアレイの原理
生物の細胞からmRNAを抽出
ハイブリダイゼーション反応
各スポットにcDNAと相補的なプローブが並んだ基盤
ビオチン
アレイ解析の基礎
-5.6 -4.2 -5.5 4.4 4.4 5.3 遺伝子3
5.1 5.3 4.4 5.3 5.5 6.5 遺伝子1
2.1 2.4 1.3 4.4 0.4 1.5 遺伝子30000
5.7 7.5 5.6 1.0 3.3 2.3 遺伝子2
t3 t2 t1 c3 c2 c1
1チップの値だけでは意味を為さず、必ず対照群 vs 処置群の比較がなされる
各統計手法(例:t検定)
p=0.1
p=0.007
p=0.001
p=0.09
対照群
何も刺激を与えていないもの
処置群
試薬の投与、培養条件の変化など、刺激を与えたもの
発現変動遺伝子の判定等
FDR制御
画像データ
(.DAT)
数値データ、生データ
(.CEL)
正規化 & log2変換
実験
データ取得
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE30668
対照群 (n=4)
カロリー制限群 (n=4)
AL1.CEL AL2.CEL AL3.CEL AL4.CEL CR1.CEL CR2.CEL CR3.CEL CR4.CEL
正規化、対数変換
1色法(Affymetrix型)はRMA,MAS5がよく使われる 2色法(Oxford型)はLOWESSがよく使われる
# ライブラリロード library(“affy”) # CELファイルを読み込む Data <- ReadAffy() # RMA正規化+対数変換 est <- rma(Data) express <- exprs(est) # コントロールプローブ削除 express <- express[1:31042,] # データ保存 write.table(express, “rma.txt”)
31042×8 行列
1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9
1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0
2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.3 1399167_a_at
1367453_at
1367452_at
AL1 .CEL
AL2 .CEL
AL3 .CEL
AL4 .CEL
CR1 .CEL
CR2 .CEL
CR3 .CEL
CR4 .CEL
検定
たくさんの検定手法が提案されている を参考
# t検定 p <- c() for(i in 1:31042){ p[i] <- t.test( express[i, 1:4], express[i, 5:8] )$p.value } # データ保存 names(p) <- rownames(express) write.table(p, “p.txt”)
0.1405
0.0013
0.0355 p値
1.2 1.4 1.4 1.3 1.5 0.4 0.6 0.9
1.5 1.6 0.7 0.4 4.3 4.2 4.1 4.0
2.4 2.5 2.9 2.2 1.9 1.3 1.5 2.3 1399167_a_at
1367453_at
1367452_at
AL1 .CEL
AL2 .CEL
AL3 .CEL
AL4 .CEL
CR1 .CEL
CR2 .CEL
CR3 .CEL
CR4 .CEL
1399167_a_at
1367453_at
1367452_at
FDR制御
FDR、q値(またはQ値)って何なのかは次のページ以降で説明
q値
# 別途パッケージロード library(“fdrtool”) # FDR制御 fdr1 <- p.adjust(p, “BH”) fdr2 <- fdrtool(p, statistic=“pvalue”)$qvql fdr3 <- fdrtool(p, statistic=“pvalue”)$lfdr # データ保存 names(fdr1) <- rownames(express) names(fdr2) <- rownames(express) names(fdr3) <- rownames(express) write.table(fdr1, “BH.txt”) write.table(fdr2, “Q.txt”) write.table(fdr3, “LFDR.txt”)
0.1405
0.0013
0.0355 p値 1399167_a_at
1367453_at
1367452_at
0.1555
0.0257
0.0592 1399167_a_at
1367453_at
1367452_at
多重検定補正
提案された色々な多重検定法
• FWER: Family-wise Error Rate
– Bonferroni、Tukey、Dunnet …
• FDR: False Discovery Rate
– BH、ABH、BY、Q-value、LocalFDR …
• その他:GFWER、TPPFP、EFP、ETP
BH法の原著論文(みんなが引用するからすごいことに)
最近の論文は多重性を考慮していないと査読で何かと文句言われる
Gabriele Zoppoli, et. Al., PNAS, 2012
Barry S. Taylor, et. al., Cancer Cell, 2010
Simon Anders, et. Al., Genome Biology, 2010
多重検定って?
検定数があまりにも多いと、通常の有意水準0.05はほぼ100%一度は間違う事に相当する
有意水準を0.05と設定したとする n=1の時 0.05 n=2の時 1 - (1-0.05)2 = 0.0975 n=3の時 1 - (1-0.05)3 = 0.142625 … n=kの時 1 – (1-0.05)k
仮説検定数
有意水準
複数回検定をする場合、間違った結果を含む確率が増加する
多重検定って?
n=1
n=2
n=3
かつての多重検定はこのくらいのものを想定していた (多群検定)
N血糖値、赤血球数 など一つの値
FWER制御法:Bonferroni法
マイクロアレイ等の超多重検定の場合、FWERでは基準が厳しすぎ → 一つの遺伝子も有意に判定できない
Bonferroniの不等式
𝑃 𝐸𝑖
𝑘
𝑖=1
≤ 𝑃(𝐸𝑖)
𝑘
𝑖=1
有意水準をα=0.05にしたい場合、検定数で割る α/N
𝑃(𝐸𝑖):事象Eiが起こる確率
例:k=3
𝑃 𝐸1 ∪ 𝐸2 ∪ 𝐸3 ≤ 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃(𝐸3)
FWER制御:一度でも間違う確率を制御する
FDR制御法 一つも間違わないでいる確率(FWER)は基準として厳しすぎる
↓
間違っても良い事にしよう
↓
ただし、発現変動遺伝子のリストの中にどのくらいの間違いが含まれているのかを推定してそれを新たな基準にしよう(FDR)
+ 自分がどれくらいまで間違いを許すかの有意水準はp値と区別するためにq値と呼ぼう
↓
どれが間違いか正解かは神様しかしらないので、各手法が何らかの統計学的な仮定(p
値の一様分布性など)をもうけて、FDRの期待値を計算する
p値の分布は一様分布とする
BH法
Yes No
p値の分布は帰無仮説と対立仮説の混合分布とする(混合比 π0 : 1 - π0)
自然スプライン回帰でπ0を推定 +
BH法のq値にπ0をかける
ベイズの定理における事後分布として解釈
Q-value法 LocalFDR法
𝑞𝑖 = 𝑝𝑖 × 𝑁
𝑖
𝑄𝑖 = 𝜋0 × 𝑝𝑖 × 𝑁
𝑖 𝑙𝑓𝑑𝑟 =
𝑓0 𝑝 × 𝜋0𝑓(𝑝)
𝜋(𝜃|𝐷) = 𝑓(𝐷|𝜃) × 𝜋 (𝜃)
𝑓(𝐷)
FDR制御法:BH法 ①p値を昇順に並べ替え
②p値をq値に変換
i: 昇順に並べた時の上からの順番
N: 全遺伝子数
③閾値以下のq値の遺伝子を発現変動したとする
0.005 gene5
0.06 gene4
0.1 gene3
0.001 gene2
0.21 gene1
p-value
0.001(gene2)
0.005(gene5)
0.06(gene4)
0.1(gene3)
0.21(gene1) ○ gene5
× gene4
× gene3
○ gene2
× gene1
発現変動
0.001*(5/1) = 0.005
0.005*(5/2) = 0.00125
0.06*(5/3) = 0.1
0.1*(5/4) = 0.125
0.21*(5/5) = 0.21 ① ②
③ q値 p値
< 0.05
< 0.05
> 0.05
> 0.05
> 0.05
閾値
= P
= E[FP] 𝑞𝑖 = 𝑝𝑖 × 𝑁
𝑖
p値の一様分布性の破綻
BH法が想定しているp値の分布 実際のデータでのp値の分布 (0側に偏る場合が多い)
# 一様分布シミュレーション for(i in 1:31042){ x <- rnorm(4) y <- rnorm(4) pp[i] <- t.test(x, y)$p.value } # プロット hist(pp) # 実際のデータのプロット hist(p)
FDR制御法: Q-value法
帰無仮説(差が無い)
対立仮説(差が有る)
0側に寄る
一様分布する 0側に寄り気味な一様分布ができる
平均値の差
頻度
0
0
0 1
1
1
頻度
頻度
頻度
混合分布
0
𝑄𝑖 = 𝝅𝟎 × 𝑝𝑖 × 𝑁
𝑖
帰無仮説:対立仮説 = 𝜋0 ∶ 1 − 𝜋0
FDR制御法: LocalFDR法
𝑃 𝐻0|𝑝 = 𝑙𝑓𝑑𝑟 = 𝑓0 𝑝 × 𝜋0𝑓(𝑝)
帰無仮説(差が無い)
対立仮説(差が有る)
平均値の差
頻度
0
𝑃 𝐻1| 𝑝 = 1 −𝑓0 𝑝 × 𝜋0𝑓(𝑝)
ベイズの定理
𝑃 𝐻|𝐷 = 𝑃(𝐷|𝐻) × 𝑃(𝐻)
𝑃(𝐷)
D: データ H: 仮説
まとめ
CELファイル ↓
正規化 ↓
対数変換 ↓ 検定
↓ FDR制御
↓ 発現変動遺伝子リスト
RMAかMAS5が無難
みんな対数とる
p値を計算するようなもののほうが良い
p値の分布に合わせて、各手法を利用 (FDR<0.1くらいが一つの目安)