DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of...

22
DNA アアアアアアアア (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井井井井 1 井井井井 2 1 井井井井井井井井井井井井井井井井井井井井井 [email protected] 2 井井井井井井井 [email protected] 2003 井井 井井井井井井 井井井井 井井井井井井井 : DNA 井井井井井井井井井井井井井井井井井井

Transcript of DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of...

Page 1: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

DNAアレイデータ概説

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

井元清哉 1 ,樋口知之 2

1 東京大学医科学研究所ヒトゲノム解析センター [email protected] 統計数理研究所 [email protected]

2003 年度 統計関連学会 連合大会企画セッション : DNA アレイデータ解析に関する統計的諸問題

Page 2: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

8 月 4 日8:30-10:20 Analysis of gene expression data (p.96)10:30-12:20 Bayesian and mixture method in genomics data (p.125)10:30-12:20 Data analysis of microarray data (p.133)

8 月 5 日10:30-12:20 Classification of gene expression data (p.246)14:00-15:50 Microarray data analysis (p.276)

8 月 6 日8:30-10:20 Statistical issues in image analysis, microarrays,

and machine learning (p.305)10:30-12:20 Bayesian methods for microarray data analysis (p.342)10:30-12:20 Statistics and genomics (p.345)10:30-12:20 Analysis of genetic data II (p.370)

8 月 7 日8:30-10:20 Statistics and microarrays (p.422)8:30-10:20 Normalization of microarray data (p.445)10:30-12:20 Multivariate approachs to gene expression data (p.465)

Joint Statistical Meeting 2003in San Francisco

Page 3: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

遺伝子発現データ cDNA マイクロアレイデータ オリゴヌクレオチドアレイ

(Affymetrix 社, GeneChip ) マクロアレイ

( ラジオアイソトープ )

R

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 4: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Red means Cell A < Cell BGreen means Cell A > Cell BYellow means Cell A = Cell B

(C) Copyright 2003 Seiya Imoto,Human Genome Center, University of Tokyo

Page 5: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

The transfer of information from DNA to protein

DNAgene

mRNA

Splicing; A process that results in removal of introns and joining of exons in RNAs.

exon: cording regionintron: noncording region

Protein

Translation(翻訳)

Transcription (転写)

AGGTTCAGCGC

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 6: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

cDNA microarray

Extract mRNA from all genes

Colored cDNA

Hybridize to chip

Reference Cell Experimental Cell

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 7: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

GeneX is over-expressed in Cell B than Cell A

Cell A Cell B

Hybridize to chip

Labeled cDNA from geneX

Spot of geneX with complementary sequence of colored cDNA

This spot shows red color. (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 8: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Red means Cell A < Cell BGreen means Cell A > Cell BYellow means Cell A = Cell B

(C) Copyright 2003 Seiya Imoto,Human Genome Center, University of Tokyo

Page 9: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

cDNA microarray

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 10: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

This machine can make 48 microarrays simultaneously (One day).

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 11: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Colored cDNAs are put at the cusp of the needles.

384 plate contains 384 colored cDNAs.

Yeast has over 6,000 genes, then we should change 384 plate 16 times.

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 12: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Dip 32 spots at once.

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 13: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Green intensity

Green background

Green b.g.-corrected

Ctrl Ctrl Ctrl Data Data DataD x A - PSLBkgd sDxA D x A - PSLBkgd sDxA Ratio (sDxA): Data / Ctrl

A_1_1 59358.75 512.92 58845.83 50953.13 1779.913 49173.22 0.835628 YAL003W translation elongation factor eef1betaA_1_2 1209.19 512.92 696.271 2522.345 1779.913 742.4323 1.066298 YAR053W hypothetical proteinA_1_3 1948.2 512.92 1435.28 3100.152 1779.913 1320.239 0.919848 YBL078C essential for autophagyA_1_4 4940.806 512.92 4427.886 6670.604 1779.913 4890.691 1.104521 YAL008W protein of unknown functionA_1_5 1485.59 512.92 972.671 2916.086 1779.913 1136.173 1.168096 YAR062W putative pseudogeneA_1_6 32642.03 512.92 32129.11 42304.13 1779.913 40524.22 1.261293 YBL087C 60s large subunit ribosomal protein l23.eA_1_7 6919.441 512.92 6406.521 8540.246 1779.913 6760.333 1.055227 YAL014CA_1_8 2698.301 512.92 2185.382 4314.47 1779.913 2534.557 1.159778 YAR068W strong similarity to hypothetical protein yhr214w- aA_1_9 7167.958 512.92 6655.038 7379.286 1779.913 5599.373 0.841374 YBL100C questionable orfA_1_10 5470.062 512.92 4957.142 6953.799 1779.913 5173.886 1.043724 YAL025C nuclear viral propagation proteinA_1_11 27879.49 512.92 27366.57 33746.9 1779.913 31966.99 1.168103 YBL002W histone h2b.2A_1_12 2589.613 512.92 2076.693 4385.568 1779.913 2605.655 1.254713 YBL107C hypothetical proteinA_1_13 6196.245 512.92 5683.326 8840.475 1779.913 7060.562 1.242329 YDR044W coproporphyrinogen iii oxidaseA_1_14 34737.1 512.92 34224.18 36129.62 1779.913 34349.7 1.003668 YDR134C strong similarity to flo1p, flo5p, flo9p and ylr110cA_1_15 34035.35 512.92 33522.43 27128.53 1779.913 25348.62 0.756169 YDR233C similarity to hypothetical protein ydl204wA_1_16 1638.381 512.92 1125.461 2988.042 1779.913 1208.129 1.073453 YDR048C questionable orfA_1_17 3873.718 512.92 3360.799 4955.141 1779.913 3175.228 0.944784 YDR139C ubiquitin- like proteinA_1_18 2433.625 512.92 1920.706 3502.406 1779.913 1722.493 0.896802 YDR252W strong similarity to egd1p and to human btf3 proteinA_1_19 1800.736 512.92 1287.816 3011.855 1779.913 1231.942 0.956613 YDR053W questionable orfA_1_20 1296.689 512.92 783.77 2636.549 1779.913 856.6356 1.092968 YDR149C questionable orfA_1_21 3453.24 512.92 2940.32 4968.026 1779.913 3188.113 1.084274 YDR260C hypothetical proteinA_1_22 10731.55 512.92 10218.63 9307.246 1779.913 7527.333 0.736629 YDR056C hypothetical proteinA_1_23 6191.309 512.92 5678.39 8808.398 1779.913 7028.485 1.23776 YDR152W weak similarity to c.elegans hypothetical protein cet26e3A_1_24 3589.998 512.92 3077.078 4420.744 1779.913 2640.831 0.858227 YDR269C questionable orfA_1_25 27568.34 512.92 27055.42 20856.2 1779.913 19076.29 0.705082 YGL189C 40s small subunit ribosomal protein s26e.c7A_1_26 1956.182 512.92 1443.262 3150.716 1779.913 1370.803 0.949795 YGL261C strong similarity to members of the srp1/ tip1 family

Red intensity

Red b.g.

Red b.g.-corrected

(R. b.g.-c)/(G. b.g.-c)

Systematic nameGene function

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 14: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

Data

}5,3{.2 Bij

Bij CyCy

}5,3{.3 BNij

BNij CyCy

}5,3{.1 ijij CyCy i 番目のアレイによって観測された j 番目の遺伝子の発現データ

バックグラウンドのインテンシティ分を補正

正規化されたインテンシティ

対数変換

BNij

BNij

ij Cy

Cyx

3

5log.4 2

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 15: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

正規化 1 (大域的正規化 )

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 16: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

正規化 2 (局所的正規化 )

1 2 3 4 5 6 7 8

1 2 3 4

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 17: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

4

8

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 18: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

利用可能なマイクロアレイデータ 1

スタンフォード( SMD データベース)

人 ( Homo sapiens ) パン酵 ( Saccharomyce

s cerevisiae ) 線虫 ( Caenorhabditis el

egans )

論文のアブストラクト データの説明

http://genome-www5.stanford.edu/MicroArray/SMD/(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 19: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

利用可能なマイクロアレイデータ 2

KEGG データベース 藍藻 ( Synechocystis

sp. PCC6803 ) 枯草菌

( Bacillus subtilis ) 線虫( Escherichia coli

K-12 W3110 )

論文のアブストラクト

http://www.genome.ad.jp/

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 20: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

利用可能なマイクロアレイデータ 3

Golub et al. (1999). Science. 血液の癌 AML と ALL の分類38 患者(学習データ),34患者(テストデータ)http://contest.genome.ad.jp/problem2.html

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 21: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

マイクロアレイデータ解析のレクチャーノート

Terry Speed ed. (2002).Statistical analysis of gene expression microarray data. CHAPMAN&HALL/CRC

Sorin Draghici. (2003).Data analysis tools for DNA microarrays. CHAPMAN&HALL/CRC

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo

Page 22: DNA アレイデータ概説 (C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo 井元清哉 1 ,樋口知之 2 1 東京大学医科学研究所ヒトゲノム解析センター

その他 科研費シンポジュウム「バイオスタティスティクスの

数理的基礎」( 2002 年 12 月東京大学数理科学)チュートリアル:遺伝子発現データ解析概論.濱野鉄太郎,伊藤陽一,井元清哉http://www.ms.u-tokyo.ac.jp/~nakahiro/sympo14/tu1

日本計量生物学会2003 年度シンポジュウム特別セッション「マイクロアレイデータ解析における統計的方法論の開発」 井元清哉,大瀧慈http://bonsai.ims.u-tokyo.ac.jp/~imoto/imoto_biometrics2003.pdf

(C) Copyright 2003 Seiya Imoto, Human Genome Center, University of Tokyo