DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷...

54
DNA DNA 序序序序序序序 序序序序序序序 Statistical Games in DNA Se Statistical Games in DNA Se quences quences 序序序序序序序‧序序序 序序序序序序序‧序序序 2004/10/05 2004/10/05 序序序序序序
  • date post

    19-Dec-2015
  • Category

    Documents

  • view

    228
  • download

    2

Transcript of DNA 序列的統計遊戲 Statistical Games in DNA Sequences 東海大學物理系‧施奇廷...

DNA DNA 序列的統計遊戲序列的統計遊戲Statistical Games in DNA SequencesStatistical Games in DNA Sequences

東海大學物理系‧施奇廷東海大學物理系‧施奇廷2004/10/052004/10/05計算科學總論

摘要摘要DNA DNA 序列,可以說是生命奧秘的「有字天書」。隨著定序序列,可以說是生命奧秘的「有字天書」。隨著定序技術越來越發達,投入的經費與人力越來越多,我們已經知技術越來越發達,投入的經費與人力越來越多,我們已經知道的序列已經達到數百億個鹼基對之多,但是我們對這部天道的序列已經達到數百億個鹼基對之多,但是我們對這部天書該如何讀卻所知有限。除了生物學家的正攻法之外,物理書該如何讀卻所知有限。除了生物學家的正攻法之外,物理學家們想出了一些怪招來研究這些序列,得到許多有趣的結學家們想出了一些怪招來研究這些序列,得到許多有趣的結果。雖然距離真正破解生命密碼還有很遙遠的距離,卻也在果。雖然距離真正破解生命密碼還有很遙遠的距離,卻也在意想不到的方向上,跨出了一小步。在這次演講中,我們將意想不到的方向上,跨出了一小步。在這次演講中,我們將介紹與 介紹與 DNA DNA 有關,基本的遺傳學基本知識,重頭戲當然是有關,基本的遺傳學基本知識,重頭戲當然是要介紹這些至今還是被許多人是為邪魔歪道或是雕蟲小技的要介紹這些至今還是被許多人是為邪魔歪道或是雕蟲小技的研究方法,告訴大家如何拿這些長篇累牘的序列來玩一場統研究方法,告訴大家如何拿這些長篇累牘的序列來玩一場統計遊戲。計遊戲。

OutlineOutline

什麼是 什麼是 DNADNA 基因學研究簡史基因學研究簡史 DNA DNA 「走路」「走路」 DNA DNA 的「肖像」的「肖像」 結語結語

What is DNA?What is DNA?

一種巨大的長鍊狀分子 由一連串的核苷酸組成由一連串的核苷酸組成

生命訊息的層級生物體 生物體 > > 細胞 細胞 > DNA >> DNA > 核苷酸 核苷酸 > > 鹼基對鹼基對

核苷酸鹼基Guanine (GGuanine (G ,鳥嘌呤,鳥嘌呤 )) ,, Adenine (AAdenine (A ,腺嘌呤,腺嘌呤 )) , , Cytosine (CCytosine (C ,,胞嘧啶胞嘧啶 )) ,, Thymine (TThymine (T ,胸腺,胸腺嘧啶嘧啶 ))

What is DNA? A PhotoWhat is DNA? A Photo

What is DNA? A Schematic ViewWhat is DNA? A Schematic View

NucleotidesNucleotides

The Book of LifeThe Book of Life

大英百科全書大英百科全書 Human GenomeHuman Genome

26 26 英文字母英文字母 四種核甘酸四種核甘酸2323 卷卷 2323 對染色體對染色體

200,000200,000 篇文章篇文章 35,00035,000 基因基因兩億個字元兩億個字元 3030 億鹼基對億鹼基對

8.5”×12×20,0008.5”×12×20,000 頁頁 長長 1m×1m× 直徑直徑 100100ÅÅ

Brief History of GeneticsBrief History of Genetics

1860: Mendel1860: Mendel

18601860 年代,奧地利神年代,奧地利神父孟德爾(父孟德爾( Gregor MeGregor Mendel, 1822-1884ndel, 1822-1884 )發)發現豌豆中有某種成對的現豌豆中有某種成對的「因子」可以決定遺傳「因子」可以決定遺傳性狀。性狀。

1869: Miescher1869: Miescher

18691869 年,瑞士生物學家 年,瑞士生物學家 JJohann Miescher (1844~ 18ohann Miescher (1844~ 1895) 95) 在病患繃帶的膿汁中發在病患繃帶的膿汁中發現一種新物質,由於是在細現一種新物質,由於是在細胞核中,他將之取名為「核胞核中,他將之取名為「核素」素」 (nuclein)(nuclein) ,此即為,此即為 DNDNAA (去氧核糖核酸)。(去氧核糖核酸)。

1928: Griffith1928: Griffith

19281928 年,英國軍醫年,英國軍醫 FreFrederick Griffith (1881~194derick Griffith (1881~1941) 1) 以老鼠實驗發現,將以老鼠實驗發現,將活的良性肺炎雙球菌與死活的良性肺炎雙球菌與死的惡性肺炎雙球菌混合,的惡性肺炎雙球菌混合,可以引起轉型,得到活的可以引起轉型,得到活的惡性菌,使老鼠死亡。惡性菌,使老鼠死亡。

1908: Morgan1908: Morgan

Thomas Morgan (1866 ~19Thomas Morgan (1866 ~1945) 45) 首先利用果蠅來研究遺傳首先利用果蠅來研究遺傳學,他發現有許多基因是一起學,他發現有許多基因是一起遺傳的,因此推測有些基因在遺傳的,因此推測有些基因在染色體上的位置是相連的,並染色體上的位置是相連的,並且訂出了果蠅的基因圖譜。且訂出了果蠅的基因圖譜。 MMorganorgan 於於 19331933 年獲得諾貝爾年獲得諾貝爾生理及醫學獎。生理及醫學獎。

1942: Beadle & Tatum1942: Beadle & Tatum

19421942 年,年, George BeGeorge Beadle (1903~1989) adle (1903~1989) 與 與 EEdward Tatum (1909~19dward Tatum (1909~1975) 75) 以麵包上的紅黴菌以麵包上的紅黴菌實驗證實,實驗證實, DNADNA 上所帶上所帶的遺傳訊息,其功能是的遺傳訊息,其功能是製造特定的蛋白質。他製造特定的蛋白質。他們獲得了們獲得了 19581958 年的諾貝年的諾貝爾生理與醫學獎。爾生理與醫學獎。

1949: Chargaff1949: Chargaff

19491949 年,年, Irwin Chargaff Irwin Chargaff (1905~) (1905~) 提出了所謂的 提出了所謂的 CChargaff hargaff 法則:法則: DNADNA 中的中的四種核甘酸:四種核甘酸: AA 與與 TT 的含的含量相同,量相同, CC 與與 GG 的含量相的含量相同,推翻了過去同,推翻了過去 ATCGATCG含含量均勻的假說。量均勻的假說。

1953: The Discovery of Double 1953: The Discovery of Double HelixHelix

19511951 年,年, Rosalind FrRosalind Franklin anklin 得到得到 DNADNA分子分子的的 X-rayX-ray繞射照片,繞射照片, 19195353 年,年, WatsonWatson 與與 CricCrickk 解出了解出了 DNADNA 的雙螺旋的雙螺旋結構,此為分子生物學結構,此為分子生物學的大躍進。的大躍進。

1955: Sequence of Insulin1955: Sequence of Insulin

英國科學家 英國科學家 Fred Fred Sanger Sanger 定出了胰島定出了胰島素的氨基酸序列(長素的氨基酸序列(長度為度為 5151 個氨基酸),個氨基酸),獲得獲得 19581958 年諾貝爾年諾貝爾化學獎。化學獎。

1966: Genetic Code1966: Genetic Code

Marshall Nirenberg Marshall Nirenberg 與 與 H. Gobind KhoranH. Gobind Khorana a 研究小組找到了遺傳研究小組找到了遺傳碼(碼( genetic codegenetic code )。)。在在 DNADNA 序列中每三個核序列中每三個核甘酸鹼基代表一個氨基甘酸鹼基代表一個氨基酸,稱為一個「編碼酸,稱為一個「編碼子」(子」( codoncodon )。他們)。他們因此獲得了因此獲得了 19681968 年諾年諾貝爾獎。貝爾獎。

1977: Sequencing the DNA1977: Sequencing the DNA

Fred SangerFred Sanger 開發出開發出「連續反應中斷」(「連續反應中斷」( chachain termin-ationin termin-ation )定序法)定序法定出了一個病毒的完整定出了一個病毒的完整序列序列 53755375 個碼,這是當個碼,這是當時最簡便的時最簡便的 DNADNA 定序法,定序法,也是後來自動定序的基也是後來自動定序的基礎,使他獲得礎,使他獲得 19801980 年諾年諾貝爾化學獎。貝爾化學獎。

1989:The Human Genome 1989:The Human Genome ProjectProject

2020世紀末,美國世紀末,美國國家衛生院、英國國家衛生院、英國衛康基金會、以及衛康基金會、以及後來加入的民間組後來加入的民間組織織 TIGRTIGR ,一起推,一起推動了堪稱與登陸月動了堪稱與登陸月球重要性相當的球重要性相當的「人類基因組計「人類基因組計畫」(畫」( Human GeHuman Genome Project, HGnome Project, HGPP ))

The Human GenomeThe Human Genome

1999 December 21999 December 2Chromosome 22 completed (47.7 Mb)Chromosome 22 completed (47.7 Mb)

2000 May 82000 May 8Chromosome 21 completed (50.0 Mb)Chromosome 21 completed (50.0 Mb)

2000 June 26 2000 June 26 Working Draft of complete human genomeWorking Draft of complete human genome

97% coverage, 85% complete97% coverage, 85% complete

2000: Human Genome Draft 2000: Human Genome Draft CompletedCompleted

20002000 年六月,美國總年六月,美國總統統 Bill ClintonBill Clinton、英國首、英國首相 相 Tony Blair Tony Blair 共同宣共同宣布,第一份人類基因組布,第一份人類基因組草圖,比預計的 草圖,比預計的 2005 2005 年,提前五年完成。年,提前五年完成。

““the most important fathe most important fact of life on this Earth is ct of life on this Earth is our common humanity”our common humanity”

Growth of GenBankGrowth of GenBank

年份年份 Seq.Seq. Bp.Bp.

19821982 606606 680338680338

19851985 57005700 5204420 5204420

19901990 3953339533 49179285 49179285

19951995 555694555694 33..8×8×101088

20002000 10106023 10106023 1.11.1××10101010

20012001 14976310 14976310 1.61.6××10101010

生物學家最感興趣的:基因圖譜生物學家最感興趣的:基因圖譜

Music of LifeMusic of Life

將流行性感冒病毒之將流行性感冒病毒之 DNDNAA 序列轉換成樂譜:序列轉換成樂譜:

中心法則:生命訊息的傳遞中心法則:生命訊息的傳遞

DNA

RNA

Protein轉錄

轉譯

反轉錄

轉錄:拷貝藍圖轉錄:拷貝藍圖Start signalStart signal (e.g. TA (e.g. TATAAT) and TAAT) and stop signastop signall (e.g. AAAAA) (e.g. AAAAA)

SplicingSplicing: keep exon: keep exonss (外碼子)(外碼子) , throw , throw out intronout intron (內碼子)(內碼子)

mRNAmRNA: concatenati: concatenation of exonson of exons

Transcription: CopyingTranscription: Copying

轉譯:基因碼轉譯:基因碼 3-nucleotides = 3-nucleotides =

1 codon1 codon 64 codons 64 codons 3 stop codons 3 stop codons Rest (61) codeRest (61) code

s to 20 amino as to 20 amino acidscids

物理學家做了些什麼?物理學家做了些什麼?

Random WalkRandom Walk 什麼是「無規行走」(什麼是「無規行走」( Random WalkRandom Walk )?)? 一維:丟一枚銅板,出現正面則向前一步,出現背面則向一維:丟一枚銅板,出現正面則向前一步,出現背面則向後一步後一步

二維:丟兩枚銅板,出現「++」則向前、「+-」向後、二維:丟兩枚銅板,出現「++」則向前、「+-」向後、「-+」向左、「--」向右「-+」向左、「--」向右

如果沒有作弊,平均而言,走過很多步以後,會回到原點如果沒有作弊,平均而言,走過很多步以後,會回到原點附近附近

但是不會剛好回到原點,而是在距離原點√但是不會剛好回到原點,而是在距離原點√ NN 的範圍之內的範圍之內 寫成數學表示法:寫成數學表示法: Y(N)=0± √NY(N)=0± √N 。若把標準差寫為 。若把標準差寫為 F(N)F(N) ,,則 則 F(N)= √N F(N)= √N 或 或 NN0.50.5

利用電腦程式模擬看看:

DNA WalkDNA Walk

如果我們不用丟骰子的方式來決定往哪個方向走,如果我們不用丟骰子的方式來決定往哪個方向走,而是利用 而是利用 DNA DNA 序列來決定,結果如何?序列來決定,結果如何?

一維 一維 DNA walk DNA walk 方法:依序讀入 方法:依序讀入 DNA DNA 序列,序列,如果讀到 如果讀到 C, T C, T (嘧啶)則向前一步,如果讀到 (嘧啶)則向前一步,如果讀到 A, GA, G (嘌呤)則向後退一步(嘌呤)則向後退一步

二維 二維 DNA walk DNA walk 方法:四種核甘酸剛好對應四個方法:四種核甘酸剛好對應四個方向方向

麵包酵母菌第三及第八條染色體之一維 麵包酵母菌第三及第八條染色體之一維 DNA WalkDNA Walk

麵包酵母菌第二條染色體之二維 麵包酵母菌第二條染色體之二維 DNA WalkDNA Walk

關於一維 關於一維 Walker Walker 的分析的分析比較三種「走法」:前兩種是我們前面介紹過的 比較三種「走法」:前兩種是我們前面介紹過的

Random walk Random walk 以及 以及 DNA walkDNA walk第三種是 第三種是 Fibonacci walk: Fibonacci walk: 利用所謂的 利用所謂的 FibonacFibonac

ci ci 數列方法產生一個「假的」數列方法產生一個「假的」 DNA DNA 序列序列 由 由 G G 開始→開始→ G G 變成 變成 GC→G GC→G 變成 變成 GCGC ,, C C 變成變成 GG (( GCGGCG )→)→ GCGGC→GCGGCGCG…GCGGC→GCGGCGCG………

產生出來的序列再用 產生出來的序列再用 DNA walk DNA walk 的方法去走,得的方法去走,得到下圖到下圖

DNA Walk (conti.)DNA Walk (conti.)Fluctuations:Fluctuations:

Correlation:Correlation:

Random sequence and short correlated Random sequence and short correlated sequence: sequence:

Long-range correlated sequence: Long-range correlated sequence:

)()()(

)()()(

00

222

lyllyly

lylylF

l

i

l

j

ijClF

lullululC

1 1

2

2

000

)()(

)()()()(

0.5 with ~)( llF

0.5 with ~)( llF

F(N)

N

關於一維 關於一維 Walker Walker 的分析的分析(續)(續)

由 由 F(N)=NF(N)=N 的行為看來,這三種序列有很大的的行為看來,這三種序列有很大的不同:不同:

Random walk: Random walk: = 0.5 = 0.5 Human Ch22: Human Ch22: ~ 0.6 ~ 0.6 Fibonacci: Fibonacci: << 0.5 << 0.5 Random walk Random walk 裡面不含資訊(全是隨機亂數),裡面不含資訊(全是隨機亂數),

因此 因此 =0.5 =0.5 表示「資訊量最低」表示「資訊量最低」 Fibonacci Fibonacci 序列有嚴謹的規則,所以 序列有嚴謹的規則,所以 偏離 偏離 0.5 0.5

很遠很遠 DNA ?DNA ? “有點亂又不是太亂”

DNA Walk (conti.)DNA Walk (conti.)

(a)(a) intron-containing intron-containing -cardiac myosin (● with a=0.67) and its cDNA (○ -cardiac myosin (● with a=0.67) and its cDNA (○ with a=0.49)with a=0.49)

(b) intron-rich genes (● with a=0.62) and its intronless genes (○ with a● with a=0.62) and its intronless genes (○ with a=0.49), see table=0.49), see table

(c)(c) same as in (a) for longer distancesame as in (a) for longer distance

DNA Walk (conti.)DNA Walk (conti.)

奇怪的是……奇怪的是…… DNA DNA 序列中有分 序列中有分 coding (gene) coding (gene) 以及 以及 non-conon-co

ding (junk, intron) ding (junk, intron) 區域,我們很合理的猜測,編區域,我們很合理的猜測,編碼區應該是「含有資訊」,而非編碼區是接近亂碼區應該是「含有資訊」,而非編碼區是接近亂數序列、不含資訊的序列數序列、不含資訊的序列

可是根據對編碼區與非編碼區分別計算 可是根據對編碼區與非編碼區分別計算 的結 的結果……果……

編碼區的 = 0.5 ,非編碼區的 ~ 0.6 !

雖然還是搞不清楚原因,不過還是提供了一雖然還是搞不清楚原因,不過還是提供了一個判斷編碼區或非編碼區的方法:個判斷編碼區或非編碼區的方法:

DNA DNA 「剪不斷,理還亂?」「剪不斷,理還亂?」 當 當 ≠≠ 0.5 0.5 時,表示這個序列有「時,表示這個序列有「 long range colong range co

rrelationrrelation 」,也就是第 」,也就是第 x x 步會與第 步會與第 x+N x+N 步有關步有關 DNA DNA 的 的 ≠≠ 0.50.5 ,也就表示 ,也就表示 DNA DNA 序列存在某序列存在某

種規則,種規則, but what ?but what ? 一個可能性:一個可能性: DNA DNA 的電子傳導(的電子傳導( S. Roche S. Roche et aet a

ll.. )) DNA DNA 的電子傳導性較 的電子傳導性較 random sequence random sequence 好好 DNA DNA 的電傳性質是目前一個非常重要的問題的電傳性質是目前一個非常重要的問題

Still an open question!Still an open question!

Visualize the Complete GenomeVisualize the Complete Genome

利用符號動力學 利用符號動力學 (symbolic dynamics) (symbolic dynamics) 方法,可以方法,可以將物種的完整將物種的完整 DNADNA 序列圖像化,是一種粗粒化的方序列圖像化,是一種粗粒化的方式,雖然失去一些細節,然而卻能使某些重要的特式,雖然失去一些細節,然而卻能使某些重要的特性一目了然性一目了然

Method for VisualizationMethod for Visualization

將序列圖像化的方法:將序列圖像化的方法:1.1. 設定子序列長度,例如為設定子序列長度,例如為 222.2. 將一單位正方形分割為四將一單位正方形分割為四

等分,其所代表的鹼基如等分,其所代表的鹼基如圖所示。圖所示。

3.3. 將每一小格再細分為四格,將每一小格再細分為四格,亦以同樣的相對位置訂定亦以同樣的相對位置訂定對應鹼基。對應鹼基。

GG CC

AA TT

GCGC GGGG CGCG CCCC

GAGA GTGT CACA CTCT

AGAG ACAC TGTG TCTC

AAAA ATAT TATA TTTT

Method for Visualization (conti.)Method for Visualization (conti.)

統計序列中各長度為統計序列中各長度為 22 之之子序列出現的次數,例如子序列出現的次數,例如下列序列:下列序列: AATCGGACAATCGGACGTAACC GTAATATAGGTAACC GTAATATAGGG ,則其出現次數如右表,則其出現次數如右表所示。所示。

將各出現頻率依高低以不將各出現頻率依高低以不同的顏色表示,顏色越深同的顏色表示,顏色越深者表出現次數越多。者表出現次數越多。

所得之圖稱為該物種之所得之圖稱為該物種之 GGenome Portraitenome Portrait 。。

GCGC00

GGGG22

CGCG33

CCCC11

GAGA11

GTGT22

CACA00

CTCT00

AGAG11

ACAC22

TGTG00

TCTC11

AAAA33

ATAT33

TATA44

TTTT00

Statistical PropertiesStatistical Properties

如果如果 DNADNA 序列是隨序列是隨機序列,則各個子序機序列,則各個子序列出現的機率應該差列出現的機率應該差不多,但是由所研究不多,但是由所研究的幾個序列顯示,出的幾個序列顯示,出現機率的分佈極不均現機率的分佈極不均勻,因此勻,因此 DNADNA 序列序列顯然不是一個隨機序顯然不是一個隨機序列。列。

Genome Maps of Different Genome Maps of Different SpeciesSpecies

對不同的物種可以作相同的分析,發現有對不同的物種可以作相同的分析,發現有些物種的些物種的 Genome MapGenome Map 很類似,有些則差很類似,有些則差距較大。這種方法可能可以作為分類或是距較大。這種方法可能可以作為分類或是演化學研究的方法。演化學研究的方法。

Why so few?Why so few?

既然既然 DNADNA 序列的子序列的子序列分佈不均勻,序列分佈不均勻,「經常出現」與「較「經常出現」與「較少出現」的子序列,少出現」的子序列,必然有其生物意義。必然有其生物意義。先由「較少出現」者先由「較少出現」者來看,在此圖形上似來看,在此圖形上似乎顯示出某種碎形乎顯示出某種碎形(( fractalfractal )的特性?)的特性?這是為了「躲避」限這是為了「躲避」限制內切脢的攻擊。制內切脢的攻擊。

DNA DNA 中的迴文中的迴文 經過分析的結果,發現這經過分析的結果,發現這

些「躲避」的字串都呈現些「躲避」的字串都呈現迴文的型態,如:迴文的型態,如: CTAGCTAG ,,GGACCGGACC ,, CCTAGG CCTAGG 等。等。

當某些酵素探測到這類序當某些酵素探測到這類序列時可以與之結合,並由列時可以與之結合,並由此處將 此處將 DNA DNA 長鏈切斷,長鏈切斷,造成該生物死亡造成該生物死亡

因此這些「因此這些「 DNA DNA 肖像」肖像」反映出這個物種的演化痕反映出這個物種的演化痕跡跡

結語結語 物理學家處理 物理學家處理 DNA DNA 特性的方式,與生物學家大特性的方式,與生物學家大

為不同為不同 生物學家希望能將每個生物的 生物學家希望能將每個生物的 DNA DNA 序列的每個序列的每個

基因找出來,並且探討這些基因在生物體內的功基因找出來,並且探討這些基因在生物體內的功能能

物理學家喜歡找「共同規則」,所以經常將各種物理學家喜歡找「共同規則」,所以經常將各種不同物種的序列拿來一起分析,希望找出共同點不同物種的序列拿來一起分析,希望找出共同點

但是由於目前資料量過於龐大,因此物理學家先但是由於目前資料量過於龐大,因此物理學家先用所熟悉統計工具來「玩」用所熟悉統計工具來「玩」 DNADNA

只要有好點子,都可以來玩玩看!只要有好點子,都可以來玩玩看!