集中講義（東京大学）「化学システム工学特論第３」...

集中講義（東京大学）「化学システム工学特論第３」

バイオインフォマティクス的手法による化合物の性質予測（１）

バイオインフォマティクス概観

京都大学　化学研究所バイオインフォマティクスセンター

阿久津　達也

バイオインフォマティクス（１）

生物学＋情報技術（ IT ）１９９０年代に大きく発展　　　←　ゲノム計画の急速な進展　　　　　（既に１００種類以上の生物種のゲノ

ムが決定）情報解析の必要性

DNA 配列⇔プログラムのオブジェクトコード意味の解析が必要配列以外のデータ解析も重要

立体構造、遺伝子発現データ、代謝パスウェイなど

バイオインフォマティクス（２）

主要トピックデータベース構築遺伝子発見、遺伝子制御領域推定配列検索、配列比較、進化系統樹タンパク質構造予測、機能予測、相互作用予測遺伝子発現データ解析ネットワーク構造解析化合物の性質推定

分野としての特徴多くのデータベース・ソフトウェアが WEB などから利

用可能研究成果が（生物学研究への）応用に直結

バイオインフォマティクスにおけるデータベース

多くの重要なデータベースが無償で WEBからアクセス可能 DNA 配列：　 GenBank, EMBL, DDBJ タンパク質配列：　 Swissprot タンパク質立体構造： PDB モチーフ： Prosite, Pfam, … 代謝パスウェイ： KEGG

Bioinformatics Center 京都大学　化学研究所　附属 2001 年 4 月設立現在、４研究室

金久研 : KEGG 馬見塚研 :

データマイニング阿久津研 :

アルゴリズム人材養成ユニット（藤研） : 　分子進化

バイオインフォマティクスセンター

KEGG: Kyoto Encyclopedia of Genes and Genomes

金久研が開発しているデータベース様々な生物情報データを格納

代謝パスウェイ化合物、代謝反応式ゲノム配列遺伝子発現データ DBGET ( 統合データベースシステム )

GenBnak, PDB, SwissProt, …

KEGG:Top page

KEGG 中の代謝パスウェイの例

KEGG/LIGAND 中の代謝反応式の例

研究室の研究内容研究方針

数理的原理に基づく生命情報解析手法の開発生命システムの数理的理解

研究トピック相互作用推定

タンパク質―タンパク質、遺伝子―遺伝子などスケールフリーネットワーク配列解析（文字列解析）アルゴリズムタンパク質立体構造解析（比較・予測）化学情報解析（ケモインフォマティクス）生物データ解析のための統計的手法

HMM 、サポートベクタマシン

遺伝子と蛋白質遺伝情報の流れ

DNA⇒ RNA⇒ タンパク遺伝子

DNA 配列中で直接的に　機能する部分

ゲノム染色体全体（半数体）遺伝情報の総体

タンパク質アミノ酸（２０種類）の

鎖

転写・スプライシング

エキソン

mRNA

DNA エキソンエキソン

GGU GCA

翻訳

GGU → Gly GCA → Ala

タンパク質

転写制御領域（プロモーターなど）

DNA とアミノ酸 DNA は A,C,G,T の４文

字の並び DNA は二重ラセン構造

⇒相補鎖塩基： DNA １文字、　残基：アミノ酸１文字

DNA ３文字がアミノ酸１文字に対応

　（アミノ酸は２０種類）

A G C T C T C

T C G G A C G

G

A

相補鎖

コード表

T C A G

2文字目

１文字目

T

C

A

G

TTT TTC

TTA TTG

F

L

TCT TCC TCA TCG

S TAT TAC

TAA TAG

Y stop

TGT TGC C TGA

TGG W stop

CTT CTC CTA CTG

L CCT CCC CCA CCG

P CAT CAC H CAA CAG Q

CGT CGC CGA CGG

R

ATT ATC ATA

ATG

I

M

ACT ACC ACA ACG

T AAT AAC N AAA AAG K

AGT AGC S AGA AGG R

GTT GTC GTA GTG

V GCT GCC GCA GCG

A GAT GAC

GAA GAG

D

E

GGT GGC GGA GGG

G

アミノ酸と蛋白質アミノ酸：２０

種類蛋白質：アミノ

酸の鎖（短いものはペプチドと呼ばれる）

R

C

H N

H

R

N

O

C C C

H H O

ペプチド結合

アミノ酸

蛋白質

C

H

H N

H

R

OH

O

C アミノ基カルボシキル基

側鎖

側鎖の例

3 CH

Ala アラニン

3 CH 3 H C

CH

Val バリン

CH

CH

HC C

HC

CH

２ CH

Phe フェニルアラニン

2 CH

C

O - O

Asp アスパラギン酸

HN

NH

２ CH

+

His ヒスチジン

２ CH

SH

Cys システイン

Gly グリシン

H

計算量情報科学では、入力データのサイズ (n) に対して、計算時間が

どのように変化するかを理論的に解明することが重要 O(n): かなり速い（文字列検索など） O(n log n): 結構速い（ソートなど） O(n2): まあまあ速い（アライメントなど） O(n3): ちょっと遅い（ RNA二次構造予測など） O(n4): 結構遅い（ Pseudo-knotつき RNA二次構造予測など） NP困難：すごく遅い（マルチプルアライメント、スレッディン

グなど ) P=NP は理論計算機科学における最大の難問 P≠NP ならば、 NP困難問題に対する理論的に効率的なアルゴリズ

ム（多項式時間アルゴリズム）は存在しないしかし、タンパク質配列などは n 1000≦ くらいなので、実用アル

ゴリズムを開発できる可能性はある

講義内容スケールフリーネットワーク配列アライメントタンパク質立体構造予測遺伝子発現データ解析タンパク質 -リガンド・ドッキングカーネル法を用いた化合物の性質予測おわりに＋２１世紀 COE 「ゲノム科学

の知的情報基盤・研究拠点形成」

集中講義（東京大学）「化学システム工学特論第３」...

Documents

Transcript of 集中講義（東京大学）「化学システム工学特論第３」...