集中講義(東京大学)「化学システム工学特論第3」...

16
集集集集 集集集集 集集集集集集集集集集集集 集 () 集集集集集集集集集集集集集集集集集集集集集集集集集集(1) 集集集集集集集集集集集集集集 京京京京 京京京京京 京京京京京京京京京京京京京京京京 京京京 京京

description

集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観. 阿久津 達也. 京都大学 化学研究所 バイオインフォマティクスセンター. バイオインフォマティクス(1). 生物学+情報技術( IT) 1990年代に大きく発展    ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノムが決定) 情報解析の必要性 DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要 立体構造、遺伝子発現データ、代謝パスウェイなど. - PowerPoint PPT Presentation

Transcript of 集中講義(東京大学)「化学システム工学特論第3」...

Page 1: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

集中講義(東京大学)「化学システム工学特論第3」

バイオインフォマティクス的手法による化合物の性質予測(1)

バイオインフォマティクス概観

京都大学 化学研究所バイオインフォマティクスセンター

阿久津 達也

Page 2: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

バイオインフォマティクス(1)

生物学+情報技術( IT ) 1990年代に大きく発展   ← ゲノム計画の急速な進展     (既に100種類以上の生物種のゲノ

ムが決定) 情報解析の必要性

DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要

立体構造、遺伝子発現データ、代謝パスウェイなど

Page 3: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

バイオインフォマティクス(2)

主要トピック データベース構築 遺伝子発見、遺伝子制御領域推定 配列検索、配列比較、進化系統樹 タンパク質構造予測、機能予測、相互作用予測 遺伝子発現データ解析 ネットワーク構造解析 化合物の性質推定

分野としての特徴 多くのデータベース・ソフトウェアが WEB などから利

用可能 研究成果が(生物学研究への)応用に直結

Page 4: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

バイオインフォマティクスにおけるデータベース

多くの重要なデータベースが無償で WEBからアクセス可能 DNA 配列:  GenBank, EMBL, DDBJ タンパク質配列:  Swissprot タンパク質立体構造: PDB モチーフ: Prosite, Pfam, … 代謝パスウェイ: KEGG

Page 5: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

Bioinformatics Center 京都大学 化学研究所 附属 2001 年 4 月設立 現在、4研究室

金久研 : KEGG 馬見塚研 :

データマイニング 阿久津研 :

アルゴリズム 人材養成ユニット(藤研) :  分子進化

バイオインフォマティクスセンター

Page 6: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

KEGG: Kyoto Encyclopedia of Genes and Genomes

金久研が開発しているデータベース 様々な生物情報データを格納

代謝パスウェイ 化合物、代謝反応式 ゲノム配列 遺伝子発現データ DBGET ( 統合データベースシステム )

GenBnak, PDB, SwissProt, …

Page 7: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

KEGG:Top page

Page 8: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

KEGG 中の代謝パスウェイの例

Page 9: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

KEGG/LIGAND 中の代謝反応式の例

Page 10: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

研究室の研究内容 研究方針

数理的原理に基づく生命情報解析手法の開発 生命システムの数理的理解

研究トピック 相互作用推定

タンパク質―タンパク質、遺伝子―遺伝子など スケールフリーネットワーク 配列解析(文字列解析)アルゴリズム タンパク質立体構造解析(比較・予測) 化学情報解析(ケモインフォマティクス) 生物データ解析のための統計的手法

HMM 、サポートベクタマシン

Page 11: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

遺伝子と蛋白質 遺伝情報の流れ

DNA⇒ RNA⇒ タンパク 遺伝子

DNA 配列中で直接的に 機能する部分

ゲノム 染色体全体(半数体) 遺伝情報の総体

タンパク質 アミノ酸(20種類)の

転写 ・ スプライシング

エキソン

mRNA

DNA エキソン エキソン

GGU GCA

翻訳

GGU → Gly GCA → Ala

タンパク質

転写制御領域 (プロモーターなど)

Page 12: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

DNA とアミノ酸 DNA は A,C,G,T の4文

字の並び DNA は二重ラセン構造

⇒相補鎖 塩基: DNA 1文字、 残基:アミノ酸1文字

DNA 3文字がアミノ酸1文字に対応

 (アミノ酸は20種類)

A G C T C T C

T C G G A C G

G

A

相補鎖

コード表

T C A G

2文字目

1文字目

T

C

A

G

TTT TTC

TTA TTG

F

L

TCT TCC TCA TCG

S TAT TAC

TAA TAG

Y stop

TGT TGC C TGA

TGG W stop

CTT CTC CTA CTG

L CCT CCC CCA CCG

P CAT CAC H CAA CAG Q

CGT CGC CGA CGG

R

ATT ATC ATA

ATG

I

M

ACT ACC ACA ACG

T AAT AAC N AAA AAG K

AGT AGC S AGA AGG R

GTT GTC GTA GTG

V GCT GCC GCA GCG

A GAT GAC

GAA GAG

D

E

GGT GGC GGA GGG

G

Page 13: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

アミノ酸と蛋白質 アミノ酸:20

種類 蛋白質:アミノ

酸の鎖(短いものはペプチドと呼ばれる)

R

C

H N

H

R

N

O

C C C

H H O

ペプチド結合

アミノ酸

蛋白質

C

H

H N

H

R

OH

O

C アミノ基 カルボシキル基

側鎖

Page 14: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

側鎖の例

3 CH

Ala アラニン

3 CH 3 H C

CH

Val バリン

CH

CH

HC C

HC

CH

2 CH

Phe フェニル アラニン

2 CH

C

O - O

Asp アスパラギン酸

HN

NH

2 CH

+

His ヒスチジン

2 CH

SH

Cys システイン

Gly グリシン

H

Page 15: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

計算量 情報科学では、入力データのサイズ (n) に対して、計算時間が

どのように変化するかを理論的に解明することが重要 O(n): かなり速い(文字列検索など) O(n log n): 結構速い(ソートなど) O(n2): まあまあ速い(アライメントなど) O(n3): ちょっと遅い( RNA二次構造予測など) O(n4): 結構遅い( Pseudo-knotつき RNA二次構造予測など) NP困難: すごく遅い (マルチプルアライメント、スレッディン

グなど ) P=NP は理論計算機科学における最大の難問 P≠NP ならば、 NP困難問題に対する理論的に効率的なアルゴリズ

ム(多項式時間アルゴリズム)は存在しない しかし、タンパク質配列などは n 1000≦ くらいなので、実用アル

ゴリズムを開発できる可能性はある

Page 16: 集中講義(東京大学)「化学システム工学特論第3」 バイオインフォマティクス的手法による 化合物の性質予測(1) バイオインフォマティクス概観

講義内容 スケールフリーネットワーク 配列アライメント タンパク質立体構造予測 遺伝子発現データ解析 タンパク質 -リガンド・ドッキング カーネル法を用いた化合物の性質予測 おわりに+21世紀 COE 「ゲノム科学

の知的情報基盤・研究拠点形成」