集中講義(東京大学)「化学システム工学特論第3」...
-
Upload
noelani-blake -
Category
Documents
-
view
38 -
download
0
description
Transcript of 集中講義(東京大学)「化学システム工学特論第3」...
集中講義(東京大学)「化学システム工学特論第3」
バイオインフォマティクス的手法による化合物の性質予測(1)
バイオインフォマティクス概観
京都大学 化学研究所バイオインフォマティクスセンター
阿久津 達也
バイオインフォマティクス(1)
生物学+情報技術( IT ) 1990年代に大きく発展 ← ゲノム計画の急速な進展 (既に100種類以上の生物種のゲノ
ムが決定) 情報解析の必要性
DNA 配列⇔プログラムのオブジェクトコード 意味の解析が必要 配列以外のデータ解析も重要
立体構造、遺伝子発現データ、代謝パスウェイなど
バイオインフォマティクス(2)
主要トピック データベース構築 遺伝子発見、遺伝子制御領域推定 配列検索、配列比較、進化系統樹 タンパク質構造予測、機能予測、相互作用予測 遺伝子発現データ解析 ネットワーク構造解析 化合物の性質推定
分野としての特徴 多くのデータベース・ソフトウェアが WEB などから利
用可能 研究成果が(生物学研究への)応用に直結
バイオインフォマティクスにおけるデータベース
多くの重要なデータベースが無償で WEBからアクセス可能 DNA 配列: GenBank, EMBL, DDBJ タンパク質配列: Swissprot タンパク質立体構造: PDB モチーフ: Prosite, Pfam, … 代謝パスウェイ: KEGG
Bioinformatics Center 京都大学 化学研究所 附属 2001 年 4 月設立 現在、4研究室
金久研 : KEGG 馬見塚研 :
データマイニング 阿久津研 :
アルゴリズム 人材養成ユニット(藤研) : 分子進化
バイオインフォマティクスセンター
KEGG: Kyoto Encyclopedia of Genes and Genomes
金久研が開発しているデータベース 様々な生物情報データを格納
代謝パスウェイ 化合物、代謝反応式 ゲノム配列 遺伝子発現データ DBGET ( 統合データベースシステム )
GenBnak, PDB, SwissProt, …
KEGG:Top page
KEGG 中の代謝パスウェイの例
KEGG/LIGAND 中の代謝反応式の例
研究室の研究内容 研究方針
数理的原理に基づく生命情報解析手法の開発 生命システムの数理的理解
研究トピック 相互作用推定
タンパク質―タンパク質、遺伝子―遺伝子など スケールフリーネットワーク 配列解析(文字列解析)アルゴリズム タンパク質立体構造解析(比較・予測) 化学情報解析(ケモインフォマティクス) 生物データ解析のための統計的手法
HMM 、サポートベクタマシン
遺伝子と蛋白質 遺伝情報の流れ
DNA⇒ RNA⇒ タンパク 遺伝子
DNA 配列中で直接的に 機能する部分
ゲノム 染色体全体(半数体) 遺伝情報の総体
タンパク質 アミノ酸(20種類)の
鎖
転写 ・ スプライシング
エキソン
mRNA
DNA エキソン エキソン
GGU GCA
翻訳
GGU → Gly GCA → Ala
タンパク質
転写制御領域 (プロモーターなど)
DNA とアミノ酸 DNA は A,C,G,T の4文
字の並び DNA は二重ラセン構造
⇒相補鎖 塩基: DNA 1文字、 残基:アミノ酸1文字
DNA 3文字がアミノ酸1文字に対応
(アミノ酸は20種類)
A G C T C T C
T C G G A C G
G
A
相補鎖
コード表
T C A G
2文字目
1文字目
T
C
A
G
TTT TTC
TTA TTG
F
L
TCT TCC TCA TCG
S TAT TAC
TAA TAG
Y stop
TGT TGC C TGA
TGG W stop
CTT CTC CTA CTG
L CCT CCC CCA CCG
P CAT CAC H CAA CAG Q
CGT CGC CGA CGG
R
ATT ATC ATA
ATG
I
M
ACT ACC ACA ACG
T AAT AAC N AAA AAG K
AGT AGC S AGA AGG R
GTT GTC GTA GTG
V GCT GCC GCA GCG
A GAT GAC
GAA GAG
D
E
GGT GGC GGA GGG
G
アミノ酸と蛋白質 アミノ酸:20
種類 蛋白質:アミノ
酸の鎖(短いものはペプチドと呼ばれる)
R
C
H N
H
R
N
O
C C C
H H O
ペプチド結合
アミノ酸
蛋白質
C
H
H N
H
R
OH
O
C アミノ基 カルボシキル基
側鎖
側鎖の例
3 CH
Ala アラニン
3 CH 3 H C
CH
Val バリン
CH
CH
HC C
HC
CH
2 CH
Phe フェニル アラニン
2 CH
C
O - O
Asp アスパラギン酸
HN
NH
2 CH
+
His ヒスチジン
2 CH
SH
Cys システイン
Gly グリシン
H
計算量 情報科学では、入力データのサイズ (n) に対して、計算時間が
どのように変化するかを理論的に解明することが重要 O(n): かなり速い(文字列検索など) O(n log n): 結構速い(ソートなど) O(n2): まあまあ速い(アライメントなど) O(n3): ちょっと遅い( RNA二次構造予測など) O(n4): 結構遅い( Pseudo-knotつき RNA二次構造予測など) NP困難: すごく遅い (マルチプルアライメント、スレッディン
グなど ) P=NP は理論計算機科学における最大の難問 P≠NP ならば、 NP困難問題に対する理論的に効率的なアルゴリズ
ム(多項式時間アルゴリズム)は存在しない しかし、タンパク質配列などは n 1000≦ くらいなので、実用アル
ゴリズムを開発できる可能性はある
講義内容 スケールフリーネットワーク 配列アライメント タンパク質立体構造予測 遺伝子発現データ解析 タンパク質 -リガンド・ドッキング カーネル法を用いた化合物の性質予測 おわりに+21世紀 COE 「ゲノム科学
の知的情報基盤・研究拠点形成」