計算で明らかにするタンパク質の出会いとネットワーク(FIT2016...

50
計算で明らかにする タンパク質の出会いとネットワーク 東京工業大学 情報理工学院 情報工学系 助教 東京工業大学 科学技術創成研究院 スマート創薬研究ユニット 大上 雅史 FIT2016 第15回情報科学技術フォーラム 「助教が吼える! 各界の若手研究者大集合」 2016年9月9日(金) 於 富山大学 五福キャンパス [email protected]

Transcript of 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016...

Page 1: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

計算で明らかにする タンパク質の出会いとネットワーク

東京工業大学 情報理工学院 情報工学系 助教 東京工業大学 科学技術創成研究院 スマート創薬研究ユニット

大上 雅史

FIT2016 第15回情報科学技術フォーラム 「助教が吼える! 各界の若手研究者大集合」 2016年9月9日(金) 於 富山大学 五福キャンパス

[email protected]

Page 2: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

はじめまして,大上(おおうえ)です

• 大上 雅史(おおうえ まさひと)

– 略歴 • 2007年 石川工業高等専門学校 電子情報工学科 卒業

• 2009年 東京工業大学 工学部 情報工学科 卒業

• 2011年 同 大学院情報理工学研究科 修士課程修了

• 2014年 同 博士後期課程修了,博士(工学)(2014年3月26日)

– 日本学術振興会 特別研究員 DC1(2011年4月~2014年3月)

• 2014年4月~2015年3月

– 日本学術振興会 特別研究員 PD(2014年4月~)

– 東京工業大学 特別研究員(称号付与, 2014年4月~)

• 2015年4月~ 東京工業大学 助教

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 3

Page 3: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

はじめまして,大上(おおうえ)です

• 大上 雅史(おおうえ まさひと)

– 著書 • 「これだけ!生化学」

秀和システム,2014(分担) (¥1,600+tax)

• 「学振申請書の書き方とコツ」 講談社,2016(単著) (¥2,500+tax)

– 受賞

• 日本学術振興会 育志賞 (2014) • 手島精一記念研究賞 (2015)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

http://www.jsps.go.jp/j-ikushi-prize/ceremony_4_h25.html

4 - トレーナーレベル 22

Page 4: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)
Page 5: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

東工大科学技術創成研究院組織図

スマート創薬研究ユニットは,情報科学技術と生化学実験を融合する 「スマート創薬」の実証研究とオープンプラットフォームの形成を目指す,東京工業大学の新しい研究ユニットです.2016年4月1日に東京工業大学 科学技術創成研究院と共に誕生しました.

東工大 科学技術創成研究院 准教授

スマート創薬研究ユニットでは、現在、一つの薬を上市するまでにかかる3000億円もの費用を削減し10年にも及ぶ期間を短縮するために、バーチャルスクリーニングや機械学習、GPUを用いたスーパーコンピューティングというIT創薬と生化学実験を融合し、オープンな創薬プラットフォームを構築することを目指しています。オープン参加型のIT創薬コンテストやIT創薬の社会人人材養成を通じて、日本の産業競争力強化への貢献も行って参ります。

スマート創薬の概念

6

Page 6: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

情報工学 生物学

物理学 化学

バイオインフォマティクス

バイオインフォマティクスの研究をしています

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 7

近いけどちょっと違う分野 ・医療情報学 ・脳科学

Page 7: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

バイオインフォマティクスは怪しい?

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 8

(前略)このu[x][y][z]の計算は、こっちの点の計算とこっちの点の計算を、同時にやっても大丈夫だということが、大概の解き方で成り立つので、これは並列にできるということになります。 大体この世の中のHPCの90%ぐらいはこんなことをやっているわけですが、もうちょっと広くするといろんな分野があります。例えばジェノミクスですか、遺伝子何たらとか、バイオインフォマティクスとか、何か怪しい単語があるんですが、そういう分野もあります。(後略)

春の情報処理祭in京都 2015年3月16日 (リクルート x 情報処理学会) 京都大学 中島浩先生 http://logmi.jp/45043

Page 8: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

情報工学 生物学

物理学 化学

バイオインフォマティクス

バイオインフォマティクスは学際領域のフロンティア

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 9

Page 9: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

バイオインフォマティクスは学際領域のフロンティア

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 10

情報工学 生物学

物理学 化学

バイオインフォマティクス

HPC

文字列処理

数理最適化

探索

機械学習

人工知能 動画像処理 ゲノム

タンパク質 転写 翻訳

シグナル伝達

疾病 個人情報

進化

暗号 言語処理

遺伝

多型

コホート 分子生物学

計算化学 量子

分子軌道

構造

活性 分子量 QSAR

QSPR 創薬

結合

記述子

電気

エネルギー 分子動力学

分子間力 統計力学 運動方程式

電荷

水 疎水性

解離 接着 物性 Schrödinger

エントロピー

毒性

オントロジー

VR

細胞 酵素

GPU

クラウド

Page 10: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

バイオインフォマティクスは学際領域のフロンティア

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 11

情報工学 生物学

物理学 化学

バイオインフォマティクス

HPC

文字列処理

数理最適化

探索

機械学習

人工知能 動画像処理 ゲノム

タンパク質 転写 翻訳

シグナル伝達

疾病 個人情報

進化

暗号 言語処理

遺伝

多型

コホート 分子生物学

計算化学 量子

分子軌道

構造

活性 分子量 QSAR

QSPR 創薬

結合

記述子

電気

エネルギー 分子動力学

分子間力 統計力学 運動方程式

電荷

水 疎水性

解離 接着 物性 Schrödinger

エントロピー

毒性

オントロジー

VR

細胞 酵素

GPU

クラウド

Page 11: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

大上の主研究対象→タンパク質間相互作用 (PPI)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 12

タンパク質 #とは アミノ酸が繋がって 折りたたまれたもの

アミノ酸 アミノ酸の繋がり (ペプチド)

タンパク質

Page 12: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質は1つじゃない

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 13

血中で酸素を運ぶ ヘモグロビン

卵の白身 アルブミン

お鍋に嬉しい コラーゲン

でんぷんを消化する酵素 アミラーゼ

髪の毛の材料 ケラチン

史上最強の毒物 ボツリヌストキシン

Page 13: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質は他のタンパク質と相互作用する

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 14

Arabidopsis Interactome Mapping Consortium. Evidence for network evolution in an Arabidopsis interactome map. Science, 333, 601-607, 2011.

string-db.org

Page 14: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質の出会い(タンパク質間相互作用)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

タンパク質間相互作用 (Protein-Protein Interaction)

生体内のタンパク質の制御関係を大規模かつ網羅的に理解することは がんや自己免疫疾患などをはじめとする病因の理解・創薬に重要

全てのタンパク質ペアについて相互作用の有無を網羅的に検証する場合...

例:肺がん(EGFR系)500タンパク質 → 500×500=250,000ペアの検証を要する

大腸がん抗がん剤 アバスチン

抗がん剤候補化合物 ABT-737 Bcl-2とBaxタンパク質の相互作用を阻害

Oltersdorf T, et al. Nature 2005.

タンパク質間相互作用阻害薬の台頭

関節リウマチ治療薬 アクテムラ

VEGFとVEGFRの 相互作用を阻害

IL-6とIL-6Rの 相互作用を阻害

©中外製薬

Bcl-2 Bax Bcl-2

ABT-737

ABT-737

15

Page 15: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質構造情報が大量に蓄積されてきた

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

タンパク質の立体構造情報の件数

タンパク質構造データの大量蓄積

Protein Data Bankより

©RIKEN

大量のタンパク質の立体構造情報が蓄積されてきた

©CellPress ©Nature Publishing Group

16

Page 16: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

我が国も先導するHPC

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

並列計算機の発展 超並列計算機の発展によって大規模データ解析への道が拓かれた

「京」スーパーコンピュータ(理研) 理論性能:23.2 PetaFlops

TSUBAME 2.5(東工大) 理論性能:5.7 PetaFlops

2万CPUコア+4000枚のGPU 70万CPUコア

17

Page 17: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質間相互作用を計算機で予測する

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

(Protein Data Bank) 大量のタンパク質構造情報

大量のタンパク質の構造情報を用いて タンパク質間相互作用を計算機で予測する

タンパク質間相互作用ネットワーク

独自技術 (MEGADOCK) の特徴 1. アルゴリズムレベルの高速化

• 高速フーリエ変換の利用 • 複合体構造の高速評価モデル開発

2. 並列計算機,アクセラレータの利用 • MPI/OpenMPハイブリッド並列実装 • GPUやMICによる計算高速化

18

• Shimoda T, et al. BMC Syst Biol, 9, 2015. • Ohue M, et al. Bioinformatics, 30, 2014. • Ohue M, et al. Protein Pept Lett, 21, 2014. • Ohue M, et al. BMC Proc, 7, 2013. • Shimoda T, et al. In Proc ACM-BCB, 2013. • Matsuzaki Y, et al. Source Code Biol Med, 8, 2013. • Ohue M, et al. In Proc PRIB, 2012. • Ohue M, et al. Genome Inform, 2011.

Page 18: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質間相互作用を計算機で予測する

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

数理モデル化 数式による表現 コンピューター 19

Page 19: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 20

全編を見たい方はYoutubeで→「ライフサイエンス分野のグランドチャレンジに挑む」 https://www.youtube.com/watch?v=O5iePlpqjCU

Page 20: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCKの数理モデル

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

タンパク質が結合したときの評価値を高速に評価

21

Page 21: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCKの数理モデル

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 22

②2つのタンパク質の 重なったマスの 掛け算を全部足す. →結合の良さ(評価値)

①タンパク質をグリッド化, 点数を付与

Page 22: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCKの数理モデル

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 23

-27×0

-5×0

-5×0

-5×0

1×0 2×0 1×0

1×0 1×0 1×0

1×0

0×0 0×0 0×0

-5×1 1×1

1×1 1×1

1×1 1×1

5×1 0×1

0×0

0×0

0×0

-5×1

0×0

0×0

= 0+1+1+0 +(-5)+(-5)+1+0 +0+1+1+0 +0+0+0+0 +0+0+0+0 +0+0+0+0

= -5

Page 23: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCKの数理モデル

③片方のタンパク質を平行移動させて全てのくっつき方を見る

2N

2N

・グリッドの1辺の数:N ・平行移動パターン数:8N3

(↑実際は3次元)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 24

④片方のタンパク質を 回転させて①~③を 繰り返す

Page 24: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質を数式に

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

①タンパク質をグリッド化, 点数を付与

タンパク質の表面空間

タンパク質の内部

それ以外

タンパク質の内部

それ以外

A B

25

Page 25: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質を数式に

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

②2つのタンパク質の 重なったマスの 掛け算を全部足す. →結合の良さ(評価値)

タンパク質Bの位置 (平行移動ベクトル)

掛け算 全部足す

26

Page 26: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質を数式に

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 27

③片方のタンパク質を平行移動させて全てのくっつき方を見る

2N

2N

この部分が1~Nで動く

Page 27: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質を数式に

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 28

④片方のタンパク質を回転させて①~③を繰り返す

※x-z-x系のオイラー角として回転を定義する.

Page 28: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

フーリエ変換による書き換え

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 29

タンパク質Bの位置 (平行移動ベクトル)

掛け算 全部足す

離散フーリエ変換(DFT)による式変形

Page 29: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

高速フーリエ変換の活用

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 30

高速フーリエ変換(FFT)の利用による高速化

離散フーリエ変換(DFT)による式変形

O(N6)→O(N3 log N) 直接計算に比べて約10万~100万倍高速

Page 30: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質の数理モデルのまとめ

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 31

並進移動ベクトル

たくさんの回転パターンで並進探索を繰り返す

タンパク質がどこでくっつきそうかを計算する

Page 31: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

点数付けの方法

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 32

①タンパク質をグリッド化, 点数を付与

A B 形状相補性

静電相互作用

疎水性相互作用 の組み合わせで 点数付けを定義する.

Page 32: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

例:静電相互作用

静電相互作用の世界を掛け算と足し算で表す (電荷の間にかかる力の計算)

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 33

静電エネルギーの式(物理学)

グリッドの数理モデル

φ 0 0 0 0 φ φ 0 0 φ φ φ 0 0 0 0 φ

φ φ φ φ

φ φ φ φ

q q

q q

q q

q q

q

φ φ

φ

φ φ

電界

電荷

Page 33: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCKの超並列化

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

プロセス並列(MPI) スレッド並列(CUDA & OpenMP)

L R

34

Receptor FFT

Ligand FFT

Ligand 回転

Receptor ボクセル化

複素畳込み

逆FFT

高評価値の構造を抽出

Ligand ボクセル化

GPUクラスタ向け MPI/OpenMP/CUDA ハイブリッド並列化

Matsuzaki Y, Uchikoga N, Ohue M, Shimoda T, Sato T, Ishida T, Akiyama Y. Source Code for Biology and Medicine 8:18 (2013) Ohue M, Shimoda T, Suzuki S, Matsuzaki Y, Ishida T, Akiyama Y. Bioinformatics 30:3281-3283 (2014)

34

Page 34: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

マルチGPU化による高速化の寄与

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

単一ノード計測の結果(TSUBAME node: Intel Xeon 12core + 3 GPUs)

Shimoda T, Ishida T, Suzuki S, Ohue M, Akiyama Y. ACM-BCB 2013, 884-890, 2013.

GPUとIntel Xeon Phi (MIC)の比較の結果,PPI予測ではGPUが有利

Shimoda T, Suzuki S, Ohue M, Ishida T, Akiyama Y. BMC Syst Biol, 9(Suppl 1): S6, 2015.

GPU利用により,CPU単独計算に比べて大幅な速度向上を達成

35

Page 35: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

マルチCPUノード並列

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 36

TSUBAME 2.0,「京」の両計算機において 94%以上の並列化効率を達成

Matsuzaki Y, Uchikoga N, Ohue M, et al. Source Code for Biol Med, 8(1):18, 2013.

マルチノード並列の並列化効率

Page 36: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

マルチGPUノード並列

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

TSUBAME 2.5 node (Intel Xeon X5670 2.93 GHz & NVIDIA Tesla K20X) 30,976ペアの計算にかかった総計算時間

Ohue M, Shimoda T, Suzuki S, Ishida T, Akiyama Y. Bioinformatics, 30(22): 2014.

• 420ノードで97%以上のstrong scalingを達成 (対70ノードでの値) • 100万件のPPI予測が (GPUノード420基で) 約半日で完了

単一CPUノードとの 高速化率の比較

ノード数に対する計算時間の推移

約8万件/hour

37

Page 37: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

CUDA (CUFFT) versionにおける速度比較 データセット: ZLAB Benchmark 5.0 (bound) 230タンパク質ペア TSUBAME 2.5 Thin nodeで,それぞれ3回計測した平均値 ① 1 core (Xeon X5670 2.93 GHz) + 1 GPU (Tesla K20x) ② 12 core/24 HT (Xeon X5670 2.93 GHz×2) + 3 GPUs (Tesla K20x) *CUDA 5.0はOSがサポート外としているので注意

参考 CUDAのバージョンで速度が変わる

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 38

Page 38: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

他手法との比較

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

立体構造情報を用いたタンパク質間相互作用(PPI)予測

Dror RO, et al. PNAS 2011.

原子レベルの詳細な 分子シミュレーション

既知の複合体構造との 類似性を利用

相互作用 する?しない?

既知の 複合体構造

Tuncbag N, et al. Nat Protoc 2011. 他

単体の立体構造のみを 利用(独自技術)

Ohue M, et al. LNCS 2012. 他

時系列変化を捉えられる 膨大な計算時間(1ペアで数日)

類似の構造があれば高精度 複合体構造の蓄積は不十分

単体の構造のみで計算可能 大規模計算(約105~107件)は 高速化や並列化が必須

39

Page 39: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

タンパク質間相互作用予測の関連研究

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 40

配列情報

共進化情報

立体構造情報

既知の複合体構造情報

PPI(A’, B’)=true

[Shen+2007] 他

[Valencia+2009] 他

[Tucbag+2011] 他

Page 40: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

応用事例:EGFRシグナル伝達系

https://www.pharmgkb.org/pathway/PA162356267

上皮成長因子受容体 (Epidermal Growth Factor Receptor) • チロシンキナーゼ(TK)型受容体 • 腫瘍増殖,細胞死などに関わる • 肺がんの創薬標的

EGFR阻害薬 ゲフィチニブ • 商品名イレッサ • 非小細胞肺がん治療薬 • 重篤な副作用に注意が必要 ※遺伝子型によって効き目が異なる

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

©AstraZeneca

41

Page 41: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

応用事例:EGFRシグナル伝達系 肺がん(非小細胞肺がん)に関係する

未知のタンパク質間相互作用を予測する イレッサ投与患者の遺伝子発現から

推定された関連タンパク質 1424構造 Yamauchi M, et al. PLOS ONE, 2012.

非小細胞性肺がんに関わる EGFR周辺のタンパク質 497構造

東大医科研 宮野 悟 教授, 金沢大がん研 後藤 典子 教授 提供

全1921構造の全対全計算 (3,690,241件) を実施 → 3,873件のタンパク質構造ペアが計算によって予測された

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史

©AstraZeneca

©Riken

42

Page 42: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

応用事例:EGFRシグナル伝達系

実験検証の結果, 6ペアに今まで知られていなかった相互作用が確認された

MEGADOCKのスコアによる絞り込み (80%以上の選択度を見込める閾値を利用)

重複をデータベースを参照して除去

既に知られているものを除去

がんの遺伝子ネットワークを利用して より確度の高いものを抽出

薬の標的となり得るタンパク質を選択

3,690,241ペア→3,873ペア

3,873ペア→175ペア

175ペア→35ペア

35ペア→11ペア

MIPS

Pair 1 Pair 2 Pair 3 Pair 4 Pair 5 Pair 6 Pair 7 KD 値 70.5nM 22.4nM NA 610nM 233pM 1.35nM 83.0nM

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 43

Page 43: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

誰でも使えるように (Ongoing)

タンパク質の相互作用ネットワークを 網羅的に予測し活用するクラウドシステム開発

MEGADOCKの要素技術を拡充+統合化し,クラウドシステムを構築する

GUIクライアント (開発中)

Web表示系 (開発中)

MS Azure上でのHPC計算 (開発中)

3つの課題 1 Azure上での網羅的PPI計算の実行 2 ウェブインターフェースとGUIクライアントの整備 3 リクエストに応じたAzure上での再計算機構の整備

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 44

Page 44: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

なぜスパコンでなくクラウドか? 1. ソフトウェアを世界中で,気軽に,そこそこの規模で試せる

ウェブサーバでの提供では管理側のリスクがつきまとう

2. 誰でも利用できる アカデミアのスパコンでは外部の人間がアカウントを取得するのが困難

3. “イメージ” で同一環境を保持・提供できる ライブラリ違い,バージョン違い,データベースの更新, といったサポートが必要になりがちな問題点を減らせる

4. 高稼働率・セキュアな計算環境 Microsoft AzureはCSゴールドマークを取得, 高度なセキュリティで秘匿性の高い情報・サービスも運用可能

5. 新しいハードウェアへの投資が不要 クラウド提供側が対応すれば常に最新の環境が利用可能

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 45

Page 45: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

Microsoft Azure上でのHPC計算

MEGADOCK on Microsoft Azure 現状の性能(DS14/A9インスタンス比較)

EGFR pathway proteins 50 x 50 = total 2,500 docking

0

20

40

60

80

100

0 200 400 600 800 1000 1200

Spee

dup(

dock

ing

/ min

)

No. of worker cores

10.2x faster than #VM=5 (strong scaling = 0.729)

#VM=1

#VM=10 #VM=30

VM: DS14 (16 core) 112GB Memory 224GB SSD MPI 4 process x 4 thread

VM: A9 (16 core) 112GB Memory MPI 4 process x 4 thread

11.7x faster than #VM=5 (strong scaling = 0.836) 1.44x

faster

#VM=5

#VM=50 #VM=70

※一部はMicrosoft導入事例で紹介 https://www.microsoft.com/ja-jp/casestudies/titech4.aspx

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 46

Page 46: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

MEGADOCK-WEB

クエリタンパク質を入力

PPI予測結果ページ

相互作用の相手を選択 興味のあるタンパク質選択

• 速度向上のため一覧では候補構造を画像を生成して表示

• 分子ビューワを利用した3Dモデルのインタラクティブな可視化も →その場で予測PPIの 視覚的な評価が可能

3Dモデル表示

生物学者による検証を容易にするため,MEGADOCKによるドッキングも 考慮した網羅的な PPI予測情報を集約した新しいデータベースと表示系

長澤,他. IPSJ SIGBIO45, 2016.

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 47

Page 47: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

生物学者との真の協働を可能にするプラットフォーム

予測計算が必要な タンパク質のリスト

PPI予測結果

Local DB

Protein Data Bank

参照,更新

公共DB更新時に ファイルの取得

タンパク質の リクエスト

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 48

Page 48: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

バイオインフォマティクスは学際領域のフロンティア

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 49

情報工学 生物学

物理学 化学

バイオインフォマティクス

HPC

文字列処理

数理最適化

探索

機械学習

人工知能 動画像処理 ゲノム

タンパク質 転写 翻訳

シグナル伝達

疾病 個人情報

進化

暗号 言語処理

遺伝

多型

コホート 分子生物学

計算化学 量子

分子軌道

構造

活性 分子量 QSAR

QSPR 創薬

結合

記述子

電気

エネルギー 分子動力学

分子間力 統計力学 運動方程式

電荷

水 疎水性

解離 接着 物性 Schrödinger

エントロピー

毒性

オントロジー

VR

細胞 酵素

GPU

クラウド

Page 49: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

Take-Home Message

• バイオインフォマティクスは怪しくない! – 情報工学と生命科学をつなぐ架け橋 – もちろん情報工学としての魅力も満載

• 新鮮なリアル “ビッグ” データ • 誤差にまみれた実験値との戦い • 医療,創薬,健康へ貢献してる感じ

• タンパク質の出会い(相互作用)が知りたい! – 1対1を知るだけでは生命現象は理解できない →MEGADOCK w/ スパコンで,網羅的に

• 生物学者にも優しいインフォマティクスを! – BLASTの爆発的流行はウェブでポチポチできるお陰(もある)

– 貴重なデータをウェブに投げたくない人にも – 情報系と生命系が密にコラボできる環境づくり

2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 50

Page 50: 計算で明らかにするタンパク質の出会いとネットワーク(FIT2016 助教が吼えるセッション)

謝辞 • 東京工業大学

– 秋山 泰 教授 (情報理工学院)

– 石田 貴士 准教授 (情報理工学院)

– 松崎 由理 特任助教 (ACLS)

• 中央大学 – 内古閑 伸之 助教 (理工学部)

• 東京大学 – 宮野 悟 教授 (医科学研究所)

– 玉田 嘉紀 助教 (コンピュータ科学専攻)

• 理化学研究所 AICS (京) • 東京工業大学 GSIC (TSUBAME 2.5) • 文部科学省 次世代生命体統合シミュレーション

ソフトウェアの研究開発プロジェクト ISLiM 2016/9/9 FIT2016 助教が吼える! 各界の若手研究者大集合 大上 雅史 51