遺伝研 Rina Aizawa ユーザミーティング
-
Upload
tazro-ohta -
Category
Science
-
view
179 -
download
2
description
Transcript of 遺伝研 Rina Aizawa ユーザミーティング
![Page 1: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/1.jpg)
大量NGSデータの並列処理と共用スパコンにおける環境構築の今後について
情報・システム研究機構 ライフサイエンス統合データベースセンター
大田 達郎 <[email protected]> !
prepared for 遺伝研DDBJスパコンユーザ会 July 22, 2014
![Page 2: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/2.jpg)
Summary
‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行い,DBの構築を行っています
!
‣ データ解析パイプラインの共有・再実行を行うためのVM/コンテナを利用した環境構築の調査・開発を行っています
![Page 3: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/3.jpg)
sra.dbcls.jp
![Page 4: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/4.jpg)
‣ 公開NGSデータに対してFastQCを実行し結果を回収・集計 ‣ DL可能なデータ全てが対象 ‣ ~2013年登録分まで完了 ‣ 総データ数 ‣ 452,144 Sequence Run (single or paired)
‣ 総データサイズ ‣ 745,802,769,612,172 (745T) 塩基対
公開NGSデータのリードクオリティDB
![Page 5: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/5.jpg)
‣ データ転送速度
‣ lftp mgetによる16GBのデータ転送 13:00.20 => 1:35.58 (x8.16)
‣ 同時並列実行数
‣ 64CPU => 3184CPU (x49.75)
既存計算機環境との差
![Page 6: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/6.jpg)
‣ ソフトウェアのバージョン管理の問題
‣ 共用環境ではインストールが難しい場合もある
‣ 現状は東大笠原さんのLPMを使わせて頂くなどで回避
‣ http://www.kasahara.ws/lpm/
‣ 大量のデータに対してひとつひとつ手作業?
課題: 論文に書かれたパイプラインを再現することが困難
![Page 7: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/7.jpg)
‣ VirtualMachine(VM)やコンテナで環境ごと解析パイプラインを共有
‣ イメージを展開してすぐに解析を始めることができる
‣ 環境構築とイメージ共有の技術調査/開発を行っています
‣ Amazon Web ServiceにおけるAMIの共有
‣ Docker Hubにおけるコンテナイメージの共有
‣ 遺伝研スパコンでもこれらと互換性を持たせたい
データ解析の再現性を担保するための解決策
![Page 8: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/8.jpg)
コードやソフトウェアと同じように解析環境を公開/共有
![Page 9: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/9.jpg)
コードやソフトウェアと同じように解析環境を公開/共有
$ docker run -d -p 8080:80 -t inutano/galaxy
![Page 10: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/10.jpg)
‣ イメージ共有で環境への依存がなくなると選択肢が増える
‣ 自分で購入した計算機
‣ 遺伝研スパコンなどの共用計算機リソース
‣ Amazon Web Service(AWS)などのInfrastructure as a Service(IaaS)
‣ 決め手は導入のコストとマシン構成,コスト
‣ AWSのコストがかなり下がったため選択肢として現実的に
‣ ルーチンな計算は遺伝研スパコンで(ただなので)
計算機プラットフォームの選択
![Page 11: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/11.jpg)
初期導入コスト 維持コスト 構成の柔軟性 信頼性/永続性 秘匿性 特徴
個別導入 ✕ ✕ ◯ △ ◯ 資金あれば制約なし
共用計算機資源 (NIGスパコン) ◯ ◯ △ △ ✕ DDBJのDBと直結
IaaS (クラウド) ◯ △ ◯ △ △ 必要な時に必要なだけ コストも年々下がる
ユーザ視点での各計算機環境のメリット比較
![Page 12: 遺伝研 Rina Aizawa ユーザミーティング](https://reader031.fdocument.pub/reader031/viewer/2022020713/5593f9521a28abb2088b471e/html5/thumbnails/12.jpg)
Summary
‣ 遺伝研スパコンを利用し公開NGSデータ全てに対してバッチ処理を行うことでDBの構築を行っています
!
‣ データ処理/解析パイプラインの保存/永続化/再実行を行うためのVM/コンテナを利用した環境構築と公開DBの調査・開発を行っています