0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... ·...

26
!"#$%&'"(& *+ ,(&"-%$&./" 0"(*'.123 4*5*67 8"9.1$: 8"-$;$(6 <%-$(.=$&.*(3 4*5*67 >(./"%2.&?!./.2.*( *+ @.*'"9.1$: ,(+*%'$&.*( A($:?2.2 !"#"$"%& %( )"%*+,"-./ 0&(%1*.2"%& 3&./4$"$ 東北大学 東北メディカル・メガバンク機構 バイオメディカル 情報解析分野 2017

Transcript of 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... ·...

Page 1: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

!"#$%&'"(&)*+),(&"-%$&./")0"(*'.123)4*5*67)8"9.1$:)8"-$;$(6)<%-$(.=$&.*(3

4*5*67)>(./"%2.&?!./.2.*()*+)@.*'"9.1$:),(+*%'$&.*()A($:?2.2

!"#"$"%&'%(')"%*+,"-./'0&(%1*.2"%&'3&./4$"$

東 北 大 学 東 北 メディカ ル・メガ バン ク機 構

バイオメディカル情報解析分野2017

Page 2: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

!"#"$"%&'%(')"%*+,"-./'0&(%1*.2"%&'3&./4$"$2017

!"#$%&'"(&)*+),(&"-%$&./")0"(*'.123)4*5*67)8"9.1$:)8"-$;$(6)<%-$(.=$&.*(3

4*5*67)>(./"%2.&?!./.2.*()*+)@.*'"9.1$:),(+*%'$&.*()A($:?2.2

Page 3: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

分野ウェブサイト

TELE-Mail

連絡先[email protected]

http://nagasakilab.csml.org

この分野の研究テーマ・ スーパーコンピュータを用いたヒトゲノム、オミクス、メタゲノムの大規模情報解析・ ゲノム、オミクス、メタゲノム情報と疾患や形質との関係性の情報解析・ 高性能シークエンサやSNPアレイを用いたゲノム情報の情報処理技術・ソフトウェア開発

生命情報学 データ駆動型解析 スーパーコンピュータ 高性能シークエンサ ヒトゲノム研究キーワード :

OB/OGの主な進路製薬関連会社(研究所)、 IT関連企業、 バイオインフォマティクス関連企業、 大学研究者、 医師

担当教員より進学志望者へのメッセージ医学研究において大規模な情報処理と知識発見を効率良く行うことが必須になりつつあります。ヒトゲノムやオミクス解析を通じ新たな知見を発見する喜びを一緒に得ましょう。

全ゲノム解析 大規模関連解析 多層オミクス解析 メタゲノム 機械学習技術キーワード :

当分野から進学志望へのメッセージ

 十数年前、国際ヒトゲノムプロジェクトでは、各国の数百人の研究者が数千億円以上かけ、ヒト一個体分のゲノム解読が行われました。現在、ヒト1人の全ゲノム情報が数日で数十万円で決められます。それに伴い、ゲノム情報、オミクス情報(トランスクリプトーム、メタボローム、プロテオーム)、バイオメディカル情報(医療情報、アンケート情報、生理学検査情報)などの超ヘテロビックデータを統合解析する技術が医学研究に求められています。当分野は、情報科学、バイオインフォマティクス、数理統計学、集団遺伝学、分子進化学などを専門とするスタッフ陣が英知を結集し研究を推進しています。当分野では、最新鋭のスーパーコンピュータを駆使し、高性能シークエンサによって取得

された100兆塩基の日本人の約1000人の情報解析を行い、日本人の全ゲノムリファレンスパネルを公開*しました。また、日本人に適したSNPアレイ(ジャポニカアレイ)を設計し社会実装にも貢献しています。各学生の興味に応じて医学研究に関わる大規模なデータ解析の研究指導を行い、情報科学と医学の両面の立場からビッグデータを自在に解析できるデータサイエンティストの育成を目指します。また、学生の方の興味に応じて簡単な生物実験については当研究室の設備を用いて指導を行い、より高度技術や生体試料を用いた実験については、他の研究室と連携し指導します。

*integrative Japanese Genome Variation Database ウェブサイト

ゲノム×オミクス×メタゲノム情報解析を通じた大規模データ駆動型の医学研究を行っています

バイオメディカル情報解析分野

長﨑 正朗 教授  山下 理宇 准教授小島  要 講師  三澤 計治 助教柴田 朋子 助教  原田 祐希 助教寺口 俊介 助教

医学系研究科修士課程 / 博士課程

情報科学研究科修士課程 / 博士課程

Olicier Gervais 助教三森 隆広 助手

当分野では情報科学研究科または医学系の意欲のある大学院生を募集しています。また、社会人で博士課程を目指す方も募集しています。詳細は http://nagasakilab.csml.org をご参照ください。企業を含めた共同研究を随時募集しておりますのでお気軽にご連絡ください。

医学研究において大規模な情報処理と知識発見を効率良く行うことが必須になりつつあります。ヒトゲノムやオミクス解析を通じ新たな知見を発見する喜びを一緒に得ましょう。

Page 4: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

- 2 -

Page 5: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

- 3 -

Page 6: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

東北メディカル・メガバンク機構 成果一覧

平成25年11月29日(金)

2013Nov.

2014Aug.

2014Nov.

1000人全ゲノムシークエンス完了

約2,500万個(うち新規1,500万個)のSNV候補の検出

1070人分の全ゲノム配列解析情報の一部公開-約430万個のSNVの頻度情報

平成26年8月29日(金)

全ゲノムリファレンスパネル公開

平成26年11月14日(金)

ジャポニカアレイ®

東北メディカル・メガバンク計画のコホート調査事業に参加した健常人1000人分の全ゲノムを解読しました。本事業における全ゲノム解読は、均質な精度(単独の施設・設備を用いて、単一の方式によって実施)、高品質(一人あたりシークエンシング30回分の解読量。平均900億塩基)で解読しており、この様な品質での1000人分の全ゲノム配列解読完了は世界初の取組みのひとつです。

東北大学 東北メディカル・メガバンク機構(ToMMo)は情報解析の進捗に伴い、1000人分の全ゲノム配列の情報のうちアレル頻度5%以上のSNP頻度情報について、ウェブサイトから国際SNP番号や遺伝子名で検索することや国際ゲノム参照配列上での位置情報の把握などができるような形で、ToMMoのポータルサイトIntegrative Japanese Genome Varia-tion Databaseとして一般に公開しました。

東北大学 東北メディカル・メガバンク機構(ToMMo)が構築している「全ゲノムリファレンスパネル情報」をもとに、日本人ゲノム配列解析ツール「ジャポニカアレイ®」を開発しました。この解析ツール開発は、日本人に最適化された解析ツールとして多くのコホート研究に活用され、高齢化する日本において個別化医療・個別化予防の普及による社会の活力向上に資するのみならず、被災地の創造的な復興に貢献する取組みのひとつです。

・1000人規模の日本人全ゲノムシークエンス完了は日本初

日本経済新聞 平成25年12月1日(日)

・単独の施設、単一の方式、遺伝的に均質性の高い国民集団を高精度に解析した事例は世界初

SNV:1塩基変異    集団内での同じ箇所の1塩基配列の違い

平成25年11月29日 ニュースリリース

ToMMoリファレンスパネルのニュースリリース  平成25年11月29日(金)

ToMMoリファレンスパネルの一般公開ニュースリリース  平成26年8月29日(金)

ジャポニカアレイ®のプレスリリース 平成26年11月14日(金)

・ToMMo-1KJPNにより初めて作成可能になった 日本人初のアレイ

病院新聞 平成26年11月27日(木)

- 4 -

Page 7: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

1000人全ゲノムシーケンス完了・全ゲノムリファレンスパネル公開 東北大学 東北メディカル・メガバンク機構(ToMMo)は、大規模コホート調査を進めるとともに、平成25年11月末の1000人分の全ゲノム配列の解読完了以降、全ゲノムリファレンスパネルの完成版の作成を進めています。この度、情報解析の進捗に伴い、1000人分の全ゲノム配列の情報のうちアレル頻度5%以上のSNP頻度情報についてウェブサイトから国際SNP番号や遺伝子名で検索することや国際ゲノム参照配列上での位置情報の把握などができるような形で、ToMMoのポータルサイトIntegrative Japanese Genome Variation Data-baseとして一般に公開しました。 また、アレル頻度1%未満の低頻度の変異情報を含め、全ゲノムリファレンスパネルの完成版に向けた更なる精度の検証及び向上を目的とした国内の共同研究の公募を開始しました。

ToMMoが構築している「全ゲノムリファレンスパネル情報」をもとに、日本人ゲノム解析ツール「ジャポニカアレイ®」を開発しました。この解析ツール開発は、日本人に最適化された解析ツールとして多くのコホート研究に活用され、高齢化する日本において個別化医療・個別化予防の普及による社会の活力向上に資するのみならず、被災地の創造的な復興に貢献する取組みのひとつです。 日本人ゲノム解析ツール「ジャポニカアレイ®」は、日本人に特徴的な遺伝情報を1枚のチップに搭載してワンステップで解読可能にしたもので、日本人ゲノム情報を高精度かつ低コストで解析可能とする遺伝子解析ツールです。ToMMoが平成25年11月に高精度解読の完了を発表した日本人1000人の全ゲノム配列解読で新たに同定した日本人に特徴的なゲノム配列情報を解読しました。

ToMMo全ゲノムリファレンスパネル (1KJPN) 検体とバリアントの統計

全ゲノムリファレンスパネルの部分的公開

http://ijgvd.megabank.tohoku.ac.jp/

ToMMo-1KJPNの遺伝的背景

第1主成分

第2主成分

ジャポニカアレイ®

既存SNPアレイとの比較 UK Biobankアレイとの比較

ToMMoの成果である、日本人全ゲノムリファレンスパネル(1KJPN)の頻度情報に基づき設計

Affymetrix Axiomプラットフォームを使用tag SNP(約64万個)imputationで補足できない/しづらいSNP(約2万個)

 ->ToMMo 1KJPNがあって初めて作成することができた日本人初のアレイ

周囲のSNPと連鎖が弱いが機能上重要(非同義、loss of function)なSNPNHGRI GWAS catalogに記載されているSNPY染色体、ミトコンドリアのSNPHLA領域ADME

ジャポニカアレイ®

・・・

ジャポニカアレイ® v1.0の構成

など

インピュテーションで得られたSNPの型(遺伝子型)の推定精度

SNPアレイ間のインピュテーション性能の比較

インピュテーション可能な SNP(MAF>1%)のカバー率

インピュテーションを行ったSNPのリファレンスパネルでの頻度

- 5 -

Page 8: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

平成27年6月25日(木)

2015Jun.

日本人に最適化されたSNPアレイ「ジャポニカアレイ 」を設計~約66万個のSNP情報を搭載した個別化予防・医療研究を加速する解析ツール~

 東北大学 東北メディカル・メガバンク機構ゲノム解析部門の長﨑正朗教授、河合洋介講師らは、日本人集団のもつSNPを全ゲノム領域を網羅し高精度で取得できる、日本人に最適化されたSNPアレイ「ジャポニカアレイ®」の設計に世界で初めて成功しました。 ジャポニカアレイ®の設計は、東北メディカル・メガバンク計画のコホート調査に協力した1,070人分の全ゲノム情報を活用し、独自のSNP選択アルゴリズムを開発・実装してスーパーコンピュータ上で解析することで実現されました。 遺伝子型インピュテーション(以下、インピュテーション)技術を用いることで約66万個のSNPを搭載したジャポニカアレイ®から最大2,000万SNPを取得可能です。 ジャポニカアレイ®は既存の同等数のSNPが搭載されているアレイと比べてインピュテーションの精度が10%以上向上し、また、3倍以上の数のSNPが搭載されている既存のSNPアレイとほぼ同等またはそれ以上の性能を発揮します。 この研究は、日本人に固有な体質・疾患の関連遺伝子を大規模に探索研究する為の基盤解析ツールであり、日本人の個別化予防・医療研究を加速する重要な成果です。本研究成果の詳細は、2015年6月25日(英国時間)Journal of Human Genetics誌のオンライン版で公開されました。

【論文名】Yosuke Kawai, Takahiro Mimori, Kaname Kojima, Naoki Nariai, Inaho Danjoh, Rumiko Saito, Jun Yasuda, Masayuki Yamamoto, Masao NagasakiJaponica Array: Improved genotype imputation by designing a population-specific SNP array with 1,070 Japanese individuals「ジャポニカアレイ®:1,070人の日本人の情報に基づく日本人集団に適したSNPアレイの設計によるインピュテーションの改良」掲載予定誌:Journal of Human Genetics

東北メディカル・メガバンク機構 ウェブサイト(http://www.megabank.tohoku.ac.jp)から抜粋

日本人に最適化されたSNPアレイ「ジャポニカアレイ 」を設計~約66万個のSNP情報を搭載した個別化予防・医療研究を加速する解析ツール~

プレスリリース 平成27年6月25日(木)

平成27年7月6日(月)

2015Jul.

口腔メタゲノム研究の論文がPLOSONE誌に掲載

口腔メタゲノム研究の論文がPLOS ONE誌に掲載

 東北大学 東北メディカル・メガバンク機構ゲノム解析部門の佐藤行人助教(ゲノム解析部門バイオメディカル情報解析分野)、山岸潤也助教(現・北海道大学 人獣共通感染症リサーチセンター)、バイオバンク部門の山下理宇准教授らは、口腔内バクテリアの遺伝子を分析し、各個人の口腔バクテリア叢(そう)は比較的安定して存在していること、一日内の変動は個人間の差よりも小さいことを示しました。成果はオンライン学術誌PLOS ONEに、6月29日付で公開されました。

【書誌情報】Sato Y*, Yamagishi J*, Yamashita R*, Shinozaki N, Ye B, Yamada T, Yamamoto M, Nagasaki M, and Tsuboi A.Inter-individual differences in the oral bacteriome are greater than intra-day fluctuations in individuals, (*equally contributed) PLOS ONE. 2015, 10(6): e0131607.

成 果 平成27年7月6日(月)

®

®

- 6 -

Page 9: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

東北メディカル・メガバンク機構 ウェブサイト(http://www.megabank.tohoku.ac.jp)から抜粋

平成27年8月21日(金)

2015Aug.

日本人1,070人の高精度全ゲノムデータの統合的な解析に成功Nature Communicationsに掲載 東北大学 東北メディカル・メガバンク機構ゲノム解析部門を中心とした研究チームは、東北メディカル・メガバンク計画のコホート調査に参加した健常な日本人1,070人分の全ゲノムを解析し、精度検証を進めることで、日本人の全ゲノムリファレンスパネル(以下、1KJPN)を構築しました。 今回、1,070人分のDNA情報を次世代シークエンサーで読み取り、のべ約100兆塩基もの高品質な全ゲノム断片配列情報を解読し、スーパーコンピュータによる情報解析技術と他の手法による実験結果による検証とを組み合わせることで、最終的に信頼度の高い2,120万箇所の一塩基バリアント(single-nucleotide variants:以下 SNVs)を発見しました。これらSNVsのうち1,200万箇所はこれまで国際データベースに報告されていない新規のSNVsでした。 今回の1KJPNでは、SNVs同定対象の常染色体領域上の日本人がもつアレル頻度0.1%以上のSNVsをほぼ(90%以上)網羅できていることがスーパーコンピュータによる集団遺伝学のモデルを用いたシミュレーションにより確かめられています。 研究チームは、SNVsに加え、日本人がもつ340万箇所の数十塩基以内の挿入及び欠失(うち新規約200万箇所)や、全ゲノム中の2万個以上の遺伝子のほぼすべての領域におけるコピー数変化の詳細プロファイルの作成についても世界で初めて成功しました。 また、デンプンの消化に関係するアミラーゼ遺伝子(AMY1)が偶数個の単位で個人差があることや、免疫疾患に関連するヒト白血球型抗原(HLA)遺伝子の詳細プロファイルなどの作成などにも成功しました。 この一連の研究で発見された情報は、日本人に固有な体質・疾患の関連遺伝子を大規模に探索研究するための基盤情報であり、日本人の個別化予防・医療研究を加速する重要な成果です。本研究成果は、2015年8月21日に英国科学誌「Nature Communications (ネイチャー・コミュニケーションズ)」オンライン版で公開されました。

【論文名】Rare variant discovery by deep whole-genome sequencing of 1,070 Japanese Individuals『1,070人の日本人全ゲノム高深度解析によるレアバリアントの発見』掲載予定誌:Nature Communications

Masao Nagasaki*, Jun Yasuda*, Fumiki Katsuoka*, Naoki Nariai, Kaname Kojima, Yosuke Kawai, Yumi Yamaguchi-Kabata, Junji Yokozawa, Inaho Danjoh, Sakae Saito, Yukuto Sato, Takahiro Mimori, Kaoru Tsuda, Rumiko Saito, Xiaoqing Pan, Satoshi Nishikawa, Shin Ito, Yoko Kuroki, Osamu Tanabe, Nobuo Fuse, Shinichi Kuriyama, Hideyasu Kiyomoto, Atsushi Hozawa, Naoko Minegishi, James Douglas Engel, Kengo Kinoshita, Shigeo Kure, Nobuo Yaegashi, ToMMo Japanese Reference Panel Project & Masayuki Yamamoto* These authors contributed equally to this work

ToMMo Japanese Reference Panel Project is the following members including main authors in this manuscript: Akito Tsuboi, Fuji Nagami, Hiroshi Kawame, Hiroaki Tomita, Ichiro Tsuji, Jun Nakaya, Junichi Sugawara, Kichiya Suzuki, Masahiro Kikuya, Michiaki Abe, Naoki Nakaya, Noriko Osumi, Riu Yamashita, Soichi Ogishima, Takako Takai, Teiji Tominaga, Yasuyuki Taki, Yoichi Suzuki

日本人1,070人の高精度全ゲノムデータの統合的な解析に成功、Nature Communicationsに掲載

プレスリリース 平成27年8月21日(金)

- 7 -

Page 10: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

平成28年6月15日(水)

2016Jun.

日本人ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネル(2,049人)から全SNV頻度情報等を公開 東北メディカル・メガバンク機構(ToMMo)では、東北メディカル・メガバンク計画のコホート調査に参加した、日本人の一般住民2,049人分の全ゲノムを解析、精度検証を進め、「日本人ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネル(2,049人)」(以下、2KJPN)を構築しました。この度、2KJPNに含まれる、すべての一塩基多様体(single nucleotide variant:SNV)の位置情報、アレル頻度情報及びアレル数情報について、公開を開始しました。公開した情報は利用目的など規定に沿った誓約をもとにダウンロード可能です。

 本公開に先立って、ToMMoでは、2015年12月に「日本人ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネル(1,070人)」(以下、1KJPN)を構築し、全SNVの位置情報、アレル頻度情報及びアレル数情報について公開しています。2KJPNでは、1KJPNと比べて約700万多い約2800万のSNVが含まれるなど、研究に利用可能な情報が大幅に拡充されています。今後、多様な疾患研究はじめ幅広い研究への利活用が期待されます。

【公開URL】Integrative Japanese Genome Variation Databaseのダウンロードのリンクよりダウンロード可能

日本人ヒト全ゲノム解析に基づく高精度の住民ゲノム参照パネル(2,049人)から全SNV頻度情報等を公開

成 果 平成28年6月15日(水)

東北メディカル・メガバンク機構 ウェブサイト(http://www.megabank.tohoku.ac.jp)から抜粋

平成28年7月12日(火)

2016Jul.

複数の研究機関が持つゲノムデータを相互に開示せず分析する解析手法を開発~プライバシー保護データマイニング技術によるフィッシャー正確確率検定を世界で初めて実現~

 日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:鵜浦博夫)と国立大学法人東北大学 東北メディカル・メガバンク機構(以下、ToMMo)の三澤計治助教(バイオメディカル情報解析分野)、荻島創一准教授(バイオクリニカル情報学分野)、長﨑正朗教授(バイオメディカル情報解析分野)の研究グループは、ゲノム情報を暗号化したまま、複数の研究機関が持つゲノム情報を相互に開示することなく正確に分析する、プライバシー保護データマイニング技術によるゲノム解析手法を共同で開発しました。近似であるカイ二乗検定による解析ではなく、正確性を期したフィッシャー正確確率検定を世界で初めて実現し、疾病情報と遺伝子との相関を調査するのに要する時間が、従来の1年以上から約20分に短縮可能な手法(1000人分のデータによる試算)を開発することで、プライバシー保護データマイニング技術によるゲノム解析の実現に必要となる基盤技術を確立しました。本成果によって、複数の研究機関が安全にゲノムデータを持ち寄り分析することで、医療の更なる発展へとつながることが期待されます。 なお本成果は、NTTとToMMoによる共同研究「ゲノム情報を分散・秘匿化したままセキュアな環境で情報解析するための基盤技術開発のフィージビリティスタディ」によるもので、2016年7月14日より開催されるコンピュータセキュリティ研究会の研究発表会にて発表します。

複数の研究機関が持つゲノムデータを相互に開示せず分析する解析手法を開発~プライバシー保護データマイニング技術によるフィッシャー正確確率検定を世界で初めて実現~

プレスリリース 平成28年7月12日(火)

- 8 -

Page 11: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

マタニティログ調査

マタニティログ調査は、健康機器やスマートフォンによる日常的なライフログと、血液などによる体内の状態変化を統合的に調査することで、妊娠中のお母さんとそのお子さんの健康維持のために、妊娠に関する病気の予防や早期発見の方法を探索する研究です。

東北大学 東北メディカル・メガバンク機構とNTTドコモとの共同研究「妊娠中から出産後までの母児の疾患予防のための研究」

環境

遺伝

生活習慣体調変化妊娠中の

健康状態

妊娠糖尿病 そ

の他

早産

約 9万人

約 7万人

約 5万人

発症者数(年間)

症候群

妊娠高血圧

お母さんと赤ちゃんの健康づくりのために毎年約20万人の妊婦さんが妊娠関連の病気にかかっており、その根本的原因はまだよく分かっていません。妊娠に関する多くの病気は、遺伝、環境、生活習慣等が関わって起こりますが、特に妊娠中の生活習慣や体調変化について十分に把握できていません。

次の世代につながる、妊娠関連の病気の予防や早期発見ができる世の中を目指します。

お母さんと赤ちゃんのために今できること

未来のために

マタニティログ調査では、遺伝情報に加え、生活習慣による体調の変化を重点的に調査します。健康機器やスマートフォンを使って妊婦さんと赤ちゃんの日常的な健康・活動状態(ライフログ)を定期的、継続的に測定・記録していただくことで、日々の体調変化や赤ちゃんの一般的な成長の把握ができます。

アプリを使って日々の ライフログを登録

からだグラフ プレママ健康アプリ

- 9 -

Page 12: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

日本電信電話株式会社(以下NTT、本社:東京都千代田区、代表取締役社長:鵜浦博夫)と国立大学法人東北大学 東北メディカル・メガバンク機構(以下、ToMMo)の三澤計治助教(バイオメディカル情報解析分野)、荻島創一准教授(バイオクリニカル情報学分野)、長﨑正朗教授 (バイオメディカル情報解析分野)の研究グループは、ゲノム情報を暗号化したまま、複数の研究機関が持つゲノム情報を相互に開示することなく正確に分析する、プライバシー保護データマイニング技術によるゲノム解析手法を共同で開発しました。近似であるカイ二乗検定による解析ではなく、正確性を期したフィッシャー正確確率検定を世界で初めて実現し、疾病情報と遺伝子との相関を調査するのに要する時間が、従来の1年以上から約20分に短縮可能な手法(1000人分のデータによる試算)を開発することで、プライバシー保護データマイニング技術によるゲノム解析の実現に必要となる基盤技術を確立しました。本成果によって、複数の研究機関が安全にゲノムデータを持ち寄り分析することで、医療の更なる 発展へとつながることが期待されます。なお本成果は、NTTとToMMoによる共同研究「ゲノム情報を分散・秘匿化したままセキュアな環境で情報解析するための基盤技術開発 のフィージビリティスタディ」によるものです。

(東北大学2016年7月12日のプレスリリースより)

複数の研究機関が持つゲノムデータを相互に開示せず分析する解析手法を開発~プライバシー保護データマイニング技術によるフィッシャー正確確率検定を世界で初めて実現~

ゲノムプライバシー保護の研究

(図はNTT技術ジャーナル2016年11月号より改変)

ゲノムデータを開示せず分析結果のみを取得

医療機関A

医療機関B

医療機関C

秘密計算エンジン

秘密計算によるフィッシャーの正確確率検定

正確性を期した検定手法を実現

医療機関A

医療機関B

医療機関C

複数機関が互いに開示せずゲノムデータを集約

計算時も暗号化されているため不正アクセスがあっても元データは復元できない

- 10 -

Page 13: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

JRG!"#$%$&'('")'*'+'&,'"-'&./'"0

東北メディカル・メガバンク機構では日本人基準ゲノムの作成を進めています。通常、ヒトゲノムの解析は、シークエンスデータを基準となるゲノム配列と比較し、基準配列との違いを検出することによって行ないます。これまで基準配列として用いられていたのは国際参照配列でしたが、この参照配列に、日本人ゲノムで新規に検出された配列を加えることで、より精確なゲノム解析が可能になると期待されます。日本人ゲノムで検出された新規配列だけをまとめたデコイ配列(decoyJRGv1)は、2016年7月15日に一般公開され、ダウンロードが可能になりました。新規配列を国際参照配列に挿入した日本人基準ゲノム(JRGv1) も近日中に公開予定です。

WEB SITE

ポータルサイトhttp://jrg.megabank.tohoku.ac.jp/

変更

- 11 -

Page 14: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

iJGVD!"#$%&'()%*+&",)-)$&.&"/&$01&"2)(*)%*0$"3)%)4).&"5

検索画面でもあります。説明を読みたいときは、 [ ABOUT ] のタブをクリックしてください。

ポータルサイトhttp://ijgvd.megabank.tohoku.ac.jp/

1000人分の全ゲノム解読から得られたバリアントのうち、アレル頻度5%以上の一塩基多型頻度情報について公開しています。ウェブサイトからrsSNP IDや遺伝子シンボルで検索することや国際ゲノム参照配列 上での位置情報の把握などができるような形で、ToMMoのポータルサイト Integrative Japanese Genome Variation Database (iJGVD)として、2014年8月29日に一般公開いたしました。このデータセットについては、NBDCヒトデータベースからも公開し、一括ダウンロードが可能になりました(データID: hum0015)。

WEB SITE

- 12 -

Page 15: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

18件のSNVがヒットしました (すべての表示には、スクロールが必要 )。

このSNPで、Aアリルをホモで持つ人は、お酒に弱いことが予測されます。

GG: 活性型GA: 低活性型AA: アルコールに弱い

遺伝子シンボル、dbSNP ID, ゲノムの位置より、SNVを検索できます。例)遺伝子シンボルのところに、”ALDH2” (aldehyde dehydrogenase 2 family) と入力して検索します。   アセトアルデヒド (体に有害 )を酢酸に変化させる酵素をコードする遺伝子です。

rs671 という IDの一塩基多型 (G/A) は、ALDH2 遺伝子がコードするアセトアルデヒド分解酵素2というたんぱく質のアミノ酸を変化させます(Glu504Lys)。この多型はコドンでは、GAA <-> AAA に対応しており、アミノ酸がグルタミン酸からリジンへと変化します。この違いは、アルコール代謝能力と関係あることが分かっています。遺伝子型とアルコール代謝活性の対応はこのようになります。

SNVの検索

- 13 -

Page 16: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

ゲノムブラウザ

選択したSNV の位置を確認できます。 緑のボックスで表示されているのが、ToMMo が公開しているSNVです。 右クリックすると、頻度情報などが示されます。

ヒト1人あたりの染色体の長さ : 約30億塩基 (3Gbase)ToMMoでヒト1人当たりのシークエンサーから取得している塩基数 : 約1,000億(100Gbase)ToMMoで1000人のリファレンスパネル構築のために読んだ塩基数 : 約100兆塩基ToMMoで断片化した染色体をシークエンサーで読んでいる1本あたりの長さ : 324塩基ToMMoで読んでいる1人あたりのリードの本数 : 約3億本1人当たりの読む塩基の染色体全体での平均深度(回数) : 約33回1人あたりの解析に必要なストレージの量 : 1テラバイト (Tbyte)スパコンで行っている1人あたりの全ゲノム解析のジョブの数 : 約3,000ジョブスパコンで行っている1人あたりの全ゲノム解析に必要な日数 : 約2日

豆知識

WEB SITE

ToMMoで行っている1000人の全ゲノムリファレンスパネルにまつわる数字

- 14 -

Page 17: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

検体とバリアントの統計今回、ゲノム解読の対象となった方々は地域住民コホート研究の参加者です。

Statistics (2KJPN)See also related information in our publications.

- 15 -

Page 18: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

Japonica Array日本人1070人の全ゲノム解析の成果に基づいて設計された日本人ゲノムの解析に特化したSNPアレイ。インピュテーションによって全ゲノム解析に匹敵するSNP情報が得られます。

ジャポニカアレイは日本人の大規模ゲノム解析の成果に基づいて作られた日本初の日本人のゲノム解析に特化したSNPアレイです。全ゲノム解析にはハイスループットシークエンサーで全ての塩基を読み取る方法(全ゲノムシークエンシング)と、SNPアレイとよばれるマイクロアレイで狙った位置の塩基の状態(SNP)を検出する方法があります。全ゲノムシークエンシングはヒトがもつ遺伝的多様性を網羅的に捉えることができるものの、解析にかかる手間とコストが大きいという特徴があります。一方、DNAマイクロアレイは高精度で比較的安価に、しかも一度に多数の検体(ジャポニカアレイは一度に96人分の解析が可能です)を解析できるものの、解析可能なSNP数は全ゲノム解析には及びません。ジャポニカアレイはその両者の良い特徴、すなわち低コスト・高精度・ハイスループットで日本人が持つSNPなどの遺伝的多様性を大量に取得可能なツールを目指して開発したツールです。そのために私たちは「ジェノタイプインピュテーション(インピュテーション)」という統計手法を活用しています。インピュテーションとはリファレンスパネルと呼ばれる標準的なSNPのコレクションの情報を参照して、SNPアレイで設計されていない部位の遺伝型情報を統計的に推定する手法です。そのために、私たちは東北メディカル・メガバンク機構が構築した日本人全ゲノムリファレンスパネルのSNPの中からパネルと組み合わせることによって高精度なインピュテーションを実現できるようなSNPを選択し、その成果に基づきジャポニカアレイを設計しました。ジャポニカアレイと日本人全ゲノムリファレンスパネルを使ったインピュテーションは既存のアレイ・パネルと比較して高精度に可能であることも確認しました。また、ジャポニカアレイは当機構のゲノムコホート研究だけではなく日本全国の研究科機関でGWASなどのゲノム研究にも幅広く活用されています。

日本人の大規模ゲノム解析の成果に基づいて作られた日本人のゲノム解析に特化したSNPアレイ

(SNP100個分)拡大図

▼ これで96人分

ジャポニカアレイ

これで約65万個(137万プローブ)

- 16 -

SOFTWARE TOOLS

Page 19: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

インピュテーションで得られたSNPの型(遺伝子型)の推定精度

SNPアレイ間のインピュテーション性能の比較

インピュテーション可能な SNP(MAF>1%)のカバー率

インピュテーションを行ったSNPのリファレンスパネルでの頻度

ジャポニカアレイは既存のGWAS向けSNPアレイに比べて高い精度でインピュテーションが可能です。左図の横軸はSNPの頻度、縦軸はインピュテーションの精度を表す指標(1に近いほど高精度)を表しており、ジャポニカアレイはSNP頻度に関わらず常に比較を行った他のSNPアレイよりも高いインピュテーションの精度が得られています。より頻度の低いSNPのインピュテーションが可能になることによってこれまでの解析では発見できなかった疾患や形質に関係するSNPが発見できることが期待されます。

右図は日本人全ゲノムリファレンスパネル(1KJPN)と国際1000人ゲノムパネル(1KGP)を使って行ったインピュテーションで得られるSNPの全ゲノム中のカバー率を表しています。カバー率が高いインピュテーションを行うことによってゲノムワイド関連解析で疾患や形質の遺伝的素因を発見できる可能性が高まります。日本人集団のゲノムで構成される1KJPNは1KGPよりも高いカバー率が得られますが、その中でもジャポニカアレイを使ったインピュテーションは特に高いカバー率を得られます。

カバー率(%) (r >0.8)

2

- 17 -

Page 20: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

PEDIGREECallerPedigreeCallerは家系情報が与えられた複数サンプルからのNGSデータに対して、家系情報を考慮して変異コールを行うJavaプログラムです。

一般的に変異コールは、シークエンサーからのリードをリファレンスゲノムにアラインメントしたデータについて、リファレンスゲノム上の各位置について、シークエンサーの読み取り誤りやリファレンスゲノムへのアラインメントの誤りを統計モデルに組み込み、各遺伝子型確率を計算することで行われます。通常の変異コールソフトウェアでは各個人のアラインメント済みシークエンスデータについて独立に変異コールが行われます。Pedig reeCa l l e rでは、複数人のアラインメント済みシークエンスデータについて、家系情報が与えられた場合に、親子間における遺伝継承性を考慮し、グラフィカルモデルの枠組みで各個人の変異コールのための統計モデルを結合し、各個人のシークエンスデータを同時に用いることでより高精度な変異コールが可能となります。しかしながら、通常、家系情報を考慮して複数サンプルを一つのモデルとして扱う場合、モデルの複雑化により各個人のシークエンスデータが与えられたもとでの各遺伝子型確率は正確に計算することは困難な問題があります。そこでLoopy Be l i e f P ropagat ionと呼ばれる近似手法を用いることで、正確な値ではないものの、現実的には十分な近似精度で各遺伝子型確率の計算を行い、最も確率が高い遺伝子型をもとに変異検出を行っています。

HapMonsterHapMonsterはNGSデータから変異コールとハプロタイプフェージングを同時に行うJavaプログラムです。複数のヘテロ接合サイトにまたぐリードデータを用いてフェージングを行います。

シークエンスデータから家系情報を考慮して高精度に変異コールを行うソフトウェア

シークエンスデータからの変異解析では、一般的にシークエンサーより読み取られた各リードをリファレンスゲノムへのアラインメントを行った後、各リファレンスゲノム上の物理座標についてシークエンサーの読み取り誤りやアラインメントの誤りを考慮して、統計モデルを用いて変異コールが行われます。HapMon s t e rでは、アラインメントされたシークエンスデータから変異コールを行うと同時に同じリード上に含まれるヘテロ接合変異に対応した塩基情報を用いて、ローカルフェージングを行います。ローカルフェージングを行う過程では、変異コール結果の誤りによりフェージング結果に不整合が発生する場合がありますが、この不整合部分についても統計モデル上で考慮することで、既存の変異コールソフトウェアで見逃されていた変異コール結果の誤り検出が行われます。さらに誤り検出後の変異コール結果をもとに、再度ローカルフェージングを繰り返し行うことで、相乗効果的にローカルフェージングと変異コール双方の高精度化が行われます。

シークエンスデータからローカルフェージングと変異コールを行うソフトウェア

- 18 -

SOFTWARE TOOLS

Page 21: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

SUGAR

coalescentSTRcoalescentSTRでは、マイクロサテライト周辺におけるフェーズ済みの遺伝子型情報からcoalescent理論により推定された遺伝子系図をもとに、複数人のペアドエンドリード距離情報からのリピート数推定モデルを結合することで一つの統計モデルとして推定が行われます。

ゲノム上においてCAGなど短い塩基の繰り返しが続く領域はマイクロサテライトと呼ばれ、繰り返し数(リピート数)がハンチントン病などの発症に関連していることが知られています。既存のシークエンスデータからのリピート数推定手法では、マイクロサテライト領域をまたぐようにアラインメントされたリードにおけるリピート数をカウントすることで推定がなされますが、マイクロサテライトがリード長を越える場合には推定ができない問題がありました。代替手法としてペアドエンドリード距離の分布から推定する手法がありますが、マイクロサテライトがリード長を越える場合も適用可能である一方、推定精度が低い問題があります。coa l e s cen tSTRでは、マイクロサテライト周辺におけるフェーズ済みの遺伝子型情報からcoa l e s c en t理論により推定された遺伝子系図をもとに、複数人のペアドエンドリード距離情報からのリピート数推定モデルをグラフィカルモデルの枠組みにより結合することで一つの統計モデルとして扱われます。突然変異によるリピート数変化を考慮に入れながら遺伝継承性をもとに、各個人間のリピート数情報を統計モデル内で確率伝搬させることで、複数人に対してリピート数の同時推定を行うことで、各個人について独立に推定した場合に比べ、より高精度な推定が可能となります。

NGSの大量DNAシークエンシングデータのクオリティ評価とデータクリーニングを行うJava GUIソフトウェアです。Illumina HiSeq, MiSeq, GAシリーズのデータ処理に対応しています。

シークエンスデータからの複数人のマイクロサテライトリピート数推定ソフトウェア

SUGARは、ショートリードの配列(fa s t q)またはマッピング(BAM/SAM)データに対し、クオリティ評価と自動フィルタリングを実行するソフトウェアです。SUGARがターゲットとするのは、フローセル内の気泡やハレーションなどといった偶発的で不可避な実験エラーです。気泡等が混入してシークエンス結果が影響を受ける現象は、どうしても一定確率で起きます。そうしたエラーは、該当するフローセル位置や塩基ポジションの読み取り精度を低下させるばかりでなく、エラースポットの周囲や、それより後の塩基ポジションでも、精度とクオリティ評価値(QV)に影響を及ぼします。SUGARは、フローセル上のタイル(画像解析の単位)を標準で100分割したサブタイルとして分析し、高精細なQV分布評価を行うことで「物理的に近接する」フローセル上のエラースポットを割り出します。例として、国際HapMapプロジェクト検体(NA12878)の配列データにSUGARの自動フィルタリングを適用すると、全体のマッピングクオリティ値が改善することを原著論文で指摘しています。このことは、高深度マッピングデータのhete rogene i t yに注目した解析、例えば体細胞突然変異やガン遺伝子の微少残存病変、ミトコンドリア・ヘテロプラスミーの探索等を高精度で遂行するうえで、SUGARによるデータフィルタリングが極めて有用であることを示唆します。

シークエンス時の気泡混入やハレーション等を検出しフィルタリングを行うソフトウェア

- 19 -

Page 22: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

iSVPiSVPは、NGSデータから構造変異を検出する複数のツールを並列に適用し、結果を統合するパイプラインです。現在は欠失変異に対応しており、変異の大きさによって異なる各ツールの予測精度を考慮して統合します。

iSVP は、ハイスループットシークエンサーのデータから構造多型 (SV ) を検出する複数のアルゴリズムを並列に適用し、予測結果を統合するパイプラインです。SV は一塩基多型 (SNP ) などの小規模な変異とは異なり、アルゴリズムによって予測される変異の大きさや座標にあいまい性があり、変異の頻度などの統計情報を計算する際に類似する変異をまとめる手法が必要となります。 i SVP は東北メディカル・メガバンク機構 ( ToMMo) にてシークエンスされた日本人のゲノムにおける挿入・欠失変異を検出し、変異の頻度を算出する際に使用されています。挿入変異については、 GATK Hap lo t ypeCa l l e r (HC ) を使用し、近い変異をクラスタリングした上で各変異の頻度を算出しています。また、欠失変異については、約 100 塩基までの大きさの検出に適した HC に加え、より長い 1000 塩基程度までの検出に適した P i nde l やそれ以上の大きさの変異に適した B r e a kDan c e r による予測結果を統合し、変異を同定しています。シミュレーションデータをベースにした評価では、 i S V P によって ToMMo でシークエンスされているような約 30× の深度のデータを用いれば、90%以上の適合率・再現率で欠失変異を検出できることを確認しています。

CNVallocCNVallocは、集団のNGS データを用いて、CNV箇所に存在するアレルの配列と、サンプルの持つアレルのコピー数を同時推定するプログラムです。推定の各ステップの計算量はサンプル数、仮定するアレル数に線形依存します。

Copy Number Variant Allocator④HTS Data

alloc

ハイスループットシークエンサーから構造多型を予測するパイプライン

ヒトゲノム中のコピー数変異 (CNV ) は、精神疾患との関連性や、遺伝子領域のコピー数と RNA 転写量が相関することが知られており、フェノタイプとの関連を調べる上で広く関心を持たれています。これまで CNV のジェノタイプは主にコピー数の違いとして同定されてきましたが、より詳細な塩基配列レベルでの多型の同定には、東北メディカル・メガバンクでシークエンスされているような高深度で質の高いデータが必要であり、あまり行われていません。 CNVa l l o c はこのようなデータを対象に開発された手法であり、集団のシークエンスリードを用いて集団中に存在するコピー単位のレパートリーと、各個人が持つコピー単位を同時に予測します。従来の SNP アレイに基づく手法では分解能の問題により 4コピーまでの CNV に限定することが普通ですが、シークエンスデータを用いる CNVa l l oc は、日本人でコピー数が多いことが知られているアミラーゼ遺伝子 (AMY1 ) のような平均 8 コピーを超える領域にも適用することができます。

集団のハイスループットシークエンスデータからコピー数変異に含まれる多型を同定する手法

SOFTWARE TOOLS

- 20 -

Page 23: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

HLA-VBSeq

TIGARTIGARはRNA-Seqデータから各転写産物アイソフォームの遺伝子発現レベルを正確に推定するソフトウェアです。特徴としてはリードのアライメントにBowtie2 もしくはBWA-MEMを使用するため、シークエンスエラーに強く、かつロバストな推定を行えることが特徴です。

RNA - Seq データ解析においては得られたショートリードを cDNA リファレンス配列(もしくはリファレンスゲノム配列)にアライメントすることにより、各転写産物由来のリード数を見積もり、転写量を推定する。注意すべき点は、転写産物の cDNA 配列がお互い非常に良く似ているケースが多々あるため(例えば同じ遺伝子座から選択的スプライシングにより生成された転写産物アイソフォーム同士など)、多くのリードが複数の cDNA 配列にアライメントし、リードがどの転写産物由来なのかを正しく判断することは必ずしも容易ではない事である。我々が開発した T IGAR においては、各リードと転写産物のマッピング対応、及び各転写産物の転写量を統計的推定により同時に最適化することで、より正確な転写量推定が可能となる。特に、TIGAR においては、変分ベイズ推定によって隠れ変数(アライメント)とパラメータ(各転写産物の転写量)の事後分布推定を行う。ベイズ推定ではパラメータを点推定ではなく事後分布として推定するため、ノイズに強いロバストな推定を行うことが出来る。また、事前分布のハイパーパラメータの設定により、モデルの複雑さ(この場合は推定されるべき転写産物の数)をコントロールできるという特徴がある。

NGSデータからHLA型を高精度にタイピングするソフトウェアです。IMGT/HLAデータベースに登録されている全てのHLAアリル参照配列に対して、リードのアライメントを最適化します。

RNA-Seq データから遺伝子発現量を網羅的かつ正確に推定するソフトウェア

HLA 遺伝子座群は第 6 染色体短腕 6p21 . 3 の約 4 Mb の領域に渡って存在し、この領域はヒトゲノム中で最も遺伝子密度が高い領域である。また、200 以上存在するHLA 遺伝子座はお互いに配列相同性が高く、かつヒト遺伝子の中で最も多様であることが知られている。臓器移植においては拒絶反応を避けるためにドナーとレシピエントのこれらの HLA 型をなるべくマッチさせることが重要となる。また、特定の HLA 型が自己免疫疾患発症のリスクを高めること、薬の副作用に関わることが知られている。HLA-VBSeq では、次世代シークエンサから得られた各リードと各 HLA アリルのマッピング対応を隠れ変数、各 HLA アリルの gene dosage (相対的な存在量)を多項分布のパラメータとして、変分ベイズ法によって統計的推定を行う。本手法は、リードのアライメント先が複数ある場合でも、統計的推定により正しいアライメント先を見つけ、曖昧なアライメント状態にあるリードを一切捨てることなく全ての HLA 遺伝子座について同時にHLA アリル及び gene dosage の推定を行うことが出来るという特徴がある。

次世代シークエンスデータからHLA型を正確に推定するソフトウェア

HLA-VBSe

q

- 21 -

Page 24: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

バイオメディカルゲノム情報解析実習技術の進歩によりベンチトップ型の大量並列DNAシークエンサを用いて、全ゲノ

ム規模のデータを取得できる時代になった。種々の生物から取得した大量配列

データを解析して、変異の検出から結果の分析・解釈を行うプロセスを実践的に

学ぶ。その過程で必要な、情報処理、確率統計、遺伝統計学を学ぶ。また、近年、

多因子疾患の原因探索にむけ、大規模なSNPアレイ情報を主とする関連解析

医科学専攻 修士課程  公衆衛生学専攻 修士課程  情報科学研究科 修士課程   農学研究科 修士課程

履修対象

が盛んにおこなわれている。本講義では、関連解析の基礎を学んだ上で、実習を行う。

さらに、医学・生物学的に意味のある情報を抽出し、既存の生物学知識と統合して

分析・解釈を行うプロセスを実践的に学ぶことを目指す。基礎的なコンピュータの

使い方、プログラミング手法、解析ツール・諸データ形式などについて、授業及び

実習を通じて理解を深める。

開講期間:前期開講 平成29年4月12日(水)~平成29年7月19日(水)日  時:水曜4コマ目 (14時40分~16時10分)

6号館(東北メディカル・メガバンク棟)1F カンファレンス室1場 所:問 合 せ:E-mail / [email protected]

4/12

開催予定

長 﨑

担当

4/19 原 田

<アラインメント>

<第三世代シークエンサについて>

』』

』 4/26 山 下

5/10 寺 口

5/17 三 澤

5/24 河 合

5/31 河合/三澤』6/7 山 岸』6/14 佐 藤

』 6/21 柴 田

』 6/28 小 島

』7/5 小 島

7/12 長 﨑

7/19 各教員』

長﨑 正朗 山下 理宇 小島 要 原田 祐希山岸 潤也 佐藤 行人河合 洋介 三澤 計治柴田 朋子 寺口 俊介

第 回第 回第 回第 回第 回第 回第 回第 回第 回第 回第 回第 回第 回

第 回12345678910111213

本講義シリーズのガイダンス授 業 計 画

UNIX の基礎『 バイオインフォマティクスプログラミング実習①

バイオインフォマティクスプログラミング実習②

『』『

ゲノムワイド関連解析の応用

ヒトゲノム解析ツール・バイオデータリソースの紹介

『』『』ゲノムワイド関連解析の基礎

ゲノムワイド関連解析の実習

ヒトゲノム配列解析その2

ヒトゲノム配列解析その3

『『

<変異コール>』ヒトゲノム配列解析その4『 次世代シークエンスデータ解析実習『

14 ヒトゲノムデータを用いた実習『

<DNA配列決定の原理と次世代シークエンサ>』ヒトゲノム配列解析その1『

1号館

北四番町通り Kita yobancho dori Ave.

講義室 6号館 1Fカンファレンス室1

LAWSON

仙台厚生病院Sendai Kousei Hospital

艮陵会館Gonryo Hall

Building1

東北メディカルメガバンク棟

6号館Building 6

入口

122

121

授業内容例

Page 25: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

Document Edit

STAFF

Credit

Design & Photo Edit

発行日 2017.10. 24

長﨑正朗

山下理宇

河合洋介 小島 要

山口由美 佐藤行人柴田朋子 三澤計治原田祐希

Olivier Gervais寺口俊介

越智大介 山内隆史

三森隆広

一關京子 遠藤 睦

小野 彰 舘野 穣杉本幸代 千葉智章古橋 翔 男澤良子

松川直美

庄子達彦

住井真紀子

井上大輔

畑中俊哉

[email protected]

http://nagasakilab.csml.org

E-MAIL

WEB SITE

Contacts

Page 26: 0&(%1*.2%&'3&./4$$ - CSMLnagasakilab.csml.org/ja/wp-content/uploads/2017/11/... · シング30回分の解読量。平均900億塩基)で 解読しており、この様な品質での1000人分

!"#$%&'"(&)*+),(&"-%$&./")0"(*'.123)4*5*67)8"9.1$:)8"-$;$(6)<%-$(.=$&.*(3

4*5*67)>(./"%2.&?!./.2.*()*+)@.*'"9.1$:),(+*%'$&.*()A($:?2.2

!"#"$"%&'%(')"%*+,"-./'0&(%1*.2"%&'3&./4$"$

東 北 大 学 東 北 メディカ ル・メガ バン ク機 構

バイオメディカル情報解析分野2017