A survery of topic model in bioinformatics

19
A survey of topic model in bioinformatics 東東東東 東東東東東東東東東東 東東東東東東東東 東東東東東 東東東東 東東 東東 WACODE#3

Transcript of A survery of topic model in bioinformatics

Page 1: A survery of topic model in bioinformatics

A survey of topic model in bioinformatics

東京大学 新領域創成科学研究科情報生命科学専攻 岩崎研究室 博士三年

福永 津嵩

WACODE#3

Page 2: A survery of topic model in bioinformatics

自己紹介

• Twitter アカウントは@fukunagatsu

• 研究テーマ–動画データの情報解析に基づく動物行動学–環境 DNAから探る魚類の生態– (長鎖 RNAの RNA二次構造解析 )

• 四日前に博士論文の予備審査が終わりました

Page 3: A survery of topic model in bioinformatics

動物行動のトラッキング

• 自動的に個体の位置を抽出し、速度や個体間距離を計算

Page 4: A survery of topic model in bioinformatics

前準備 : Bag-of-words表現• 文書を、出て来た単語の頻度集合で表現する– 上の文を例にすると、 {文書 :1, 単語 :1, 頻度 :1, 集合 :1, 表現 :1}

– 順番は考えない

• Bag-of-words表現を生成する確率モデルを考える事が目標– トピックモデルはそのようなモデルの一つ

Page 5: A survery of topic model in bioinformatics

モデルその 1:ユニグラムモデル• 文書 1: {選挙 :2, 勝利 :2, 議員 :1}• 文書 2: {野球 :1, 勝利 :2, 投手 :1, 試合 :1}• 文書 3: {国会 :2, 投票 :2, 選挙 :1}

• ユニグラムモデルでは、複数の文書データに対して 1つのカテゴリ分布を生成モデルとする。すなわち、– {選挙 :3/15, 勝利 :4/15, 野球 :1/15…}

• しかし、全文書が同じカテゴリ分布で生成されるとは考えにくい– 政治記事では「議員」はよく出てくるだろうが、スポーツ記事ではあまり出てこないだろう

Page 6: A survery of topic model in bioinformatics

モデルその 2: 混合ユニグラムモデル

• 文書 1: {選挙 :2, 勝利 :2, 議員 :1}• 文書 2: {野球 :1, 勝利 :2, 投手 :1, 試合 :1}• 文書 3: {国会 :2, 投票 :2, 選挙 :1}

• 各文書にはそれぞれトピックがあり、そのトピックごとに 1つのカテゴリー分布が定義される。– 文書 1:政治、文書 2:スポーツ、文書 3:政治

• データから、トピックの混合比とトピックごとのカテゴリー分布を EMアルゴリズム等で推定する。

Page 7: A survery of topic model in bioinformatics

モデルその 3:トピックモデル• 1つの文書は 1つのトピックしか持たないのか?複数のトピックを取り扱う文書があるのでは?– 「科学」+「政治」とか?

• 各文書が異なるトピックの出力分布を持ち、また各単語は各トピックでの単語の出力分布に基づいて生成されるモデルを、「トピックモデル」という

Page 8: A survery of topic model in bioinformatics

図で説明

• (岩田具治先生の topic model本 57Pより )

Page 9: A survery of topic model in bioinformatics

数式等の詳しい話は

• トピックモデルについての良い教科書が今年2冊出たので読んでください– 特に後者が丁寧でわかりやすい (変分ベイズ力が必要 )

Page 10: A survery of topic model in bioinformatics

大切な事は

• BoW表現のデータ集合から、各文書ごとのトピック出現確率と、トピックごとの単語出現確率を求める事が出来る

• トピックモデルの面白そうな所1. (潜在的に )共起している語の集合がトピックとして抽出される→解釈しやすそう

2. グラフィカルモデルなので拡張が容易• 時系列データなど

3. BoW表現であれば自然言語データに限らない• 画像データ解析では成功例が多い

Page 11: A survery of topic model in bioinformatics

Bioinformaticsへの応用• 文書、語、文書集合をどう見立てるかを考える

例 )1. 文書 :ゲノム、語 :遺伝子、文書集合 :全微生物ゲノム

– Bag of genes モデル、潜在的に共起する遺伝子セットをトピックとして抽出する

2. 文書 :メタ 16S or メタゲノム、語 :16S or 遺伝子、文書集合 :全メタ 16S or 全メタゲノム

3. 文書 :トランスクリプトーム、語 :各遺伝子発現、文書集合 :全トランスクリプトーム

Page 12: A survery of topic model in bioinformatics

Bioinformaticsへの応用• データのメタアナリシスで隠れた法則性を発見する、という研究が出来そう

• 多分大林先生の遺伝子共発現解析は雰囲気が似ている気がする

Page 13: A survery of topic model in bioinformatics

• タンパク質間の高速かつ精度のよい比較を行う事が目的

• 文書 :タンパク質、語 :構造断片、文書集合 :タンパク質構造データセット

• タンパク質構造解析に応用するのは目新しいが、解釈はほとんど不可能では?

• 語をポケットにすると何か出てこないんだろうか

(図 )

Page 14: A survery of topic model in bioinformatics

(Nature Methods 2011)

• メタ 16Sデータのコンタミがどこ由来であるかを識別するためのソフトウェア

• 文書 :メタ 16Sデータ、語 :OTU、トピックは各環境を意味する– ある環境で採取されたメタゲノムデータは、採取された環境と汚染元環境 (腸内、皮膚など )のトピックが混合している状態であるとみなす

– 各環境での OTU出現確率はあらかじめ求めておく

• 実用性の高い使い方だと思われる

(図 )

Page 15: A survery of topic model in bioinformatics

(Microbiome 2015)

• 文書 :メタ 16Sデータ、トピックは environment、サブトピックがmicrobial group、語が OTU– 各トピックごとに対してサブトピックの出力確率が求められ、各サブトピックごとに語の出力確率が求められると言う二段構え

– 少々わかりにくい

• 季節変動ごとにmicrobial groupが変動している

(図 )

Page 16: A survery of topic model in bioinformatics

• 13個の化合物を濃度を変えて酵母にかけ、遺伝子の発現変化を見たアレイデータを対象に topic modelを適用

• GOのアノテーションがあればそれもモデルに組み込んでいる

• トピック内にどういう遺伝子が集まってくるかとか、化合物に対する応答の解釈、新規ターゲットの予測といった分析がしっかりあるので好印象

• 各アレイはほぼ 1つのトピックしか出力せず、複数のトピック出力確率を持つものがレアだったので、トピックモデルの長所がどの程度生きたのかは疑問

(図 )

Page 17: A survery of topic model in bioinformatics

レビューのまとめ

• バイオインフォマティクスにトピックモデルをapplyした研究は 30本くらいはある– 分野としてはメタゲノム解析やトランスクリプトーム解析が多い

• 大半の研究は「精度が上がりました!」で終わり– 特に面白くない

• まだバイオインフォマティシャンはこのモデルの可能性を引き出せていないのではないだろうか

Page 18: A survery of topic model in bioinformatics

感想• メタゲノムと topic modelは相性が良いと思う

– 共起しやすい・しにくい微生物系統群や遺伝子群の同定– 環境データと関連づけて解釈する事も可能– (上手く行けば )機能未知遺伝子の機能予測も出来る

• Meta-metagenomics解析

Page 19: A survery of topic model in bioinformatics

感想

• 遺伝子集合をトピックと見立てて、それが進化するというモデルはどうか?– 複合体や代謝パスウェイ等を考えると、遺伝子は単独というより複数個そろって初めて機能を持つ物も多い

– 遺伝子の欠失/獲得は独立に起こるというよりも機能単位ごとにまとまって欠失/獲得される (Iwasaki et al. (2009))

– 系統樹を組み込んだトピックモデルによって、より適切な機能単位を特定出来るようになる?

• 行動・発声パターンの共起関係を探れないか?– ソングバードの音声データから特徴的な発声パターンを抽出し、文書 :音声データ、語 :発声パターンとみなすとか

– HMMとの組み合わせも出来る– 行動データでも同じ事が出来そうな気がする

(この辺はあまり surveyしてない )