生命教育的緣起、範疇、 內涵、與方案 · 生命教育的緣起、範疇、 內涵、與方案 生命教育課程 投影片曾麗玉(liyu)製作,生命教育系列教材─精簡版
生命情報学入門 配列のつなぎ合わせと再編成
description
Transcript of 生命情報学入門 配列のつなぎ合わせと再編成
生命情報学入門配列のつなぎ合わせと再編成
阿久津 達也
京都大学 化学研究所バイオインフォマティクスセンター
講義予定• 5 月 24 日 : タンパク質立体構造予測法• 5 月 31 日 : タンパク質立体構造予測演習• 6 月 7 日 : 機械学習を用いたタンパク質の
分類法• 6 月 14 日 : タンパク質の分類法演習• 6 月 21 日 : 配列のつなぎ合わせと再編成
講義の内容• 配列のつなぎ合わせ
– 等長断片からの配列決定– 最短共通拡大文字列
• ゲノム再編成– 逆位によるソーティング(符号なしの場合)– 逆位によるソーティング(符号ありの場合)
配列のつなぎ合わせ
配列のつなぎあわせ• ゲノム配列の決定
– 32 億文字を一度に決めるのは無理– (制限酵素を使って)短く切って、つなぎ合わせる
CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA
元の配列酵素を使って切断
CTCACTCAAAGGCGGTAA
GGTAATACGGTTATCCAC
TATCCACAGAATCAGGGGATAA
つなぎあわせ
CTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAA
等長断片からの配列決定
問題の定式化データ: 同じ長さの配列断片問題: それぞれの配列断片のみがちょうど1回づつ 出てくるような配列はあるか?
ACA
CAC
ACT
CTGACACTG
ACA
CAC
ACT
CAGなし
一筆書きとオイラーオイラーの定理(有向グラフ版)次のどちらかの条件を満たす時、一筆書きができ
る(a) どの点についても
• 入って来る矢印の数 = 出て行く矢印の数(b) 2点以外は上と同じで、残りの点は、それぞれ以下を満
たす• 入って来る矢印の数 = 出て行く矢印の数-1• 入って来る矢印の数-1 = 出て行く矢印の数(a) (b)
オイラーパス問題への変換• 最初の2文字に対応する点から、最後の 2文字に対応する点に
矢印を引く。 一筆書きできれば解あり、できなければ解なし
CAAACCCAC
A CA AAACAAA
CACCAA ACC
CCA CCCC CC A
AAA, AAC, ACC, CAA, CAC, CCA, CCCデータ
例題の解答
ACA
CAC
ACT
CTG
ACA
CAC
ACT
CAG
AC CA
CT TG
AC CA
CT AG
ただし、実際には誤りがあったり、断片の長さが同じではないので、このままでは使えない。様々な工学的な工夫が必要
最短共通拡大文字列問題
問題の定式化データ: 配列断片問題: それぞれの配列断片を(重なりありで)
つなぎわせてできる一番短い文字列を見つけよ
ACGT GTAC CAGT GTCAG
ACGTACAGTCAG
GTACGTCAGT
12 文字
10 文字で最短
問題の解き方(1)着目点:断片の並べ方を決めると(その順番での)最短
拡大文字列が一意に決まる(なるべく左につめるようにつなげていく) ⇒ 並び方をみつければ良い
pref(a,b): 断片 a の後に断片 b をつなげた時の a の中で b と重ならない部分の長さ
ovlp(a,b): 断片 a の後に断片 b をつなげた時の a と b の重なっている部分の長さ
a = CAGTC b = GTCAG
CAGTC
GTCAGpref(a,b)=2ovlp(a,b)=3
問題の解き方( 2 )断片の並べ方( s1,s2,s3,…,sn)を決めた後の最短拡大文字列の長さ = pref の総和 + ovlp(sn,s1)
ACGT
GTAC
CAGT
GTCAG
GTAC
s1
s2
s3
s4
s1
GTACGTCAGT
ovlp(sn,s1)
pref(si,si+1)
巡回セールスマン問題への変換
GTACGTCAGT
ACGT
GTAC
CAGT
GTCAG
(=pref(GTCAG,
ACGT))
23
24
44 4
4(=pref(GTAC,
CAGT))
522
2
2+2+2+2+ovlp(CAGT,GTAC)=10
s1
s2
s3
s4
等長断片の場合との比較等長断片の場合
・オイラーパス(一筆書き)問題へ変換・すべての辺をちょうど1回通る・効率良く計算可能
拡大最短共通文字列の場合・巡回セールスマン問題へ変換・すべての頂点をちょうど1回通る・効率の良い計算は難しい( NP 困難)
ゲノム再編成
ゲノム再編成
• ゲノムの概要構造は染色体の融合・分裂や部分配列の大規模な逆位・転座・重複により進化
• 二種類の生物を比較して進化の過程を復元
逆位によるソーティング
逆位によるソーティング(符号なしの場合)
• ゲノム構造: 1 から n までの数字の順列• 逆位:連続した部分列を反転• 問題:与えられた順列を (1,2,3,4,…,n) に
するための最短の逆位系列を計算
6 4 1 5 2 3
1 4 6 5 2 3
1 4 3 2 5 6
1 2 3 4 5 6
逆位によるソーティング(符号ありの場合)
• ゲノム構造: 1 から n までの数字の順列。ただし、各数字は符号(遺伝子の方向)がつく
• 逆位:反転した場合、符号も反転
1 2 3 4 5
1 -5 4 -3 2
1 -5 4 -3 -2
1 -5 -4 -3 -2
キャベツ
カブ
逆位によるソーティング
• 符号ありの場合–高速に計算可能– でも、アルゴリズムはかなり複雑
• 符号なしの場合–高速な計算は難しい( NP 困難)
• 転座、重複などを許した様々なパターンの問題が研究されている
まとめ
• 等長断片のつなぎ合わせ ⇒ 一筆書きへの変換• 拡大最短共通文字列 ⇒ 巡回セールスマン問題への変
換• ゲノム再編成 ⇒ 最小回数の逆位による順列の 並び換え(ソーティング)