論文 データ工学と情報マネジメント論文特集 - NTTは疎行列中の非ゼロ値とその位置を三つの配列,すな わちインデックス配列AI,列配列AC,値配列AV
Nov26 09 open - NAIST ISisw3.naist.jp/IS/Kawabata-lab/kensuke-nm/Nov26_09/pdf/...E-value&...
Transcript of Nov26 09 open - NAIST ISisw3.naist.jp/IS/Kawabata-lab/kensuke-nm/Nov26_09/pdf/...E-value&...
通常の検索: 完全に一致する文字列
BLASTによる検索: 類似する(ホモロジーのある)文字列
Query 1 MENFQKVEKIGEGTYGVVYKAKNKLTGEVVALKKIRLDTETEGVPSTAIREISLLKELNH 60! M+ ++K+EKIGEGTYG V+K KN+ T E+VALK++RLD + EGVPS+A+REI LLKEL H!Sbjct 1 MQKYEKLEKIGEGTYGTVFKGKNRDTLEIVALKRVRLDEDDEGVPSSALREICLLKELKH 60
MENFQKVEKIGEGTYGVVYKAKNKLTGEVVALKKIRLDTETEGVPSTAIREISLLKELNH
配列データベース
クエリー
Query 3 NFQKVEKIGEGTYGVVYKAKNKLTGEVVALKKIRLDTETEGVPSTAIREISLLK! +FQ++EK+GEGTY VYK +N+ TGE+VALK+I LD+E EG PSTAIREISL+K!Sbjct 10 SFQRLEKLGEGTYATVYKGRNRQTGEMVALKEIHLDSE-EGTPSTAIREISLMK
BLASTによる検索: ローカルなヒット
クエリー
ヒット ほぼ全長で一致
クエリー
ヒット ターゲットの一部に 一致
クエリー
ヒット クェリーの一部に 一致
クエリー
ヒット ターゲットの複数箇所 に一致
クェリー :質問配列 ヒット・ターゲット :データベース中で質問配列に相同性があった配列
E-value
配列相同性のもう一つの指標
後で用いる配列相同性検索プログラム:BLASTで用いられる
ランダムな配列の比較で、偶然にスコアSが生じる可能性
0~1で、低いほど、相同性が高いと考えられる
BLASTの出力では、指数表記で表されるので注意
ひとつの目安として、0.0001 = 10-‐4 より小さければホモロジーが有ると考える
例えば、 10-‐4 は 1.0e-‐4 と表記される
0.24 は 2.4e-‐1, 0.000000000098 は、9.8e-‐11 と表記される
ログオッズスコアの和: アラインメントが長いほど高くなる ー>補正
アミノ酸配列データベース
今日使うのは:
NR : Non-‐redundant いろいろな配列データベースを統合し重複をのぞいてある 非常に多くの配列(約900万本)を含む
SwissProt: 人の目で丁寧に機能が割り当てられた配列のみ 機能が分かっているもの: 51万本
UNIPROT: SwissProteにTrEMBL(EMBLの自動予測遺伝子)を加えたもの、
データベースが小さい方が検索は早い
UniProtホームページでのBLAST
BLASTタブをクリック UniProt/SwissProtへの検索ならUniProtホームページでもできる
クェリー配列を貼り付け Blastボタンをクリック
このような画面になるまで待つ。(数秒~数十秒)
タンパク質名
トップヒット
二番目のヒット
生物種名
ターゲット 配列長
配列相同性 Sequence IdenMty
E-‐value
配列領域の重なり
アノテーションの 信頼できる配列
NCBI BLASTホームページ hRp://blast.ncbi.nlm.nih.gov/Blast.cgi
Google等で、「NCBI BLAST」で検索
タンパク質アミノ酸配列で検索
ここを押して検索実行
アミノ酸配列をペースト
検索対象のデータベースを選択 今日は NR か Swissprot
検索手法を選択 ここではblastp
ここを押して検索実行
より細かな検索条件を設定(次ページ)
タンパク質アミノ酸配列に対するBLAST検索ページ
細かい条件設定のページ(前ページのAlgorithm parametersをクリックした場合)
結果の配列数の上限 (デフォルトでは100個まで出力)
配列E-‐valueの上限 相同性の高いものだけが欲しいときは小さくする
スコアマトリクスの選択
ギャップペナルティの選択
検索の実行
ここを押して検索実行
タンパク質アミノ酸配列に対するBLAST検索ページ
UNIPROTから HBA_HUMAN の配列をとってきて 貼り付けた
BLAST検索結果
クェリー配列長
の領域における 予測機能
クェリー配列(~140) の全長にわたって 高い相同性の配列が 赤い横棒の数だけある ここでは上限の100本
下にスクロール(次ページ)
一行あたり一つのタンパク質
それぞれのE-‐value すべて10のマイナス 76~67乗オーダー = すべてホモログ
下にスクロール(次ページ)
クエリーとヒットのアラインメント
1本目
最後
配列相同性 89%
完全一致
アブラコウモリ
一つ目のヒットに 関する情報
E-‐value 6x10の-‐67乗