RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems...

4
Technical Note: Systems And Software はじめに RNAシーケンスは、バイアスの少ないトランスクリプトーム (選択的アイソフォームや選択的スプライスサイトなど)のプ ロファイリングを行うための、非常に強力な手法です。RNA シーケンスリードは転写産物に由来するため、スプライスジャ ンクションをまたぐリードも多数得られます。これらのスプラ イスジャンクションリードは、リードの2つの末端がゲノム上 で多数の塩基を挟むように位置します(イントロンの大きさの 分だけ離れている)。そのため、ゲノムデータベースに対して 適切にアライメントされません(図1)。 イルミナは、スプライスジャンクションをまたぐRNAシーケ ンスリードを効率よくアライメントする方法を提供します。 リードは既知のスプライスジャンクションの周辺の配列が含ま れるファイルに対してアライメントされます。ヒト、ラット、 マウス、その他の生物種について、このスプライスジャンク ションセットを用意しています。これらのデータはイルミナの iComからダウンロード可能です。 このテクニカルノートでは、イルミナのスプライスジャンク ションセットのコンテンツについて説明します。 スプライスジャンクションに対するリードのマッピング RNA シーケンスリードは、解析パイプラインCASAVA eland_rnaモジュールによりマッピングされます(図2)。 eland_rnaは以下の3つのターゲットに対してアライメントを 行います。 コンタミネーションおよび繰り返し配列(主にミトコンド リアおよびリボソームの配列): これらのターゲットにアラ イメントされたリードは削除 研究しようとする生物種のゲノムビルド: 遺伝子およびエク ソンのアライメントに関する情報を取得 同じゲノムビルドのスプライスジャンクションセット: スプ ライスジャンクションのアライメントに関する情報を産出 スプライスジャンクションセットは、一般的なmulti-FASTA式のファイルであり、既知のRefSeq転写産物に由来するスプ ライスジャンクションの非重複セットの上下流のエクソン配列 が含まれています。スプライスジャンクションセットは、シー ケンスリードの長さに適合していなければなりません。隣接配 列の長さがリード長-1に等しいことが理想的です。例えば、 リード長が50塩基の場合、個々のスプライスサイトの上下流 49 塩基のエクソンが含まれるスプライスジャンクション セットが最適です。49塩基未満のエクソンでは、エクソン全 体が用いられます(図3)。 RNAシーケンスにおける スプライスジャンクションリードのマッピング 転写産物に由来するRNAシーケンス解析では、スプライスジャンクションをまたぐリードも多 数得られます。イルミナは、スプライスジャンクションリードをゲノムデータベースに対して マッピングする方法を提供します。 1:アライメントが困難なスプライスジャンクションリード スプライスジャンクションに由来するRNAシーケンスリードは、ゲノム配列 に対して適切にアライメントすることが困難です。 ゲノム mRNA 転写産物 RNA シーケンス リード ゲノムに対する アライメント スプライス サイト 適切な アライメント 適切な アライメント イントロン イントロン スプライスジャンクション エクソン1 エクソン2 エクソン1 エクソン2 スプライス サイト アライメント されないリード 2:イルミナのRNAシーケンスワークフローにおける スプライスジャンクションのアライメント ベースコール リードのアライメント レポートの作成 データの視覚化 データの視覚化と解析 Genome Viewerでの視覚化 プロットの表示 データのフィルタリングと 並べ替え データ取得 イルミナ次世代シーケンサー 画像解析 RTA RTA CASAVA eland_rna データの集約と解析 エクソン、遺伝子、ジャンクションのカウント CASAVA run.RNA.pl プロジェクトの作成 GenomeStudio RNAシーケンスモジュール 多数のシーケンス、ゲノム、 スプライスジャンクションに対するアライメント スプライス ジャンクションの アライメントに 用いられる アプリケーション

Transcript of RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems...

Page 1: RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems And Software はじめに RNAシ ーケ ンスは、バイア の少ない トラ

Technical Note: Systems And Software

はじめにRNAシーケンスは、バイアスの少ないトランスクリプトーム (選択的アイソフォームや選択的スプライスサイトなど)のプロファイリングを行うための、非常に強力な手法です。RNAシーケンスリードは転写産物に由来するため、スプライスジャンクションをまたぐリードも多数得られます。これらのスプライスジャンクションリードは、リードの2つの末端がゲノム上で多数の塩基を挟むように位置します(イントロンの大きさの分だけ離れている)。そのため、ゲノムデータベースに対して適切にアライメントされません(図1)。

イルミナは、スプライスジャンクションをまたぐRNAシーケンスリードを効率よくアライメントする方法を提供します。 リードは既知のスプライスジャンクションの周辺の配列が含まれるファイルに対してアライメントされます。ヒト、ラット、マウス、その他の生物種について、このスプライスジャンク ションセットを用意しています。これらのデータはイルミナのiComからダウンロード可能です。

このテクニカルノートでは、イルミナのスプライスジャンク ションセットのコンテンツについて説明します。

スプライスジャンクションに対するリードのマッピングRNAシーケンスリードは、解析パイプラインCASAVAのeland_rnaモジュールによりマッピングされます(図2)。 eland_rnaは以下の3つのターゲットに対してアライメントを行います。

・ コンタミネーションおよび繰り返し配列(主にミトコンドリアおよびリボソームの配列):これらのターゲットにアライメントされたリードは削除

・ 研究しようとする生物種のゲノムビルド:遺伝子およびエクソンのアライメントに関する情報を取得

・ 同じゲノムビルドのスプライスジャンクションセット:スプライスジャンクションのアライメントに関する情報を産出

スプライスジャンクションセットは、一般的なmulti-FASTA形式のファイルであり、既知のRefSeq転写産物に由来するスプライスジャンクションの非重複セットの上下流のエクソン配列が含まれています。スプライスジャンクションセットは、シーケンスリードの長さに適合していなければなりません。隣接配列の長さがリード長-1に等しいことが理想的です。例えば、リード長が50塩基の場合、個々のスプライスサイトの上下流に49塩基のエクソンが含まれるスプライスジャンクション セットが最適です。49塩基未満のエクソンでは、エクソン全体が用いられます(図3)。

RNAシーケンスにおける スプライスジャンクションリードのマッピング転写産物に由来するRNAシーケンス解析では、スプライスジャンクションをまたぐリードも多数得られます。イルミナは、スプライスジャンクションリードをゲノムデータベースに対してマッピングする方法を提供します。

図1:アライメントが困難なスプライスジャンクションリード

スプライスジャンクションに由来するRNAシーケンスリードは、ゲノム配列に対して適切にアライメントすることが困難です。

ゲノム

mRNA転写産物

RNAシーケンスリード

ゲノムに対するアライメント

スプライスサイト

適切なアライメント

適切なアライメント

イントロン

イントロン

スプライスジャンクション

エクソン1 エクソン2

エクソン1 エクソン2

スプライスサイト

アライメントされないリード

図2:イルミナのRNAシーケンスワークフローにおける スプライスジャンクションのアライメント

ベースコール

リードのアライメント

レポートの作成

データの視覚化

データの視覚化と解析

Genome Viewerでの視覚化 プロットの表示

データのフィルタリングと並べ替え

データ取得イルミナ次世代シーケンサー

画像解析RTA

RTA

CASAVA:eland_rna

データの集約と解析エクソン、遺伝子、ジャンクションのカウント

CASAVA run.RNA.pl

プロジェクトの作成GenomeStudio

RNAシーケンスモジュール

多数のシーケンス、ゲノム、スプライスジャンクションに対するアライメント

スプライスジャンクションのアライメントに用いられるアプリケーション

Page 2: RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems And Software はじめに RNAシ ーケ ンスは、バイア の少ない トラ

Technical Note: Systems And Software

スプライスジャンクションセットの形式スプライスジャンクションシーケンスはFASTA形式で保存されます。エントリーの例を図5に示します。

エントリーは以下の形式を用いてアノテーションされます (下線は区切り)。ID_NumberOfBasesFrom5primeExon_

NumberOfBasesFrom3primeExon_Chromosome_

EndPosition5primeExon_StartPosition3primeExon

このアノテーションは以下の性質を持ちます。

・ 5’と3’はゲノム上の順鎖を表す(mRNAの順鎖ではない)

・染色体上の位置および配列はすべて順鎖に基づく

・各染色体の第1塩基はposition 1の塩基

・ ID中に英数字以外の文字が存在してはならない。存在する場合はダッシュ(―)で置換

・ 染色体の表示にchrまたはcが含まれていてはならない。数字または文字のみで表示

・ 染色体上の位置にはその塩基自体が含まれる。すなわち、 EndPosition5primeExonの塩基は5’エクソンに属する(StartPosition3primeExonも同様)

・ UCSC由来のエントリーについては、遺伝子記号またはRefSeq IDがIDとなる

・ これらの位置の基本となるゲノムビルドは、リードのアライメントに用いられるビルドと同一でなければならない

リードがスプライスジャンクションセットに対してマッピングされると、eland_rnaにより染色体、染色体上の位置、スプライスジャンクション、アライメントスコア、リードに固有の他の関連情報がexport.txtファイルに保存されます。このファイルには、ゲノムや多量に存在する配列(リボソーム配列など)に対してマッピングされるリードについても同様の情報が含まれ、CASAVAにより以降のRNAシーケンス実験のプロセスに用いられます。

スプライスジャンクションセットの作成スプライスジャンクションセットは、Perlスクリプトsplice_sites.plにより作成されます。

このスクリプトでは、ゲノムFASTAファイル(ゲノム配列情報を完全に構築された染色体として提供するファイル)とRefFlat.txtファイル(エクソンおよび遺伝子の情報を提供するファイル)を入力ファイルとして用います。これらの ファイルは弊社ウェブサイト iComまたはUCSC Genome Bioinformaticsのサイト(http://genome.ucsc.edu)から入手できます。

このスクリプトは、すべてのスプライスジャンクションエントリーの座標の計算、重複する(複数の遺伝子に存在する)すべてのジャンクションの削除、スプライスジャンクションセットシーケンスの作成を行い、シーケンスとヘッダーをスプライスジャンクションセット出力ファイルに保存します(図4)。

図4:スプライスジャンクションセットのフロー

図3B:短いエクソンのシーケンスエントリー

図3A:スプライスジャンクションセットのシーケンス エントリー

スプライスジャンクションセットのシーケンスエントリーと、そのゲノム配列との関連の例。図3Aは通常のエントリーを表します。図3Bはエクソン1がシーケンスリード長よりも短い場合のエントリーを表します。

NNNNN...NNCAGGTAAGTNN……NNTGCAGGNNNN...NNNNNN

GNNNN...NNNNN...NNCAG

エクソン1 エクソン2

イントロン

スプライスジャンクション

リード長

リード長‒1 リード長‒1エクソンの終止

エクソンの開始

リード長ゲノム配列

スプライスジャンクションセットのシーケンスエントリー

....AGGNNNCAGGTAAGTNN……NNTGCAGGNNNN...NNNNNN

GNNNN...NNNGNNNCAG

エクソン1 エクソン2イントロンイントロン

スプライスジャンクション

リード長‒1エクソンの開始

リード長 リード長

ゲノム配列

スプライスジャンクションセットのシーケンスエントリー

エクソンの開始

エクソンの終止

ファイル入力ゲノムFASTAファイル

RefFlat.txt

スプライスジャンクションセット

入力

隣接配列の長さおよびエクソンの長さに基づくジャンクションセットの座標の計算

重複ジャンクションの削除

出力ファイルの保存ヘッダーおよびスプライスジャンクションシーケンス

スプライスジャンクションシーケンスの作成ゲノムファイルおよび座標を用いる

Perlスクリプト(splice_sites.pl)の 実行

出力ファイル

ユーザー入力左隣接配列の長さ右隣接配列の長さ

Page 3: RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems And Software はじめに RNAシ ーケ ンスは、バイア の少ない トラ

Technical Note: Systems And Software

図5:スプライスジャンクションセットのエントリーの例

このスクリプトはCASAVAに収録されています。詳細な説明はCASAVA User Guideに記載されています。

>WDR78_28_19_1_67100573_67109640

TGTGATAAAATCATAATGGAAGATAAAGGCATAATGTCCACTG

CTGGGATTTGTANNNNN

このジャンクションは以下の性質を持ちます。

・ WDR78遺伝子に属する

・ 左エクソンから1番染色体の位置 67,100,573で終わる28塩基を取る

・ 右エクソンから位置 67,109,640で始まる19塩基を取る

Page 4: RNAシーケンスにおける スプライスジャンクション …...Technical Note: Systems And Software はじめに RNAシ ーケ ンスは、バイア の少ない トラ

代理店イルミナ株式会社

 

本製品の使用目的は研究に限定されます。

© 2013 Illumina, Inc. All rights reserved.

Illumina, illuminaDx, BaseSpace, BeadArray, BeadXpress, cBot, CSPro, DASL, DesignStudio, Eco, GAIIx, Genetic Energy, Genome Analyzer, GenomeStudio, GoldenGate, HiScan, HiSeq, Infinium, iSelect, MiSeq, Nextera, NuPCR, SeqMonitor, Solexa, TruSeq, TruSight, VeraCode, the pumpkin orange color, the Genetic Energy streaming bases design は Illumina, Incの商標または登録商標です。その他の会社名や商品名は、各社の商標または登録商標です。予告なしに仕様を変更する場合があります。

Pub. No. 970-2008-J030 20JUN11

〒108-0014東京都港区芝5-36-7 三田ベルジュビル22階

 Tel (03)4578-2800  Fax (03)4578-2810

 www.illuminakk.co.jp

Technical Note: Systems And Software