DDBJ Sequence Read Archive HandbookRNA-Seq Random sequencing of whole transcriptome. miRNA-Seq Micro...
Transcript of DDBJ Sequence Read Archive HandbookRNA-Seq Random sequencing of whole transcriptome. miRNA-Seq Micro...
DDBJ Sequence Read Archive HandbookDDBJ Sequence Read Archive Handbook
DDBJ Sequence Read Archive
メタデータ
メタデータオブジェクトオブジェクトの構成例SubmissionBioProjectBioSampleExperimentRunAnalysis
Run データファイル
登録するデータファイルの形式についてBAM ファイルfastq454Illumina Genome AnalyzerSOLiDIon TorrentHelicos HeliscopeComplete GenomicsPacific Biosciences
DRA へのデータ登録
DRA 登録の流れ
DRA へのデータ登録方法
登録アカウントデータ構成新規登録の作成シークエンスデータのアップロードウェブツールでのメタデータ作成XML でのメタデータ登録方法XML でのメタデータ編集方法データファイルの検証アクセッション番号の発行アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供データ公開
登録の更新
各データベースにおける更新方法公開予定日の変更メタデータの更新データファイルの追加オブジェクトの削除
補足: MD5 値
MD5 値の取得 (Linux)MD5 値の取得 (Mac OS X)MD5 値の取得 (Windows)
DDBJ Sequence Read ArchiveDDBJ Sequence Read Archive
DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®、Illumina Genome Analyzer®、Applied Biosystems SOLiD®
System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は International Nucleotide Sequence Database
Collaboration (INSDC) のメンバーであり、 NCBI Sequence Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力の
もと、運営されています。
公開された Analysis 以外のデータは3極で自動的にミラーリングされます。
従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。 クロマトグラムの登録を希望する場合
は DDBJ Trace Archive に登録します。
メタデータメタデータ
メタデータオブジェクトメタデータオブジェクト
1
DRA Handbook
メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは
Submission、BioProject、BioSample、Experiment、Run、Analysis の各オブジェクトで構成されます。 各オブジェクトは XML スキーマで定義
され、相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されます。 オブジェクトの構造とアクセッション番号は
DDBJ/EBI/NCBI で共通です。 Experiment、Run、Analysis は SRA のオブジェクトで、BioProject と BioSample は外部データベースのオブ
ジェクトになります。
メタデータの詳細は対応する XML スキーマをご覧ください。DRA XML schema
SubmissionSubmission
登録するオブジェクトをとりまとめるオブジェクト。
BioProjectBioProject
研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。
BioSampleBioSample
生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。
ExperimentExperiment
BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は1つの BioProject と1つの
BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができますが、逆に1つの Experiment が複数の
BioSample を参照することはできません。
RunRun
シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特定のサンプルにリンクされ
ます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルにマージされ、Run のアクセッション番号がファイル名になります。そのため、異な
るサンプルや replicate に由来するファイルは同じ Run に含めるべきではありません。 一方、ペアードのデータファイルは同じ Run に含め、リード
が正しくペアとして処理されるようにします。
AnalysisAnalysis
Run に格納されたデータを解析したデータで、しかるべき登録先がないようなデータを登録します。Analysis は DDBJ/EBI/NCBI で交換していま
せん。 交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch でインデックスされず、ftp でのファイル公開のみになります。
データモデル
登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。
最もシンプルなケース
三つの菌株の比較ゲノム解析 (ペアエンド)
(Technical, Biological) replicate がある場合 (ペアエンド)
関連するデータが別々の論文に発表される場合
オブジェクトの構成例オブジェクトの構成例
最もシンプルなケース最もシンプルなケース
2
DRA Handbook
最もシンプルなケース
ペアリードファイルは同じ Run に含めます。
三つの菌株の比較ゲノム解析 (ペアエンド)
関連する FAQ: 塩基配列登録にはいくつのサンプルが必要ですか?
(Technical, Biological) replicate がある場合 (ペアエンド)
三つの菌株の比較ゲノム解析 (ペアエンド)三つの菌株の比較ゲノム解析 (ペアエンド)
(Technical, Biological) replicate がある場合 (ペアエンド)(Technical, Biological) replicate がある場合 (ペアエンド)
3
DRA Handbook
関連するデータが別々の論文に発表される場合
必須*
条件によって必須*
登録者が所属する組織に関する情報を記載します。
Center Name*
登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。
メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。
Center Name は登録の所有権を示すものではなく、SRA が運用上使用している略称です。所有権は Submitter に記載される登録者にあります。
Lab Name *
登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group"、"Department (2)"、"Department (1)"、"Organization" がカンマで連結
されたテキストが初期表示されます。
公開方法を指定します。
Hold Until*
公開予定日を設定します。最長で4年後まで設定でき、延長することができます。
Immediate Release*
即日公開。登録作業が終わり次第、データが公開されます。
登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡は記入された全てのアドレス
に対して行われます。責任者以外の人が登録作業をした場合、その作業者を含めてください。登録者情報は公開されません。登録者情報を明示し
たい場合は BioProject に記載してください。
Name*
登録者の名前。
E-mail*
登録者の電子メールアドレス。
関連するデータが別々の論文に発表される場合関連するデータが別々の論文に発表される場合
メタデータ各項目の説明メタデータ各項目の説明
SubmissionSubmission
Center NameCenter Name
Hold UntilHold Until
SubmitterSubmitter
4
DRA Handbook
BioProject ID *
BioProject に登録済みのプロジェクトから該当するものを1つ選択するか、新規に BioProject を登録します。BioProject の登録方法は BioProject
Handbook を参照してください。
BioSample ID *
BioSample に登録済みのサンプルから該当するものを選択するか、新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参
照してください。
Alias
自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
BioSample Used*
Experiment が参照している BioSample を選択します。
Title*
検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" という
タイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は、Experiment の
内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。
Library Name
ライブラリーの名前。
Library Source *
ライブラリー構築に用いた試料。
Library SourceLibrary Source DescriptionDescription
GENOMIC Genomic DNA (includes PCR products from genomic DNA).
TRANSCRIPTOMIC Transcription products or non genomic DNA (EST, cDNA, RT-PCR, screened libraries).
METAGENOMIC Mixed material from metagenome.
METATRANSCRIPTOMIC Transcription products from community targets.
SYNTHETIC Synthetic DNA.
VIRAL RNA Viral RNA.
OTHER Other, unspecified, or unknown library source material.
Library Selection *
シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。
Library SelectionLibrary Selection DescriptionDescription
RANDOM Random shearing only.
PCR Source material was selected by designed primers.
RANDOM PCR Source material was selected by randomly generated primers.
RT-PCR Source material was selected by reverse transcription PCR.
HMPR Hypo-methylated partial restriction digest.
MF Methyl Filtrated.
repeat fractionation Selection for less repetitive (and more gene rich) sequence through Cot filtration (CF) or other
fractionation techniques based on DNA kinetics.
size fractionation Physical selection of size appropriate targets.
MSLL Methylation Spanning Linking Library.
cDNA complementary DNA.
cDNA_randomPriming
cDNA_oligo_dT
PolyA PolyA selection or enrichment for messenger RNA (mRNA); should replace cDNA enumeration.
BioProjectBioProject
BioSampleBioSample
ExperimentExperiment
5
DRA Handbook
Oligo-dT enrichment of messenger RNA (mRNA) by hybridization to Oligo-dT.
Inverse rRNA depletion of ribosomal RNA by oligo hybridization.
ChIP Chromatin immunoprecipitation.
MNase Micrococcal Nuclease (MNase) digestion.
DNAse Deoxyribonuclease (DNase) digestion.
Hybrid Selection Selection by hybridization in array or solution.
Reduced Representation Reproducible genomic subsets, often generated by restriction fragment size selection, containing a
manageable number of loci to facilitate re-sampling.
Restriction Digest DNA fractionation using restriction enzymes.
5-methylcytidine antibody Selection of methylated DNA fragments using an antibody raised against 5-methylcytosine or 5-
methylcytidine (m5C)MBD2 protein methyl-CpG binding domain : Enrichment by methyl-CpG binding
domain.
MBD2 protein methyl-CpG binding domain MBD2 protein methyl-CpG binding domain.
CAGE Cap-analysis gene expression.
RACE Rapid Amplification of cDNA Ends.
MDA multiple displacement amplification.
padlock probes capture method Padlock Probes capture strategy to be used in conjuction with Bisulfite-Seq.
other Other library enrichment, screening, or selection process.
unspecified Library enrichment, screening, or selection is not specified.
Library SelectionLibrary Selection DescriptionDescription
Library Strategy *
ライブラリーの構築手法。
Library StrategyLibrary Strategy DescriptionDescription
WGS Whole genome shotgun.
WGA Whole genome amplification.
WXS Random sequencing of exonic regions selected from the genome.
RNA-Seq Random sequencing of whole transcriptome.
miRNA-Seq Micro RNA and other small non-coding RNA sequencing.
ncRNA-Seq Capture of other non-coding RNA types, including post-translation modification types such as snRNA
(small nuclear RNA) or snoRNA (small nucleolar RNA), or expression regulation types such as siRNA
(small interfering RNA) or piRNA/piwi/RNA (piwi-interacting RNA).
ssRNA-seq strand-specific RNA sequencing
WCS Whole chromosome (or other replicon) shotgun.
CLONE Genomic clone based (hierarchical) sequencing.
POOLCLONE Shotgun of pooled clones (usually BACs and Fosmids).
AMPLICON Sequencing of overlapping or distinct PCR or RT-PCR products.
CLONEEND Clone end (5', 3', or both) sequencing.
FINISHING Sequencing intended to finish (close) gaps in existing coverage.
RAD-Seq Restriction Site Associated DNA Sequence
ChIP-Seq Direct sequencing of chromatin immunoprecipitates.
MNase-Seq Direct sequencing following MNase digestion.
DNase-Hypersensitivity Sequencing of hypersensitive sites, or segments of open chromatin that are more readily cleaved by
DNaseI.
Bisulfite-Seq Sequencing following treatment of DNA with bisulfite to convert cytosine residues to uracil depending
on methylation status.
EST Single pass sequencing of cDNA templates.
FL-cDNA Full-length sequencing of cDNA templates.
CTS Concatenated Tag Sequencing.
MRE-Seq Methylation-Sensitive Restriction Enzyme Sequencing strategy.
MeDIP-Seq Methylated DNA Immunoprecipitation Sequencing strategy.
MBD-Seq Direct sequencing of methylated fractions sequencing strategy.
6
DRA Handbook
Tn-Seq Gene fitness determination through transposon seeding.
FAIRE-seq Formaldehyde Assisted Isolation of Regulatory Elements
SELEX Systematic Evolution of Ligands by EXponential enrichment
RIP-Seq Direct sequencing of RNA immunoprecipitates (includes CLIP-Seq, HITS-CLIP and PAR-CLIP).
ChIA-PET Direct sequencing of proximity-ligated chromatin immunoprecipitates.
Hi-C Chromosome Conformation Capture technique where a biotin-labeled nucleotide is incorporated at
the ligation junction, enabling selective purification of chimeric DNA ligation junctions followed by
deep sequencing
ATAC-seq Assay for Transposase-Accessible Chromatin (ATAC) strategy is used to study genome-wide chromatin
accessibility. alternative method to DNase-seq that uses an engineered Tn5 transposase to cleave DNA
and to integrate primer DNA sequences into the cleaved genomic DNA
Targeted-Capture
Tethered Chromatin Conformation Capture
Synthetic-Long-Read binning and barcoding of large DNA fragments to facilitate assembly of the fragment
Other Library strategy not listed.
Library StrategyLibrary Strategy DescriptionDescription
Library Construction Protocol
DNA の断片化 (DNA fragmentation)、アダプター配列などのライゲーション (DNA ligation) や濃縮 (DNA enrichment) 方法をフリーテキストで記載しま
す。キットを使用した場合はキットの名前とバージョン (あれば) を含めます (例 Illumina Nextera DNA Library Preparation Kit)。
参考: Alnasir J, Shanahan HP. Investigation into the annotation of protocol sequencing steps in the sequence read archive. Gigascience.
2015 May 9;4:23. doi: 10.1186/s13742-015-0064-7. eCollection 2015. PMID: 25960871 (Open Access)
Instrument*
シークエンサの機種を選択します。
Instrument ModelInstrument Model
454 GS
454 GS 20
454 GS FLX
454 GS FLX+
454 GS FLX Titanium
454 GS Junior
Illumina Genome Analyzer
Illumina Genome Analyzer II
Illumina Genome Analyzer IIx
Illumina HiSeq 1000
Illumina HiSeq 1500
Illumina HiSeq 2000
Illumina HiSeq 2500
Illumina HiSeq 3000
Illumina HiSeq 4000
Illumina NovaSeq 6000
Illumina MiSeq
Illumina MiniSeq
Illumina iSeq 100
Illumina HiScanSQ
HiSeq X Five
HiSeq X Ten
NextSeq 500
NextSeq 550
Helicos HeliScope
AB SOLiD System
7
DRA Handbook
AB SOLiD System 2.0
AB SOLiD System 3.0
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4hq System
AB SOLiD PI System
AB 5500 Genetic Analyzer
AB 5500xl Genetic Analyzer
AB 5500xl-W Genetic Analysis System
Complete Genomics
MinION
GridION
PromethION
PacBio RS
PacBio RS II
Sequel
Ion Torrent PGM
Ion Torrent Proton
Ion Torrent S5
Ion Torrent S5 XL
AB 310 Genetic Analyzer
AB 3130 Genetic Analyzer
AB 3130xL Genetic Analyzer
AB 3500 Genetic Analyzer
AB 3500xL Genetic Analyzer
AB 3730 Genetic Analyzer
AB 3730xL Genetic Analyzer
Instrument ModelInstrument Model
Spot Type *
データファイル中のリード構成を選択します。
Spot TypeSpot Type DescriptionDescription
single Single read
paired (FF) Paired reads with same direction.
paired (FR) Paired reads with opposite direction.
Nominal Length *
ペアエンドライブラリを構築した際のインサートサイズ。
Nominal Sdev
インサートサイズの標準偏差
Spot Length *
データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。
Spot length が一定の場合、一定の値を記入
リード長が一定ではない 454 プラットフォームの場合、フロー数を記入
不定長の fastq の場合、平均長を記入
Alias
自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
RunRun
8
DRA Handbook
Title*
Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired
end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自
のタイトルを入力する場合は、Run の内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。
Experiment Referenced *
Run が属する Experiment を選択します。
Run に含めるデータファイルを選択します。
Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択され
ると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。
File Name *
シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。
Run/Analysis contains files *
データファイルが属する Run を選択します。
File Type *
シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "generic_fastq"、一定の場合は "fastq" を選択します。
File TypeFile Type DescriptionDescription
generic_fastq fastq files with variable read length
fastq fastq files with constant read length
sff 454 Standard Flowgram Format file
hdf5 PacBio hdf5 Format file
bam Binary SAM format for use by loaders that combine alignment and sequencing data
tab A tab-delimited table maps "SN in SQ line of BAM header" and "reference fasta file"
reference_fasta Reference sequence file in single fasta format used to construct SRA archive file format. Filename must end with ".fa"
MD5 Checksum *
データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法
Alias
自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title*
Analysis オブジェクトのタイトル。
Description*
Analysis の内容を記述します。
Analysis Type *
Analysis の種類を選択します。アライメントデータは Run に登録します。
Analysis TypeAnalysis Type DescriptionDescription
De Novo Assembly A placement of sequences including trace, SRA, GI records into a multiple alignment from which a consensus is
computed..
Sequence Annotation Per sequence annotation of named attributes and values.
Example: Processed sequencing data for submission to dbEST without assembly.
Reads have already been submitted to one of the sequence read archives in raw form.
The fasta data submitted under this analysis object result from the following treatments, which may serve to filter reads
from the raw dataset:
- sequencing adapter removal
- low quality trimming
- poly-A tail removal
- strand orientation
Data files for RunData files for Run
AnalysisAnalysis
9
DRA Handbook
- contaminant removal.
Abundance Measurement Identify the tools and processing steps used to produce the abundance measurements (coverage tracks).
Analysis TypeAnalysis Type DescriptionDescription
Analysis に含めるデータファイルを選択します。
Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択され
ると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。
File Name *
解析データのファイル名。
Run/Analysis contains files *
データファイルが属する Analysis を選択します。
File Type *
解析データのファイル形式。
File TypeFile Type DescriptionDescription
bam Binary form of the Sequence alignment/map format for read placements, from the SAM tools project.
See http://sourceforge.net/projects/samtools/.
tab A tab delimited text file that can be viewed as a spreadsheet. The first line should contain column headers..
ace Multiple alignment file output from the phred assembler and similar programs.
See http://www.phrap.org/consed/distributions/README.16.0.txt for a description of the ACE file format..
fasta Sequence data format indicating sequence base calls.The format is simple: a header line initiated with the > character, data lines
following with base calls..
wig The wiggle (WIG) format allows display of continuous-valued data in track format.This display type is useful for GC percent, probability
scores, and transcriptome data.
See http://genome.ucsc.edu/goldenPath/help/wiggle.html for a description of the Wiggle Track format..
bed BED format provides a flexible way to define the data lines that are displayed in an annotation track.
See http://genome.ucsc.edu/FAQ/FAQformat#format1 for a description of the BED format..
vcf Variant Call Format.
See http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41 for a description of the
VCF format.
maf Mutation Annotation Format
gff General Feature Format
csv
tsv
MD5 Checksum *
Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足
アライメントデータやシークエンスデータを登録します。
fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。
ファイル名は英数字 [A-Z,a-z,0-9]、アンダースコア [_]、ハイフン [-] とドット [.] のみから構成され、空白文字、カッコ、句読点やシンボルを含
まないこと。
バーコード配列で由来サンプルが区別されたデータファイルは登録前に分割し、由来サンプルごとに BioSample を作成します。各
BioSample には1つかそれ以上のユニークなデータファイルがリンクされている状態にします。
fastq ファイルの場合、ペアリードは別々のファイルとして登録します。bam や sff ファイルの場合、分割する必要はありません。
データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかにディレクトリを作成しないで
ください。
BAM、SFF や HDF5 などのバイナリーファイルは圧縮しないでください。
Data files for AnalysisData files for Analysis
Run データファイルRun データファイル
10
DRA Handbook
DRA のメタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical
read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを
XML ファイルで登録する必要があります (XML の記載例)。
一般的な形式
FormatFormat PlatformPlatform RecommendedRecommended
BAM all platforms Yes
fastq all platforms Yes
プラットフォーム特異的な形式
FormatFormat PlatformPlatform RecommendedRecommended
SFF 454 and Ion
Torrent
Yes
PacBio HDF PacBio Yes
SOLiD csfasta/qual SOLiD No (please convert to
fastq/bam)
Illumina qseq and
scarf
Illumina No (please convert to
fastq/bam)
Binary Alignment/Map (BAM) ファイルは DRA への登録にとって好ましいファイル形式の一つです。BAM は Sequence Alignment/Map
(SAM) ファイル形式のバイナリー圧縮です (詳細は SAMv1.pdf)。BAM ファイルは SAM/BAM 用ツール (例えば samtools) で human-
readable なテキスト形式である SAM に変換することができます。BAM はアライメントされなかった unaligned read を含めることができます。
DRA はプライマリーデータとして Run に unaligned read を含む BAM を登録することを推奨しています。
SAM はリードの既知リファレンス配列へのアライメントに関する情報と生リードデータを含んだタブ区切りテキストファイルです。 SAM ファイルは
二つの主要なセクション、ヘッダーとアライメント(シークエンスリード)セクション、から構成されます。 ここでは「BAM ファイルの DRA への登録」と
いう観点で SAM フォーマットについて説明していることに留意してください(DRA は SAM ファイルでの登録を受付けていません)。 より詳細なファ
イルフォーマット仕様は samtools ウェブサイトを参照してください。
SAM ヘッダーの例:SAM ヘッダーの例:
@HD VN:1.4 SO:coordinate
@SQ SN:CHROMOSOME_I LN:15072423
UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/
WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrI.fa.gz AS:ce10
SP:Caenorhabditis elegans
@SQ SN:CHROMOSOME_II LN:15279345
UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/
WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrII.fa.gz AS:ce10
SP:Caenorhabditis elegans
@RG ID:1 PL:ILLUMINA LB:C_ele_05 DS:WGS of C elegans PG:BamIndexDecoder
@PG ID:bwa PN:bwa VN:0.5.10-tpx
SAM アライメントの例:SAM アライメントの例:
3658435 145 CHROMOSOME_I 1 0 100M CHROMOSOME_II 2716898 0
GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT
AAGCCT
@CCC?:CCCCC@CCCEC>AFDFDBEGHEAHCIGIHHGIGEGJGGIIIHFHIHGF@HGGIGJJJJJIJJJJJJJJJJJJJJJJJJJJJHHHHHFF
FFFCCC RG:Z:1 NH:i:1 NM:i:0
5482659 65 CHROMOSOME_I 1 0 100M CHROMOSOME_II 11954696 0
GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT
AAGCCT
CCCFFFFFHHGHGJJGIJHIJIJJJJJIJJJJJIJJGIJJJJJIIJIIJFJJJJJFIJJJJIIIIGIIJHHHHDEEFFFEEEEEDDDDCDCCCA
AA?CC: RG:Z:1 NH:i:1 NM:i:0
登録するデータファイルの形式について登録するデータファイルの形式について
BAM ファイルBAM ファイル
BAM ファイル処理BAM ファイル処理
11
DRA Handbook
ヘッダーとアライメントセクションは整合的である必要があります: 各アライメントリードの RNAME (リファレンス配列の名前、3フィールド目) はヘッ
ダー中の SN タグ値 (例 CHROMOSOME_I) と一致している必要があります。加えて、アライメントリードの任意フィールドである read group
(RG:Z:) はヘッダー中の read group ID と一致している必要があります (例 1)。 また、2フィールド目の FLAG フィールドはデータに対して正しい
値がセットされていることが重要です。 DRA ファイル処理パイプラインは不正な FLAG 値を補正しますが、不正な値が多すぎる場合はエラーになり
ます。DRA はアライメントセクション中の任意かつ非標準のタグ/フィールド値は保持しません。 しかし、ヘッダーセクション全体は保持されます。
SAM フォーマットはリードのリファレンスへの全体マッチを表すイコールサイン (=) の sequence フィールドでの使用、もしくは、アスタリスク (*) の
sequence と quality 両フィールドでの使用を許容していますが、DRA 処理パイプラインはこれらの値を認識しません。
予期せぬ表記方法で記されたペアリードは適切に認識されず不適切な SRA ファイル形成をもたらします(ペアリードがシングルフラグメントとして
扱われてしまいます)。例えば、リード名の後ろに :0 と :1 と付されたリードはペアのリード1と2として認識されません。これらの表記方法が使用さ
れている場合、:0 と :1 を削除して同じリード名を使ったほうがよいです。特定のシークエンサから出力される標準的な表記方法は正しく認識され
ます。 例えば、Illumina のリード名に付された /1 と /2 は標準的な表記方法です。 ペアリードに対して SAM/BAM flag に適切なビット値 (multi-
segment template 1-bit、first segment 64-bit と last segment 128-bit) が設定されていない場合、もしくは、ペアリードが別々の bam ファイ
ルに分かれている場合は適正な SRA ファイルが生成されません。
Run にアライメントデータを登録する場合は、「BAM」、「INSDC, refseq アクセッション番号 OR リファレンス配列マルチ fasta、それから bam SN
リファレンス名、との対応表」が必要です。1 Run に 1 bam ファイルを登録します。
Run ではなく Analysis に登録する場合対応表は不要ですが、アライメントされなかったリードを含めた bam を Run に登録することを強く推奨し
ます。
PacBio や IonTorrent などでリファレンス配列がない bam ファイル (unmapped bam でありヘッダーに SQ 行がない) が出力データの場
合、対応表やリファレンス fasta を指定する必要はありません
将来、新しいツールで再解析や再アライメントする際に重要であるため、bam ファイルのみを登録するときはアライメントされなかったリード
(unaligned reads) を含めてください。
bam とリファレンス配列の対応付け
1.
アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtools と picard で読み込める形式になっている必要
があります。圧縮していない BAM ファイルをアップロードしてください。
Run の File Type には "bam" を選択します。
2.
リファレンス配列がリストにある場合、アクセッション番号.バージョン番号 (例 NC_000001.11) でリファレンスを参照することができます。 配
列のバージョン番号は必須です。リファレンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。
3.
リファレンス配列がリストにない場合、リファレンス配列をマルチ fasta ファイルで提供します。真核生物のオルガネラ配列等短い配列は番号指
定に対応していないケースがあります。 Run の File Type には "reference_fasta" を選択します。bam ヘッダーで定義されたリファレンスとマ
BAMBAM
リファレンスを INSDC/RefSeq アクセッション番号で指定リファレンスを INSDC/RefSeq アクセッション番号で指定
リファレンスをマルチ fasta で提供リファレンスをマルチ fasta で提供
12
DRA Handbook
ルチ fasta 中の配列は対応表を介して defline 中の配列名でリンクされます。 bam SQ 行 LN タグのリファレンス配列長とマルチ fasta 中の
配列長が異なっている場合ワーニングになります。
4.
一部のリファレンス配列がリストにある場合、アクセッション.バージョン番号 (例 NC_000001.11) で一部のリファレンスを指定し、 残りのリ
ファレンス配列はマルチ fasta ファイルで提供します。混在しているケースでは、対応表にアクセッション.バージョン番号とマルチ fasta 中の
defline 中の配列名を記載します。
5.
ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN 値」と「アクセッション番号 OR リファレンスマルチ fasta ファ
イル中の配列名」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択します。
BAM ファイルヘッダー
@HD VN:1.0 GO:none SO:coordinate
@SQ SN:chr1 LN:249698942
@SQ SN:chr2 LN:242508799
@SQ SN:chr3 LN:198450956
...
SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル中の配列 ref1 が対応。
chr1 ref1
chr2 ref2
chr3 ref3
...
リファレンスマルチ fasta。
>ref1
CGGTGGGGGTGGTGTTAGTACCCCATCTTGTAGGTCTGAAACACAAAGTGTGGGGTGTCT
...
>ref2
TCCACCAACGTTAGAAGGCCTTGGCCCCCAGAGAGCCAATTTCACAATCCAGAAGTCCCC
...
>ref3
GTGTGTGACCAGGGAGGTCCCCGGCCCAGCTCCCATCCCAGAACCCAGCTCACCTACCTT
...
SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。
chr1 NC_000001.11
chr2 NC_000002.12
chr3 NC_000003.12
...
Run の filetype はリード長が一定・不定によって異なります。Run の filetype はリード長が一定・不定によって異なります。
リード長が揃っている fastq ファイルの場合、Run の file type で fastq を選択します。ペアードデータの場合、対になっているファイル中でペア
となっているリードが同じ順番で記載されている必要があります。
リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択します。
fastq の形式。詳しくはNCBI のサイトをご覧ください。
Quality value は phred 形式にしてください。オフセットはデフォルトで 33 (!) になります。64 (@) の場合は Run XML を編集して
ascii_offset="@" にしてください。
DRA のメタデータ作成インターフェースは Technical read (アダプター、リンカー、バーコード配列) 記載に対応していないため、Technical
read を含める場合は 登録するデータファイルの形式について を参考に technical read が記載された Experiment XML を登録してくださ
い (XML の記載例)。Technical reads が除去されている場合、XML 登録は必要ありません。
ペアードリードは別々の fastq ファイルとして登録してください。リード名にペアリードを同定するためのサフィックス (例 '/1' と '/2') が含まれて
いる必要があります。
各リードの最初の行は '@' で始まっている必要があります。
ベースコールと Quality value は '+' で始まる行で区切られている必要があります。
fastq ファイルは gzip もしくは bzip2 で圧縮してください。
INSDC/RefSeq アクセッション番号とマルチ fasta が混在するケースINSDC/RefSeq アクセッション番号とマルチ fasta が混在するケース
SN-リファレンス配列の対応表SN-リファレンス配列の対応表
fastqfastq
13
DRA Handbook
454 からのシークエンスデータは sff ファイル か fastq/bam ファイルで登録します。
sff ファイル中のリード名は、プレート内の位置情報とユニークな run id を反映した情報を含んでいるので、sff ファイルを書き変えないでください。
sffファイル形式はすでに最適化されており、ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを送付してください。
sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は、sff から生成した fastq ファイルをサンプルごとに分割して登録してくだ
さい。
Illumina pipeline v1.4 以降
qseq ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。
SOLiD native ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。
sff ファイルもしくは fastq/bam ファイルを登録します。
quality value をすべて "14" として作成した fastq/bma ファイルを登録します。
fastq ファイルを登録します。
Pacific Biosciences は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA は bas.h5 と bax.h5 両方
のファイル形式での登録を受け付けています。RS II から出力されるデータは、1つの Run に *.bas.h5 1ファイルと *.bax.h5 3ファイルを登録しま
す。ファイル名を変更しないでください。
Run に HDF5 以外のデータを含めないでください。
以下の unaligned bam ファイルの登録をサポートしています。1 Run に 1 bam ファイルを指定してください。unaligned bam の場合、リファレン
ス配列や対応表の指定は必要ありません。
subread BAM files (*.subreads.bam)
CCS read BAM files (*.ccs.bam)
リード長は可変なので generic_fastq を Run の filetype で指定してください。
fastq/bam ファイルを登録します。
fastq/bam ファイルを登録します。
454454
Illumina Genome AnalyzerIllumina Genome Analyzer
Illumina Native DataIllumina Native Data
SOLiDSOLiD
SOLiD Native FormatSOLiD Native Format
Ion TorrentIon Torrent
Helicos HeliscopeHelicos Heliscope
Complete GenomicsComplete Genomics
Pacific BiosciencesPacific Biosciences
HDF5HDF5
bambam
fastqfastq
Oxford NanoporeOxford Nanopore
キャピラリシークエンサキャピラリシークエンサ
Analysis データファイルAnalysis データファイル
PacBio Base Modification FilesPacBio Base Modification Files
14
DRA Handbook
PacBio シークエンサーは塩基配列に加え、塩基のメチル化状態を解析することができ、そのデータを共有することは研究者コミュニティにとって重
要です。 例えば、修飾された塩基の正確な位置情報は DNA メチルトランスフェラーゼの特異性の解析に用いることができます。 PacBio の解析ソ
フトウェア (RS_Modification_and_Motif_Analysis) はこれらの修飾塩基配列情報を抽出し、以下のいくつかのファイルに出力します:
motif_summary.csv
modifications.csv
modifications.gff
motifs.gff
この解析結果ファイル、原核生物については少なくとも motif_summary.csv ファイルを DRA Analysis として登録することは研究者コミュニティに
とって貴重なデータになります。 Run に加え、これらのファイルを Sequence Annotation type Analysis として是非ご登録ください。 サポートが
必要な場合は DRA チームにご連絡ください 。
NCBI guidelines of PacBio Base Modification Files
DRA へのデータ登録DRA へのデータ登録
研究責任者 (principal investigator) の許可なくデータを登録しないでください。
ヒトを対象とした研究データの登録についてヒトを対象とした研究データの登録について
研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法
令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対
象者を直接特定し得る情報はメタデータから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。
特許に関連するデータの登録特許に関連するデータの登録
登録するデータが特許に関連する場合は、「特許に関連する塩基配列の登録に関する注意、データの優先権」 の内容を必ずご確認ください。
次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。
アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が、次世代シークエンサから生み出されるゲノムや
大量データの登録受付先になります。
DRA 登録の流れDRA 登録の流れ
D-way 登録アカウントを作成
公開鍵と center name をアカウントに登録し、DRA 登録を可能に
1. 登録アカウントを作成1. 登録アカウントを作成
新規 DRA 登録を作成 (アカウントに DRA 登録権限を付与しておきます)
データは DRA 登録 (Submission) 単位で公開されます。
BioProject、BioSample、Experiment と Run を投稿する前にデータファイルを scp でアップロード
2. DRA 登録を作成しデータファイルをアップロード2. DRA 登録を作成しデータファイルをアップロード
研究プロジェクトの内容
「なぜ」そのサンプルをシークエンスしたのか
3. プロジェクトとサンプル情報を登録3. プロジェクトとサンプル情報を登録
BioProject (Study)BioProject (Study)
BioSample (Sample)BioSample (Sample)
15
DRA Handbook
アカウント取得から BioProject/BioSample/DRA の登録まで全てをカバーした TogoTV (22分12秒、作成:2019年)
BioProject/BioSample/DRA の登録方法 (6分50秒、作成:2015年)
日本 DNA データバンク (DDBJ) センター は BioProject 、BioSample と DRA への登録をユーザアカウントで管理しています。
登録アカウントマニュアルに従い、登録アカウントを取得し、DRA 登録権限をアカウントに追加します。
オブジェクトの構成例はこちらをご覧ください。 Submission 中では1つの BioProject のみ登録できます。 BioSample、Experiment、Run は複数
登録することができます。サンプル数を中心に考えるとデータを構成しやすくなります。
ここでは3つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明します。
三つの菌株のゲノム配列を登録
D-way (https://ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧ページへ進みます。
生物学的、物理的にユニークなサンプル
「何を」シークエンスしたのか
メタデータをタブ区切りテキストファイルで登録できます
特定のサンプルから構築したライブラリーについての説明
「どのように」シークエンスをしたのか
複数の Experiment は一つの Sample を参照できるが、逆はできない
Experiment と Run を投稿した後、データファイルの検証処理を開始
Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます
4. Experiment と Run を登録4. Experiment と Run を登録
DRA ExperimentDRA Experiment
DRA RunDRA Run
シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始
検証処理を通った登録が査定されアクセッション番号が発行される
5. シークエンスデータファイルの検証処理5. シークエンスデータファイルの検証処理
DRA へのデータ登録方法DRA へのデータ登録方法
登録アカウント登録アカウント
データ構成データ構成
新規登録の作成新規登録の作成
16
DRA Handbook
[New submission] をクリックし、新規登録を作成します。
同時に、データ受付サーバ (ftp-private.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファイルはこのディレクトリに
アップロードします。
DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルいたします。
オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。
新規 DRA 登録の作成
登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されます。
DRA 登録のステータス一覧
ステータスステータス 状態状態
New メタデータの投稿前
metadata_submitted メタデータが投稿された
data_validating データファイルの検証処理中
data_error データファイルの検証処理エラー
submission_validated メタデータとデータファイルの検証処理が完了
completed アクセッション番号が発行された
confidential 公開用ファイルの作成処理が完了し、非公開に保たれている状態
Public 公開されている状態
メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は適当なファイルをアップ
ロードしてください。
ファイルを SCP 転送します。
$ scp <Your Files> <D-way Login ID>@ftp-private.ddbj.nig.ac.jp:~/<DRA Submission ID>
<Your Files> 転送するファイル。例: file1 file2 (file1とfile2)、file* (fileではじまる全てのファイル)
<D-way Login ID> D-way の Login ID (例 test07)
<DRA Submission ID> DRA 登録の Submission ID (例: test07-0018)
コマンドの例: scp strainA_1.fastq [email protected]:~/test07-0018
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
サーバにログインし、直接ファイルを操作することができます。サーバに SSH でログインします。
$ ssh <D-way Login ID>@ftp-private.ddbj.nig.ac.jp
シークエンスデータのアップロードシークエンスデータのアップロード
ターミナルによるシークエンスデータの転送 (Linux/Mac OS ターミナルによるシークエンスデータの転送 (Linux/Mac OS X)X)
17
DRA Handbook
鍵を作成したときに指定したパスフレーズを入力します。
Enter passphrase for key '/home/you/.ssh/id_rsa':
ログインに成功すると、次のコマンドプロンプトが表示されます。
[test07@dradata ~]$
サーバのログイン環境は、登録者専用のプライベート環境になっていて、登録者以外はアクセスすることができません。実行できるコマンドは下記の
ものに制限されています。不要なファイルの削除は登録者が実施することができます。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
WinSCP (http://winscp.net/eng/download.php) をインストールし、起動します。
以下のように設定した後、 右中央にある [Advanced...] をクリックします。
転送モードはバイナリモードにします。テキストモードで転送しないでください。
File protocol:File protocol: SFTP
Host name:Host name: ftp-private.ddbj.nig.ac.jp
Port number:Port number: 22
User name:User name: (D-way の Login ID を入力)
Password:Password: (空欄のまま)
"Authentication" にある "Private key file" で、事前に作成した PuTTY 形式の秘密鍵を選択します。
最後に、下中央にある [Login] をクリックします。
WinSCP によるシークエンスデータの転送 (Windows)WinSCP によるシークエンスデータの転送 (Windows)
18
DRA Handbook
初回接続時には警告メッセージが表示されますが、“はい” を選択してください (次回から表示されません)。次の画面では、鍵を作成した際に指定
したパスフレーズを入力します。
ログインに成功すると、左側のウィンドウにユーザの PC のフォルダ、右側のウィンドウにデータ受付サーバの登録者専用ディレクトリが表示されま
す。 左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ&ドロップし、サーバへファイルを転送します。
転送したファイルは、ファイルを選択し [削除] ボタンをクリックすることで削除できます。
Cyberduck (https://cyberduck.io/) をインストールし、起動します。
トップ画面で “Open Connection” を選択します。
使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。
Cyberduck によるシークエンスデータの転送 (Mac OS Cyberduck によるシークエンスデータの転送 (Mac OS X)X)
19
DRA Handbook
Cyberduck の起動画面で、以下のように設定し More Options の “Use Public Key Authentication” をチェックします。
Server:Server: ftp-private.ddbj.nig.ac.jp
Port:Port: 22
Username:Username: (D-wayのLogin IDを入力)
Password:Password: (空欄のまま)
Add to Keychain:Add to Keychain: (チェックを入れる)
秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されていま
す。
初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。
ログインに成功すると、データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選択しウィンドウにドラッグ&ド
ロップすることで、ファイルをサーバに転送します。
ftp-private.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記のものに制限されていま
す。不要なファイルの削除は登録者が実施することができます。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip
DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を超えるような場合は DRA
サーバを利用することができます。 MSS チームに連絡した後、ファイルを /submission/[submitter ID]/mass にアップロードします。
ウェブツールでのメタデータ作成ウェブツールでのメタデータ作成
20
DRA Handbook
作成した新規登録をクリックし、登録詳細ページへ移動します。
登録詳細ページへ移動
登録詳細ページ中の [Enter / Update metadata] をクリックし、メタデータ作成ツールを起動します。
メタデータ作成ツールを起動
新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合、下記のようなメッセージが表示されま
す。データファイルをアップロードします 。
先にメタデータを作成しておきたい場合は、適当なファイルをアップロードしておきます。
データファイルがアップロードされていない場合
メタデータは Submission、BioProject、BioSample、Experiment、Run、Analysis (任意) オブジェクトで構成されています。 メタデータ作成ツー
ルの画面上で、各項目に内容を英語で入力していきます。
入力画面で必須項目は赤色のアスタリスク記号 (*) で示されています。
画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが表示された場合は内容を修
正してください。
公開予定日を4年以内に設定します。 登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は一般に公開されません。
オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。
Submission に登録情報を入力
[register a project] をクリックして新規にプロジェクトを登録するか、もしくは、自身のアカウントで登録したプロジェクト一覧から、該当するものを1
つ選びます。 従来通りプロジェクトを BioProject から個別に登録することもできます。
複数のプロジェクトを登録することはできません。 自身のアカウント以外で取得されたプロジェクトを参照したい場合は DRA チームに連絡してくだ
さい。
SubmissionSubmission
StudyStudy
21
DRA Handbook
BioProject の新規登録、もしくは選択
BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になります。登録者などの情報は
DRA Submission で入力した内容が引き写されます。
各項目の説明は BioProject Handbook を参照してください。
BioProject の新規登録
ゲノムをアセンブルするプロジェクトでは、アセンブリに対してユニークな Locus tag prefix が必要です。
[Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND [Objective="Sequence" or "Annotation"
or "Assembly"] で Locus tag prefix 入力ボックスが現れます。
プレフィックスには3-12文字の英数字のみを含めることができます。先頭は英文字にします。数字は2文字目以降で使用できます (例: A1C)。 シン
ボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区切ります (例: A1C_00001)。
WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。
prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で、NCBI に prefix を予約しにいきます。予約済みの場合はエラーになるの
で、再度希望する prefix を入力して投稿します。
複数の prefix の取得を希望する場合は DRA チームに連絡します
22
DRA Handbook
Locus tag prefix の取得
最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。
BioProject の投稿
BioProject を投稿した後、Study では投稿したプロジェクトが選択されている状態になります。
投稿されたプロジェクトが選択される
[register sample(s)] でサンプルを新規に登録するか、もしくは、自身のアカウントで作成した BioSample 一覧から、該当するものを全て選択しま
す。
SampleSample
23
DRA Handbook
一つのチェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。 また、カラム上部の
ボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をクリックすると、フィルターされたサンプルが全て選択されま
す。
1 submission で登録できるサンプル数の上限は約 2,000 になります。
自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください。
BioSample の新規登録 or 選択
BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample になります。登録者などの情報は
DRA Submission で入力した内容が引き写されます。
各項目の説明は BioSample Handbook を参照してください。
BioSample の新規登録
"SAMPLE TYPE" でサンプルの種類を選択します。
Sample type については BioSample Handbook を参照してください。
Sample type の選択
24
DRA Handbook
Sample type に応じた属性入力用テンプレートファイルをダウンロードします。
必須・任意・ユーザが定義した一連の属性でサンプルを記述することが、登録作業の中心になります。
BioSample 属性の説明。独自の属性を追加したい場合は、右端に属性名と値を追加します。
サンプル属性ファイルの記入例
ファイルはタブで区切られているので、エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記載されています。* が必須属
性です。
二行目以降に1行1サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場合、bioproject_id には
PSUB 番号を入力します。値がない属性には、適宜 "missing" や "not applicable" などを記入します。
Biological/Technical replicate は別々の BioSample として登録します。登録に必要なサンプル数は FAQ: 塩基配列登録にはいくつのサンプ
ルが必要ですか? を参照してください。
サンプル属性テンプレートファイルのダウンロード
サンプル属性ファイルを選択して Continue をクリックすると validator がルールに基づいてアップロードされたファイルをチェックします。Error や
Warning メッセージが表示された場合は必要に応じて内容を修正して再度アップロードします。Error が解消されない限り次のタブに進んで内容
を submit することはできません。
Validation ルールとメッセージについては Validation rules ページ をご覧ください。
BioSample の validation。この例では sample "genome bacteria strain C" の collection_date に将来の日付が記入されているエラーと geo_loc_name
25
DRA Handbook
中の国名と緯度経度が一致していない warning が表示されています。
最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることができます。
登録後は最新の属性ファイルをダウンロードすることができます。
BioSample の投稿
BioSample を投稿した後、Sample では投稿したサンプルが選択されている状態になります。
投稿されたサンプルが選択される
初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample - Experiment - Run がリンクさ
れています。Experiment/Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合には
自動生成されません。
BioProject - BioSample (1) - Experiment (1) - Run (1)
- BioSample (2) - Experiment (2) - Run (2)
- BioSample (3) - Experiment (3) - Run (3)
下の例では3つの Experiment が自動的に作成され、それぞれがユニークな BioSample を参照しています。
[Add new Experiment(s)] で Experiment の追加、右端の [Delete] で Experiment の削除をすることができます。Run から参照されている
Experiment は削除することができません。
ExperimentExperiment
26
DRA Handbook
各 BioSample を参照している Experiment が自動的に作成される
タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し、Alias (例 test07-
0040_Experiment_0001 〜 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブジェクトの仮の名称になります。
[Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。
Save して Alias を確定し、タブ区切りテキストファイルをダウンロード
エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。
"Title" は空であれば、自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例
"Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。独自の Title を付けたい場合は、"Title" 欄にテキス
トを入力します。
"BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome bacteria strain A) で指定しま
す。":" の両側の空白は無視されます。
Experiment テンプレートファイル
入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] をクリックして読み込ませます。
Experiment をタブ区切りテキストファイルとしてアップロード
27
DRA Handbook
エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。
初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照してい
ます。
下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。
[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することがで
きません。
Save して Alias を確定
[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルでまとめて編集できるようになります。
[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。
ファイルと Run をリンクする画面へ移動
ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を "Run/Analysis contains files" で選択し
ます。
続いて File type と MD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため
Run に登録するファイルの左端の Run/Analysis に "Run" と入力します。
ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは1つにまとめら
れます。
リード長が一定ではない fastq ファイルの場合、filetype には "generic_fastq" を選択します。
RunRun
28
DRA Handbook
データファイルの属性を入力し Run に結び付ける
Analysis (任意) が不要な場合は [Submit / Update DRA metadata] をクリックし、メタデータを投稿します。
DRA メタデータの投稿
メタデータの投稿後、データファイルを検証する処理を開始します。"Validate uploaded data files to finish this submission" をクリックします。
メタデータ投稿後、データファイルの検証に進む
必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができま
す。
[Select data files for Analysis] ボタンをクリックし、ファイルと Analysis を結び付ける画面に移動します。
Analysis の入力
データファイルの属性を入力し、Analysis とリンクさせます。タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイ
ルを区別するために左端の Run/Analysis に "Analysis" と入力します。
Analysis (任意)Analysis (任意)
29
DRA Handbook
データファイルと Analysis のリンク
[Enter / Update metadata] をクリックして内容を投稿し、データファイルの検証に進みます。Analysis 用のファイルは md5 しかチェックされませ
ん。
メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical read を含
む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」は メタデータを XML で
登録、もしくは登録した XML を編集してアップロードします。
1. DRA 新規登録を作成し、データファイルをアップロードします。
2. Submission、Experiment、Run XML を作成します。アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する
場合、以下のように記載します。
<STUDY_REF>
<IDENTIFIERS>
<PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
</IDENTIFIERS>
</STUDY_REF>
<SAMPLE_DESCRIPTOR>
<IDENTIFIERS>
<PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>
</IDENTIFIERS>
</SAMPLE_DESCRIPTOR>
3. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはで
きません。
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml
4. チェックした XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードしま
す。
アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイ
ルを修正してください。
XML でのメタデータ登録方法XML でのメタデータ登録方法
30
DRA Handbook
メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical read を含
む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」は メタデータを XML で
登録、もしくは登録した XML を編集してアップロードします。
1. メタデータ作成ツールでメタデータを作成し、投稿します。
2. "metadata_submitted" になった登録の Submission、Experiment、Run、Analysis (任意) を XML ファイルとしてダウンロードします。
3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にしてください。 その他の項目につ
いては、DRA XML schema 中の説明を参照してください。
4. アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合、以下のように記載します。
<STUDY_REF>
<IDENTIFIERS>
<PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
</IDENTIFIERS>
</STUDY_REF>
<SAMPLE_DESCRIPTOR>
<IDENTIFIERS>
<PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>
</IDENTIFIERS>
</SAMPLE_DESCRIPTOR>
5. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはで
きません。
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml
xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml
6. 編集した XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードします。
アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイ
XML でのメタデータ編集方法XML でのメタデータ編集方法
31
DRA Handbook
ルを修正してください。
転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの整合性が検証されます。
“Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名と
MD5 値」が一覧表示されます。
メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。
アップロードされているファイルのうちメタデータに記載されていないものは無視されます。
登録詳細画面中の [Validate data files] をクリックし、シークエンスデータファイルの検証処理を開始します。
シークエンスデータの検証処理を開始
検証処理は以下の順番で実行されます。
メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。 エラー
の場合は [Enter / Update metadata] からメタデータを修正するか、ファイルを再アップロードしてください。
シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマットとメタデータとの整合性
が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして検証処理を停止した後、メタ
データを修正、もしくは、データファイルを再アップロードします。 ファイルサイズが大きい場合は検証処理に時間がかかります。
問題が無ければ登録のステータスが "submission_validated" になり、検証 されたファイルが別ディレクトリに移されます。
登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示があるまで D-way を操作せずに
お待ちください。
検証処理のいずれかのステップでエラーになると、ステータスが "data_error" になります。 [Stop validation] をクリックして検証処理を停止して
から、メタデータの編集やファイルの再アップロードを行い、再度 [Validate data files] をクリックしてください。
FAQ: データファイルの validation エラーへの対処方法は?
検証処理を停止
ステータスが "metadata_submitted" に戻るので、必要に応じてメタデータの修正、データファイルの再アップロードを行います。
データファイルの検証データファイルの検証
MD5 CheckMD5 Check
Data CheckData Check
data_error になった場合data_error になった場合
32
DRA Handbook
データを修正
メタデータとシークエンスデータに問題がなければ、プレフィックス DR (Submission (DRA)、Experiment (DRX)、Run (DRR)、Analysis (DRZ))
のアクセッション番号が発行され、ステータスが “completed” になります。アクセッション番号は “Component” に表示されます。
また、Submission に記載されている登録者には、アクセッション番号がメールで通知されます。
DRA アクセッション番号
登録者がアーカイブ済みデータファイルを確認できるようにするため、アクセッション番号が発行された Run の fastq/SRA ファイルはファイルサー
バ (ftp-private.ddbj.nig.ac.jp) 上の登録者がアクセスできる場所にコピーされます。 ディスク容量の圧迫を防ぐため、コピーされたファイルは作
成から一ヶ月後に自動的に削除されます。
ディスク空き容量の予期せぬ急減等により、コピーした fastq/SRA ファイルの一ヶ月以内の削除やコピー機能の一時停止が実施されることが
あります。 できるだけ事前にウェブサイト等で周知いたしますが、直前になることもあり得ることをご了承ください。
(submitter's home)/report/dra/(DRA submission accession)/fastq/
(submitter's home)/report/dra/(DRA submission accession)/sra/
例
/report/dra/DRA000001/fastq/DRR000001.fastq.bz2
/report/dra/DRA000001/fastq/DRR000002.fastq.bz2
/report/dra/DRA000001/fastq/DRR000002_1.fastq.bz2
/report/dra/DRA000001/fastq/DRR000002_2.fastq.bz2
/report/dra/DRA000001/sra/DRR000001.sra
/report/dra/DRA000001/sra/DRR000002.sra
登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり、即日公開が指定されている場合以外は、以下の原則
に則り、データが公開されるまで非公開で保持されます。
DRA では以下の場合にデータを公開しています。
アクセッション番号の発行アクセッション番号の発行
アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供
データ公開データ公開
33
DRA Handbook
オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。
A. 登録者から公開依頼の連絡を受けた場合
B. 登録者がアクセッション番号を公表した事を確認した場合。
登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しません。
公表とは、アクセッション番号を不特定多数の対象に知らせる行為 (学術論文、学会、インターネット、報道機関などを媒体とした発表) を指
します。
C. 公開予定日が到来した場合
D. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSA、WGS, CON など) が公開された場合
B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合、引用されている DRR 番号を含む DRA 登録全体が公開されま
す。
FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?
データが公開されると、数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。
DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist
データベースデータベース 更新方法更新方法
Annotated sequence database ウェブフォームから依頼
Sequence Read Archive (DRA) D-way にログインして登録者自身で更新
(配列データの追加や削除はウェブフォームから依頼)
BioProject/BioSample ウェブフォームから依頼
公開予定日は最長で4年後まで指定でき、繰り返し更新することができます。Hold Date の [Change] をクリックし、公開予定日変更ページに移動
し、予定日を変更します。
データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され、ftp にデータファイルが公開され、数日
以内に DRA 検索システムにインデックスされます。
[Enter / Update metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完了後、メタデータ作成ツール
の [Submit/Update DRA metadata] ボタンをクリックし、更新内容を DRA データベースに反映させます。
関連する文献が公表された場合は、pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。
DRA では登録が完了した Run データファイルの追加・変更はできません。別の Submission で新しく Experiment-Run のセットを追加し、既存
の BioProject や BioSample を参照することでデータを追加します。
Run と同様登録が完了した Analysis データファイルの追加・変更はできません。Analysis を差し替える場合は DRA チームにご連絡ください 。
D-way にログインし、[New submission] をクリックし、新規 DRA 登録を作成します。 作成した新規登録でデータを追加する対象の BioProject
と BioSample を選択します。
新たにサンプルを追加する場合は BioProject を共有し、新規登録で BioSample - Experiment - Run を追加します。
既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し、新規登録で Experiment - Run を追加します。
登録の更新登録の更新
各データベースにおける更新方法各データベースにおける更新方法
公開予定日の変更公開予定日の変更
メタデータの更新メタデータの更新
データファイルの追加データファイルの追加
34
DRA Handbook
続いて DRA Experiment と Run タブで、Experiment、Run オブジェクトとデータファイルを追加します。
メタデータを submit し、ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されま
す。
追加したデータに対応する BioProject 番号は同一ですが、Submission に対する DRA 番号は異なります。
サンプルの追加
35
DRA Handbook
サンプルへのデータ追加
登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください。
Experiment、Run や Analysis などのオブジェクトを削除する場合は DRA チームに連絡してください。
MD5 (Message Digest Algorithm 5) はハッシュ関数であり、与えられたファイルに対してハッシュ値 (MD5値、32桁の英数字) を出力します。
ファイルが破損していると MD5 値が変化します。 DRA では、到着したファイルの MD5 値の一致をチェックすることで、ファイルの破損がないかど
うか確認しています。
ファイルの MD5 値を取得します。
$ md5sum file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2
ファイルの MD5 値を取得します。
$ md5 file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2
Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし、起動します。
まず、 "md5" にチェックを入れてください。
[+] ボタンをクリックし、必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可能です。
最後に、[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンから、MD5 値の一覧表 (.html,
.csv, .xml) を作成することができます。
オブジェクトの削除オブジェクトの削除
補足: MD5 値補足: MD5 値
MD5 値の取得 (Linux)MD5 値の取得 (Linux)
MD5 値の取得 (Mac OS X)MD5 値の取得 (Mac OS X)
MD5 値の取得 (Windows)MD5 値の取得 (Windows)
36
DRA Handbook
37
DRA Handbook