DDBJ Sequence Read Archive HandbookRNA-Seq Random sequencing of whole transcriptome. miRNA-Seq Micro...

DDBJ Sequence Read Archive HandbookDDBJ Sequence Read Archive Handbook

DDBJ Sequence Read Archive

メタデータ

メタデータオブジェクトオブジェクトの構成例SubmissionBioProjectBioSampleExperimentRunAnalysis

Run データファイル

登録するデータファイルの形式についてBAM ファイルfastq454Illumina Genome AnalyzerSOLiDIon TorrentHelicos HeliscopeComplete GenomicsPacific Biosciences

DRA へのデータ登録

DRA 登録の流れ

DRA へのデータ登録方法

登録アカウントデータ構成新規登録の作成シークエンスデータのアップロードウェブツールでのメタデータ作成XML でのメタデータ登録方法XML でのメタデータ編集方法データファイルの検証アクセッション番号の発行アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供データ公開

登録の更新

各データベースにおける更新方法公開予定日の変更メタデータの更新データファイルの追加オブジェクトの削除

補足: MD5 値

MD5 値の取得 (Linux)MD5 値の取得 (Mac OS X)MD5 値の取得 (Windows)

DDBJ Sequence Read ArchiveDDBJ Sequence Read Archive

DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®、Illumina Genome Analyzer®、Applied Biosystems SOLiD®

System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は International Nucleotide Sequence Database

Collaboration (INSDC) のメンバーであり、 NCBI Sequence Read Archive (SRA) と EBI Sequence Read Archive (ERA) との国際協力の

もと、運営されています。

公開された Analysis 以外のデータは3極で自動的にミラーリングされます。

従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。クロマトグラムの登録を希望する場合

は DDBJ Trace Archive に登録します。

メタデータメタデータ

メタデータオブジェクトメタデータオブジェクト

1

DRA Handbook

メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。メタデータは

Submission、BioProject、BioSample、Experiment、Run、Analysis の各オブジェクトで構成されます。各オブジェクトは XML スキーマで定義

され、相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されます。オブジェクトの構造とアクセッション番号は

DDBJ/EBI/NCBI で共通です。 Experiment、Run、Analysis は SRA のオブジェクトで、BioProject と BioSample は外部データベースのオブ

ジェクトになります。

メタデータの詳細は対応する XML スキーマをご覧ください。DRA XML schema

SubmissionSubmission

登録するオブジェクトをとりまとめるオブジェクト。

BioProjectBioProject

研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。

BioSampleBioSample

生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。

ExperimentExperiment

BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は１つの BioProject と１つの

BioSample を参照します。複数の Experiment は１つの BioSample を参照することができますが、逆に１つの Experiment が複数の

BioSample を参照することはできません。

RunRun

シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特定のサンプルにリンクされ

ます。 Run に含まれる全てのファイルは１つの SRA/fastq ファイルにマージされ、Run のアクセッション番号がファイル名になります。そのため、異な

るサンプルや replicate に由来するファイルは同じ Run に含めるべきではありません。一方、ペアードのデータファイルは同じ Run に含め、リード

が正しくペアとして処理されるようにします。

AnalysisAnalysis

Run に格納されたデータを解析したデータで、しかるべき登録先がないようなデータを登録します。Analysis は DDBJ/EBI/NCBI で交換していま

せん。交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch でインデックスされず、ftp でのファイル公開のみになります。

データモデル

登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。

最もシンプルなケース

三つの菌株の比較ゲノム解析 (ペアエンド)

(Technical, Biological) replicate がある場合 (ペアエンド)

関連するデータが別々の論文に発表される場合

オブジェクトの構成例オブジェクトの構成例

最もシンプルなケース最もシンプルなケース

2

DRA Handbook

最もシンプルなケース

ペアリードファイルは同じ Run に含めます。

三つの菌株の比較ゲノム解析 (ペアエンド)

関連する FAQ: 塩基配列登録にはいくつのサンプルが必要ですか?

(Technical, Biological) replicate がある場合 (ペアエンド)

三つの菌株の比較ゲノム解析 (ペアエンド)三つの菌株の比較ゲノム解析 (ペアエンド)

(Technical, Biological) replicate がある場合 (ペアエンド)(Technical, Biological) replicate がある場合 (ペアエンド)

3

DRA Handbook

関連するデータが別々の論文に発表される場合

必須*

条件によって必須*

登録者が所属する組織に関する情報を記載します。

Center Name*

登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。

メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。

Center Name は登録の所有権を示すものではなく、SRA が運用上使用している略称です。所有権は Submitter に記載される登録者にあります。

Lab Name *

登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group"、"Department (2)"、"Department (1)"、"Organization" がカンマで連結

されたテキストが初期表示されます。

公開方法を指定します。

Hold Until*

公開予定日を設定します。最長で4年後まで設定でき、延長することができます。

Immediate Release*

即日公開。登録作業が終わり次第、データが公開されます。

登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡は記入された全てのアドレス

に対して行われます。責任者以外の人が登録作業をした場合、その作業者を含めてください。登録者情報は公開されません。登録者情報を明示し

たい場合は BioProject に記載してください。

Name*

登録者の名前。

E-mail*

登録者の電子メールアドレス。

関連するデータが別々の論文に発表される場合関連するデータが別々の論文に発表される場合

メタデータ各項目の説明メタデータ各項目の説明


Center NameCenter Name

Hold UntilHold Until

SubmitterSubmitter

4

DRA Handbook

BioProject ID *

BioProject に登録済みのプロジェクトから該当するものを１つ選択するか、新規に BioProject を登録します。BioProject の登録方法は BioProject

Handbook を参照してください。

BioSample ID *

BioSample に登録済みのサンプルから該当するものを選択するか、新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参

照してください。

Alias

自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。

BioSample Used*

Experiment が参照している BioSample を選択します。

Title*

検索結果で表示される Experiment の短いタイトル。自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" という

タイトル（例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741"）が構築されます。独自のタイトルを入力する場合は、Experiment の

内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。

Library Name

ライブラリーの名前。

Library Source *

ライブラリー構築に用いた試料。

Library SourceLibrary Source DescriptionDescription

GENOMIC Genomic DNA (includes PCR products from genomic DNA).

TRANSCRIPTOMIC Transcription products or non genomic DNA (EST, cDNA, RT-PCR, screened libraries).

METAGENOMIC Mixed material from metagenome.

METATRANSCRIPTOMIC Transcription products from community targets.

SYNTHETIC Synthetic DNA.

VIRAL RNA Viral RNA.

OTHER Other, unspecified, or unknown library source material.

Library Selection *

シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。

Library SelectionLibrary Selection DescriptionDescription

RANDOM Random shearing only.

PCR Source material was selected by designed primers.

RANDOM PCR Source material was selected by randomly generated primers.

RT-PCR Source material was selected by reverse transcription PCR.

HMPR Hypo-methylated partial restriction digest.

MF Methyl Filtrated.

repeat fractionation Selection for less repetitive (and more gene rich) sequence through Cot filtration (CF) or other

fractionation techniques based on DNA kinetics.

size fractionation Physical selection of size appropriate targets.

MSLL Methylation Spanning Linking Library.

cDNA complementary DNA.

cDNA_randomPriming

cDNA_oligo_dT

PolyA PolyA selection or enrichment for messenger RNA (mRNA); should replace cDNA enumeration.

BioProjectBioProject

BioSampleBioSample


5

DRA Handbook

Oligo-dT enrichment of messenger RNA (mRNA) by hybridization to Oligo-dT.

Inverse rRNA depletion of ribosomal RNA by oligo hybridization.

ChIP Chromatin immunoprecipitation.

MNase Micrococcal Nuclease (MNase) digestion.

DNAse Deoxyribonuclease (DNase) digestion.

Hybrid Selection Selection by hybridization in array or solution.

Reduced Representation Reproducible genomic subsets, often generated by restriction fragment size selection, containing a

manageable number of loci to facilitate re-sampling.

Restriction Digest DNA fractionation using restriction enzymes.

5-methylcytidine antibody Selection of methylated DNA fragments using an antibody raised against 5-methylcytosine or 5-

methylcytidine (m5C)MBD2 protein methyl-CpG binding domain : Enrichment by methyl-CpG binding

domain.

MBD2 protein methyl-CpG binding domain MBD2 protein methyl-CpG binding domain.

CAGE Cap-analysis gene expression.

RACE Rapid Amplification of cDNA Ends.

MDA multiple displacement amplification.

padlock probes capture method Padlock Probes capture strategy to be used in conjuction with Bisulfite-Seq.

other Other library enrichment, screening, or selection process.

unspecified Library enrichment, screening, or selection is not specified.

Library SelectionLibrary Selection DescriptionDescription

Library Strategy *

ライブラリーの構築手法。

Library StrategyLibrary Strategy DescriptionDescription

WGS Whole genome shotgun.

WGA Whole genome amplification.

WXS Random sequencing of exonic regions selected from the genome.

RNA-Seq Random sequencing of whole transcriptome.

miRNA-Seq Micro RNA and other small non-coding RNA sequencing.

ncRNA-Seq Capture of other non-coding RNA types, including post-translation modification types such as snRNA

(small nuclear RNA) or snoRNA (small nucleolar RNA), or expression regulation types such as siRNA

(small interfering RNA) or piRNA/piwi/RNA (piwi-interacting RNA).

ssRNA-seq strand-specific RNA sequencing

WCS Whole chromosome (or other replicon) shotgun.

CLONE Genomic clone based (hierarchical) sequencing.

POOLCLONE Shotgun of pooled clones (usually BACs and Fosmids).

AMPLICON Sequencing of overlapping or distinct PCR or RT-PCR products.

CLONEEND Clone end (5', 3', or both) sequencing.

FINISHING Sequencing intended to finish (close) gaps in existing coverage.

RAD-Seq Restriction Site Associated DNA Sequence

ChIP-Seq Direct sequencing of chromatin immunoprecipitates.

MNase-Seq Direct sequencing following MNase digestion.

DNase-Hypersensitivity Sequencing of hypersensitive sites, or segments of open chromatin that are more readily cleaved by

DNaseI.

Bisulfite-Seq Sequencing following treatment of DNA with bisulfite to convert cytosine residues to uracil depending

on methylation status.

EST Single pass sequencing of cDNA templates.

FL-cDNA Full-length sequencing of cDNA templates.

CTS Concatenated Tag Sequencing.

MRE-Seq Methylation-Sensitive Restriction Enzyme Sequencing strategy.

MeDIP-Seq Methylated DNA Immunoprecipitation Sequencing strategy.

MBD-Seq Direct sequencing of methylated fractions sequencing strategy.

6

DRA Handbook

Tn-Seq Gene fitness determination through transposon seeding.

FAIRE-seq Formaldehyde Assisted Isolation of Regulatory Elements

SELEX Systematic Evolution of Ligands by EXponential enrichment

RIP-Seq Direct sequencing of RNA immunoprecipitates (includes CLIP-Seq, HITS-CLIP and PAR-CLIP).

ChIA-PET Direct sequencing of proximity-ligated chromatin immunoprecipitates.

Hi-C Chromosome Conformation Capture technique where a biotin-labeled nucleotide is incorporated at

the ligation junction, enabling selective purification of chimeric DNA ligation junctions followed by

deep sequencing

ATAC-seq Assay for Transposase-Accessible Chromatin (ATAC) strategy is used to study genome-wide chromatin

accessibility. alternative method to DNase-seq that uses an engineered Tn5 transposase to cleave DNA

and to integrate primer DNA sequences into the cleaved genomic DNA

Targeted-Capture

Tethered Chromatin Conformation Capture

Synthetic-Long-Read binning and barcoding of large DNA fragments to facilitate assembly of the fragment

Other Library strategy not listed.

Library StrategyLibrary Strategy DescriptionDescription

Library Construction Protocol

DNA の断片化 (DNA fragmentation)、アダプター配列などのライゲーション (DNA ligation) や濃縮 (DNA enrichment) 方法をフリーテキストで記載しま

す。キットを使用した場合はキットの名前とバージョン (あれば) を含めます (例 Illumina Nextera DNA Library Preparation Kit)。

参考: Alnasir J, Shanahan HP. Investigation into the annotation of protocol sequencing steps in the sequence read archive. Gigascience.

2015 May 9;4:23. doi: 10.1186/s13742-015-0064-7. eCollection 2015. PMID: 25960871 (Open Access)

Instrument*

シークエンサの機種を選択します。

Instrument ModelInstrument Model

454 GS

454 GS 20

454 GS FLX

454 GS FLX+

454 GS FLX Titanium

454 GS Junior

Illumina Genome Analyzer

Illumina Genome Analyzer II

Illumina Genome Analyzer IIx

Illumina HiSeq 1000

Illumina HiSeq 1500

Illumina HiSeq 2000

Illumina HiSeq 2500

Illumina HiSeq 3000

Illumina HiSeq 4000

Illumina NovaSeq 6000

Illumina MiSeq

Illumina MiniSeq

Illumina iSeq 100

Illumina HiScanSQ

HiSeq X Five

HiSeq X Ten

NextSeq 500

NextSeq 550

Helicos HeliScope

AB SOLiD System

7

DRA Handbook

AB SOLiD System 2.0

AB SOLiD System 3.0

AB SOLiD 3 Plus System

AB SOLiD 4 System

AB SOLiD 4hq System

AB SOLiD PI System

AB 5500 Genetic Analyzer

AB 5500xl Genetic Analyzer

AB 5500xl-W Genetic Analysis System

Complete Genomics

MinION

GridION

PromethION

PacBio RS

PacBio RS II

Sequel

Ion Torrent PGM

Ion Torrent Proton

Ion Torrent S5

Ion Torrent S5 XL



AB 3130xL Genetic Analyzer





Instrument ModelInstrument Model

Spot Type *

データファイル中のリード構成を選択します。

Spot TypeSpot Type DescriptionDescription

single Single read

paired (FF) Paired reads with same direction.

paired (FR) Paired reads with opposite direction.

Nominal Length *

ペアエンドライブラリを構築した際のインサートサイズ。

Nominal Sdev

インサートサイズの標準偏差

Spot Length *

データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。

Spot length が一定の場合、一定の値を記入

リード長が一定ではない 454 プラットフォームの場合、フロー数を記入

不定長の fastq の場合、平均長を記入

Alias

自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。

RunRun

8

DRA Handbook

Title*

Run の短いタイトル。ユニークなタイトルを付けます。検索結果で表示される Run の短いタイトル。自動的に "[Sequencing Instrument Model] [paired

end] sequencing of [BioSample ID]" というタイトル（例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741"）が構築されます。独自

のタイトルを入力する場合は、Run の内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。

Experiment Referenced *

Run が属する Experiment を選択します。

Run に含めるデータファイルを選択します。

Run/Analysis

データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択され

ると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。

File Name *

シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。

Run/Analysis contains files *

データファイルが属する Run を選択します。

File Type *

シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "generic_fastq"、一定の場合は "fastq" を選択します。

File TypeFile Type DescriptionDescription

generic_fastq fastq files with variable read length

fastq fastq files with constant read length

sff 454 Standard Flowgram Format file

hdf5 PacBio hdf5 Format file

bam Binary SAM format for use by loaders that combine alignment and sequencing data

tab A tab-delimited table maps "SN in SQ line of BAM header" and "reference fasta file"

reference_fasta Reference sequence file in single fasta format used to construct SRA archive file format. Filename must end with ".fa"

MD5 Checksum *

データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法

Alias

自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。

Title*

Analysis オブジェクトのタイトル。

Description*

Analysis の内容を記述します。

Analysis Type *

Analysis の種類を選択します。アライメントデータは Run に登録します。

Analysis TypeAnalysis Type DescriptionDescription

De Novo Assembly A placement of sequences including trace, SRA, GI records into a multiple alignment from which a consensus is

computed..

Sequence Annotation Per sequence annotation of named attributes and values.

Example: Processed sequencing data for submission to dbEST without assembly.

Reads have already been submitted to one of the sequence read archives in raw form.

The fasta data submitted under this analysis object result from the following treatments, which may serve to filter reads

from the raw dataset:

- sequencing adapter removal

- low quality trimming

- poly-A tail removal

- strand orientation

Data files for RunData files for Run

AnalysisAnalysis

9

DRA Handbook

- contaminant removal.

Abundance Measurement Identify the tools and processing steps used to produce the abundance measurements (coverage tracks).

Analysis TypeAnalysis Type DescriptionDescription

Analysis に含めるデータファイルを選択します。

Run/Analysis

データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択され

ると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。

File Name *

解析データのファイル名。

Run/Analysis contains files *

データファイルが属する Analysis を選択します。

File Type *

解析データのファイル形式。

File TypeFile Type DescriptionDescription

bam Binary form of the Sequence alignment/map format for read placements, from the SAM tools project.

See http://sourceforge.net/projects/samtools/.

tab A tab delimited text file that can be viewed as a spreadsheet. The first line should contain column headers..

ace Multiple alignment file output from the phred assembler and similar programs.

See http://www.phrap.org/consed/distributions/README.16.0.txt for a description of the ACE file format..

fasta Sequence data format indicating sequence base calls.The format is simple: a header line initiated with the > character, data lines

following with base calls..

wig The wiggle (WIG) format allows display of continuous-valued data in track format.This display type is useful for GC percent, probability

scores, and transcriptome data.

See http://genome.ucsc.edu/goldenPath/help/wiggle.html for a description of the Wiggle Track format..

bed BED format provides a flexible way to define the data lines that are displayed in an annotation track.

See http://genome.ucsc.edu/FAQ/FAQformat#format1 for a description of the BED format..

vcf Variant Call Format.

See http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41 for a description of the

VCF format.

maf Mutation Annotation Format

gff General Feature Format

csv

tsv

MD5 Checksum *

Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足

アライメントデータやシークエンスデータを登録します。

fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。

ファイル名は英数字 [A-Z,a-z,0-9]、アンダースコア [_]、ハイフン [-] とドット [.] のみから構成され、空白文字、カッコ、句読点やシンボルを含

まないこと。

バーコード配列で由来サンプルが区別されたデータファイルは登録前に分割し、由来サンプルごとに BioSample を作成します。各

BioSample には１つかそれ以上のユニークなデータファイルがリンクされている状態にします。

fastq ファイルの場合、ペアリードは別々のファイルとして登録します。bam や sff ファイルの場合、分割する必要はありません。

データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかにディレクトリを作成しないで

ください。

BAM、SFF や HDF5 などのバイナリーファイルは圧縮しないでください。

Data files for AnalysisData files for Analysis

Run データファイルRun データファイル

10

DRA Handbook

DRA のメタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。「technical

read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを

XML ファイルで登録する必要があります (XML の記載例)。

一般的な形式

FormatFormat PlatformPlatform RecommendedRecommended

BAM all platforms Yes

fastq all platforms Yes

プラットフォーム特異的な形式

FormatFormat PlatformPlatform RecommendedRecommended

SFF 454 and Ion

Torrent

Yes

PacBio HDF PacBio Yes

SOLiD csfasta/qual SOLiD No (please convert to

fastq/bam)

Illumina qseq and

scarf

Illumina No (please convert to

fastq/bam)

Binary Alignment/Map (BAM) ファイルは DRA への登録にとって好ましいファイル形式の一つです。BAM は Sequence Alignment/Map

(SAM) ファイル形式のバイナリー圧縮です (詳細は SAMv1.pdf)。BAM ファイルは SAM/BAM 用ツール (例えば samtools) で human-

readable なテキスト形式である SAM に変換することができます。BAM はアライメントされなかった unaligned read を含めることができます。

DRA はプライマリーデータとして Run に unaligned read を含む BAM を登録することを推奨しています。

SAM はリードの既知リファレンス配列へのアライメントに関する情報と生リードデータを含んだタブ区切りテキストファイルです。 SAM ファイルは

二つの主要なセクション、ヘッダーとアライメント（シークエンスリード）セクション、から構成されます。ここでは「BAM ファイルの DRA への登録」と

いう観点で SAM フォーマットについて説明していることに留意してください（DRA は SAM ファイルでの登録を受付けていません）。より詳細なファ

イルフォーマット仕様は samtools ウェブサイトを参照してください。

SAM ヘッダーの例:SAM ヘッダーの例:

@HD VN:1.4 SO:coordinate

@SQ SN:CHROMOSOME_I LN:15072423

UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/

WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrI.fa.gz AS:ce10

SP:Caenorhabditis elegans

@SQ SN:CHROMOSOME_II LN:15279345

UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/

WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrII.fa.gz AS:ce10

SP:Caenorhabditis elegans

@RG ID:1 PL:ILLUMINA LB:C_ele_05 DS:WGS of C elegans PG:BamIndexDecoder

@PG ID:bwa PN:bwa VN:0.5.10-tpx

SAM アライメントの例:SAM アライメントの例:

3658435 145 CHROMOSOME_I 1 0 100M CHROMOSOME_II 2716898 0

GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT

AAGCCT

@CCC?:CCCCC@CCCEC>AFDFDBEGHEAHCIGIHHGIGEGJGGIIIHFHIHGF@HGGIGJJJJJIJJJJJJJJJJJJJJJJJJJJJHHHHHFF

FFFCCC RG:Z:1 NH:i:1 NM:i:0

5482659 65 CHROMOSOME_I 1 0 100M CHROMOSOME_II 11954696 0

GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT

AAGCCT

CCCFFFFFHHGHGJJGIJHIJIJJJJJIJJJJJIJJGIJJJJJIIJIIJFJJJJJFIJJJJIIIIGIIJHHHHDEEFFFEEEEEDDDDCDCCCA

AA?CC: RG:Z:1 NH:i:1 NM:i:0

登録するデータファイルの形式について登録するデータファイルの形式について

BAM ファイルBAM ファイル

BAM ファイル処理BAM ファイル処理

11

DRA Handbook

ヘッダーとアライメントセクションは整合的である必要があります: 各アライメントリードの RNAME (リファレンス配列の名前、3フィールド目) はヘッ

ダー中の SN タグ値 (例 CHROMOSOME_I) と一致している必要があります。加えて、アライメントリードの任意フィールドである read group

(RG:Z:) はヘッダー中の read group ID と一致している必要があります (例 1)。また、2フィールド目の FLAG フィールドはデータに対して正しい

値がセットされていることが重要です。 DRA ファイル処理パイプラインは不正な FLAG 値を補正しますが、不正な値が多すぎる場合はエラーになり

ます。DRA はアライメントセクション中の任意かつ非標準のタグ/フィールド値は保持しません。しかし、ヘッダーセクション全体は保持されます。

SAM フォーマットはリードのリファレンスへの全体マッチを表すイコールサイン (=) の sequence フィールドでの使用、もしくは、アスタリスク (*) の

sequence と quality 両フィールドでの使用を許容していますが、DRA 処理パイプラインはこれらの値を認識しません。

予期せぬ表記方法で記されたペアリードは適切に認識されず不適切な SRA ファイル形成をもたらします（ペアリードがシングルフラグメントとして

扱われてしまいます）。例えば、リード名の後ろに :0 と :1 と付されたリードはペアのリード１と２として認識されません。これらの表記方法が使用さ

れている場合、:0 と :1 を削除して同じリード名を使ったほうがよいです。特定のシークエンサから出力される標準的な表記方法は正しく認識され

ます。例えば、Illumina のリード名に付された /1 と /2 は標準的な表記方法です。ペアリードに対して SAM/BAM flag に適切なビット値 (multi-

segment template 1-bit、first segment 64-bit と last segment 128-bit) が設定されていない場合、もしくは、ペアリードが別々の bam ファイ

ルに分かれている場合は適正な SRA ファイルが生成されません。

Run にアライメントデータを登録する場合は、「BAM」、「INSDC, refseq アクセッション番号 OR リファレンス配列マルチ fasta、それから bam SN

リファレンス名、との対応表」が必要です。1 Run に 1 bam ファイルを登録します。

Run ではなく Analysis に登録する場合対応表は不要ですが、アライメントされなかったリードを含めた bam を Run に登録することを強く推奨し

ます。

PacBio や IonTorrent などでリファレンス配列がない bam ファイル (unmapped bam でありヘッダーに SQ 行がない) が出力データの場

合、対応表やリファレンス fasta を指定する必要はありません

将来、新しいツールで再解析や再アライメントする際に重要であるため、bam ファイルのみを登録するときはアライメントされなかったリード

(unaligned reads) を含めてください。

bam とリファレンス配列の対応付け

1.

アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtools と picard で読み込める形式になっている必要

があります。圧縮していない BAM ファイルをアップロードしてください。

Run の File Type には "bam" を選択します。

2.

リファレンス配列がリストにある場合、アクセッション番号.バージョン番号 (例 NC_000001.11) でリファレンスを参照することができます。配

列のバージョン番号は必須です。リファレンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。

3.

リファレンス配列がリストにない場合、リファレンス配列をマルチ fasta ファイルで提供します。真核生物のオルガネラ配列等短い配列は番号指

定に対応していないケースがあります。 Run の File Type には "reference_fasta" を選択します。bam ヘッダーで定義されたリファレンスとマ

BAMBAM

リファレンスを INSDC/RefSeq アクセッション番号で指定リファレンスを INSDC/RefSeq アクセッション番号で指定

リファレンスをマルチ fasta で提供リファレンスをマルチ fasta で提供

12

DRA Handbook

ルチ fasta 中の配列は対応表を介して defline 中の配列名でリンクされます。 bam SQ 行 LN タグのリファレンス配列長とマルチ fasta 中の

配列長が異なっている場合ワーニングになります。

4.

一部のリファレンス配列がリストにある場合、アクセッション.バージョン番号 (例 NC_000001.11) で一部のリファレンスを指定し、残りのリ

ファレンス配列はマルチ fasta ファイルで提供します。混在しているケースでは、対応表にアクセッション.バージョン番号とマルチ fasta 中の

defline 中の配列名を記載します。

5.

ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN 値」と「アクセッション番号 OR リファレンスマルチ fasta ファ

イル中の配列名」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択します。

BAM ファイルヘッダー

@HD VN:1.0 GO:none SO:coordinate

@SQ SN:chr1 LN:249698942

@SQ SN:chr2 LN:242508799

@SQ SN:chr3 LN:198450956

...

SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル中の配列 ref1 が対応。

chr1 ref1

chr2 ref2

chr3 ref3

...

リファレンスマルチ fasta。

>ref1

CGGTGGGGGTGGTGTTAGTACCCCATCTTGTAGGTCTGAAACACAAAGTGTGGGGTGTCT

...

>ref2

TCCACCAACGTTAGAAGGCCTTGGCCCCCAGAGAGCCAATTTCACAATCCAGAAGTCCCC

...

>ref3

GTGTGTGACCAGGGAGGTCCCCGGCCCAGCTCCCATCCCAGAACCCAGCTCACCTACCTT

...

SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。

chr1 NC_000001.11

chr2 NC_000002.12

chr3 NC_000003.12

...

Run の filetype はリード長が一定・不定によって異なります。Run の filetype はリード長が一定・不定によって異なります。

リード長が揃っている fastq ファイルの場合、Run の file type で fastq を選択します。ペアードデータの場合、対になっているファイル中でペア

となっているリードが同じ順番で記載されている必要があります。

リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択します。

fastq の形式。詳しくはNCBI のサイトをご覧ください。

Quality value は phred 形式にしてください。オフセットはデフォルトで 33 (!) になります。64 (@) の場合は Run XML を編集して

ascii_offset="@" にしてください。

DRA のメタデータ作成インターフェースは Technical read (アダプター、リンカー、バーコード配列) 記載に対応していないため、Technical

read を含める場合は登録するデータファイルの形式についてを参考に technical read が記載された Experiment XML を登録してくださ

い (XML の記載例)。Technical reads が除去されている場合、XML 登録は必要ありません。

ペアードリードは別々の fastq ファイルとして登録してください。リード名にペアリードを同定するためのサフィックス (例 '/1' と '/2') が含まれて

いる必要があります。

各リードの最初の行は '@' で始まっている必要があります。

ベースコールと Quality value は '+' で始まる行で区切られている必要があります。

fastq ファイルは gzip もしくは bzip2 で圧縮してください。

INSDC/RefSeq アクセッション番号とマルチ fasta が混在するケースINSDC/RefSeq アクセッション番号とマルチ fasta が混在するケース

SN-リファレンス配列の対応表SN-リファレンス配列の対応表

fastqfastq

13

DRA Handbook

454 からのシークエンスデータは sff ファイルか fastq/bam ファイルで登録します。

sff ファイル中のリード名は、プレート内の位置情報とユニークな run id を反映した情報を含んでいるので、sff ファイルを書き変えないでください。

sffファイル形式はすでに最適化されており、ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを送付してください。

sff ファイルに２つ以上のサンプルに由来するデータが含まれている場合は、sff から生成した fastq ファイルをサンプルごとに分割して登録してくだ

さい。

Illumina pipeline v1.4 以降

qseq ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。

SOLiD native ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。

sff ファイルもしくは fastq/bam ファイルを登録します。

quality value をすべて "14" として作成した fastq/bma ファイルを登録します。

fastq ファイルを登録します。

Pacific Biosciences は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA は bas.h5 と bax.h5 両方

のファイル形式での登録を受け付けています。RS II から出力されるデータは、１つの Run に *.bas.h5 １ファイルと *.bax.h5 ３ファイルを登録しま

す。ファイル名を変更しないでください。

Run に HDF5 以外のデータを含めないでください。

以下の unaligned bam ファイルの登録をサポートしています。1 Run に 1 bam ファイルを指定してください。unaligned bam の場合、リファレン

ス配列や対応表の指定は必要ありません。

subread BAM files (*.subreads.bam)

CCS read BAM files (*.ccs.bam)

リード長は可変なので generic_fastq を Run の filetype で指定してください。

fastq/bam ファイルを登録します。

fastq/bam ファイルを登録します。

454454

Illumina Genome AnalyzerIllumina Genome Analyzer

Illumina Native DataIllumina Native Data

SOLiDSOLiD

SOLiD Native FormatSOLiD Native Format

Ion TorrentIon Torrent

Helicos HeliscopeHelicos Heliscope

Complete GenomicsComplete Genomics

Pacific BiosciencesPacific Biosciences

HDF5HDF5

bambam

fastqfastq

Oxford NanoporeOxford Nanopore

キャピラリシークエンサキャピラリシークエンサ

Analysis データファイルAnalysis データファイル

PacBio Base Modification FilesPacBio Base Modification Files

14

DRA Handbook

PacBio シークエンサーは塩基配列に加え、塩基のメチル化状態を解析することができ、そのデータを共有することは研究者コミュニティにとって重

要です。例えば、修飾された塩基の正確な位置情報は DNA メチルトランスフェラーゼの特異性の解析に用いることができます。 PacBio の解析ソ

フトウェア (RS_Modification_and_Motif_Analysis) はこれらの修飾塩基配列情報を抽出し、以下のいくつかのファイルに出力します:

motif_summary.csv

modifications.csv

modifications.gff

motifs.gff

この解析結果ファイル、原核生物については少なくとも motif_summary.csv ファイルを DRA Analysis として登録することは研究者コミュニティに

とって貴重なデータになります。 Run に加え、これらのファイルを Sequence Annotation type Analysis として是非ご登録ください。サポートが

必要な場合は DRA チームにご連絡ください。

NCBI guidelines of PacBio Base Modification Files

DRA へのデータ登録DRA へのデータ登録

研究責任者 (principal investigator) の許可なくデータを登録しないでください。

ヒトを対象とした研究データの登録についてヒトを対象とした研究データの登録について

研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法

令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対

象者を直接特定し得る情報はメタデータから取り除いてください。

ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。

特許に関連するデータの登録特許に関連するデータの登録

登録するデータが特許に関連する場合は、「特許に関連する塩基配列の登録に関する注意、データの優先権」の内容を必ずご確認ください。

次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。

アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が、次世代シークエンサから生み出されるゲノムや

大量データの登録受付先になります。

DRA 登録の流れDRA 登録の流れ

D-way 登録アカウントを作成

公開鍵と center name をアカウントに登録し、DRA 登録を可能に

1. 登録アカウントを作成1. 登録アカウントを作成

新規 DRA 登録を作成 (アカウントに DRA 登録権限を付与しておきます)

データは DRA 登録 (Submission) 単位で公開されます。

BioProject、BioSample、Experiment と Run を投稿する前にデータファイルを scp でアップロード

2. DRA 登録を作成しデータファイルをアップロード2. DRA 登録を作成しデータファイルをアップロード

研究プロジェクトの内容

「なぜ」そのサンプルをシークエンスしたのか

3. プロジェクトとサンプル情報を登録3. プロジェクトとサンプル情報を登録

BioProject (Study)BioProject (Study)

BioSample (Sample)BioSample (Sample)

15

DRA Handbook

アカウント取得から BioProject/BioSample/DRA の登録まで全てをカバーした TogoTV (22分12秒、作成:2019年)

BioProject/BioSample/DRA の登録方法 (6分50秒、作成:2015年)

日本 DNA データバンク (DDBJ) センターは BioProject 、BioSample と DRA への登録をユーザアカウントで管理しています。

登録アカウントマニュアルに従い、登録アカウントを取得し、DRA 登録権限をアカウントに追加します。

オブジェクトの構成例はこちらをご覧ください。 Submission 中では１つの BioProject のみ登録できます。 BioSample、Experiment、Run は複数

登録することができます。サンプル数を中心に考えるとデータを構成しやすくなります。

ここでは３つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明します。

三つの菌株のゲノム配列を登録

D-way (https://ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧ページへ進みます。

生物学的、物理的にユニークなサンプル

「何を」シークエンスしたのか

メタデータをタブ区切りテキストファイルで登録できます

特定のサンプルから構築したライブラリーについての説明

「どのように」シークエンスをしたのか

複数の Experiment は一つの Sample を参照できるが、逆はできない

Experiment と Run を投稿した後、データファイルの検証処理を開始

Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます

4. Experiment と Run を登録4. Experiment と Run を登録

DRA ExperimentDRA Experiment

DRA RunDRA Run

シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始

検証処理を通った登録が査定されアクセッション番号が発行される

5. シークエンスデータファイルの検証処理5. シークエンスデータファイルの検証処理

DRA へのデータ登録方法DRA へのデータ登録方法

登録アカウント登録アカウント

データ構成データ構成

新規登録の作成新規登録の作成

16

DRA Handbook

[New submission] をクリックし、新規登録を作成します。

同時に、データ受付サーバ (ftp-private.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファイルはこのディレクトリに

アップロードします。

DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルいたします。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

新規 DRA 登録の作成

登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されます。

DRA 登録のステータス一覧

ステータスステータス状態状態

New メタデータの投稿前

metadata_submitted メタデータが投稿された

data_validating データファイルの検証処理中

data_error データファイルの検証処理エラー

submission_validated メタデータとデータファイルの検証処理が完了

completed アクセッション番号が発行された

confidential 公開用ファイルの作成処理が完了し、非公開に保たれている状態

Public 公開されている状態

メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は適当なファイルをアップ

ロードしてください。

ファイルを SCP 転送します。

$ scp <Your Files> <D-way Login ID>@ftp-private.ddbj.nig.ac.jp:~/<DRA Submission ID>

<Your Files> 転送するファイル。例: file1 file2 (file1とfile2)、file* (fileではじまる全てのファイル)

<D-way Login ID> D-way の Login ID (例 test07)

<DRA Submission ID> DRA 登録の Submission ID (例: test07-0018)

コマンドの例: scp strainA_1.fastq [email protected]:~/test07-0018

鍵を作成したときに指定したパスフレーズを入力します。

Enter passphrase for key '/home/you/.ssh/id_rsa':

サーバにログインし、直接ファイルを操作することができます。サーバに SSH でログインします。

$ ssh <D-way Login ID>@ftp-private.ddbj.nig.ac.jp

シークエンスデータのアップロードシークエンスデータのアップロード

ターミナルによるシークエンスデータの転送 (Linux/Mac OS ターミナルによるシークエンスデータの転送 (Linux/Mac OS X)X)

17

DRA Handbook

鍵を作成したときに指定したパスフレーズを入力します。

Enter passphrase for key '/home/you/.ssh/id_rsa':

ログインに成功すると、次のコマンドプロンプトが表示されます。

[test07@dradata ~]$

サーバのログイン環境は、登録者専用のプライベート環境になっていて、登録者以外はアクセスすることができません。実行できるコマンドは下記の

ものに制限されています。不要なファイルの削除は登録者が実施することができます。

ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

WinSCP (http://winscp.net/eng/download.php) をインストールし、起動します。

以下のように設定した後、右中央にある [Advanced...] をクリックします。

転送モードはバイナリモードにします。テキストモードで転送しないでください。

File protocol:File protocol: SFTP

Host name:Host name: ftp-private.ddbj.nig.ac.jp

Port number:Port number: 22

User name:User name: (D-way の Login ID を入力)

Password:Password: (空欄のまま)

"Authentication" にある "Private key file" で、事前に作成した PuTTY 形式の秘密鍵を選択します。

最後に、下中央にある [Login] をクリックします。

WinSCP によるシークエンスデータの転送 (Windows)WinSCP によるシークエンスデータの転送 (Windows)

18

DRA Handbook

初回接続時には警告メッセージが表示されますが、“はい” を選択してください (次回から表示されません)。次の画面では、鍵を作成した際に指定

したパスフレーズを入力します。

ログインに成功すると、左側のウィンドウにユーザの PC のフォルダ、右側のウィンドウにデータ受付サーバの登録者専用ディレクトリが表示されま

す。左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ＆ドロップし、サーバへファイルを転送します。

転送したファイルは、ファイルを選択し [削除] ボタンをクリックすることで削除できます。

Cyberduck (https://cyberduck.io/) をインストールし、起動します。

トップ画面で “Open Connection” を選択します。

使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。

Cyberduck によるシークエンスデータの転送 (Mac OS Cyberduck によるシークエンスデータの転送 (Mac OS X)X)

19

DRA Handbook

Cyberduck の起動画面で、以下のように設定し More Options の “Use Public Key Authentication” をチェックします。

Server:Server: ftp-private.ddbj.nig.ac.jp

Port:Port: 22

Username:Username: (D-wayのLogin IDを入力)

Password:Password: (空欄のまま)

Add to Keychain:Add to Keychain: (チェックを入れる)

秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されていま

す。

初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。

ログインに成功すると、データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選択しウィンドウにドラッグ＆ド

ロップすることで、ファイルをサーバに転送します。

ftp-private.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。実行できるコマンドは下記のものに制限されていま

す。不要なファイルの削除は登録者が実施することができます。

ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を超えるような場合は DRA

サーバを利用することができます。 MSS チームに連絡した後、ファイルを /submission/[submitter ID]/mass にアップロードします。

ウェブツールでのメタデータ作成ウェブツールでのメタデータ作成

20

DRA Handbook

作成した新規登録をクリックし、登録詳細ページへ移動します。

登録詳細ページへ移動

登録詳細ページ中の [Enter / Update metadata] をクリックし、メタデータ作成ツールを起動します。

メタデータ作成ツールを起動

新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合、下記のようなメッセージが表示されま

す。データファイルをアップロードします。

先にメタデータを作成しておきたい場合は、適当なファイルをアップロードしておきます。

データファイルがアップロードされていない場合

メタデータは Submission、BioProject、BioSample、Experiment、Run、Analysis (任意) オブジェクトで構成されています。メタデータ作成ツー

ルの画面上で、各項目に内容を英語で入力していきます。

入力画面で必須項目は赤色のアスタリスク記号 (＊) で示されています。

画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが表示された場合は内容を修

正してください。

公開予定日を4年以内に設定します。登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は一般に公開されません。


Submission に登録情報を入力

[register a project] をクリックして新規にプロジェクトを登録するか、もしくは、自身のアカウントで登録したプロジェクト一覧から、該当するものを1

つ選びます。従来通りプロジェクトを BioProject から個別に登録することもできます。

複数のプロジェクトを登録することはできません。自身のアカウント以外で取得されたプロジェクトを参照したい場合は DRA チームに連絡してくだ

さい。


StudyStudy

21

DRA Handbook

BioProject の新規登録、もしくは選択

BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になります。登録者などの情報は

DRA Submission で入力した内容が引き写されます。

各項目の説明は BioProject Handbook を参照してください。

BioProject の新規登録

ゲノムをアセンブルするプロジェクトでは、アセンブリに対してユニークな Locus tag prefix が必要です。

[Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND [Objective="Sequence" or "Annotation"

or "Assembly"] で Locus tag prefix 入力ボックスが現れます。

プレフィックスには３-12文字の英数字のみを含めることができます。先頭は英文字にします。数字は２文字目以降で使用できます (例: A1C)。シン

ボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区切ります (例: A1C_00001)。

WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。

prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で、NCBI に prefix を予約しにいきます。予約済みの場合はエラーになるの

で、再度希望する prefix を入力して投稿します。

複数の prefix の取得を希望する場合は DRA チームに連絡します

22

DRA Handbook

Locus tag prefix の取得

最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。

BioProject の投稿

BioProject を投稿した後、Study では投稿したプロジェクトが選択されている状態になります。

投稿されたプロジェクトが選択される

[register sample(s)] でサンプルを新規に登録するか、もしくは、自身のアカウントで作成した BioSample 一覧から、該当するものを全て選択しま

す。

SampleSample

23

DRA Handbook

一つのチェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。また、カラム上部の

ボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をクリックすると、フィルターされたサンプルが全て選択されま

す。

1 submission で登録できるサンプル数の上限は約 2,000 になります。

自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください。

BioSample の新規登録 or 選択

BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample になります。登録者などの情報は

DRA Submission で入力した内容が引き写されます。

各項目の説明は BioSample Handbook を参照してください。

BioSample の新規登録

"SAMPLE TYPE" でサンプルの種類を選択します。

Sample type については BioSample Handbook を参照してください。

Sample type の選択

24

DRA Handbook

Sample type に応じた属性入力用テンプレートファイルをダウンロードします。

必須・任意・ユーザが定義した一連の属性でサンプルを記述することが、登録作業の中心になります。

BioSample 属性の説明。独自の属性を追加したい場合は、右端に属性名と値を追加します。

サンプル属性ファイルの記入例

ファイルはタブで区切られているので、エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記載されています。* が必須属

性です。

二行目以降に１行１サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場合、bioproject_id には

PSUB 番号を入力します。値がない属性には、適宜 "missing" や "not applicable" などを記入します。

Biological/Technical replicate は別々の BioSample として登録します。登録に必要なサンプル数は FAQ: 塩基配列登録にはいくつのサンプ

ルが必要ですか? を参照してください。

サンプル属性テンプレートファイルのダウンロード

サンプル属性ファイルを選択して Continue をクリックすると validator がルールに基づいてアップロードされたファイルをチェックします。Error や

Warning メッセージが表示された場合は必要に応じて内容を修正して再度アップロードします。Error が解消されない限り次のタブに進んで内容

を submit することはできません。

Validation ルールとメッセージについては Validation rules ページをご覧ください。

BioSample の validation。この例では sample "genome bacteria strain C" の collection_date に将来の日付が記入されているエラーと geo_loc_name

25

DRA Handbook

中の国名と緯度経度が一致していない warning が表示されています。

最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることができます。

登録後は最新の属性ファイルをダウンロードすることができます。

BioSample の投稿

BioSample を投稿した後、Sample では投稿したサンプルが選択されている状態になります。

投稿されたサンプルが選択される

初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample - Experiment - Run がリンクさ

れています。Experiment/Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合には

自動生成されません。

BioProject - BioSample (1) - Experiment (1) - Run (1)

- BioSample (2) - Experiment (2) - Run (2)

- BioSample (3) - Experiment (3) - Run (3)

下の例では３つの Experiment が自動的に作成され、それぞれがユニークな BioSample を参照しています。

[Add new Experiment(s)] で Experiment の追加、右端の [Delete] で Experiment の削除をすることができます。Run から参照されている

Experiment は削除することができません。


26

DRA Handbook

各 BioSample を参照している Experiment が自動的に作成される

タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し、Alias (例 test07-

0040_Experiment_0001 〜 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブジェクトの仮の名称になります。

[Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。

Save して Alias を確定し、タブ区切りテキストファイルをダウンロード

エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。

"Title" は空であれば、自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル（例

"Illumina HiSeq 2000 paired end sequencing of SAMD00025741"）が構築されます。独自の Title を付けたい場合は、"Title" 欄にテキス

トを入力します。

"BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome bacteria strain A) で指定しま

す。":" の両側の空白は無視されます。

Experiment テンプレートファイル

入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] をクリックして読み込ませます。

Experiment をタブ区切りテキストファイルとしてアップロード

27

DRA Handbook

エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。

初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照してい

ます。

下の例では３つの Run が作成され、それぞれが作成された Experiment を参照しています。

[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することがで

きません。

Save して Alias を確定

[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルでまとめて編集できるようになります。

[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。

ファイルと Run をリンクする画面へ移動

ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を "Run/Analysis contains files" で選択し

ます。

続いて File type と MD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため

Run に登録するファイルの左端の Run/Analysis に "Run" と入力します。

ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは１つにまとめら

れます。

リード長が一定ではない fastq ファイルの場合、filetype には "generic_fastq" を選択します。

RunRun

28

DRA Handbook

データファイルの属性を入力し Run に結び付ける

Analysis (任意) が不要な場合は [Submit / Update DRA metadata] をクリックし、メタデータを投稿します。

DRA メタデータの投稿

メタデータの投稿後、データファイルを検証する処理を開始します。"Validate uploaded data files to finish this submission" をクリックします。

メタデータ投稿後、データファイルの検証に進む

必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができま

す。

[Select data files for Analysis] ボタンをクリックし、ファイルと Analysis を結び付ける画面に移動します。

Analysis の入力

データファイルの属性を入力し、Analysis とリンクさせます。タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイ

ルを区別するために左端の Run/Analysis に "Analysis" と入力します。

Analysis (任意)Analysis (任意)

29

DRA Handbook

データファイルと Analysis のリンク

[Enter / Update metadata] をクリックして内容を投稿し、データファイルの検証に進みます。Analysis 用のファイルは md5 しかチェックされませ

ん。

メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。「technical read を含

む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを XML で

登録、もしくは登録した XML を編集してアップロードします。

1. DRA 新規登録を作成し、データファイルをアップロードします。

2. Submission、Experiment、Run XML を作成します。アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する

場合、以下のように記載します。

<STUDY_REF>

<IDENTIFIERS>

<PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>

</IDENTIFIERS>

</STUDY_REF>

<SAMPLE_DESCRIPTOR>

<IDENTIFIERS>

<PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>

</IDENTIFIERS>

</SAMPLE_DESCRIPTOR>

3. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはで

きません。

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml

4. チェックした XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードしま

す。

アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイ

ルを修正してください。

XML でのメタデータ登録方法XML でのメタデータ登録方法

30

DRA Handbook

メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。「technical read を含

む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを XML で

登録、もしくは登録した XML を編集してアップロードします。

1. メタデータ作成ツールでメタデータを作成し、投稿します。

2. "metadata_submitted" になった登録の Submission、Experiment、Run、Analysis (任意) を XML ファイルとしてダウンロードします。

3. XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にしてください。その他の項目につ

いては、DRA XML schema 中の説明を参照してください。

4. アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合、以下のように記載します。

<STUDY_REF>

<IDENTIFIERS>

<PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>

</IDENTIFIERS>

</STUDY_REF>

<SAMPLE_DESCRIPTOR>

<IDENTIFIERS>

<PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>

</IDENTIFIERS>

</SAMPLE_DESCRIPTOR>

5. XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはで

きません。

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml

xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml

6. 編集した XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードします。

アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイ

XML でのメタデータ編集方法XML でのメタデータ編集方法

31

DRA Handbook

ルを修正してください。

転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの整合性が検証されます。

“Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名と

MD5 値」が一覧表示されます。

メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。

アップロードされているファイルのうちメタデータに記載されていないものは無視されます。

登録詳細画面中の [Validate data files] をクリックし、シークエンスデータファイルの検証処理を開始します。

シークエンスデータの検証処理を開始

検証処理は以下の順番で実行されます。

メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。エラー

の場合は [Enter / Update metadata] からメタデータを修正するか、ファイルを再アップロードしてください。

シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマットとメタデータとの整合性

が検証されます。作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして検証処理を停止した後、メタ

データを修正、もしくは、データファイルを再アップロードします。ファイルサイズが大きい場合は検証処理に時間がかかります。

問題が無ければ登録のステータスが "submission_validated" になり、検証されたファイルが別ディレクトリに移されます。

登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示があるまで D-way を操作せずに

お待ちください。

検証処理のいずれかのステップでエラーになると、ステータスが "data_error" になります。 [Stop validation] をクリックして検証処理を停止して

から、メタデータの編集やファイルの再アップロードを行い、再度 [Validate data files] をクリックしてください。

FAQ: データファイルの validation エラーへの対処方法は？

検証処理を停止

ステータスが "metadata_submitted" に戻るので、必要に応じてメタデータの修正、データファイルの再アップロードを行います。

データファイルの検証データファイルの検証

MD5 CheckMD5 Check

Data CheckData Check

data_error になった場合data_error になった場合

32

DRA Handbook

データを修正

メタデータとシークエンスデータに問題がなければ、プレフィックス DR (Submission (DRA)、Experiment (DRX)、Run (DRR)、Analysis (DRZ))

のアクセッション番号が発行され、ステータスが “completed” になります。アクセッション番号は “Component” に表示されます。

また、Submission に記載されている登録者には、アクセッション番号がメールで通知されます。

DRA アクセッション番号

登録者がアーカイブ済みデータファイルを確認できるようにするため、アクセッション番号が発行された Run の fastq/SRA ファイルはファイルサー

バ (ftp-private.ddbj.nig.ac.jp) 上の登録者がアクセスできる場所にコピーされます。ディスク容量の圧迫を防ぐため、コピーされたファイルは作

成から一ヶ月後に自動的に削除されます。

ディスク空き容量の予期せぬ急減等により、コピーした fastq/SRA ファイルの一ヶ月以内の削除やコピー機能の一時停止が実施されることが

あります。できるだけ事前にウェブサイト等で周知いたしますが、直前になることもあり得ることをご了承ください。

(submitter's home)/report/dra/(DRA submission accession)/fastq/

(submitter's home)/report/dra/(DRA submission accession)/sra/

例

/report/dra/DRA000001/fastq/DRR000001.fastq.bz2

/report/dra/DRA000001/fastq/DRR000002.fastq.bz2

/report/dra/DRA000001/fastq/DRR000002_1.fastq.bz2

/report/dra/DRA000001/fastq/DRR000002_2.fastq.bz2

/report/dra/DRA000001/sra/DRR000001.sra

/report/dra/DRA000001/sra/DRR000002.sra

登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり、即日公開が指定されている場合以外は、以下の原則

に則り、データが公開されるまで非公開で保持されます。

DRA では以下の場合にデータを公開しています。

アクセッション番号の発行アクセッション番号の発行

アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供

データ公開データ公開

33

DRA Handbook


A. 登録者から公開依頼の連絡を受けた場合

B. 登録者がアクセッション番号を公表した事を確認した場合。

登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しません。

公表とは、アクセッション番号を不特定多数の対象に知らせる行為 (学術論文、学会、インターネット、報道機関などを媒体とした発表) を指

します。

C. 公開予定日が到来した場合

D. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSA、WGS, CON など) が公開された場合

B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合、引用されている DRR 番号を含む DRA 登録全体が公開されま

す。

FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは？

データが公開されると、数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。

DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist

データベースデータベース更新方法更新方法

Annotated sequence database ウェブフォームから依頼

Sequence Read Archive (DRA) D-way にログインして登録者自身で更新

(配列データの追加や削除はウェブフォームから依頼)

BioProject/BioSample ウェブフォームから依頼

公開予定日は最長で4年後まで指定でき、繰り返し更新することができます。Hold Date の [Change] をクリックし、公開予定日変更ページに移動

し、予定日を変更します。

データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され、ftp にデータファイルが公開され、数日

以内に DRA 検索システムにインデックスされます。

[Enter / Update metadata] からメタデータを編集します。編集不可項目はブロックされています。必要な編集が完了後、メタデータ作成ツール

の [Submit/Update DRA metadata] ボタンをクリックし、更新内容を DRA データベースに反映させます。

関連する文献が公表された場合は、pubmed ID を含む文献情報を添えて BioProject チームに追加を依頼します。

DRA では登録が完了した Run データファイルの追加・変更はできません。別の Submission で新しく Experiment-Run のセットを追加し、既存

の BioProject や BioSample を参照することでデータを追加します。

Run と同様登録が完了した Analysis データファイルの追加・変更はできません。Analysis を差し替える場合は DRA チームにご連絡ください。

D-way にログインし、[New submission] をクリックし、新規 DRA 登録を作成します。作成した新規登録でデータを追加する対象の BioProject

と BioSample を選択します。

新たにサンプルを追加する場合は BioProject を共有し、新規登録で BioSample - Experiment - Run を追加します。

既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し、新規登録で Experiment - Run を追加します。

登録の更新登録の更新

各データベースにおける更新方法各データベースにおける更新方法

公開予定日の変更公開予定日の変更

メタデータの更新メタデータの更新

データファイルの追加データファイルの追加

34

DRA Handbook

続いて DRA Experiment と Run タブで、Experiment、Run オブジェクトとデータファイルを追加します。

メタデータを submit し、ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されま

す。

追加したデータに対応する BioProject 番号は同一ですが、Submission に対する DRA 番号は異なります。

サンプルの追加

35

DRA Handbook

サンプルへのデータ追加

登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください。

Experiment、Run や Analysis などのオブジェクトを削除する場合は DRA チームに連絡してください。

MD5 (Message Digest Algorithm 5) はハッシュ関数であり、与えられたファイルに対してハッシュ値 (MD5値、32桁の英数字) を出力します。

ファイルが破損していると MD5 値が変化します。 DRA では、到着したファイルの MD5 値の一致をチェックすることで、ファイルの破損がないかど

うか確認しています。

ファイルの MD5 値を取得します。

$ md5sum file1 file2

9F6E6800CFAE7749EB6C486619254B9C file1

B636E0063E29709B6082F324C76D0911 file2

ファイルの MD5 値を取得します。

$ md5 file1 file2

9F6E6800CFAE7749EB6C486619254B9C file1

B636E0063E29709B6082F324C76D0911 file2

Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし、起動します。

まず、 "md5" にチェックを入れてください。

[+] ボタンをクリックし、必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可能です。

最後に、[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンから、MD5 値の一覧表 (.html,

.csv, .xml) を作成することができます。

オブジェクトの削除オブジェクトの削除

補足: MD5 値補足: MD5 値

MD5 値の取得 (Linux)MD5 値の取得 (Linux)

MD5 値の取得 (Mac OS X)MD5 値の取得 (Mac OS X)

MD5 値の取得 (Windows)MD5 値の取得 (Windows)

36

DRA Handbook

37

DRA Handbook

DDBJ Sequence Read Archive HandbookRNA-Seq Random sequencing of whole transcriptome. miRNA-Seq Micro...

Documents

Transcript of DDBJ Sequence Read Archive HandbookRNA-Seq Random sequencing of whole transcriptome. miRNA-Seq Micro...