Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone...

Come si sequenzia un genoma

DNA Genomico

Approccio tradizionale: sequenziamento gerarchico(clone by clone)

Sequenziamento genomico

DNA genomico

Subclonaggio in vettori BAC e costruzione del minimum tiling path (MTP) tramite BAC fingerpriting

Subclonaggio di ogni BAC dell'MTP in vettori plasmidici

Sequenziamento BIDIREZIONALE (paired-end) di ogni sub-libreria

'reads'

BAC1 BAC2 BAC3

Frammenti casuali corti (2.0 kb, clonati in plasmide)

Ricostruzione computazionale della sequenza genomica=ASSEMBLAGGIO DEL GENOMA

Approccio whole genome shotgun


DNA genomico

Sequenziamento automatico BIDIREZIONALE (paired-end)

'reads'


Frammenti casuali corti (2.0-10.0 kb, clonati in plasmide), di lunghezza media 35-40Kbp (es. fosmidi) e lunghi 80-150Kbp (BAC)

Ricostruzione computazionale della sequenza genomica utilizzando informazioni di mappa fisica e sequenziamento di alcuni cloni BAC

mappati

Approccio misto

DNA genomico

Sequenziamento automatico BIDIREZIONALE (paired-end)

'reads'

3' 5'

5' 3'

3' 5'

5' 3'

Primer FORWARD

Primer REVERSE

INSERTO DI DNA

Seq 1

Seq 2

Read di 700-750bp

3'

Read di 700-750bp

5' 3'

5'

PER OGNI INSERTO DI DNA VENGONO PRODOTTE DUE SEQUENZE UNITE DA UNA DISTANZA NOTA

DenaturazioneSequenziamento ciclico

Distanza nota

Approccio whole genome shotgun

Shotgun sequencing: introdotto da F. Sanger nel 1975, per 25 anni il solo metodo utilizzato per sequenziare i genomi

Implementato da Ansorge et al. introducendo il concetto di PAIRED-END reads, cioè del

sequenziamento di entrambe le estremità dei frammento della libreria

Le reads al forward e al reverse (le due direzioni di lettura di un inserto) si utilizzano per unire insieme due contigs introducendo un vincolo di vicinanza e anche di direzione

Contig (it. contiguo): tratto di sequenza assemblato senza discontinuità.

Scaffolds: serie di due o più contigs uniti da lunghi inserti le cui estremità sono in diversi contig ma di cui non si conosce la regione centrale.

Contig Contig

Scaffold

20000 frammenti di 1,6-2 kb

30000 saggi di sequenziamento

11,6 Mb di sequenza totale (copertura 6.5X) 30 ore per assemblare la sequenza su un calcolatore con 512 Mb di RAM

Sequenziamento del genoma di Hemophilus Influenzae (1.8 Mb)

Il primo genoma sequenziato con l'approcccio whole genome shotgun

Craig Venter et al, 1995

Per dimostrare che era possibile sequenziare un genoma complesso con il metodo ‘shotgun’, e che

avrebbe potuto sequenziare il genoma umano in 2 anni, nel 1998 Venter ha sequenziato il genoma di Drosophila in soli 6 mesi, in collaborazione con il consorzio pubblico

Inizialmente si stimava che la sequenza sarebbe stata completa nel 2005, poi nel 2003.

La combinazione dell’approccio del consorzio pubblico con quello di Venter hanno portato alla pubblicazione di due

sequenze (più o meno indipendenti) del genoma umano nel 2000

Genome coverage• E’ dato dalla combinazione delle lunghezze di tutti gli inserti in una genoteca diviso il

contenuto 1C dell’organismo per il quale la libreria è stata costruita.

• Formula: W = NI/G (W=coverage), N=numero totale di cloni che compongono una genoteca, I=lunghezza media in paia di basi degli inserti, G=1C grandezza del genoma (in paia di basi) dell’organismo dal quale la libreria è stata preparata

• Supponiamo di avere costruito una library BAC per la vite (Vitis vinifera)

1C DNA content = 480.000.000 pb50,000 cloni con dimensione media degli inserti 110.000 pb W = (50,000 cloni x 110.000 pb)/480.000.000 pbW = 11.5X

• La libreria contiene una quantità di DNA 11.5 volte la quantità di DNA di in un genoma (=11.5 genomi equivalenti)

• Con una copertura 3X, la possibilità di trovare una particolare sequenza genomica nella libreria è approssimativamente 95%

• Aumentando la copertura a 5X aumenta la probabilità che quella libreria sia rappresentativa di un intero genoma

• Generalmente una copertura da 7-12X è ritenuta ottimale in entrambi gli approcci

La ricostruzione della sequenza del genoma: l’assemblaggio dei frammenti

Copertura del genoma con una ridondanza di 7-12 volte (copertura 7-12X) Le ‘reads’ si sovrappongono in modo da ricostruire la sequenza completa del genoma

Difficoltà.... Errori di sequenza:

1-2% delle basi sono sbagliate (errore intrinseco alla tecnologia di sequenziamento)

Sequenze ripetute

• Tempo di computazione: proporzionale al numero di reads (decine di milioni di sequenze da assemblare!)

Vantaggi e svantaggi dei due approcci

Sequenziamento gerarchico: Vantaggi: c’è una mappa fisica di BAC che pone dei vincoli quindi

assemblaggio è più facile; la sequenza risultante è di più alta qualità; Svantaggi: devo costruire una libreria BAC e una mappa fisica (fase

preparatoria lunga e di difficile coordinazione tra laboratori partecipanti)

Whole genome shotgun: Vantaggi: non costruisco una mappa fisica Svantaggi: difficoltà nel risolvere le ripetizioni; computazionalmente

problema più complesso; ottengo una sequenza ‘DRAFT’ del genoma

Programmi per assemblare genomi

TIGR (Sutton et al., Genome Science and Tecnology, 1:9-19, 1995)

CAP3 (Huang and Madan, Genome Research, 9(9):866-877, 1999)

PCAP (Huang et al., Genome Research, 13: 2164-2170, 2003)

Celera assembly (Myers et al., Science, 287(5461):2196-2204, 2000)

Phrap, P. Green, http://www.phrap.org (2002)

Jazz (Aparicio et al., Science, 297: 1301-1310, 2002)

Arachne (Batzoglou et al., Genome Research, 12 (1): 177-189, 2002 e Jaffe et al., Genome Research, 13 (1): 91-96, 2003)

Phusion (Mullikin and Ning, Genome Research, 13 (1): 81-90, 2003)

http://www.phrap.org/

ARACHNE: assemblare un genoma

1. Trimming

2. Overlapping

3. Assembly

4. Scaffolding and repeats solving

5. Consensus sequence construction

6. Sequence verification: completness, accuracy, validity

Obiettivo: assemblare quante più possibile sequenze uniche basandosi sulla sovrapposizione (overlap) tra sequenze fino al punto in cui la maggior parte dei buchi di sequenza (gaps) sono dovuti a sequenze ripetute o a sequenze che non sono rappresentate nella libreria shotgun (es. alcune regioni del genoma non si clonano)

1. Trimming

I pezzi di sequenza dei vettori di clonaggio, di DNA genomico di E. cloni (contaminante delle preparazioni plasmidiche) e dei genomi cloroplastico (piante) e mitocondriale vengono eliminati. Elimina le regioni terminali delle sequenze, generalmente di bassa qualità.

2. Overlapping: ricerca delle sequenze che si sovrappongono

Ogni sequenza deve essere confrontata con tutte le altre sequenze come fa Blast nella ricerca di omologia di sequenza

(in teoria N2/2 comparazioni, N=numero di sequenze) RICHIEDE UNA ENORMITA’ DI TEMPO

ARACHNE: ogni sequenza viene divisa in k-meri di lunghezza fissa (k=24). Viene creata una tabella per ogni sequenza contenente tutti i possibili k-meri di quella sequenza. La tabella è ordinata in modo che tutti i k-meri identici siano consecutivi


Il programma identifica tutte le istanze di paia di sequenze che condividono uno o più k-meri

Fonde assieme i k-meri condivisi e estende gli allineamenti, dove possibile

TACATAGATTAGAGAGATTACT GA

TAGTTAGATTAGAGAGATTACTAGA


TACATAGATTAGAGAGATTACTAGATACATAGATTAGAGAGATTACTAGA

Corregge gli errori usando allineamenti multipli e tenendo conto di quale è la base sovrarappresentata nelle posizioni problematiche e dei valori di qualità (Phred scores) della base e di quelle immediatamente vicine

TACATAGATTAGAGAGATTATTAGATACATAGATTAGAGAGATTACTAGATACATAGATTAGAGAGATTACTAGA

C: 20C: 35T: 10C: 35C: 40

C: 20C: 35C: 30C: 35C: 40

• Da un punteggio di penalità agli allineamenti

• Accetta solo gli allineamenti con penalità bassa

# reads con C>T

3. Assemblaggio delle reads in contigs

La sovrapposizione tra sequenze per costruire i contigs viene determinata grazie al vincolo delle paired-end:

a) Arachne cerca istanze di due cloni di dimensione dell’inserto simile in cui l’overlap sia presente ad entrambe le estremità

Inserto1_End1 Inserto1_End2

Inserto2_End1 Inserto2_End2


b) Le istanze vengono poi concatenate costruendo complessi di queste sovrapposizioni


Regione ripetuta(zona potenzialmente

assemblata in modo sbagliato o misassembled)

Assembla le reads fino a potenziali confini con sequenze ripetute:COSTRUISCE GLI UNTIGS= tratti di sequenza unici nel genoma (o tratti di sequenza ripetuta che sono sufficientemente diversi da riuscire ad assemblarsi in contigs unici)

3. Assemblaggio delle reads in contigs: i contigs ripetuti

Sono contigs in cui sequenze praticamente identiche ma provenienti da regioni diverse del genoma

Si riconoscono perchè: Sono costituiti da un numero esagerato di sequenze (copertura

elevatissima) Presentano legami conflittuali con più contigs che non si

sovrappongono

Scartati nella prima fase di creazione dei supercontigs

4. Unione dei contigs a formare i supercontigs (o scaffolds)

Trova tutti i legami tra unitigs utilizzando il vincolo forward-reverse di ogni sequenza

Gli unitigs vengono ordinati e direzionati costituendo i supercontigs

Gli unitigs vengono connessi in modo incrementale (condizione necessaria ≥ 2 legame tra contigs)

Contig_1 Contig_2 Contig_3 Contig_4

Supercontig=lista ordinata e orientata di contigs, intervallata da gaps

gap gap

4. Unione dei contigs a formare i supercontigs (o scaffolds)

Riempie i gaps nei supercontigs con un contig o cammini di contigs ripetuti

gap gap

5. Costruzione della sequenza consensus

Arachne converte gli allineamenti effettuati inizialmente a due a due (pairwise) in un allineamento multiplo

TACATAGATTAGAGAGATTACT GATTCGATCAGA CTATACATAGATTAGAGAGATTACTCGATTCGATCAGAACTATAC TAGATTAGAGAGATAACTCGATTCGATCAGAACTATACATAGATTAGAGAGATTACTCGATTCGATCAGAACTATACATAGATTAGAGAGATTACTCGATTCGATCACAACTA

TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA

• Deriva ciascuna base consensus sulla base di un voto pesato

Qualità di un assemblaggio

Misure comuni di qualità sono: numero e grandezza dei contigs

Pochi contigs grandi sono meglio che molti piccoli contigs Vero perchè ci saranno meno gaps ma maggiore probabilità di

errori nell’assemblaggio

N50 = corrisponde alla grandezza del più corto supercontig (o contig) in un sottoinsieme che rappresenta la metà della dimensione dell'assemblaggio

Verifica della bontà dell’assemblaggio

La valutazione della veridicità della sequenza dell’intero genoma viene fatta a 3 livelli:

Completezza: limitata dalla possibilità di clonare e sequenziare regioni ad altissima ripetitività

Genomi microbici (piccole dimensioni): piccoli gaps dell’ordine di 1 Kpb difficili da chiudere Genomi eucariotici (grandi): lunghi tratti di regioni eterocromatiche mancano

Accuratezza:

ambiguità in sequenza verificabili tramite punteggi di probabilità Risolti aumentando la copertura in sequenza nella regione

Validità:

Problema non triviale Risoluzione:

Comparare l’assemblaggio con i dati provenienti da mappe genetiche e mappe fisiche pre-esistenti

Usare metodi per misurare la consistenza interna dell’assembaggio come: Verificare la corretta distanza tra paired-end reads di cloni di differente dimensione

Ancorare gli scaffolds ai cromosomi Approccio di ePCR (PCR elettronica) permette di

ancorare marcatori molecolari (Sequence Tagged Sites-STS, Espressed Sequence Tags-EST) posizionati su mappe di ricombinazione

GR05680,0

GR01767,2

BA002517,6BA000321,1F20236b21,8IN012623,4GR040924,4GR028025,5F2068126,1E39/M49-11426,7E32/M62-28230,5F20236a33,7

Chr 10

Mappa genetica

Mappa fisica

Finishing

1. Processo di trasformazione da una sequenza ‘draft’

in una sequenza contigua quanto più accurata possibile

(accuratezza di 1 errore ogni 10,000 bp)

Processo manuale

controllo delle posizioni dove i programmi

non ti riescono a chiamare la base corretta

2. Riempimento dei buchi di sequenza (GAP)

disegno di primers spcifici, PCR e sequenziamento

3. Garantire una copertura adeguata in tutte le regioni

Usare primer specifici per regioni specifiche

Stato del genoma umano 234 gaps rimangono nella parte eucromatica del genoma

17 milioni di basi (0.5%)

I centromeri e i telomeri non sono stati sequenziati Sarebbe necessaria una nuova tecnologia

~ 45% del genoma umano consiste in ripetizioni intersperse Transposon derived (LINEs, SINEs)

• 3 – 4% duplicazioni segmentali (> 1kb, > 90% simili), ~ 40% si crede sia assemblato in modo sbagliato

Famiglie multigeniche Grande numero di donatori anonimi hanno dato il DNA ma la maggior

parte del DNA viene da un singolo individuo Varianti strutturali individuali

duplicazioni, delezioni, inversioni, translocazioni…

Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone...

Documents

Transcript of Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone...