Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone...
Click here to load reader
-
Upload
lodovico-baldini -
Category
Documents
-
view
317 -
download
1
Transcript of Come si sequenzia un genoma. DNA Genomico Approccio tradizionale: sequenziamento gerarchico (clone...
Come si sequenzia un genoma
DNA Genomico
Approccio tradizionale: sequenziamento gerarchico(clone by clone)
Sequenziamento genomico
DNA genomico
Subclonaggio in vettori BAC e costruzione del minimum tiling path (MTP) tramite BAC fingerpriting
Subclonaggio di ogni BAC dell'MTP in vettori plasmidici
Sequenziamento BIDIREZIONALE (paired-end) di ogni sub-libreria
'reads'
BAC1 BAC2 BAC3
Frammenti casuali corti (2.0 kb, clonati in plasmide)
Ricostruzione computazionale della sequenza genomica=ASSEMBLAGGIO DEL GENOMA
Approccio whole genome shotgun
Sequenziamento genomico
DNA genomico
Sequenziamento automatico BIDIREZIONALE (paired-end)
'reads'
Sequenziamento genomico
Frammenti casuali corti (2.0-10.0 kb, clonati in plasmide), di lunghezza media 35-40Kbp (es. fosmidi) e lunghi 80-150Kbp (BAC)
Ricostruzione computazionale della sequenza genomica utilizzando informazioni di mappa fisica e sequenziamento di alcuni cloni BAC
mappati
Approccio misto
DNA genomico
Sequenziamento automatico BIDIREZIONALE (paired-end)
'reads'
3' 5'
5' 3'
3' 5'
5' 3'
Primer FORWARD
Primer REVERSE
INSERTO DI DNA
Seq 1
Seq 2
Read di 700-750bp
3'
Read di 700-750bp
5' 3'
5'
PER OGNI INSERTO DI DNA VENGONO PRODOTTE DUE SEQUENZE UNITE DA UNA DISTANZA NOTA
DenaturazioneSequenziamento ciclico
Distanza nota
Approccio whole genome shotgun
Shotgun sequencing: introdotto da F. Sanger nel 1975, per 25 anni il solo metodo utilizzato per sequenziare i genomi
Implementato da Ansorge et al. introducendo il concetto di PAIRED-END reads, cioè del
sequenziamento di entrambe le estremità dei frammento della libreria
Le reads al forward e al reverse (le due direzioni di lettura di un inserto) si utilizzano per unire insieme due contigs introducendo un vincolo di vicinanza e anche di direzione
Contig (it. contiguo): tratto di sequenza assemblato senza discontinuità.
Scaffolds: serie di due o più contigs uniti da lunghi inserti le cui estremità sono in diversi contig ma di cui non si conosce la regione centrale.
Contig Contig
Scaffold
20000 frammenti di 1,6-2 kb
30000 saggi di sequenziamento
11,6 Mb di sequenza totale (copertura 6.5X) 30 ore per assemblare la sequenza su un calcolatore con 512 Mb di RAM
Sequenziamento del genoma di Hemophilus Influenzae (1.8 Mb)
Il primo genoma sequenziato con l'approcccio whole genome shotgun
Craig Venter et al, 1995
Per dimostrare che era possibile sequenziare un genoma complesso con il metodo ‘shotgun’, e che
avrebbe potuto sequenziare il genoma umano in 2 anni, nel 1998 Venter ha sequenziato il genoma di Drosophila in soli 6 mesi, in collaborazione con il consorzio pubblico
Inizialmente si stimava che la sequenza sarebbe stata completa nel 2005, poi nel 2003.
La combinazione dell’approccio del consorzio pubblico con quello di Venter hanno portato alla pubblicazione di due
sequenze (più o meno indipendenti) del genoma umano nel 2000
Genome coverage• E’ dato dalla combinazione delle lunghezze di tutti gli inserti in una genoteca diviso il
contenuto 1C dell’organismo per il quale la libreria è stata costruita.
• Formula: W = NI/G (W=coverage), N=numero totale di cloni che compongono una genoteca, I=lunghezza media in paia di basi degli inserti, G=1C grandezza del genoma (in paia di basi) dell’organismo dal quale la libreria è stata preparata
• Supponiamo di avere costruito una library BAC per la vite (Vitis vinifera)
1C DNA content = 480.000.000 pb50,000 cloni con dimensione media degli inserti 110.000 pb W = (50,000 cloni x 110.000 pb)/480.000.000 pbW = 11.5X
• La libreria contiene una quantità di DNA 11.5 volte la quantità di DNA di in un genoma (=11.5 genomi equivalenti)
• Con una copertura 3X, la possibilità di trovare una particolare sequenza genomica nella libreria è approssimativamente 95%
• Aumentando la copertura a 5X aumenta la probabilità che quella libreria sia rappresentativa di un intero genoma
• Generalmente una copertura da 7-12X è ritenuta ottimale in entrambi gli approcci
La ricostruzione della sequenza del genoma: l’assemblaggio dei frammenti
Copertura del genoma con una ridondanza di 7-12 volte (copertura 7-12X) Le ‘reads’ si sovrappongono in modo da ricostruire la sequenza completa del genoma
Difficoltà.... Errori di sequenza:
1-2% delle basi sono sbagliate (errore intrinseco alla tecnologia di sequenziamento)
Sequenze ripetute
• Tempo di computazione: proporzionale al numero di reads (decine di milioni di sequenze da assemblare!)
Vantaggi e svantaggi dei due approcci
Sequenziamento gerarchico: Vantaggi: c’è una mappa fisica di BAC che pone dei vincoli quindi
assemblaggio è più facile; la sequenza risultante è di più alta qualità; Svantaggi: devo costruire una libreria BAC e una mappa fisica (fase
preparatoria lunga e di difficile coordinazione tra laboratori partecipanti)
Whole genome shotgun: Vantaggi: non costruisco una mappa fisica Svantaggi: difficoltà nel risolvere le ripetizioni; computazionalmente
problema più complesso; ottengo una sequenza ‘DRAFT’ del genoma
Programmi per assemblare genomi
TIGR (Sutton et al., Genome Science and Tecnology, 1:9-19, 1995)
CAP3 (Huang and Madan, Genome Research, 9(9):866-877, 1999)
PCAP (Huang et al., Genome Research, 13: 2164-2170, 2003)
Celera assembly (Myers et al., Science, 287(5461):2196-2204, 2000)
Phrap, P. Green, http://www.phrap.org (2002)
Jazz (Aparicio et al., Science, 297: 1301-1310, 2002)
Arachne (Batzoglou et al., Genome Research, 12 (1): 177-189, 2002 e Jaffe et al., Genome Research, 13 (1): 91-96, 2003)
Phusion (Mullikin and Ning, Genome Research, 13 (1): 81-90, 2003)
ARACHNE: assemblare un genoma
1. Trimming
2. Overlapping
3. Assembly
4. Scaffolding and repeats solving
5. Consensus sequence construction
6. Sequence verification: completness, accuracy, validity
Obiettivo: assemblare quante più possibile sequenze uniche basandosi sulla sovrapposizione (overlap) tra sequenze fino al punto in cui la maggior parte dei buchi di sequenza (gaps) sono dovuti a sequenze ripetute o a sequenze che non sono rappresentate nella libreria shotgun (es. alcune regioni del genoma non si clonano)
1. Trimming
I pezzi di sequenza dei vettori di clonaggio, di DNA genomico di E. cloni (contaminante delle preparazioni plasmidiche) e dei genomi cloroplastico (piante) e mitocondriale vengono eliminati. Elimina le regioni terminali delle sequenze, generalmente di bassa qualità.
2. Overlapping: ricerca delle sequenze che si sovrappongono
Ogni sequenza deve essere confrontata con tutte le altre sequenze come fa Blast nella ricerca di omologia di sequenza
(in teoria N2/2 comparazioni, N=numero di sequenze) RICHIEDE UNA ENORMITA’ DI TEMPO
ARACHNE: ogni sequenza viene divisa in k-meri di lunghezza fissa (k=24). Viene creata una tabella per ogni sequenza contenente tutti i possibili k-meri di quella sequenza. La tabella è ordinata in modo che tutti i k-meri identici siano consecutivi
2. Overlapping: ricerca delle sequenze che si sovrappongono
Il programma identifica tutte le istanze di paia di sequenze che condividono uno o più k-meri
Fonde assieme i k-meri condivisi e estende gli allineamenti, dove possibile
TACATAGATTAGAGAGATTACT GA
TAGTTAGATTAGAGAGATTACTAGA
2. Overlapping: ricerca delle sequenze che si sovrappongono
TACATAGATTAGAGAGATTACTAGATACATAGATTAGAGAGATTACTAGA
Corregge gli errori usando allineamenti multipli e tenendo conto di quale è la base sovrarappresentata nelle posizioni problematiche e dei valori di qualità (Phred scores) della base e di quelle immediatamente vicine
TACATAGATTAGAGAGATTATTAGATACATAGATTAGAGAGATTACTAGATACATAGATTAGAGAGATTACTAGA
C: 20C: 35T: 10C: 35C: 40
C: 20C: 35C: 30C: 35C: 40
• Da un punteggio di penalità agli allineamenti
• Accetta solo gli allineamenti con penalità bassa
# reads con C>T
3. Assemblaggio delle reads in contigs
La sovrapposizione tra sequenze per costruire i contigs viene determinata grazie al vincolo delle paired-end:
a) Arachne cerca istanze di due cloni di dimensione dell’inserto simile in cui l’overlap sia presente ad entrambe le estremità
Inserto1_End1 Inserto1_End2
Inserto2_End1 Inserto2_End2
3. Assemblaggio delle reads in contigs
b) Le istanze vengono poi concatenate costruendo complessi di queste sovrapposizioni
3. Assemblaggio delle reads in contigs
Regione ripetuta(zona potenzialmente
assemblata in modo sbagliato o misassembled)
Assembla le reads fino a potenziali confini con sequenze ripetute:COSTRUISCE GLI UNTIGS= tratti di sequenza unici nel genoma (o tratti di sequenza ripetuta che sono sufficientemente diversi da riuscire ad assemblarsi in contigs unici)
3. Assemblaggio delle reads in contigs: i contigs ripetuti
Sono contigs in cui sequenze praticamente identiche ma provenienti da regioni diverse del genoma
Si riconoscono perchè: Sono costituiti da un numero esagerato di sequenze (copertura
elevatissima) Presentano legami conflittuali con più contigs che non si
sovrappongono
Scartati nella prima fase di creazione dei supercontigs
4. Unione dei contigs a formare i supercontigs (o scaffolds)
Trova tutti i legami tra unitigs utilizzando il vincolo forward-reverse di ogni sequenza
Gli unitigs vengono ordinati e direzionati costituendo i supercontigs
Gli unitigs vengono connessi in modo incrementale (condizione necessaria ≥ 2 legame tra contigs)
Contig_1 Contig_2 Contig_3 Contig_4
Supercontig=lista ordinata e orientata di contigs, intervallata da gaps
gap gap
4. Unione dei contigs a formare i supercontigs (o scaffolds)
Riempie i gaps nei supercontigs con un contig o cammini di contigs ripetuti
gap gap
5. Costruzione della sequenza consensus
Arachne converte gli allineamenti effettuati inizialmente a due a due (pairwise) in un allineamento multiplo
TACATAGATTAGAGAGATTACT GATTCGATCAGA CTATACATAGATTAGAGAGATTACTCGATTCGATCAGAACTATAC TAGATTAGAGAGATAACTCGATTCGATCAGAACTATACATAGATTAGAGAGATTACTCGATTCGATCAGAACTATACATAGATTAGAGAGATTACTCGATTCGATCACAACTA
TACATAGATTAGAGAGATTACTCGATTCGATCAGAACTA
• Deriva ciascuna base consensus sulla base di un voto pesato
Qualità di un assemblaggio
Misure comuni di qualità sono: numero e grandezza dei contigs
Pochi contigs grandi sono meglio che molti piccoli contigs Vero perchè ci saranno meno gaps ma maggiore probabilità di
errori nell’assemblaggio
N50 = corrisponde alla grandezza del più corto supercontig (o contig) in un sottoinsieme che rappresenta la metà della dimensione dell'assemblaggio
Verifica della bontà dell’assemblaggio
La valutazione della veridicità della sequenza dell’intero genoma viene fatta a 3 livelli:
Completezza: limitata dalla possibilità di clonare e sequenziare regioni ad altissima ripetitività
Genomi microbici (piccole dimensioni): piccoli gaps dell’ordine di 1 Kpb difficili da chiudere Genomi eucariotici (grandi): lunghi tratti di regioni eterocromatiche mancano
Accuratezza:
ambiguità in sequenza verificabili tramite punteggi di probabilità Risolti aumentando la copertura in sequenza nella regione
Validità:
Problema non triviale Risoluzione:
Comparare l’assemblaggio con i dati provenienti da mappe genetiche e mappe fisiche pre-esistenti
Usare metodi per misurare la consistenza interna dell’assembaggio come: Verificare la corretta distanza tra paired-end reads di cloni di differente dimensione
Ancorare gli scaffolds ai cromosomi Approccio di ePCR (PCR elettronica) permette di
ancorare marcatori molecolari (Sequence Tagged Sites-STS, Espressed Sequence Tags-EST) posizionati su mappe di ricombinazione
GR05680,0
GR01767,2
BA002517,6BA000321,1F20236b21,8IN012623,4GR040924,4GR028025,5F2068126,1E39/M49-11426,7E32/M62-28230,5F20236a33,7
Chr 10
Mappa genetica
Mappa fisica
Finishing
1. Processo di trasformazione da una sequenza ‘draft’
in una sequenza contigua quanto più accurata possibile
(accuratezza di 1 errore ogni 10,000 bp)
Processo manuale
controllo delle posizioni dove i programmi
non ti riescono a chiamare la base corretta
2. Riempimento dei buchi di sequenza (GAP)
disegno di primers spcifici, PCR e sequenziamento
3. Garantire una copertura adeguata in tutte le regioni
Usare primer specifici per regioni specifiche
Stato del genoma umano 234 gaps rimangono nella parte eucromatica del genoma
17 milioni di basi (0.5%)
I centromeri e i telomeri non sono stati sequenziati Sarebbe necessaria una nuova tecnologia
~ 45% del genoma umano consiste in ripetizioni intersperse Transposon derived (LINEs, SINEs)
• 3 – 4% duplicazioni segmentali (> 1kb, > 90% simili), ~ 40% si crede sia assemblato in modo sbagliato
Famiglie multigeniche Grande numero di donatori anonimi hanno dato il DNA ma la maggior
parte del DNA viene da un singolo individuo Varianti strutturali individuali
duplicazioni, delezioni, inversioni, translocazioni…