Metodologie di analisi dei dati
description
Transcript of Metodologie di analisi dei dati
![Page 1: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/1.jpg)
Metodologie di analisi dei dati
Descrizione della variabilità attuale (Metodi descrittivi)
Descrivono la variabilità presente all’interno di una popolazione Permettono di confrontare popolazioni o loci differenti
Inferenze ottenute dalla variabilità attuale (Metodi inferenziali)
Permettono di ricostruire la storia genetica delle popolazioni passate (origini, movimenti, cambiamenti demografici)Richiedono la costruzione di modelli dei processi evolutivi
![Page 2: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/2.jpg)
Analisi intra-popolazionistica
• numero di aplotipi (k)È un parametro descrittivo. È il numero dei diversi aplotipi osservati nella popolazione (diverso dal numero di individui!)
•numero di siti polimorfici (S)= Numero dei siti segregantiRappresenta il numero di siti in cui si osserva un polimorfismo.
•Gene Diversity (Haplotype Diversity) È l’eterozigosità. È una delle misure più efficaci per misurare il grado di polimorfismo ad un locus.
• mismatch distribution
Modo per rappresentare la diversità mediante confronti a coppie (sequenze o aplotipi). Si usa per dati molecolari discreti (SNPs, siti RFLPs, STRs)
• mean number of pairwise differences (MNPD) È la media della mismatch distribution
![Page 3: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/3.jpg)
Sistemi diploidiCorrisponde concettualmente alla proporzione attesa di individui eterozigoti per il locus considerato (si assume l’equilibrio di Hardy-Weinberg)
Sistemi aploidiÈ una misura della variabilità genetica, è la probabilità che due aplotipi presi a caso nella popolazione siano diversi.
k
iipn
nh1
211
Gene Diversity (Haplotype Diversity)
![Page 4: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/4.jpg)
MISURE DI DIVERSITA’ NUCLEOTIDICAConsiderano anche la distanza tra alleli
Diversità nucleotidica Analogo a Nei’s (software ARLEQUIN)
Diversità genetica per sequenze =probabilità che due nucleotidi presi a caso da un insieme di sequenze siano differenti
π =n(Σxixj πij)/(n-1)Sotto selezione neutrale π = θ
Modo più semplice per descrivere la quantità di diversità è contare il numero di alleli presenti. Tale misura non considera la distanza molecolare tra alleli e dipende molto dalla dimensione del campione
Nei’s gene diversity (software ARLEQUIN) misura la probabilità che due alleli presi a caso da una popolazione siano differenti.
MISURE DI IDENTITA’
![Page 5: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/5.jpg)
θ “theta” population mutation parameter (software ARLEQUIN): definisce il livello di diversità atteso in una popolazione in termini di tasso di mutazione (μ) e deriva genetica (Ne=dimensioni effettive della popolazione)
θ = 2nNe μ
n*= 2 per loci diploidi n= 0.5 per Chr Y e mt
n= 1.5 per Chr X
*n= numero di copie ereditate per individuo.
![Page 6: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/6.jpg)
BABINGA
44 individui
Analisi di sequenza della regione HVR-1 del mtDNA
K=11
S=19
HD=0,693 ± 0,074
BATEKE
50 individui
Analisi di sequenza della regione HVR-1 del mtDNA
K=23
S=43
HD=0,944 ± 0,017
HD= Tiene in considerazione N
ESEMPIO
![Page 7: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/7.jpg)
Mismatch distribution (software ARLEQUIN)
Partendo da una matrice di distanze a coppie viene costruito un istogramma ottenuto contando le coppie che condividono lo stesso numero di mutazioni tra le sequenze
![Page 8: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/8.jpg)
Es. mismatch distributionBABINGA
44 individui
Analisi di sequenza della regione HVR-1 del mtDNA
BATEKE
50 individui
Analisi di sequenza della regione HVR-1 del mtDNA
BABINGA
0
10
20
30
40
0 2 4 6 8 10 12 14 16
BATEKE
0
10
20
30
40
0 2 4 6 8 10 12 14 16
Oltre a descrivere la diversità interna, può essere messa in relazione alla storia della popolazione, essendo influenzata da fenomeni demografici
Sovrapposizione tra statistica descrittiva ed inferenziale
![Page 9: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/9.jpg)
Indice che permette di distinguere tra i due tipi di distribuzione
Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini.
r più basso per le distribuzioni a campana
r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.
![Page 10: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/10.jpg)
L’età dell’espansione può essere stimata in diversi modi, molti dei quali sono correlati con la distanza della media della distribuzione dall’asse Y, con il passare del tempo la media si allontana dall’asse.
![Page 11: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/11.jpg)
MISURE DI DISTRIBUZIONE DI DIVERSITA’
Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg).
Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità.
Fst, (software ARLEQUIN) usato per i marcatori classici, misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni.
Fst = Vp/ p (1-p)dove p e Vp sono la media e la varianza delle frequenze geniche tra le due
subpopolazioni;Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni
0<Fst<1
Fst medio tra continenti = 9-13% (valori più alti dipendono da selezione o basso Ne)
Questo metodo può essere applicato all’analisi sia delle frequenze alleliche che dei dati di sequenza o di microsatelliti.
![Page 12: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/12.jpg)
TEST DI SIGNIFICATIVITA’
Per dimostrare che la suddivisione della popolazione è maggiore di quella attesa per caso.
Bisogna escludere che:
•La popolazione non sia differenziata
•Le differenze tra le frequenze alleliche siano dovute al campionamento
•L’accoppiamento sia casuale
Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).
![Page 13: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/13.jpg)
TEST di PERMUTAZIONE (metodo Monte Carlo)
I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività.
Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.
![Page 14: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/14.jpg)
AMOVA Analysis of Molecular Variance Φ(phi)(software ARLEQUIN)
•Tiene conto della relazione molecolare tra gli alleli piuttosto che la loro frequenza quando .
•Si usa per tutti i dati per i quali si può calcolare la distanza genetica tra gli alleli
Si definisce una particolare struttura genetica attraverso la costruzione di gruppi particolari; il metodo di analisi permette di saggiare la validità della struttura scelta. Mediante un’analisi gerarchica la varianza totale viene divisa nelle componenti dovute alle differenze intra-popolazione, tra popolazione e fra gruppi di popolazioni.
Attraverso un test di randomizzazione, viene testata la significatività della diversità genetica ai diversi livelli.
![Page 15: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/15.jpg)
Esempio
ROTTE MIGRATORIE BANTU NELL’AFRICA SUB-SAHARIANA
GRUPPI LINGUISTICIGRUPPI LINGUISTICI
Le popolazioni Shona sono Le popolazioni Shona sono linguisticamente imparentate con i linguisticamente imparentate con i Bantu centro-orientali e probabilmente Bantu centro-orientali e probabilmente si stabilirono nell’attuale Zimbabwe si stabilirono nell’attuale Zimbabwe durante la grande espansione Bantu.durante la grande espansione Bantu.
![Page 16: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/16.jpg)
SCOPO DELLA RICERCASCOPO DELLA RICERCA
Variabilità a livello del DNA mitocondriale
Variabilità a livello del cromosoma Y
Storia del popolamento dello Zimbabwe e stima del contributo delle due rotte migratorie Bantu
Flusso genico e del tasso di mescolamento con le popolazioni preesistenti sul territorio
Individuazione di eventuali differenti comportamenti delle linee materne e paterne
![Page 17: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/17.jpg)
Cromosoma Y Cromosoma Y
Analisi mediante multiplex PCR di 6 loci microsatellite : Analisi mediante multiplex PCR di 6 loci microsatellite : DYS393,DYS393, DYS19, DYS389II, DYS390, DYS391, DYS385DYS19, DYS389II, DYS390, DYS391, DYS385
Analisi mediante enzimi di restrizione di 2 loci SNPsAnalisi mediante enzimi di restrizione di 2 loci SNPs
Marcatori analizzatiMarcatori analizzati
mtDNA mtDNA
Analisi della regione di controllo HVR I (16000 - 16400 bp)Analisi della regione di controllo HVR I (16000 - 16400 bp)
Analisi mediante enzimi di restrizione dei siti diagnostici della Analisi mediante enzimi di restrizione dei siti diagnostici della regione codificanteregione codificante
![Page 18: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/18.jpg)
Diversità aplotipica
Comparazione mtDNA e cromosoma Y
Y chromosome D= 0.5249 +/- 0.3187
mtDNA D= 0.9782 +/- 0.0076
Diffusa pratica della poliginia Maggiore mobilità matrimoniale delle donne
Alta frequenza dell’aplotipo ancestrale Bantu
Presenza di numerose linee
![Page 19: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/19.jpg)
Fst (P) Fct (P)
Y STRs
Popolazioni di lingua Bantu 0.050 (0.000)
Bantu occidentali 0.015 (0.176)
Bantu orientali 0.050 (0.000)
Totale 0.072 (0.000) 0.029 (0.047)
MtDNA HVR I
Popolazioni di lingua Bantu 0.024 (0.003)
Bantu occidentali 0.054 (0.002)
Bantu orientali 0.009 (0.169)
Totale 0.042 (0.001) 0.033 (0.006)
AMOVA
Differenziazione genetica tra Bantu orientali e occidentali
![Page 20: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/20.jpg)
Selection in the human genome
time
NeutralNegative
(Purifying,Background)
Balancing Positive(Directional)
Bamshad & Wooding (2003) Nature Rev. Genet. 4, 99-111
![Page 21: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/21.jpg)
TESTING FOR SELECTIONBassa diversità genetica= limitato flusso genico, forte deriva, pressione selettiva contro un set di alleli
Alta diversità genetica= elevato flusso genico, bassa deriva, selezione che favorisce l’incremento della diversità genetica
Spesso la diversità genetica è data dalla combinazione di tutti i fattori.
Diversi tipi di selezione portano a effetti diversi sulla diversità genetica.
Selezione agisce su un solo locus o su i linked loci
NEUTRALITY TEST confronto tra la diversità osservata e quella attesa sotto evoluzione neutrale. I test considerano anche i fattori demografici (es: pop umana non ha dimensioni costanti)
Il potere dei diversi tests di determinare effetti di selezione dipende:• dal tipo di selezione •dalla forza della selezione• dalla lunghezza del periodo in cui la selezione ha agito o agisce
![Page 22: Metodologie di analisi dei dati](https://reader036.fdocument.pub/reader036/viewer/2022062315/56815d9f550346895dcbc7bb/html5/thumbnails/22.jpg)
1.CODON-BASED SELECTION TESTS
SITI SINONIMI, si assume siano sotto neutralità dS o KS
SITI NON SINONIMI dN o KN
dN / dS =ω dN =dS ω=0 neutralità
dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi)
dN <dS ω<1 selezione purificatrice
(software PAML)