Metodologie di analisi dei dati

Metodologie di analisi dei dati

Descrizione della variabilità attuale (Metodi descrittivi)

Descrivono la variabilità presente all’interno di una popolazione Permettono di confrontare popolazioni o loci differenti

Inferenze ottenute dalla variabilità attuale (Metodi inferenziali)

Permettono di ricostruire la storia genetica delle popolazioni passate (origini, movimenti, cambiamenti demografici)Richiedono la costruzione di modelli dei processi evolutivi

Analisi intra-popolazionistica

• numero di aplotipi (k)È un parametro descrittivo. È il numero dei diversi aplotipi osservati nella popolazione (diverso dal numero di individui!)

•numero di siti polimorfici (S)= Numero dei siti segregantiRappresenta il numero di siti in cui si osserva un polimorfismo.

•Gene Diversity (Haplotype Diversity) È l’eterozigosità. È una delle misure più efficaci per misurare il grado di polimorfismo ad un locus.

• mismatch distribution

Modo per rappresentare la diversità mediante confronti a coppie (sequenze o aplotipi). Si usa per dati molecolari discreti (SNPs, siti RFLPs, STRs)

• mean number of pairwise differences (MNPD) È la media della mismatch distribution

Sistemi diploidiCorrisponde concettualmente alla proporzione attesa di individui eterozigoti per il locus considerato (si assume l’equilibrio di Hardy-Weinberg)

Sistemi aploidiÈ una misura della variabilità genetica, è la probabilità che due aplotipi presi a caso nella popolazione siano diversi.

k

iipn

nh1

211

Gene Diversity (Haplotype Diversity)

MISURE DI DIVERSITA’ NUCLEOTIDICAConsiderano anche la distanza tra alleli

Diversità nucleotidica Analogo a Nei’s (software ARLEQUIN)

Diversità genetica per sequenze =probabilità che due nucleotidi presi a caso da un insieme di sequenze siano differenti

π =n(Σxixj πij)/(n-1)Sotto selezione neutrale π = θ

Modo più semplice per descrivere la quantità di diversità è contare il numero di alleli presenti. Tale misura non considera la distanza molecolare tra alleli e dipende molto dalla dimensione del campione

Nei’s gene diversity (software ARLEQUIN) misura la probabilità che due alleli presi a caso da una popolazione siano differenti.

MISURE DI IDENTITA’

θ “theta” population mutation parameter (software ARLEQUIN): definisce il livello di diversità atteso in una popolazione in termini di tasso di mutazione (μ) e deriva genetica (Ne=dimensioni effettive della popolazione)

θ = 2nNe μ

n*= 2 per loci diploidi n= 0.5 per Chr Y e mt

n= 1.5 per Chr X

*n= numero di copie ereditate per individuo.

BABINGA

44 individui

Analisi di sequenza della regione HVR-1 del mtDNA

K=11

S=19

HD=0,693 ± 0,074

BATEKE

50 individui


K=23

S=43

HD=0,944 ± 0,017

HD= Tiene in considerazione N

ESEMPIO

Mismatch distribution (software ARLEQUIN)

Partendo da una matrice di distanze a coppie viene costruito un istogramma ottenuto contando le coppie che condividono lo stesso numero di mutazioni tra le sequenze

Es. mismatch distributionBABINGA

44 individui


BATEKE

50 individui


BABINGA

0

10

20

30

40

0 2 4 6 8 10 12 14 16

BATEKE

0

10

20

30

40

0 2 4 6 8 10 12 14 16

Oltre a descrivere la diversità interna, può essere messa in relazione alla storia della popolazione, essendo influenzata da fenomeni demografici

Sovrapposizione tra statistica descrittiva ed inferenziale

Indice che permette di distinguere tra i due tipi di distribuzione

Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini.

r più basso per le distribuzioni a campana

r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

L’età dell’espansione può essere stimata in diversi modi, molti dei quali sono correlati con la distanza della media della distribuzione dall’asse Y, con il passare del tempo la media si allontana dall’asse.

MISURE DI DISTRIBUZIONE DI DIVERSITA’

Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg).

Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità.

Fst, (software ARLEQUIN) usato per i marcatori classici, misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni.

Fst = Vp/ p (1-p)dove p e Vp sono la media e la varianza delle frequenze geniche tra le due

subpopolazioni;Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni

0<Fst<1

Fst medio tra continenti = 9-13% (valori più alti dipendono da selezione o basso Ne)

Questo metodo può essere applicato all’analisi sia delle frequenze alleliche che dei dati di sequenza o di microsatelliti.

TEST DI SIGNIFICATIVITA’

Per dimostrare che la suddivisione della popolazione è maggiore di quella attesa per caso.

Bisogna escludere che:

•La popolazione non sia differenziata

•Le differenze tra le frequenze alleliche siano dovute al campionamento

•L’accoppiamento sia casuale

Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

TEST di PERMUTAZIONE (metodo Monte Carlo)

I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività.

Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.

AMOVA Analysis of Molecular Variance Φ(phi)(software ARLEQUIN)

•Tiene conto della relazione molecolare tra gli alleli piuttosto che la loro frequenza quando .

•Si usa per tutti i dati per i quali si può calcolare la distanza genetica tra gli alleli

Si definisce una particolare struttura genetica attraverso la costruzione di gruppi particolari; il metodo di analisi permette di saggiare la validità della struttura scelta. Mediante un’analisi gerarchica la varianza totale viene divisa nelle componenti dovute alle differenze intra-popolazione, tra popolazione e fra gruppi di popolazioni.

Attraverso un test di randomizzazione, viene testata la significatività della diversità genetica ai diversi livelli.

Esempio

ROTTE MIGRATORIE BANTU NELL’AFRICA SUB-SAHARIANA

GRUPPI LINGUISTICIGRUPPI LINGUISTICI

Le popolazioni Shona sono Le popolazioni Shona sono linguisticamente imparentate con i linguisticamente imparentate con i Bantu centro-orientali e probabilmente Bantu centro-orientali e probabilmente si stabilirono nell’attuale Zimbabwe si stabilirono nell’attuale Zimbabwe durante la grande espansione Bantu.durante la grande espansione Bantu.

SCOPO DELLA RICERCASCOPO DELLA RICERCA

Variabilità a livello del DNA mitocondriale

Variabilità a livello del cromosoma Y

Storia del popolamento dello Zimbabwe e stima del contributo delle due rotte migratorie Bantu

Flusso genico e del tasso di mescolamento con le popolazioni preesistenti sul territorio

Individuazione di eventuali differenti comportamenti delle linee materne e paterne

Cromosoma Y Cromosoma Y

Analisi mediante multiplex PCR di 6 loci microsatellite : Analisi mediante multiplex PCR di 6 loci microsatellite : DYS393,DYS393, DYS19, DYS389II, DYS390, DYS391, DYS385DYS19, DYS389II, DYS390, DYS391, DYS385

Analisi mediante enzimi di restrizione di 2 loci SNPsAnalisi mediante enzimi di restrizione di 2 loci SNPs

Marcatori analizzatiMarcatori analizzati

mtDNA mtDNA

Analisi della regione di controllo HVR I (16000 - 16400 bp)Analisi della regione di controllo HVR I (16000 - 16400 bp)

Analisi mediante enzimi di restrizione dei siti diagnostici della Analisi mediante enzimi di restrizione dei siti diagnostici della regione codificanteregione codificante

Diversità aplotipica

Comparazione mtDNA e cromosoma Y

Y chromosome D= 0.5249 +/- 0.3187

mtDNA D= 0.9782 +/- 0.0076

Diffusa pratica della poliginia Maggiore mobilità matrimoniale delle donne

Alta frequenza dell’aplotipo ancestrale Bantu

Presenza di numerose linee

Fst (P) Fct (P)

Y STRs

Popolazioni di lingua Bantu 0.050 (0.000)

Bantu occidentali 0.015 (0.176)

Bantu orientali 0.050 (0.000)

Totale 0.072 (0.000) 0.029 (0.047)

MtDNA HVR I

Popolazioni di lingua Bantu 0.024 (0.003)

Bantu occidentali 0.054 (0.002)

Bantu orientali 0.009 (0.169)

Totale 0.042 (0.001) 0.033 (0.006)

AMOVA

Differenziazione genetica tra Bantu orientali e occidentali

Selection in the human genome

time

NeutralNegative

(Purifying,Background)

Balancing Positive(Directional)

Bamshad & Wooding (2003) Nature Rev. Genet. 4, 99-111

TESTING FOR SELECTIONBassa diversità genetica= limitato flusso genico, forte deriva, pressione selettiva contro un set di alleli

Alta diversità genetica= elevato flusso genico, bassa deriva, selezione che favorisce l’incremento della diversità genetica

Spesso la diversità genetica è data dalla combinazione di tutti i fattori.

Diversi tipi di selezione portano a effetti diversi sulla diversità genetica.

Selezione agisce su un solo locus o su i linked loci

NEUTRALITY TEST confronto tra la diversità osservata e quella attesa sotto evoluzione neutrale. I test considerano anche i fattori demografici (es: pop umana non ha dimensioni costanti)

Il potere dei diversi tests di determinare effetti di selezione dipende:• dal tipo di selezione •dalla forza della selezione• dalla lunghezza del periodo in cui la selezione ha agito o agisce

1.CODON-BASED SELECTION TESTS

SITI SINONIMI, si assume siano sotto neutralità dS o KS

SITI NON SINONIMI dN o KN

dN / dS =ω dN =dS ω=0 neutralità

dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi)

dN <dS ω<1 selezione purificatrice

(software PAML)

Metodologie di analisi dei dati

Documents

Transcript of Metodologie di analisi dei dati