LEZIONI DI STATISTICA Lezione 1: Cenni di...
Transcript of LEZIONI DI STATISTICA Lezione 1: Cenni di...
LEZIONI DI STATISTICA
Lezione 1: Cenni di probabilita’
Diego di Bernardo
Edito da Vincenza Maselli
CENNI DI PROBABILITÀ
La probabilità è la teoria matematica alla base della statistica.
DEFINIZIONI
Esempi:
DADO:
€
S = 1,2,3,4,5,6{ }
MONETA:
€
S = testa,croce{ }2 MONETE: S={(testa,testa) (testa,croce) (croce,testa) (croce,croce)}
€
xi è il valore assunto dalla v. a. X nell’esperimento i. Viene anchechiamato realizzazione.
€
s = x1,x2...,xN{ }
S SPAZIO DI CAMPIONI: insieme di tutti i possibilirisultati di un esperimento.
X VARIABILE ALATORIA,
€
X ∈ S può assumere uno deivalori di S
PROBABILITÀ:
€
xi ∈ S→ P X = xi( )∈ 0,1[ ]
P ha le seguenti proprietà:1.
€
P(X = x1) + P(X = x2) + ...+ P(X = xn ) =1
€
P(X = xi)i=1
N∑
2.
€
∀i,P(X = xi)∈ 0,1[ ]
Esempi:
€
S = testa,croce{ }
€
X ∈ S
Due dadi: abbiamo bisogno di due variabili aleatorie
€
S = 1,2,3,4,5,6{ }
€
X ∈ S
€
(X,Y )∈ SxS = (1,1),(1,2),(1,3)...{ }
€
Y ∈ S
Osserviamo:
€
P(X =1,Y = 2) =136
=16.16
= P(X =1)P(X = 2)
€
xi P(
€
xi)testa 1/2
croce 1/2
€
(xi,yi)
€
P(X = xi,Y = yi)
1 1 1/361 2 1/361 3 1/361 4 1/361 5 1/361 6 1/362 1 1/36… …
REGOLA 1: P(A,B) = P(A)P(B) SE E SOLO SE A e Bsono INDIPENDENTI
Esempio:
€
S = blu,verde,marrone{ }
€
X ∈ S v. a. colore occhio sinistro,
€
Y ∈ S v. a. colore occhio destro
€
P(X = blu) = P(X = verde) = P(X = marrone) =13
€
P(X = marrone,Y = marrone)?
=P(X = marrone)P(Y = marrone) =19
è vero? Chiediamo:Nome X(o. s) Y(o.
d.)1) M M2) M M3) M M
€
P(X = marrone,Y = marrone) =1 X ed Y non sono INDIPENDENTI
€
P(X = marrone,Y = marrone) = P(X = marrone)P(Y = marrone /X = marrone) =1/3*1=1/3
Esempio:DADO:
€
S = 1,2,3,4,5,6{ }
€
X ∈ S
€
P(X =1− oppure − X = 2) = P(X =1) + P(X =1) =16
+16
=13
REGOLA 2:
€
P(A,B) = P(A)P(B /A) = P(B)P(A /B)
REGOLA 3: P(A oppure B) = P(A) + P(B)
CALCOLO DELLE PROBABILITÀ
Se ho N possibili risultati nello spazio S tutti equiprobabili allora
€
P(X = yi) =1N
Esempio: Lancio di due dadi
Ogni dado ha n = 6 possibili risultati, quindi per due (k=2) dadi avrò
N= 62 = 36 possibili risultati.
Lancio di 3 dadi N = 63
Lancio di 3 monete N = 23
Definizione matematica:
Esempi:
3! = 3*2*1=6
10! = 10*9*8*7*6*5*4*3*2*1
100! = troppo grande!
POTENZA:
€
N = nk numero di elementi di S per l’unione di kesperimenti, dove ogni esperimento ha n possibili risultati.
FATTORIALE
€
n!= (n)(n −1)(n − 2)...2*1
Esempio:
k = 2 coppie di topi
n = 3 topi
topo verde
topo nero
€
3!(3− 2)!2!
=61*2
= 3
topo rosso
Esempio:
Coppie di topi
€
3!(3− 2)!
=61
= 6
COMBINAZIONI
€
N =n!
(n − k)!k! combinazioni di k oggetti da n oggetti
2
1
2
3
PERMUTAZIONI
€
N =n!
(n − k)! permutazione di k oggetti
1
2
3
4
5
6
32=9
PERMUTAZIONI CON RIPETIZIONI
€
≡ POTENZA
€
N = nk
1
2
3
4
5
6
7
8
9
DESCRIZIONE DI VARIABILE ALEATORIA
v. a.
€
X ∈ S
€
X = xi ∈ S→ P X = xi( )∈ 0,1[ ]P(X = xi) = pi
Esempio:
DADO
€
S = 1,2,3,4,5,6{ }
€
X ∈ S
€
E(X) =161+162 +
163+
164 +
165 +
166 =
216
=72
= 3,5
Esempio: somma di due dadi
€
E(X +Y ) = E(X) + E(Y ) = 7
VALORE ATTESO O MEDIA PESATA
€
µx ≡ E(X) = pixii=1
N
∑
PROPRIETÀ DI LINEARITÀ:
€
E(aX ± bY ) = aE(X) ± bE(Y )
= P1x1+P2x2+…+PnXn
Esempio: DADO a 7 facce
€
XM = 4
€
S = 1,2,3,4,5,6,7{ }
€
P(xi > XM ) = P(xi = 5) + P(xi = 6) + P(xi = 7) =37
€
P(xi < XM ) = P(xi =1) + P(xi = 2) + P(xi = 3) =37
Per gli spazi di S con N pari si usa la media dei valori centrali
MEDIANA:
€
XM ≡ M(X) = P(X = xi > xM ) = P(X = xi < xM )
VARIANZA
€
x2
σ ≡VAR(X) = E[(X −µx )2] = pi(xi −µx )
2
i=1
N
∑
µx ≡ E(X)
DEVIAZIONE STANDARD
€
xσ = x2
σ ≡ STD(X) = VAR(X)
€
µx ≠ µy
σ x =σ y
€
µx = µy
σ x ≠σ y
STD(X)STD(Y)
µx µy
XY
X
Y
µx = µy
€
STD XY
=
XY
VAR(X)X 2 +
VAR(Y )Y 2
STD(X +Y ) ≠ STD(X) + STD(Y )STD(X ±Y ) = VAR(X) +VAR(Y )
COV(X,Y)
Se X, Y sonoindipendenti COV(X,Y)= 0
PROPRIETÀ:
€
VAR(aX + bY ) = a2VAR(X) + b2VAR(Y ) + 2abE[(x −µx )(y −µy )]
DISTRIBUZIONE DI PROBABILITÀ
La funzione di probabilità può assumere diverse “forme”:
UNIFORME
TRIANGOLARE
UNIFORME
GAUSSIANAO
NORMALE
v. a.discreta
v.a.continua
Se X è un numero reale (es: misura dell’espressione di un gene)
P(X)
P(X)
f(X)
f(X)
b
aPARAMETRI
µx
σx PARAMETRI
LEZIONI DI STATISTICA
Lezione 2: Statistica
Diego Di Bernardo
Edito da Vincenza Maselli
STATISTICA
Che cos’è la statistica? A cosa serve?
Esempio:
Gene A: v.a. X
€
P(X = xi)Domanda: Il gene A è espresso oppure no nel topo wt? Quanto èespresso?
Esperimento: è espresso? Quanto?Risposta classica SI oppure NO gene A = 4Risposta statistica Si (96%) e NO (4%) gene A = 4,1 ± 0,2
Per dare la risposta statistica dobbiamo conoscere P(X). MA NON LA
CONOSCIAMO! Come posso fare?
Soluzione 1: Ripeto lo stesso esperimento molte volte, (L)
Soluzione 2: Cerco di stimare solo alcune proprietà di X, come la media
E(X) e la varianza E[(X-E(X))2]
INFERENZA STATISTICA: stima di P(X) dalle misure sperimentali
Problema Devo fare troppiesperimenti
2%1% 1%4%
40%
50%
P(X)
1 2 3 4 5 6
Gene A
Numero di volte che il gene A ècompreso tra 0 e 1 diviso ilnumero di esperimenti K/L
STIMA DELLA MEDIA
X v. a.
€
P(X)X ∈= x1,x2,...,xn{ }
€
µx = E(X) = P1x1 + ...+ PnXn
Soluzione: eseguo L misure di X e stimo
€
µx da queste L osservazioni:
Perché è solo una stima?
€
µx = P1x1 + P2x2 + ...+ PnXn
Nella stima invece conosco solo alcuni (L) degli elementi di S e non
conosco Pi che quindi assumo essere
€
1L
ProblemaNon conosco P1,P2,…,Pn
STIMA DELLA MEDIA
€
ˆ µ x =a1 + a2 + ...+ aL
L
Tutti i possibili valori di X,cioè gli elementi di S
STIMA DELLA VARIANZA
€
ˆ σ x2 =
(a1 − ˆ µ x )2 + (a2 − ˆ µ x )
2 + ...+ (aL − ˆ µ x )2
L −1
STIMA DELLA DEVIAZIONE STANDARD
€
ˆ σ x = ˆ σ x2
PROPRIETÀ
€
ˆ µ x+y = ˆ µ x + ˆ µ y
€
ˆ σ x+y2 = ˆ σ x
2 + ˆ σ y2
INFERENZA DELLA MEDIA ED INTERVALLI DI
CONFIDENZA
1. L misure dell’espressione del gene A: a1, a2, …, aL
2. STIMO la media
€
ˆ µ A =a1 + a2 + ...+ aL
L dove
€
µA è la VERA MEDIA
3. STIMO la varianza
€
ˆ σ A2 =
(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2
L −1 dove
€
σA2
è la VERA VARIANZA
4. Voglio trovare l’intervallo che contiene i valori più probabili della
vera media
€
µA cioè
€
ˆ µ A ± K .
Come faccio?
STIMO la varianza di
€
µA :
€
ˆ σ ˆ µ A
2 =σ a1 +a2 +...+aLL
2
per la proprietà additiva
€
ˆ σ ˆ µ A
2 =ˆ σ a1
2
L2 +ˆ σ a2
2
L2 + ...+ˆ σ aL
2
L2 =L ˆ σ A
2
L2 =ˆ σ A
2
L
INTERVALLO DI CONFIDENZA: intervallo che contiene i valori più
probabili della grandezza che ho stimato.
OSSERVA:
€
ˆ σ ˆ µ A≠ ˆ σ A infatti
€
ˆ σ A è la stima di
€
σA mentre
€
ˆ σ ˆ µ A è la
stima di
€
σ ˆ µ A
Se L è molto grande,
€
ˆ σ ˆ µ A
2 =ˆ σ A
2
L= 0 mentre
€
ˆ σ A =σA
Quindi più misure faccio, meno errore commetto nella stima di
€
µA
ERRORE STANDARD: deviazione standard della stima della media
€
ˆ σ ˆ µ A=
ˆ σ AL
REGOLA PRATICA:
€
ˆ µ A ± 2ˆ σ AL contiene circa il 96% dei possibili
valori di
€
ˆ µ A . Cioè ho il 96% di probabilità che il VERO VALORE di
€
µA
cada in questo intervallo.
Esempio
Strumento di misura: GENE-O-MATIC
€
S = 1,2,3,4,5,6,...,20{ }
Strumento di misura: SUPER-GENE-O-MATIC … non fa errori!!!
€
S = 1,2,3,4,5,6,...,20{ }
P1=0.1 P2=0.05 P3 =0.1 P4=0.4 P5=0.02 … P20=0.2
P1=numero di volte che uscito 1 / numero di
misure
P2=numero di volte che uscito 2 / numero di
misure
µgene A=0.1*1+0.05*2+…+0.2*20=4.1
gene A
quando è espresso
1 = poco espresso
20 = molto espresso
P1=0 P2=0 P3 =0 P4=4 P5=0 … P20=0
µgene A=0*1+0*2+0*3+1*4…+0*19+0*20=4
gene A
quando è espresso
1 = poco espresso
20 = molto espresso
Esempio: espressione del gene A
(in verde il primo esempio con L = 2 in blu il secondo esempio con L = 3)
X Y
Controllo Trattamento
6 10
8 18
7 14
stima della
MEDIA
€
µ^
x =6 + 82
=142
= 7 142
28
2
1810^
==+
=xµ
stima della
MEDIA7
3
21
3
786^
==++
=xµ 143
42
3
141810^
==++
=xµ
stima VAR2
1
11
12
)78()76( 222^
=+
=−
−+−=xσ 32
1
1616
12
)1418()1410( 222^
=+
=−
−+−=xσ
stima VAR1
2
11
13
)77()78()76( 2222^
=+
=−
−+−+−=xσ 16
2
32
13
)1414()1418()1410( 222^
==−
−+−+−=xσ
stima STD 4.12^
≅=xσ 7.532^
≅=xσ
stima STD 11^
≅=xσ 416^
≅=xσ
errore standard
€
σ^
µ^x =
22
=1 42
32^^
==xµσ
errore standard6.0
3
1^^
==xµσ 3.23
16^^
==xµσ
risultato 7±1 14±4
risultato 7±0.6 14±2.3
Errore che faccio nello stimare la media
… e il fold change?
€
ˆ µ yˆ µ x
=147
= 2
ˆ σ ˆ µ yˆ µ x
=ˆ µ yˆ µ x
ˆ σ ˆ µ x
2
ˆ µ x2 +
ˆ σ ˆ µ y
2
ˆ µ y2 =
147
12
72 +42
142 ≅ 0.33+ 0.08 ≅ 0.64
RISULTATO: 2±0.64
…che errore faccio? Cioèqual è l’errore standard?
LEZIONI DI STATISTICA
Lezione 3: t-TEST
Diego Di Bernardo
Edito da Vincenza Maselli
t-TEST
• Il gene a è espresso nel tessuto?
PROCEDURA PER IL t-TEST: TWO TAILEGDT-TEST
(1) Eseguiamo L misure:
€
a1,a2,...,aL
(2) Calcoliamo la stima della media:
€
ˆ µ A =a1 + a2 + ...+ aL
L(3) Calcoliamo la s t ima della deviazione standard:
€
ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2
L
(4) Calcoliamo l’errore standard:
€
S.E .=ˆ σ AL
(5) Formuliamo l’ipotesi nulla:
€
H 0 :µA0 = 0 (il gene non è
espresso)
(6) Calcoliamo la statistica t:
€
t =ˆ µ A −µA
0( )S.E.
=ˆ µ A −µA
0( )ˆ σ AL
=ˆ µ Aˆ σ AL
(7) Se
€
t ≥ 2 allora
€
p ≤ 0.04 (il gene a è espresso con
€
p ≤ 0.04)
EXCEL BOX
CONFRONTO TRA DUE POPOLAZIONI
“paired” e “unpaired” t-test
Problema:
€
a1,a2 ,...,aNb1,b2 ,...,bN
Ci sono 3 modi per affrontare il problema, a seconda dei casi:
CASO 1. PAIRED t-TEST: si usa nel caso in cui le misure nei due
esperimenti possono essere suddivisi in coppie. Quindi N = M.
***Esempio 1: Voglio sapere se un nuovo farmaco ha un effetto migliorerispetto ad uno tradizionale
Esempio 2: voglio sapere se un gene è più espresso in un occhio trattatorispetto ad uno non trattato
PROCEDURA PAIRED T-TEST:
1. Dalle L coppie di misure calcolo
€
Z1 = a1−b1Z2 = a2 −b2ZL = aL −bL
€
µZ = µA −µB = 0⇒ µA = µB
2. – 7. Come prima (con Z invece di A)
t-test
A
BEsempio: misura dell’espressione diun gene in due topi diversi, wt e ko
IPOTESI NULLA:
€
0H :Aµ =
Bµ Esempio: il gene di interesse nonvaria, cioè non è diferenzialmenteespresso nei due topi
€
H0 :µZ = 0
EXCEL BOX
CASO 3. UNPAIRED t-TEST (VARIABILE DISEGUALE): si usa nel casogenerale in cui ho due misure indipendenti.
€
a1,a2,...,aNb1,b2,..,bM
€
µa −µa = 0 = µa−b IPOTESI NULLA
PROCEDURA UNPAIRED T-TEST (VARIANZA DISEGUALE)
1. Eseguo N misure
€
a1,a2 ,...,aN e M misure
€
b1,b2 ,...,bM
2. Calcolo la stima della media
€
ˆ µ A =a1 + a2 + ...+ aN
N
ˆ µ B =b1 +b2 + ...+bM
Mˆ µ A − ˆ µ B = ˆ µ A−B
3. Calcolo la deviazione standard
€
ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2
N −1
€
ˆ σ B =(b1 − ˆ µ B )2 + (b2 − ˆ µ B )2 + ...+ (bM − ˆ µ B )2
M −14. Calcolo la deviazione standard di
€
ˆ µ A − ˆ µ B = ˆ µ A−B (errore standard)
€
ˆ σ ˆ µ A−B= ˆ σ ˆ µ A
2 + ˆ σ ˆ µ B
2 =ˆ σ A
2
N+
ˆ σ B2
M5. Calcolo della statistica
€
t =ˆ µ A − ˆ µ Bˆ σ A
2
N+
ˆ σ B2
M
=ˆ µ A − ˆ µ B
S.EA2 +S.E.B
2
(gene nel topo wt)
(gene nel topo ko)Assumo che
€
σ A ≠σ B
€
H0 :µa = µb
6. Se
€
t ≥ 2 allora
€
p ≤ 0.04
Meglio usare un programma tipo Excel
ATTENZIONE: è meglio NON USARE MAI questo caso 3.L’ipotesi di varianze diseguali è pericolosa, perché significa che le duepopolazioni (cioè due set di misure) non sono confrontabili!
Approssimativamente
EXCEL BOX
CASO 2. UNPAIRED T-TEST (VARIANZE UGUALI): si usa nelle stessecondizioni del caso 3, cioè due serie di misure indipendenti.
ATTENZIONE usare SEMPRE questo al posto del caso 3!
€
µa −µa = 0 = µa−b Ipotesi nulla
PROCEDURA UNPAIRED T-TEST (VARIANZE UGUALI)
1. – 3. Come il caso 31. Eseguo N misure
€
a1,a2 ,...,aN e M misure
€
b1,b2 ,...,bM2. Calcolo la stima della media
€
ˆ µ A , ˆ µ B e
€
ˆ µ A − ˆ µ B = ˆ µ A−B3. Calcolo la deviazione standard
€
ˆ σ A ,
€
ˆ σ B4. Calcolo DELL’ERRORE STANDARD COMBINATO , PSE (Pooled
Standard Error)
€
ˆ σ ˆ µ A−B=
(N −1) ˆ σ A2 + (M −1) ˆ σ B
2
N +M −21N
+1M
E’ un modo alternativo a quello del caso 3, ma molto più preciso se levarianze sono uguali.
5. Calcolo della statistica
€
t =ˆ µ A − ˆ µ B
ˆ σ ˆ µ A−B
6. Se
€
t ≥ 2 allora usiamo excel…
€
H 0 :µa = µb
EXCEL BOX
LEZIONI DI STATISTICA
Lezione 4: ANOVA
Diego di Bernardo
Edito da Vincenza Maselli
Riepilogo T-test
1) Il gene A è espresso nel topo wt?
2) Confronto tra due popolazioni (il gene A è differenzialmenteespresso nel topo wt vs il topo ko)
STATISTICA T
€
t =ˆ µ ˆ σ L
≥ 2 ⇒ p ≤ 0,04
0
€
ˆ µ
S.E.
€
ˆ σ L
S.E.
€
ˆ σ L
0
€
ˆ µ
Più è grande questa distanza, più l’ipotesi nullaè inattendibile, cioé più piccolo è il p-value
IPOTESI NULLA
€
H 0 :µ = 0
€
H 0 :µwt = µko ⇒ µwt −µko = 0 CASO 2 ( il caso 3 non si usa mai)
€
t =ˆ µ wt − ˆ µ koS.E.pooled
€
S.E.pooled =N −1( ) ˆ σ wt
2 + (M −1) ˆ σ ko2
N +M −21N
+1M
0
€
ˆ µ wt
€
ˆ µ ko
€
S.Ewt
€
S.Eko
Per l’ipotesi nulla
€
S.Epooled
0
€
ˆ µ wt − ˆ µ ko
Più è grande questa distanza più è piccoloil p-value
Cosa significa S.E.pooled ?
€
a1,...,an gene A in wt
€
b1,...,bn gene B in ko
€
S.E .pooled =N −1( ) ˆ σ wt
2 + M −1( ) ˆ σ ko2
N −M − 21N
+1M
€
ˆ σ pooled =N −1( )
a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2
N −1+ M −1( )
b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2
M −1N + M − 2
=
=a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2 + b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2
N + M − 2
Quindi
€
ˆ σ pooled è la stima della deviazione standard usando tutte lemisure. Se assumiamo che le varianze sono uguali nelle duepopolazioni, allora si possono usare tutte le misure per avere unastima più precisa.
€
S.Epooled
0
€
ˆ µ wt − ˆ µ ko
ANOVA: ANalysis Of VAriance
Si usa nel caso in cui si voglia confrontare la media in più di duepopolazioni (nel caso di due popolazioni si usa il t-test).
Esempio: il gene X è differenzialmente espresso tra un topo wt, un topo
ko omozigote ed un topo ko eterozigote?
… oppure …
c’è differenza tra 3 dosi diverse di farmaco nella valutazione della
frequenza cardiaca?
Usando tutte le possibili combinazioni di t-test aumento la probabilitàdi commettere un errore,
Esempio:
Topo a 5 occhi:
Facendo tutti I possibili t-test, cioètutte le possibili combinazioni di due occhi da 5 si ha
€
N =5!
5 − 2( )!2!=1•2 •3•4 •51•2 •3( ) 1•2( )
=12012
=10 t-test.
Se dico che un t-test è significativo quando
€
p < 0.05 , significa cheacceto il 5% di probabilità di commettere un errore per ogni t-test.
o.s.s o.s o.c. o.d o.d.d
a1 b1 c1 d1 e1
a2 b2 c2 d2 e2
a3 b3 c3 d3 e3
PERCHÈ NON SI FANNO TUTTI I POSSIBILI T-TEST?
Quindi su 10 t-test commetto 0.05*10 = 0.5 errori. Sei il topo avesse 10
occhi N sarebbe
€
N =10!
10 − 2( )!2!=362880080640
= 45, cioè almeno 45*0.05
=2.25 t-test saranno sbagliati.
Gene x nel topo wt
€
a1,a2,...,aN N misure
€
ˆ µ wtGene x nel topo ko omozigote
€
b1,b2,...,bM M misure
€
ˆ µ oGene x nel topo ko eterozigote
€
c1,c2,...,cL L misure
€
ˆ µ e
LE MEDIE SONO UGUALI. L’IPOTESI
NULLA SARÀ RIFIUTATA SE ALMENO
UNA MEDIA È DIVERSA DALLE ALTRE.
L’idea su cui si basa questa procedura è un confronto tra quanto varianole medie rispetto alla variazione delle misure. Cioè se le medie sonodistanti tra loro rispetto agli S.E., allora H0 verrà rifiutata con p valuepiccolo.
Eseguo N misure
€
a1,a2,...,aN , M misure
€
b1,b2,...,bM ed L misure
€
c1,c2,...,cL
€
ˆ µ wt
€
ˆ µ o
€
ˆ µ e
€
ˆ µ wt
€
ˆ µ e
€
ˆ µ o
€
ˆ µ wt
€
ˆ µ o
€
ˆ µ e
IPOTESI NULLA:
€
H 0 : ˆ µ wt = ˆ µ o = ˆ µ eAssumiamo uguale varianzaCome caso 2 del t-test
Calcolo le stime delle medie:
€
ˆ µ wt =a1 + ...+ aN
N
ˆ µ o =b1 + ...+ bM
M
ˆ µ e =c1 + ...+ cL
L
la media globale:
€
ˆ µ glo =a1 + ...+ aN + b1 + ...+ bM + c1 + ...+ cL
N + M + L e le stime delle deviazioni standard:
€
ˆ σ wt , ˆ σ o , ˆ σ e
Calcolo l’errore standard combinato al quadrato (detto anche Mean
Square Error MSE):
€
ˆ σ ˆ µ glo
2 =a1 − ˆ µ wt( )2 + ...+ aN − ˆ µ wt( )2 b1 − ˆ µ o( )2 + ...+ bM − ˆ µ o( )2 + c1 − ˆ µ e( )2 + ...+ cL − ˆ µ e( )2
N + M + L − 31N
+1M
+1L
=
=N −1( ) ˆ σ wt
2 + M −1( ) ˆ σ o2 + L −1( ) ˆ σ e
2
N + M + L − 31N
+1M
+1L
€
ˆ σ ˆ µ glo ci da’ un’idea di quanto sono variabili le nostre misure.
Un modo alternativo di calcolare
€
ˆ σ ˆ µ glo quando H0 è vera è calcolarlo
direttamente dalle medie, invece che dalle misure:
Mean Square For Treatments (MSTR):
€
ˆ σ ˆ µ alt2 =
N ˆ µ wt − ˆ µ glo( )2+ M ˆ µ o − ˆ µ glo( )2
+ L ˆ µ e − ˆ µ glo( )2
3−11N
+1M
+1L
abbiamo usato la classica formula della varianza, ma pesata.
€
ˆ σ ˆ µ alt2 ci da’
un’idea di quanto sono variabili le misure.
Calcoliamo la statistica
€
F =ˆ σ ˆ µ alt
2
ˆ σ ˆ µ glo2 se H0 è vera allora
€
ˆ σ ˆ µ alt2 = ˆ σ ˆ µ glo
2 e
quindi
€
F =1.
Più
€
F >1 più posso rifiutare H0 con un p-value più piccolo.
SE IL P-VALUE È SIGNIFICATIVO (
€
p ≤ 0.05) POSSO RIFIUTARE H0,CIOÈ POSSO DIRE CHE NON È VERO CHE
€
ˆ µ wt = ˆ µ o = ˆ µ e MA NON SO
DIRE SE TUTTE LE MEDIE SONO DIVERSE OPPURE SOLO UNA ÈDIVERSA DALLE ALTRE.
ANOVA: single factor alpha = 0.05
DATI
wt o e18 10 2212 9 1416 12 248 7 18. . .. . .. . .
ANOVA TABLESourceofvariation
SS dF MS F P Fcrit
Betweengroups
€
ˆ σ ˆ µ alt2 3-1
€
SSdf
= MSTR
€
MSTRMSE
=ˆ σ ˆ µ alt
2
ˆ σ ˆ µ glo2
p-value valoredi Fperaverep=0.05
Withingroups
€
N −1( ) ˆ σ wt2 + M −1( ) ˆ σ o
2 + L −1( ) ˆ σ e2 N+M+L-3
€
SSdf
= MSE- - -
Total somma somma - - - -
EXCEL BOX:TAVOLA DI ANOVA
VALORE DEL P-VALUE AL
DI SOTTO DEL QUALE
RIFIUTIAMO H0
MULTIPLE HYPOTHESIS TESTING PROBLEM
Esempio: micorarray con 20.000 geni. Voglio i geni differenzialmenteespressi.
TRATTATO CONTROLLO
3 replicati 3 replicati
Gene1
€
a1,1,a1,2 ,...,a1,20.000b1,1,b1,2 ,...,b1,20.000
t-test
€
t1
Gene2
€
a2,1,a2,2 ,...,a2,20.000b2,1,b2,2 ,...,b2,20.000
t-test
€
t2
… …
Gene20000
€
a20.000,1,a20.000,2 ,...,a20.000,20.000b20.000,1,b20.000,2 ,...,b20.000,20.000
t-test
€
t20.000
Faccio 20000 t-test. Assumo che ogni t-test è significativo se
€
p ≤ 0.05(probabilità del 5% di sbaglaire, cioè di dire che un gene èdifferenzialmente espresso quando non lo è).In uqesto modo commetto 0.05*20000=1000 errori, quindi sbaglioalmeno 1000 geni
3 MA 3 MA
BONFERRONI CORRECTION
E’ molto semplice. Vistoche un p<0.05 non e’ un criterio moltostringente quando eseguo molti t-test simultaneamente (come nel casodei microrray) faccio una correzione:
€
pbonferroni =αN
dove
€
α e’ il valore limite di p al di sotto del quale considerosignificativo il test (di solito
€
α=0.05). N e’ il numero di t-test cheeseguo simultaneamente (di solito N=numero di geni sul microarray).
Quindi diro’ che il gene X e’ differenzialmente espresso se il suo p
value e’:
€
pgeneX < pbonferroni =αN
La Bonferroni correction funziona, ma e’ troppo stringente, cioe’ pochigene risultano significativi, e molti sono scartati “ingiustamente”.
False Discovery rate
Un modo alternativo e’ calcolare una quantita’ chiamata FDR. Sicalcola cosi’, per ogni gene i nel microarray, prendiamo il suo valore
€
pie calcoliamo:
€
FDRi =pi *Ki
N
dove N e’ il numero di geni nel microarray e
€
Ki e’ il numero di geneche hanno un valore p minore di quello del gene in questione, cioe’minore di
€
pi .
FDR varia tra 0 e 1. Possiamo ora scegliere i geni in base al loro FDRinvece che il valore p . Se ad esempio prendiamo tutti i geni con unFDR<0.1, di questi saranno veramente differenzialmente espressi solo il90% (0.9) mentre il 10% (0.1) saranno falsi positivi. Se scegliamoFDR<0.2, allora dei geni selezionati l’80% saranno differenzialmenteespressi, mentre il 20% (0.2) saranno falsi positivi.
LEZIONI DI STATISTICA
Lezione 5: CorrelazioneLineare e Regressione Lineare
Diego di Bernardo
Edito da Vincenza Maselli
CORRELAZIONE LINEARE
Si usa per capire se c’è una associazione tra due variabili.
Esempio 1. In un esperimento di microarray misuro la serie temporale
di N geni (graf. 1). Voglio sapere quali geni si comportano allo stesso
modo.
Voglio sapere se c’è un’associazione tra il gene 2 e il gene 1 e tra il
gene 2 e il gene 3 (graf 2).
Osservando questi grafici si può dire che il gene 2 e il gene 1 mostranoun’associazione maggiore dei geni 2 e 3, cioè I geni 2 e 1 sono più
Grafico 1
t
Gene 1
Grafico 2
Gene 3
1
23
correlati dei geni 2 e 3. È possibile quantificare questa associazione? Sipuò calcolare la significatività, ossia un p-value?
Esempio 2. Data una serie di esperimenti di micorarray (ko, stress, drugtreatment, etc..) si vogliono trovare dei geni che si comportano come ilgene di interesse. (esempio gene della sordità):
Per scoprire una correlazione o si osservano tutti i 10.000 grafici o ci siaffida più efficacemente al coefficiente di correlazione.
Gene 2
Gene 1
Gene 10.000
COEFFICIENTE DI CORRELAZIONE.
Procedura per il calcolo di r (coefficiente di correlazione):
gene 1: gene 2:
Calcolo la stima della media:
€
ˆ µ 1 =a1 + a2 + ...+ aN
N
ˆ µ 2 =b1 +b2 + ...+bN
N Calcolo:
€
r =(a1 − ˆ µ 1)(b1 − ˆ µ 2 )+ ...+ (aN − ˆ µ 1)(bN − ˆ µ 2 )
(a1 − ˆ µ 1)2 + ...+ (aN − ˆ µ 1)
2[ ] (b1 − ˆ µ 2 )2 + ...+ (bN − ˆ µ 2 )
2[ ]
Proprietà di r:r varia tra -1 e 1
STESSO NUMERO
DI MISURE
€
a1,a2 ,...,aN
b1,b2 ,...,bN
Vi ricordaqualcosa?
Gen
e 2
Gene 1 Gene 1
Gen
e 2
Gen
e 2
Gen
e 2
Gene 1Gene 1
r =1 r = -1
r = 0 r = -0.8
Posso sapere se l’associazione tra i due geni è significativa?
I DUE GENI NON SONO CORRELATI
Clacolo la statistica:
Applico il classico t test che mi da il p-value:
Gene 1
r = 0.8
EXCEL BOX
€
t =r N −21− r 2
IPOTESI NULLA:
€
H 0 : r = 0Non chiedeteperché
EXCEL BOX Attenzione! Va usatoN-2
Esempio: Il gene 1 e il gene 2 sono correlati:
€
r = 0,76p ≤ 0,05
ATTENZIONE: CORRELAZIONE NON IMPLICA CAUSALITÀ!
Esempio: Cocktail Party
Dopo un party alcune delle persone si ammalano. Un medico intervistale persone ammalate e misura il consumo di vino e di noccioline ed illivello dei sintomi.
Il medico trova che più vino le persone hanno bevuto più sono gravi isintomi: cioè vino e sintomi sono correlati.
CORRELAZIONE
CA
USA
LIT
À
CO
RR
EL
AZ
ION
E
Consumo di vino
€
r = 0,68p ≤ 0,05
Questo porterebbe a pensare che sia stato il vino a causare la malattia.In realtà la causa sono le noccioline, le persone ammalate hannomangiato più noccioline delle altre e di conseguenza hanno bevuto piùvino!
SPEARMAN RANK-ORDER CORRELATION
COEFFICIENT:
r si può calcolare come prima e si può fare il t-test solo nell’ipotesi chela distribuzione delle due variabili sia binormale:
Non sempre questo è vero, nei casi in cui non è vero si può procederecosì:
Procedura per il calcolo di rS: Spearman Correlation Coefficient
Gene 1: Gene 2:
Ordiniamo i valori in modo crescente, (facciamo il “rank” dei valori):
Esempio:
€
a1 = 3,5a2 =1,2a3 = 0,7a4 = 2,9
€
b1 = 0,75b2 = 0,7b3 = 0,4b4 =1,2
R S
€
a3 = 0,7a2 =1,2a4 = 2,9a1 = 3,5
€
1234
€
b3 = 0,4b2 = 0,7b1 = 0,75b4 =1,2
€
1234
Gene 1
Gene 2
€
a1,a2 ,...,aN
b1,b2 ,...,bN
R= rank gene 1S = rank gene 2
Procediamo come prima ma invece di utilizzare a1, b1, etc usiamo R eS
€
ˆ R = R1 + R2 + ...+ RN
Nˆ S = S1 + S2 + ...+ SN
N
€
rS =r1 − ˆ R ( ) s1 − ˆ S ( )+ ...+ rN − ˆ R ( ) sN − ˆ S ( )
r1 − ˆ R ( )2
+ ...+ rN − ˆ R ( )2[ ] s1 − ˆ S ( )
2
+ ...+ sN − ˆ S ( )2[ ]
Calcoliamo
€
t = rSN −21− rS
2
Quando non usare la correlazione lineare:
Se otteniamo un grafico di questo tipo appare ovvio che non ha sensotentare di approssimare al curva ad una retta…Bisogna sempre guardare i dati prima di “farci qualcosa”!!!
EXCEL BOX
Gene2
REGRESSIONE LINEARE
Si usa per capire se c’è una associazione tra una variabile (misura) edun parametro di controllo.
Esempio: Vettore inducibile – Promotore inducibile dalla tetraciclina
Vogliamo trovare la linea “migliore” che passa attraverso i punti. Iltrucco è trovare la linea che passa più vicino ai miei punti.
[tetraciclina] µl
GFPGFPi = a TETi + ba = ?b = ?
distanza
GFPi
€
G ˆ F Pi
€
a+b(1µl)
TETi
Cerco la linea che minimizza la somma al quadrato delle distanze, cioèche
€
GFPi − a−bTETi( )2+ ...+ GFPN − a−bTETN( )
2 sia minima.
Procedura per la regressione lineare
€
x1,x2 ,...,xNy1,y2 ,...,yN
€
ˆ µ xˆ µ y
Clacolo
€
ˆ b =x1 − ˆ µ x( ) yi − ˆ µ y( )+ ...+ xN − ˆ µ x( ) yN − ˆ µ y( )
x1 − ˆ µ x( )2+ ...+ xN − ˆ µ x( )
2 = Sxx
€
ˆ a = ˆ µ y − ˆ b ̂ µ x
Errore standard di
€
ˆ b
€
S.E.b =ˆ σ Sxx
€
ˆ σ 2 =yi − a−bxi( )
2+ ...+ yN − a−bxN( )
2
N −2
€
ˆ b ± S.E.b
Posso testare l’ipotesi nulla:
€
H 0 :b = 0
€
t =ˆ b
S.E.b
=ˆ b ˆ σ Sxx
€
yi = a+bxi
Quanto è buona la linea?
€
yi = a+bxi
EXCEL BOX
p-value
€
SSresid = y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )
2
Residual sum of squares
Che relazione c’è tra regressione lineare ed il coefficiente dicorrelazione?
€
R 2 =ˆ y i − ˆ µ y( )
2+ ...+ ˆ y N − ˆ µ y( )
2
y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )
2 =SSreg
SSresid
€
ˆ y
Errore
xi x
Y
€
ˆ y 1
€
y1
€
r 2 = R 2
EXCEL BOX
LINREG(Yi:YN;Xi:XN;TRUE;TRUE)
F =t2
TDIST(
€
Fi ; N-2; 2)
LEZIONI DI STATISTICA
Lezione 6: Metodi nonparametrici
Diego di Bernardo
Edito da Vincenza Maselli
METODI NON-PARAMETRICI
Tutto quello che abbiamo detto fino a questo punto è valido fino ad uncerto punto, c’è un piccolo “imbroglio”…Abbiamo implicitamente assunto che le nostre misure avessero unadistribuzione GAUSSIANA (o NORMALE).Che significa?
Gene X Misure di espressione: a1, a2,…,aN
Se i dati non sono distribuiti come una gaussiana, TUTTO QUELLO CHE
ABBIAMO DETTO NON È VALIDO!
Cioè non possiamo fare t-test, anova, correlazione…Cosa si può fare allora in questi casi?
Imbroglio e me ne frego! (lo fanno in molti!!!)
Gauss era sullabanconota da 10marchi tedeschi
Max { a1, a2,…,aN}
Numero di volte che lenostre misure sonocontenute in un questointervallo
I dati sono distribuiticome una gaussiana sel’istogramma: E’ Simmetrico Ha forma a campana
Esempio:Gene X: 0,15 0,18 0,22 0,14 0,20 0,31
0,12
4-3-2-1-0-
| | |0,1 0,2 0,31
Utilizzo metodi che non richiedono questa ipotesi.
WILCOXON SIGNED RANK
Questo test è equivalente al t-test per una singola popolazione (T-DIST). Si usa per rispondere alla domanda:È LA MEDIA DELLA MIA MISURA DIVERSA DA ZERO?
Esempio: è il gene X espresso nel topo wt?
Procedura per il Wilcoxon Signed Rank: ho le mie misure (controllo che l’istogramma sia più o menosimmetrico, non c’è bisogno che sia a campana).
Calcoliamo
€
ˆ µ x =a1 + a2 + ...+ aN
N calcolo la differenza dei miei dati dalla media µ:
€
d1 = a1 − ˆ µ xd2 = a2 − ˆ µ xdN = aN − ˆ µ x
calcolo i rank delle distanze:
ad esempio: se
€
d1 =1,2d2 = −0,8d3 = 2,4d4 = −0,9
li ordino dal più piccolo al più grande:
€
d41
< d22
< d13
< d34
e quindi:
€
R1 = R d1( ) = 3R2 = R d2( ) = 2R3 = R d3( ) = 4R4 = R d4( ) =1
€
R1,R2,...,RN sono tutti numeri tra 1 e N
€
H0 :µ = 0 IPOTESI NULLA
calcolo la statistica
€
St = somma degli
€
Ri che hanno le differenze
€
di > 0
Osserva:
€
1+2+ ...+ N =N N +1( )2
= R1 + R2 + ...+ RN
Se la media
€
µ = 0, cioè se H 0 è vera allora
€
St =N N +1( )4
=R1 + R2 + ...+ RN
2
Esempio:
x x x | x x x x x x 0 x x x x x | x x 0
Calcolo la σ di
€
St (perchè asumo che
€
St ha una distribuzionegaussiana, se uso un computer per fare i calcoli questa ipotesi non ènecessaria).
€
σ St=
N N +1( ) N +2( )24
calcolo la statistica
€
Z =St −
N N +1( )4
σ St
=St −
N N +1( )4
N N +1( ) N +2( )24
se
€
Z > 2 il
€
p ≤ 0,04
… oppure uso EXCEL
€
St >N N +1( )4
St <N N +1( )4
EXCEL BOX
2*NORMDIST(Z) = p-value
2*(1-NORMDIST(Z)) = p-value
€
Z > 0
€
Z < 0
Se
€
p ≤ 0,05 dico che
€
H0 :µ = 0 non è vera e quindi il mio gene èespresso!!!
MANN-WHITNEY TESTSi usa per confrontare la media tra due popolazioni. È l’equivalente diun t-test.
Esempio: è il gene X differenzialmente espresso in un topo wt e unoko?
€
a1,a2,...,aNb1,b2,...,bM
PROCEDURA PER IL MANN-WITHNEY TEST:
€
a1,a2,...,aNb1,b2,...,bM
calcolo i rank R delle misure combinate cioè “metto tutto assieme”
€
a1,a2,...,aN ,b1,b2,...,bM . Ordino dal più piccolo al più grande e assegno irank
€
R1,R2,...RN +M
Esempio:
€
a1 =1a2 = 2,3a3 = 0,9
€
b1 = 0,12b2 =1,7b3 =1,2
€
R=
b11
< a32
< a13
< b34
< b25
< a26
calcolo la statistica
€
SA = soma degli R delle misure aEsempio:
€
SA = R a1( )+ R a2( )+ a3( ) = 3+6+2 =11
calcolo
€
UA = SA −N N +1( )2
wt
ko
€
H0 :µA = µB
Esempio:
€
UA =11−3 3+1( )2
=11−6 = 5
€
UA varia tra 0 e NM
€
UA = 0 se tutte le misure
€
a1,a2,...,aN sono sempre minori di
€
b1,b2,...,bM
€
UA = NM se
€
a1,a2,...,aN sono sempre maggiori di
€
b1,b2,...,bM
Se
€
H0 è vera
€
UA ≅NM2
calcolo la statistica
€
Z =UA −
NM2
NM M + N +1( )12
calcolo il p-value
EXCEL BOX
2*NORMDIST(Z) = p-value
2*(1-NORMDIST(Z)) = p-value
€
Z > 0
€
Z < 0
KRUSKAL-WALLIS TEST
Si usa per confrontare 3 o più popolazioni. È l’equivalente dell’ANOVA:
Esempio: è il gene X differenzialmente espresso nel topo wt, O ed E?
PROCEDURA PER IL KRUSKAL-WALLIS TEST:
€
a1,a2,...,aN ,b1,b2,...,bMc1,c2,...,cL
Calcolo i rank delle misure combinatorie (come pr il MW test)
€
R1,R2,...RN +M +L
calcolo la media dei rank per le misure a, b e c, Ra, Rb e Rc.
calcolo la statistica H.
€
H =12
N +M + L( ) N +M + L+1( )NRa
2 +MRb2 + LRc
2( )− 3 N +M + L −1( )
calcolo il p-value
K = numero di popolazioni – 1 (nel nostro esempio K = 3 – 1 = 2)
EXCEL BOX
CHIDIST(H,K) = p-value
PARAMETRICI VERSO NON PARAMETRICI
Parametrici Non ParametriciSingola Popolazione T-DIST WILCOXON SIGNED RANK
Due Popolazioni T-TEST MANN-WHITNEY TEST
Tre o più Popolazioni ANOVA KRUSKAL-WALLIS TEST
Correlazione CORREL R P E A R M A N R A N K
CORRELATION