LEZIONI DI STATISTICA Lezione 1: Cenni di...

LEZIONI DI STATISTICA

Lezione 1: Cenni di probabilita’

Diego di Bernardo

Edito da Vincenza Maselli

CENNI DI PROBABILITÀ

La probabilità è la teoria matematica alla base della statistica.

DEFINIZIONI

Esempi:

DADO:

€

S = 1,2,3,4,5,6{ }

MONETA:

€

S = testa,croce{ }2 MONETE: S={(testa,testa) (testa,croce) (croce,testa) (croce,croce)}

€

xi è il valore assunto dalla v. a. X nell’esperimento i. Viene anchechiamato realizzazione.

€

s = x1,x2...,xN{ }

S SPAZIO DI CAMPIONI: insieme di tutti i possibilirisultati di un esperimento.

X VARIABILE ALATORIA,

€

X ∈ S può assumere uno deivalori di S

PROBABILITÀ:

€

xi ∈ S→ P X = xi( )∈ 0,1[ ]

P ha le seguenti proprietà:1.

€

P(X = x1) + P(X = x2) + ...+ P(X = xn ) =1

€

P(X = xi)i=1

N∑

2.

€

∀i,P(X = xi)∈ 0,1[ ]

Esempi:

€

S = testa,croce{ }

€

X ∈ S

Due dadi: abbiamo bisogno di due variabili aleatorie

€

S = 1,2,3,4,5,6{ }

€

X ∈ S

€

(X,Y )∈ SxS = (1,1),(1,2),(1,3)...{ }

€

Y ∈ S

Osserviamo:

€

P(X =1,Y = 2) =136

=16.16

= P(X =1)P(X = 2)

€

xi P(

€

xi)testa 1/2

croce 1/2

€

(xi,yi)

€

P(X = xi,Y = yi)

1 1 1/361 2 1/361 3 1/361 4 1/361 5 1/361 6 1/362 1 1/36… …

REGOLA 1: P(A,B) = P(A)P(B) SE E SOLO SE A e Bsono INDIPENDENTI

Esempio:

€

S = blu,verde,marrone{ }

€

X ∈ S v. a. colore occhio sinistro,

€

Y ∈ S v. a. colore occhio destro

€

P(X = blu) = P(X = verde) = P(X = marrone) =13

€

P(X = marrone,Y = marrone)?

=P(X = marrone)P(Y = marrone) =19

è vero? Chiediamo:Nome X(o. s) Y(o.

d.)1) M M2) M M3) M M

€

P(X = marrone,Y = marrone) =1 X ed Y non sono INDIPENDENTI

€

P(X = marrone,Y = marrone) = P(X = marrone)P(Y = marrone /X = marrone) =1/3*1=1/3

Esempio:DADO:

€

S = 1,2,3,4,5,6{ }

€

X ∈ S

€

P(X =1− oppure − X = 2) = P(X =1) + P(X =1) =16

+16

=13

REGOLA 2:

€

P(A,B) = P(A)P(B /A) = P(B)P(A /B)

REGOLA 3: P(A oppure B) = P(A) + P(B)

CALCOLO DELLE PROBABILITÀ

Se ho N possibili risultati nello spazio S tutti equiprobabili allora

€

P(X = yi) =1N

Esempio: Lancio di due dadi

Ogni dado ha n = 6 possibili risultati, quindi per due (k=2) dadi avrò

N= 62 = 36 possibili risultati.

Lancio di 3 dadi N = 63

Lancio di 3 monete N = 23

Definizione matematica:

Esempi:

3! = 3*2*1=6

10! = 10*9*8*7*6*5*4*3*2*1

100! = troppo grande!

POTENZA:

€

N = nk numero di elementi di S per l’unione di kesperimenti, dove ogni esperimento ha n possibili risultati.

FATTORIALE

€

n!= (n)(n −1)(n − 2)...2*1

Esempio:

k = 2 coppie di topi

n = 3 topi

topo verde

topo nero

€

3!(3− 2)!2!

=61*2

= 3

topo rosso

Esempio:

Coppie di topi

€

3!(3− 2)!

=61

= 6

COMBINAZIONI

€

N =n!

(n − k)!k! combinazioni di k oggetti da n oggetti

2

1

2

3

PERMUTAZIONI

€

N =n!

(n − k)! permutazione di k oggetti

1

2

3

4

5

6

32=9

PERMUTAZIONI CON RIPETIZIONI

€

≡ POTENZA

€

N = nk

1

2

3

4

5

6

7

8

9

DESCRIZIONE DI VARIABILE ALEATORIA

v. a.

€

X ∈ S

€

X = xi ∈ S→ P X = xi( )∈ 0,1[ ]P(X = xi) = pi

Esempio:

DADO

€

S = 1,2,3,4,5,6{ }

€

X ∈ S

€

E(X) =161+162 +

163+

164 +

165 +

166 =

216

=72

= 3,5

Esempio: somma di due dadi

€

E(X +Y ) = E(X) + E(Y ) = 7

VALORE ATTESO O MEDIA PESATA

€

µx ≡ E(X) = pixii=1

N

∑

PROPRIETÀ DI LINEARITÀ:

€

E(aX ± bY ) = aE(X) ± bE(Y )

= P1x1+P2x2+…+PnXn

Esempio: DADO a 7 facce

€

XM = 4

€

S = 1,2,3,4,5,6,7{ }

€

P(xi > XM ) = P(xi = 5) + P(xi = 6) + P(xi = 7) =37

€

P(xi < XM ) = P(xi =1) + P(xi = 2) + P(xi = 3) =37

Per gli spazi di S con N pari si usa la media dei valori centrali

MEDIANA:

€

XM ≡ M(X) = P(X = xi > xM ) = P(X = xi < xM )

VARIANZA

€

x2

σ ≡VAR(X) = E[(X −µx )2] = pi(xi −µx )

2

i=1

N

∑

µx ≡ E(X)

DEVIAZIONE STANDARD

€

xσ = x2

σ ≡ STD(X) = VAR(X)

€

µx ≠ µy

σ x =σ y

€

µx = µy

σ x ≠σ y

STD(X)STD(Y)

µx µy

XY

X

Y

µx = µy

€

STD XY

=

XY

VAR(X)X 2 +

VAR(Y )Y 2

STD(X +Y ) ≠ STD(X) + STD(Y )STD(X ±Y ) = VAR(X) +VAR(Y )

COV(X,Y)

Se X, Y sonoindipendenti COV(X,Y)= 0

PROPRIETÀ:

€

VAR(aX + bY ) = a2VAR(X) + b2VAR(Y ) + 2abE[(x −µx )(y −µy )]

DISTRIBUZIONE DI PROBABILITÀ

La funzione di probabilità può assumere diverse “forme”:

UNIFORME

TRIANGOLARE

UNIFORME

GAUSSIANAO

NORMALE

v. a.discreta

v.a.continua

Se X è un numero reale (es: misura dell’espressione di un gene)

P(X)

P(X)

f(X)

f(X)

b

aPARAMETRI

µx

σx PARAMETRI


Lezione 2: Statistica

Diego Di Bernardo


STATISTICA

Che cos’è la statistica? A cosa serve?

Esempio:

Gene A: v.a. X

€

P(X = xi)Domanda: Il gene A è espresso oppure no nel topo wt? Quanto èespresso?

Esperimento: è espresso? Quanto?Risposta classica SI oppure NO gene A = 4Risposta statistica Si (96%) e NO (4%) gene A = 4,1 ± 0,2

Per dare la risposta statistica dobbiamo conoscere P(X). MA NON LA

CONOSCIAMO! Come posso fare?

Soluzione 1: Ripeto lo stesso esperimento molte volte, (L)

Soluzione 2: Cerco di stimare solo alcune proprietà di X, come la media

E(X) e la varianza E[(X-E(X))2]

INFERENZA STATISTICA: stima di P(X) dalle misure sperimentali

Problema Devo fare troppiesperimenti

2%1% 1%4%

40%

50%

P(X)

1 2 3 4 5 6

Gene A

Numero di volte che il gene A ècompreso tra 0 e 1 diviso ilnumero di esperimenti K/L

STIMA DELLA MEDIA

X v. a.

€

P(X)X ∈= x1,x2,...,xn{ }

€

µx = E(X) = P1x1 + ...+ PnXn

Soluzione: eseguo L misure di X e stimo

€

µx da queste L osservazioni:

Perché è solo una stima?

€

µx = P1x1 + P2x2 + ...+ PnXn

Nella stima invece conosco solo alcuni (L) degli elementi di S e non

conosco Pi che quindi assumo essere

€

1L

ProblemaNon conosco P1,P2,…,Pn

STIMA DELLA MEDIA

€

ˆ µ x =a1 + a2 + ...+ aL

L

Tutti i possibili valori di X,cioè gli elementi di S

STIMA DELLA VARIANZA

€

ˆ σ x2 =

(a1 − ˆ µ x )2 + (a2 − ˆ µ x )

2 + ...+ (aL − ˆ µ x )2

L −1

STIMA DELLA DEVIAZIONE STANDARD

€

ˆ σ x = ˆ σ x2

PROPRIETÀ

€

ˆ µ x+y = ˆ µ x + ˆ µ y

€

ˆ σ x+y2 = ˆ σ x

2 + ˆ σ y2

INFERENZA DELLA MEDIA ED INTERVALLI DI

CONFIDENZA

1. L misure dell’espressione del gene A: a1, a2, …, aL

2. STIMO la media

€

ˆ µ A =a1 + a2 + ...+ aL

L dove

€

µA è la VERA MEDIA

3. STIMO la varianza

€

ˆ σ A2 =

(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

L −1 dove

€

σA2

è la VERA VARIANZA

4. Voglio trovare l’intervallo che contiene i valori più probabili della

vera media

€

µA cioè

€

ˆ µ A ± K .

Come faccio?

STIMO la varianza di

€

µA :

€

ˆ σ ˆ µ A

2 =σ a1 +a2 +...+aLL

2

per la proprietà additiva

€

ˆ σ ˆ µ A

2 =ˆ σ a1

2

L2 +ˆ σ a2

2

L2 + ...+ˆ σ aL

2

L2 =L ˆ σ A

2

L2 =ˆ σ A

2

L

INTERVALLO DI CONFIDENZA: intervallo che contiene i valori più

probabili della grandezza che ho stimato.

OSSERVA:

€

ˆ σ ˆ µ A≠ ˆ σ A infatti

€

ˆ σ A è la stima di

€

σA mentre

€

ˆ σ ˆ µ A è la

stima di

€

σ ˆ µ A

Se L è molto grande,

€

ˆ σ ˆ µ A

2 =ˆ σ A

2

L= 0 mentre

€

ˆ σ A =σA

Quindi più misure faccio, meno errore commetto nella stima di

€

µA

ERRORE STANDARD: deviazione standard della stima della media

€

ˆ σ ˆ µ A=

ˆ σ AL

REGOLA PRATICA:

€

ˆ µ A ± 2ˆ σ AL contiene circa il 96% dei possibili

valori di

€

ˆ µ A . Cioè ho il 96% di probabilità che il VERO VALORE di

€

µA

cada in questo intervallo.

Esempio

Strumento di misura: GENE-O-MATIC

€

S = 1,2,3,4,5,6,...,20{ }

Strumento di misura: SUPER-GENE-O-MATIC … non fa errori!!!

€

S = 1,2,3,4,5,6,...,20{ }

P1=0.1 P2=0.05 P3 =0.1 P4=0.4 P5=0.02 … P20=0.2

P1=numero di volte che uscito 1 / numero di

misure

P2=numero di volte che uscito 2 / numero di

misure

µgene A=0.1*1+0.05*2+…+0.2*20=4.1

gene A

quando è espresso

1 = poco espresso

20 = molto espresso

P1=0 P2=0 P3 =0 P4=4 P5=0 … P20=0

µgene A=0*1+0*2+0*3+1*4…+0*19+0*20=4

gene A

quando è espresso

1 = poco espresso

20 = molto espresso

Esempio: espressione del gene A

(in verde il primo esempio con L = 2 in blu il secondo esempio con L = 3)

X Y

Controllo Trattamento

6 10

8 18

7 14

stima della

MEDIA

€

µ^

x =6 + 82

=142

= 7 142

28

2

1810^

==+

=xµ

stima della

MEDIA7

3

21

3

786^

==++

=xµ 143

42

3

141810^

==++

=xµ

stima VAR2

1

11

12

)78()76( 222^

=+

=−

−+−=xσ 32

1

1616

12

)1418()1410( 222^

=+

=−

−+−=xσ

stima VAR1

2

11

13

)77()78()76( 2222^

=+

=−

−+−+−=xσ 16

2

32

13

)1414()1418()1410( 222^

==−

−+−+−=xσ

stima STD 4.12^

≅=xσ 7.532^

≅=xσ

stima STD 11^

≅=xσ 416^

≅=xσ

errore standard

€

σ^

µ^x =

22

=1 42

32^^

==xµσ

errore standard6.0

3

1^^

==xµσ 3.23

16^^

==xµσ

risultato 7±1 14±4

risultato 7±0.6 14±2.3

Errore che faccio nello stimare la media

… e il fold change?

€

ˆ µ yˆ µ x

=147

= 2

ˆ σ ˆ µ yˆ µ x

=ˆ µ yˆ µ x

ˆ σ ˆ µ x

2

ˆ µ x2 +

ˆ σ ˆ µ y

2

ˆ µ y2 =

147

12

72 +42

142 ≅ 0.33+ 0.08 ≅ 0.64

RISULTATO: 2±0.64

…che errore faccio? Cioèqual è l’errore standard?


Lezione 3: t-TEST

Diego Di Bernardo


t-TEST

• Il gene a è espresso nel tessuto?

PROCEDURA PER IL t-TEST: TWO TAILEGDT-TEST

(1) Eseguiamo L misure:

€

a1,a2,...,aL

(2) Calcoliamo la stima della media:

€

ˆ µ A =a1 + a2 + ...+ aL

L(3) Calcoliamo la s t ima della deviazione standard:

€

ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

L

(4) Calcoliamo l’errore standard:

€

S.E .=ˆ σ AL

(5) Formuliamo l’ipotesi nulla:

€

H 0 :µA0 = 0 (il gene non è

espresso)

(6) Calcoliamo la statistica t:

€

t =ˆ µ A −µA

0( )S.E.

=ˆ µ A −µA

0( )ˆ σ AL

=ˆ µ Aˆ σ AL

(7) Se

€

t ≥ 2 allora

€

p ≤ 0.04 (il gene a è espresso con

€

p ≤ 0.04)

EXCEL BOX

CONFRONTO TRA DUE POPOLAZIONI

“paired” e “unpaired” t-test

Problema:

€

a1,a2 ,...,aNb1,b2 ,...,bN

Ci sono 3 modi per affrontare il problema, a seconda dei casi:

CASO 1. PAIRED t-TEST: si usa nel caso in cui le misure nei due

esperimenti possono essere suddivisi in coppie. Quindi N = M.

***Esempio 1: Voglio sapere se un nuovo farmaco ha un effetto migliorerispetto ad uno tradizionale

Esempio 2: voglio sapere se un gene è più espresso in un occhio trattatorispetto ad uno non trattato

PROCEDURA PAIRED T-TEST:

1. Dalle L coppie di misure calcolo

€

Z1 = a1−b1Z2 = a2 −b2ZL = aL −bL

€

µZ = µA −µB = 0⇒ µA = µB

2. – 7. Come prima (con Z invece di A)

t-test

A

BEsempio: misura dell’espressione diun gene in due topi diversi, wt e ko

IPOTESI NULLA:

€

0H :Aµ =

Bµ Esempio: il gene di interesse nonvaria, cioè non è diferenzialmenteespresso nei due topi

€

H0 :µZ = 0

EXCEL BOX

CASO 3. UNPAIRED t-TEST (VARIABILE DISEGUALE): si usa nel casogenerale in cui ho due misure indipendenti.

€

a1,a2,...,aNb1,b2,..,bM

€

µa −µa = 0 = µa−b IPOTESI NULLA

PROCEDURA UNPAIRED T-TEST (VARIANZA DISEGUALE)

1. Eseguo N misure

€

a1,a2 ,...,aN e M misure

€

b1,b2 ,...,bM

2. Calcolo la stima della media

€

ˆ µ A =a1 + a2 + ...+ aN

N

ˆ µ B =b1 +b2 + ...+bM

Mˆ µ A − ˆ µ B = ˆ µ A−B

3. Calcolo la deviazione standard

€

ˆ σ A =(a1 − ˆ µ A )2 + (a2 − ˆ µ A )2 + ...+ (aL − ˆ µ A )2

N −1

€

ˆ σ B =(b1 − ˆ µ B )2 + (b2 − ˆ µ B )2 + ...+ (bM − ˆ µ B )2

M −14. Calcolo la deviazione standard di

€

ˆ µ A − ˆ µ B = ˆ µ A−B (errore standard)

€

ˆ σ ˆ µ A−B= ˆ σ ˆ µ A

2 + ˆ σ ˆ µ B

2 =ˆ σ A

2

N+

ˆ σ B2

M5. Calcolo della statistica

€

t =ˆ µ A − ˆ µ Bˆ σ A

2

N+

ˆ σ B2

M

=ˆ µ A − ˆ µ B

S.EA2 +S.E.B

2

(gene nel topo wt)

(gene nel topo ko)Assumo che

€

σ A ≠σ B

€

H0 :µa = µb

6. Se

€

t ≥ 2 allora

€

p ≤ 0.04

Meglio usare un programma tipo Excel

ATTENZIONE: è meglio NON USARE MAI questo caso 3.L’ipotesi di varianze diseguali è pericolosa, perché significa che le duepopolazioni (cioè due set di misure) non sono confrontabili!

Approssimativamente

EXCEL BOX

CASO 2. UNPAIRED T-TEST (VARIANZE UGUALI): si usa nelle stessecondizioni del caso 3, cioè due serie di misure indipendenti.

ATTENZIONE usare SEMPRE questo al posto del caso 3!

€

µa −µa = 0 = µa−b Ipotesi nulla

PROCEDURA UNPAIRED T-TEST (VARIANZE UGUALI)

1. – 3. Come il caso 31. Eseguo N misure

€

a1,a2 ,...,aN e M misure

€

b1,b2 ,...,bM2. Calcolo la stima della media

€

ˆ µ A , ˆ µ B e

€

ˆ µ A − ˆ µ B = ˆ µ A−B3. Calcolo la deviazione standard

€

ˆ σ A ,

€

ˆ σ B4. Calcolo DELL’ERRORE STANDARD COMBINATO , PSE (Pooled

Standard Error)

€

ˆ σ ˆ µ A−B=

(N −1) ˆ σ A2 + (M −1) ˆ σ B

2

N +M −21N

+1M

E’ un modo alternativo a quello del caso 3, ma molto più preciso se levarianze sono uguali.

5. Calcolo della statistica

€

t =ˆ µ A − ˆ µ B

ˆ σ ˆ µ A−B

6. Se

€

t ≥ 2 allora usiamo excel…

€

H 0 :µa = µb

EXCEL BOX


Lezione 4: ANOVA

Diego di Bernardo


Riepilogo T-test

1) Il gene A è espresso nel topo wt?

2) Confronto tra due popolazioni (il gene A è differenzialmenteespresso nel topo wt vs il topo ko)

STATISTICA T

€

t =ˆ µ ˆ σ L

≥ 2 ⇒ p ≤ 0,04

0

€

ˆ µ

S.E.

€

ˆ σ L

S.E.

€

ˆ σ L

0

€

ˆ µ

Più è grande questa distanza, più l’ipotesi nullaè inattendibile, cioé più piccolo è il p-value

IPOTESI NULLA

€

H 0 :µ = 0

€

H 0 :µwt = µko ⇒ µwt −µko = 0 CASO 2 ( il caso 3 non si usa mai)

€

t =ˆ µ wt − ˆ µ koS.E.pooled

€

S.E.pooled =N −1( ) ˆ σ wt

2 + (M −1) ˆ σ ko2

N +M −21N

+1M

0

€

ˆ µ wt

€

ˆ µ ko

€

S.Ewt

€

S.Eko

Per l’ipotesi nulla

€

S.Epooled

0

€

ˆ µ wt − ˆ µ ko

Più è grande questa distanza più è piccoloil p-value

Cosa significa S.E.pooled ?

€

a1,...,an gene A in wt

€

b1,...,bn gene B in ko

€

S.E .pooled =N −1( ) ˆ σ wt

2 + M −1( ) ˆ σ ko2

N −M − 21N

+1M

€

ˆ σ pooled =N −1( )

a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2

N −1+ M −1( )

b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2

M −1N + M − 2

=

=a1 − ˆ µ wt( )2 + ... + aN − ˆ µ wt( )2 + b1 − ˆ µ ko( )2 + ... + bM − ˆ µ ko( )2

N + M − 2

Quindi

€

ˆ σ pooled è la stima della deviazione standard usando tutte lemisure. Se assumiamo che le varianze sono uguali nelle duepopolazioni, allora si possono usare tutte le misure per avere unastima più precisa.

€

S.Epooled

0

€

ˆ µ wt − ˆ µ ko

ANOVA: ANalysis Of VAriance

Si usa nel caso in cui si voglia confrontare la media in più di duepopolazioni (nel caso di due popolazioni si usa il t-test).

Esempio: il gene X è differenzialmente espresso tra un topo wt, un topo

ko omozigote ed un topo ko eterozigote?

… oppure …

c’è differenza tra 3 dosi diverse di farmaco nella valutazione della

frequenza cardiaca?

Usando tutte le possibili combinazioni di t-test aumento la probabilitàdi commettere un errore,

Esempio:

Topo a 5 occhi:

Facendo tutti I possibili t-test, cioètutte le possibili combinazioni di due occhi da 5 si ha

€

N =5!

5 − 2( )!2!=1•2 •3•4 •51•2 •3( ) 1•2( )

=12012

=10 t-test.

Se dico che un t-test è significativo quando

€

p < 0.05 , significa cheacceto il 5% di probabilità di commettere un errore per ogni t-test.

o.s.s o.s o.c. o.d o.d.d

a1 b1 c1 d1 e1

a2 b2 c2 d2 e2

a3 b3 c3 d3 e3

PERCHÈ NON SI FANNO TUTTI I POSSIBILI T-TEST?

Quindi su 10 t-test commetto 0.05*10 = 0.5 errori. Sei il topo avesse 10

occhi N sarebbe

€

N =10!

10 − 2( )!2!=362880080640

= 45, cioè almeno 45*0.05

=2.25 t-test saranno sbagliati.

Gene x nel topo wt

€

a1,a2,...,aN N misure

€

ˆ µ wtGene x nel topo ko omozigote

€

b1,b2,...,bM M misure

€

ˆ µ oGene x nel topo ko eterozigote

€

c1,c2,...,cL L misure

€

ˆ µ e

LE MEDIE SONO UGUALI. L’IPOTESI

NULLA SARÀ RIFIUTATA SE ALMENO

UNA MEDIA È DIVERSA DALLE ALTRE.

L’idea su cui si basa questa procedura è un confronto tra quanto varianole medie rispetto alla variazione delle misure. Cioè se le medie sonodistanti tra loro rispetto agli S.E., allora H0 verrà rifiutata con p valuepiccolo.

Eseguo N misure

€

a1,a2,...,aN , M misure

€

b1,b2,...,bM ed L misure

€

c1,c2,...,cL

€

ˆ µ wt

€

ˆ µ o

€

ˆ µ e

€

ˆ µ wt

€

ˆ µ e

€

ˆ µ o

€

ˆ µ wt

€

ˆ µ o

€

ˆ µ e

IPOTESI NULLA:

€

H 0 : ˆ µ wt = ˆ µ o = ˆ µ eAssumiamo uguale varianzaCome caso 2 del t-test

Calcolo le stime delle medie:

€

ˆ µ wt =a1 + ...+ aN

N

ˆ µ o =b1 + ...+ bM

M

ˆ µ e =c1 + ...+ cL

L

la media globale:

€

ˆ µ glo =a1 + ...+ aN + b1 + ...+ bM + c1 + ...+ cL

N + M + L e le stime delle deviazioni standard:

€

ˆ σ wt , ˆ σ o , ˆ σ e

Calcolo l’errore standard combinato al quadrato (detto anche Mean

Square Error MSE):

€

ˆ σ ˆ µ glo

2 =a1 − ˆ µ wt( )2 + ...+ aN − ˆ µ wt( )2 b1 − ˆ µ o( )2 + ...+ bM − ˆ µ o( )2 + c1 − ˆ µ e( )2 + ...+ cL − ˆ µ e( )2

N + M + L − 31N

+1M

+1L

=

=N −1( ) ˆ σ wt

2 + M −1( ) ˆ σ o2 + L −1( ) ˆ σ e

2

N + M + L − 31N

+1M

+1L

€

ˆ σ ˆ µ glo ci da’ un’idea di quanto sono variabili le nostre misure.

Un modo alternativo di calcolare

€

ˆ σ ˆ µ glo quando H0 è vera è calcolarlo

direttamente dalle medie, invece che dalle misure:

Mean Square For Treatments (MSTR):

€

ˆ σ ˆ µ alt2 =

N ˆ µ wt − ˆ µ glo( )2+ M ˆ µ o − ˆ µ glo( )2

+ L ˆ µ e − ˆ µ glo( )2

3−11N

+1M

+1L

abbiamo usato la classica formula della varianza, ma pesata.

€

ˆ σ ˆ µ alt2 ci da’

un’idea di quanto sono variabili le misure.

Calcoliamo la statistica

€

F =ˆ σ ˆ µ alt

2

ˆ σ ˆ µ glo2 se H0 è vera allora

€

ˆ σ ˆ µ alt2 = ˆ σ ˆ µ glo

2 e

quindi

€

F =1.

Più

€

F >1 più posso rifiutare H0 con un p-value più piccolo.

SE IL P-VALUE È SIGNIFICATIVO (

€

p ≤ 0.05) POSSO RIFIUTARE H0,CIOÈ POSSO DIRE CHE NON È VERO CHE

€

ˆ µ wt = ˆ µ o = ˆ µ e MA NON SO

DIRE SE TUTTE LE MEDIE SONO DIVERSE OPPURE SOLO UNA ÈDIVERSA DALLE ALTRE.

ANOVA: single factor alpha = 0.05

DATI

wt o e18 10 2212 9 1416 12 248 7 18. . .. . .. . .

ANOVA TABLESourceofvariation

SS dF MS F P Fcrit

Betweengroups

€

ˆ σ ˆ µ alt2 3-1

€

SSdf

= MSTR

€

MSTRMSE

=ˆ σ ˆ µ alt

2

ˆ σ ˆ µ glo2

p-value valoredi Fperaverep=0.05

Withingroups

€

N −1( ) ˆ σ wt2 + M −1( ) ˆ σ o

2 + L −1( ) ˆ σ e2 N+M+L-3

€

SSdf

= MSE- - -

Total somma somma - - - -

EXCEL BOX:TAVOLA DI ANOVA

VALORE DEL P-VALUE AL

DI SOTTO DEL QUALE

RIFIUTIAMO H0

MULTIPLE HYPOTHESIS TESTING PROBLEM

Esempio: micorarray con 20.000 geni. Voglio i geni differenzialmenteespressi.

TRATTATO CONTROLLO

3 replicati 3 replicati

Gene1

€

a1,1,a1,2 ,...,a1,20.000b1,1,b1,2 ,...,b1,20.000

t-test

€

t1

Gene2

€

a2,1,a2,2 ,...,a2,20.000b2,1,b2,2 ,...,b2,20.000

t-test

€

t2

… …

Gene20000

€

a20.000,1,a20.000,2 ,...,a20.000,20.000b20.000,1,b20.000,2 ,...,b20.000,20.000

t-test

€

t20.000

Faccio 20000 t-test. Assumo che ogni t-test è significativo se

€

p ≤ 0.05(probabilità del 5% di sbaglaire, cioè di dire che un gene èdifferenzialmente espresso quando non lo è).In uqesto modo commetto 0.05*20000=1000 errori, quindi sbaglioalmeno 1000 geni

3 MA 3 MA

BONFERRONI CORRECTION

E’ molto semplice. Vistoche un p<0.05 non e’ un criterio moltostringente quando eseguo molti t-test simultaneamente (come nel casodei microrray) faccio una correzione:

€

pbonferroni =αN

dove

€

α e’ il valore limite di p al di sotto del quale considerosignificativo il test (di solito

€

α=0.05). N e’ il numero di t-test cheeseguo simultaneamente (di solito N=numero di geni sul microarray).

Quindi diro’ che il gene X e’ differenzialmente espresso se il suo p

value e’:

€

pgeneX < pbonferroni =αN

La Bonferroni correction funziona, ma e’ troppo stringente, cioe’ pochigene risultano significativi, e molti sono scartati “ingiustamente”.

False Discovery rate

Un modo alternativo e’ calcolare una quantita’ chiamata FDR. Sicalcola cosi’, per ogni gene i nel microarray, prendiamo il suo valore

€

pie calcoliamo:

€

FDRi =pi *Ki

N

dove N e’ il numero di geni nel microarray e

€

Ki e’ il numero di geneche hanno un valore p minore di quello del gene in questione, cioe’minore di

€

pi .

FDR varia tra 0 e 1. Possiamo ora scegliere i geni in base al loro FDRinvece che il valore p . Se ad esempio prendiamo tutti i geni con unFDR<0.1, di questi saranno veramente differenzialmente espressi solo il90% (0.9) mentre il 10% (0.1) saranno falsi positivi. Se scegliamoFDR<0.2, allora dei geni selezionati l’80% saranno differenzialmenteespressi, mentre il 20% (0.2) saranno falsi positivi.


Lezione 5: CorrelazioneLineare e Regressione Lineare

Diego di Bernardo


CORRELAZIONE LINEARE

Si usa per capire se c’è una associazione tra due variabili.

Esempio 1. In un esperimento di microarray misuro la serie temporale

di N geni (graf. 1). Voglio sapere quali geni si comportano allo stesso

modo.

Voglio sapere se c’è un’associazione tra il gene 2 e il gene 1 e tra il

gene 2 e il gene 3 (graf 2).

Osservando questi grafici si può dire che il gene 2 e il gene 1 mostranoun’associazione maggiore dei geni 2 e 3, cioè I geni 2 e 1 sono più

Grafico 1

t

Gene 1

Grafico 2

Gene 3

1

23

correlati dei geni 2 e 3. È possibile quantificare questa associazione? Sipuò calcolare la significatività, ossia un p-value?

Esempio 2. Data una serie di esperimenti di micorarray (ko, stress, drugtreatment, etc..) si vogliono trovare dei geni che si comportano come ilgene di interesse. (esempio gene della sordità):

Per scoprire una correlazione o si osservano tutti i 10.000 grafici o ci siaffida più efficacemente al coefficiente di correlazione.

Gene 2

Gene 1

Gene 10.000

COEFFICIENTE DI CORRELAZIONE.

Procedura per il calcolo di r (coefficiente di correlazione):

gene 1: gene 2:

Calcolo la stima della media:

€

ˆ µ 1 =a1 + a2 + ...+ aN

N

ˆ µ 2 =b1 +b2 + ...+bN

N Calcolo:

€

r =(a1 − ˆ µ 1)(b1 − ˆ µ 2 )+ ...+ (aN − ˆ µ 1)(bN − ˆ µ 2 )

(a1 − ˆ µ 1)2 + ...+ (aN − ˆ µ 1)

2[ ] (b1 − ˆ µ 2 )2 + ...+ (bN − ˆ µ 2 )

2[ ]

Proprietà di r:r varia tra -1 e 1

STESSO NUMERO

DI MISURE

€

a1,a2 ,...,aN

b1,b2 ,...,bN

Vi ricordaqualcosa?

Gen

e 2

Gene 1 Gene 1

Gen

e 2

Gen

e 2

Gen

e 2

Gene 1Gene 1

r =1 r = -1

r = 0 r = -0.8

Posso sapere se l’associazione tra i due geni è significativa?

I DUE GENI NON SONO CORRELATI

Clacolo la statistica:

Applico il classico t test che mi da il p-value:

Gene 1

r = 0.8

EXCEL BOX

€

t =r N −21− r 2

IPOTESI NULLA:

€

H 0 : r = 0Non chiedeteperché

EXCEL BOX Attenzione! Va usatoN-2

Esempio: Il gene 1 e il gene 2 sono correlati:

€

r = 0,76p ≤ 0,05

ATTENZIONE: CORRELAZIONE NON IMPLICA CAUSALITÀ!

Esempio: Cocktail Party

Dopo un party alcune delle persone si ammalano. Un medico intervistale persone ammalate e misura il consumo di vino e di noccioline ed illivello dei sintomi.

Il medico trova che più vino le persone hanno bevuto più sono gravi isintomi: cioè vino e sintomi sono correlati.

CORRELAZIONE

CA

USA

LIT

À

CO

RR

EL

AZ

ION

E

Consumo di vino

€

r = 0,68p ≤ 0,05

Questo porterebbe a pensare che sia stato il vino a causare la malattia.In realtà la causa sono le noccioline, le persone ammalate hannomangiato più noccioline delle altre e di conseguenza hanno bevuto piùvino!

SPEARMAN RANK-ORDER CORRELATION

COEFFICIENT:

r si può calcolare come prima e si può fare il t-test solo nell’ipotesi chela distribuzione delle due variabili sia binormale:

Non sempre questo è vero, nei casi in cui non è vero si può procederecosì:

Procedura per il calcolo di rS: Spearman Correlation Coefficient

Gene 1: Gene 2:

Ordiniamo i valori in modo crescente, (facciamo il “rank” dei valori):

Esempio:

€

a1 = 3,5a2 =1,2a3 = 0,7a4 = 2,9

€

b1 = 0,75b2 = 0,7b3 = 0,4b4 =1,2

R S

€

a3 = 0,7a2 =1,2a4 = 2,9a1 = 3,5

€

1234

€

b3 = 0,4b2 = 0,7b1 = 0,75b4 =1,2

€

1234

Gene 1

Gene 2

€

a1,a2 ,...,aN

b1,b2 ,...,bN

R= rank gene 1S = rank gene 2

Procediamo come prima ma invece di utilizzare a1, b1, etc usiamo R eS

€

ˆ R = R1 + R2 + ...+ RN

Nˆ S = S1 + S2 + ...+ SN

N

€

rS =r1 − ˆ R ( ) s1 − ˆ S ( )+ ...+ rN − ˆ R ( ) sN − ˆ S ( )

r1 − ˆ R ( )2

+ ...+ rN − ˆ R ( )2[ ] s1 − ˆ S ( )

2

+ ...+ sN − ˆ S ( )2[ ]

Calcoliamo

€

t = rSN −21− rS

2

Quando non usare la correlazione lineare:

Se otteniamo un grafico di questo tipo appare ovvio che non ha sensotentare di approssimare al curva ad una retta…Bisogna sempre guardare i dati prima di “farci qualcosa”!!!

EXCEL BOX

Gene2

REGRESSIONE LINEARE

Si usa per capire se c’è una associazione tra una variabile (misura) edun parametro di controllo.

Esempio: Vettore inducibile – Promotore inducibile dalla tetraciclina

Vogliamo trovare la linea “migliore” che passa attraverso i punti. Iltrucco è trovare la linea che passa più vicino ai miei punti.

[tetraciclina] µl

GFPGFPi = a TETi + ba = ?b = ?

distanza

GFPi

€

G ˆ F Pi

€

a+b(1µl)

TETi

Cerco la linea che minimizza la somma al quadrato delle distanze, cioèche

€

GFPi − a−bTETi( )2+ ...+ GFPN − a−bTETN( )

2 sia minima.

Procedura per la regressione lineare

€

x1,x2 ,...,xNy1,y2 ,...,yN

€

ˆ µ xˆ µ y

Clacolo

€

ˆ b =x1 − ˆ µ x( ) yi − ˆ µ y( )+ ...+ xN − ˆ µ x( ) yN − ˆ µ y( )

x1 − ˆ µ x( )2+ ...+ xN − ˆ µ x( )

2 = Sxx

€

ˆ a = ˆ µ y − ˆ b ̂ µ x

Errore standard di

€

ˆ b

€

S.E.b =ˆ σ Sxx

€

ˆ σ 2 =yi − a−bxi( )

2+ ...+ yN − a−bxN( )

2

N −2

€

ˆ b ± S.E.b

Posso testare l’ipotesi nulla:

€

H 0 :b = 0

€

t =ˆ b

S.E.b

=ˆ b ˆ σ Sxx

€

yi = a+bxi

Quanto è buona la linea?

€

yi = a+bxi

EXCEL BOX

p-value

€

SSresid = y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )

2

Residual sum of squares

Che relazione c’è tra regressione lineare ed il coefficiente dicorrelazione?

€

R 2 =ˆ y i − ˆ µ y( )

2+ ...+ ˆ y N − ˆ µ y( )

2

y1 − ˆ y 1( )2+ ...+ yN − ˆ y N( )

2 =SSreg

SSresid

€

ˆ y

Errore

xi x

Y

€

ˆ y 1

€

y1

€

r 2 = R 2

EXCEL BOX

LINREG(Yi:YN;Xi:XN;TRUE;TRUE)

F =t2

TDIST(

€

Fi ; N-2; 2)


Lezione 6: Metodi nonparametrici

Diego di Bernardo


METODI NON-PARAMETRICI

Tutto quello che abbiamo detto fino a questo punto è valido fino ad uncerto punto, c’è un piccolo “imbroglio”…Abbiamo implicitamente assunto che le nostre misure avessero unadistribuzione GAUSSIANA (o NORMALE).Che significa?

Gene X Misure di espressione: a1, a2,…,aN

Se i dati non sono distribuiti come una gaussiana, TUTTO QUELLO CHE

ABBIAMO DETTO NON È VALIDO!

Cioè non possiamo fare t-test, anova, correlazione…Cosa si può fare allora in questi casi?

Imbroglio e me ne frego! (lo fanno in molti!!!)

Gauss era sullabanconota da 10marchi tedeschi

Max { a1, a2,…,aN}

Numero di volte che lenostre misure sonocontenute in un questointervallo

I dati sono distribuiticome una gaussiana sel’istogramma: E’ Simmetrico Ha forma a campana

Esempio:Gene X: 0,15 0,18 0,22 0,14 0,20 0,31

0,12

4-3-2-1-0-

| | |0,1 0,2 0,31

Utilizzo metodi che non richiedono questa ipotesi.

WILCOXON SIGNED RANK

Questo test è equivalente al t-test per una singola popolazione (T-DIST). Si usa per rispondere alla domanda:È LA MEDIA DELLA MIA MISURA DIVERSA DA ZERO?

Esempio: è il gene X espresso nel topo wt?

Procedura per il Wilcoxon Signed Rank: ho le mie misure (controllo che l’istogramma sia più o menosimmetrico, non c’è bisogno che sia a campana).

Calcoliamo

€

ˆ µ x =a1 + a2 + ...+ aN

N calcolo la differenza dei miei dati dalla media µ:

€

d1 = a1 − ˆ µ xd2 = a2 − ˆ µ xdN = aN − ˆ µ x

calcolo i rank delle distanze:

ad esempio: se

€

d1 =1,2d2 = −0,8d3 = 2,4d4 = −0,9

li ordino dal più piccolo al più grande:

€

d41

< d22

< d13

< d34

e quindi:

€

R1 = R d1( ) = 3R2 = R d2( ) = 2R3 = R d3( ) = 4R4 = R d4( ) =1

€

R1,R2,...,RN sono tutti numeri tra 1 e N

€

H0 :µ = 0 IPOTESI NULLA

calcolo la statistica

€

St = somma degli

€

Ri che hanno le differenze

€

di > 0

Osserva:

€

1+2+ ...+ N =N N +1( )2

= R1 + R2 + ...+ RN

Se la media

€

µ = 0, cioè se H 0 è vera allora

€

St =N N +1( )4

=R1 + R2 + ...+ RN

2

Esempio:

x x x | x x x x x x 0 x x x x x | x x 0

Calcolo la σ di

€

St (perchè asumo che

€

St ha una distribuzionegaussiana, se uso un computer per fare i calcoli questa ipotesi non ènecessaria).

€

σ St=

N N +1( ) N +2( )24


€

Z =St −

N N +1( )4

σ St

=St −

N N +1( )4

N N +1( ) N +2( )24

se

€

Z > 2 il

€

p ≤ 0,04

… oppure uso EXCEL

€

St >N N +1( )4

St <N N +1( )4

EXCEL BOX

2*NORMDIST(Z) = p-value

2*(1-NORMDIST(Z)) = p-value

€

Z > 0

€

Z < 0

Se

€

p ≤ 0,05 dico che

€

H0 :µ = 0 non è vera e quindi il mio gene èespresso!!!

MANN-WHITNEY TESTSi usa per confrontare la media tra due popolazioni. È l’equivalente diun t-test.

Esempio: è il gene X differenzialmente espresso in un topo wt e unoko?

€

a1,a2,...,aNb1,b2,...,bM

PROCEDURA PER IL MANN-WITHNEY TEST:

€

a1,a2,...,aNb1,b2,...,bM

calcolo i rank R delle misure combinate cioè “metto tutto assieme”

€

a1,a2,...,aN ,b1,b2,...,bM . Ordino dal più piccolo al più grande e assegno irank

€

R1,R2,...RN +M

Esempio:

€

a1 =1a2 = 2,3a3 = 0,9

€

b1 = 0,12b2 =1,7b3 =1,2

€

R=

b11

< a32

< a13

< b34

< b25

< a26


€

SA = soma degli R delle misure aEsempio:

€

SA = R a1( )+ R a2( )+ a3( ) = 3+6+2 =11

calcolo

€

UA = SA −N N +1( )2

wt

ko

€

H0 :µA = µB

Esempio:

€

UA =11−3 3+1( )2

=11−6 = 5

€

UA varia tra 0 e NM

€

UA = 0 se tutte le misure

€

a1,a2,...,aN sono sempre minori di

€

b1,b2,...,bM

€

UA = NM se

€

a1,a2,...,aN sono sempre maggiori di

€

b1,b2,...,bM

Se

€

H0 è vera

€

UA ≅NM2


€

Z =UA −

NM2

NM M + N +1( )12

calcolo il p-value

EXCEL BOX

2*NORMDIST(Z) = p-value

2*(1-NORMDIST(Z)) = p-value

€

Z > 0

€

Z < 0

KRUSKAL-WALLIS TEST

Si usa per confrontare 3 o più popolazioni. È l’equivalente dell’ANOVA:

Esempio: è il gene X differenzialmente espresso nel topo wt, O ed E?

PROCEDURA PER IL KRUSKAL-WALLIS TEST:

€

a1,a2,...,aN ,b1,b2,...,bMc1,c2,...,cL

Calcolo i rank delle misure combinatorie (come pr il MW test)

€

R1,R2,...RN +M +L

calcolo la media dei rank per le misure a, b e c, Ra, Rb e Rc.

calcolo la statistica H.

€

H =12

N +M + L( ) N +M + L+1( )NRa

2 +MRb2 + LRc

2( )− 3 N +M + L −1( )

calcolo il p-value

K = numero di popolazioni – 1 (nel nostro esempio K = 3 – 1 = 2)

EXCEL BOX

CHIDIST(H,K) = p-value

PARAMETRICI VERSO NON PARAMETRICI

Parametrici Non ParametriciSingola Popolazione T-DIST WILCOXON SIGNED RANK

Due Popolazioni T-TEST MANN-WHITNEY TEST

Tre o più Popolazioni ANOVA KRUSKAL-WALLIS TEST

Correlazione CORREL R P E A R M A N R A N K

CORRELATION

LEZIONI DI STATISTICA Lezione 1: Cenni di...

Documents

Transcript of LEZIONI DI STATISTICA Lezione 1: Cenni di...