Test statisticiTest statistici - INFN...

1Alessandro De Falco, INFN Cagliari 5/26/14

Test statisticiTest statistici

Lo scopo di un test statistico è stabilire con quale accuratezza un set di dati sperimentali è in accordo con una ipotesi

Ipotesi

Statstica di test

Livello di significatività

Un esempio con la selezione di particelle

Il lemma di Nyman-Pearson

Costruzione di una statistica di test: discriminante di Fisher

Test di bontà del fit

Significatività del segnale osservato

Test del 2


Ipotesi e statistica di testIpotesi e statistica di testSupponiamo che il risultato di una misura sia dove le x

i sono proprietà dell'evento: es.

x1: molteplicità delle particelle cariche

x2: posizione del vertice primario

x3: energia trasversa

........La distribuzione di probabilità congiunta di x sarà caratteristica dell'evento prodotto

La distribuzione di probabilità congiunta è specificata da una IPOTESI H

0, solitamente confrontata con ipotesi alternative

Ipotesi semplice: completamente specificata

Ipotesi composita: data con non noto.

Solitamente è complicato trattare la x multidimensionale

Per valutare l'accordo di una data ipotesi coi dati, si costruisce una statistica di test t(x), solitamente di dimensione minore in modo da compattare i dati senza perdere la capacità di discriminazione

x⃗=( x1, x2,... , x n)

(es. p p̄→J /ψ→μμ , p p̄→hadrons , ...)

f ( x⃗∣H 0) , f ( x⃗∣H 1)...

f ( x⃗)

f ( x⃗ ,θ)


La statistica t avrà pdf

Si formula una affermazione sulla compatibilità tra dati e ipotesi in termini della decisione di accettare o rigettare l'ipotesi H

0

Rigettiamo gli eventi se appartengono a una regione critica (es. t>t

cut ) in cui è

improbabile che H0 sia verificato

Probabilità di rigettare H0 quando è vero

(errore di 1a specie):

Probabilità di accettare H0 se è vero H

1

(errore di 2a specie):

g( t⃗∣H 0) , g( t⃗∣H 1)...

α=∫t cut

∞

g(t∣H 0)dt Livello di significatività

β=∫−∞

tcut

g (t∣H 1)dt (1-)=potere di reiezione

Regione criticaRegione critica


Esempio: selezione di particelle

Dobbiamo identificare n particelle distinguendo il segnale dato dagli elettroni dal fondo dovuto ai pioni, mediante la misura di perdita di energia in una camera a deriva. Definiamo:

t: media troncata delle misure.

H0: segnale (elettroni)

H1: fondo (pioni)

Definiamo un taglio t<tCUT

che ci permette di selezionare gli elettroni:

la scelta di tCUT

sarà un compromesso tra il valore più alto di e e il più

basso per . Dobbiamo determinare la frazione ae di elettroni

εe=∫−∞

tCUT

g (t∣e)dt=1−α efficienza di selezione per elettroni

επ=∫−∞

tCUT

g(t∣π)dt=β efficienza di selezione per pioni

f (t ; ae)=ae g (t∣e)+(1−ae)g (t∣π) aπ=1−ae


Il numero di particelle accettate sarà:

Mediante il teorema di Bayes possiamo determinare la probabilità h(e|t) ( h(|t) ) che la particella considerata sia un elettrone (o un pione) per un determinato valore di t:

(nota: secondo l'approccio bayesiano h(e|t) è la probabilità soggettiva, secondo l'approccio frequentista è la frazione di elettroni ad un dato t)

La purezza del campione selezionato è data da:

h(e∣t )=ae g (t∣e)

ae g(t∣e)+aπg(t∣π)h(π∣t)=

aπ g (t∣π)ae g(t∣e)+aπ g (t∣π)

pe=ne con t<tCUT

nall con t<tCUT

=∫−∞

t CUT

ae g(t∣e)dt

∫−∞

t CUT

(ae g(t∣e)+(1−ae)g(t∣π))dt

=∫−∞

tCUT

h (t∣e) f (t )dt

∫−∞

tCUT

f (t )dt

N acc=εe N e+επ N π=εe N e+επ(N tot−N e) N e=N acc−επ N tot

εe−επ


Test di Neyman Pearson: un esempioTest di Neyman Pearson: un esempio

Diversi siti producono due varietà di diossido di silicio:Opale: Quarzo:

Misuriamo la densità con una risoluzione di 0.2 g/cm3

Per quali siti è opportuno eseguire ulteriori scavi?

Ipotizziamo che il campione sia opale.

La probabilità è descritta da una gaussiana con =2.2, =0.2

L'ipotesi alternativa è ancora descritta da una gaussiana con =2.6, =0.2

Il rapporto tra le gaussiane è:

Il rapporto cresce con x; un taglio su x permette la determinazione ottimale di , fissato

Se accettiamo solo i campioni con <2.53 (1.64 sopra la media) =5%: ignoriamo il 5% dei campioni utili; =36%: analizziamo inutilmente il 36% dei depositi di quarzo.

Selezioni diverse possono essere effettuate a seconda della necessità

ρ=2.6g

cm3

e−(x−2.6)2/2σ2

e−( x−2.2)2/2σ2 ∝e10x

ρ=2.2g

cm3


Costruzione di una statistica di testCostruzione di una statistica di test

Esempio:

Mi occorre conoscere generatore Monte Carlo

Genero degli eventi, e per ciascuno costruisco x con cui riempio un istogramma n-dimensionale. Se per ogni dimensione ho M bins, il numero totale di celle è Mn

Approssimo f(x|H) con la probabilità nella cella singola, determinando gli Mn parametri.

Per n grande, il numero di celle cresce tanto da rendere impossibile una generazione MC con sufficiente statistica

H 0=e+ e− →WW→adroni (4 jets)

H 1=e+ e− →q q̄→adroni (2 jets) x⃗=( x1, x2,... , x n)misuro

t ( x⃗)=f ( x⃗∣H 0)

f ( x⃗∣H 1)taglio su t per selezionare WW.

f ( x⃗∣H 0) , f ( x⃗∣H 1)


Una soluzione di compromesso consiste nel

definire una funzione t(x) con meno parametri

Determinare i parametri col Monte Carlo per ottenere la migliore discriminazione tra H

0 e H

1

Es.:

scelgo le ai che massimizzano la separazione tra g(t|H

0) e g(t|H

1)

La media e la covarianza per le componenti di x sono:

per t(x):

Richiedo: grande piccoli (pdf concentrate intorno alle medie)

t ( x⃗)=∑i=1

n

ai x i=a⃗T x⃗

(μk)i=∫ x i f ( x⃗∣H k)d x⃗

(V k )ij=∫( x−μk)i (x−μk ) j f ( x⃗∣H k)d x⃗

k=0,1i,j=1,2,...,n

τk=∫ t g(t∣H k)dt=a⃗T μ⃗k

Σk2=∫ (t−τk)

2 g (t∣H k)dt=a⃗T V k a⃗

∣τ0−τ1∣

Σ02 ,Σ1

2


Discriminante lineare di FisherDiscriminante lineare di Fisher

Definiamo come misura della separazione

cerco le ai che massimizzano J:

Nota: ho usato non l'informazione completa su f(x|H0), f(x|H

1) (n-

dimensioni*M bins) ma solo i valori medi e le varianze

J (a⃗)=(τ0−τ1)

2

Σ02+Σ1

2

(τ0−τ1)2=∑

i , j=1

n

ai a j (μ0−μ1)i (μ0−μ1) j=∑i , j=1

n

ai a j Bij=a⃗T B a⃗

Σ02+Σ1

2=∑i , j=1

n

ai a j (V 0+V 1)ij=a⃗T W a⃗

J (a⃗)=a⃗T B a⃗a⃗T W a⃗

∂ J∂ai

=0 a⃗∝W−1(μ⃗0−μ⃗1)

DISCRIMINANTE LINEAREDI FISHER (determinato a menodi una costante)


Posso generalizzare t(x):

Uso una scala arbitraria e l'offset a0 per fissare

0, .

In questo caso la massimizzazione di:

corrisponde alla minimizzazione di:

J (a⃗)=(τ0−τ1)

2

Σ02+Σ1

2

Σ02+Σ1

2=E 0[(t−τ0)

2]+E1[(t−τ1)

2]


Test statisticiTest statistici

Supponiamo che l'ipotesi H predica f(x|H) per qualche vettore di dati x=(x

1,x

2,....,x

n)

Osserviamo un solo punto: xOBS

. Che cosa possiamo dire della validità di H alla luce dei dati?

Decidiamo quale parte nello spazio delle x rappresenta una minore compatibilità con H rispetto a x

OBS.


Solitamente si costruisce una statistica di test il cui valore riflette il livello di compatibilità tra x e H, ovvero:

A bassi valori di t corrispondono dati PIU' compatibili con H

Ad alti valori di t corrispondono dati MENO compatibili con H

Supposta nota la p.d.f. f(x|H), si può determinare g(t|H)

Esprimiamo la bontà del fit fornendo un valore che viene chiamato LIVELLO DI SIGNIFICATIVITA' o P-value.

P è la probabilità di osservare i dati x (o t(x)) che hanno uguale o minore compatibilità con H rispetto a x

OBS.

P non è la probabilità che H sia vero.

Nell'approccio classico non si prova a dare una probabilità che H sia vero, dato che un'ipotesi non è trattata come una variabile casuale

Nell'approccio bayesiano:

è necessario fare un'ipotesi su P(H)

P (H∣t)=P (t∣H )P (H )

∫P (t∣H )P (H )dHP(H): probabilità a priori di H


Un esempio:La probabilità di osservare n

T teste in N lanci di una moneta è:

Usiamo la statistica per verificare la bontà dell'ipotesi Supponiamo di lanciare la moneta 20 volte e ottenere 17 volte testa

La regione dello spazio delle t con compatibilità uguale o minore è t>=7

Ciò non ci dice che l'ipotesi H è falsa, ma ci dà solo la probabilità di ottenere un livello di incompatibilità con l'ipotesi H maggiore o uguale rispetto a quello osservato.

f (nT , N )=N !

nT !(N−nT )!PT

nT (1−PT )N−nT

PT=0.5

t=∣nT−N /2∣

Ipotesi H:

tOBS=7

P−value=P (nT=0,1,2 ,3 ,17,18 ,19,20)=0.0026


Significatività di un segnale osservatoSignificatività di un segnale osservato

Supponiamo di avere n eventi che possono essere:

nB eventi da processi noti, che costituiscono il fondo

nS eventi da processi nuovi, che costituiscono il segnale

Se nB e n

S sono poissoniane con medie

B e

s, anche n = n

B + n

S è

poissoniana con B +

s

Supponiamo di osservare nOBS

=5 con B=0.5.

Possiamo affermare di avere osservato l'evidenza per una scoperta?Ipotesi H:

s=0, ovvero c'è solo fondo.

Questa quantità NON è P(s=0), ma la probabilità di ottenere 5 o più

eventi, supposto s=0.

P (n ;λS ,λB)=(λS+λB)

n

n!e−(λS+λ B)

P−value=P (n≥nOBS)= ∑n=nOBS

∞

P (n ;λS=0,λB)=1− ∑n=0

nOBS−1λb

n

n !e−λB=1.7⋅10−4


Una nota:

Spesso il risultato di una misura è dato come il valore stimato ± la sua deviazione standard. In questo caso abbiamo

Se sottraiamo il fondo, pari a 0.5, otteniamo 4.5 ± 2.2 Ovvero solo 2 deviazioni standard dallo 0.

Questo è fuorviante perchè in questo modo il risultato dà l'impressione che non ci sia una grande incompatibilità con l'osservazione di zero eventi, mentre il P-value suggerisce il contrario.

Ciò che ci serve in questo caso è la probabilità che il fondo, con valore medio 0.5, fluttui fino a 5, e non la probabilità che una variabile con valore medio 5 fluttui fino a 0.5 o meno.

5±√5


Nota: normalmente B avrà un'incertezza. Se fosse

B=0.8, avremmo:

un ordine di grandezza più alto del precedente.

E' dunque necessario quantificare l'incertezza sistematica dovuta al fondo.

La procedura corretta consisterebbe dunque nel riportare un range di valori di P per una variazione ragionevole di

B.Non esistono delle

convenzioni fissate.

P−value=P(n≥nOBS )= ∑n=nOBS

∞

P (n ;λS=0,λB=0.8)=1.4⋅10−3


Estrazione di un segnale da un picco.Estrazione di un segnale da un picco.

Supponiamo di misurare per ogni evento una grandezza x, e di sapervalutare il fondo, indicato con la curvatratteggiata.

Ciò significa che abbiamo effettivamente visto il segnale?

Non sappiamo a priori dove aspettarci il picco. Se il numero di bins è alto ci saranno delle fluttuazioni che simuleranno delle discrepanze rispetto all'andamento atteso (tratteggiato in figura)

✔ Quale è la probabilità di osservare una discrepanza altrettanto improbabile quanto il picco osservato in due bin adiacenti qualunque dell'istogramma?

11 eventi osservati nei duebin del picco. Il fondo stimato è pari a

B=3.2 eventi

P (n≥11 ;λB=3.2,λS=0)=5.0⋅10−4


Test del Test del

Test per confrontare i dati osservati ni con i valori di aspettazione

i.

Tracciamo in un istogramma di N bins una variabile x con una distribuzione determinata. Supponiamo che i conteggi nel bin i-mo siAno n

i , e il valore

aspettato i .Se le n

i sono poissoniane con valori medi

i e n

i>~5, la

variabile:

seguirà una distribuzione del con n gradi di libertà (indipendentemente dalla distribuzione di x). La richiesta n

i>5 equivale a richiedere che la distribuzione delle n

i

sia approssimabile a una gaussiana.Maggiore è il maggiore la discrepanza col valore attesoIl P-value sarà:

χ2=∑

i=1

n (ni−νi)2

νi

P=∫χ

2

∞

f (x ; n)dx distribuzione del con n gradi di libertàE(x)=n

Test statisticiTest statistici - INFN...

Documents

Transcript of Test statisticiTest statistici - INFN...