CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di...

459
1 CORSO DI “INFERENZA STATISTICA” ANALISI ROBUSTA DEI DATI E INFERENZA “DISTRIBUTION-FREE”

Transcript of CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di...

Page 1: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CORSO DI“INFERENZA STATISTICA”

ANALISI ROBUSTA DEI DATI EINFERENZA “DISTRIBUTION-FREE”

Page 2: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

TESTI CONSIGLIATI

• Per la preparazione di base dell'esame sono suggeriti i seguenti testi:

Barabesi, L. (1998) , Stamperia della Facoltà di Economia, Università di Siena.Elementi di statistica non parametricaBarabesi, L. (1996) , Stamperia della Facoltà di Economia, Università diElementi di statistica inferenziale classica

Siena.Barabesi, L. e Fattorini, L. (2010) , Università di Siena.Introduzione all’algebra delle matriciCrawley, M.J. (2013) , seconda edizione, Wiley, Chichester.The R bookMaindonald, W. e Braun W.J. (2010) , terza edizione, Cambridge University Press,Data analysis and graphics using R

Cambridge.Tattar, P.N., Ramaiah, S. e Manjunath, B.G. (2016) , Wiley, Chichester.A course in statistics with R

• La versione elettronica (in formato .pdf) dei primi tre testi, delle diapositive e dei dati analizzati durante le lezionisono disponibili nel sito:

http://docenti-deps.unisi.it/luciobarabesi/didattica/

Page 3: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

PACCHETTI CONSIGLIATI PER L'ELABORAZIONE DEI DATI

• Per l'elaborazione dei dati è suggerito il programma gratuito che è disponibile al sito:R

http://www.r-project.org/

• Nello stesso sito sono disponibili manuali ed introduzioni al programma (sezione Manuals).

Page 4: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 1

ANALISI PRELIMINARE DEI DATI

Page 5: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

MATRICE DEI DATI

• Se si rilevano variabili su unità, in generale le osservazioni raccolte possono essere organizzate nella . 8 matrice deidati

D œ

B B â BB B â Bã ã ä ã

B B â B

"" "# ".

#" ## #.

" 8# 88 .

• L'i i j-esima riga di rappresenta le osservazioni raccolte sull' -esima unità, mentre la -esima colonna di rappresentaD Dle osservazioni relative a tutte le unità per la -esima variabile.j

• Le variabili possono essere di tipo o . Le variabili possono essere oqualitativo quantitativo quantitative continuediscrete fattori. Le variabili qualitative sono dette anche .

• L'analisi delle variabili sulla base della matrice dei dati viene usualmente effettuata sia in modo (ovveromarginalerispetto ad ogni singola variabile) che in modo (ovvero rispetto a gruppi di variabili o alla totalità dellecongiuntovariabili).

Page 6: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

MATRICE DEI DATI

• Può essere conveniente adottare una differente notazione quando si vuole distinguere le variabili da quelleesplicativedi risposta D. Se vi sono variabili esplicative e variabili di risposta, la matrice può essere opportunamente: Ð. :Ñ

suddivisa nelle due matrici (relativa alle osservazioni delle variabili esplicative) e (relativa alle osservazioni delleX Yvariabili di risposta)

D X Yœ Ð ß Ñ œ

B B â B C C â C

B B â B C C â C

ã ã ä ã ã ã ä ãB B â B C C â C

"" "# ": "" "# "Ð.:Ñ

#" ## #: #" ## #Ð.:Ñ

" 8# 8 8" 8# 8Ð.:Ñ8 :

Page 7: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

MATRICE DEI DATI

• Per parsimonia, se si assume la notazione. œ "

D xœ œ

BBãB

"

#

8

mentre se e , si adotta la notazione. œ # : œ "

D x yœ Ð ß Ñ œ

B CB Cã ãB C

" "

# #

88

• Con un lieve abuso si adotta la medesima notazione quando ci si riferisce marginalmente ad una variabile o ad unacoppia di variabili.

Page 8: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

MATRICE DEI DATI

• La seguente matrice dei dati è relativa ad un esperimento finalizzato ad analizzare i tempi per completareEsempio.un semplice gioco enigmistico quando si odora un profumo e quando non lo si odora (Fonte: Hirsch, A.R. e Johnston,L.H., 1996, Odors and learning, , 119-124). I dati,Journal of Neurological & Orthopedic Medicine & Surgery 17contenuti nel file , vengono letti e resi disponibili mediante iscent.txt seguenti comandi

> d <- read.table("c:\\Rwork\\examples\\scent.txt", header = T)> attach(d)

Vi sono soggetti su cui vengono misurate variabili. I nomi delle variabili vengono ottenuti mediante il8 œ #" . œ ""

seguente comando

> names(d)[1] "Sex" "Smoker" "Opinion" "Age" "Order" "U.T1" "U.T2"[8] "U.T3" "S.T1" "S.T2" "S.T3"

Le prime tre variabili e la quinta sono di tipo qualitativo, mentre le restanti sono di tipo quantitativo. La quarta variabileè quantitativa discreta, mentre le ultime sei sono quantitative continue. Le prime variabili (sesso, fumo, effetto: œ &

percepito del profumo, età, ordine con cui si effettua l'esperimento) sono esplicative, mentre le ultime . : œ '

variabili (tempi di reazione in tre esperimenti indipendenti in cui si è odorato o non si è odorato il profumo) sono dirisposta.

Page 9: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

MATRICE DEI DATI

• La matrice dei dati viene ottenuta mediante il seguente comandoEsempio (segue).

> d Sex Smoker Opinion Age Order U.T1 U.T2 U.T3 S.T1 S.T2 S.T31 M N Pos 23 1 38.4 27.7 25.7 53.1 30.6 30.22 F Y Neg 43 2 46.2 57.2 41.9 54.7 43.3 56.73 M N Pos 43 1 72.5 57.9 51.9 74.2 53.4 42.44 M N Neg 32 2 38.0 38.0 32.2 49.6 37.4 34.45 M N Neg 15 1 82.8 57.9 64.7 53.6 48.6 44.86 F Y Pos 37 2 33.9 32.0 31.4 51.3 35.5 42.97 F N Pos 26 1 50.4 40.6 40.1 44.1 46.9 42.78 F N Pos 35 2 35.0 33.1 43.2 34.0 26.4 24.89 M N Pos 26 1 32.8 26.8 33.9 34.5 25.1 25.110 F N Ind 31 2 60.1 53.2 40.4 59.1 87.1 59.211 F Y Pos 35 1 75.1 63.1 58.0 67.3 43.8 42.212 F Y Ind 55 2 57.6 57.7 61.5 75.5 126.6 48.413 F Y Pos 25 1 55.5 63.3 44.6 41.1 41.8 32.014 M Y Ind 39 2 49.5 45.8 35.3 52.2 53.8 48.115 M N Ind 25 1 40.9 35.7 37.2 28.3 26.0 33.716 M N Pos 26 2 44.3 46.8 39.4 74.9 45.3 42.617 M Y Neg 33 1 93.8 91.9 77.4 77.5 55.8 54.918 M N Neg 62 2 47.9 59.9 52.8 50.9 58.6 64.519 F Y Pos 54 1 75.2 54.1 63.6 70.1 44.0 43.120 F N Neg 38 2 46.2 39.3 56.6 60.3 47.8 52.821 M N Neg 65 1 56.3 45.8 58.9 59.9 36.8 44.3

Page 10: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

ANALISI MARGINALE DELLE SINGOLE VARIABILI

• L' dei dati viene usualmente iniziata con l'analisi marginale delle variabili. Questa indagine èanalisi esplorativa .

condotta mediante .sintesi numeriche e grafiche

• Se la variabile è , si considerano i ed il connesso .quantitativa quantili diagramma a scatola e baffiSuccessivamente, si considerano l' e ulteriori .istogramma indici di sintesi

• Se la variabile è , si adotta il .qualitativa diagramma a nastri

Page 11: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

QUANTILI

• Supponiamo di considerare una variabile e si desideri effettuare una prima analisi esplorativa marginale. quantitativaLe osservazioni relative alla variabile, ovvero , possono essere convenientemente , ottenendo leB ß B ßá ß B" # 8 ordinatenuove osservazioni B ß B ßá ß BÐ"Ñ Ð#Ñ Ð8Ñ. Inizialmente, queste quantità vengono rappresentate mediante segmenti su unasse ordinato per graficizzare la relativa , ovvero l'insieme di valori assunti dalla variabile.distribuzione

• Il , con , è un valore separa in due gruppi le osservazioni ordinate, ovvero laquantile di ordine α α − Ò!ß "Ó Bëα che frazione di osservazioni più piccole e la frazione di quelle più elevate.α αÐ" Ñ

• Evidentemente, non esiste un di eccetto che in alcuni casi particolari. Ad esempio, quando evalore unico Bëα α œ !Þ&

8 œ !Þ& 8 è dispari, si ottiene immediatamente il valore unico e è pari, allora B œ B Bë ë!Þ& !Þ&Ð8Î#"Î#Ñ, mentre se puòα

essere scelto come un qualsiasi valore fra e .B BÐ8Î#Ñ Ð8Î#"Ñ

• Esistono per la selezione di un valore unico per un generico quantile che tendono comunque avarie propostecoincidere per elevato.8

Page 12: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

QUANTILI

• In particolare, B B Bë ë ë!Þ& !Þ#& !Þ(& è detta , è detto , mentre è detto . Inoltre, permediana primo quartile terzo quartiledefinizione si ha e , ovvero per e si ottiene il e il delle osservazioni.B Bë ë! "Ð"Ñ Ð8Ñœ B œ B œ ! œ "α α minimo massimo

• I precedenti cinque quantili sono detti , in quanto caratterizzano sommariamente la distribuzione delledi baseosservazioni.

• La individua il valore “ ” della distribuzione.mediana centrale

• Il individuano un che contiene il % delle osservazioni più “ ”primo e terzo quartile intervallo interneÒB ß Ó &!ë ë!Þ#& !Þ(&B

della distribuzione, ovvero danno un'informazione sulla della variabile.dispersione

• Il e il individuano il delle osservazioni, ovvero l' che contiene tutte leminimo massimo dominio intervallo ÒB ß B ÓÐ"Ñ Ð8Ñ

osservazioni.

Page 13: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

DIAGRAMMA A SCATOLA E BAFFI

• Sulla base dei cinque quantili di base si può produrre un grafico importante per una prima analisi esplorativamarginale, ovvero il . diagramma a scatola e baffi

• Questo diagramma è basato su una di larghezza arbitraria, la cui lunghezza è data dalla differenza fra il scatola terzoe il quartile, ovvero .primo ÐB Bë ë!Þ(& !Þ#& Ñ

• Due segmenti (i cosiddetti ) si estendono oltre la scatola. Il primo baffo si estende fra il primo quartile e baffi il valoreadiacente inferiore, ovvero la più piccola osservazione maggiore di .B B Bë ë ë!Þ#& !Þ(& !Þ#& "Þ&Ð Ñ

• Il secondo baffo si estende fra il terzo quartile e il , ovvero la più grande osservazionevalore adiacente superioreminore di . La costante è e dettata da una scelta di compromesso.B B Bë ë ë!Þ(& !Þ(& !Þ#& "Þ&Ð Ñ "Þ& arbitraria

• Un è una osservazione più piccola del valore adiacente inferiore o più grande del valore adiacentevalore anomalosuperiore.

• Parallelamente al diagramma a scatola e baffi vengono usualmente riportati anche i segmenti relativi alleosservazioni ordinate.

Page 14: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

DIAGRAMMA A SCATOLA E BAFFI

02

46

810

Box-and-whiskers plot

Obs

erve

d va

lues

Upper adjacent value(largest valueoutliers excepted)

Upper quartile

Median

Lower quartile

Lower adjacent value(smallest valueoutliers excepted)

Outlier

Page 15: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

DIAGRAMMA A SCATOLA E BAFFI

• Si considera di nuovo i dati relativi all'esperimento con i profumi e si analizzano i tempi di risposta allaEsempio.prima prova quando i soggetti non odorano profumo (variabile U.T1). I cinque quantili fondamentali vengonocalcolati mediante il seguente comando

> summary(U.T1) Min. 1st Qu. Median Mean 3rd Qu. Max. 32.80 40.90 49.50 53.92 60.10 93.80

Il diagramma a scatola e baffi viene ottenuto mediante i seguenti comandi

> boxplot(U.T1, boxwex = 0.3, ylab = "Unscented first trial time (seconds)",+ main = "Box-and-whiskers plot")> rug(U.T1, side = 2)

Page 16: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

DIAGRAMMA A SCATOLA E BAFFI

• I precedenti comandi producono il seguente graficoEsempio (segue).

4050

6070

8090

Box-and-whiskers plot

Uns

cent

ed fi

rst t

rial t

ime

(sec

onds

)

Page 17: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

DIAGRAMMA A SCATOLA E BAFFI

• Le distribuzioni marginali di più variabili omogenee (quali ad esempio le variabili Esempio (segue). U.T1 U.T2, ,U.T3 S.T1 S.T2 S.T3, , , ) possono essere confrontate riportando in un unico grafico i vari diagrammi a scatola ebaffi corrispondenti ad ogni variabile. Il comando per effettuare questa analisi è il seguente

> boxplot(d[, 6:11], boxwex = 0.3, ylab = "Time (seconds)",+ main = "Box-and-whiskers plot")

Page 18: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

DIAGRAMMA A SCATOLA E BAFFI

• Il precedente comando fornisce il seguente graficoEsempio (segue).

U.T1 U.T2 U.T3 S.T1 S.T2 S.T3

4060

8010

012

0

Box-and-whiskers plot

Tim

e (s

econ

ds)

Page 19: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

DISTRIBUZIONE DI FREQUENZA

• Quando si considera una o se vi sono nelle misurazioni di unavariabile quantitativa discreta arrotondamentivariabile quantitativa continua, molte determinazioni della variabile possono coincidere.

• Si supponga che vi siano determinazioni distinte della variabile e che vengano indicate con .< - ß - ßá ß -" # <

• In questo caso, è conveniente considerare la delle osservazioni, ovvero frequenza il numero di ripetizioni di ognideterminazione distinta della variabile. Le frequenze vengono indicate con i simboli .8 ß 8 ßá ß 8" # <

• L'insieme delle coppie è detta e può essere organizzata in una tavola di righeÐ #- ß 8 Ñ4 4 distribuzione di frequenzaper colonne.8

Page 20: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

DISTRIBUZIONE DI FREQUENZA

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Age. Ilcomando per ottenere la distribuzione di frequenza è il seguente

> table(Age)Age15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65 1 1 2 3 1 1 1 2 1 1 1 2 1 1 1 1

Page 21: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

ISTOGRAMMA

• Un ulteriore grafico che permette un'analisi esplorativa marginale di una variabile quantitativa è l' .istogramma

• Questo grafico si ottiene suddividendo le osservazioni in un insieme di (ovvero intervalli di valori) mutuamenteclassiesclusive ed esaustive, che sono selezionate opportunamente. Ovviamente, sussiste una certa nella sceltaarbitrarietàdelle classi.

• L'istogramma viene implementato ottenendo le (ovvero il numero di osservazioni per ognifrequenze di classeclasse) e le relative (ovvero il rapporto fra le frequenze di classe e la lunghezza della relativa classe). L'insiemedensitàdelle classi e delle corrispondenti frequenze è detta .distribuzione di frequenza per classi

• L'istogramma si ottiene riportando su ogni classe un rettangolo la cui base coincide con la classe, mentre l'altezza èproporzionale alla densità. Evidentemente, l' del rettangolo è proporzionale alla frequenza di classe. Le altezzeareavengono generalmente riproporzionate in modo tale che l' dei rettangoli sia pari ad uno.area totale

Page 22: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

ISTOGRAMMA

• Si considera di nuovo i dati relativi all'esperimento con profumi e si analizzano i tempi di risposta allaEsempio.prima prova quando i soggetti non odorano profumo (variabile U.T1). In questo caso, le classi adottate sonoÓ#&ß $%Óß Ó$%ß %%Óß Ó%%ß &'Óß Ó&'ß '&Óß Ó'&ß )&Óß Ó)&ß *&Ó. La distribuzione di frequenza in classi si ottiene eseguendo ilcomando

> table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)))(25,34] (34,44] (44,56] (56,65] (65,85] (85,95] 2 4 7 3 4 1

Il comando per ottenere l'istogramma è il seguente

> hist(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95),+ xlab = "Unscented first trial time (seconds)",+ ylab = "Density", main = "Histogram")

Page 23: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

ISTOGRAMMA

• Il precedente comando fornisce la seguente elaborazioneEsempio (segue).

Histogram

Unscented first trial time (seconds)

Den

sity

30 40 50 60 70 80 90

0.00

00.

005

0.01

00.

015

0.02

00.

025

Page 24: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

INDICI DI SINTESI

• L'analisi esplorativa marginale viene rifinita mediante quattro ulteriori . Per quanto riguarda laindici di sintesitendenza centrale un primo indice è la media

B œ B"

8–

3œ"

8

3

La mediana viene talvolta preferita alla media come indice di tendenza centrale in quanto meno ai valoriBë!Þ& sensibileanomali.

• Per quanto riguarda la variabilità un secondo indice è la varianza

= œ ÐB BÑ"

8B# #

3œ"

8

3 –

Al fine di ottenere un nell'unità di misura si considera usualmente la radice della varianza, ovvero loindice linearescarto quadratico medio . Anche e sono sensibili ai valori anomali e si preferisce talvolta adottare come= = =B BB

#

indice di variabilità il IQR piuttosto che lo scarto quadratico medio .rango interquartile B !Þ(& !Þ#& Bœ B B =~ ~

• Se si devono le di distribuzioni marginali per è conveniente adottareconfrontare variabilità variabili omogeneeindici di variabilità che non dipendono dall'unità di misura, quali il coefficiente di variazione = ÎlBlB

– o il rangointerquartile standardizzato IQR .B !Þ&ÎlB l~

Page 25: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

INDICI DI SINTESI

• Per quanto riguarda l'analisi dell'asimmetria della distribuzione, un terzo indice è il coefficiente di asimmetria

+ œ ÐB BÑ"

8=$ 3

B$

3œ"

8$ –

• Questo indice non dipende ovviamente dall'unità di misura. Il coefficiente di asimmetria assume valori intorno allo !per distribuzioni approssimativamente (ovvero distribuzioni con code simili), valori negativi persimmetrichedistribuzioni con (ovvero con code che si allungano verso sinistra) e valori positivi perasimmetria negativadistribuzioni con (ovvero con code che si allungano verso destra).asimmetria positiva

• Per quanto riguarda l'analisi della forma della distribuzione, un quarto indice è il coefficiente di curtosi

+ œ ÐB BÑ"

8=% 3

B%

3œ"

8% –

• Il valore di riferimento per questo indice è . Il coefficiente di curtosi assume valori elevati per distribuzioni$

leptocurtiche (ovvero distribuzioni con code molto allungate), mentre assume valori bassi per distribuzioniplaticurtiche (ovvero distribuzioni con code molto brevi).

Page 26: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

INDICI DI SINTESI

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile U.T1. Nonesiste un comando specifico per calcolare gli indici di sintesi eccetto che per la media, anche se è immediatoprogrammare le seguenti funzioni per il calcolo della varianza e dei coefficienti di asimmetria e curtosi

> variance <- function(x){+ m2 <- sum((x - mean(x))^2)/length(x)+ m2}>> skewness <- function(x){+ s3 <- sum((x - mean(x))^3)/length(x)/sqrt(variance(x))^3+ s3}>> kurtosis <- function(x){+ s4 <- sum((x - mean(x))^4)/length(x)/variance(x)^2+ s4}

Page 27: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

INDICI DI SINTESI

• Esempio (segue). Gli indici di sintesi vengono dunque ottenuti mediante i seguenti comandi

> mean(U.T1)[1] 53.92381> variance(U.T1)^(1/2)[1] 16.7326> skewness(U.T1)[1] 0.782112> kurtosis(U.T1)[1] 2.677314

Page 28: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

INDICI DI SINTESI

• La variabilità relativa Esempio (segue). delle distribuzioni marginali per le variabili U.T1 U.T2 U.T3 S.T1, , , ,S.T2 S.T3, possono essere confrontate mediante i seguenti comandi che calcolano i coefficienti di variazione

> variance(U.T1)^(1/2)/abs(mean(U.T1))[1] 0.3103008> variance(U.T2)^(1/2)/abs(mean(U.T2))[1] 0.3051359> variance(U.T3)^(1/2)/abs(mean(U.T3))[1] 0.2794869> variance(S.T1)^(1/2)/abs(mean(S.T1))[1] 0.2513865> variance(S.T2)^(1/2)/abs(mean(S.T2))[1] 0.456505> variance(S.T3)^(1/2)/abs(mean(S.T3))[1] 0.2418836

Page 29: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

DIAGRAMMA A NASTRI

• Se la variabile è , l'analisi esplorativa si riduce semplicemente nel determinare la qualitativa distribuzione difrequenza, ovvero l'insieme delle determinazioni distinte e delle relative frequenze .Ð- ß 8 Ñ4 4

• Da un punto di vista grafico la distribuzione di frequenza viene rappresentata mediante il , che èdiagramma a nastriun grafico basato su nastri di lunghezza pari alle frequenze di ogni determinazione della variabile e di identicalarghezza (scelta in modo soggettivo).

Page 30: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

DIAGRAMMA A NASTRI

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare la variabile Opinion. Ilcomando è il seguenteper ottenere la distribuzione di frequenza

> table(Opinion)OpinionInd Neg Pos 4 7 10

Inoltre, richiamando la libreria lattice che permette di implementare metodi grafici avanzati, il diagramma a nastrisi ottiene mediante i seguenti comandi

> library(lattice)> barchart(table(Opinion), xlab = "Frequency", ylab = "Opinion",+ main = "Barplot")

Page 31: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

DIAGRAMMA A NASTRI

• Il precedente comando fornisce il seguente graficoEsempio (segue).Barplot

Frequency

Opi

nion

Ind

Neg

Pos

0 2 4 6 8 10

Page 32: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

ANALISI MARGINALE DI COPPIE DI VARIABILI

• Questa indagine viene condotta mediante sintesi numeriche e grafiche. Se la coppia di variabili è , siquantitativarappresenta i dati mediante il e si analizza la relazione fra variabili mediante diagramma di dispersione indici didipendenza.

• Se una delle variabili è e l'altra è , si adottano .quantitativa qualitativa diagrammi a scatola e baffi condizionati

• Se entrambe le variabili sono i dati vengono sintetizzati in una e sintetizzatequalitative tabella a doppia entratamediante .diagrammi a nastro condizionati

Page 33: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

DIAGRAMMA DI DISPERSIONE

• Se entrambe le variabili analizzate sono , le osservazioni sono costituite da coppiequantitative 8

ÐB ß C Ñß ÐB ß C Ñßá ß ÐB ß C Ñ" " # # 8 8 che possono venire rappresentate mediante un grafico detto .diagramma di dispersione

• Il diagramma di dispersione permette di avere una sull'esistenza di fra le variabili.prima impressione dipendenza

Page 34: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

DIAGRAMMA DI DISPERSIONE

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 S.T1 e .Il comando per ottenere il diagramma di dispersione è il seguente

> plot(U.T1, S.T1, xlab = "Unscented first trial time (seconds)",+ ylab = "Scented first trial time (seconds)", main = "Scatter plot")

Page 35: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

DIAGRAMMA DI DISPERSIONE

• Il precedente comando fornisce il seguente graficoEsempio (segue).

40 50 60 70 80 90

3040

5060

70

Scatter plot

Unscented first trial time (seconds)

Sce

nted

firs

t tria

l tim

e (s

econ

ds)

Page 36: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

INDICI DI DIPENDENZA

• Una volta che si è verificata l'esistenza di una relazione fra le variabili, è conveniente ottenere indici per quantificarela esistente fra le variabili.dipendenza

• Se si sospetta una è opportuno calcolare il dipendenza lineare coefficiente di correlazione lineare

< œ=

= =BC

BC

B C

dove

= œ ÐB BÑÐC CÑ"

8BC 3 3

3œ"

8 – –

è detta .covarianza

• Risulta e i valori estremi sono raggiunti quando vi è ( )< − Ò "ß "Ó < œ "BC BCdipendenza lineare perfetta inversae ( ). Un valore di intorno allo zero denota dipendenza lineare perfetta diretta mancanza di dipendenza< œ " <BC BC

lineare.

Page 37: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

INDICI DI DIPENDENZA

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 S.T1 e .Il comando per ottenere il coefficiente di correlazione è il seguente

> cor(U.T1, S.T1)[1] 0.6316886

Page 38: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

TABELLA A DOPPIA ENTRATA

• Quando si considerano coppie di o se vi sono forti nelle misurazionivariabili quantitative discrete arrotondamentidi coppie di , molte determinazioni possono coincidere. Analogamente, la stessavariabili quantitative continuesituazione si ha quando una variabile della coppia è (o arrotondata) e l'altra è o quando lediscreta qualitativaosservazioni vengono poste in .classi

• Si supponga che vi siano determinazioni distinte della prima variabile (indicate con ) e determinazioni< - ß - ßá ß - =" # <

distinte della seconda variabile (indicate con ).. ß . ßá ß ." # =

• In questo caso è conveniente considerare la di , ovvero frequenza congiunta Ð- ß . Ñ4 6 il numero di ripetizioni di ognicoppia di determinazioni distinte. Le frequenza congiunta di viene indicata con il simbolo . La matrice diÐ- ß . Ñ4 6 846

frequenze (di ordine ) che si ottiene in questo modo è detta .< ‚ = tabella a doppia entrata

• L'insieme delle terne Ð- ß . ß 8 Ñ4 6 46 è detta .distribuzione di frequenza congiunta

Page 39: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

TABELLA A DOPPIA ENTRATA

• La della prima variabile è data dalle coppie distribuzione di frequenza marginale Ð- ß 8 Ñ4 4 dove

8 œ 84 46

6œ"

=mentre la della seconda variabile dovedistribuzione di frequenza marginale è data dalle coppie Ð. ß 8 Ñ6 6

8 œ 86 46

4œ"

<

• Evidentemente, le distribuzioni di frequenza marginali sono quelle che si ottengono considerando una variabile comese l'altra non fosse presente.

Page 40: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

TABELLA A DOPPIA ENTRATA

• La tabella a doppia entrata viene usualmente rappresentata nella seguente maniera

. . â .- 8 8 â 8 8- 8 8 â 8 8ã ã ã- 8 8

8 8 â 8 8

" # =

" "" "# "= "

# #" ## #= #

<" <

" # =

ã ä ã8 â 8< <# <=

Page 41: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

TABELLA A DOPPIA ENTRATA

• Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili Esempio. Sex Age e . Ilcomando per ottenere la tabella a doppia entrata è il seguente

> table(Sex, Age) AgeSex 15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65 F 0 0 1 1 1 0 0 2 1 1 0 1 1 1 0 0 M 1 1 1 2 0 1 1 0 0 0 1 1 0 0 1 1

La prima distribuzione marginale viene ottenuta mediante il seguente comando

> margin.table(table(Sex, Age), 1)Sex F M10 11

mentre la seconda distribuzione marginale viene ottenuta mediante il seguente comando

> margin.table(table(Sex, Age), 2)Age15 23 25 26 31 32 33 35 37 38 39 43 54 55 62 65 1 1 2 3 1 1 1 2 1 1 1 2 1 1 1 1

Page 42: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

TABELLA A DOPPIA ENTRATA

• Si consideri le variabili Esempio (segue). U.T1 U.T2 e che vengono poste nelle classiÓ#&ß $%Óß Ó$%ß %%Óß Ó%%ß &'Óß Ó&'ß '&Óß Ó'&ß )&Óß Ó)&ß *&Ó. La tabella a doppia entrata con le frequenze di classe si ottieneeseguendo il comando

> table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),+ cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95)))

(25,34] (34,44] (44,56] (56,65] (65,85] (85,95] (25,34] 2 0 0 0 0 0 (34,44] 2 2 0 0 0 0 (44,56] 0 2 2 3 0 0 (56,65] 0 0 2 1 0 0 (65,85] 0 0 1 3 0 0 (85,95] 0 0 0 0 0 1

Page 43: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

TABELLA A DOPPIA ENTRATA

• Esempio (segue). La prima distribuzione marginale viene ottenuta mediante il seguente comando

> margin.table(table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),+ cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95))), 1)

(25,34] (34,44] (44,56] (56,65] (65,85] (85,95] 2 4 7 3 4 1

mentre la seconda distribuzione marginale viene ottenuta mediante il seguente comando

> margin.table(table(cut(U.T1, breaks = c(25, 34, 44, 56, 65, 85, 95)),+ cut(U.T2, breaks = c(25, 34, 44, 56, 65, 85, 95))), 2)

(25,34] (34,44] (44,56] (56,65] (65,85] (85,95] 4 4 5 7 0 1

Page 44: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI

• Se una delle variabili è e l'altra allora non è possibile dare una rappresentazione cartesianaquantitativa qualitatitivadelle coppie di osservazioni.

• In questo caso è conveniente considerare un . Questo grafico si ottienediagramma a scatola e baffi condizionatoriportando un diagramma a scatola e baffi per le osservazioni della variabile quantitativa in corrispondenza di ognideterminazione della variabile qualitativa.

• I diagrammi a scatola e baffi condizionati in maniera sostanziale dalla serie di diagrammi a scatola edifferisconobaffi che si adottano quando si confrontano più variabili omogenee. Infatti, nel primo caso ogni diagramma è riferitoalla solita variabile e calcolato solamente sulla parte di osservazioni che manifesta la medesima determinazione dellavariabile qualitativa, mentre nel secondo caso ogni diagramma è riferito a variabili differenti (anche se omogenee) ecalcolato sulla totalità delle osservazioni.8

Page 45: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

42

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili U.T1 Sex e . Ilcomando per ottenere i diagrammi a scatola e baffi condizionati è il seguente

> boxplot(U.T1 ~ Sex, boxwex = 0.3,+ ylab = "Unscented first trial time (seconds)",+ main = "Box-and-whiskers plot")

Page 46: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

43

DIAGRAMMI A SCATOLA E BAFFI CONDIZIONATI

• Il precedente comando fornisce il seguente graficoEsempio (segue).

F M

4050

6070

8090

Box-and-whiskers plot

Uns

cent

ed fi

rst t

rial t

ime

(sec

onds

)

Page 47: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

44

TABELLA A DOPPIA ENTRATA

• Se le variabili sono , l'analisi esplorativa si riduce semplicemente nel determinare la entrambe qualitativedistribuzione di frequenza congiunta.

• Da un punto di vista grafico la distribuzione di frequenza bivariata viene rappresentata mediante i diagrammi anastri condizionati, che sono basati su nastri (di lunghezza pari alle frequenze di ogni determinazione della primavariabile) che vengono ripartiti rispetto alla composizione della seconda variabile.

Page 48: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

45

DIAGRAMMI A NASTRI DI CONDIZIONATI

• Si considera di nuovo i dati relativi all'esperimento con profumi, e in particolare le variabili Esempio. Sex eOpinion. Il comando per ottenere la tabella a doppia entrata è il seguente

> table(Sex, Opinion) OpinionSex Ind Neg Pos F 2 2 6 M 2 5 4

Inoltre, richiamando la libreria lattice che permette di implementare metodi grafici avanzati, i diagrammi a nastricondizionati si ottengono mediante i seguenti comandi

> library(lattice)> barchart(table(Sex, Opinion), ylab = "Sex",+ auto.key = list(title = "Opinion", cex = 0.8))

Page 49: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

46

DIAGRAMMI A NASTRI DI CONDIZIONATI

• I precedenti comandi forniscono il seguente graficoEsempio (segue).

Freq

Sex

F

M

0 2 4 6 8 10

OpinionIndNegPos

Page 50: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

47

ANALISI DI GRUPPI DI VARIABILI

• Quando si vuole analizzare o la , l'analisi diventa ovviamente piùgruppi di variabili globalità delle variabilicomplessa. Tuttavia è possibile introdurre alcune tecniche che permettono di facilitare l'indagine esplorativa.

Page 51: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

48

MATRICE DEI DIAGRAMMI DI DISPERSIONE

• Se si analizza un gruppo di variabili quantitative si può considerare la dipendenza fra coppie di variabili organizzandola cosiddetta che è costituita da una matrice di grafici che rappresentano imatrice dei diagrammi di dispersionediagrammi di dispersione per tutte le coppie di variabili.

• Questa matrice consente di evidenziare una della struttura di dipendenza fra le variabili, ovvero la parte dipendenzaper coppie di variabili.

• La matrice dei grafici di dispersione può caratteristiche salienti della . Adnon evidenziare dipendenza congiuntaesempio, fra un gruppo di variabili e può esistere una relazione lineare perfetta non esistere nessuna dipendenzamarginale fra tutte le coppie di variabili.

Page 52: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

49

MATRICE DEI DIAGRAMMI DI DISPERSIONE

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili U.T1 U.T2, ,U.T3 S.T1 S.T2 S.T3, , , . Il comando per ottenere la matrice dei diagrammi di dispersione è il seguente

> pairs(d[, 6:11], main = "Scatter-plot matrix")

Page 53: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

50

MATRICE DEI DIAGRAMMI DI DISPERSIONE

• Il precedente comando fornisce il seguente graficoEsempio (segue).

U.T1

30 50 70 90 30 50 70 30 50

4060

80

3060

90

U.T2

U.T3

3050

70

3050

70

S.T1

S.T2

4080

120

40 60 80

3050

30 50 70 40 80 120

S.T3

Scatter-plot matrix

Page 54: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

51

MATRICE DEI DIAGRAMMI DI DISPERSIONE

• Il comportamento di una ulteriore variabile qualitativa può essere analizzato introducendo nellaEsempio (segue).matrice dei diagrammi di dispersione differenti colori (o simboli) dei punti per ogni livello del fattore. Ad esempio, lavariabile Sex può essere analizzata nella matrice dei diagrammi di dispersione mediante il seguente comando

> pairs(d[, 6:11], pch = 21, bg = c("red", "blue")[as.integer(Sex)],+ main = "Scatter-plot matrix (Red=F, Blue=M)")

Page 55: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

52

MATRICE DEI DIAGRAMMI DI DISPERSIONE

• Il precedente comando fornisce il seguente graficoEsempio (segue).

U.T1

30 50 70 90 30 50 70 30 50

4060

80

3060

90

U.T2

U.T3

3050

70

3050

70

S.T1

S.T2

4080

120

40 60 80

3050

30 50 70 40 80 120

S.T3

Scatter-plot matrix (Red=F, Blue=M)

Page 56: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

53

MATRICE DI CORRELAZIONE

• Accanto alla matrice dei diagrammi di dispersione è conveniente considerare anche la ,matrice di correlazioneovvero la matrice che contiene tutti i fra coppie di variabili.coefficienti di correlazione

• Come la matrice dei diagrammi di dispersione, la matrice di correlazione non permette globale di analizzare in modo la dipendenza fra le variabili, ma offre solamente una interpretazione della dipendenza lineare per coppie divariabili.

Page 57: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

54

MATRICE DI CORRELAZIONE

• Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabiliEsempio. U.T1 U.T2, ,U.T3 S.T1 S.T2 S.T3, , , . Il comando per ottenere la matrice di correlazione è il seguente

> cor(d[, 6:11]) U.T1 U.T2 U.T3 S.T1 S.T2 S.T3U.T1 1.0000000 0.8409657 0.8357371 0.6316886 0.3348490 0.3961762U.T2 0.8409657 1.0000000 0.7678098 0.5986291 0.4371346 0.5727865U.T3 0.8357371 0.7678098 1.0000000 0.5879344 0.3745938 0.4432778S.T1 0.6316886 0.5986291 0.5879344 1.0000000 0.5430833 0.5167140S.T2 0.3348490 0.4371346 0.3745938 0.5430833 1.0000000 0.5600428S.T3 0.3961762 0.5727865 0.4432778 0.5167140 0.5600428 1.0000000

Page 58: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

55

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• È possibile analizzare la dipendenza di una coppia di variabili quantitative al variare di una terza (o eventualmente diuna quarta) mediante .diagrammi di dispersione condizionati

• Questa grafici si ottengono riportando una serie di diagrammi di dispersione condizionate a vari livelli di ulteriorivariabili.

Page 59: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

56

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• Esempio. Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili Smoker,U.T1 U.T2 U.T1 U.T2 Smoker, . I comandi e per ottenere i diagrammi di dispersione di condizionati a sono iseguenti

> library(lattice)> xyplot(U.T2 ~ U.T1 | Smoker, xlab = "Unscented first trial time (seconds)",+ ylab = "Unscented second trial time (seconds)",+ main = "Scatter plot conditioned to smoke")

Page 60: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

57

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• I precedenti comandi forniscono il seguente graficoEsempio (segue).Scatter plot conditioned to smoke

Unscented first trial time (seconds)

Uns

cent

ed s

econ

d tri

al ti

me

(sec

onds

)

40

60

80

30 40 50 60 70 80 90

N

30 40 50 60 70 80 90

Y

Page 61: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

58

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• Quando la variabile a cui ci si condiziona è quantitativa, allora i diagrammi di dispersioneEsempio (segue).condizionati possono essere implementati suddividendo questa variabile in opportuni intervalli. Ad esempio, leosservazioni corrispondenti alla variabile possono essere posti nelle classi e , cheAge Ò"%Þ&ß $%Þ&Ò Ò$%Þ&ß '&Þ&Ò

rappresentano due grossolane classi per individui giovani e più anziani, rispettivamente. L'analisi può essereulteriormente approfondita condizionandosi anche rispetto ad una seconda variabile ovvero la variabile . Order Icomandi e per ottenere i diagrammi di dispersione di condizionati alle variabili e sono iU.T1 U.T2 Age Order

seguenti

> library(lattice)> AgeClass = equal.count(Age, number = 2, overlap = 0.0)> xyplot(U.T2 ~ U.T1 | AgeClass * Order,+ strip = strip.custom(strip.names = T, strip.levels = T),+ xlab = "Unscented first trial time (seconds)",+ ylab = "Unscented second trial time (seconds)",+ main = "Scatter plot conditioned to age and order")

Page 62: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

59

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• I precedenti comandi forniscono il seguente graficoEsempio (segue).Scatter plot conditioned to age and order

Unscented first trial time (seconds)

Uns

cent

ed s

econ

d tri

al ti

me

(sec

onds

)

40

60

80

30 40 50 60 70 80 90

: AgeClass [ 14.5, 33.5 ]: Order { 1 }

: AgeClass [ 34.5, 65.5 ]: Order { 1 }

: AgeClass [ 14.5, 33.5 ]: Order { 2 }

30 40 50 60 70 80 90

40

60

80

: AgeClass [ 34.5, 65.5 ]: Order { 2 }

Page 63: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

60

TABELLE A PIÙ ENTRATE

• Il concetto di tabella a doppia entrata può essere generalizzato quando si hanno tre o più variabili. In questo caso siottengono .tabelle a tre o più entrate

• Le definizioni di frequenza congiunta e marginale possono essere adattate facilmente a questa struttura (anche se lanotazione diviene più complessa).

• Per la rappresentazione di questi dati è conveniente costruire .matrici di diagrammi a nastro condizionati

Page 64: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

61

TABELLE A PIÙ ENTRATE

• Si considera di nuovo i dati relativi all'esperimento con profumi e in particolare le variabili Esempio. Sex,Opinion Order, . Il comando per ottenere la tabella a tre entrate è il seguente

> table(Sex, Opinion, Order), , Order = 1

OpinionSex Ind Neg Pos F 0 0 4 M 1 3 3

, , Order = 2

OpinionSex Ind Neg Pos F 2 2 2 M 1 2 1

Page 65: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

62

TABELLE A PIÙ ENTRATE

• Esempio (segue). I comandi per ottenere i diagrammi a nastri condizionati sono i seguenti

> library(lattice)> barchart(table(Sex, Opinion, Order), ylab = "Sex",+ auto.key = list(title = "Order", cex = 0.8))

Page 66: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

63

DIAGRAMMI DI DISPERSIONE CONDIZIONATI

• I precedenti comandi forniscono il seguente graficoEsempio (segue).

Freq

Sex

F

M

0 1 2 3 4 5 6

Ind Neg

F

M

Pos

Order12

Page 67: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

64

RAPPRESENTAZIONI GRAFICHE PER GRUPPI DI VARIABILI

• Quando si analizza un gruppo di variabili quantitative con una numerosità maggiore di tre, gli usuali graficicartesiani rappresentazioni grafiche non sono utilizzabili per . In ogni caso, anche per una numerosità pari a tre, ungrafico cartesiano non risulta facilmente leggibile.

• Quando si vuole rappresentare i dati relativi a un gruppo di variabili quantitative, si deve dunque ricorrere arappresentazioni grafiche specifiche.

Page 68: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

65

DIAGRAMMA A STELLE

• Una prima rappresentazione grafica per gruppi di variabili quantitative consiste nel cosiddetto .diagramma a stelle

• Nel diagramma a stelle si considera per ogni unità un grafico costituito da un che partono da uninsieme di raggimedesimo punto. Il è pari al numero delle variabili da rappresentare. La ènumero di raggi lunghezza di ogni raggiodata dal valore della corrispondente variabile sull'unità considerata.

Page 69: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

66

DIAGRAMMA A STELLE

• Si dispone della matrice dei dati relativa alle specie e alle dimensioni dei sepali e dei petali in centimetri perEsempio.alcuni fiori di iris (Fonte: Fisher, R.A., 1936, The use of multiple measurements in taxonomic problems, Annals ofEugenics , 179-1847 ). Questa classica matrice dei dati è compresa nel database di e viene resa disponibile mediante iR

comandi

> data(iris)> attach(iris)

Vi sono fiori di iris su cui vengono misurate variabili, ovvero8 œ "&! . œ &

> names(iris)[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"

Le prime quattro variabili sono di tipo quantitativo e sono relative alla larghezza e alla lunghezza dei sepali e dei petalidel fiore, mentre la restante è di tipo qualitativo ed è relativa alla specie di iris.

Page 70: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

67

DIAGRAMMA A STELLE

• per ottenere il diagramma a stelle relativo alle variabili Esempio (segue). Il comando Sepal.Length,Sepal.Width Petal.Length Petal.Width, , è il seguente

> stars(iris[, 1:4], key.loc = c(14,-3), mar = c(4, 0, 1, 0),+ main = "Star plot")

Page 71: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

68

DIAGRAMMA A STELLE

• Esempio (segue). Il precedente comando fornisce il seguente grafico

Star plot

Sepal.LengthSepal.Width

Petal.LengthPetal.Width

Page 72: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

69

DIAGRAMMA A STELLE

• Esempio (segue). Il comportamento di una ulteriore variabile qualitativa può essere analizzato introducendo neldiagramma differenti colori delle stelle per ogni livello del fattore. Ad esempio, la variabile Species può essereanalizzata nel diagramma a stelle mediante il seguente comando

> stars(iris[, 1:4], key.loc = c(6, -3), mar = c(7, 0, 1, 0),+ main = "Star plot", col.stars = Species)> legend(x = 15, y = 3, col = c("black", "red", "green"),+ cex = 0.8, lwd = 1, bty = "n",+ legend = c("Setosa", "Versicolor", "Virginica"))

Page 73: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

70

DIAGRAMMA A STELLE

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

Star plot

Sepal.LengthSepal.Width

Petal.LengthPetal.Width

SetosaVersicolorVirginica

Page 74: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

71

DIAGRAMMA A COORDINATE PARALLELE

• Una seconda rappresentazione grafica per gruppi di variabili quantitative consiste nel cosiddetto diagramma acoordinate parallele.

• Nel diagramma a coordinate parallele si disegna un numero di pari al numero delle variabililinee parallele verticalida rappresentare. Le linee parallele vengono poste ad uguale distanza l'una dall'altra. Per ogni unità i valori assuntidalle variabili considerate vengono rappresentate come una . Lelinea spezzata con i vertici sugli assi paralleliposizioni dei vertici sugli assi corrispondono ai valori relativi alle singole variabili.

Page 75: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

72

DIAGRAMMA A COORDINATE PARALLELE

• Si considera di nuovo i dati relativi ai fiori di iris. I comandi per ottenere il Esempio. diagramma a coordinateparallele relativo alle variabili sono i seguentiSepal.Length Sepal.Width Petal.Length Petal.Width, , ,

> library(MASS)> parcoord(iris[,-5], main = "Parallel coordinates plot")

Page 76: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

73

DIAGRAMMA A COORDINATE PARALLELE

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

Parallel coordinates plot

Sepal.Length Sepal.Width Petal.Length Petal.Width

Page 77: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

74

DIAGRAMMA A COORDINATE PARALLELE

• Anche in questo caso, Esempio (segue). il comportamento di una ulteriore variabile qualitativa può essere analizzatointroducendo nel diagramma differenti colori delle linee spezzate per ogni livello del fattore. Ad esempio, la variabileSpecies può essere analizzata nel diagramma a coordinate parallele mediante il seguente comando

> parcoord(iris[, -5], main = "Parallel coordinates plot",+ col = as.numeric(iris[, 5]))> legend(x = 2.3, y = 1, bty = "o", lty = 1, col = 1:3, cex = 0.8,+ legend = c("Setosa", "Versicolor", "Virginica"))

Page 78: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

75

DIAGRAMMA A COORDINATE PARALLELE

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

Parallel coordinates plot

Sepal.Length Sepal.Width Petal.Length Petal.Width

SetosaVersicolorVirginica

Page 79: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

76

RAPPRESENTAZIONI GRAFICHE PER VARIABILI RILEVATE NEL TEMPO

• Se su una unità si rileva una variabile a fissi istanti temporali, si ottiene la cosiddetta . Si noti che inserie temporalequesto caso , mentre è pari al numero di istanti temporali in cui vengono effettuate le rilevazioni. Se la variabile8 œ " .

viene rilevata su più unità si ottengono i cosiddetti .dati longitudinali o dati panel

• La serie temporale viene usualmente rappresentata mediante una in un . Inlinea spezzata diagramma cartesianomodo analogo, i dati longitudinali vengono rappresentati come in un un insieme di linee spezzate diagrammacartesiano.

• Se su una unità si rilevano invece più variabili a fissi istanti temporali, si ottiene la cosiddetta serie temporalemultivariata dati longitudinali multivariati. Infine, se le variabili vengono rilevate su più unità si hanno i cosiddetti .

• Quando il numero delle variabili è limitato, la serie temporale multivariata viene usualmente rappresentata come uninsieme di di , dove i colori sono relativi ad ogni variabile. I valori delle osservazionilinee spezzate differenti colorivengono eventualmente centrati e scalati in modo opportuno al fine di aumentare la leggibilità del grafico.Alternativamente, si considera un , ognuno dei quali è relativo alla serie temporale diinsieme di grafici sovrappostiuna singola variabile. possono essere ottenute per i dati longitudinali, anche se con crescenteSimili rappresentazionicomplessità.

Page 80: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

77

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Si dispone della matrice dei dati relativa alle temperature medie annuali globali in gradi centigradi dal 1880Esempio.al 2017 fornite dalla National Oceanic and Atmospheric Administration (NOAA) (Fonte: Shumway, R.H. e Stoffer,D.S., 2017, , quarta edizione, Springer, Switzerland)Time series analysis and its applications . La matrice dei dati ècompresa nel database di e viene resa disponibile mediante la libreriaR

> library(astsa)

che contiene la serie temporale . Questa serie temporale è relativa agli scarti dalla media del periodo 1951-globtemp

1980. La serie temporale può essere rappresentata graficamente mediante i comandiglobtemp

> par(mar = c(2, 2, 0, 0.5) + .5, mgp = c(1.6, 0.6, 0))> plot(globtemp, ylab = 'Global temperature deviations (°C)', type = 'n')> grid(lty = 1, col = gray(0.9))> lines(globtemp, type = 'o')

Page 81: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

78

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

Time

Glo

bal t

empe

ratu

re d

evia

tions

(°C

)

1880 1900 1920 1940 1960 1980 2000 2020

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

Page 82: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

79

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Nel medesimo database sono disponibili anche le temperature medie annuali al suolo e leEsempio (segue).temperature medie annuali sull'oceano in gradi centigradi dal 1880 al 2017 fornite dalla NOAA. Le serie temporaligtemp_land gtemp_ocean e sono relative ai rispettivi scarti dalle medie del periodo 1951-1980. La serie temporale multivariata composta da , e può essere rappresentataglobtemp gtemp_land gtemp_ocean graficamente mediante i comandi

> gtemp.df = data.frame(Year = c(time(globtemp)), gtemp = c(gtemp_ocean)[1:136],+ gtempl = c(gtemp_land)[1:136], gtemp2 = c(globtemp))> tsplot(gtemp.df[[1]], gtemp.df[[3]], ylab = "Temperature deviation (°C)",+ xlab = "Year", lwd = 1, col = "green")> lines(gtemp.df[[1]],gtemp.df[[2]], lwd = 1, col = "blue")> lines(gtemp.df[[1]],gtemp.df[[4]], lwd = 1, col = "red")> legend('topleft', col = c("green", "blue", "red"),+ lwd = 1, legend = c("Land", "Ocean", "Global"))

Page 83: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

80

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

1880 1900 1920 1940 1960 1980 2000 2020

-0.5

0.0

0.5

1.0

Year

Tem

pera

ture

dev

iatio

n (°

C)

LandOceanGlobal

Page 84: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

81

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Si dispone della matrice dei dati per la serie temporale multivariata relativa alle medie settimanali dellaEsempio.mortalità globale, della mortalità per cause respiratorie, della mortalità per cause cardiocircolatorie, della temperatura,dell'umidità, del monossido di carbonio, del diossido di zolfo, del diossido di nitrogeno, degli idrocarburi, dell'ozono edel particolato rilevate nella contea di Los Angeles nel periodo 1970-1979 (Fonte: Shumway, R.H. e Stoffer, D.S.,2017, , quarta edizione, Springer, Switzerland)Time series analysis and its applications . La matrice dei dati è compresanel database di e viene resa disponibile mediante la libreriaR

> library(astsa)

che contiene la serie temporale multivariata .lap

Page 85: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

82

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). La serie temporale multivariata può essere rappresentata graficamente mediante i comandilap

> library(lattice)> d <- data.frame(lap)> tmort <- ts(d[[1]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> rmort <- ts(d[[2]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> cmort <- ts(d[[3]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> tempr <- ts(d[[4]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> rh <- ts(d[[5]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> co <- ts(d[[6]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> so2 <- ts(d[[7]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> no2 <- ts(d[[8]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> hycarb <- ts(d[[9]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> o3 <- ts(d[[10]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> part <- ts(d[[11]], start = c(1970, 1), end = c(1979, 40), frequency = 52)> xyplot(cbind(Total_mortality = tmort, Respiratory_mortality = rmort,+ Cardiovascular_mortality = cmort, Temperature = tempr,+ Relative_humidity = rh, Carbon_monoxide = co, Sulfur_dioxide = so2,+ Nitrogen_dioxide = no2, Hydrocarbons = hycarb, Ozone = o3,+ Particulates = part))

Page 86: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

83

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

Time

1402

00Total_mortality

1970 1972 1974 1976 1978 1980

515

30

Respiratory_mortality80

120 Cardiovascular_mortality

5080

Temperature

2060

Relative_humidity

515

Carbon_monoxide

13

5

Sulfur_dioxide

515

25

Nitrogen_dioxide

2060

Hydrocarbons

515

Ozone

2060

1970 1972 1974 1976 1978 1980

Particulates

Page 87: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

84

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Due particolari sottogruppi delEsempio (segue). a serie temporale multivariata possono essere rappresentatilap

graficamente mediante il comando

> xyplot(cbind(Respiratory_mortality = rmort, Temperature = tempr,+ Relative_humidity = rh, Particulates = part))

e mediante il comando

> xyplot(cbind(Cardiovascular_mortality = cmort, Temperature = tempr,+ Relative_humidity = rh, Particulates = part))

Page 88: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

85

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). Il primo comando fornisce il seguente grafico

Time

515

25

Respiratory_mortality

5070

90Temperature

2060

Relative_humidity

2060

100

1970 1972 1974 1976 1978 1980

Particulates

Page 89: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

86

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO

• Esempio (segue). Il secondo comando fornisce il seguente grafico

Time

8012

0

Cardiovascular_mortality

5070

90Temperature

2060

Relative_humidity

2060

100

1970 1972 1974 1976 1978 1980

Particulates

Page 90: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

87

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NELLO SPAZIO

• In modo analogo a quanto visto per una variabile osservata nel tempo, si può rilevare una variabile in determinateposizioni spaziali in modo da ottenere la cosiddetta . Anche in questo caso risulta , mentre è pariserie spaziale 8 œ " .

al numero di posizioni spaziali in cui vengono effettuate le rilevazioni.

• La serie spaziale può essere rappresentata mediante di differente simboli gradazione di colore o grandezza(proporzionale al valore della variabile) su un riferimento di coordinate spaziali (ad esempio latitudine e longitudine).

• Se invece si rilevano più variabili in determinate posizioni spaziali, si ottiene la cosiddetta serie spazialemultivariata.

Page 91: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

88

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NELLO SPAZIO

• Si dispone della matrice dei dati relativa alla serie spaziale delle temperature massime in gradi FahrenheitEsempio.rilevate giornalmente in 138 stazioni metereologiche nella parte centrale degli Stati Uniti (fra 32°N-46°N e 80°O-100°O) durante il triennio 1990-1993 (Fonte: Wikle, C.K., Zammit-Mangion, A. e Cressie, N., 2019, Spatio-temporalstatistics with R, Chapman&Hall/CRC, Boca Raton). La matrice dei dati è compresa nel database di e viene resaR

disponibile mediante i comandi

> library("STRbook")> data("NOAA_df_1990", package = "STRbook")

La rappresentazione della serie spaziale relativa alle temperature massime del 30 maggio 1993 può essere ottenutamediante i seguenti comandi

> library("dplyr")> library("ggplot2")> Tmax <- filter(NOAA_df_1990, proc == "Tmax" & month %in% 5 & year == 1993)> Tmax$t <- Tmax$julian - 728049> Tmax_1 <- subset(Tmax, t %in% c(30))> ggplot(Tmax_1) + geom_point(aes(x = lon, y = lat, colour = z), size = 2) ++ col_scale(name = "°F") + xlab("Longitude") ++ ylab("Latitude") + geom_path(data = map_data("state"),+ aes(x = long, y = lat, group = group)) + theme_bw()

Page 92: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

89

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NELLO SPAZIO

• Esempio (segue). I precedenti comandi forniscono il seguente grafico

25

30

35

40

45

50

-120 -100 -80Longitude

Latit

ude

60

70

80

90

°F

Page 93: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

90

MAPPE COROPLETICHE

• Nel caso in cui la variabile assume valori su regioni geografiche, è conveniente rappresentare i dati mediante mappecoropletiche regioni sono colorate o rappresentate con diversi. Questo tipo di grafico è un diagramma in cui le schemi in modo da evidenziare i relativi valori delle variabili. Le mappe coropletiche vengono utilizzate ad esempioper rappresentare graficamente variabili quali la densità di popolazione o la distribuzione del reddito pro capite.

Page 94: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

91

MAPPE COROPLETICHE

• Esempio. Si dispone della matrice dei dati relativa al numero di arresti ogni centomila residenti per omicidio,aggressione e stupro in ogni stato degli USA nel 1973 e alla percentuale di popolazione residente nelle aree urbane(Fonte: ). Questa classica matrice dei dati è compresaMcNeil, D.R., 1977, , Wiley, New YorkInteractive Data Analysisnel database di e viene resa disponibile mediante i comandiR

> data(USArrests)> attach(USArrests)

Vi sono stati degli USA in cui vengono misurate variabili, ovvero8 œ &! . œ %

> names(USArrests)[1] "Murder" "Assault" "UrbanPop" "Rape"

Page 95: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

92

MAPPE COROPLETICHE

• per ottenere le mappe coropletEsempio (segue). I comandi iche relative alle variabili , ,Murder Assault

UrbanPop Rape, sono i seguenti

> library(maps)> library(ggplot2)> library(mapproj)> library(plyr)> states_map <- map_data("state")> crimes <- data.frame(state = tolower(rownames(USArrests)), USArrests)> crime_map <- merge(states_map, crimes, by.x = "region", by.y = "state")> crime_map <- arrange(crime_map, group, order)> head(crime_map)> ggplot(crime_map, aes(x = long, y = lat, group = group, fill = Murder)) ++ geom_polygon(colour = F) + coord_map("polyconic") ++ scale_fill_gradient2()> ggplot(crime_map, aes(x = long, y = lat, group = group, fill = Assault)) ++ geom_polygon(colour = F) + coord_map("polyconic") ++ scale_fill_gradient2()> ggplot(crime_map, aes(x = long, y = lat, group = group, fill = UrbanPop)) ++ geom_polygon(colour = F) + coord_map("polyconic") ++ scale_fill_gradient2()> ggplot(crime_map, aes(x = long, y = lat, group = group, fill = Rape)) ++ geom_polygon(colour = F) + coord_map("polyconic") ++ scale_fill_gradient2()

Page 96: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

93

MAPPE COROPLETICHE

• I precedenti comandi forniscono i seguenti graficiEsempio (segue).

25

30

35

40

45

50

-120 -100 -80long

lat

5

10

15

Murder

25

30

35

40

45

50

-120 -100 -80long

lat

100

200

300

Assault

Page 97: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

94

MAPPE COROPLETICHE

• Esempio (segue).

25

30

35

40

45

50

-120 -100 -80long

lat

405060708090

UrbanPop

25

30

35

40

45

50

-120 -100 -80long

lat

10

20

30

40

Rape

Page 98: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

95

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• Nel caso in cui una variabile viene osservata in determinate posizioni spaziali e a determinati istanti temporali, siottiene la cosiddetta .serie spazio-temporale

• La serie spazio-temporale può essere rappresentata mediante una alsequenza di diagrammi per serie spazialivariare del tempo.

• Quando il numero di istanti temporali è elevato, può essere utile considerare opportune animazioni.

Page 99: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

96

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• Si considera di nuovo la matrice dei dati relativa alla serie spaziale delle temperature massime in gradiEsempio.Fahrenheit rilevate giornalmente in 138 stazioni metereologiche nella parte centrale degli Stati Uniti. Larappresentazione della serie spazio-temporale relativa alle temperature massime dal 16 al 30 maggio 1993 può essereottenuta mediante i seguenti comandi

> Tmax_2 <- subset(Tmax, t %in% c(16:30))> ggplot(Tmax_2) + geom_point(aes(x = lon, y = lat, colour = z), size = 1) ++ col_scale(name = "°F") + xlab("Longitude") ++ ylab("Latitude") + geom_path(data = map_data("state"),+ aes(x = long, y = lat, group = group)) ++ facet_wrap(~ date, ncol = 5) ++ theme_bw()

Page 100: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

97

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• I precedenti comandi forniscono il seguente graficoEsempio (segue).

1993-05-26 1993-05-27 1993-05-28 1993-05-29 1993-05-30

1993-05-21 1993-05-22 1993-05-23 1993-05-24 1993-05-25

1993-05-16 1993-05-17 1993-05-18 1993-05-19 1993-05-20

-120 -100 -80 -120 -100 -80 -120 -100 -80 -120 -100 -80 -120 -100 -80

253035

404550

2530

35404550

25

3035404550

Longitude

Latit

ude

Page 101: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

98

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• Si dispone della matrice dei dati relativa al reddito pro capite in dollari per i residenti nelle contee delloEsempio.stato del Missouri per gli anni 1970, 1980 e 1990 (Fonte: Wikle, C.K., Zammit-Mangion, A. e Cressie, N., 2019,Spatio-temporal statistics with R, Chapman&Hall/CRC, Boca Raton). I redditi sono stati attualizzati rispettoall'inflazione. La matrice dei dati è compresa nel database di e viene resa disponibile mediante i comandiR

> library("STRbook")> data("BEA", package = "STRbook")> data("MOcounties", package = "STRbook")

Page 102: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

99

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• per ottenere la sequenza delle mappe coropletiche negli anni 1970, 1980 e 1990 sono iEsempio (segue). I comandi seguenti

> County1 <- filter(MOcounties, NAME10 == "Clark, MO")> MOcounties <- left_join(MOcounties, BEA, by = "NAME10")> g1 <- ggplot(MOcounties) ++ geom_polygon(aes(x = long, y = lat, group = NAME10, fill = log(X1970))) ++ geom_path(aes(x = long, y = lat, group = NAME10)) ++ fill_scale(limits = c(7.5, 10.2), name = "log($)") ++ coord_fixed() + ggtitle("1970") + theme_bw() ++ theme(axis.title.x = element_blank(),+ axis.text.x = element_blank(), axis.ticks.x = element_blank(),+ axis.title.y = element_blank(),+ axis.text.y = element_blank(), axis.ticks.y = element_blank())> g2 <- ggplot(MOcounties) ++ geom_polygon(aes(x = long, y = lat, group = id, fill = log(X1980))) ++ geom_path(aes(x = long, y = lat, group = id)) ++ scale_fill_distiller(palette = "Spectral",+ limits = c(7.5, 10.2), name = "log($)") ++ coord_fixed() + ggtitle("1980") + theme_bw() ++ theme(axis.title.x = element_blank(),+ axis.text.x = element_blank(), axis.ticks.x = element_blank(),+ axis.title.y = element_blank(),+ axis.text.y = element_blank(), axis.ticks.y = element_blank())

Page 103: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

100

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• Esempio (segue).

> g3 <- ggplot(MOcounties) ++ geom_polygon(aes(x = long, y = lat, group = id, fill = log(X1990))) ++ geom_path(aes(x = long, y = lat, group = id)) ++ scale_fill_distiller(palette = "Spectral", limits = c(7.5, 10.2),+ name = "log($)") + coord_fixed() + ggtitle("1990") + theme_bw() ++ theme(axis.title.x = element_blank(),+ axis.text.x = element_blank(), axis.ticks.x = element_blank(),+ axis.title.y = element_blank(),+ axis.text.y = element_blank(), axis.ticks.y = element_blank())> grid.arrange(g1, g2, g3, nrow = 1)

Page 104: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

101

RAPPRESENTAZIONI GRAFICHE PER VARIABILI OSSERVATE NEL TEMPO E NELLO SPAZIO

• I precedenti comandi forniscono il seguente graficoEsempio (segue).

7.58.08.5

9.09.510.0

log($)

1970

7.58.08.5

9.09.510.0

log($)

1980

7.58.08.5

9.09.510.0

log($)

1990

Page 105: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

102

LETTURE SUGGERITE

Brunsdon, C. e Comber, L. (2015) An introduction to R for spatial analysis and mapping, Sage, Los Angeles.Carr, D.B. e Pickle, L.W. (2010) Chapman & Hall/CRC Press, Boca Raton.Visualizing data patterns with micromaps, Chambers, J.M., Cleveland, W.S., Kleiner B. e Tukey, P.A. (1983) , Wadsworth &Graphical methods for data analysis

Brooks/Cole, Pacific Grove.Chang, W. (2013) R graphics cookbook, O’Reilly, Sebastopol.Cleveland, W.S. (1985) , Wadsworth, Monterey.The elements of graphing dataCleveland, W.S. (1993) , Hobart Press, Summit.Visualizing dataEveritt, B.S. e Hothorn, T. (2010) , seconda edizione, Chapman & Hall/CRCA handbook of statistical analyses using R

Press, Boca Raton.Healy, K. (2019) , Princeton University Press, Princeton.Data visualizationHorton, N.J. e Kleinman, K. (2015) ,Using R and RStudio for data management, statistical analysis, and graphics

seconda edizione, Chapman & Hall/CRC Press, Boca Raton.Lamigueiro, O.P. (2014) Displaying time series, spatial, and space-time data with R, Taylor & Francis, Boca Raton.Mittal H.V. (2011) , Packt Publishing, Birmingham.R graphs cookbookMurrell, P. (2006) , Chapman & Hall/CRC Press, Boca Raton.R graphicsSarkar (2008) , Springer, New York.LatticeTufte, E.R. (2001) , seconda edizione, Graphics Press, Cheshire.The visual display of quantitative informationTukey, J.W. (1977) Addison-Wesley, Reading.Exploratory data analysis,Wickham, H. (2016) , seconda edizione, Springer, New York.ggplot2Wickham, H. e Grolemund, G. (2017) R for data science, O’Reilly Media, Sebastopol.

Page 106: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 2

DISTRIBUZIONI DI PROBABILITÀ

Page 107: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

VARIABILI CASUALI

• Una è caratterizzata da una tale chevariabile casuale funzione di ripartizione\ JÐBÑ

JÐBÑ œ TÐ\ Ÿ BÑ

• Evidentemente è una funzione che assume valori in .JÐBÑ Ò!ß "Ómonotona non decrescente

• Una variabile casuale è detta se è una .\ JÐBÑcontinua funzione continua

• Una variabile casuale è detta se è .\ JÐBÑdiscreta costante a tratti con un insieme numerabile di salti

Page 108: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

VARIABILI CASUALI

• Una possiede una variabile casuale continua funzione di densità

0ÐBÑ œ J ÐBÑw

Evidentemente, è una funzione non negativa. Inoltre si ha d .0ÐBÑ 0ÐBÑ B œ "∞

Page 109: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

VARIABILI CASUALI

• Una è caratterizzata da una tale chevariabile casuale discreta funzione di probabilità :ÐBÑ

:ÐBÑ œ TÐ\ œ BÑ

• La funzione di probabilità è solo nell'insieme numerabile di valori in cui la funzione di ripartizionenon nulla W

effettua un salto. Evidentemente, assume valori strettamente positivi solo se . Inoltre, si ha .:ÐBÑ B − W :ÐBÑ œ "B−W

Page 110: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

VARIABILI CASUALI

• Il di una variabile casuale è dato daquantile di ordine α ( ) α − Ò!ß "Ó \

B œ ÖB À J ÐBÑ   ×α infB

α

Nel caso di una il quantile di ordine risulta semplicemente .variabile casuale continua α αB œ J Ð Ñα"

• Il di una variabile casuale continua è dato damomento di ordine 5

.5∞

∞5œ B 0ÐBÑ B d

mentre il di una variabile casuale discreta è dato damomento di ordine 5

.5

B−W

5œ B :ÐBÑ

Page 111: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

VARIABILI CASUALI

• Nel caso particolare il momento è detto e si adotta la notazione5 œ " media

. œ Ò\ÓE

• La è data dalla quantitàvarianza

5 . .# ##œ Ò\Ó œ Var

• Il coefficiente di asimmetria risulta

α .5

$ $$œ ÒÐ\ Ñ Ó

"E

• Il coefficiente di curtosi risulta

α .5

% %%œ ÒÐ\ Ñ Ó

"E

Page 112: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

FAMIGLIA DI POSIZIONE E SCALA

• A partire da una con funzione di ripartizione e funzione di densitàvariabile casuale continua standard ^ JÐDÑ

0ÐDÑ, la viene generata attraverso la trasformazione linearefamiglia di distribuzioni di posizione e scala

\ œ ^- $

Il parametro è detto di mentre il parametro è detto di .- $posizione scala

• La possiede funzione di ripartizione e funzione di densità date davariabile casuale non standard \

JB -$

e

" B 0

$ $

-

Page 113: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

FAMIGLIA DI POSIZIONE E SCALA

• Supponendo , risultaEÒ^ Ó ∞#

. - $œ Ò^ÓE

e

5 $# #œ Ò^ÓVar

• In particolare, se E e , i coincidono rispettivamente con laÒ^Ó œ ! Ò^Ó œ "Var parametri di posizione e di scalamedia e lo scarto quadratico medio.

• I parametri rimanenti di una distribuzione sono detti e vengono eventualmente indicati con e .parametri di forma : ;

Page 114: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

DISTRIBUZIONE NORMALE

• La variabile casuale continua possiede funzione di densità doveNormale standard ^ 0ÐDÑ œ ÐDÑ9

91

ÐDÑ œ D" "

# # exp #

• La di viene indicata con .funzione di ripartizione ^ ÐDÑF

• Risulta e , mentre e .E VarÒ^Ó œ ! Ò^Ó œ " œ ! œ $α α$ %

• Per la i parametri di posizione e di scala coincidono con la media e con lo scartoNormale non standard \ .

quadratico medio .5

• Per indicare che è si adotta la notazione , mentre se è ^ ^ µ RÐ!ß "Ñ \Normale standard Normale non standardsi scrive .\ µ RÐ ß Ñ. 5#

• Il della Normale standard viene indicato con .quantile di ordine α Dα

Page 115: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

DISTRIBUZIONE NORMALE

• I grafici della funzione di densità e di ripartizione di sono riportati nelle seguenti figure.^

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Normal density function

Den

sity

-3 -2 -1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Normal distribution function

Pro

babi

lity

Page 116: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

DISTRIBUZIONE UNIFORME

• La variabile casuale continua possiede funzione di densitàUniforme standard ^

0ÐDÑ œ ÐDÑ"Ò!ß"Ó

dove rappresenta la funzione indicatrice dell'insieme , ovvero se e altrimenti." " "W W WÐBÑ W ÐBÑ œ " B − W ÐBÑ œ !

• Risulta e , mentre e .E VarÒ^Ó œ "Î# Ò^Ó œ "Î"# œ ! œ *Î&α α$ %

• Per indicare che è si adotta la notazione , mentre se è ^ ^ µ YÐ!ß "Ñ \Uniforme standard Uniforme non standardsi scrive .\ µ YÐ ß Ñ- - $

• La in termini di e si usa per evidenziare che la variabile casuale non standard assumeparametrizzazione - - $ \

valori in con probabilità .Ò ß Ó "- - $

Page 117: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

DISTRIBUZIONE UNIFORME

• I grafici della funzione di densità e di ripartizione di sono riportati nelle seguenti figure.^

-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

0.0

0.2

0.4

0.6

0.8

1.0

Uniform density function

Den

sity

-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

0.0

0.2

0.4

0.6

0.8

1.0

Uniform distribution function

Pro

babi

lity

Page 118: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

DISTRIBUZIONE GAMMA

• La variabile casuale continua possiede funzione di densitàGamma standard ^

0ÐDÑ œ D Ð DÑ ÐDÑ"

Ð:Ñ>:"

Ò!ß∞Òexp "

dove è un parametro di forma.:

• Per la variabile casuale è detta .: œ " ^ Esponenziale standard

• Si ha e , mentre e .E VarÒ^Ó œ : Ò^Ó œ : œ #Î: œ $ 'Î:α α$ %"Î#

• Per indicare che è con parametro di forma si adopera la notazione , mentre se^ : ^ µ KÐ!ß "à :ÑGamma standard\ \ µ KÐ ß à :Ñ è si scrive .Gamma non standard - $

• si adotta la notazione , mentre se è Per indicare che è ^ Esponenziale standard Esponenziale non^ µ IÐ!ß "Ñ \

standard si scrive , dal momento che il parametro di scala coincide con lo scarto quadratico medio.\ µ IÐ ß Ñ- 5

Page 119: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

DISTRIBUZIONE GAMMA

• I grafici della funzione di densità e di ripartizione di per sono riportati nelle seguenti figure.^ : œ "ß #ß $

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

Gamma density function

Den

sity

p=1p=2p=3

0 1 2 3 4 5 6

0.0

0.2

0.4

0.6

0.8

1.0

Gamma distribution function

Pro

babi

lity

p=1p=2p=3

Page 120: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

DISTRIBUZIONE BETA

• La variabile casuale continua possiede funzione di densitàBeta standard ^

0ÐDÑ œ D Ð" DÑ ÐDÑÐ: ;Ñ

Ð:Ñ Ð;Ñ

>

> >:" ;"

Ò!ß"Ó"

dove e sono parametri di forma.: ;

• Risulta

EÒ^Ó œ:

: ;

e

VarÒ^Ó œ:;

Ð: ;Ñ Ð: ; "Ñ#

• Per indicare che è con parametri di forma e si adotta la notazione , mentre se^ : ; ^ µ F/Ð!ß "à :ß ;ÑBeta standard\ \ µ F/Ð ß à :ß ;Ñ è si scrive .Beta non standard - - $

• La in termini di e viene impiegata per evidenziare che la variabile casuale non standardparametrizzazione - - $

\ Ò ß Ó " assume valori in con probabilità .- - $

Page 121: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

DISTRIBUZIONE BETA

• I grafici della funzione di densità e di ripartizione di per . . . . . . sono riportati nelle^ Ð:ß ;Ñ œ Ð! $ß ! $Ñß Ð" $ß ! (Ñß Ð! (ß " $Ñ

seguenti figure

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

Beta density function

Den

sity

p=1.3, q=0.7p=0.3, q=0.3p=0.7, q=1.3

0.0 0.2 0.4 0.6 0.8 1.00.

00.

20.

40.

60.

81.

0

Beta distribution function

Pro

babi

lity

p=1.3, q=0.7p=0.3, q=0.3p=0.7, q=1.3

Page 122: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

DISTRIBUZIONE BETA

• I grafici della funzione di densità e di ripartizione di per sono riportati nelle seguenti^ Ð:ß ;Ñ œ Ð#ß #Ñß Ð#ß %Ñß Ð%ß #Ñ

figure

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

2.0

Beta density function

Den

sity

p=4, q=2p=2, q=2p=2, q=4

0.0 0.2 0.4 0.6 0.8 1.00.

00.

20.

40.

60.

81.

0

Beta distribution function

Pro

babi

lity

p=4, q=2p=2, q=2p=2, q=4

Page 123: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

DISTRIBUZIONE DI CAUCHY

• La variabile casuale continua possiede funzione di densitàCauchy standard ^

0ÐDÑ œ"

Ð" D Ñ1 #

• La Cauchy standard momenti di alcun ordine.non ammette

• Per indicare che è si adotta la notazione , mentre se è ^ ^ µ GÐ!ß "Ñ \Cauchy standard Cauchy non standard\ µ GÐ ß Ñ- $ .

Page 124: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

DISTRIBUZIONE DI CAUCHY

• I grafici della funzione di densità e di ripartizione di sono riportati nelle seguenti figure.^

-4 -2 0 2 4

0.05

0.10

0.15

0.20

0.25

0.30

Cauchy density function

Den

sity

-4 -2 0 2 4

0.2

0.4

0.6

0.8

Cauchy distribution function

Pro

babi

lity

Page 125: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

DISTRIBUZIONE BINOMIALE

• La variabile casuale discreta possiede funzione di probabilitàBinomiale ^

:ÐDÑ œ : Ð" :Ñ ÐDÑ8

D D 8D

Ö!ß"ßáß8×"

dove e è un intero.: − Ó!ß "Ò 8

• Per la Binomiale si ha e .E VarÒ^Ó œ 8: Ò^Ó œ 8:Ð" :Ñ

• Per indicare che è si adotta la notazione .^ ^ µ F3Ð8ß :ÑBinomiale

Page 126: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

DISTRIBUZIONE BINOMIALE

• I grafici della funzione di probabilità di per . . sono riportati nelle seguenti figure.^ Ð8ß :Ñ œ Ð"!ß ! $Ñß Ð"!ß ! &Ñ

0 1 2 3 4 5 6 7 8 9 10

Binomial probability function

Pro

babi

lity

0.00

0.05

0.10

0.15

0.20

0.25

0 1 2 3 4 5 6 7 8 9 10

Binomial probability function

Pro

babi

lity

0.00

0.05

0.10

0.15

0.20

Page 127: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

DISTRIBUZIONE DI POISSON

• La variabile casuale discreta di possiede la funzione di probabilitàPoisson ^

:ÐDÑ œ Ð Ñ ÐDÑDx

exp ..D

Ö!ß"ßá×"

dove è un parametro positivo..

• Per la Poisson si ha e .E VarÒ^Ó œ Ò^Ó œ. .

• Per indicare che è si adotta la notazione .^ ^ µ T9Ð ÑPoisson .

Page 128: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

DISTRIBUZIONE DI POISSON

• I grafici della funzione di probabilità di per sono riportati nelle seguenti figure.^ œ #ß %.

0 1 2 3 4 5 6 7 8 9 10

Poisson probability function

Pro

babi

lity

0.00

0.05

0.10

0.15

0.20

0.25

0 1 2 3 4 5 6 7 8 9 10

Poisson probability function

Pro

babi

lity

0.00

0.05

0.10

0.15

Page 129: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

DISTRIBUZIONE CHI-QUADRATO

• Se sono variabili casuali indipendenti tali che , la trasformata^ ß^ ßá ß^ ^ µ RÐ!ß "Ñ" # 8 3

Y œ ^3œ"

8

3#

è detta variabile casuale con gradi di libertà.Chi-quadrato 8

• Si ha che .Y µ KÐ!ß #à 8Î#Ñ

• Per indicare che è con gradi di libertà si adotta la notazione .Y 8 Y µChi-quadrato ;8#

• Il della Chi-quadrato con gradi di libertà viene indicato con .quantile di ordine α 8 ;8ß#α

Page 130: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

DISTRIBUZIONE CHI-QUADRATO

• I grafici della funzione di densità di per i valori di sono riportati nella seguente figura.Y 8 œ #ß $ß %

0 1 2 3 4 5 6

0.1

0.2

0.3

0.4

0.5

Chi-square density function

Den

sity

n=2n=3n=4

Page 131: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

DISTRIBUZIONE DI STUDENT>

• Se e sono indipendenti, la trasformata^ µ RÐ!ß "Ñ Y µ ;8#

X œ^

YÎ8è detta variabile casuale con gradi di libertà.> di Student 8

• Per indicare che è con gradi di libertà si adotta la notazione .X 8 X µ >> di Student 8

• Il della di Student con gradi di libertà viene indicato con .quantile di ordine α > 8 >8ßα

Page 132: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

DISTRIBUZIONE DI STUDENT>

• I grafici della funzione di densità di per i valori sono riportati nella seguente figura.X 8 œ "ß $ß "!

-4 -2 0 2 4

0.0

0.1

0.2

0.3

0.4

t-Student density function

Den

sity

n=1n=3n=10

Page 133: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

DISTRIBUZIONE DI SNEDECORJ

• Se e sono indipendenti, la trasformataY µ Z µ; ;7 8# #

J œYÎ7

Z Î8

è detta variabile casuale con e gradi di libertà.J di Snedecor 7 8

• Per indicare che la variabile casuale è con e gradi di libertà si adotta la notazione .J 7 8 J µ JJ di Snedecor 7ß8

• Il della di Snedecor con e gradi di libertà viene indicato con .quantile di ordine α J 7 8 J7ß8ßα

Page 134: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

DISTRIBUZIONE DI SNEDECORJ

• I grafici della funzione di densità di per sono riportati nella seguente figura.J Ð7ß 8Ñ œ Ð%ß %Ñß Ð"#ß "#Ñ

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

Snedecor density function

Den

sity

n=4, m=4n=12, m=12

Page 135: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

VETTORI DI VARIABILI CASUALI

• Il concetto di variabile casuale può essere esteso al caso .multivariato

• Un vettore di possiede una variabili casuali continue funzione di densità congiuntaÐ\ ß\ ßá ß\ Ñ" # .

0ÐB ß B ßá ß B Ñ" # . .

• Un vettore di possiede una variabili casuali discrete funzione di probabilità congiuntaÐ\ ß\ ßá ß\ Ñ" # .

:ÐB ß B ßá ß B Ñ" # . .

• Si definisce il vettore dove .vettore medio . œ Ð ß ßá ß Ñ œ Ò\ Ó. . . ." # . 4 4T E

• Si definisce inoltre la matrice il cui -esimo elemento diagonale è la dimatrice di varianza-covarianza varianzaD j\ œ Ò\ Ó Ð4ß 6Ñ \ \4 4 4 64

#, ovvero , mentre il generico elemento di posto è dato dalla di e , ovvero5 Var covarianza

5 . .46 4 6 4 4 6 6œ Ò\ ß\ Ó œ ÒÐ\ ÑÐ\ ÑÓCov E

Page 136: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

DISTRIBUZIONE NORMALE MULTIVARIATA

• Il vettore di variabili casuali continue è con funzione di densità congiunta\ ß\ ßá ß\" # . Normale multivariato

0Ð Ñ œ Ð# Ñ Ð Ñ Ð Ñ"

#x x xdet exp1D . D ."Î# " T

dove è il vettore medio e è la matrice di varianza-covarianza.. D

• Per indicare che il vettore di variabili casuali è si adotta la notazione .Normale multivariato R Ð ß Ñ. . D

Page 137: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

LA DISTRIBUZIONE NORMALE MULTIVARIATA

• Il seguente è il grafico della funzione di densità (con relativo grafico di contorno) di un vettore Normale multivariato

per con e .. œ # œ œ! " !! ! "

. D Bivariate normal density function

x1x2

Bivariate normal density function

x1

x 2

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Page 138: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

LA DISTRIBUZIONE NORMALE MULTIVARIATA

• Il seguente è il grafico della funzione di densità (con relativo grafico di contorno) di un vettore Normale multivariato

per con e .. œ # œ œ! # "! " #

. D Bivariate normal density function

x1x2

Bivariate normal density function

x1

x 2

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Page 139: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

LA DISTRIBUZIONE NORMALE MULTIVARIATA

• Il seguente è il grafico della funzione di densità (con relativo grafico di contorno) di un vettore Normale multivariato

per con e .. œ # œ œ! # "! " #

. D Bivariate normal density function

x1x2

Bivariate normal density function

x1

x 2

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

Page 140: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

LETTURE SUGGERITE

Balakrishnan, N. e Nevzorov, V.B. (2003) , Wiley, New York.A primer of statistical distributionsBillingsley, P. (1995) , terza edizione, Wiley, New York.Probability and measureFeller W. (1968) , volume I, terza edizione, Wiley, New York.An introduction to probability theory and its applicationsFeller W. (1971) , volume II, seconda edizione, Wiley, NewAn introduction to probability theory and its applications

York.Forbes, C., Evans, M., Hastings, N. e Peacock, B. (2011) , quarta edizione, Wiley, New York.Statistical distributionsGut, A. (2013) , Springer, New York.Probability: a graduate courseJohnson, N., Kemp, A. e Kotz, S. (2005) , terza edizione, Wiley, New York.Univariate discrete distributionsJohnson, N. e Kotz, S. (1977) , New York, Wiley.Urn models and their applicationsJohnson, N., Kotz, S. e Balakrishnan, N. (1994) , volume 1, seconda edizione,Continuous univariate distributions

Wiley, New York.Johnson, N., Kotz, S. e Balakrishnan, N. (1995) , volume 2, seconda edizione,Continuous univariate distributions

Wiley, New York.Johnson, N., Kotz, S. e Balakrishnan, N. (1997) , New York, Wiley.Discrete Multivariate DistributionsKotz, S., Balakrishnan, N. e Johnson, N. (2000) , volume 1, seconda edizione,Continuous multivariate distributions

Wiley, New York.Venkatesh, S.S. (2013) , Cambridge University Press, Cambridge.The theory of probability

Page 141: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 3

CAMPIONAMENTO

Page 142: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

MODELLI STATISTICI

• La matrice dei dati (o una sua parte) può essere pensata come la realizzazione di un . In questoesperimento casualecaso le colonne di (o alcune sue colonne) sono delle variabili casuali . L'insieme di questeD a priori della rilevazionevariabili casuali è detto , mentre è detta .campione numerosità campionaria8

• Se le osservazioni su ogni unità vengono ottenute nelle e se il campionamento èmedesime condizioni sperimentalieffettuato in modo da assicurare l' delle osservazioni fra le unità, il è detto .indipendenza campione casuale

• L'insieme delle ammissibili per il campione delimita una classe detta distribuzioni di probabilità congiunte modellostatistico.

Page 143: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

MODELLI STATISTICI

• Il modello statistico è detto se la morfologia funzionale della distribuzione congiunta è completamenteclassicospecificata a meno di un insieme di non noti. Il modello statistico è detto se laparametri “distribution-free”morfologia funzionale della distribuzione congiunta non è specificata.

• In modo improprio, spesso un modello statistico classico è detto , mentre un modello statisticoparametrico“distribution-free” è detto . Questa terminologia è fuorviante, dal momento che in entrambi i casinon parametriconella sono presenti comunque dei .specificazione del modello parametri

• In ogni caso, l' si riduce a fare affermazioni sui dei parametri presentiobiettivo dell'inferenza statistica “veri valori” nella specificazione del modello.

Page 144: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

MODELLI STATISTICI

Esempio. Il modello statistico più semplice assume una sola variabile ( ) e un campione casuale. In questo caso,. œ "

B ß B ßá ß B 8 \ ß\ ßá ß\ \" # 8 " # 8 sono le realizzazioni di copie indipendenti di una variabile casuale .

• In questa situazione statistica, il tipico modello classico assume che e quindi la distribuzione\ µ RÐ ß Ñ. 5#

congiunta del campione è la fattorizzazione di distribuzioni marginali della stessa forma specificate a meno deiparametri e .. 5#

• Nella medesima situazione, un modello “distribution-free” assume semplicemente che sia una variabile casuale\

continua con mediana pari a . In questo caso, la funzione di ripartizione di e sono i “parametri” del- -JÐBÑ \

modello.

Page 145: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

MODELLI STATISTICI

Esempio. modello statistico di regressione Nella sua struttura più semplice il assume che vi siano due variabili( ), di cui una sotto controllo dello sperimentatore (detta ) e l'altra di .. œ # regressore risposta

• Se rappresentano i valori del regressore per ogni unità, queste quantità vengono considerate B ß B ßá ß B" # 8 fissatedallo sperimentatore. Per quanto riguarda invece le osservazioni relative alla variabile di risposta , questeC ß C ßá ß C" # 8

vengono considerate realizzazioni delle variabili casuali tali che] ß ] ßá ß ]" # 8

] œ 7ÐB Ñ 3 3 3X

dove è la cosiddetta , mentre sono variabili casuali indipendenti dette 7 ß ßá ßfunzione di regressione erroriX X X" # 8

tali che e .E VarÒ Ó œ ! Ò Ó œX X 53 3#

• La formulazione alternativa del modello di regressione è quindi data dalle relazioni e .E VarÒ] Ó œ 7ÐB Ñ Ò] Ó œ3 3 3#5

Evidentemente, il campione in questo caso .non è casuale

Page 146: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

MODELLI STATISTICI

Esempio (segue). modello di regressione lineare Il assume che

7ÐB Ñ œ B3 ! " 3" "

ovvero la parte del modello viene specificata a meno di due parametri. In un , il modellostrutturale approccio classicolineare viene completato con l'assunzione distribuzionale X " "3 3 ! " 3µ RÐ!ß Ñ µ RÐ ß Ñ5 5# #, ovvero . Questo] B

modello è caratterizzato dunque dai .parametri " "! ", e 5#

In un approccio non viene specificata nè la funzione di regressione nè la distribuzione degli “distribution-free” X3.

Page 147: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

STATISTICHE CAMPIONARIE

• Una è una del campione.statistica campionaria trasformata

• Essendo una trasformata di variabili casuali, anche la è una .statistica campionaria variabile casuale

• Una statistica è detta “distribution-free” invariatase la sua distribuzione rimane sull'intera classe di distribuzionidefinite da un modello “distribution-free”.

Page 148: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

MEDIA CAMPIONARIA

• Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale tale che e\ œ Ò\Ó. E5# œ Ò\Ó ∞Var , la è data dalla variabile casualemedia campionaria

\ œ \"

8–

3œ"

8

3

la cui realizzazione è indicata con .–B

• Si ha

E –Ò\Ó œ .

e

VarÒ\Ó œ8

– 5#

• Anche se questi due risultati sono validi per qualsiasi modello, la media campionaria è non “distribution-free” inquanto la sua distribuzione dipende dalla variabile casuale da cui si effettua il campionamento.\

• Per il , la variabile casuale standardizzata Teorema Fondamentale del Limite 8Ð\ ÑΖ converge in. 5

distribuzione a una variabile casuale per . Dunque, questa statistica risulta RÐ!ß "Ñ 8 Ä ∞ “distribution-free” pergrandi campioni dal momento che la sua distribuzione asintotica rimane invariata per qualsiasi variabile casuale \con .VarÒ\Ó ∞

Page 149: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

MEDIA CAMPIONARIA

Esempio. Dato un campione casuale da una Esponenziale , è possibile dimostrare che .–\ µ IÐ!ß Ñ \ µ KÐ!ß Î8à 8Ñ5 5

Quindi, per la proprietà della variabile casuale Gamma si ha E e . Dunque, risultano verificati i– –Ò\Ó œ Ò\Ó œ Î85 5Var #

risultati generali visti in precedenza, in quanto per la Esponenziale si ha E e . AssumendoIÐ!ß Ñ Ò\Ó œ Ò\Ó œ5 5 5Var #

5 œ " \ 8 œ &ß "!ß #!, i seguenti grafici riportano le funzioni di densità di per . Risulta evidente che la distribuzione di–

\ 8 Ä ∞– si avvicina rapidamente a quella della Normale per anche quando si campiona da una distribuzione

asimmetrica come quella Esponenziale.

Page 150: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

MEDIA CAMPIONARIA

Esempio (segue).

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.5

1.0

1.5

Probability density function

Sample mean

Den

sity

n=5n=10n=20

Page 151: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

VARIANZA CAMPIONARIA

• Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale tale che \ Ò\Ó œVar5# ∞, la è data dalla variabile casualevarianza campionaria

W œ Ð\ \Ñ"

8B# #

3œ"

8

3 –

la cui realizzazione è indicata con .=B#

• Si ha

EÒW Ó œ8 "

8B# #5

• La è data dalla variabilevarianza campionaria corretta

W œ Ð\ \Ñ"

8 "-ßB# #

3œ"

8

3 –

la cui realizzazione è indicata con , =-ßB# ed è tale che

EÒW Ó œ-ßB# #5

• Anche se questi proprietà sono valide per qualsiasi modello, la varianza campionaria è Lanon “distribution-free”. variabile casuale standardizzata con lo scarto quadratico campionario 8Ð\ ÑÎW

– converge in distribuzione a. -ßB

una variabile casuale per . Dunque, anche questa statistica risulta RÐ!ß "Ñ 8 Ä ∞ “distribution-free” per grandicampioni.

Page 152: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

VARIANZA CAMPIONARIA

Esempio. Dato un campione casuale da una Normale è possibile dimostrare che e sono–\ µ RÐ ß Ñ W \. 5# #

-ßB

indipendenti. Si può dimostrare che questo risultato è valido solo per questo particolare modello statistico. Inoltre, si ha

Ð8 "Ñ µW-ßB

#

# 8"#

5;

per cui risulta E , ovvero viene convalidato il risultato generale. Inoltre, risulta , ovvero per–ÒW Ó œ \ µ RÐ ß Î8Ñ-ßB

# # #5 . 5

questo modello la media campionaria è distribuita normalmente anche per finito. Assumendo , i seguenti8 œ "5

grafici riportano le funzioni di densità di per .W 8 œ &ß "!ß #!-ßB#

Page 153: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

VARIANZA CAMPIONARIA

Esempio (segue).

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

Probability density function

Sample variance

Den

sity

n=5n=10n=20

Page 154: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

FUNZIONE DI RIPARTIZIONE EMPIRICA

• Dato un modello statistico relativo ad un campionamento casuale da una variabile casuale con funzione di\

ripartizione , la è data daJÐBÑ funzione di ripartizione empirica

JÐBÑ œ Ð\ Ñs "

8 8

3œ"

Ó∞ßBÓ 3"

Ovviamente, la funzione di ripartizione empirica fornisce la di minori odpercentuale osservazioni campionarieuguali ad un dato valore .B

• Si ha

EÒJ ÐBÑÓ œ JÐBÑs

e

VarÒJ ÐBÑÓ œs JÐBÑÒ" JÐBÑÓ

8

• L non dipende da e quindi questa statistica è .a distribuzione di Js ÐBÑ J ÐBÑ “distribution-free”

Page 155: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio. Si dispone delle osservazioni delle precipitazioni medie (in pollici) per 70 città degli Stati Uniti (Fonte:McNeil, D.R., 1977, , Wiley, New YorkInteractive data analysis ). I dati sono contenuti nel file erainfall.txt

vengono letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\rainfall.txt", header = T)> attach(d)

Il grafico della funzione di ripartizione empirica viene ottenuto mediante il seguente comando

> plot(ecdf(Rainfall), xlab = "Rainfall (inches)", ylab = "Probability",+ main = "Empirical distribution function")> rug(Rainfall)

Page 156: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio (segue). Il precedente comando fornisce il seguente grafico.

0 10 20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

Empirical distribution function

Rainfall (inches)

Pro

babi

lity

Page 157: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio (segue). Al fine di analizzare la funzione di ripartizione empirica è conveniente comparare il suo grafico conl'istogramma, che si ottiene con il seguente comando

> hist(Rainfall, xlab = "Rainfall (inches)", ylab = "Density",+ main = "Histogram")> rug(Rainfall)

Page 158: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio (segue). Il precedente comando fornisce il seguente grafico.

Histogram

Rainfall (inches)

Den

sity

0 10 20 30 40 50 60 70

05

1015

2025

Page 159: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio (segue). Inoltre, può essere conveniente riportare il grafico della funzione di ripartizione empirica consegmenti uniti per una migliore interpretazione grafica

> plot(ecdf(Rainfall), do.points = F, verticals = T,+ xlab = "Rainfall (inches)", ylab = "Probability",+ main = "Empirical distribution function")> rug(Rainfall)

Page 160: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

FUNZIONE DI RIPARTIZIONE EMPIRICA

Esempio (segue). Il precedente comando fornisce il seguente grafico.

0 10 20 30 40 50 60 70

0.0

0.2

0.4

0.6

0.8

1.0

Empirical distribution function

Rainfall (inches)

Pro

babi

lity

Page 161: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

STATISTICA ORDINATA

• Dato un campionamento casuale da una variabile casuale , le osservazioni ordinate sono la\ B ß B ßá ß BÐ"Ñ Ð#Ñ Ð8Ñ

realizzazione campionaria del vettore di statistiche , detto .\ ß\ ßá ß\Ð"Ñ Ð#Ñ Ð8Ñ statistica ordinata

• La statistica è detta .\Ð3Ñ i-esima statistica ordinata

• La è funzione della statistica ordinata. In effetti, se è dispari, la mediana campionaria èmediana campionaria 8

definita come . Alternativamente, se è pari, allora la mediana campionaria viene usualmente~\ œ \ 8!Þ& Ð8Î#"Î#Ñ

definita come . Analogamente anche i sono funzioni della statistica~\ œ Ð\ \ ÑÎ#!Þ& Ð8Î#Ñ Ð8Î#"Ñ quantili campionari

ordinata.

• La statistica ordinata è non “distribution-free”.

Page 162: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

SEGNI

• Dato un campionamento casuale da una variabile casuale con mediana pari a , le sonocontinua statistiche segno\ -

le variabili casuali8

^ œ Ð\ Ñ3 3Ò!ß∞Ò" -

• Evidentemente, la variabile casuale è binaria ed assume valore se è maggiore o uguale alla mediana e valore^ " \3 3

! ^ "Î# altrimenti. In particolare ogni è distribuita come una variabile casuale di Bernoulli di parametro .3

• Le statistiche segno sono e indipendenti “distribution-free” trasformate. Evidentemente, anche di queste statistichesono “distribution-free”.

Page 163: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

RANGHI

• Dato un campionamento casuale da una variabile casuale , le sono le seguenticontinua statistiche rango\

trasformate

V œ Ð\ \ Ñ3 3 4

4œ"

8

Ò!ß∞Ò"

• Ovviamente l' fornisce il numero di osservazioni minori o uguali a , ovvero rappresenta lai-esimo rango V \ V3 3 3

posizione di all'interno del campione ordinato. Si ha quindi la relazione\3

\ œ \3 ÐV Ñ3

• Le statistiche rango sono indipendenti e assumono valori su tutte le . Lanon permutazioni dei primi interi8

distribuzione congiunta delle statistiche rango è su quest'insieme. uniforme Di conseguenza le statistiche rango sono“distribution-free”.

• Evidentemente, anche di queste statistiche sono “distribution-free”.trasformate

Page 164: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

LETTURE SUGGERITE

Azzalini, A. (1996) , Chapman and Hall, LondonStatistical inference .Boos, D.D. e Stefanski, L.A. (2013) Essential statistical inference, Springer, New York.Ferguson, T.S. (1996) , Chapman and Hall, London.A course in large sample theoryHettmansperger, T.P. e McKean, J.W. (2011) , seconda edizione, Robust nonparametric statistical methods Chapman &

Hall/CRC Press, Boca Raton.Hollander, M., Wolfe, D.A. e Chicken, E. (2014) , terza edizione, Wiley, New York.Nonparametric statistical methodsLehmann, E.L. (1999) , Springer, New York.Elements of large sample theorySerfling, R.J. (1980) , Wiley, New York.Approximation theorems of mathematical statisticsShao, J. (2003) , seconda edizione, Springer, New York.Mathematical statisticsvan der Vaart, A.W. (1998) Cambridge University Press, Cambridge.Asymptotic statistics,

Page 165: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 4

METODI DI STIMA

Page 166: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

STIMATORE

• Una volta scelto un modello statistico, un primo obiettivo dell'inferenza è quello di dei valori (sulla baseselezionaredel campione) per i che caratterizzano il modello.parametri

• Il fa corrispondere ad ogni campione un valore per i parametri, ovvero considera unaprocedimento di stimatrasformata del campione detto .stimatore

• Uno stimatore è per definizione una o un insieme di . La realizzazione campionaria dellostatistica statistichestimatore è detta . Questo tipo di procedimento è detto perchè ad ogni campione fa corrisponderestima stima per puntiuna stima (ovvero un singolo “punto” dello spazio parametrico).

• Anche se uno stimatore gode di proprietà ottimali, la stima può essere molto differente dal del“vero valore”parametro a causa della . Dunque, in un procedimento di stima per punti, la stima deve semprevariabilità campionariaessere accompagnata da un indice di dello stimatore nello stimare il vero parametro.“precisione”

Page 167: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

PROPRIETÀ DELLO STIMATORE

• Se si considera un modello statistico caratterizzato da un parametro o un insieme di parametri , la proprietà della)

correttezza richiede che, dal campionamento, la determinazione campionaria dello stimatore siaa prioritendenzialmente prossima al valore vero.

• Lo stimatore è detto per il parametro se~K )corretto

E ~Ò Ó œK )

• Uno stimatore non corretto è detto e la è definita comedistorto distorsione

Bias E~ ~Ò Ó œ Ò Ó K K )

• Uno stimatore è detto per seasintoticamente corretto )

lim8Ä∞

E ~Ò Ó œK )

Page 168: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

PROPRIETÀ DELLO STIMATORE

Esempio. La media campionaria è uno stimatore corretto essendo E . Al contrario, la varianza campionaria –Ò\Ó œ W. B

#

è uno stimatore distorto per . La distorsione è pari a5#

Bias EÒW Ó œ ÒW Ó œ 8B B

# # ##

55

Lo stimatore è asintoticamente corretto per , dal momento cheWB# #5

lim8Ä∞

B# #EÒW Ó œ 5

Evidentemente, lo stimatore è corretto per , dal momento cheW-ßB# #5

EÒW Ó œ-ßB# #5

Page 169: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

PROPRIETÀ DELLO STIMATORE

• Si richiede usualmente che la distribuzione dello stimatore si concentri sempre di più intorno a all'aumentare della)

numerosità campionaria, ovvero si richiede la proprietà della . Dunque, uno stimatore si dice per~coerenza coerenteK

) ) se a per .converge in probabilità 8 Ä ∞

• affinchè lo stimatore sia coerente per è che sia e cheCondizione sufficiente asintoticamente corretto)

lim Var8Ä∞

Ò Ó œ !K~

Page 170: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

PROPRIETÀ DELLO STIMATORE

Esempio. Per la Legge dei Grandi Numeri la media campionaria converge in probabilità a \ 8 Ä ∞– per e quindi è.

uno stimatore coerente. In effetti, è uno stimatore corretto e–\

lim Var lim8Ä∞ 8Ä∞

#

Ò\Ó œ œ !8

– 5

Anche la varianza campionaria è uno stimatore coerente essendo asintoticamente corretto eWB#

lim Var8Ä∞

B#ÒW Ó œ !

Page 171: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

PROPRIETÀ DELLO STIMATORE

• Quando si deve valutare la precisione di uno stimatore si adotta solitamente il criterio dell'errore quadratico medioche tiene conto sia della distorsione che della varianza dello stimatore. L'errore quadratico medio è definito come

MSE Bias~ ~ ~Ò Ó œ Ò Ó Ò ÓK K K# Var

• Evidentemente, basandosi su questo criterio, uno stimatore leggermente distorto e con bassa varianza può esserepreferibile ad uno stimatore corretto ma con varianza elevata.

Page 172: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

PROPRIETÀ DELLO STIMATORE

• Quando si adotta un modello classico, vi sono due ulteriori proprietà desiderabili in uno stimatore.

• La prima proprietà è quella dell' , che richiede che uno stimatore corretto abbia . Sottoefficienza varianza minimaalcune condizioni è possibile dimostrare che per un determinato modello lo stimatore efficiente esiste ed è possibileottenere una espressione della varianza minima.

• La seconda proprietà è quella della , che assicura che lo stimatore conserva tutta l'informazione fornita dalsufficienzacampione senza alcuna perdita.

Page 173: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

VEROSIMIGLIANZA

• Si supponga di nuovo un . Supponendo per semplicità di esposizione una sola variabile, quando ilmodello classicocampione è stato osservato, la è funzione\ ß\ ßá ß\ 0 ÐB ß B ßá ß B à Ñ" # 8 8 " # 8distribuzione congiunta del campione )

solo del parametro . Questa funzione rappresenta la probabilità di osservare esattamente il campione che è) a prioristato estratto e contiene relativa al campione stesso.tutta l'informazione

• In questo caso si dice funzione di (o ) la funzione data daverosimiglianza verosimiglianza

PÐ Ñ œ -0 ÐB ßá ß B à Ñ) )8 " 8

dove è una costante che non dipende da .- )

• Molto spesso viene considerata anche la funzione di , data dalog-verosimiglianza

6Ð Ñ œ PÐ Ñ) )ln

con la convenzione che se .6Ð Ñ œ ∞ PÐ Ñ œ !) )

Page 174: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

VEROSIMIGLIANZA

Esempio. Dato un campione casuale da , per l'indipendenza delle osservazioni campionarie la\ µ RÐ ß "Ñ.

distribuzione congiunta del campione risulta

0 ÐB ßá ß B à Ñ œ ÐB Ñ œ ÐB Ñ" "

# #8 " 8 3 3

3œ" 3œ"

8 8#. 9 . .

1 exp

e di conseguenza la verosimiglianza risulta

PÐ Ñ œ - ÐB Ñ œ - Ò= ÐB Ñ Ó" 8

# #. . .

3œ"

8

3# # #

Bexp exp –

Il grafico di questa verosimiglianza per , , e è riportato di seguito.–- œ " 8 œ & B œ " = œ #B#

Page 175: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

VEROSIMIGLIANZA

Esempio (segue).

-0.5 0.0 0.5 1.0 1.5 2.0 2.5

0.00

00.

001

0.00

20.

003

0.00

40.

005

0.00

60.

007

Likelihood

Pro

babi

lity

Page 176: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

VEROSIMIGLIANZA

Esempio. Dato un campione casuale da , data l'indipendenza delle osservazioni campionarie la\ µ RÐ ß Ñ. 5#

distribuzione congiunta del campione risulta

0 ÐB ßá ß B à ß Ñ œ ÐB Ñ" "

# #8 " 8 3

# #

3œ"

8

# #. 5 .

15 5 exp

e quindi la verosimiglianza risulta

PÐ ß Ñ œ - Ð Ñ ÐB Ñ œ -Ð Ñ Ò= ÐB Ñ Ó" 8

# #. 5 5 . 5 .

5 5# # "Î# # # 8Î# # #

3œ"

8

# #3 B exp exp –

Il grafico di questa verosimiglianza (e il relativo grafico per linee di livello) per , , e è–- œ " 8 œ & B œ " = œ #B#

riportato di seguito.

Page 177: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

VEROSIMIGLIANZA

Esempio (segue).

Likelihood

2

Likelihood

2

-1 0 1 2 3

02

46

810

Page 178: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

PRINCIPIO DI CORRISPONDENZA

• Il principio di corrispondenza elementare fornisce la tecnica di stima più .

• Per semplicità di esposizione si consideri un campione casuale da una variabile casuale e si\ ß\ ßá ß\ \" # 8

supponga che il parametro possa essere rappresentato come la di , ovveromedia di una opportuna trasformata \

) œ Ò>Ð\ÑÓE

• Lo stimatore di è fornito dalla ) controparte campionaria

K~œ >Ð\ Ñ

"

83œ"

8

3

• Evidentemente, stimatori come la o la sono giustificatimedia campionaria funzione di ripartizione campionariadal principio di corrispondenza.

Page 179: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

METODO DELLA MASSIMA VEROSIMIGLIANZA

• Il consiste nello scegliere il valore del parametro che lametodo della massima verosimiglianza massimizzaprobabilità di ottenere proprio il campione che è stato estratto. Evidentemente, questo metodo di stima può essereadoperato quando si considera .modelli classici

• Dunque, si dice di quel valore tale chestima di massima verosimiglianza ) )s

PÐ Ñ œ PÐ Ñs) )max)−@

Dal momento che la funzione logaritmo è monotona crescente, la precedente condizione è equivalente a

6Ð Ñ œ 6Ð Ñs) )max)−@

• La stima di massima verosimiglianza è la realizzazione campionaria di , detto appunto Ks stimatore di massimaverosimiglianza.

• Sotto alcune condizioni sul modello, lo stimatore di massima verosimiglianza fornisce usualmente stimatori conproprietà ottimali campioni finiti grandi campioni sia per che per .

Page 180: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

METODO DELLA MASSIMA VEROSIMIGLIANZA

• Esempio. Dato un campione casuale da , la log-verosimiglianza\ µ RÐ ß Ñ. 5#

6Ð ß Ñ œ Ð Ñ Ò= ÐB Ñ Ó8 8

# #. 5 5 .

5# # # #

# Blog –

viene massimizzata per . 5s œ B œ =s– e .#B#

Page 181: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

METODO DELLA MASSIMA VEROSIMIGLIANZA

• Si dispone di un campione casuale di diametri di sfere misurate in micron (Fonte: Esempio. Romano, A., 1977,Applied statistics for science and industry, Allyn and Bacon, Boston). I dati sono contenuti nel file eball.txt

vengono letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\ball.txt", header = T)> attach(d)

Assumendo un campionamento casuale da una variabile casuale normale le stime di massima verosimiglianza di e . 5#

risultano

> mean(Diameter)[1] 1.194> variance(Diameter)[1] 0.075524

Può essere opportuno verificare la validità del modello controllando i valori dei coefficienti campionari di asimmetria ecurtosi (ovviamente per una distribuzione normale i coefficienti di asimmetria e curtosi devono risultare pari a e ! $

rispettivamente)

> skewness(Diameter)[1] -0.1763099> kurtosis(Diameter)[1] 2.170784

Page 182: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

METODO DELLA MASSIMA VEROSIMIGLIANZA

• La vEsempio (segue). alidità del modello può essere anche controllata graficamente mediante il diagramma quantile-quantile, che fornisce il diagramma delle osservazioni (standardizzate mediante la media e la varianza campionarie)rispetto ai quantili della distribuzione normale standardizzata. Questo grafico dovrebbe avere una disposizione deipunti lungo la bisettrice se l'ipotesi di normalità per le osservazioni è valida. I comandi per ottenere il diagrammaquantile-quantile sono i seguenti

> qqnorm(Diameter)> qqline(Diameter)

Page 183: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

METODO DELLA MASSIMA VEROSIMIGLIANZA

• Il precedente comando fornisce il seguente grafico.Esempio (segue).

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

0.8

1.0

1.2

1.4

1.6

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 184: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

METODO DEI MINIMI QUADRATI

• Il metodo dei minimi quadrati viene solitamente applicato quando si considera la stima dei parametri con unmodello di regressione modello di regressione lineare. Nel caso più semplice di un , il metodo dei minimi quadraticonsiste nel minimizzare la dei dai della variabile disomma degli scarti valori osservati valori teorici al quadrato risposta, ovvero nel la minimizzare funzione obiettivo

: " " " "Ð ß Ñ œ ÒC Ð B ÑÓ! " 3 ! " 3

3œ"

8#

• In questo caso la fornisce le stimeminimizzazione

" "s sœ ! "C B– –

e

"s œ=

="BC

B#

per cui la retta di regressione stimata risulta 7sÐBÑ œ s s" "! "B.

• Il metodo dei minimi quadrati può essere adoperato in modo generale complessi con modelli .

Page 185: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

METODO DEI MINIMI QUADRATI

Esempio. Si dispone delle osservazioni del livello del lago Vittoria (in metri) e del numero di macchie solari per glianni 1902-1921 (Fonte: LaShaw, N., 1942, , Cambridge University Press, London, p.284). Manual of metereologyvariabile di risposta è il livello del lago (in metri) rispetto ad un valore di riferimento, mentre il regressore è il numerodi macchie solari. I dati sono contenuti nel file e vengono letti e resi disponibili mediante i comandilake.txt

> d <- read.table("c:\\Rwork\\examples\\lake.txt", header = T)> attach(d)

Le stime dei parametri del modello di regressione lineare vengono ottenute mediante il seguente comando

> lm(Level ~ Sunspot)

Call:lm(formula = Level ~ Sunspot)

Coefficients:(Intercept) Sunspot -8.0418 0.4128

Page 186: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

METODO DEI MINIMI QUADRATI

Esempio (segue). Il diagramma di dispersione con retta di regressione stimata viene ottenuto mediante i seguenticomandi

> plot(Sunspot, Level, xlab = "Number of sunspot", ylab = "Level (meters)",+ main = "Scatter plot")> abline(lm(Level ~ Sunspot))

Page 187: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

METODO DEI MINIMI QUADRATI

Esempio (segue). I precedenti comandi forniscono il seguente grafico.

0 20 40 60 80 100

-10

010

2030

Scatter plot

Number of sunspot

Leve

l (m

eter

s)

Page 188: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

METODI BASATI SU MINIMIZZAZIONE DI FUNZIONI OBIETTIVO

• Più generalmente, supponendo per semplicità un campione casuale da una singola variabile, i metodi di stima di unparametro possono essere basati sulla una del tipo) minimizzazione generica funzione obiettivo

9 ) 3 )Ð Ñ œ ÐB Ñ3œ"

8

3

dove è una opportuna .3Ð@Ñ funzione di distanza

• Sotto alcune condizioni la stima basata sulla minimizzazione della funzione obiettivo è alla (pseudo)equivalentesoluzione dell'equazione

3œ"

8

3< )ÐB Ñ œ !

dove .< 3ÐBÑ œ ÐBÑw

• Gli stimatori basati su questa procedura sono detti .stimatori di tipo M

Page 189: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

METODI BASATI SU MINIMIZZAZIONE DI FUNZIONI OBIETTIVO

Esempio. Se è un parametro di posizione, allora si può scegliere la funzione di distanza . In questo caso, lo) 3Ð@Ñ œ @#

stimatore di risulta distanza risulta , lo) 3K~ –, ovvero la media campionaria. Se invece la funzione di œ \ Ð@Ñ œ l@l

stimatore di risulta ) K~ ~ , ovvero la mediana campionaria.œ \!Þ&

• Se è di nuovo un parametro di posizione, supponendo un approccio classico, sia la funzione di densità di) )0ÐB Ñ

\ Ð@Ñ œ - 0Ð@Ñ. In questo caso, lo stimatore di massima verosimiglianza di è uno stimatore di tipo M dove .) 3 log log

• Evidentemente, anche il metodo dei minimi quadrati si basa su una funzione di distanza del tipo .3Ð@Ñ œ @#

Page 190: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

LETTURE SUGGERITE

Azzalini, A. (1996) , Chapman and Hall, LondonStatistical inference .Boos, D.D. e Stefanski, L.A. (2013) Essential statistical inference, Springer, New York.Cox, D.R. e Hinkley, D.V. (1974) .Theoretical statistics, Chapman and Hall, LondonFerguson, T.S. (1996) , Chapman and Hall, London.A course in large sample theoryHuber, P.J. e Ronchetti, E.M. (2009) , seconda edizione, Wiley, New York.Robust statisticsLehmann, E.L. (1999) , Springer, New York.Elements of large sample theoryLehmann, E.L. e Casella, G. (1998) , seconda edizione, Springer, New York.The theory of point estimationRao, C.R. (1973) , seconda edizione, Wiley, New York.Linear statistical inference and its applicationsShao, J. (2003) , seconda edizione, Springer, New York.Mathematical statisticsWilks, S.S. (1962) , Wiley, New York.Mathematical statistics

Page 191: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 5

METODI DI SMORZAMENTO

Page 192: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

STIMATORI DI NUCLEO

• Quando si analizza una , è conveniente effettuare una dellavariabile casuale continua indagine esplorativarispettiva eventualmente finalizzata alla selezione di un modello.funzione di densità

• Grossolanamente l'istogramma fornisce informazioni sulla funzione di densità. Una tecnica più raffinata per stimarela funzione di densità si basa sullo .stimatore di nucleo

Page 193: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

STIMATORI DI NUCLEO

• Sia un campione casuale da una variabile casuale continua con funzione di densità . Lo\ ß\ ßá ß\ \ 0ÐBÑ" # 8

stimatore di nucleo per nel punto è dato da0 B

0 ÐBÑ œ O ÐB \ Ñs "

823œ"

8

2 3dove

O ÐBÑ œ OÐ2 BÑ"

22

"

mentre è detto .2 ! parametro di smorzamento

• La funzione è detta ed è tale cheO nucleo

OÐBÑ B œ "d

Page 194: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

STIMATORI DI NUCLEO

• Una giustificazione della genesi di questo stimatore può essere data attraverso la di seguente rappresentazione 0ÐBÑ

0ÐBÑ œ ÐB CÑ0ÐCÑ C œ Ò ÐB \ÑÓ‘

" "Ö!× Ö!×d E

Per si ha e dunque risulta la seguente approssimazione2 Ä ! O ÐBÑ Ä ÐBÑ2 Ö!×"

E EÒ ÐB \ÑÓ ¶ ÒO ÐB \ÑÓ"Ö!× 2

• In base al , può essere evidentemente stimato mediante . principio di corrispondenza EÒO ÐB \ÑÓ 0 ÐBÑs2 2

Page 195: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

SCELTA DEL NUCLEO

• Usualmente viene selezionato come una . Questo assicura che sia a suaO 0 ÐBÑsfunzione di densità simmetrica 2

volta una funzione di densità.

• Una scelta comune per è la funzione di densità di una .O variabile casuale normale standard

• Una alternativa è rappresentata dalla funzione di densità di una , ovverovariabile casuale “biweight” standard

OÐBÑ œ Ð" B Ñ ÐBÑ"&

"'# #

Ò"ß"Ó"

Page 196: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

EFFETTO DEL PARAMETRO DI SMORZAMENTO

• Il parametro controlla la applicata allo stimatore di nucleo.2 quantità di smorzamento

• All'aumentare di la stima risulta più “ ”, mentre al diminuire di la stima diventa più “ ” e tende alla2 2liscia rugosafunzione di densità empirica, ovvero alla distribuzione di probabilità che pone una probabilità pari a su ogni"Î8

osservazione.

Page 197: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

EFFETTO DEL PARAMETRO DI SMORZAMENTO

• Si considera di nuovo i dati relativi alle sfere di acciaio. La stima di nucleo viene ottenuta Esempio. richiamando lalibreria sm che permette di implementare metodi di smorzamento avanzati. In particolare, i grafici della stima di nucleoper vengono ottenuti mediante i seguenti comandi2 œ "Þ!!ß !Þ$$ß !Þ!&

> sm.density(Diameter, 1.00, yht = 2, xlim = c(-0.35, 2.65),+ xlab = "Ball diameter (micron)")> title(main = "Kernel density estimation (h = 1.00)")> sm.density(Diameter, 0.33, yht = 2, xlim = c(-0.35, 2.65),+ xlab = "Ball diameter (micron)")> title(main = "Kernel density estimation (h = 0.33)")> sm.density(Diameter, 0.05, yht = 2, xlim = c(-0.35, 2.65),+ xlab = "Ball diameter (micron)")> title(main = "Kernel density estimation (h = 0.05)")

Page 198: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

EFFETTO DEL PARAMETRO DI SMORZAMENTO

• I precedenti comandi forniscono i seguenti grafici.Esempio (segue).

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.5

1.0

1.5

2.0

Ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation (h = 1.00)

0.0 0.5 1.0 1.5 2.0 2.50.

00.

51.

01.

52.

0

Ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation (h = 0.33)

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.5

1.0

1.5

2.0

Ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation (h = 0.05)

Page 199: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

PRECISIONE DELLO STIMATORE DI NUCLEO

• La precisione di uno stimatore di nucleo nel punto viene misurata attraverso l'B errore quadratico medio

MSE BiasÒ0 ÐBÑÓ œ Ò0 ÐBÑÓ Ò0 ÐBÑÓs s s2 2 2

# Var

• Dal momento che usualmente si richiede la stima sull'intero supporto, una della precisione di èmisura globale 0 ÐBÑs2

data dall' , ovveroerrore quadratico medio integrato

MISE MSE dÒ0 Ó œ Ò0 ÐBÑÓ Bs s2 2

Page 200: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

APPROSSIMAZIONE PER GRANDI CAMPIONI DELLADISTORSIONE E VARIANZA PER LO STIMATORE DI NUCLEO

• Si assuma che esista per ogni e sia continua ed integrabile. Inoltre, per una generica funzione si ponga0 ÐBÑ B 1ww

.## #Ð1Ñ œ B 1ÐBÑ B ∞ VÐ1Ñ œ 1ÐBÑ B ∞

‘ ‘

d , d

• Sotto queste condizioni si può dimostrare che per si ha2 Ä !

EÒ0 ÐBÑÓ ¶ 0ÐBÑ 2 0 ÐBÑ ÐOÑs "

#2# ww

#.

• Quindi è uno la cui distorsione tende a quando .0 ÐBÑ ! 2 Ä !s2 stimatore distorto

• Inoltre, per e , si può dimostrare che2 Ä ! 82 Ä ∞

VarÒ0 ÐBÑÓ ¶ VÐOÑ0ÐBÑs "

822

• Dunque è uno se e quando .0 ÐBÑ 2 Ä ! 82 Ä ∞ 8 Ä ∞s2 stimatore coerente

Page 201: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

APPROSSIMAZIONE PER GRANDI CAMPIONI DELLA MISE

• L' risulta dunqueerrore quadratico medio per grandi campioni

AMSEÒ0 ÐBÑÓ œ 2 0 ÐBÑ ÐOÑ VÐOÑ0ÐBÑs " "

% 822% ww # #

#.

per cui l' è dato daerrore medio quadratico integrato per grandi campioni

AMISEÒ0 Ó œ 2 ÐOÑ VÐ0 Ñ VÐOÑs " "

% 822% # ww

#.

• E' immediato verificare che l'AMISE è minimizzata quando

2 œ 8VÐOÑ

ÐOÑ VÐ0 Ñ .#

# ww

"Î&"Î&

mentre

min2!

2AMISEÒ0 Ós º 8%Î&

Page 202: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Mentre la scelta del nucleo è quasi nella stima della funzione di densità, risulta la selezioneininfluente fondamentaledel parametro di smorzamento. Quando questa selezione viene effettuata sulla base dei dati campionari, si ha una sceltaautomatica del parametro di smorzamento.

• Le quantità MISE e AMISE dipendono da e quindi non è possibile adoperarle per la selezione ottima di .Ò0 Ó Ò0 Ó 0 2s s2 2

Quindi si deve adottare opportune di queste quantità per implementare selettori da adoperare in pratica.stime

• Una prima classe di selettori del parametro di smorzamento è basata sulla minimizzazione di una opportuna stima diMISE . Il principale metodo basato su questo criterio è la cosiddetta “ ”.Ò0 Ós

2 cross-validation

• Una seconda classe di selettori del parametro di smorzamento è invece basata sulla minimizzazione di una opportunastima di AMISE . Il principale metodo basato su questo criterio è il cosiddetto “ ”.Ò0 Ós

2 plug-in

Page 203: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Si considera di nuovo i dati relativi ai diametri delle sfere. Esempio. I grafici della stima di nucleo con i selettoribasati sui metodi “cross-validation” e “plug-in” si ottengono mediante i seguenti comandi

> library(sm)> sm.density(Diameter, hcv(Diameter, hstart = 0.01, hend = 1),+ yht = 0.92, xlim = c(-0.35, 2.65), xlab = "Ball diameter (micron)")> title(main = "Kernel density estimation ('CV' h = 0.32)")> sm.density(Diameter, hsj(Diameter), yht = 1.06, xlim = c(-0.05, 2.35),+ xlab = "Ball diameter (micron)")> title(main = "Kernel density estimation ('Plug-in' h = 0.23)")

Page 204: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

Ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('CV' h = 0.32)

Page 205: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

0.0 0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

Ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('Plug-in' h = 0.23)

Page 206: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Si dispone di un campione casuale delle durate delle eruzioni (in minuti) di un geyser nel parco nazionaleEsempio.di Yellowstone (Fonte: Silverman, B.W., 1986, , Chapman and Hall,Density estimation for statistics and data analysisLondon, p.8). I dati sono contenuti nel file e vengono resi disponibili mediante i comandigeyser.txt

> d <- read.table("c:\\Rwork\\examples\\geyser.txt", header = T)> attach(d)

I grafici della stima di nucleo con i selettori basati sui metodi della “cross-validation” e del “plug-in” si ottengonomediante i seguenti comandi

> library(sm)> sm.density(Duration, hcv(Duration, hstart = 0.01, hend = 1),+ yht = 0.69, xlim = c(1.4, 5.1), xlab = "Waiting time (minutes)")> title(main = "Kernel density estimation ('CV' h = 0.10)")> sm.density(Duration, hsj(Duration), yht = 0.69, xlim = c(1.4, 5.1),+ xlab = "Waiting time (minutes)")> title(main = "Kernel density estimation ('Plug-in' h = 0.20)")

Page 207: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Eruption duration (minutes)

Prob

abilit

y de

nsity

func

tion

Kernel density estimation ('CV' h = 0.10)

Page 208: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

2 3 4 5

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Eruption duration (minutes)

Prob

abilit

y de

nsity

func

tion

Kernel density estimation ('Plug-in' h = 0.20)

Page 209: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

STIMATORI DI NUCLEO TRASFORMATI

• Nel derivare le proprietà dello stimatore di nucleo per grandi campioni si è assunto che sia continua. Tuttavia è0 ÐBÑww

frequente che perfino . Ad esempio, molte funzioni di densità sono discontinue in un punto0ÐBÑ non sia continuaestremo del supporto. In questo caso, supponendo per semplicità (ma senza perdita di generalità) che il supporto di0ÐBÑ Ò!ß∞Ò 0Ð!Ñ 0 Ð!Ñs sia e che la discontinuità si trovi nell'origine, se si vuole stimare è facile verificare che è2

distorto perfino se .2 œ !

• Al fine di evitare difficoltà di stima di questo tipo si preferisce (quando possibile) considerare una opportunavariabile casuale trasformata con funzione di densità e supporto , dove è una trasformazione monotona.>Ð\Ñ 1 >‘

Dal momento che per le proprietà delle trasformazioni di variabili casuali si ha

0ÐBÑ œ 1Ò>ÐBÑÓ> ÐBÑw

si può stimare sulla base delle osservazioni trasformate e quindi lo stimatore di nucleo si1 >Ð\ Ñß >Ð\ Ñßá ß >Ð\ Ñ" # 8

riduce a

0 ÐBÑ œ O Ð>ÐBÑ >Ð\ ÑÑs > ÐBÑ

82

w

3œ"

8

2 3

Page 210: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

STIMATORI DI NUCLEO TRASFORMATI

• Si dispone di un campione casuale di velocità massime in chilometri orari di aerei costruiti fra il 1914 e ilEsempio.1984 (Fonte: Saviotti, P.P. e Bowman, A.W., 1984, Indicators of output of technology, in Proceedings of theICSSR/SSRC Workshop on Science and Technology in the 1980's et al., M. Gibbons , eds., Harvester Press, Brighton). Idati sono contenuti nel file e vengono resi disponibili mediante i comandiaircraft.txt

> d <- read.table("c:\\Rwork\\examples\\aircraft.txt", header = T)> attach(d)

Assumendo una trasformata logaritmica delle osservazioni, i grafici della stima di nucleo con i selettori basati suimetodi della “cross-validation” e del “plug-in” si ottengono mediante i seguenti comandi

> library(sm)> sm.density(Speed, hcv(log(Speed), hstart = 0.01, hend = 1),+ yht = 0.0022, xlim = c(0, 3300),+ xlab = "Aircraft speed (km/h)", rugplot = F, positive = T)> title(main = "Kernel density estimation ('CV' h = 0.10)")

Page 211: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

STIMATORI DI NUCLEO TRASFORMATI

• Esempio (segue).

0 500 1000 1500 2000 2500 3000

0.00

000.

0005

0.00

100.

0015

0.00

20

Aircraft speed (km/h)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('CV' h = 0.10)

Page 212: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

STIMATORI DI NUCLEO BIVARIATI

• Sia un campione casuale da una variabile casuale continua con funzione diÐ\ ß ] Ñß Ð\ ß ] Ñßá ß Ð\ ß ] Ñ Ð\ß ] Ñ" " # # 8 8

densità . Lo nel punto può essere costruito come0ÐBß CÑ ÐBß CÑstimatore di nucleo

0 ÐBß CÑ œ O ÐB \ ÑO ÐC ] Ñs "

82 ß23œ"

8

2 3 2 3" # " #

• In una formulazione più generale si potrebbe adoperare anche una (con tre parametri difunzione di nucleo bivariatasmorzamento) invece di un di . La presente formulazione è tuttavia convenienteprodotto funzioni di nucleo marginalie sufficiente nelle applicazioni pratiche.

• Le proprietà dello stimatore di nucleo bivariate si possono ottenere in modo analogo a quelle dello stimatore di nucleounivariato. Si tenga presente tuttavia che la dello stimatore di nucleo bivariato rispetto allaprecisione diminuiscecontroparte univariata. Questo fenomeno, noto come , è dovuto al fatto che “maledizione della dimensionalità” 8

osservazioni si rarefanno all'aumentare della dimensione dello spazio di riferimento.

Page 213: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

STIMATORI DI NUCLEO BIVARIATI

• Si dispone delle osservazioni relative ad alcune variabili per le guardie nel campionato professionistico diEsempio.basket NBA nel 1992-93 (Fonte: Chatterjee, S., Handcock, M.S. e Simonoff, J.S., 1995, A casebook for a first coursein statistics and data analysis, Wiley, New York). Le variabili considerate sono state punti segnati per minuto giocato eassist per minuto giocato. I dati sono contenuti nel file e vengono rese disponibili mediante i comandibasket.txt

> d <- read.table("c:\\Rwork\\examples\\basket.txt", header = T)> attach(d)

Page 214: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

STIMATORI DI NUCLEO BIVARIATI

• IEsempio (segue). grafici (tridimensionale, per curve di livello e a toni di colori) della stima di nucleo bivariata siottengono mediante i seguenti comandi

> library(sm)> sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),+ xlim = c(0, 0.9), ylim = c(0, 0.4), zlim = c(0, 20),+ xlab = "Points per minute", ylab = "Assists per minute")> title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")> plot(Score, Assist, xlim = c(0, 0.9), ylim = c(0, 0.4),+ xlab = "Points per minute", ylab = "Assists per minute")> sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",+ props = c(75, 50, 25, 2), add = T)> title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")> sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]),+ display = "image", xlim = c(0, 0.9), ylim = c(0, 0.4),+ xlab = "Points per minute", ylab = "Assists per minute")> title(main = "Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)")

Page 215: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

Points per minute

0.00.2

0.40.6

0.8

Assists per minute0.0

0.1

0.2

0.3

0.4

Density function

0

5

10

15

20

Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

Page 216: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

0.0 0.2 0.4 0.6 0.8

0.0

0.1

0.2

0.3

0.4

Points per minute

Ass

ists

per

min

ute

Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

Page 217: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

0.0 0.2 0.4 0.6 0.8

0.0

0.1

0.2

0.3

0.4

Points per minute

Ass

ists

per

min

ute

Kernel density estimation ('CV' h1 = 0.06, h2 = 0.03)

Page 218: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

STIMATORI DI NUCLEO BIVARIATI

• Si dispone delle osservazioni relative alla larghezza e alla lunghezza della diagonale in millimetriEsempio.dell'immagine contenuta in banconote svizzere la cui metà sono falsificate (Fonte: Flury, B. e Riedwyl, H., 1988,Multivariate statistics: a practical approach, Chapman and Hall, London). I dati sono contenuti nel fileswissmoney.txt. e vengono resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\swissmoney.txt", header = T)> attach(d)

I grafici (tridimensionale, per curve di livello e a toni di colori) della stima di nucleo bivariata si ottengono mediante iseguenti comandi (le banconote false vengono contrassegnate da punti in grassetto nel diagramma di dispersione)

> library(sm)> sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),+ xlim = c(6, 14), ylim = c(137, 143), zlim = c(0, 0.2),+ xlab = "Width (mm)", ylab = "Length (mm)")> title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)")> plot(d[1:100, 2], d[1:100, 3], xlim = c(6, 14), ylim = c(137, 143),+ xlab = "Width (mm)", ylab = "Length (mm)")> points(d[101:200, 2], d[101:200, 3], pch = 16)> sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),+ display = "slice", props = c(75, 50, 25), add = T)> title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)")> sm.density(d[, c(2, 3)], hcv(d[, c(2, 3)]),+ display = "image", xlim = c(6, 14), ylim = c(137, 143),+ xlab = "Width (mm)", ylab = "Length (mm)")> title(main = "Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)")

Page 219: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

Width (mm)

68

1012

14

Length (mm)137

138139

140141

142143

Density function

0.00

0.05

0.10

0.15

0.20

Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

Page 220: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

6 8 10 12 14

137

138

139

140

141

142

143

Width (mm)

Leng

th (m

m)

Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

Page 221: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

STIMATORI DI NUCLEO BIVARIATI

• Esempio (segue).

6 8 10 12 14

137

138

139

140

141

142

143

Width (mm)

Leng

th (m

m)

Kernel density estimation ('CV' h1 = 0.35, h2 = 0.25)

Page 222: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

REGRESSIONE LINEARE LOCALE

• Prima di adottare un per la relazione fra la variabile esplicativa e quella di risposta èmodello di regressioneconveniente indagare la natura del legame con metodi esplorativi.

• Un modo per stimare la funzione di regressione è attraverso la .“distribution-free” regressione lineare locale

Page 223: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

REGRESSIONE LINEARE LOCALE

• Se sono le osservazioni della variabile di risposta per i livelli del regressore , il ] ß ] ßá ß ] B ß B ßá ß B" # 8 " # 8 modellodi regressione risulta

] œ 7ÐB Ñ 3 3 3X

dove è una , mentre e .7 Ò Ó œ ! Ò Ó œfunzione di regressione non nota E VarX X 53 3#

• In generale, la funzione non è lineare. Tuttavia, se risulta abbastanza regolare, allora in un intorno di un punto 7 7 B

è , ovvero approssimativamente lineare 7ÐBÑ ¶ " "! " B B per valori prossimi ad .

• La funzione obiettivo nel punto da adottare per il è data da smorzata localmente metodo dei minimi quadratiB

: " " " "Ð ß Ñ œ O ÐB BÑÒC ÐB BÑÓ! " 2 3 3 ! " 3

3œ"

8#

dove la funzione è definita come per lo stimatore di nucleo della funzione di densità. Senza perdita di generalità eO2

per semplicità di notazione, i valori del regressore sono stati centrati rispetto al punto .B

Page 224: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

REGRESSIONE LINEARE LOCALE

• si ottengono delle di Minimizzando la funzione obiettivo stime locali " "! " e nel punto , che forniscono diB

conseguenza il seguente stimatore di 7

7 ÐBÑ œs"

8 = ÐBÑ= ÐBÑ = ÐBÑ

Ò= ÐBÑ = ÐBÑÐB BÑÓO ÐB BÑ]2

3œ"

8#ß2 "ß2 3 2 3 3

#ß2 !ß2 "ß2#

dove

= ÐBÑ œ ÐB BÑ O ÐB BÑ"

8<ß2 3 2 3

3œ"

8<

• Il parametro controlla il livello di , ovvero quanto locale deve essere la stima di .2 7smorzamento

• Per la stima di con quella ottenuta con il quando si assume un2 Ä ∞ 7 coincide metodo dei minimi quadratimodello lineare.

Page 225: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

REGRESSIONE LINEARE LOCALE

• Si dispone delle osservazioni per tre variabili misurate su alcuni motori a etanolo, ovvero la concentrazioneEsempio.di ossido di nitrogeno (in microgrammi/J), il rapporto di compressione e il rapporto di equivalenza che è una misuradella ricchezza della miscela di aria e etanolo (Fonte: Brinkman, N.D., 1981, Ethanol fuel - a single-cylinder enginestudy of efficiency and exhaust emissions, , 1410-1424). La variabile di risposta è laSAE Transactions 90concentrazione di ossido di nitrogeno, mentre il regressore è il rapporto di equivalenza. I dati sono contenuti nel fileethanol.txt e vengono letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\ethanol.txt", header = T)> attach(d)

Page 226: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

REGRESSIONE LINEARE LOCALE

Esempio (segue). La stima della funzione di regressione viene ottenuta richiamando la libreria sm. In particolare, igrafici della stima della funzione di regressione per vengono ottenuti mediante i seguenti comandi2 œ "Þ!!ß !Þ!&ß !Þ!"

> library(sm)> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides (micrograms/J)")> sm.regression(Equivalence, NOx, h = 1.00, add = T)> title(main = "Local linear regression (h = 1.00)")> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides (micrograms/J)")> sm.regression(Equivalence, NOx, h = 0.05, add = T)> title(main = "Local linear regression (h = 0.05)")> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides (micrograms/J)")> sm.regression(Equivalence, NOx, h = 0.01, add = T)> title(main = "Local linear regression (h = 0.01)")

Page 227: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

REGRESSIONE LINEARE LOCALE

• Esempio (segue).

0.6 0.7 0.8 0.9 1.0 1.1 1.2

12

34

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression (h = 1.00)

0.6 0.7 0.8 0.9 1.0 1.1 1.21

23

4

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression (h = 0.05)

0.6 0.7 0.8 0.9 1.0 1.1 1.2

12

34

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression (h = 0.01)

Page 228: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

PRECISIONE DELLO STIMATORE DI REGRESSIONE LINEARE LOCALE

• Si assuma che esista per ogni , che i regressori siano generati da una variabile casuale continua con funzione7 ÐBÑ Bww

di densità e che valgano alcune opportune condizioni sulla disposizione dei regressori all'aumentare della0ÐBÑ

numerosità campionaria.

• Si può dimostrare che per si ha2 Ä !

EÒ7 ÐBÑÓ ¶ 7ÐBÑ 2 7 ÐBÑ ÐOÑs"

#2 #

# ww .

• Inoltre, per e , si può dimostrare che2 Ä ! 82 Ä ∞

VarÒ7 ÐBÑÓ ¶s" VÐOÑ

82 0ÐBÑ2

#5

• Dunque è uno se e quando .7 ÐBÑ 2 Ä ! 82 Ä ∞ 8 Ä ∞s2 stimatore coerente

Page 229: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

PRECISIONE DELLO STIMATORE DI REGRESSIONE LINEARE LOCALE

• Anche per lo stimatore si può definire l' , ovvero7 ÐBÑs 2 errore quadratico medio integrato

MISE MSE dÒ7 Ó œ Ò7 ÐBÑÓ Bs s2 2‘

e l' , ovveroerrore medio quadratico integrato per grandi campioni

AMISEÒ7 Ó œ 2 ÐOÑ VÐ7 Ñ s" " VÐOÑ

% 82 0ÐBÑ2 #

% # ww#

.5

Page 230: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

STIMA DELLA VARIANZA

• Al fine di stimare è opportuno notare che la stima della funzione di regressione è rispetto alle realizzazioni5# linearedella variabile di risposta, ovvero . In analogia con la regressione lineare multipla,in notazione matriciale 7 ÐBÑ œs2 Sysi può definire lo stimatore

5s œ ÒC 7 ÐB ÑÓ"

s#

/ 3œ"

8

3 2 3#

df

dove df tr rappresentano i dell'errore./ œ Ð ÑI S gradi di libertà “approssimati”

Page 231: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• In modo simile alla stima di nucleo della funzione di densità, la scelta del nucleo è quasi mentre risultaininfluentefondamentale la selezione del parametro di smorzamento. Di nuovo, la quantità MISE dipende da e quindi nonÒ7 Ó 7s 2

è possibile adoperarla per la selezione ottima di .2

• Una prima classe di selettori è basato sui .gradi di libertà “approssimati”

• Una seconda classe di selettori è basata sulla minimizzazione di una opportuna stima di MISE , ovvero sul metodoÒ0 Ós2

“ ”.cross-validation

Page 232: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

42

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Si considera di nuovo i dati relativi ai motori a etanolo. Esempio. I grafici della stima della funzione di regressionecon i selettori basati sui metodi dei gradi di libertà “approssimati” e della “cross-validation” si ottengono mediante iseguenti comandi

> library(sm)> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides")> sm.regression(Equivalence, NOx, method = "df", add = TRUE)> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides")> sm.regression(Equivalence, NOx, method = "cv", add = TRUE)

Page 233: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

43

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

0.6 0.7 0.8 0.9 1.0 1.1 1.2

12

34

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression ('df')

Page 234: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

44

SCELTA AUTOMATICA DEL PARAMETRO DI SMORZAMENTO

• Esempio (segue).

0.6 0.7 0.8 0.9 1.0 1.1 1.2

12

34

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression ('CV')

Page 235: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

45

PARAMETRO DI SMORZAMENTO VARIABILE

• Un approccio alternativo alla regressione lineare locale è basato su un perparametro di smorzamento variabileogni punto . Più esattamente, si considera la minimizzazione della funzione criterio con una funzione di nucleo conB

parametro di smorzamento variabile del tipo

: " " " "Ð ß Ñ œ O ÐB BÑÒC ÐB BÑÓ! " 3 3 ! " 3

3œ"

8

. ÐB Ñ#

5 3

dove è la di dal dei restanti valori del regressore. Questo metodo è. ÐB Ñ B5 3 3distanza -esimo vicino più prossimokdetto .loess

• Il metodo la scelta di un selettore e si limita a richiedere la specificazione del parametro .loess evita 5

• Il parametro è evidentemente legato alla del campione che contribuisce al peso attribuito per ogni5 proporzionepunto . Una scelta grossolana di questo parametro è solitamente sufficiente e l'usuale risultaB scelta di compromesso5 œ Ú!Þ&8Û ÚBÛ, dove rappresenta la funzione di troncamento.

Page 236: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

46

PARAMETRO DI SMORZAMENTO VARIABILE

• Si considera di nuovo i dati relativi ai motori a etanolo. Esempio. Il grafico della stima della funzione di regressionecon il metodo si può ottenere mediante i seguenti comandiloess

> plot(Equivalence, NOx, xlab = "Equivalence ratio",+ ylab = "Concentration of nitrogen oxides (micrograms/J)")> od <- d[order(Equivalence), 1:3]> lines(od[, 3], fitted.values(loess(od[, 1] ~ od[, 3], span = 0.5)))> title(main = "Local linear regression ('loess')")

Page 237: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

47

PARAMETRO DI SMORZAMENTO VARIABILE

• Esempio (segue).

0.6 0.7 0.8 0.9 1.0 1.1 1.2

12

34

Equivalence ratio

Con

cent

ratio

n of

nitr

ogen

oxi

des

(mic

rogr

ams/

J)

Local linear regression ('loess')

Page 238: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

48

LETTURE SUGGERITE

Bowman, A.W. e Azzalini, A. (1997) Oxford University Press,Applied smoothing techniques for data analysis,Oxford.

Chacón, J.E. e Duong, T. (2018) Multivariate kernel smoothing and its applications, CRC Press, Boca Raton.Cleveland, W.S. (1993) , Hobart Press, Summit.Visualizing dataEfromovich, S. (1999) Nonparametric curve estimation, Springer, New York.Härdle, W. (1990) , Cambridge University Press, Cambridge.Applied nonparametric regressionKlemelä, J. (2014) Multivariate nonparametric regression and visualization, Wiley, New York.Loader, C. (1999) Local regression and likelihood, Springer, New York.Scott, D.W. (2015) Multivariate density estimation, seconda edizione, Wiley, New York.Silverman, B.W. (1986) , Chapman and Hall, London.Density estimation for statistics and data analysisSimonoff, J.S. (1996) Smoothing methods in statistics, Springer, New York.Wand, M.P. e Jones, M.C. (1995) , Chapman and Hall, London.Kernel smoothing

Page 239: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 6

VERIFICA DELLE IPOTESI EINTERVALLI DI CONFIDENZA

Page 240: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

VERIFICA DI IPOTESI

• Sulla base del si è interessati a stabilire se il del parametro appartiene ad un certocampione osservato vero valoresottoinsieme dello spazio parametrico (l'insieme di tutti i per il parametro ).@ )valori plausibili

• Dato un modello statistico, se gli insiemi e costituiscono una partizione di , la consiste in@ @ @! " verifica di ipotesiun di scelta fra l'ipotesi di base e l'ipotesi alternativa .procedimento decisionale L À − L À −! ! " ") @ ) @

• L'insieme delle ipotesi ammissibili e la sua partizione in e è detto .L L! " sistema di ipotesi

Page 241: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

VERIFICA DI IPOTESI

Esempio. Nella semplice situazione in cui si ha un campione casuale da una variabile casuale , \ il tipico modelloclassico assume che e l'usuale sistema di ipotesi consiste nel verificare contro .\ µ RÐ ß Ñ L À œ L À Á. 5 . . . .#

! ! " !

Dal momento che lo spazio parametrico in questo caso è dato da

@ . 5 . 5œ ÖÐ ß Ñ À − Ó ∞ß∞Òß − Ò!ß∞Ò×# #

risulta e .@ . 5 . . 5 @ . 5 . . 5! ! " !# # # #œ ÖÐ ß Ñ À œ ß − Ò!ß∞Ò× œ ÖÐ ß Ñ À Á ß − Ò!ß∞Ò×

• Al contrario, in un approccio “distribution-free”, si assume solo che è una variabile casuale continua con funzione\

di ripartizione e mediana , mentre il sistema di ipotesi risulta contro . In questo caso, loJ L À œ L À Á- - - - -! ! " !

spazio “parametrico” è dato da

@ - - _œ ÖÐ ß J Ñ À − Ó ∞ß∞Òß J − ×

dove è lo spazio delle funzioni di ripartizione continue. In questo caso si ha , mentre_ @ - - - _! !œ ÖÐ ß J Ñ À œ ß J − ×

@ - - - _" !œ ÖÐ ß J Ñ À Á ß J − ×.

Page 242: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

TEST STATISTICO

• Lo strumento statistico che sulla base del campione consente di concludere in favore dell'una o dell'altra ipotesi è iltest statistico.

• Scelta una opportuna statistica con supporto , si dice la funzioneX g test basato su X

H À Ä ÖL ßL ×g ! "

mentre è detta .X statistica test

• Il test basato su è una che suddivide negli insiemi complementari e , in modo tale che siX regola decisionale g g g! "

accetta se la realizzazione di è tale che , mentre si accetta se .L > X > − L > −! ! " "g g

• L'insieme è detto .g" regione critica del test basato su X

• Un test è detto se è basato su una .“distribution-free” statistica test “distribution-free”

Page 243: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

TEST STATISTICO

Esempio. In un approccio classico, si consideri un campione casuale da e il sistema di ipotesi\ µ RÐ ß "Ñ.

L À œ L À Á \ œ! ! " ! !. . . . . g ‘ contro , dove è una quantità nota. Se si suppone che la statistica test sia , risulta .–

Una possibile scelta per potrebbe essere data dag!

g .! !œ ÖB À lB l +×– –

con costante. Di conseguenza, la regione critica del test basato su risulta–+ \

g ." !œ ÖB À lB l   +×– –

Questa scelta di appare logica, in quanto più la realizzazione della media campionaria differisce dal valore ipotizzatog"

.! per la media, più si è propensi ad accettare l'ipotesi alternativa. Resta aperto il problema della scelta della costante .+

• In un approccio “distribution-free”, si consideri un campione casuale da una variabile casuale continua con medianapari a . Si vuole verificare il sistema di ipotesi contro . Si consideri dunque il test basato sulla- - - - -L À œ L À Á! ! " !

statistica

F œ Ð\ Ñ3œ"

8

Ó!ß∞Ò 3 !" -

che è “distribution-free” essendo una trasformata di variabili casuali segno. Risulta , mentre èg œ Ö, À , œ !ß "ßá ß 8×

ragionevole assumere dove è un intero tale che . In effetti, sottog! œ Ö, À , œ + "ß + #ßá ß 8 +× + + 8Î#

ipotesi di base si attende una realizzazione prossima a . Di nuovo si deve decidere il valore della costante ., 8Î# +

Page 244: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

FUNZIONE POTENZA

• Uno strumento per misurare la del test basato su una statistica è la . Lacapacità discriminatoria funzione potenzafunzione potenza del test basato su è data daX

T Ð Ñ œ TÐX − ÑX ") g

dove la probabilità è indotta dalla distribuzione specificata dal modello quando il valore del parametro è pari a .)

• Per ogni la funzione potenza fornisce la quando questa è , ovvero la) @ )− T Ð Ñ! X probabilità di respingere veraL!

probabilità di commettere il cosiddetto .errore di I specie

• Analogamente, per ogni la quantità fornisce la quando è ,) @ )− " T Ð Ñ" X "probabilità di accettare vera L L!

ovvero la probabilità di commettere il cosiddetto . Per ogni , la funzione potenza errore di II specie ) @ )− T Ð Ñ" X

fornisce la probabilità di accettare quando questa è vera.L"

• Si dice che il test basato su è al seX livello di significatività α

sup) @−

X!

T Ð Ñ œ) α

Il livello di significatività rappresenta la di commettere un .α massima probabilità errore di I specie

Page 245: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

FUNZIONE POTENZA

Esempio. Dato un campione casuale da , si consideri il sistema di ipotesi contro . Se\ µ RÐ ß "Ñ L À Ÿ ! L À !. . .! "

si suppone che la statistica test sia , dato che , si può scegliere–\ œg ‘

g! "œ Ó ∞ß D Î 8Òα e

g" "œ ÒD Î 8ß∞Òα Questa selezione di appare logica, in quanto più la realizzazione della media campionaria è elevata, più si è propensig"

ad accettare l'ipotesi alternativa. Dal momento che risulta per ogni , allora la funzione potenza è–\ µ RÐ ß "Î8Ñ −. . ‘

data da

T Ð Ñ œ Ð 8 D Ñ\ "– . F . α

Dal momento che è crescente e cheT Ð Ñ\– .

sup.Ÿ!

\T Ð Ñ œ– . α

il test basato su è al livello di significatività .–\ α

Page 246: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

PROPRIETÀ DEL TEST

• Dal momento che pari a zero gli errori di I e II specie, si deve stabilire unnon si può rendere contemporaneamenteinsieme di proprietà desiderabili per un test.

• Una prima proprietà opportuna per un test è quella della . Un test basato su al livello di significatività correttezza X α

con funzione potenza è detto al livello di significatività seT Ð ÑX ) α corretto

T Ð Ñ   a −X ") α ) @ ,

La proprietà della correttezza e al tempo stesso assicura che la probabilitàpermette di controllare l'errore di I speciedi accettare quando è vera risulta .L" maggiore dell'errore di I specie

• Una seconda proprietà riguarda il comportamento per grandi campioni del test. Il test al livello di significatività èα

detto secoerente

lim8Ä∞

X "T Ð Ñ œ " a −8) ) @ ,

La proprietà della coerenza assicura che la tende a zero quando siprobabilità di commettere un errore di II speciedispone di grandi campioni.

Page 247: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

PROPRIETÀ DEL TEST

Esempio. Dato un campione casuale da , si consideri il sistema di ipotesi contro . Il\ µ RÐ ß "Ñ L À Ÿ ! L À !. . .! "

test basato su è corretto in quanto si ha per ogni e per ogni . Dal momento che–\ T Ð Ñ Ÿ Ÿ ! T Ð Ñ !\ \

– –. α . . α .

la successione di funzioni converge uniformemente ad una funzione costante pari ad per ,Ö Ð 8 D Ñ× " !F . . "α

allora

lim8Ä∞

\T Ð Ñ œ " a !– . . ,

ovvero il test è coerente.

Page 248: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

PROPRIETÀ DEL TEST

• Anche se si vorrebbe che fosse più alta possibile quando e la più piccola possibile quando ,T Ð Ñ − −X " !) ) @ ) @

questi requisiti sono tra loro. Un possibile modo di procedere è quello di conflittuali fissare il livello di significativitàα ) @ e scegliere quel test che ha più alta potenza per ogni .− "

• Un test basato su al livello di significatività con funzione potenza è detto alX T Ð Ñα )X uniformemente più potentelivello di significatività seα

T Ð Ñ   T Ð Ñ a −X X ") ) ) @‡ ,

per ogni altro test basato su una qualsiasi statistica al livello di significatività .X ‡ α

• I test uniformente più potenti esistono solo quando si considera un . Al contrario, quando siapproccio classicoconsidera test in generale determinare un .“distribution-free” non è possibile test uniformemente più potente

Page 249: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE

• Un modo per costruire quando si considera un è mediante il rapporto delletest ottimali approccio classicoverosimiglianze. Il è basato sulla statistica testtest del rapporto delle verosimiglianze

V œ

PÐ Ñ

PÐ Ñ

max

max) @

) @

!

)

)

• Questa statistica test ha un'interpretazione intuitiva, nel senso che se si sta confrontando la di un valore“plausibilità”) rispetto ad un altro sulla base di un campione, siamo portati a scegliere quel valore che fornisce la verosimiglianzapiù alta. Se non esiste un valore che fornisce una verosimiglianza sensibilmente più alta in rispetto alla) @

verosimiglianza massima in , siamo propensi ad accettare .@! !L

• Ovviamente, per una realizzazione di si ha . Se è prossimo ad si è più propensi ad accettare ,< V ! Ÿ < Ÿ " < " L!

mentre se la realizzazione è prossima ad si è più propensi ad accettare . Di conseguenza, si può scegliere come< ! L"

regione critica al livello di significatività l'insieme , dove è il quantile di ordine dellaα g α" œ Ö<À < Ÿ < × <α α

distribuzione di .V

Page 250: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE

Esempio. Dato un campione casuale da , si consideri il sistema di ipotesi contro .\ µ RÐ ß "Ñ L À œ L À Á. . . . .! ! " !

La determinazione campionaria del rapporto delle verosimiglianze è data da

< œ œ ÐB ÑÖ Ð8Î#ÑÒ= ÐB Ñ Ó× 8

Ð 8= Î#Ñ #

expexp

exp# #

!

# !#

––.

. Dal momento che è una funzione biunivoca di , la regione critica indotta da è la stessa indotta da–< ÐB Ñ V.!

#

Ð\ Ñ L– e quindi i relativi test sono equivalenti. Inoltre, dal momento che se è vera si ha.! !

#

8Ð\ Ñ µ RÐ!ß "Ñ 8Ð\ Ñ µ <– –, allora . Tenendo presente che è una funzione monotona decrescente di. . ;! !

# #"

ÐB Ñ L Ð\ Ñ– e dunque si respinge per realizzazioni elevate di , allora la regione critica del test basato sul–. .! ! !

# #

rapporto delle verosimiglianze è data da

g . ;" !# #

"ß"œ ÖB À 8ÐB Ñ   ×– –α

Essendo per la relazione fra la e la , la precedente regione critica può essere ancheD œ RÐ!ß "Ñ" Î# "ß"#

"#

α α; ;

espressa in modo equivalente come

– –g ." ! " Î#œ ÖB À 8 lB l   D ×α

Page 251: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

TEST DEL RAPPORTO DELLE VEROSIMIGLIANZE

• Per quanto riguarda la del rapporto delle verosimiglianze, se è il numero didistribuzione per grandi campioni 5

parametri nel modello e è il numero di parametri da stimare sotto ipotesi di base, allora si distribuisce come; # Vlnuna variabile casuale .;5;

#

• La per grandi campioni del test basato sul rapporto delle verosimiglianze è data daregione critica

g ;" 5;ß"#œ Ö< À # <   ×ln α

Page 252: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

SIGNIFICATIVITÀ OSSERVATA

• Nel presente approccio, l'ipotesi di base e l'ipotesi alternativa vengono trattate in modo . In effetti,non simmetricousualmente costituisce una e si preferisce controllare il L! affermazione privilegiata livello di significatività del test(ovvero l'errore di I specie) che comporta l'erroneo rifiuto di questa ipotesi privilegiata.

• Anche se per sviluppare la teoria è necessario fissare il livello di significatività , quando si lavora operativamenteα

non esiste per stabilirne la scelta. Questa considerazione porta al concetto di nessuna regola livello di significativitàosservato valore-P o .

• Se la del test basato su è data da , per un determinato valore campionario si diceregione critica X œ Ö>À >   -× >g"

significatività osservata la quantità

α9==−

œ TÐX   >Ñsup) @!

mentre, se la regione critica è data da , allora si dice la quantitàg" œ Ö>À > Ÿ -× significatività osservata

α9==−

œ TÐX Ÿ >Ñsup) @!

• Quando invece la statistica test ha una distribuzione , se la regione critica del test basato su è data daX Xsimmetricag" " #œ Ö>À > Ÿ - ß >   - ×, si dice la quantitàsignificatività osservata

α9==− −

œ # Ö TÐX Ÿ >Ñß T ÐX   >Ñ×min sup sup) @ ) @! !

Page 253: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

SIGNIFICATIVITÀ OSSERVATA

• La rappresenta la probabilità di ottenere, quando è vera, un valore campionario di significatività osservata L > X!

estremo (nella appropriata direzione) almeno quanto quello osservato. Dunque, la forniscesignificatività osservatauna su quanto l'ipotesi di base risulta con i dati campionari.misura compatibile

• Una porta a ritenere con i dati campionari l'ipotesi di base, mentresignificatività osservata bassa poco compatibilecon una elevata è vera l'affermazione contraria.significatività osservata

• In una verifica di ipotesi si può , oppure si può arrivare ad unasemplicemente riportare la significatività osservatadecisione sull'accettazione di fissando un livello di significatività .L! α

• Se il livello di significatività osservato è minore o uguale ad , allora si respinge , altrimenti si accetta . Ilα L L! !

livello di significatività osservato diventa in questo caso il più elevato livello di significatività per cui si accetta . InL!

questo caso il livello di significatività osservato diventa non solo uno nella verifica distrumento per la decisioneipotesi, ma anche una di questa decisione.misura quantitativa

Page 254: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

INTERVALLI DI CONFIDENZA

• Piuttosto che selezionare sulla base del campione un come nella stima per punti, può essere utile dalunico valorepunto di vista operativo ottenere un del parametro.insieme di valori plausibili

• Considerato per semplicità il caso in cui si ha un singolo campione casuale , sia\ ß\ ßá ß\" # 8

T œ TÐ\ ß\ ßá ß\ à Ñ" # 8 ) una , ovvero una trasformata che dipende dal parametro ma con unaquantità pivotaledistribuzione non dipende dal parametro stesso. Se e sono due valori tali che- -" #

TÖ- TÐ\ ß\ ßá ß\ à Ñ - × œ " " # 8 #) α1

con e se e sono statistiche tali che per ogni ! " P œ PÐ\ ß\ ßá ß\ Ñ Y œ YÐ\ ß\ ßá ß\ Ñα )" # 8 " # 8

ÖÐB ß B ßá ß B ÑÀ - TÐB ß B ßá ß B à Ñ - × Í ÖÐB ß B ßá ß B ÑÀ PÐB ß B ßá ß B Ñ YÐB ß B ßá ß B Ñ×" # 8 " " # 8 # " # 8 " # 8 " # 8) )

allora l' è detto di al livello di confidenza .intervallo casuale intervallo di confidenzaÒPß Y Ó Ð" Ñ) α

• Se la quantità pivotale è , ovvero se la sua distribuzione rimane invariata per un modello“distribution-free”“distribution-free”, allora il relativo intervallo di confidenza è detto “distributon-free”.

• La nozione di deve essere adoperata con un cautela, ovvero non si deve affermare che ilintervallo di confidenzavero valore del parametro è contenuto in un intervallo con probabilità pari a . In termini rigorosi di probabilità,Ð" Ñα

una volta che l'intervallo di confidenza è stato determinato sul campione, questo contiene il vero valore con probabilità! " o . Si può affermare invece che l'intervallo di confidenza è la determinazione di un procedimento casuale che sceglieintervalli in modo tale che la probabilità di ottenere un intervallo contenente il vero valore del parametro è pari aÐ" Ñα .

Page 255: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

INTERVALLI DI CONFIDENZA

• Esiste una stretta connessione tra il problema della e quello della . Questa èstima per intervalli verifica di ipotesianche la ragione per cui la stima per intervalli viene analizzata successivamente alla teoria relativa alla verifica diipotesi.

• Più esattamente, se si considera il sistema di ipotesi contro , esiste una equivalenza tra laL À œ L À Á! ! " !) ) ) )

regione critica della statistica test e l'intervallo di confidenza di . Questa considerazione consente di costruire un)

intervallo di confidenza per un dato parametro partendo da un opportuno sistema di ipotesi.

• Evidentemente nel caso di un , l'intervallo di confidenza viene costruito a partire dal modello classico test delrapporto delle verosimiglianze “distribution-free”. Al contrario, l'intervallo di confidenza risulta se è costruito apartire da un test .“distribution-free”

• Esiste anche una connessione fra e . La risulta usualmente il valore centraletest stima per punti stima per puntidell'intervallo di confidenza.

Page 256: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

INTERVALLI DI CONFIDENZA

Esempio. Se si considera un campione casuale da , una possibile quantità pivot è data da .–\ µ RÐ ß "Ñ 8Ð\ Ñ. .

Questa variabile casuale è in effetti una quantità pivot, dal momento che la sua distribuzione non dipende da essendo.8Ð\ Ñ µ RÐ!ß "Ñ Ð" Ñ– . Scelto un livello di confidenza , risulta. α

Pr. α αÖ D 8Ð\ Ñ D × œ " " Î# " Î# – ,. α

da cui

ÖÐB ßá ß B Ñ À D 8ÐB Ñ D × Í ÖÐB ßá ß B Ñ À B D Î 8 B D Î 8×" 8 " 8" Î# " Î# " Î# " Î#α α α α – – –. .

Si deve dunque concludere che

ÒB D Î 8ß B D Î 8Ó– –" Î# " Î#α α

è un intervallo di confidenza per al livello di confidenza .. αÐ" Ñ

Se si considera il sistema di ipotesi contro , la regione di accettazione per il test del rapportoL À œ L À Á! ! " !. . . .

delle verosimiglianze risulta

g .! " 8 " Î# " Î#œ ÖÐB ßá ß B Ñ À D 8ÐB Ñ D ×α α –

che è equivalente all'insieme

ÖÐB ßá ß B Ñ À B D B D ×" "

8 8" 8 " Î# " Î#

– –α α .

che fornisce il medesimo intervallo di confidenza visto in precedenza.

Page 257: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

LETTURE SUGGERITE

Azzalini, A. (1996) , Chapman and Hall, LondonStatistical inference .Boos, D.D. e Stefanski, L.A. (2013) Essential statistical inference, Springer, New York.Cox, D.R. e Hinkley, D.V. (1974) .Theoretical statistics, Chapman and Hall, LondonHettmansperger, T.P. e McKean, J.W. (2011) , seconda edizione, Robust nonparametric statistical methods Chapman &

Hall/CRC Press, Boca Raton.Hollander, M., Wolfe, D.A. e Chicken, E. (2014) , terza edizione, Wiley, New York.Nonparametric statistical methodsLehmann, E.L. e Romano, J.P. (2005) , terza edizione, Springer, New York.Testing statistical hypothesisRao, C.R. (1973) , seconda edizione, Wiley, New York.Linear statistical inference and its applicationsShao, J. (2003) , seconda edizione, Springer, New York.Mathematical statisticsWilks, S.S. (1962) , Wiley, New York.Mathematical statistics

Page 258: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 7

INFERENZA CON UNA VARIABILE

Page 259: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

INFERENZA CON UNA VARIABILE

• Il modello statistico più semplice assume un campionamento da una .singola variabile

• Se la variabile è si può avere sia un approccio classico sia un approccio “distribution-free”.quantitativa

• Se la variabile è si ha in effetti un approccio “distribution-free”.qualitativa

Page 260: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

TEST DI STUDENT>

• Con un tipico , si consideri approccio classico un campione casuale da una variabile casuale .\ µ RÐ ß Ñ. 5#

• Gli stimatori di di e risultano e .–massima verosimiglianza . 5 . 5# ##Bs œ \ œ Ws

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il test del rapporto delleL À œ L À Á! ! " !. . . .

verosimiglianze fornisce il basato sulla statistica testtest di di Student>

X œ8Ð\ Ñ

W

–.!

-ßB

che sotto ipotesi di base si distribuisce come .X µ >8"

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L X" ! !. .

dell' ( ), si rifiuta per realizzazioni elevate (basse) di .ipotesi alternativa direzionale L À L À L X" ! " ! !. . . .

• Inoltre, l' per al livello di confidenza basato sul test risultaintervallo di confidenza . αÐ" Ñ X

\ > ß\ >W W

8 8

– –8"ß" Î# 8"ß" Î#

-ßB -ßBα α

Page 261: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

TEST DI STUDENT>

• Il test basato su è dal momento che converge in distribuzione a unaX X“distribution-free” per grandi campionivariabile casuale RÐ!ß "Ñ per con ogni variabile casuale tale che .8 Ä ∞ \ Ò\Ó ∞Var

• L'intervallo di confidenza per grandi campioni per al livello di confidenza risulta. αÐ" Ñ

\ D ß\ DW W

8 8

– –" Î# " Î#

-ßB -ßBα α

• Il test di Student è quindi rispetto all' .> “robusto” assunzione di normalità

Page 262: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

TEST DI STUDENT>

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Dal momento che l'azienda che produce le sferedesidera produrre sfere con un diametro standard di un micron, il sistema di ipotesi risulta contro .L À œ " L À Á "! ". .

Il comando fornisce l'implementazione del test di Student e il relativo intervallo di confidenzat.test >

> t.test(Diameter, alternative = "two.sided", mu = 1)

One Sample t-test

data: Diametert = 2.1178, df = 9, p-value = 0.06327alternative hypothesis: true mean is not equal to 195 percent confidence interval: 0.9867741 1.4012259sample estimates:mean of x 1.194

Page 263: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

TEST DEI SEGNI

• Con un approccio , si consideri“distribution-free” un campione casuale da una variabile casuale continua con\

funzione di ripartizione , dove rappresenta la mediana.JÐB Ñ- -

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il èL À œ L À Á! ! " !- - - - test dei segnibasato sulla statistica test

F œ Ð\ Ñ3œ"

8

Ó!ß∞Ò 3 !" -

che sotto ipotesi di base si distribuisce come .F µ F3Ð8ß "Î#Ñ

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L F" ! !- -

dell' ( ), si rifiuta per realizzazioni elevate (basse) di .ipotesi alternativa direzionale L À L À L F" ! " ! !- - - -

• Lo stimatore di basato sul test è la .~- F \mediana campionaria !Þ&

• Inoltre, se rappresenta il quantile di ordine di , , F8ßα α l' per al livello di confidenzaintervallo di confidenza -

Ð" Ñ Fα basato sul test risulta

Ò\ ß\ ÓÐ, "Ñ Ð8, Ñ8ß Î# 8ß Î#α α

Page 264: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

TEST DEI SEGNI

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio e il sistema di ipotesi contro .L À œ " L À Á "! "- -

Anche se non esiste un comando specifico per il test dei segni, si può equivalentemente adottare il comandobinom.test per verifiche di ipotesi sulle proporzioni

> binom.test(length(Diameter[Diameter > 1]), length(Diameter),+ p = 1/2, alternative = "two.sided")

Exact binomial test

data: length(Diameter[Diameter > 1]) and length(Diameter)number of successes = 8, number of trials = 10, p-value = 0.1094alternative hypothesis: true probability of success is not equal to 0.595 percent confidence interval: 0.4439045 0.9747893sample estimates:probability of success 0.8

Page 265: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

TEST DEI SEGNI

Esempio. Inoltre, la stima per punti e gli estremi dell'intervallo di confidenza per possono essere ottenuti mediante i-

seguenti comandi

> median(Diameter)[1] 1.185> sd <- sort(Diameter)> sd[qbinom(0.025, length(Diameter), 1 / 2)][1] 0.88> sd[qbinom(0.975, length(Diameter), 1 / 2)][1] 1.42

Page 266: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

TEST DI WILCOXON

• Con un approccio , si consideri un“distribution-free” campione casuale da una variabile casuale continua esimmetrica con funzione di ripartizione , dove rappresenta la mediana. Quindi rispetto alle assunzioni\ JÐB Ñ- -

del test dei segni, si assume l'ulteriore ipotesi di della distribuzione rispetto alla mediana.simmetria

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il èL À œ L À Á! ! " !- - - - test di Wilcoxonbasato sulla statistica test

[ œ Ð\ ÑV

3œ"

8

Ó!ß∞Ò 3 ! 3" -

dove rappresentano i ranghi assegnati alle trasformate . LaV ßV ßá ßV l\ lß l\ lßá ß l\ l" #

8

" ! # ! 8 !- - -

distribuzione di sotto ipotesi di base anche se non può essere espressa in forma chiusa.[ può essere tabulata

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L F" ! !- -

dell' ( ), si rifiuta per realizzazioni elevate (basse) di .ipotesi alternativa direzionale L À L À L F" ! " ! !- - - -

• Se , siano le , ovvero tutte le possibili delle5 œ 8Ð8 "ÑÎ# [ ß[ ßá ß[ 5" # 5 medie di Walsh semisomme distinte8 [ osservazioni. La stima di basata sul test è la (la ). Se - mediana delle medie di Walsh pseudomediana A8ßα

rappresenta il quantile di ordine di e se α [ [ ß[ ßá ß[Ð"Ñ Ð#Ñ Ð5Ñ è la statistica ordinata relativa alle medie di Walsh,allora per al livello di confidenza basato sul test di Wilcoxon risultal'intervallo di confidenza - αÐ" Ñ

Ò[ ß[ ÓÐA "Ñ Ð5A Ñ8ß Î# 8ß Î#α α

Page 267: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

TEST DI WILCOXON

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio e il sistema di ipotesi contro .L À œ " L À Á "! "- - Ilcomando fornisce l'implementazione del test di Wilcoxonwilcox.test

> wilcox.test(Diameter, alternative = "two.sided", mu = 1, conf.int = TRUE)

Wilcoxon signed rank test

data: DiameterV = 46, p-value = 0.06445alternative hypothesis: true location is not equal to 195 percent confidence interval: 0.985 1.405sample estimates:(pseudo)median 1.19

Page 268: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

TEST DI PERMUTAZIONE

• Con un approccio , si consideri“distribution-free” un campione da una variabile casuale continua escambiabilesimmetrica con funzione di ripartizione , dove rappresenta la mediana.\ JÐB Ñ- -

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), L À œ L À Á! ! " !- - - - condizionatamentealla realizzazione del campione , sotto ipotesi di base i valori e sono ugualmenteB ß B ßá ß B lB l lB l" # 8 3 ! 3 !- -

probabili. Un test di permutazione è basato sulle (ugualmente probabili) delle osservazioni#8 permutazioni dei segnitrasformate .lB lß lB lßá ß lB l" ! # ! 8 !- - -

• Se rappresenta un vettore scambiabile di variabili casuali di Bernoulli ognuna con parametro eW ß W ßá ß W "Î#" # 8

supporto il è basato sulla statistica testÖ "ß "× test di permutazione dei segni

X œ lB l W3œ"

8

3 ! 3-

• La distribuzione della statistica test sotto ipotesi di base , anche se ovviemente non è possibilepuò essere tabulataesprimerla in forma chiusa.

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L F" ! !- -

dell' ( ), si rifiuta per realizzazioni elevate (basse) di .ipotesi alternativa direzionale L À L À L F" ! " ! !- - - -

Page 269: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

TEST DI PERMUTAZIONE

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio Richiamando la libreria. , iexactRankTests lcomando fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono statewilcox.test

moltiplicate per cento al fine di ottenere valori interi per ottenere una elaborazione più rapida. Di conseguenza anche ilsistema di ipotesi risulta contro .L À œ "!! L À Á "!!! "- -

> library(exactRankTests)> perm.test(round(100 * Diameter), paired = FALSE,+ alternative = "two.sided", mu = 100)

1-sample Permutation Test

data: round(100 * Diameter)T = 237, p-value = 0.07031alternative hypothesis: true mu is not equal to 100

Page 270: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

BOOTSTRAP

• Con un approccio , si supponga che “distribution-free” B ß B ßá ß B" # 8 sia la determinazione di un campione casualeda una variabile casuale con media .\ .

• Condizionatamente distribuzione bootstrap alla realizzazione del campione , la della mediaB ß B ßá ß B" # 8

campionaria può essere ottenuta considerando tutti i campioni con ripetizione di ordine dai valori .8 B ß B ßá ß B" # 8

• Se rappresenta un vettore di variabili casuali Binomiali (ognuna con parametri e ) tali cheF ßF ßá ßF 8 "Î8" # 83œ"8

3F œ 8, allora la è data dalla statisticamedia campionaria bootstrap

\ œ B F"

8–

BOOT 3œ"

8

3 3

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il test bootstrap e ilL À œ L À Á! ! " !. . . .

relativo intervallo di confidenza bootstrap possono essere basati sulla statistica test .–\BOOT

• La distribuzione della statistica test sotto ipotesi di base , anche se ovviamente non è possibilepuò essere tabulataesprimerla in forma chiusa.

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L X" ! !. .

dell' ( ), si rifiuta per realizzazioni elevate (basse) di .ipotesi alternativa direzionale L À L À L X" ! " ! !. . . .

Page 271: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

BOOTSTRAP

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio La distribuzione bootstrap della media campionaria.si può ottenere mediante i seguenti comandi

> Boot.mean <- numeric(10000)> for (i in 1:10000) Boot.mean[i] <- mean(sample(Diameter, replace = T))> hist(Boot.mean, xlab = "Bootstrap sample mean",+ ylab = "Density", main = "Histogram")

Inoltre, la significatività osservata del test bootstrap può essere ottenuta mediante il seguente comando

> 2 * length(Boot.mean[Boot.mean < 1]) / 10000[1] 0.0218

Page 272: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

BOOTSTRAP

Esempio (segue).

Histogram

Bootstrap sample mean

Den

sity

0.8 1.0 1.2 1.4

050

010

0015

0020

00

Page 273: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

BOOTSTRAP

Esempio (segue). Richiamando la libreria , i fornisce l'implementazione dellaexactRankTests l comando boot

stima bootstrap.

> library(boot)> m <- function(x, w) sum(x$Diameter * w)> boot(d, m, R = 9999, stype = "w")

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:boot(data = d, statistic = m, R = 9999, stype = "w")

Bootstrap Statistics : original bias std. errort1* 1.194 0.0006592659 0.08684963

Page 274: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

BOOTSTRAP

Esempio (segue). Il comando fornisce l'implementazione dell'intervallo di confidenza bootstrap.boot.ci

> boot.ci(boot(d, m, R = 9999, stype = "w"), conf = 0.95,+ type = c("norm", "basic", "perc", "bca"))

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONSBased on 9999 bootstrap replicates

CALL :boot.ci(boot.out = boot(d, m, R = 9999, stype = "w"), conf = 0.95, type = c("norm", "basic", "perc", "bca"))

Intervals :Level Normal Basic95% ( 1.025, 1.363 ) ( 1.028, 1.363 )

Level Percentile BCa95% ( 1.025, 1.360 ) ( 1.021, 1.356 )Calculations and Intervals on Original Scale

Page 275: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

CAMPIONI APPAIATI

• Si consideri le osservazioni relative a soggetti su cui è stata osservata una certa variabile 8 prima e dopo untrattamento, ovvero si hanno le osservazioni prima del trattamento e le osservazioni B ß B ßá ß B B ß B ßá ß B"" #" 8" "# ## 8#

dopo il trattamento. L'obiettivo è quello di valutare l' del trattamento e i dati di questo tipo sono detti .efficacia appaiati

• Al fine di analizzare queste osservazioni si costruiscono le differenze delle osservazioni , dove. ß . ßá ß ." # 8

. œ B B3 3# 3".

• Supponendo che queste differenze siano realizzazioni di un campione casuale proveniente da una variabile casuale daH µ RÐ ß Ñ. 8 , la verifica dell' si riduce a considerare il sulla mediaefficacia del trattamento sistema di ipotesiL À œ ! L À Á ! H! ". . contro (o una ipotesi direzionale). Alternativamente, assumendo come una variabile casualecon funzione di ripartizione (non nota) dove rappresenta la mediana, si può considerare il sistema diJÐB Ñ- -

ipotesi sulla mediana contro (o una ipotesi direzionale).L À œ ! L À Á !! "- -

• In questo caso, è sufficiente applicare le viste in precedenza.procedure di verifica di ipotesi

Page 276: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

CAMPIONI APPAIATI

• Esempio. Su 8 pazienti con anemia cronica grave è stato misurato l'indice di infarto (in ml/battito/m ) prima e dopo2

un trattamento medico Bhatia, M.L., Manchanda, S.C. e Roy, S.B., 1969, Coronary haemodinamic studies in (Fonte: chronic severe anaemia, , 365-374British Heart Journal 31 ). I dati sono contenuti nel file e vengonostroke.txt

letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\stroke.txt", header = T)> attach(d)> Difference <- Post - Pre

La stima di nucleo della funzione di densità viene ottenuta mediante i seguenti comandi

> library(sm)> sm.density(Difference, hcv(Difference, hstart = 0.01, hend = 100),+ yht = 0.02, xlim = c(-70, 30), xlab = "Stroke index difference")> title(main = "Kernel density estimation ('CV' h = 18.272)")

Il diagramma quantile-quantile per la normalità viene ottenuto mediante i seguenti comandi

> qqnorm(Difference)> qqline(Difference)

Page 277: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

CAMPIONI APPAIATI

• Esempio (segue).

-60 -40 -20 0 20

0.00

00.

005

0.01

00.

015

0.02

0

Stroke index difference

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('CV' h = 18.272)

Page 278: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

CAMPIONI APPAIATI

• Esempio (segue).

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

-50

-40

-30

-20

-10

0

Normal Q-Q Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Page 279: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

CAMPIONI APPAIATI

• Esempio (segue). Il sistema di ipotesi contro può essere verificato con il test L À œ ! L À !! ". . > di Student

> t.test(Difference, alternative = "less", mu = 0)

One Sample t-test

data: Differencet = -2.8055, df = 7, p-value = 0.01316alternative hypothesis: true mean is less than 095 percent confidence interval: -Inf -5.64162sample estimates:mean of x -17.375

Page 280: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

CAMPIONI APPAIATI

• Esempio (segue). Il sistema di ipotesi contro può essere verificato con il test L À œ ! L À !! "- - di Wilcoxon

> wilcox.test(Difference, alternative = "less", mu = 0, conf.int = F)

Wilcoxon signed rank test with continuity correction

data: DifferenceV = 1.5, p-value = 0.01244alternative hypothesis: true location is less than 0

Page 281: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

TEST DI KOLMOGOROV

• Si consideri un campione casuale da una variabile casuale continua con funzione di ripartizione . Si desidera\ JÐBÑ

verificare il contro dove è unasistema di ipotesi funzionale L ÀJÐBÑ œ J ÐBÑß aB L ÀJÐBÑ Á J ÐBÑß bB J ÐBÑ! ! " ! !

funzione di ripartizione completamente specificata. Il test si basa sulla statistica di Kolmogorov

H œ lJÐBÑ J ÐBÑlssupB

!

• Questo tipo di test sono detti per la .bontà d'adattamento

• La distribuzione di non dipende da e quindi il test è laH JÐBÑ “distribution-free”. Inoltre, la distribuzione delstatistica test sotto ipotesi di base è .nota e può essere tabulata

• Evidentemente, se la funzione di ripartizione empirica si molto da quella ipotizzata, allora si hanno valoridiscostaelevati di che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa.H

• Per un , la statistica può essere convenientemente espressa comecalcolo pratico H

H œ Ö Òl3Î8 J Ð\ Ñlß lÐ3 "ÑÎ8 J Ð\ ÑlÓ×max max"Ÿ3Ÿ8

! !Ð3Ñ Ð3Ñ

Page 282: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

TEST DI KOLMOGOROV

• Esempio. Sono stati determinati i carichi da applicare a un campione di fibre di poliestere al fine di provocarne ilcedimento Quesenberry, C.P. e Hales, C., 1980, Concentration bands for uniformity plots, (Fonte: Journal of StatisticalComputation and Simulation , 41-53). Si sospetta che la distribuzione dei carichi segua una distribuzione log-11normale. Le osservazioni originali sono state ricalcolate mediante una trasformazione che conduce all'uniformità,ovvero il nuovo campione deve provenire da una 1 se l'ipotesi di lognormalità è vera . In questo caso si haYÐ!ß Ñ

J ÐBÑ œ B ÐBÑ ÐBÑ! Ó!ß"Ò Ò"ß∞Ò" "

I dati sono contenuti nel file e vengono letti e resi disponibili mediante i comanditensile.txt

> d <- read.table("c:\\Rwork\\examples\\tensile.txt", header = T)> attach(d)

Il grafico della funzione di ripartizione empirica e di quella teorica viene ottenuto mediante i seguenti comandi

> plot(ecdf(Strength), do.points = F, verticals = T,+ xlab = "Transformed tensile strength", ylab = "Probability",+ main = "Distribution function")> rug(Strength)> plot(function(x) punif(x), -0.05, 1.05, lty = 3,+ ylab = "Probability", add = T)> legend(0.6, 0.3, c("Empirical", "Theorical"), lty = c(1, 3))

Page 283: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

TEST DI KOLMOGOROV

• Esempio (segue).

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Distribution function

Transformed tensile strength

Pro

babi

lity

EmpiricalTheorical

Page 284: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

TEST DI KOLMOGOROV

• Esempio (segue). Il test di Kolmogorov viene ottenuto mediante il seguente comando

> ks.test(Strength, "punif", 0, 1)

One-sample Kolmogorov-Smirnov test

data: StrengthD = 0.2377, p-value = 0.05644alternative hypothesis: two-sided

Page 285: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

TEST ;#

• Se si considera un campionamento casuale da una o da una variabile casuale discreta a supporto finito variabilequalitativa frequenze osservate , allora le osservazioni campionarie sono le delle realizzazioni\ 8 ß 8 ßá ß 8" # <

distinte . Se la funzione di probabilità di è data da ( ), le quantità- ß - ßá ß - \ :Ð- Ñ œ 4 œ "ß #ßá ß <" # < 4 41

8 ß 8 ßá ß 81 1 1" # < sono dette .frequenze attese

• Si è interessati a verificare il sistema di ipotesi contro . Dal momento che leL À œ ß a4 L À Á ß b4! 4 !4 " 4 !41 1 1 1

probabilità specificano completamente la funzione di ripartizione di , la precedente ipotesi è a tutti gli effetti una14 \

ipotesi funzionale.

• Per verificare questo sistema di ipotesi si adotta la statistica test per la data daChi-quadrato bontà d'adattamento

;1

1#

4œ"

<4 !4

#

!4œ

Ð8 8 Ñ

8

• La distribuzione di non dipende dai valori e quindi il test è per grandi campioni “distribution-free” per; 1#!4

grandi campioni. Sotto ipotesi di base, per la statistica test 8 Ä ∞ ; ;# #<" converge in distribuzione a una .

L'approssimazione è per campioni finiti se e se tutte le frequenze attese sono maggiori di uno.valida 8 $!

• Se le si molto dalle , si ottengono determinazioni elevate dellafrequenze osservate discostano frequenze attesestatistica test che portano a l'ipotesi di base.respingere

Page 286: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

TEST ;#

Esempio. È stata osservata la prima cifra dei numeri contenuti in un volume della rivista Reader's Digest sceltocasualmente (Fonte: Benford, F., 1938, The law of anomalous numbers, Proceedings of the American PhilosophicalSociety , 551-572). Un modello teorico per questi dati è la cosiddetta distribuzione anomala con funzione di78probabilità

: ÐBÑ œ Ð" "ÎBÑ ÐBÑ! "! Ö"ß#ßáß*×log "

I dati sono contenuti nel file e vengono letti e resi disponibili mediante i comandibenford.txt

> d <- read.table("c:\\Rwork\\examples\\benford.txt", header = T)> attach(d)

Le probabilità teoriche vengono calcolate mediante i seguenti comandi

> Theory.Probs <- numeric(9)> for (i in 1:9) Theory.Probs[i] <- logb(1 + 1 / i, 10)

Il grafico delle distribuzioni di probabilità osservata e di quella teorica viene ottenuto mediante i seguenti comandi

> h <- list(Digit = c(Digit, Digit), Type = c(rep("Theorical", 9),+ rep("Observed", 9)), Probs = c(Theory.Probs, Counts / sum(Counts)))> class(Table <- xtabs(Probs ~ ., h))[1] "xtabs" "table"> barplot(t(Table), beside = T, legend = colnames(Table),+ xlab = "Digit", ylab = "Probability",+ main = "Probability distribution")

Page 287: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

TEST ;#

Esempio (segue).

1 2 3 4 5 6 7 8 9

ObservedTheorical

Probability distribution

Digit

Pro

babi

lity

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Page 288: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

TEST ;#

Esempio. Il test viene ottenuto mediante il seguente comando;#

> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)

Chi-squared test for given probabilities

data: xtabs(Counts ~ ., d)X-squared = 3.2735, df = 8, p-value = 0.916

Page 289: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

TEST ;#

Esempio. In un esperimento di genetica sono stati considerati ibridi di pomodoro con un rapporto atteso di quattrofenotipi pari a 9 3 3 1 ottenendo le frequenze del numero di piante generate per ogni fenotipo (Fonte: McArthur, J.W.,À À À

1931, Linkage studies with the tomato III. Fifteen factors in six groups, ,Transaction of the Royal Canadian Institute 181-19. Si vuole verificare sperimentalmente i risultati della teoria genetica, ovvero l'ipotesi di base L À œ *Î"'ß! "1

1 1 1# $ %œ $Î"'ß œ $Î"'ß œ "Î"'. I dati sono contenuti nel file e vengono letti e resi disponibilitomato.txt

mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\tomato.txt", header = T)> attach(d)

Le probabilità teoriche vengono calcolate mediante i seguenti comandi

> Theory.Probs <- c(9 / 16, 3 / 16, 3 / 16, 1 / 16)

Page 290: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

TEST ;#

Esempio (segue). Il grafico delle distribuzioni di probabilità osservata e di quella teorica viene ottenuto mediante iseguenti comandi

> h <- list(Phenotype = c(Phenotype, Phenotype),+ Type = c(rep("Theoretical", 4), rep("Observed", 4)),+ Probs = c(Theory.Probs, Counts / sum(Counts)))> class(Table <- xtabs(Probs ~ ., h))[1] "xtabs" "table"> barplot(t(Table), beside = T, legend = colnames(Table),+ names.arg = c("Tall cut-leaf", "Tall potato-leaf",+ "Dwarf cut-leaf", "Dwarf potato-leaf"),+ xlab = "Phenotype", ylab = "Probability",+ main = "Probability distribution")

Page 291: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

TEST ;#

Esempio (segue).

Tall cut-leaf Tall potato-leaf Dwarf cut-leaf Dwarf potato-leaf

ObservedTheoretical

Probability distribution

Phenotype

Pro

babi

lity

0.0

0.1

0.2

0.3

0.4

0.5

Page 292: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

TEST ;#

Esempio. Il test viene ottenuto mediante il seguente comando;#

> chisq.test(xtabs(Counts ~ ., d), p = Theory.Probs)

Chi-squared test for given probabilities

data: xtabs(Counts ~ ., d)X-squared = 1.4687, df = 3, p-value = 0.6895

Page 293: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

TEST ;#

• Se la funzione di probabilità di dipende da un , ovvero se , il\ :Ð- Ñ œ Ð Ñinsieme di parametri non noti5 ) 1 )4 4

sistema di ipotesi diventa contro .L À œ Ð Ñß a4 L À Á Ð Ñß b4! 4 !4 " 4 !41 1 ) 1 1 )

• Si assuma l'esistenza uno stimatore coerente, efficiente per grandi campioni e distribuito normalmente per grandiKs

campioni. Le quantità sono dette . Lo stimatore viene8 Ð Ñß 8 Ð Ñßá ß 8 Ð Ñs s s s1 ) 1 ) 1 ) K" # < frequenze attese stimateusualmente ottenuto con il metodo della .massima verosimiglianza

• Per verificare questo sistema di ipotesi si adotta una opportuna modifica della statistica test data daChi-quadrato

;1 K

1 K

#

4œ"

<4 !4

#

!4

œÒ8 8 Ð ÑÓs

8 Ð Ñs

• La distribuzione di non dipende dai valori e quindi il test è per grandi campioni “distribution-free” per; 1#4

grandi campioni. Sotto ipotesi di base, per la statistica test 8 Ä ∞ ; ;# #<5" converge in distribuzione a .

L'approssimazione è per campioni finiti se e se tutte le frequenze attese stimate sono maggiori di uno.valida 8 $!

• Se le si molto dalle , si ottengono determinazioni elevatefrequenze osservate discostano frequenze attese stimatedella statistica test che portano a l'ipotesi di base.respingere

Page 294: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

TEST ;#

Esempio. È stato osservato il numero di taxi arrivati in ogni intervalli di un minuto alla stazione di Euston a Londra frale 9.00 e le 10.00 di una mattina del 1950 (Fonte: Kendall, D.G., 1951, Some problems in the theory of queues, Journalof the Royal Statistical Society , 151-185). Se gli arrivi sono casuali, per la teoria dei processi stocastici, leB13osservazioni provengono da una . Il supporto della Poisson non è limitato, e quindi si devono raggruppare leT9Ð Ñ.

osservazioni maggiori di un predeterminato valore (in questo caso ) in una unica classe. Si può verificare inoltre che&

lo stimatore di massima verosimiglianza di coincide con la media campionaria in questo caso. . I dati sono contenutinel file e vengono letti e resi disponibili mediante i comanditaxi.txt

> d <- read.table("c:\\Rwork\\examples\\taxi.txt", header = T)> attach(d)

Le probabilità teoriche stimate vengono calcolate mediante i seguenti comandi

> mu <- sum(Taxi * Counts) / sum(Counts)> Theory.Probs <- numeric(6)> for (i in 0:4) Theory.Probs[i + 1] <- dpois(i, mu)> Theory.Probs[6] <- 1 - sum(Theory.Probs)

Page 295: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

TEST ;#

Esempio (segue). Il grafico delle distribuzioni di probabilità osservata e di quella teorica viene ottenuto mediante iseguenti comandi

> h <- list(Taxi = c(Taxi, Taxi), Type = c(rep("Estimated", 6),+ rep("Observed", 6)), Probs = c(Theory.Probs, Counts / sum(Counts)))> class(Table <- xtabs(Probs ~ ., h))[1] "xtabs" "table"> barplot(t(Table), beside = T, legend = colnames(Table),+ names.arg = c("0", "1", "2", "3", "4", "+5"),+ xlab = "Taxi", ylab = "Probability", main = "Probability distribution")

Page 296: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

TEST ;#

Esempio (segue).

0 1 2 3 4 +5

EstimatedObserved

Probability distribution

Taxi

Pro

babi

lity

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

Page 297: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

TEST ;#

Esempio. Il test viene ottenuto mediante il seguente comando;#

> 1 - pchisq(sum((Counts - sum(Counts) * Theory.Probs)^2 /+ (sum(Counts) * Theory.Probs)), 4)[1] 0.7380024

Page 298: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

LETTURE SUGGERITE

Azzalini, A. (1996) , Chapman and Hall, LondonStatistical inference .Chernick, M.R. (2008) Bootstrap methods, seconda edizione, Wiley, New York.Davison, A.C. e Hinkley, D.V. (1997) , Cambridge University Press,Bootstrap methods and their application

Cambridge.Efron, B. e Tibshirani, R. (1993) , Chapman & Hall, London.An introduction to the bootstrapGood (2005) , terza edizione, Springer, New York.Permutation, parametric and bootstrap test of hypothesesHajek, J. (1969) , Holden Day, San Francisco.´ Nonparametric statisticsHajek, J. e Šidak, Z. (1967) , Academic Press, New York.´ ´ Theory of rank testsHettmansperger, T.P. e McKean, J.W. (2011) , seconda edizione, Robust nonparametric statistical methods Chapman &

Hall/CRC Press, Boca Raton.Hollander, M., Wolfe, D.A. e Chicken, E. (2014) , terza edizione, Wiley, New York.Nonparametric statistical methodsLehmann, E.L. (1983) , Wiley, New York.Testing statistical hypothesisLehmann, E.L. e Romano, J.P. (2005) , terza edizione, Springer, New York.Testing statistical hypothesisShao, J. e Tu, D. (1995) , Springer, New York.The jackknife and bootstrap

Page 299: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 8

INFERENZA CON DUE VARIABILI

Page 300: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

INFERENZA CON DUE VARIABILI

• Un modello statistico più elaborato assume un campionamento da .due variabili

• Se la prima variabile è e sotto controllo dello sperimentatore (ovvero è un fattore) mentre l'altra variabilequalitativaè si ha la tipica situazione descritta come analisi con (se il fattore assume duequantitativa due campionideterminazioni) o (se il fattore assume più determinazioni). Ovviamente, queste struttureanalisi della varianzacampionarie possono essere analizzate sia con un approccio classico che con un approccio .“distribution-free”

• L'analisi della è finalizzata invece all'indagine dell'esistenza di un fra le due variabili (chedipendenza legamepossono essere entrambe quantitative o entrambe qualitative).

Page 301: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

INFERENZA CON DUE VARIABILI

• È importante una cautela per quanto riguarda l'uso della nel caso che si analizzi una variabile qualitativa enotazioneuna quantitativa.

• Ad esempio, quando si considera l' , viene solitamente assunta l'esistenza di due campionianalisi con due campionicasuali di numerosità e (tali che ) provenienti da due variabili casuali. Tuttavia, si dovrebbe8 8 8 œ 8 8" # " #

affermare più correttamente che si dispone di osservazioni della variabile quantitativa al livello della variabile8 ] -" "

qualitativa e osservazioni della variabile quantitativa al livello della variabile qualitativa .\ 8 ] - \# #

• Dunque, si dovrebbe adoperare la notazione e per specificare le due variabili casuali daÐ] ± \ œ - Ñ Ð] ± \ œ - Ñ" #

cui si sta campionando. Tuttavia, per parsimonia e con un lieve abuso di notazione, queste due variabili casualivengono denotate con e nel seguito.] ]- -" #

• Analogamente, se il fattore assume livelli (ovvero quando si considera l' ) si\ < - ß - ßá ß -" # < analisi della varianzaadotta la notazione .] ß ] ßá ß ]- - -" # <

Page 302: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

TEST DI STUDENT PER DUE CAMPIONI>

• Con un tipico , si consideri di numerosità e conapproccio classico due campioni casuali indipendenti ( 8 8" #

8 œ 8 8" #) da una variabile casuale a due livelli differenti e di un fattore, tali che e] - - ] µ RÐ ß Ñ" # - "#

". 5

] µ RÐ ß Ñ- ##

#. 5 .

• Quando si assume l'omogeneità delle varianze come in questo caso, si ha la cosiddetta ipotesi di .omoschedasticità

• Si indichi con e la media campionaria e la varianza campionaria delle osservazioni provenienti da .–] W ]- --

#" ""

Analogamente, si indichi con e la media campionaria e la varianza campionaria delle osservazioni provenienti–] W- -

## #

da .]-#

• Sia inoltre

W œ Ð8 W 8 W Ñ"

8A - -# # #

" #" #

la media delle varianze.

• Gli stimatori , e sono gli di , e .– –] ] W- - " #A

# #" #

stimatori di massima verosimiglianza . . 5

Page 303: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

TEST DI STUDENT PER DUE CAMPIONI>

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il L À œ L À Á! " # " " #. . . . test del rapportodelle verosimiglianze di Student a due campioni fornisce il test basato sulla statistica test>

X œ8 8 Ð8 #Ñ ] ]

8 W " # - -

#A

– –# "

che sotto ipotesi di base si distribuisce come .X µ >8#

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L X" " # !. .

dell' ( ), si rifiuta per realizzazioni basse (elevate) di .ipotesi alternativa direzionale L À L À L X" " # " " # !. . . .

• Il test basato su è dal momento che converge in distribuzione a unaX X“distribution-free” per grandi campionivariabile casuale RÐ!ß "Ñ per .8 Ä ∞

• Il test di Student a due campioni è quindi rispetto all' .> “robusto” assunzione di normalità

Page 304: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

TEST DI STUDENT PER DUE CAMPIONI>

• Il test di Student a due campioni assume l' . Al fine di verificare l' è> omoschedasticità omogeneità delle varianzeopportuno assumere ] µ RÐ ß Ñ ] µ RÐ ß Ñ L À œ- " - # !" # " #

# # # #" #

. 5 . 5 5 5 e e verificare il sistema di ipotesi controL À Á" " #

# #5 5 .

• In questo caso, il fornisce il basato sulla statistica testtest del rapporto delle verosimiglianze test di Fisher

J œW

W-#

-#"

#

che sotto ipotesi di base si distribuisce come .J µ J8 "ß8 "" #

• L' viene rifiutata per realizzazioni elevate di .ipotesi di base J

• Nel caso che l'ipotesi di omoschedasticità venga , per verificare l' si può comunquerespinta omogeneità delle medieadoperare la statistica test

X œ] ]

W Î8 W Î8

– –- -

- -# #

" #

# "

" #

che converge in distribuzione a una variabile casuale è quindi RÐ!ß "Ñ per ed 8 Ä ∞ “distribution-free” per grandicampioni.

Page 305: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

TEST DI STUDENT PER DUE CAMPIONI>

Esempio. Si dispone delle osservazioni di due campioni casuali di diametri di sfere misurate in micron provenienti dadue differenti linee di produzione (Fonte: Romano, A., 1977, , Allyn andApplied statistics for science and industryBacon, Boston). I dati sono contenuti nel file e vengono letti e resi disponibili mediante i comandiball2.txt

> d <- read.table("c:\\Rwork\\examples\\ball2.txt", header = T)> attach(d)

I dati originali vengono ripartiti nei due campioni mediante i comandi

> Diameter.1 <- split(Diameter, Line)[[1]]> Diameter.2 <- split(Diameter, Line)[[2]]

Il diagramma a scatola e baffi condizionato viene ottenuto mediante il comando

> boxplot(Diameter ~ Line, boxwex = 0.3, ylab = "Ball diameter (micron)",+ main = "Box-and-whiskers plot")

Page 306: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue).

L1 L2

0.8

1.0

1.2

1.4

1.6

1.8

2.0

Box-and-whiskers plot

Bal

l dia

met

er (m

icro

n)

Page 307: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue). Le stime di nucleo vengono ottenute mediante i comandi

> library(sm)> hcv(Diameter.1, hstart = 0.01, hend = 1)> sm.density(Diameter.1, hcv(Diameter, hstart = 0.01, hend = 1),+ yht = 0.92, xlim = c(-0.35, 2.65),+ xlab = "Line 1 ball diameter (micron)")> title(main = "Kernel density estimation ('CV' h = 0.32)")> hcv(Diameter.2, hstart = 0.01, hend = 1)> sm.density(Diameter.2, hcv(Diameter, hstart = 0.01, hend = 1),+ yht = 0.92, xlim = c(-0.35, 2.65),+ xlab = "Line 2 ball diameter (micron)")> title(main = "Kernel density estimation ('CV' h = 0.37)")

Page 308: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue).

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

Line 1 ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('CV' h = 0.32)

0.0 0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

Line 2 ball diameter (micron)

Pro

babi

lity

dens

ity fu

nctio

n

Kernel density estimation ('CV' h = 0.37)

Page 309: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue). Il sistema di ipotesi il comandoL À œ L À Á! "" # " ## # # #5 5 5 5 contro può essere verificato mediante

var.test che fornisce l'implementazione del test di FisherJ .

> var.test(Diameter.1, Diameter.2, paired = F, alternative = "two.sided")

F test to compare two variances

data: Diameter.1 and Diameter.2F = 0.4574, num df = 9, denom df = 9, p-value = 0.2595alternative hypothesis: true ratio of variances is not equal to 195 percent confidence interval: 0.1136199 1.8416221sample estimates:ratio of variances 0.4574329

Page 310: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue). Il sistema di ipotesi contro può essere verificato mediante iL À œ L À Á! " # " " #. . . . l comandot.test che fornisce l'implementazione del test di Student per due campioni>

> t.test(Diameter.1, Diameter.2, var.equal = T, alternative = "two.sided")

Two Sample t-test

data: Diameter.1 and Diameter.2t = -1.2965, df = 18, p-value = 0.2112alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: -0.5555277 0.1315277sample estimates:mean of x mean of y 1.194 1.406

Page 311: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

TEST DI STUDENT PER DUE CAMPIONI>

Esempio (segue). Il test per l'omogeneità delle medie senza assunzione di omoschedasticità viene ottenuto mediante iseguenti comandi

> 2 * pnorm((mean(Diameter.1) - mean(Diameter.2)) /+ (variance(Diameter.1) / length(Diameter.1) ++ variance(Diameter.2) / length(Diameter.2))^(1 / 2))[1] 0.1717296

Page 312: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

TEST DI MANN-WHITNEY

• Con un approccio , si consideri di numerosità e con“distribution-free” due campioni casuali indipendenti ( 8 8" #

8 œ 8 8" #) da una variabile casuale da una variabile casuale a due livelli differenti e di un fattore, tali che] - -" #

] JÐC Ñ ] JÐC Ñ- " - # " #" # ha funzione di ripartizione e ha funzione di ripartizione , mentre e rappresentano le- - - -

rispettive mediane.

• Si indichi come l'insieme di tutte le osservazioni senza considerare l'effetto del fattore. Inoltre, sicampione misto 8

assuma che V ßV ßá ßV ]" # 8 -" " siano i ranghi assegnati alle osservazioni provenienti da nel campione misto, mentre

siano i ranghi assegnati alle osservazioni provenienti da nel campione misto.V ßV ßá ßV ]8 " 8 # 8 -" " #

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il L À œ L À Á! " # " " #- - - - test di Mann-Withney è basato sulla statistica test

[ œ V3œ"

8

3

"

• La distribuzione di sotto ipotesi di base anche se non può essere espressa in forma chiusa.[ può essere tabulata

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L X" " # !- -

dell' ( ), si rifiuta per realizzazioni basse (elevate) di .ipotesi alternativa direzionale L À L À L X" " # " " # !- - - -

Page 313: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

TEST DI MANN-WHITNEY

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Il sistema di ipotesi contro L À œ L À Á! " # " " #- - - -

può essere verificato mediante il comando che fornisce l'implementazione del test di Mann-Whitney.wilcox.test

> wilcox.test(Diameter ~ Line, alternative = "two.sided")

Wilcoxon rank sum test with continuity correction

data: Diameter by LineW = 32.5, p-value = 0.1986alternative hypothesis: true location shift is not equal to 0

Page 314: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

TEST DI PERMUTAZIONE

• Con un approccio , si consideri“distribution-free” due campioni da una variabile casuale a due livelliscambiabili ]

differenti e di un fattore, tali che ha funzione di ripartizione e ha funzione di ripartizione- - ] JÐC Ñ ]" # - " -" #-

JÐC Ñ- - -# " #, mentre e rappresentano le rispettive mediane.

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), L À œ L À Á! " # " " #- - - - condizionatamentealla realizzazione del campione misto, sotto ipotesi di base ogni partizione del campione misto in due gruppi dinumerosità e è ugualmente probabile. Dunque, un test di permutazione è basato sulle (ugualmente8 8" #

8 88 " #

"

probabili) del fattore assegnati al campione misto.permutazioni di livelli

• Se rappresenta un vettore scambiabile di variabili casuali di Bernoulli ognuna con parametro eW ß W ßá ß W "Î#" # 8

supporto tali che , il è basato sulla statistica testÖ "ß "× W œ 8 83œ"8

3 " # test di permutazione dei segni

X œ B W3œ"

8

3 3

• La distribuzione della statistica test sotto ipotesi di base , anche se ovviamente non è possibilepuò essere tabulataesprimerla in forma chiusa.

• Nel caso dell' , si rifiuta per realizzazioni basse o elevate di . Nel casoipotesi alternativa bilaterale L À Á L X" " # !- -

dell' ( ), si rifiuta per realizzazioni basse (elevate) di .ipotesi alternativa direzionale L À L À L X" " # " " # !- - - -

Page 315: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

TEST DI PERMUTAZIONE

• Si considera di nuovo i dati relativi alle sfere di acciaio. Richiamando la libreria , iexactRankTests l comandowilcox.test fornisce l'implementazione del test di permutazione dei segni. Le osservazioni sono state moltiplicateper cento al fine di ottenere valori interi per ottenere una elaborazione più rapida.

> perm.test(round(100 * Diameter.1), round(100 * Diameter.2), paired = F,+ alternative = "two.sided")

2-sample Permutation Test

data: round(100 * Diameter.1) and round(100 * Diameter.2)T = 1194, p-value = 0.2105alternative hypothesis: true mu is not equal to 0

Page 316: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

BOOTSTRAP

• Con un approccio , si consideri due“distribution-free” campioni casuali da una variabile casuale a due livelli]

differenti e di un fattore, tali che ha funzione di ripartizione e ha funzione di ripartizione- - ] JÐC Ñ ]" # - " -" #.

JÐC Ñ. . .# " #, dove e rappresentano le rispettive medie.

• Condizionatamente distribuzione bootstrap differenza delle medie alla realizzazione del campione misto, la della campionarie indicata con può essere ottenuta considerando tutti i campioni con ripetizione di ordine dalX 8BOOT

campione misto che vengono successivamente ripartiti in due campioni di numerosità e .8 8" #

• Se si considera il sistema di ipotesi contro (o una ipotesi direzionale), il test bootstrap e ilL À œ L À Á! " # " " #. . . .

relativo intervallo di confidenza bootstrap può essere basato sulla statistica test .XBOOT

• La distribuzione della statistica test sotto ipotesi di base , anche se ovviamente non è possibilepuò essere tabulataesprimerla in forma chiusa.

Page 317: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

BOOTSTRAP

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio La significatività osservata del test bootstrap può.essere ottenuta mediante i seguenti comandi

> Boot.meandif <- numeric(10000)> Boot.sample <- numeric(length(Diameter))> for (i in 1:10000) {Boot.sample <- sample(Diameter, replace = T);+ Boot.diameter1 <- Boot.sample[c(1:length(Diameter.1))];+ Boot.diameter2 <-+ Boot.sample[c((length(Diameter.1) + 1):length(Diameter))];+ Boot.meandif[i] <- mean(Boot.diameter1) - mean(Boot.diameter2)}> hist(Boot.meandif, xlab = "Bootstrap sample mean difference",+ ylab = "Density", main = "Histogram")> 2 * length(Boot.meandif[Boot.meandif <+ mean(Diameter.1) - mean(Diameter.2)]) / 10000[1] 0.191

Page 318: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

TEST DI KOLMOGOROV-SMIRNOV

• Con un approccio , si consideri di numerosità e con“distribution-free” due campioni casuali indipendenti ( 8 8" #

8 œ 8 8" #) da una variabile casuale da una variabile casuale a due livelli differenti e di un fattore, tali che] - -" #

] J ÐCÑ ] J ÐCÑ- - - -" " # # ha funzione di ripartizione e ha funzione di ripartizione . Si assuma che e sianoJ ÐCÑ J ÐCÑs s- -" #

rispettivamente le relativa alle osservazioni provenienti funzioni di ripartizione empiriche da e nel campione] ]- -" #

misto.

• Se si considera il sistema di ipotesi contro , il L ÀJ ÐCÑ œ J ÐCÑß aC L À J ÐCÑ Á J ÐCÑß bC! - - " - -" # " #test di Kolmogorov-

Smirnov è basato sulla statistica test

H œ lJ ÐCÑ J ÐCÑls ssupC

- -" #

• La distribuzione di non dipende da sotto ipotesi di base e quindi il test è H JÐCÑ “distribution-free”. Ladistribuzione del e può essere tabulatala statistica test sotto ipotesi di base è .nota

• Evidentemente, se le due funzioni di ripartizione empiriche si molto fra loro, allora si hanno valori elevatidiscostanodi che conseguentemente portano a respingere l'ipotesi di base in favore dell'ipotesi alternativa.H

• Per un , se è la statistica ordinata relativa al campione misto, la statistica puòcalcolo pratico Ð] ß ] ßá ß ] Ñ HÐ"Ñ Ð#Ñ Ð8Ñ

essere espressa come

H œ lJ Ð] Ñ J Ð] Ñls smax"Ÿ3Ÿ8

- -Ð3Ñ Ð3Ñ" #

Page 319: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

TEST DI KOLMOGOROV-SMIRNOV

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. I grafici delle due funzioni di ripartizione empirichesono ottenute mediante i seguenti comandi

> plot(ecdf(Diameter.1), do.points = F, verticals = T, xlim = c(0.5, 2.0),+ lty = 1, xlab = "Ball diameter (micron)", ylab = "Probability",+ main = "Empirical distribution function")> plot(ecdf(Diameter.2), do.points = F, verticals = T, lty = 3, add = T)> legend(1.5, 0.3, c("Line 1", "Line 2"), lty = c(1, 3))

Page 320: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

TEST DI KOLMOGOROV-SMIRNOV

Esempio (segue).

0.5 1.0 1.5 2.0

0.0

0.2

0.4

0.6

0.8

1.0

Empirical distribution function

Ball diameter (micron)

Pro

babi

lity

Line 1Line 2

Page 321: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

TEST DI KOLMOGOROV-SMIRNOV

Esempio. Il sistema di ipotesi contro L ÀJ ÐCÑ œ J ÐCÑß aC L À J ÐCÑ Á J ÐCÑß bC! - - " - -" # " # può essere verificato mediante il

seguente comando

> ks.test(Diameter.1, Diameter.2)

Two-sample Kolmogorov-Smirnov test

data: Diameter.1 and Diameter.2D = 0.4, p-value = 0.4005alternative hypothesis: two-sided

Page 322: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

ANALISI DELLA VARIANZA

• Con un tipico , si consideri numerosità e tali cheapproccio classico < campioni casuali indipendenti (ciascuno di 844œ"<

48 œ 8) da una variabile casuale a livelli differenti di un fattore, tali che .] < - ß - ßá ß - ] µ RÐ ß Ñ" # < - 4#

4. 5

• Siano e la media campionaria e la varianza campionaria delle osservazioni provenienti da , mentre siano– –] W ]- --

#4 44

W œ 8 Ð] ] Ñ"

8,# #

4œ"

<

4 - – –4

e

W œ 8 W"

8A -# #

4œ"

<

44

le cosiddette (ovvero fra i gruppi) e (ovvero all'interno dei gruppi). Glivarianza “between” varianza “within”stimatori e sono gli di e ,– – –

] ß ] ßá ß ] W ß ßá ß- - - " # <A# #

" # <stimatori di massima verosimiglianza . . . 5

rispettivamente.

• Se si considera il sistema di ipotesi contro il L À œ œ á œ L À Á ß b4ß 6! " # < " 4 6. . . . . test del rapporto delleverosimiglianze di Fisher per l'analisi della varianza fornisce il test basato sulla statistica testJ

J œÐ8 7ÑW

Ð7 "ÑW,#

A#

che sotto ipotesi di base si distribuisce . L'ipotesi di base viene rifiutata per realizzazioni elevate di .J µ J J<"ß8<

Page 323: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

ANALISI DELLA VARIANZA

• Quando l'ipotesi di base viene rifiutata coppia di medie, si desidera conoscere da quale dipende il rifiuto.

• Non è opportuno effettuare singoli test per la verifica dell'omogeneità di , in quanto le statistiche testcoppie di mediesono dipendenti e quindi la non può essere calcolata a partire da quella dei .significatività globale singoli test

• La genera un insieme di per le possibiliprocedura di Tukey intervalli di confidenza simultanei <Ð< "ÑÎ#

differenze . Questa procedura è .. .4 6 “distribution-free” per grandi campioni

• Data la dualità esistente fra intervallo di confidenza e test statistico, verificando gli intervalli di confidenza simultaneiche il valore , si può risalire alle coppie di medie che hanno causato il rifiuto dell'ipotesi di basenon contengono !

nell'analisi della varianza.

Page 324: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

ANALISI DELLA VARIANZA

Esempio. In un famoso esperimento di Michelson e Morley sono stati fatti 5 esperimenti di 20 prove ognuno perdeterminare la velocità della luce (Fonte: Weekes, A.J., 1986, , Arnold, London). Queste misurazioniA Genstat Primerriportano solo le ultime 3 cifre (senza decimali) della velocità della luce (in km/sec). Si noti che la modernamisurazione risulta 299,792.458 (km/sec). I dati sono contenuti nel file e vengono letti e resi disponibililight.txt

mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\light.txt", header = T)> attach(d)

I dati originali vengono ripartiti nei cinque campioni mediante i comandi

> Speed.1 <- split(Speed, Trial)[[1]]> Speed.2 <- split(Speed, Trial)[[2]]> Speed.3 <- split(Speed, Trial)[[3]]> Speed.4 <- split(Speed, Trial)[[4]]> Speed.5 <- split(Speed, Trial)[[5]]

Il diagramma a scatola e baffi condizionato viene ottenuto mediante il comando

> boxplot(Speed ~ Trial, main = "Box-and-whiskers plot",+ xlab = "Experiment Number")

Page 325: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

ANALISI DELLA VARIANZA

Esempio (segue).

T1 T2 T3 T4 T5

700

800

900

1000

Box-and-whiskers plot

Experiment Number

Page 326: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

ANALISI DELLA VARIANZA

Esempio (segue). Le stime di nucleo vengono ottenute mediante i comandi

> library(sm)> par(mfrow = c(3, 2))> sm.density(Speed.1, hnorm(Speed.1), yht = 0.008, xlim = c(580, 1120),+ xlab = "Ligth speed (Trial 1)")> title(main = "Kernel density estimation")> sm.density(Speed.2, hnorm(Speed.2), yht = 0.008, xlim = c(580, 1120),+ xlab = "Ligth speed (Trial 2)")> title(main = "Kernel density estimation")> sm.density(Speed.3, hnorm(Speed.3), yht = 0.008, xlim = c(580, 1120),+ xlab = "Ligth speed (Trial 3)")> title(main = "Kernel density estimation")> sm.density(Speed.4, hnorm(Speed.4), yht = 0.008, xlim = c(580, 1120),+ xlab = "Ligth speed (Trial 4)")> title(main = "Kernel density estimation")> sm.density(Speed.5, hnorm(Speed.5), yht = 0.008, xlim = c(580, 1120),+ xlab = "Ligth speed (Trial 5)")> title(main = "Kernel density estimation")> par(mfrow = c(1, 1))

Page 327: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

ANALISI DELLA VARIANZA

Esempio (segue).

600 700 800 900 1000 11000.

000

0.00

40.

008

Ligth speed (Trial 1)

Prob

abilit

y de

nsity

func

tion Kernel density estimation

600 700 800 900 1000 1100

0.00

00.

004

0.00

8

Ligth speed (Trial 2)

Prob

abilit

y de

nsity

func

tion Kernel density estimation

600 700 800 900 1000 1100

0.00

00.

004

0.00

8

Ligth speed (Trial 3)

Prob

abilit

y de

nsity

func

tion Kernel density estimation

600 700 800 900 1000 1100

0.00

00.

004

0.00

8

Ligth speed (Trial 4)

Prob

abilit

y de

nsity

func

tion Kernel density estimation

600 700 800 900 1000 1100

0.00

00.

004

0.00

8

Ligth speed (Trial 5)

Prob

abilit

y de

nsity

func

tion Kernel density estimation

Page 328: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

ANALISI DELLA VARIANZA

Esempio (segue). L'analisi della varianza viene implementata mediante il comando

> summary(aov(Speed ~ Trial)) Df Sum Sq Mean Sq F value Pr(>F)Trial 4 94514 23629 4.2878 0.003114 **Residuals 95 523510 5511---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Page 329: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

ANALISI DELLA VARIANZA

Esempio (segue). La procedura di Tukey può essere implementata mediante il seguente comando

> TukeyHSD(aov(Speed ~ Trial), "Trial") Tukey multiple comparisons of means 95% family-wise confidence level

Fit: aov(formula = Speed ~ Trial)

$Trial diff lwr upr p adjT2-T1 -53.0 -118.28006 12.280058 0.1679880T3-T1 -64.0 -129.28006 1.280058 0.0574625T4-T1 -88.5 -153.78006 -23.219942 0.0025733T5-T1 -77.5 -142.78006 -12.219942 0.0115793T3-T2 -11.0 -76.28006 54.280058 0.9899661T4-T2 -35.5 -100.78006 29.780058 0.5571665T5-T2 -24.5 -89.78006 40.780058 0.8343360T4-T3 -24.5 -89.78006 40.780058 0.8343360T5-T3 -13.5 -78.78006 51.780058 0.9784065T5-T4 11.0 -54.28006 76.280058 0.9899661

Page 330: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

TEST DI KRUSKAL-WALLIS

• Con un approccio , si consideri numerosità e tali“distribution-free” < campioni casuali indipendenti (ciascuno di 84

che ) 4œ"<

48 œ 8 da una variabile casuale a livelli differenti di un fattore, tali che ha funzione di] < - ß - ßá ß - ]" # < -4

ripartizione e rappresenta la rispettiva mediana.JÐC Ñ- -4 4

• Si assuma che V ]- -4 4 sia la somma dei ranghi assegnati alle osservazioni provenienti da nel campione misto.

• Se si considera il sistema di ipotesi contro , il èL À œ œ á œ L À Á ß b4ß 6! " # < " 4 6- - - - - test di Kruskal-Wallisbasato sulla statistica test

L œ 8 ÒV Î8 Ð8 "ÑÎ#Ó"#

8Ð8 "Ñ 4œ"

<

4 - 4#

4

• La distribuzione di sotto ipotesi di base anche se non può essere espressa in forma chiusa.L può essere tabulataInoltre, per grandi campioni converge in distribuzione ad una .L ;<"

#

• Evidentemente, della realizzazione di portano al rifiuto dell'ipotesi di base.valori elevati J

Page 331: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

TEST DI KRUSKAL-WALLIS

• Il test di Kruskal-Wallis viene implementato mediante il seguente comando

> kruskal.test(Speed ~ Trial)

Kruskal-Wallis rank sum test

data: Speed by TrialKruskal-Wallis chi-squared = 15.0221, df = 4, p-value = 0.004656

Page 332: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

TEST PER L'INDIPENDENZA

• Con un tipico , si consideri approccio classico un campione casuale da una variabileÐ\ ß ] Ñß Ð\ ß ] Ñßá ß Ð\ ß ] Ñ" " # # 8 8

casuale normale bivariata . Per una proprietà di caratterizzazione della normale bivariata, perÐ\ß ] Ñ esclusivamentequesta distribuzione si ha che la del coefficiente di correlazione nullità

3BC œÒ\ß ] Ó

Ò\Ó Ò] Ó

CovVar Var

implica l'indipendenza delle componenti marginali e . Dunque la verifica dell'indipendenza si riduce alla verifica\ ]

dell'ipotesi contro .L À œ ! L À Á !! BC " BC3 3

• Il test del fornisce il test basato sul rapporto delle verosimiglianze rapporto di correlazione campionario

X œ 8 #V

" V

BC

BC#

che sotto ipotesi di base si distribuisce come . Si noti inoltre che .X µ > J œ X µ J8# "ß8##

• Evidentemente, della realizzazione di portano al rifiuto dell'ipotesi di base.valori elevati J

Page 333: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

TEST PER L'INDIPENDENZA

Esempio. Si sono considerate le misure (in metri) fatte nel lancio del peso e del giavellotto dalle 25 atlete partecipantialla gara di eptathlon femminile alle Olimpiadi del 1988 (Fonte: Lunn, A.D. e McNeil, D.R., 1991, Computer-interactive data analysis, Wiley, New York). I dati sono contenuti nel file e vengono letti e resiheptathlon.txt

disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\heptathlon.txt", header = T)> attach(d)

Il diagramma di dispersione con la funzione di nucleo viene ottenuto mediante il comando

> library(sm)> plot(Shot, Javelin, xlab = "Shot (meters)", ylab = "Javelin (meters)")> sm.density(d[, c(1, 2)], hcv(d[, c(1, 2)]), display = "slice",+ props = c(75, 50, 25), add = T)> title(main = "Kernel density estimation ('CV' h1 = 1.11, h2 = 2.64)")

Page 334: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

TEST PER L'INDIPENDENZA

Esempio (segue).

10 11 12 13 14 15 16

3638

4042

4446

Shot (meters)

Jave

lin (m

eter

s)

Kernel density estimation ('CV' h1 = 1.11, h2 = 2.64)

Page 335: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

TEST PER L'INDIPENDENZA

Esempio (segue). Il sistema di ipotesi contro L À œ ! L À Á !! BC " BC3 3 può essere verificato mediante il comandocor.test che fornisce l'implementazione del test per l'indipendenza.

> cor.test(Shot, Javelin, method = "pearson")

Pearson's product-moment correlation

data: Shot and Javelint = 1.3394, df = 23, p-value = 0.1935alternative hypothesis: true correlation is not equal to 095 percent confidence interval: -0.1411436 0.6003148sample estimates: cor0.2689888

Page 336: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

TEST PER L'ASSOCIAZIONE

• In un ambito generale verificare l'ipotesi di indipendenza basandosi su ipotesi su un non è possibile singoloparametro che descrive la dipendenza fra le componenti della coppia di variabili casuali.

• In questo caso ci si deve limitare a verificare la presenza o l'assenza di , ovvero dell'esistenza di una associazionerelazione di dipendenza diretta o inversa tra le variabili.

Page 337: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

TEST DI SPEARMAN

• Si consideri un campione casuale da una variabile casuale bivariata . IlÐ\ ß ] Ñß Ð\ ß ] Ñßá ß Ð\ ß ] Ñ Ð\ß ] Ñ" " # # 8 8

coefficiente di correlazione campionario di Spearman è il coefficiente di correlazione campionario calcolato suiranghi relativi a e sui ranghi relativi a .\ ß\ ßá ß\ ] ß ] ßá ß ]" # 8 " # 8

• Il coefficiente di correlazione di Spearman può essere ottenuto semplicemente rispetto alle realizzazioni diordinando] ß ] ßá ß ] V ßV ßá ßV \ ß\ ßá ß\" # 8 " # 8 " # 8 e successivamente alle realizzazioni di . Ilassegnando i ranghicoefficiente di correlazione di Spearman risulta dunque

3W 3#3œ"

8

œ 3V "# $Ð8 "Ñ

8Ð8 "Ñ 8 "

• La statistica 3W gode ovviamente di tutte le di un coefficiente di correlazione campionario. Evidentemente,proprietàvalori intorno allo zero denotano mancanza di associazione, mentre valori vicino ad o denotano presenza di" "

associazione monotona diretta e inversa.

• La statistica test 3W può essere dunque adottata per la verifica dell' .ipotesi di associazione

• La distribuzione di sotto ipotesi di base anche se non può essere espressa in forma chiusa.3W può essere tabulata

Page 338: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

TEST DI SPEARMAN

Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test diSpearman.

> cor.test(Shot, Javelin, method = "spearman")

Spearman's rank correlation rho

data: Shot and JavelinS = 2062.793, p-value = 0.3217alternative hypothesis: true rho is not equal to 0sample estimates: rho0.2066179

Page 339: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

TEST DI KENDALL

• Si consideri un campione casuale da una variabile casuale bivariata . IlÐ\ ß ] Ñß Ð\ ß ] Ñßá ß Ð\ ß ] Ñ Ð\ß ] Ñ" " # # 8 8

coefficiente di correlazione di Kendall coppie campionarie concordanti è dato dalla percentuale di (ovvero coppiecampionarie con lo stesso segno)

7 œ Ð\ \ Ñ Ð] ] Ñ#

8Ð8 "Ñ segn segn 3œ" 4œ3"

8" 8

4 3 4 3

dove segn .ÐBÑ œ # ÐBÑ ""Ó!ß∞Ò

• La statistica 7 gode delle di un indice di dipendenza. Evidentemente, valori intorno allo zero denotanoproprietàmancanza di associazione associazione monotona, mentre valori vicino ad o denotano presenza di diretta e" "

inversa.

• La statistica test 7 può essere dunque adottata per la verifica dell' .ipotesi di associazione

• La distribuzione di sotto ipotesi di base anche se non può essere espressa in forma chiusa.7 può essere tabulata

Page 340: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

42

TEST DI KENDALL

Esempio. Si considera di nuovo i dati dell'eptathlon. Il comando cor.test fornisce l'implementazione del test diKendall.

> cor.test(Shot, Javelin, method = "kendall")

Kendall's rank correlation tau

data: Shot and Javelinz = 1.0515, p-value = 0.293alternative hypothesis: true tau is not equal to 0sample estimates: tau0.1505017

Page 341: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

43

TEST PER L'INDIPENDENZA;#

• Se si considera un campionamento casuale da una , allora le osservazionivariabile qualitativa bivariata Ð\ß ] Ñ

campionarie sono le delle realizzazioni distinte della variabile. Si assumafrequenze osservate congiunte 8 Ð- ß . Ñ46 4 6

inoltre che la funzione di probabilità congiunta di sia data da ( ),Ð\ß ] Ñ :Ð- ß . Ñ œ 4 œ "ß #ßá ß <ß 6 œ "ß #ßá ß =4 6 461

mentre la distribuzione marginale di probabilità di sia data da ( ) con \ :Ð- Ñ œ 4 œ "ß #ßá ß <4 41 1 14 466œ"=œ e

quella di .] :Ð. Ñ œ 6 œ "ß #ßá ß = sia data da ( ) con 6 61 1 16 464œ"<œ

• Si è interessati a verificare l' di e , ovvero il sistema di ipotesi controindipendenza \ ] L À œ ß a4ß 6! 46 4 61 1 1

L À Á ß b4ß 6" 46 4 61 1 1 .

• Per verificare questo sistema di ipotesi si adotta la statistica test data daChi-quadrato per l'indipendenza

;#

4œ"

< =

6œ"

46 4 6#

4 6œ

Ð8 8 8 Î8Ñ

8 8 Î8

• Le quantità sono le sotto ipotesi d'indipendenza.8 8 Î84 6 frequenze attese stimate

• La distribuzione di non dipende dai valori e quindi il test è per grandi campioni “distribution-free” per; 1#4

grandi campioni. Sotto ipotesi di base, per la statistica test 8 Ä ∞ ; ;# #Ð<"ÑÐ="Ñ converge in distribuzione a una .

L'approssimazione è per campioni finiti se e se tutte le frequenze attese stimate sono maggiori di uno.valida 8 $!

• Se le si molto dalle , si ottengono determinazioni elevatefrequenze osservate discostano frequenze attese stimatedella statistica test che portano a l'ipotesi di base.respingere

Page 342: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

44

TEST PER L'INDIPENDENZA;#

Esempio. Durante uno studio della malattia di Hodgkin sono stati considerati 538 malati, ognuno dei quali è statoclassificato per tipologie istologiche (indicate con le sigle LP, NS, MC e LD) e per la risposta al trattamento dopo tremesi di cura (Fonte: Dunsmore, I.R. e Daly, F., 1987, , The OpenM345 Statistical methods, Unit 9: categorical dataUniversity, Milton Keynes). I dati sono contenuti nel file e vengono letti e resi disponibili mediante ihodgkin.txt

comandi

> d <- read.table("c:\\Rwork\\examples\\hodgkin.txt", header = T)> attach(d)

La tabella a doppia entrata viene ottenuta mediante il comando

> xtabs(Count ~ Type + Response) ResponseType None Part Pos LD 44 10 18 LP 12 18 74 MC 58 54 154 NS 12 16 68

mentre il diagramma a nastri condizionato viene ottenuto mediante il comando

> library(lattice)> barchart(xtabs(Count ~ Type + Response), ylab = "Hystological type",+ auto.key = list(title = "Response", cex = 0.8))

Page 343: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

45

TEST PER L'INDIPENDENZA;#

Esempio (segue).

Freq

Hys

tolo

gica

l typ

e

LD

LP

MC

NS

0 50 100 150 200 250

ResponseNonePartPos

Page 344: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

46

TEST PER L'INDIPENDENZA;#

Esempio (segue). .Il comando chisq.test fornisce l'implementazione del test per l'indipendenza;#

> chisq.test(xtabs(Count ~ Type + Response))

Pearson's Chi-squared test

data: xtabs(Count ~ Type + Response)X-squared = 75.8901, df = 6, p-value = 2.517e-14

Page 345: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

47

TEST ESATTO DI FISHER

• Estendendo i risultati del test di permutazione, condizionatamente alla realizzazione del campione, sotto ipotesi dibase (ovvero di indipendenza delle variabili) ogni partizione delle osservazioni relative alla seconda variabile in gruppidi numerosità è ugualmente probabile. Dunque, si può costruire un test di permutazione basato sulle8 ß 8 ßá ß 8" # < 8

8 8 á8" # < (ugualmente probabili) della prima variabile rispetto alla seconda variabile.permutazioni di livelli

• Il è basato sulla statistica test di permutazione che si ottiene calcolando la statistica sulletest esatto di Fisher ; ;# #

88 8 á8" # <

tabelle a doppia entrata, ognuna relativa ad una delle possibili permutazioni di gruppi.

• La distribuzione della statistica test sotto ipotesi di base , anche se ovviamente non è possibilepuò essere tabulataesprimerla in forma chiusa.

• Determinazioni elevate della statistica test portano a l'ipotesi di base.respingere

Page 346: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

48

TEST ESATTO DI FISHER

Esempio. In un famoso studio sono state considerate coppie di gemelli ognuna delle quali è stata classificata pertipologia (ovvero se la coppia è costituita da gemelli omozigoti o eterozigoti) e per propensione alla criminalità (ovverose entrambi i gemelli sono stati detenuti in prigione) (Fonte: Fisher, R. A., 1970, Statistical methods for researchworkers, quattordicesima edizione, Oliver & Boyd, London). I dati sono contenuti nel file e vengono lettitwins.txt

e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\twins.txt", header = T)> attach(d)

La tabella a doppia entrata viene ottenuta mediante il comando

> xtabs(Count ~ Type + Conviction) ConvictionType No Yes Dizygotic 15 2 Monozygotic 3 10

mentre il diagramma a nastri condizionato viene ottenuto mediante il comando

> library(lattice)> barchart(xtabs(Count ~ Type + Conviction), ylab = "Type",+ auto.key = list(title = "Conviction", cex = 0.8))

Page 347: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

49

TEST ESATTO DI FISHER

Esempio (segue).

Freq

Type

Dizygotic

Monozygotic

0 5 10 15

ConvictionNoYes

Page 348: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

50

TEST ESATTO DI FISHER

Esempio (segue). .Il comando fisher.test fornisce l'implementazione del test esatto di Fisher

> fisher.test(xtabs(Count ~ Type + Conviction))

Fisher's Exact Test for Count Data

data: xtabs(Count ~ Type + Conviction)p-value = 0.0005367alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval: 2.753438 300.682787sample estimates:odds ratio 21.30533

Page 349: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

51

LETTURE SUGGERITE

Azzalini, A. (1996) , Chapman and Hall, LondonStatistical inference .Bretz, F., Hothorn, T. e Westfall, P. (2011) Multiple comparisons using R, Chapman & Hall/CRC Press, Boca Raton.Chernick, M.R. (2008) Bootstrap methods, seconda edizione, Wiley, New York.Davison, A.C. e Hinkley, D.V. (1997) , Cambridge University Press,Bootstrap methods and their application

Cambridge.Dickhaus, T. (2014) Simultaneous statistical inference, Springer, New York.Efron, B. e Tibshirani, R. (1993) , Chapman & Hall, London.An introduction to the bootstrapFisher, R.A. (1970) , quattordicesima edizione, Oliver & Boyd, London.Statistical methods for research workersHajek, J. (1969) , Holden Day, San Francisco.´ Nonparametric statisticsHajek, J. e Šidak, Z. (1967) , Academic Press, New York.´ ´ Theory of rank testsHettmansperger, T.P. e McKean, J.W. (2011) , seconda edizione, Robust nonparametric statistical methods Chapman &

Hall/CRC Press, Boca Raton.Hollander, M., Wolfe, D.A. e Chicken, E. (2014) , terza edizione, Wiley, New York.Nonparametric statistical methodsLehmann, E.L. e Romano, J.P. (2005) , terza edizione, Springer, New York.Testing statistical hypothesisShao, J. e Tu, D. (1995) , Springer, New York.The jackknife and bootstrap

Page 350: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 9

REGRESSIONE

Page 351: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

REGRESSIONE

• Nella sua versione più semplice, ovvero quando si dispone di un e di una variabile di , ilregressore risposta modellostatistico di regressione struttura di dipendenza analizza la fra le due variabili.

• Il assume ovviamente un fra le variabili.modello di regressione lineare legame lineare

• I modelli di estendono il modello di regressione lineare. Casi particolari di questiregressione lineari generalizzatimodelli sono la e la .regressione di Poisson regressione logistica

Page 352: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

REGRESSIONE LINEARE

• Si consideri il modello di regressione lineare

] œ B 3 ! " 3 3" " X

dove sono variabili casuali indipendenti (detti ) tali che e .X X X X X 5" # 8 3 3#ß ßá ß Ò Ó œ ! Ò Ó œerrori E Var

• La del modello di regressione lineare è data quindi dalle relazioniformulazione alternativa

EÒ] Ó œ B3 ! " 3" "

e

VarÒ] Ó œ3#5

Page 353: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

REGRESSIONE LINEARE

• Le di e ottenute con il (che coincidono con le stime di stime metodo dei minimi quadrati massima" "! "

verosimiglianza normalitàassumendo la di ) risultanoX3

" "s sœ ! "C B– –

e

"s œ=

="BC

B#

• Indicando per semplicità di notazione stima e stimatore con lo stesso simbolo, si ha che e sono con" "s s! " corretti

varianze

VarÒ Ó œ Ð= s8=

"5

!

#

B# B

# B Ñ–#

e

VarÒs Ó œ8=

"5

"

#

B#

Page 354: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

REGRESSIONE LINEARE

• I risultano inoltrevalori stimati

C œ Bs s s3 ! " 3" "

mentre le quantità sono detti .C Cs3 3 residui

• Il parametro può essere stimato in modo mediante la varianza dei residui, ovvero5# corretto

= œ Ð"

8 #%#

3œ"

8 C C Ñs3 3#

Le stime di Var VarÒ Ó Ò Ós s" "! " e possono essere ottenute sostituendo =%# # al posto di .5

Page 355: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

REGRESSIONE LINEARE

• La delle osservazioni relative alla variabile di risposta può essere scomposta comevariabilità totale

" " "

8 8 8Ð Ð Ð

3œ" 3œ" 3œ"

8 8 8

C CÑ œ C C Ñ C CÑs s3 3# # #

3 3– –

dove la prima componente rappresenta la e la seconda componente la variabilità degli errori variabilità dovuta almodello lineare.

• Di conseguenza, la quantità

V œ " Ð Ð

Ð ÐBC# 3œ" 3œ"

8 8

3œ" 3œ"8 8

C CÑ C C Ñs s

C CÑ C CÑœ3 3

# #

3 3# #

3–– –

rappresenta la rispetto alla variabilità totale e rappresentapercentuale di variabilità spiegata dalla relazione lineareil cosiddetto .coefficiente di determinazione lineare

• Ovviamente, risulta e il valore uno indica la presenza di perfetta. Si dimostra facilmente cheV − Ò!ß "ÓBC# linearità

V œ <BC BC# # . Evidentemente, ci può essere una relazione (non lineare) perfetta fra variabile di risposta e regressore per

cui V œ !ÞBC#

Page 356: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

REGRESSIONE LINEARE

Esempio. Si dispone delle osservazioni di distanze lineari e stradali fra località a Sheffield (in km) (Fonte: Gilchrist,W., 1984, , Wiley, New York, p.5Statistical modelling ). La variabile di risposta è la distanza stradale, mentre ilregressore è la distanza lineare. I dati sono contenuti nel file e vengono letti e resi disponibiliroaddistance.txt

mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\roaddistance.txt", header = T)> attach(d)

Le stime dei parametri del modello di regressione lineare vengono ottenute mediante il seguente comando

> lm(Road ~ Linear)

Call:lm(formula = Road ~ Linear)

Coefficients:(Intercept) Linear 0.3791 1.2694

Page 357: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

REGRESSIONE LINEARE

Esempio (segue). Il diagramma di dispersione con retta di regressione stimata viene ottenuto mediante i seguenticomandi

> plot(Linear, Road, xlab = "Linear distance (km)",+ ylab = "Road distance (km)", main = "Scatter plot")> abline(lm(Road ~ Linear))

Page 358: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

REGRESSIONE LINEARE

Esempio (segue).

5 10 15 20 25

1015

2025

3035

40

Scatter plot

Linear distance (km)

Roa

d di

stan

ce (k

m)

Page 359: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

REGRESSIONE LINEARE

• Oltre alla costruzione dell'indice di determinazione, i permettono di considerare le perresidui diagnostiche graficheesaminare la validità della relazione linerare.

• Il , che fornisce il dei rispetto ai , dovrebbediagramma di Anscombe diagramma cartesiano residui valori stimatipresentare una disposizione casuale dei punti se effettivamente il modello lineare è valido. Questo grafico viene ancheriportato con le radici dei valori assoluti dei residui standardizzati.

• Il , che fornisce il dei diagramma quantile-quantile diagramma cartesiano residui standardizzati e ordinatirispetto ai , dovrebbe avere una disposizione dei punti lungo laquantili della distribuzione normale standardizzatabisettrice se l'ipotesi di normalità per gli errori è valida.

• Il consente di verificare l' della rimozione di diagramma con le distanze di Cook impatto ogni singola osservazionesulle stime dei parametri e quindi l' delle singole osservazioni.influenza

Page 360: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

REGRESSIONE LINEARE

Esempio. Si considerano di nuovo i dati relativi alle distanze stradali. I diagrammi di Anscombe, il diagrammaquantile-quantile e il diagramma con le distanze di Cook vengono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Road ~ Linear), which = c(1:4), add.smooth = F)> par(mfrow = c(1, 1))

Page 361: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

REGRESSIONE LINEARE

Esempio (segue).

10 15 20 25 30 35

-20

24

Fitted values

Res

idua

ls

Residuals vs Fitted11 17

9

-2 -1 0 1 2

-1.0

0.0

1.0

2.0

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q1711

9

10 15 20 25 30 35

0.0

0.4

0.8

1.2

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location1711

9

5 10 15 20

0.0

0.1

0.2

0.3

0.4

0.5

Obs. number

Coo

k's

dist

ance

Cook's distance17

2012

Page 362: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

REGRESSIONE LINEARE

Esempio (segue). I punti che hanno maggiore influenza possono essere evidenziati sul diagramma di dispersionemediante i seguenti comandi. Di seguito è anche riportato il grafico della stima della funzione di regressione basatasulla regressione lineare locale.

> plot(Linear, Road, xlab = "Linear distance (km)",+ ylab = "Road distance (km)", main = "Scatter plot")> abline(lm(Road ~ Linear))> text(x = Linear[9] + 0.3, y = Road[9], labels = "9", adj=0)> text(x = Linear[11] + 0.3, y = Road[11], labels = "11", adj=0)> text(x = Linear[17] - 0.5, y = Road[17] - 1, labels = "17", adj=0)

Page 363: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

REGRESSIONE LINEARE

Esempio (segue).

5 10 15 20 25

1015

2025

3035

40

Scatter plot

Linear distance (km)

Roa

d di

stan

ce (k

m)

911

17

Page 364: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

REGRESSIONE LINEARE

Esempio (segue). Il grafico della stima della funzione di regressione basata sulla regressione lineare locale è ottenutomediante i seguenti comandi.

> library(sm)> plot(Linear, Road, xlab = "Linear distance (km)",+ ylab = "Road distance (km)", main = "Scatter plot")> sm.regression(Linear, Road, method = "df", add = T)

Page 365: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

REGRESSIONE LINEARE

Esempio (segue).

5 10 15 20 25

1015

2025

3035

40

Scatter plot

Linear distance (km)

Roa

d di

stan

ce (k

m)

Page 366: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

REGRESSIONE LINEARE

• Per quanto riguarda la , supponendo la normalità degli errori e di conseguenza la normalità diverifica delle ipotesi] ß ] ßá ß ]" # 8, la viene verificata considerando il sistema di ipotesi validità del modello lineare L À œ !! "" controL À Á !" "" .

• Questo sistema di ipotesi viene verificato attraverso la statistica test fornita dal rapporto delle verosimiglianze

J œ Ð8 #ÑV

" VBC#

BC#

che si distribuisce come una variabile casuale di Snedecor .J"ß8#

• Una simile verifica di ipotesi può essere condotta anche su ."!

Page 367: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

REGRESSIONE LINEARE

Esempio (segue). Si considerano di nuovo i dati relativi alle distanze stradali. L'analisi relativa alla verifica delleipotesi viene implementata mediante il seguente comando

> summary(lm(Road ~ Linear))

Call:lm(formula = Road ~ Linear)

Residuals: Min 1Q Median 3Q Max-2.8231 -1.8604 -0.2011 1.0263 4.3416

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.37908 1.34401 0.282 0.781Linear 1.26943 0.07617 16.665 2.19e-12 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.436 on 18 degrees of freedomMultiple R-Squared: 0.9391, Adjusted R-squared: 0.9358F-statistic: 277.7 on 1 and 18 DF, p-value: 2.187e-12

Page 368: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

REGRESSIONE LINEARE

Esempio (segue). L'analisi relativa alla verifica delle ipotesi con il modello senza intercetta viene implementatamediante il seguente comando

> summary(lm(Road ~ -1 + Linear))

Call:lm(formula = Road ~ -1 + Linear)

Residuals: Min 1Q Median 3Q Max-2.994 -1.728 -0.097 1.029 4.489

Coefficients: Estimate Std. Error t value Pr(>|t|)Linear 1.28907 0.03012 42.8 <2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.376 on 19 degrees of freedomMultiple R-Squared: 0.9897, Adjusted R-squared: 0.9892F-statistic: 1832 on 1 and 19 DF, p-value: < 2.2e-16

Page 369: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI

• Anche se la relazione fra variabile di risposta e regressore , ci si può spesso ricondurre alla linearitànon è lineareapplicando alle osservazioni opportune.trasformazioni monotone

• Se e sono trasformazioni monotone, il per le osservazioni trasformate risultaK L modello di regressione lineare

KÐ] Ñ œ LÐB Ñ 3 ! " 3 3" " X

• La relazione fra la variabile di risposta e il regressore è data dalla funzione C œ K Ð" " "! " LÐBÑÑ.

Page 370: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI

Esempio. Si dispone delle osservazioni della percentuale di ricordi nel tempo (in minuti) relativi ad un esperimentopsicometrico su un soggetto (Fonte: Mosteller, F., Rourke, R.E.K. e Thomas, G.B. (1970) Probability with statisticalapplications, seconda edizione, Addison-Wesley, Reading, p.383). La variabile di risposta è la percentuale di ricordi,mentre il regressore è il tempo. I dati sono contenuti nel file e vengono letti e resi disponibili mediante imemory.txt

comandi

> d <- read.table("c:\\Rwork\\examples\\memory.txt", header = T)> attach(d)

Page 371: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI

Esempio (segue). Da una analisi del diagramma di dispersione è evidente che una trasformazione logaritmo sulleosservazioni relative al regressore può essere opportuna. L'analisi relativa al modello di regressione lineare con levariabili trasformate viene ottenuta mediante il seguente comando

> summary(lm(Memory ~ log(Time)))

Call:lm(formula = Memory ~ log(Time))

Residuals: Min 1Q Median 3Q Max-0.036077 -0.015330 -0.006415 0.017967 0.037799

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.846415 0.014195 59.63 3.65e-15 ***log(Time) -0.079227 0.002416 -32.80 2.53e-12 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.02339 on 11 degrees of freedomMultiple R-Squared: 0.9899, Adjusted R-squared: 0.989F-statistic: 1076 on 1 and 11 DF, p-value: 2.525e-12

Page 372: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI

Esempio (segue). Il diagramma di dispersione con la relativa funzione di regressione si può ottenere mediante iseguenti comandi

> plot(Time, Memory, xlab = "Time (minutes)", ylab = "Memory retention",+ main = "Scatter plot")> lines(seq(1, 11000, 1),+ predict(lm(Memory ~ log(Time)), data.frame(Time = seq(1, 11000, 1))))

Page 373: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

REGRESSIONE LINEARE CON TRASFORMAZIONI DELLE VARIABILI

Esempio (segue).

0 2000 4000 6000 8000 10000

0.2

0.4

0.6

0.8

Scatter plot

Time (minutes)

Mem

ory

rete

ntio

n

Page 374: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

REGRESSIONE LINEARE E TEST DI STUDENT A DUE CAMPIONI>

• La struttura inferenziale basata su di numerosità e con ) due campioni casuali indipendenti ( da8 8 8 œ 8 8" # " #

una variabile casuale a due livelli differenti e di un fattore, tali che ] - - ] ]" # - -E EÒ Ó œ Ò Ó œ" #

. ." #, eVar VarÒ Ó œ Ò Ó œ] ]- -" #

5#, può essere riportata ad un modello di .regressione lineare

• Se ] ß ] ßá ß ]" # 8 sono le osservazioni relative al campione misto, allora si può scrivere il modello lineare

EÒ] Ó œ B3 ! " 3" "

e

VarÒ] Ó œ3#5

dove , , mentre " . " . .! " " # "œ œ B ß B ßá ß B" # 8 sono i valori assunti da un che vale uno seregressore binariol'osservazione è relativa al secondo livello del fattore e zero altrimenti.

• L'ipotesi di omogeneità delle medie, supponendo la normalità di , viene verificata considerando il] ß ] ßá ß ]" # 8

sistema di ipotesi L À œ ! L À Á !! " " "" " contro . Di conseguenza le tecniche viste in precedenza possono essereapplicate anche in questo caso.

Page 375: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

REGRESSIONE LINEARE E TEST DI STUDENT A DUE CAMPIONI>

Esempio. Si considera di nuovo i dati relativi alle sfere di acciaio. Il sistema di ipotesi contro L À œ L À Á! " # " " #. . . .

può essere verificato mediante il seguente comando

> summary(lm(Diameter ~ Line))

Call:lm(formula = Diameter ~ Line)

Residuals: Min 1Q Median 3Q Max-0.6360 -0.2090 0.0150 0.2915 0.5540

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 1.1940 0.1156 10.327 5.43e-09 ***LineL2 0.2120 0.1635 1.297 0.211---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3656 on 18 degrees of freedomMultiple R-Squared: 0.08541, Adjusted R-squared: 0.0346F-statistic: 1.681 on 1 and 18 DF, p-value: 0.2112

Page 376: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

MODELLI LINEARI GENERALIZZATI

• Una generalizzazione del modello di regressione lineare può essere ottenuta assumendo una distribuzione nonnormale per e considerando una opportuna tale che] ß ] ßá ß ] 1" # 8 funzione legame

1Ð Ò] ÓÑ œ BE 3 ! " 3" "

La classe dei è basata appunto su questa relazione.modelli lineari generalizzati

• Il modello di regressione lineare è un della classe quando le variabili di risposta sono e ècaso particolare normali 1

la funzione . Il modello lineare generalizzato consente di gestire in modo più appropriato identità variabili di rispostache sono , o .asimmetriche discrete binarie

• Per ogni distribuzione che si assume per la variabile di risposta esiste una , ovvero unafunzione legame canonicaparametrizzazione naturale del modello.

• In generale ottenere in forma chiusa le e di e e dellenon è possibile stime di massima verosimiglianza " " " "s s! " ! "

relative varianze. Quindi si deve ricorrere a per ottenere queste stime.procedure numeriche

Page 377: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

MODELLI LINEARI GENERALIZZATI

• L'analisi per la validità del modello si basa ancora sul sistema di ipotesi L À œ ! L À Á !! " " "" " contro .

• Questo sistema di ipotesi è basato sulla , che è una statistica test basata sul metodo del rapporto delledevianzaverosimiglianze. La statistica test si distribuisce per grandi campioni come una variabile casuale con opportuni gradi;#

di libertà.

• La devianza si può scomporre in e .devianza sotto ipotesi di base devianza residua

• Una valore elevato della rispetto ai rispettivi gradi di libertà è indice di devianza residua super dispersione, ovverodella presenza di una rispetto a quella prevista dal modello linearevariabilità più accentuata delle stime generalizzato. Questo fenomeno può essere gestito mediante l'uso di tecniche basate sulla per laquasi-verosimiglianzastima della variabilità degli stimatori .di e " "! "

Page 378: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

REGRESSIONE DI POISSON

• Quando le variabili di risposta prendono valori sugli interi positivi è conveniente assumere che ] ß ] ßá ß ]" # 8 sianovariabli casuali di Poisson.

• Questo caso particolare del modello lineare generalizzato costituisce la .regressione di Poisson

• La è la , ovvero si hafunzione legame canonica funzione logaritmo

log EÐ Ò] ÓÑ œ B3 ! " 3" "

Page 379: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

REGRESSIONE DI POISSON

Esempio. Si dispone delle osservazioni relative alla lunghezza di pezzi di stoffa (in metri) e del relativo numero didifetti (Fonte: ). LaBissell, A.F., 1972, A negative binomial model with varying element sizes, , 435-441Biometrika 59variabile di risposta è il numero di difetti riscontrati, mentre il regressore è la lunghezza. I dati sono contenuti nel fileclothes.txt e vengono letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\clothes.txt", header = T)> attach(d)

Page 380: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

REGRESSIONE DI POISSON

Esempio (segue). L'analisi relativa al modello di regressione di Poisson viene ottenuta mediante il seguente comando

> summary(glm(Defects ~ Length, poisson))

Call:glm(formula = Defects ~ Length, family = poisson)

Deviance Residuals: Min 1Q Median 3Q Max-2.74127 -1.13312 -0.03904 0.66179 3.07446

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) 0.9717506 0.2124693 4.574 4.79e-06 ***Length 0.0019297 0.0003063 6.300 2.97e-10 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

Null deviance: 103.714 on 31 degrees of freedomResidual deviance: 61.758 on 30 degrees of freedomAIC: 189.06

Number of Fisher Scoring iterations: 4

Page 381: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

REGRESSIONE DI POISSON

Esempio (segue). L'analisi della devianza residua indica la presenza di super dispersione e quindi è convenienteimpiegare un metodo di quasi-verosimiglianza, ovvero

> summary(glm(Defects ~ Length, quasipoisson))

Call:glm(formula = Defects ~ Length, family = quasipoisson)

Deviance Residuals: Min 1Q Median 3Q Max-2.74127 -1.13312 -0.03904 0.66179 3.07446

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 0.9717506 0.3095033 3.140 0.003781 **Length 0.0019297 0.0004462 4.325 0.000155 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for quasipoisson family taken to be 2.121965)

Null deviance: 103.714 on 31 degrees of freedomResidual deviance: 61.758 on 30 degrees of freedomAIC: NA

Number of Fisher Scoring iterations: 4

Page 382: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

REGRESSIONE DI POISSON

Esempio (segue). La precedente elaborazione indica la validità del modello. Il diagramma di dispersione con la relativafunzione legame stimata viene ottenuto mediante i seguenti comandi

> plot(Length, Defects, xlab = "Cloth length (m)", ylab = "Defects",+ main = "Scatter plot")> lines(seq(0, 1000, 1),+ exp(predict(glm(Defects ~ Length, quasipoisson),+ data.frame(Length = seq(0, 1000, 1)))))

Page 383: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

REGRESSIONE DI POISSON

Esempio (segue).

200 400 600 800

05

1015

2025

Scatter plot

Cloth length (m)

Def

ects

Page 384: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

REGRESSIONE LOGISTICA

• Quando le variabili di risposta sono binarie è conveniente assumere che ] ß ] ßá ß ]" # 8 siano variabli casuali diBernoulli.

• Questo caso particolare del modello lineare generalizzato costituisce la .regressione logistica

• La è la , ovvero si hafunzione legame canonica funzione logit

logE

E Ò] Ó

" Ò] Óœ B

3

3! " 3" "

Page 385: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

REGRESSIONE LOGISTICA

Esempio. Si dispone delle osservazioni relative alla presenza di danneggiamento dei pannelli di protezione e delletemperature (in gradi Fahrenheit) per alcuni voli di shuttle (Fonte: Dalal, S.R., Fowlkes, E.B. e Hoadley, B. (1989) Riskanalysis of the space shuttle: pre- prediction of failure, ,challenger Journal of the American Statistical Association 84945-957). La variabile di risposta è la presenza di danneggiamento, mentre il regressore è la temperatura. I dati sonocontenuti nel file e vengono letti e resi disponibili mediante i comandishuttle.txt

> d <- read.table("c:\\Rwork\\examples\\shuttle.txt", header = T)> attach(d)

Page 386: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

REGRESSIONE LOGISTICA

Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando

> summary(glm(Failure ~ Temp, binomial))

Call:glm(formula = Failure ~ Temp, family = binomial)

Deviance Residuals: Min 1Q Median 3Q Max-1.0611 -0.7613 -0.3783 0.4524 2.2175

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) 15.0429 7.3786 2.039 0.0415 *Temp -0.2322 0.1082 -2.145 0.0320 *---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 28.267 on 22 degrees of freedomResidual deviance: 20.315 on 21 degrees of freedomAIC: 24.315

Number of Fisher Scoring iterations: 5

Page 387: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

REGRESSIONE LOGISTICA

Esempio (segue). La precedente elaborazione indica una certa adeguatezza del modello. Il diagramma di dispersionecon la relativa funzione legame stimata viene ottenuto mediante i seguenti comandi

> plot(Temp, Failure, xlab = "Temperature (°F)", ylab = "Failure",+ main = "Scatter plot")> lines(seq(50, 90, 0.1),+ predict(glm(Failure ~ Temp, binomial),+ data.frame(Temp = seq(50, 90, 0.1)), type = "response"))

Page 388: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

REGRESSIONE LOGISTICA

Esempio (segue).

55 60 65 70 75 80

0.0

0.2

0.4

0.6

0.8

1.0

Scatter plot

Temperature (°F)

Failu

re

Page 389: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

REGRESSIONE LOGISTICA

• La regressione logistica può essere applicata anche quando esistono solo - ß - ßá ß -" # < livelli distinti del regressore(che potrebbero essere anche i di classi opportune) per i due livelli ( della variabile divalori centrali . œ !ß . œ "Ñ" #

risposta e quindi le osservazioni possono essere organizzate in una tabella a doppia entrata con righe e colonne.< #

• In questo caso la regressione logistica può essere applicata considerando le variabili di risposta8 Î8 ß 8 Î8 ßá ß 8 Î8"# " ## # <# <, ovvero le della variabile di risposta per ogni livello del regressore,proporzioniottenendo il modello

logE

E Ò8 Î8 Ó

" Ò8 Î8 Óœ -

4# 4

4# 4! " 4" "

Page 390: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

REGRESSIONE LOGISTICA

Esempio. Si dispone delle osservazioni relative alla percentuale di un gruppo di adolescenti polacche con menarca pervari livelli d'età (Fonte: ). LaMorgan, B.J.T. (1989) , Chapman and Hall, London, p.7Analysis of quantal response datavariabile di risposta è la percentuale di un gruppo di adolescenti polacche che hanno avuto il menarca, mentre ilregressore è l'età. I dati sono contenuti nel file e vengono letti e resi disponibili mediante i comandimenarche.txt

> d <- read.table("c:\\Rwork\\examples\\menarche.txt", header = T)> attach(d)

Page 391: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

42

REGRESSIONE LOGISTICA

Esempio (segue). L'analisi relativa al modello di regressione logistica viene ottenuta mediante il seguente comando

> Proportion <- cbind(Menarche, Total - Menarche)> summary(glm(Proportion ~ Age, binomial))

Call:glm(formula = Proportion ~ Age, family = binomial)

Deviance Residuals: Min 1Q Median 3Q Max-2.0363 -0.9953 -0.4900 0.7780 1.3675

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) -21.22639 0.77068 -27.54 <2e-16 ***Age 1.63197 0.05895 27.68 <2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 3693.884 on 24 degrees of freedomResidual deviance: 26.703 on 23 degrees of freedomAIC: 114.76

Number of Fisher Scoring iterations: 4

Page 392: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

43

REGRESSIONE LOGISTICA

Esempio (segue). La precedente elaborazione indica la validità del modello. Il diagramma di dispersione con la relativafunzione legame stimata viene ottenuto mediante i seguenti comandi

> plot(Age, Menarche / Total, xlab = "Age (years)",+ ylab = "Proportion of menstruated girls",+ main = "Scatter plot")> lines(seq(9, 18, 0.1),+ predict(glm(Proportion ~ Age, binomial),+ data.frame(Age = seq(9, 18, 0.1)), type = "response"))

Page 393: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

44

REGRESSIONE LOGISTICA

Esempio (segue).

10 12 14 16

0.0

0.2

0.4

0.6

0.8

1.0

Scatter plot

Age (years)

Pro

porti

on o

f men

stru

ated

girl

s

Page 394: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

45

LETTURE SUGGERITE

Agresti, A. (2013) Categorical data analysis, terza edizione, Wiley, New York.Agresti, A. (2007) An introduction to categorical data analysis, seconda edizione, Wiley, New York.Agresti, A. (2015) Foundations of linear and generalized linear models, Wiley, New York.Atkinson, A. e Riani, M. (2000) , Springer-Verlag, New York.Robust diagnostic regression analysisBelsley, D.A., Kuh, E. e Welsch, R.E. (1980) , Wiley, New York.Regression diagnosticsChatterjee, S. e Simonoff, J.S. (2013) Handbook of regression analysis, Wiley, New York.Cook, R.D. e Weisberg, S. (1999) , Wiley, New York.Applied regression including computing and graphicsMcCullagh, P. e Nelder, J.A. (1989) , seconda edizione, Chapman and Hall, London.Generalized linear modelsSheather, S.J. (2009) A modern approach to regression with R, Springer, New York.Simonoff, J.S. (2003) Analyzing categorical data, Springer, New York.Weisberg, S. (2014) , Wiley, New York.Applied linear regression

Page 395: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

1

CAPITOLO 10

REGRESSIONE MULTIPLA

Page 396: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

2

REGRESSIONE MULTIPLA

• Il analizza la fra un insieme di e di unamodello di regressione multipla struttura di dipendenza regressorivariabile di .risposta

• Nella versione più semplice, il assume un fra le variabili. Questomodello di regressione multipla legame linearemodello include come caso particolare anche l' .analisi della varianza

• I modelli di possono essere considerati anche quando esistono più regressori.regressione lineari generalizzati

Page 397: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

3

REGRESSIONE LINEARE MULTIPLA

• Quando la variabile di risposta dipende da regressori si considera il modello di : regressione lineare multipla

] œ B B á B 3 ! " 3" # 3# : 3: 3" " " " X

dove sono variabili casuali indipendenti (detti ) tali che e .X X X X X 5" # 8 3 3#ß ßá ß Ò Ó œ ! Ò Ó œerrori E Var

• La del modello di è data quindi dalle relazioniformulazione alternativa regressione lineare multipla

EÒ] Ó œ B B á B3 ! " 3" # 3# : 3:" " " "

e

VarÒ] Ó œ3#5

• In questo modello esistono quindi Ð: #Ñ parametri.

Page 398: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

4

REGRESSIONE LINEARE MULTIPLA

• Sia " œ Ð 8 ‚ Ð: "Ñ"! " :ß ßá ß Ñ Ð: "Ñ" " T il vettore dei parametri di ordine . Inoltre, sia X la matrice di ordine delle osservazioni relative ai regressori e in cui la prima colonna è composta da unità (ovvero, in pratica si è aggiuntoun ulteriore regressore che assume valori pari all'unità). Infine, sia il vettore delle determinazioniy œ ÐC ß C ßá ß C Ñ" # 8

T

delle variabili casuali .] ß ] ßá ß ]" # 8

• La di ottenuta con il (che coincide con le stima di stima metodo dei minimi quadrati massima verosimiglianza"

assumendo la degli errori) risultanormalità

"s œ Ð ÑX X X yT T"

• Indicando per semplicità di notazione stima e stimatore con lo stesso simbolo, risulta con matrice di"s correttovarianza-covarianza

VarÒ Ó œ"s Ð Ñ5# X XT "

Page 399: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

5

REGRESSIONE LINEARE MULTIPLA

• I risultano inoltrevalori stimati

C œ B B á Bs s s s s3 ! " # :3" 3# 3:" " " "

mentre le quantità sono i .ÐC C Ñs3 3 residui

• Il parametro può essere stimato in modo mediante la varianza dei residui, ovvero5# corretto

= œ Ð"

8 : "%#

3œ"

8 C C Ñs3 3#

La stima di VarÒ Ó"s = può essere dunque ottenuta sostituendo %# # al posto di .5

• Anche per il modello di regressione multipla il viene definito comecoefficiente di determinazione

V œ " Ð Ð

Ð ÐBC# 3œ" 3œ"

8 8

3œ" 3œ"8 8

C CÑ C C Ñs s

C CÑ C CÑœ3 3

# #

3 3# #

3–– –

Page 400: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

6

REGRESSIONE LINEARE MULTIPLA

• Per quanto riguarda la , supponendo la normalità degli errori e di conseguenza la normalità diverifica delle ipotesi] ß ] ßá ß ]" # 8, la viene basata sul sistema di ipotesi validità del modello lineare L À œ œ á œ œ !! " # :" " " controL À Á !ß b4" 4" .

• Questo sistema di ipotesi viene verificato attraverso la statistica test fornita dal rapporto delle verosimiglianze

J œ8 :

: " " V

VBC#

BC#

che si distribuisce come una variabile casuale di Snedecor .J:"ß8:

• Inoltre, la verifica di ipotesi su uno specifico parametro , ovvero "4 L À œ ! L À Á !! 4 " 4" " contro , viene verificatoattraverso la statistica test fornita dal rapporto delle verosimiglianze

X œs

= @

"4

44%dove è l'elemento di posizione sulla diagonale della matrice @ 4 œ44 V Ð ÑX XT ".

• La statistica test X si distribuisce come .X µ >8:

Page 401: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

7

REGRESSIONE LINEARE MULTIPLA

• Quando si è verificato che alcuni parametri del modello sono , si cerca di costruire un modello più nulli semplice(ovvero con meno regressori) di quello iniziale. Evidentemente, se si alcuni parametri del modello dieliminano regressione il modello diventa , ma la sua ai dati .più semplice adeguatezza diminuisce

• In generale, quando si ipotizza un modello con parametri il è dato da5 ) ) )" # 5ß ßá ß , criterio di Akaike

AIC œ #Ò PÐs s slog ) ) )" # 5ß ßá ß Ñ 5Ó

dove è la funzione di verosimiglianza relativa al modello.PÐ) ) )" # 5ß ßá ß Ñ

• Il criterio AIC è in effetti il massimo della log-verosimiglianza penalizzato dal numero di parametri presenti nelmodello compromesso stesso (il tutto moltiplicato da una costante negativa), ovvero un indice finalizzato a valutare il fra adeguatezza e semplicità del modello.

• Quando si deve dunque scegliere fra più modelli, il modello che si preferisce è quindi quello che fornisce il valoreminimo del criterio AIC.

Page 402: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

8

REGRESSIONE LINEARE MULTIPLA

Esempio. Si dispone delle osservazioni del numero di specie di uccelli in “isole” di vegetazione nel nord delle Ande(Fonte: Vuilleumier, F., 1970, Insular biogeography in continental regions. I. The northern Andes of South America,American Naturalist , 373-388104 ). I regressori sono l'area dell'isola di vegetazione (in migliaia di km quadrati), la suaelevazione (in km), la sua distanza dall'equatore (in km) e la sua distanza dall'isola di vegetazione più vicina (in km). Idati sono contenuti nel file e vengono letti e resi disponibili mediante i comandiparamo.txt

> d <- read.table("c:\\Rwork\\examples\\paramo.txt", header = T)> attach(d)

La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando

> pairs(d, main = "Scatter-plot matrix")

Page 403: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

9

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

Species

0.0 1.0 2.0 0 400 1000

515

2535

0.0

1.0

2.0

Area

Elevation

0.5

1.5

040

010

00

EquatorDistance

5 15 25 35 0.5 1.0 1.5 2.0 20 40 60 80

2040

6080

NearestDistance

Scatter-plot matrix

Page 404: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

10

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). L'analisi del modello lineare con tutti i regressori viene implementata mediante il seguente comando

> summary(lm(Species ~ Area + Elevation + EquatorDistance + NearestDistance))

Call:lm(formula = Species ~ Area + Elevation + EquatorDistance + NearestDistance)

Residuals: Min 1Q Median 3Q Max-10.66596 -3.40900 0.08345 3.55920 8.23565

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 27.889386 6.181843 4.511 0.00146 **Area 5.153864 3.098074 1.664 0.13056Elevation 3.075136 4.000326 0.769 0.46175EquatorDistance -0.017216 0.005243 -3.284 0.00947 **NearestDistance 0.016591 0.077573 0.214 0.83541---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.705 on 9 degrees of freedomMultiple R-Squared: 0.7301, Adjusted R-squared: 0.6101F-statistic: 6.085 on 4 and 9 DF, p-value: 0.01182

Page 405: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

11

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). La semplificazione automatica del modello mediante il criterio AIC viene implementata mediante ilseguente comando

> summary(step(lm(Species ~ Area + Elevation + EquatorDistance ++ NearestDistance)))Start: AIC=57.09Species ~ Area + Elevation + EquatorDistance + NearestDistance

Df Sum of Sq RSS AIC- NearestDistance 1 2.06 406.65 55.16- Elevation 1 26.57 431.15 55.98<none> 404.59 57.09- Area 1 124.41 529.00 58.85- EquatorDistance 1 484.71 889.30 66.12

Step: AIC=55.16Species ~ Area + Elevation + EquatorDistance

Df Sum of Sq RSS AIC- Elevation 1 26.06 432.71 54.03<none> 406.65 55.16- Area 1 133.51 540.15 57.14- EquatorDistance 1 537.39 944.04 64.96

Page 406: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

12

REGRESSIONE LINEARE MULTIPLAEsempio (segue).

Step: AIC=54.03Species ~ Area + EquatorDistance

Df Sum of Sq RSS AIC<none> 432.71 54.03- Area 1 342.64 775.35 60.20- EquatorDistance 1 557.23 989.94 63.62

Call:lm(formula = Species ~ Area + EquatorDistance)

Residuals: Min 1Q Median 3Q Max-10.637 -4.396 0.899 4.084 7.273

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 30.797969 4.648155 6.626 3.73e-05 ***Area 6.683038 2.264403 2.951 0.01318 *EquatorDistance -0.017057 0.004532 -3.764 0.00313 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.272 on 11 degrees of freedomMultiple R-Squared: 0.7113, Adjusted R-squared: 0.6588F-statistic: 13.55 on 2 and 11 DF, p-value: 0.001077

Page 407: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

13

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cookdel modello ridotto vengono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Species ~ Area + EquatorDistance), which = c(1:4), add.smooth = FALSE)> par(mfrow = c(1, 1))

Page 408: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

14

REGRESSIONE LINEARE

Esempio (segue).

10 15 20 25 30 35

-10

-50

5

Fitted values

Res

idua

ls

Residuals vs Fitted

6

12

14

-1 0 1

-2-1

01

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q

6

12

14

10 15 20 25 30 35

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location6

1214

2 4 6 8 10 12 14

0.0

0.2

0.4

0.6

0.8

Obs. number

Coo

k's

dist

ance

Cook's distance6

1114

Page 409: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

15

REGRESSIONE LINEARE MULTIPLA

• Al fine di del modello iniziale di regressione multipla, può essere utile consideraremigliorare l'adeguatezzainterazioni trasformate o ulteriori dei regressori originali.

• Ad esempio, un modello iniziale con due regressori

EÒ] Ó œ B B3 ! " 3" # 3#" " "

potrebbe essere esteso considerando l' fra le variabiliinterazione

EÒ] Ó œ B B B B3 ! " 3" # 3# $ 3" 3#" " " "

e introducendo di fatto un (dato dal prodotto dei due regressori originali).nuovo regressore

• Il modello iniziale potrebbe essere ulteriormente esteso considerando effetti non lineari dei regressori come nelseguente modello che introduce dipendenze quadratiche

EÒ] Ó œ B B B B3 ! " 3" # 3# $ %3" 3## #" " " " "

considerando di fatto due (dati dai quadrati dei due regressori originali).nuovi regressori

• Evidentemente, interazioni e dipendenze non lineari potrebbero essere introdotte congiuntamente

EÒ] Ó œ B B B B B B3 ! " 3" # 3# $ 3" 3# % &3" 3## #" " " " " "

considerando di fatto tre .nuovi regressori

Page 410: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

16

REGRESSIONE LINEARE MULTIPLA

• I costruiti in questo modo sono comunque nei parametri e possono essere trattati come visto inmodelli estesi lineariprecedenza.

• Tuttavia, i nuovi modelli del modello originale e possono perdono la semplicità introdurre difficoltà diinterpretazione dei parametri.

• Modelli più devono dunque essere adottati con .complessi cautela

Page 411: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

17

REGRESSIONE LINEARE MULTIPLA

Esempio. Si dispone delle osservazioni delle temperature medie del mese di gennaio (in °F) nel periodo 1931-1960 inalcune città degli Stati Uniti (Fonte: Peixoto, J.L., 1990, A property of well-formulated polynomial regression models,American Statistician , 26-3044 ). I regressori sono la latitudine e la longitudine della città. I dati sono contenuti nel filetemperature.txt e vengono letti e resi disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\temperature.txt", header = T)> attach(d)

La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando

> pairs(d, main = "Scatter-plot matrix")

Page 412: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

18

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

Temperature

25 30 35 40 45

010

2030

4050

60

2530

3540

45

Latitude

0 10 20 30 40 50 60 70 80 90 100 110 120

7080

9010

011

012

0

Longitude

Scatter-plot matrix

Page 413: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

19

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). L'analisi del modello lineare con i regressori originali viene implementata mediante il seguentecomando

> summary(lm(Temperature ~ Latitude + Longitude))

Call:lm(formula = Temperature ~ Latitude + Longitude)

Residuals: Min 1Q Median 3Q Max-12.9983 -3.8957 0.5577 3.7330 22.0113

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 98.64523 8.32708 11.846 <2e-16 ***Latitude -2.16355 0.17570 -12.314 <2e-16 ***Longitude 0.13396 0.06314 2.122 0.0386 *---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.935 on 53 degrees of freedomMultiple R-Squared: 0.7411, Adjusted R-squared: 0.7314F-statistic: 75.88 on 2 and 53 DF, p-value: 2.792e-16

Page 414: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

20

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cookdel modello vengono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Temperature ~ Latitude + Longitude), which = c(1:4),+ add.smooth = FALSE)> par(mfrow = c(1, 1))

Page 415: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

21

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

10 20 30 40 50

-10

010

20

Fitted values

Res

idua

ls

Residuals vs Fitted52

41

32

-2 -1 0 1 2

-2-1

01

23

4

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q52

41

32

10 20 30 40 50

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location52

41

32

0 10 20 30 40 50

0.0

0.2

0.4

0.6

Obs. number

Coo

k's

dist

ance

Cook's distance52

41

12

Page 416: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

22

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). L'analisi del modello lineare con i regressori originali senza l'osservazione anomala vieneimplementata mediante il seguente comando

> summary(lm(Temperature ~ Latitude + Longitude,+ subset = (1:length(Temperature) != 52)))

Call:lm(formula = Temperature ~ Latitude + Longitude, subset = (1:length(Temperature)!= 52))

Residuals: Min 1Q Median 3Q Max-12.092772 -3.678680 0.001197 3.505167 19.667543

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 108.30043 7.84331 13.808 <2e-16 ***Latitude -2.28584 0.15992 -14.294 <2e-16 ***Longitude 0.07522 0.05837 1.289 0.203---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.184 on 52 degrees of freedomMultiple R-Squared: 0.7971, Adjusted R-squared: 0.7893F-statistic: 102.2 on 2 and 52 DF, p-value: < 2.2e-16

Page 417: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

23

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cookdel modello con i regressori originali e senza l'osservazione anomala sono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Temperature ~ Latitude + Longitude,+ subset = (1:length(Temperature) != 52)),+ which = c(1:4), add.smooth = FALSE)> par(mfrow = c(1, 1))

Page 418: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

24

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

10 20 30 40 50

-10

010

20

Fitted values

Res

idua

ls

Residuals vs Fitted41

6

32

-2 -1 0 1 2

-2-1

01

23

4

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q41

653

10 20 30 40 50

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location41

653

0 10 20 30 40 50

0.0

0.2

0.4

0.6

Obs. number

Coo

k's

dist

ance

Cook's distance41

536

Page 419: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

25

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). L'analisi del modello lineare con i regressori originali e l'interazione viene implementata mediante ilseguente comando

> summary(lm(Temperature ~ Latitude * Longitude))

Call:lm(formula = Temperature ~ Latitude * Longitude)

Residuals: Min 1Q Median 3Q Max-11.6738 -2.8165 -0.1268 3.4107 15.0605

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 259.48952 44.71515 5.803 3.93e-07 ***Latitude -6.07039 1.08235 -5.609 7.94e-07 ***Longitude -1.61025 0.48139 -3.345 0.001533 **Latitude:Longitude 0.04220 0.01156 3.649 0.000611 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.247 on 52 degrees of freedomMultiple R-Squared: 0.7939, Adjusted R-squared: 0.782F-statistic: 66.77 on 3 and 52 DF, p-value: < 2.2e-16

Page 420: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

26

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cookdel modello con interazione sono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Temperature ~ Latitude * Longitude), which = c(1:4),+ add.smooth = FALSE)> par(mfrow = c(1, 1))

Page 421: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

27

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

10 20 30 40 50 60

-15

-50

510

Fitted values

Res

idua

ls

Residuals vs Fitted5652

-2 -1 0 1 2

-2-1

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q5526

10 20 30 40 50 60

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location552 6

0 10 20 30 40 50

0.0

0.2

0.4

0.6

Obs. number

Coo

k's

dist

ance

Cook's distance5 52

6

Page 422: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

28

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). L'analisi del modello lineare con i regressori originali, l'interazione e una dipendenza cubica dallalongitudine viene implementata mediante il seguente comando

> summary(lm(Temperature ~ Latitude * Longitude + I(Longitude^3)))

Call:lm(formula = Temperature ~ Latitude * Longitude + I(Longitude^3))

Residuals: Min 1Q Median 3Q Max-7.30440 -2.85850 0.04342 2.49406 9.06776

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 3.908e+02 3.151e+01 12.402 < 2e-16 ***Latitude -5.891e+00 6.773e-01 -8.698 1.20e-11 ***Longitude -3.632e+00 3.750e-01 -9.687 3.77e-13 ***I(Longitude^3) 8.064e-05 8.912e-06 9.050 3.47e-12 ***Latitude:Longitude 3.656e-02 7.261e-03 5.035 6.34e-06 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.908 on 51 degrees of freedomMultiple R-Squared: 0.9209, Adjusted R-squared: 0.9147F-statistic: 148.5 on 4 and 51 DF, p-value: < 2.2e-16

Page 423: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

29

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). I diagrammi di Anscombe, il diagramma quantile-quantile e il diagramma con le distanze di Cookdel modello con interazione e dipendenza cubica sono ottenuti mediante i seguenti comandi

> par(mfrow = c(2, 2))> plot(lm(Temperature ~ Latitude * Longitude + I(Longitude^3)), which = c(1:4),+ add.smooth = FALSE)> par(mfrow = c(1, 1))

Page 424: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

30

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

10 20 30 40 50 60

-50

510

Fitted values

Res

idua

ls

Residuals vs Fitted25

32

52

-2 -1 0 1 2

-2-1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q-Q25

52

32

10 20 30 40 50 60

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale-Location25

52 32

0 10 20 30 40 50

0.0

0.1

0.2

0.3

0.4

Obs. number

Coo

k's

dist

ance

Cook's distance52

5

13

Page 425: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

31

REGRESSIONE LINEARE MULTIPLA

Esempio (segue). Il modello esteso con interazione e dipendenza cubica dalla longitudine non può essere semplificato.

> summary(step(lm(Temperature ~ Latitude * Longitude + I(Longitude^3))))Start: AIC=157.41Temperature ~ Latitude * Longitude + I(Longitude^3)

Df Sum of Sq RSS AIC<none> 778.71 157.41- Latitude:Longitude 1 387.05 1165.76 178.00- I(Longitude^3) 1 1250.42 2029.12 209.04

Call:lm(formula = Temperature ~ Latitude * Longitude + I(Longitude^3))

Residuals: Min 1Q Median 3Q Max-7.30440 -2.85850 0.04342 2.49406 9.06776

Page 426: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

32

REGRESSIONE LINEARE MULTIPLA

Esempio (segue).

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 3.908e+02 3.151e+01 12.402 < 2e-16 ***Latitude -5.891e+00 6.773e-01 -8.698 1.20e-11 ***Longitude -3.632e+00 3.750e-01 -9.687 3.77e-13 ***I(Longitude^3) 8.064e-05 8.912e-06 9.050 3.47e-12 ***Latitude:Longitude 3.656e-02 7.261e-03 5.035 6.34e-06 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.908 on 51 degrees of freedomMultiple R-Squared: 0.9209, Adjusted R-squared: 0.9147F-statistic: 148.5 on 4 and 51 DF, p-value: < 2.2e-16

Page 427: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

33

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

• La struttura inferenziale dell' basata analisi della varianza su numerosità< campioni casuali indipendenti (ciascuno di8 8 œ 8 Ò Ó œ4 4 44œ"

< e tali che ) e da una variabile casuale a livelli di un fattore, tali che ] < - ß - ßá ß - ]" # < -E4

.

VarÒ Ó œ]-4 5#, può essere riportata ad un modello di .regressione lineare

• Se ] ß ] ßá ß ]" # 8 sono le osservazioni relative al campione misto, allora si può scrivere il modello lineare

EÒ] Ó œ B B á B3 ! " 3" # 3# <" 3ß<"" " " "

e

VarÒ] Ó œ3#5

dove e , mentre -esima unità da un" . " . .! " 4 4" "œ œ B34 è il valore assunto sull' che vale unoi regressore binariose l'osservazione è relativa al livello del fattore e zero altrimenti.Ð4 "Ñ-esimo

• L'ipotesi di omogeneità delle medie, supponendo la normalità di , viene verificata considerando il] ß ] ßá ß ]" # 8

sistema di ipotesi L À œ œ á œ œ ! L À Á !ß b4! " # <" " 4" " " " contro . Di conseguenza le tecniche viste in precedenzapossono essere applicate anche in questo caso.

• Il di questo approccio è quello di da quale livello del fattore dipende l'eventuale rifiutovantaggio individuaredell'ipotesi di base.

Page 428: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

34

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

Esempio. Si considera di nuovo i dati relativi alla velocità della luce. può essereL'ipotesi di omogeneità delle medieverificato mediante il seguente comando

> summary.lm(lm(Speed ~ Trial))

Call:lm(formula = Speed ~ Trial)

Residuals: Min 1Q Median 3Q Max-259.00 -42.62 2.25 41.75 161.00

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 909.00 16.60 54.762 < 2e-16 ***TrialT2 -53.00 23.47 -2.258 0.026251 *TrialT3 -64.00 23.47 -2.726 0.007627 **TrialT4 -88.50 23.47 -3.770 0.000283 ***TrialT5 -77.50 23.47 -3.301 0.001356 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 74.23 on 95 degrees of freedomMultiple R-Squared: 0.1529, Adjusted R-squared: 0.1173F-statistic: 4.288 on 4 and 95 DF, p-value: 0.003114

Page 429: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

35

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

• L'analisi della varianza può essere estesa anche al caso che si abbiano . In questo caso si parla didue o più fattorianalisi della varianza a due o più criteri. Anche in questo caso l'analisi può essere riportata ad un modello diregressione lineare.

• Per descrivere questo modello si consideri per semplicità una , dove ogni fattoreanalisi della varianza a due criteriassume . In questo caso si hanno 4 campioni, ovvero un campione per ogni combinazione di livelli.due livelliAssumendo la normalità delle osservazioni, se ] ß ] ßá ß ]" # 8 sono le osservazioni relative al campione misto, allora sipuò scrivere il modello lineare

EÒ] Ó œ B B B B3 ! " 3" # 3# $ 3" 3#" " " "

e

VarÒ] Ó œ3#5

dove -esima unità da unB3" è il valore assunto sull' che vale uno se l'osservazione è relativa ali regressore binariosecondo livello del primo fattore e zero altrimenti, mentre è il valore assunto sull' -esima unità da unB3# i regressorebinario che vale uno se l'osservazione è relativa al secondo livello del secondo fattore e zero altrimenti.

Page 430: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

36

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

• Evidentemente, in questo caso la verifica d'ipotesi risulta più complessa. In effetti, si può voler verificare l'effettomarginale effetto marginale del primo fattore (ovvero l'ipotesi l' del secondo fattore (ovvero l'ipotesiL À œ !! "" ), L À œ ! L À œ !! # ! $" ") o l' dei due fattori ( ).effetto dell'interazione ovvero l'ipotesi

• In una maniera simile anche se con complessità in notazione, il caso generale dell'analisi della varianza a più criteripuò essere riportata ad un .modello di regressione

• Il di questo approccio è quello di da quale combinazioni di livelli dei fattori dipende la mediavantaggio individuaredelle osservazioni.

Page 431: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

37

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

Esempio. Si dispone delle osservazioni dei pesi di topi (in grammi) con quattro differenti genotipi per la madre equattro differenti genotipi per la nidiata (Fonte: ). IScheffé, H., 1959, , Wiley, New York, p.140Analysis of variancedati sono contenuti nel file e vengono letti e resi disponibili mediante i comandifoster.txt

> d <- read.table("c:\\Rwork\\examples\\foster.txt", header = T)> attach(d)

Il seguente comando permette di ottenere le medie per tutte le combinazioni dei fattori

> tapply(Weight, list(Mother, Litter), mean) A B I JA 63.680 52.325 47.10000 54.35000B 52.400 60.640 64.36667 56.10000I 54.125 53.925 51.60000 54.53333J 48.960 45.900 49.43333 49.06000

Page 432: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

38

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

Esempio (segue). L'analisi della varianza a due criteri può essere implementata mediante il seguente comando

> summary(aov(Weight ~ Litter * Mother)) Df Sum Sq Mean Sq F value Pr(>F)Litter 3 60.16 20.05 0.3697 0.775221Mother 3 775.08 258.36 4.7632 0.005736 **Litter:Mother 9 824.07 91.56 1.6881 0.120053Residuals 45 2440.82 54.24---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Page 433: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

39

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

Esempio (segue). Il seguente comando che semplifica il modello di regressione equivalente alla precedente analisidella varianza

> summary(step(lm(Weight ~ Litter * Mother)))Start: AIC=257.04Weight ~ Litter * Mother

Df Sum of Sq RSS AIC- Litter:Mother 9 824.1 3264.9 256.8<none> 2440.8 257.0

Step: AIC=256.79Weight ~ Litter + Mother

Df Sum of Sq RSS AIC- Litter 3 63.6 3328.5 252.0<none> 3264.9 256.8- Mother 3 775.1 4040.0 263.8

Step: AIC=251.96Weight ~ Mother

Df Sum of Sq RSS AIC<none> 3328.5 252.0- Mother 3 771.6 4100.1 258.7

Page 434: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

40

REGRESSIONE LINEARE MULTIPLA E ANALISI DELLA VARIANZA

Esempio (segue).

Call:lm(formula = Weight ~ Mother)

Residuals: Min 1Q Median 3Q Max-19.10 -5.90 1.50 5.32 12.80

Coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 55.400 1.910 28.999 <2e-16 ***MotherB 3.300 2.797 1.180 0.2429MotherI -2.038 2.702 -0.754 0.4539MotherJ -6.720 2.746 -2.447 0.0175 *---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.642 on 57 degrees of freedomMultiple R-Squared: 0.1882, Adjusted R-squared: 0.1455F-statistic: 4.405 on 3 and 57 DF, p-value: 0.007433

Page 435: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

41

MODELLI ADDITIVI GENERALIZZATI

• In molti casi risulta specificare la della variabile di risposta dai regressori e questodifficile struttura di dipendenzaimpedisce di costruire un modello di regressione lineare (o comunque riconducibile a tale).

• Un approccio alla regressione multipla può essere ottenuto considerando il “distribution-free” modello additivogeneralizzato

EÒ] Ó œ 7 ÐB Ñ 7 ÐB Ñ á 7 ÐB Ñ3 ! " 3" # 3# : 3:"

e

VarÒ] Ó œ3#5

dove 7 ÐB Ñß7 ÐB Ñßá ß7 ÐB Ñ" " # # : : sono funzioni non note.

• Dunque, il modello additivo generalizzato suppone che la variabile di risposta sia dipendente da trasformazioni nonnote dei regressori.

Page 436: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

42

MODELLI ADDITIVI GENERALIZZATI

• Le funzioni 7 ÐB Ñß7 ÐB Ñßá ß7 ÐB Ñ" " # # : : ! e la quantità vengono stimate con una al caso della" procedura simileregressione lineare locale, ottenendo i valori stimati

C œ 7 ÐB Ñ 7 ÐB Ñ á 7 ÐB Ñs s s ss3 ! " 3" # 3# : 3:"

• L' può essere valutata mediante la che è semplicemente la somma dei quadrati deiadeguatezza del modello devianzaresidui, ovvero

H œ Ð3œ"

8

C C Ñs3 3#

Page 437: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

43

MODELLI ADDITIVI GENERALIZZATI

Esempio. Si considera di nuovo i dati relativi alle temperature delle città degli Stati Uniti. La stima del modello vieneottenuta L'analisi del modello additivo generalizzato viene implementata come seguerichiamando la libreria mgcv.

> library(mgcv)> summary(gam(Temperature ~ s(Latitude) + s(Longitude)))

Family: gaussianLink function: identity

Formula:Temperature ~ s(Latitude) + s(Longitude)

Parametric coefficients: Estimate Std. Error t value Pr(>|t|)(Intercept) 26.5179 0.3487 76.04 <2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Approximate significance of smooth terms: edf Est.rank F p-values(Latitude) 6.579 9 119.85 < 2e-16 ***s(Longitude) 4.867 9 31.31 3.46e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

R-sq.(adj) = 0.962 Deviance explained = 97%GCV score = 8.7557 Scale est. = 6.8098 n = 56

Page 438: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

44

MODELLI ADDITIVI GENERALIZZATI

Esempio (segue). I grafici delle funzioni e possono essere ottenuti mediante il comando7 ÐB Ñ 7 ÐB Ñs s" " # #

> plot(gam(Temperature ~ s(Latitude) + s(Longitude)))

Page 439: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

45

MODELLI ADDITIVI GENERALIZZATI

Esempio (segue).

25 30 35 40 45

-20

-10

010

2030

40

Latitude

s(La

titud

e,6.

58)

Page 440: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

46

MODELLI ADDITIVI GENERALIZZATI

Esempio (segue).

70 80 90 100 110 120

-20

-10

010

2030

40

Longitude

s(Lo

ngitu

de,4

.87)

Page 441: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

47

MODELLI LINEARI GENERALIZZATI

• Il modello lineare generalizzato multiplo è ottenuto assumendo una distribuzione non normale per e] ß ] ßá ß ]" # 8

considerando una opportuna tale chefunzione legame 1

1Ð Ò] ÓÑ œ B B á BE 3 ! " 3" # 3# : 3:" " " "

• Il modello di regressione lineare multiplo è un di questa classe quando le variabili di risposta sonocaso particolarenormali identità e è la funzione .1

• Come nel caso univariato, per ogni distribuzione che si assume per la variabile di risposta esiste una funzione legamecanonica parametrizzazione naturale, ovvero una del modello.

Page 442: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

48

MODELLI LINEARI GENERALIZZATI

• Quando si assume che ] ß ] ßá ß ]" # 8 siano , si ha la e lavariabli casuali di Poisson regressione di Poisson multiplafunzione legame canonica funzione logaritmo è la , ovvero si ha

log EÐ Ò] ÓÑ œ B B á B3 ! " 3" # 3# : 3:" " " "

• Quando si assume che ] ß ] ßá ß ]" # 8 siano , si ha la e lavariabili casuali di Bernoulli regressione logistica multiplafunzione legame canonica funzione logit è la , ovvero si ha

logE

E Ò] Ó

" Ò] Óœ B B á B

3

3! " 3" # 3# : 3:" " " "

• Quando si hanno delle frequenze relative ai vari livelli dei regressori, la regressione logistica può essere applicataconsiderando le della variabile di risposta per ogni livello dei regressori.proporzioni

• I possono essere adattati anche ai modelli lineari generalizzati introducendo una relazione el tipomodelli additivi

1Ð Ò] ÓÑ œ 7 ÐB Ñ 7 ÐB Ñ á 7 ÐB ÑE 3 ! " 3" # 3# : 3:"

dove 7 ÐB Ñß7 ÐB Ñßá ß7 ÐB Ñ" " # # : : sono funzioni non note.

Page 443: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

49

MODELLI LINEARI GENERALIZZATI

Esempio. Si dispone dei dati relativi ai fallimenti di industrie degli Stati Uniti che hanno operato nelletelecomunicazioni fra il 2000 e il 2002 (Fonte: Simonoff, J.S., 2003, Analyzing categorical data, Springer, New York,p.381). I regressori sono il capitale da lavoro rapportato all'attivo totale, il guadagno rapportato all'attivo totale, ilguadagno al netto di interessi e tasse rapportato all'attivo totale, le vendite rapportate all'attivo totale e il valoredell'azienda rapportato alla passività. I dati sono contenuti nel file e vengono letti e resibankruptcy.txt

disponibili mediante i comandi

> d <- read.table("c:\\Rwork\\examples\\bankruptcy.txt", header = T)> attach(d)

La matrice dei diagrammi di dispersione viene ottenuta mediante il seguente comando

> pairs(d[,2:7], main = "Scatter-plot matrix")

Page 444: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

50

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

WC.TA

-400 -100 0 40 80 0.0 0.4 0.8

-100

0

-400

-100

RE.TA

EBIT.TA

-100

-40

0

040

80 S.TA

BVE.BVL

010

25

-100 0

0.0

0.4

0.8

-100 -40 0 0 10 25

Bankrupt

Scatter-plot matrix

Page 445: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

51

MODELLI LINEARI GENERALIZZATI

Esempio (segue). L'analisi del modello di regressione logistica viene effettuata sui primi quattro regressori, dato che ilquinto non sembra influenzare la probabilità di bancarotta. La semplificazione automatica di questo modello medianteil criterio AIC viene implementata mediante il seguente comando

> summary(step(glm(Bankrupt ~ WC.TA + RE.TA + EBIT.TA + S.TA, binomial)))Start: AIC=32.92Bankrupt ~ WC.TA + RE.TA + EBIT.TA + S.TA

Df Deviance AIC- S.TA 1 22.968 30.968- WC.TA 1 24.493 32.493<none> 22.923 32.923- RE.TA 1 26.347 34.347- EBIT.TA 1 28.529 36.529

Step: AIC=30.97Bankrupt ~ WC.TA + RE.TA + EBIT.TA

Df Deviance AIC- WC.TA 1 24.532 30.532<none> 22.968 30.968- RE.TA 1 26.407 32.407- EBIT.TA 1 28.594 34.594

Page 446: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

52

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

Step: AIC=30.53Bankrupt ~ RE.TA + EBIT.TA

Df Deviance AIC<none> 24.532 30.532- EBIT.TA 1 28.697 32.697- RE.TA 1 35.979 39.979

Call:glm(formula = Bankrupt ~ RE.TA + EBIT.TA, family = binomial)

Deviance Residuals: Min 1Q Median 3Q Max-1.66450 -0.33579 -0.01778 0.28999 1.97243

Page 447: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

53

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) -1.95801 0.81637 -2.398 0.0165 *RE.TA -0.04405 0.01989 -2.214 0.0268 *EBIT.TA -0.10761 0.06445 -1.670 0.0950 .---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 69.315 on 49 degrees of freedomResidual deviance: 24.532 on 47 degrees of freedomAIC: 30.532

Number of Fisher Scoring iterations: 7

Page 448: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

54

MODELLI LINEARI GENERALIZZATI

Esempio (segue). Un modello più semplice basato sul solo primo regressore potrebbe essere ottenuto notando cheesiste un valore anomalo, ovvero la prima osservazione. L'analisi di questo modello viene implementata come segue

> summary(glm(Bankrupt ~ RE.TA, binomial, subset = (1:length(Bankrupt) != 1)))Call:glm(formula = Bankrupt ~ RE.TA, family = binomial, subset = (1:length(Bankrupt)!= 1))

Deviance Residuals: Min 1Q Median 3Q Max-2.07214 -0.30405 -0.03211 0.24542 2.07304

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) -3.05107 1.08850 -2.803 0.00506 **RE.TA -0.08277 0.02591 -3.194 0.00140 **---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 67.908 on 48 degrees of freedomResidual deviance: 24.256 on 47 degrees of freedomAIC: 28.256

Number of Fisher Scoring iterations: 8

Page 449: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

55

MODELLI LINEARI GENERALIZZATI

Esempio (segue). Nell'ultimo modello, il diagramma di dispersione con la relativa funzione legame stimata vieneottenuto mediante i seguenti comandi

> Bankrupt.h <- Bankrupt[2:50]> RE.TA.h <- RE.TA[2:50]> plot(RE.TA.h, Bankrupt.h, xlab = "Retairned earning / Total assets",+ ylab = "Bankrupt", main = "Scatter plot")> lines(seq(-500, 100, 1),+ predict(glm(Bankrupt.h ~ RE.TA.h, binomial),+ data.frame(RE.TA.h = seq(-500, 100, 1)), type = "response"))

Page 450: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

56

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

-400 -300 -200 -100 0

0.0

0.2

0.4

0.6

0.8

1.0

Scatter plot

Retairned earning / Total assets

Ban

krup

t

Page 451: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

57

MODELLI LINEARI GENERALIZZATI

• I modelli lineari generalizzati possono essere applicati anche all' Questianalisi delle tabelle a due o più entrate.modelli sono detti .log-lineari

• Per descrivere questo modello si consideri per semplicità una , dove ogni fattore assume tabella a doppia entrata duelivelli. Supponendo che le quattro frequenze osservate 834 siano delle variabili casuali di Poisson, il modello log-lineareè dato da

log EÐ Ò8 ÓÑ œ B B B B46 ! " " # # $ " #" " " "

dove un B" è che vale uno se la frequenza è relativa al secondo livello del primo fattore e zeroregressore binarioaltrimenti, mentre è che vale uno se la frequenza è relativa al secondo livello del secondoB# un regressore binariofattore e zero altrimenti.

• In questo caso, si può voler verificare l' del primo fattore (ovvero l'ipotesi l'effetto marginale effettoL À œ !! "" ), marginale del secondo fattore (ovvero l'ipotesi ovvero l'ipotesiL À œ !! #" ) o l' dei due fattori (effetto dell'interazioneL À œ !! $" ).

• In una maniera simile anche se con complessità in notazione, il caso generale dell'analisi delle tabelle a più entratepuò essere riportata ad un .modello lineare generalizzato

Page 452: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

58

MODELLI LINEARI GENERALIZZATI

Esempio. Durante uno studio sull'uso di droghe da parte degli studenti nell'università di Dayton (Ohio) nel 1992 sonostati considerati un gruppo di studenti, ognuno dei quali è stato classificato per l'uso o meno di alcolici, di sigarette e dimarijuana ( I dati sonoAgresti, A., 1990, Categorical data analysis, prima edizione, Wiley, New York, p.152). contenuti nel file e vengono letti e resi disponibili mediante i comandidrug.txt

> d <- read.table("c:\\Rwork\\examples\\drug.txt", header = T)> attach(d)

Page 453: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

59

MODELLI LINEARI GENERALIZZATI

Esempio (segue). La tabella a più entrate viene ottenuta mediante il comando

> xtabs(Count ~ Alcohol + Cigarette + Marijuana), , Marijuana = No

CigaretteAlcohol No Yes No 279 43 Yes 456 538

, , Marijuana = Yes

CigaretteAlcohol No Yes No 2 3 Yes 44 911

mentre il diagramma a nastri condizionato viene ottenuto mediante il comando

> library(lattice)> barchart(xtabs(Count ~ Alcohol + Cigarette + Marijuana),+ ylab = "Alcohol use",+ auto.key = list(title = "Marijuana use", cex = 0.8),+ strip = strip.custom(strip.names = T, strip.levels = T))

Page 454: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

60

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

Freq

Alc

ohol

use

No

Yes

0 500 1000 1500

: Cigarette No

0 500 1000 1500

: Cigarette Yes

Marijuana useNoYes

Page 455: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

61

MODELLI LINEARI GENERALIZZATI

Esempio (segue). .Il comando chisq.test fornisce l'implementazione del test per l'indipendenza;#

> chisq.test(xtabs(Count ~ Alcohol + Cigarette + Marijuana))

Chi-squared test for given probabilities

data: xtabs(Count ~ Alcohol + Cigarette + Marijuana)X-squared = 2676.337, df = 7, p-value < 2.2e-16

Page 456: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

62

MODELLI LINEARI GENERALIZZATI

Esempio (segue). Una volta verificata la dipendenza, il modello log-lineare può essere analizzato mediante il seguentecomando

> summary(step(glm(Count ~ Alcohol * Cigarette * Marijuana, poisson)))Start: AIC=65.04Count ~ Alcohol * Cigarette * Marijuana

Df Deviance AIC- Alcohol:Cigarette:Marijuana 1 0.374 63.417<none> -2.92e-13 65.043

Step: AIC=63.42Count ~ Alcohol + Cigarette + Marijuana + Alcohol:Cigarette + Alcohol:Marijuana + Cigarette:Marijuana

Df Deviance AIC<none> 0.37 63.42- Alcohol:Marijuana 1 92.02 153.06- Alcohol:Cigarette 1 187.75 248.80- Cigarette:Marijuana 1 497.37 558.41

Page 457: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

63

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

Call:glm(formula = Count ~ Alcohol + Cigarette + Marijuana + Alcohol:Cigarette + Alcohol:Marijuana + Cigarette:Marijuana, family = poisson)

Deviance Residuals: 1 2 3 4 5 6 7 0.02044 -0.02658 -0.09256 0.02890 -0.33428 0.09452 0.49134 8-0.03690

Coefficients: Estimate Std. Error z value Pr(>|z|)(Intercept) 5.63342 0.05970 94.361 < 2e-16 ***AlcoholYes 0.48772 0.07577 6.437 1.22e-10 ***CigaretteYes -1.88667 0.16270 -11.596 < 2e-16 ***MarijuanaYes -5.30904 0.47520 -11.172 < 2e-16 ***AlcoholYes:CigaretteYes 2.05453 0.17406 11.803 < 2e-16 ***AlcoholYes:MarijuanaYes 2.98601 0.46468 6.426 1.31e-10 ***CigaretteYes:MarijuanaYes 2.84789 0.16384 17.382 < 2e-16 ***---Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)

Page 458: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

64

MODELLI LINEARI GENERALIZZATI

Esempio (segue).

Null deviance: 2851.46098 on 7 degrees of freedomResidual deviance: 0.37399 on 1 degrees of freedomAIC: 63.417

Number of Fisher Scoring iterations: 4

Page 459: CORSO DI “INFERENZA STATISTICA” - unisi.it · 2 TESTI CONSIGLIATI • Per la preparazione di base dell'esame sono suggeriti i seguenti testi: Barabesi, L. (1998) , Stamperia della

65

LETTURE SUGGERITE

Agresti, A. (2013) Categorical data analysis, terza edizione, Wiley, New York.Agresti, A. (2015) Foundations of linear and generalized linear models, Wiley, New York.Bretz, F., Hothorn, T. e Westfall, P. (2011) Multiple comparisons using R, Chapman & Hall/CRC Press, Boca Raton.Dickhaus, T. (2014) Simultaneous statistical inference, Springer, New York.Dunn, P.K. e Smyth, G.K. (2018) , Springer, New York.Generalized linear models with examples in REveritt, B. e Hothorn, T. (2011) , Springer, New York.An introduction to applied multivariate analysis with RFriendly, M. e Meyer, D. (2019) Discrete data analysis with R, Chapman and Hall, London.Hastie, T., Tibshirani, R. e Friedman, J. H. (2009) , seconda edizione, Springer,The elements of statistical learning

New York.Hastie, T., Tibshirani, R. e Wainwright, M. (2015) Statistical learning with sparsity, Chapman and Hall/CRC Press,

Boca Raton.James, G., Witten, D., Hastie, T. e Tibshirani, R. (2014) An introduction to statistical learning, Springer, New York.Klemelä, J. (2014) Multivariate nonparametric regression and visualization, Wiley, New York.McCullagh, P. e Nelder, J.A. (1989) , seconda edizione, Chapman and Hall, London.Generalized linear modelsSimonoff, J.S. (2003) Analyzing categorical data, Springer, New York.Seber, G.A.F. (2015) , Springer, New York.The linear model and hypothesisWeisberg, S. (2014) , Wiley, New York.Applied linear regressionWood S.N. (2017) , seconda edizione, Chapman and Hall, London.Generalized additive models