Statistica multivariata Cercare di capire le relazioni che ...
Transcript of Statistica multivariata Cercare di capire le relazioni che ...
Statistica multivariataStatistica multivariata
Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa
gestirle tutte e capirne le relazioni.
Analisi multivariataAnalisi multivariata
Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico.
! Il modello diventa troppo complesso.
! Diventa difficile interpretare i risultati.
! Le stime dei parametri diventano molto instabili.
! Più parametri inseriamo, più osservazioni ci vogliono per stimarli.
Cercare di capire le relazioni che intercorrono tra le variabiliCercare di capire le relazioni che intercorrono tra le variabili
Eliminiamo le variabili che sono molto correlate tra di loro.Eliminiamo le variabili che sono molto correlate tra di loro.
Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra.
Statistica multivariataStatistica multivariata
! Analisi fattoriale
analisi (prevalentemente) simmetrica
rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori
! Regressione multipla analisi asimmetrica
formulare opportuni modelli descrittivi/interpretativi
xnm…xn2xn1n
……………
x2m…x22x212
x1m…x12 x111
Var. m…Var. 2Var. 1
Dati multivariatiDati multivariati
Un
ità
sta
tist
ich
e
Variabili statistiche
osservazioni, rilevazioni, …
Matrice dei datiMatrice dei dati (n!m) : n righe, m colonne con n!m valori
Misure di concordanzaMisure di concordanzaVoglio un indice (una misura) che mi dica il grado di concordanza tra i valori di
una variabile X con quelli di una variabile Y.
Concordanza positiva Concordanza negativa
Assenza di concordanza
xnm…xn2xn1n
……………
x2m…x22x212
x1m…x12 x111
Var. m…Var. 2Var. 1
CovarianzaCovarianza
Un
ità
sta
tist
ich
e
Variabili statistiche
x.1 x.2 x.m
Covarianza : indice della relazione (lineare) tra due variabili
k
CorrelazioneCorrelazione
Varianza : indice di dispersione
Covarianza : indice di relazione
Correlazione : indice di relazione normato
k
k
k
Matrice di covarianzaMatrice di covarianza
Diagonale principale: varianza della variabile ima
Altre celle: covarianza tra variabili
Quadrata e simmetrica
… e se le variabili sono di tipo qualitativo ?
AssociazioneAssociazione
… tra due variabili quantitative:
indice di correlazione
… tra due variabili qualitative:
indice del chi-quadro
… tra variabile quantitativa e qualitativa:
Sia X categoriale con categorie 1, 2, …, k.
Sia Y numerica.
Allora:
dove le Yi sono le medie dei valori di Y a cui è associata la modalità
ima della variabile X.
chi-quadrochi-quadro
– – indici di associazione –indici di associazione –
Coefficiente !
Coefficiente di contingenza
Coefficiente "
Coefficiente V di Cramér
# di Kendall
D di Somers
nominali ordinali
…
Analisi della varianza ad una viaAnalisi della varianza ad una via
Assumendo:
• indipendenza dei campioni e delle osservazioni
• normalità dei dati
• varianze all’interno dei k gruppi uguali (test F/test di Levene)
Varianza entro gruppi
$2w
Varianza tra gruppi
$2B
F = $2B / $
2w ~ Fk-1, n-k
Statistica multivariataStatistica multivariata
! Analisi fattoriale
analisi (prevalentemente) simmetrica
rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori
! Regressione multipla analisi asimmetrica
formulare opportuni modelli descrittivi/interpretativi
Metodi multivariati - 1Metodi multivariati - 1
Riduzione di dimensione
Analisi di raggruppamento
Analisi discriminante
Analisi fattoriale
tecnica descrittiva
- analisi di segmentazione/cluster
- analisi interna
(unsupervised learning) tecnica predittiva
- classificazione
(machine/supervised learning)
! componenti principali (PCA)
! multidimensional scaling (MDS)
Ross et al. (2000) Nature Gen. 24:227-235
Alizadeh et al. (2000)Nature 403: 503-511
Metodi multivariati - 2Metodi multivariati - 2
Regressione lineare
Regressione logistica
Dati di sopravvivenza
Regressione multipla
- risposta continua
- predittori continui/categoriali
- risposta binaria
- predittori continui/categoriali
- dati di durata
- predittori continui/categoriali
Modello di regressione Modello di regressione
Quando ho una variabile risposta Y e tante variabili esplicative Xi , si può ipotizzare di “spiegare” la relazione tra Y e le Xi attraverso un modello lineare (nei parametri).
Y = %0 + %1 X1 + %2 X2 + " + %k Xk + &
Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $
2.
Caso univariato semplice
Y = %0 + %1 X1 + &
Caso multivariato
Minimi quadratiMinimi quadrati
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Logica – Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi):
min 'i [ yi – (%0 + %1 X1i + %2 X2i + " + %k Xki )]2
Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le Xi aumentano le
dimensioni dello spazio.
Esempio: y = %0 + %1 x1 + %2 x2 + & Lavoriamo in 3 dimensioni.
Minimi quadratiMinimi quadrati
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Minimi quadratiMinimi quadrati
Caso monovariato (una sola variabile esplicativa):
Y = %0 + %1 X1 + &
Allora, in base al MMQ:
b0 = y – b1 X1
b1 =Cov(X,Y)
Var(X)
Caso multivariato:b = (X!X)-1
X!y
dove X è la matrice dei dati.
xnm…xn2xn1n
………… …
x2m…x22x212
x1m…x12 x111
Var. m…Var. 2Var. 1
Analisi di regressione Analisi di regressione Il mio modello è un buon modello ?
R2
È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono.
Test sui parametri
Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se
H0 : %i = 0
non è rifiutata allora la variabile può essere eliminata senza perdita di informazione.
Analisi grafica dei residui
I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero.
Analisi dei residui Analisi dei residui
Residui vs. xi
Residui vs. valori predetti
Deviazioni dalla casualità indicano una specificazione errata
del modello.
Analisi dei residui Analisi dei residui
Q-Q plot
Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R2) è la NORMALITÀ del termine d'errore.
Confondente vsConfondente vs
Modificatore d'effetto (interazione)Modificatore d'effetto (interazione)
M
M
FF
M
Confondente vsConfondente vs
Modificatore d'effetto (interazione)Modificatore d'effetto (interazione)
F
F
M
M
Scelta del modello Scelta del modello
Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &
Quante e quali variabili inserire nel modello quando se ne hanno a disposizione molte ?
Regressione step-wise
Y = %0 + %1 X1 + &
1. Parto dal modello con una variabile:
… e man mano ne aggiungo un'altra. Se l’inclusione della variabile è significativa, la tengo; altrimenti, la scarto.
2. Parto dal modello completo:
… e man mano ne levo una. Se l’esclusione della variabile è significativa, la tengo; altrimenti, la scarto.
Y = %0 + %1 X1 + %2 X2 + … + %k Xk + &
forward
backward
Modello di regressioneModello di regressionecasi particolaricasi particolari
E se la variabile (o le variabili) X sono delle variabili categoriali (fattori) ?
Il modello lineare non è altro che un'analisi della varianza ad una o a più vie.
Yij = %0 + (i + %j + &ij
In questo caso la matrice X è una matrice di “dummies” (cioè di zeri e uno).
Età e sintomi di malattia coronarica (CHD)
Modello di regressione Modello di regressione logistico logistico
Le analisi fatte finora sono valide se Y è una variabile numerica.
E se non lo fosse ?
Età CHD Età CHD Età CHD
22 0 40 0 54 023 0 41 1 55 124 0 46 0 58 127 0 47 0 60 128 0 48 0 60 030 0 49 1 62 130 0 49 0 65 132 0 50 1 67 133 0 51 0 71 135 1 51 1 77 138 0 52 0 81 1
Modello di regressione logisticoModello di regressione logisticografico di dispersione / a punti
Modello di regressione logisticoModello di regressione logisticotabella della prevalenza %
0
20
40
60
80
100
0 1 2 3 4 5 6 7
Malati %
Età (anni)
Divido in classi d’età.
Utilizzo le percentuali
all’interno delle classi.
Y = 0 con probabilità )
1 con probabilità 1-)
Malati
Gruppo d’età # in gruppo # %
20 -29 5 0 0
30 - 39 6 1 17
40 - 49 7 2 29
50 - 59 7 4 57
60 - 69 5 4 80
70 - 79 2 2 100
80 - 89 1 1 100
0.0
0.2
0.4
0.6
0.8
1.0
Modello di regressione logistico Modello di regressione logistico
ln[ P# y$x %1&P# y$x % ]= + x! "
logit of P(y|x)
Probabilità di malattia
x
P # y$x %=e
+ x! "
1 +e + x! "
" Transformazione semplice di P(y|x)
" Relazione lineare con x ...
" ... e continua (logit tra - ' to + ')
" Distribuzione nota: binomiale (P tra 0 ed 1)
" Diretto legame con la nozione di odds di malattia
Vantaggi del logit
ln [ P # y$x %
1&P # y$x % ]= + x! "
oddsd$e
= e+! "
oddsd$(e
= e!
Interpretazione di %
OR = e
+! "
e! = e
"
ln #OR % = "
P # y$x=1 %
1&P # y$x=1 %
P # y$x=0 %
1&P # y$x= 0 %
Esposizione (x)
Malati (y) Si No
Si
No
EsempioRischio di sviluppare malattia delle arterie coronarie in accordo con
età (< 55 e 55+ anni)
Modello di regressione logistico
ln #P1 -P % = + Age = ! " &0 .841 + 2.094 Age
CHD 55+ (1) < 55 (0)
Present (1) 21 22
Absent (0) 6 51
Odds of disease among exposed = 21/6Odds of disease among unexposed = 22/51 Odds ratio = 8.1
Coefficient SE Coeff/SE
Age 2.094 0.529 3.96Constant -0.841 0.255 -3.30
Log-odds = 2.094
OR = e2.094 = 8.1
Regressione logistica multipla
) Più di una variabile indipendente
⇒ dicotomica, ordinale, nominale, continua, …
) Interpretazione di %i
⇒ incremento del log odds per un incremento unitario di
xi con tutte le altre xj constanti