Post on 22-Feb-2019
Regressione
Es. la performance all’esame in relazione alle ore di studio a casa e alle
abilità cognitive
• L’insieme dei parametri riassumono la relazione tra VD e VI, sotto le ipotesi che la VD sia determinata dalle VI.
Tale tecnica esamina e studia la relazione tra una o più variabili indipendenti e una variabile dipendente.
Permette di comprendere gli effetti delle VI sulle VD in funzione di un modello teorico ESPLICATIVO
Permette di individuare una combinazione lineare di VI per predire il valore della VD PREDITTIVO
Scopo della REGRESSIONE
Matrice di correlazione/covarianza che riassume le relazioni lineari tra la VD e le VI e l’eventuale relazione tra le stesse variabili indipendenti.
N.B. VD: su scala ad intervalli equivalenti VI: quantitative
Matrice di partenza
Matrice di arrivo •parametri che riassumono la relazione tra VD e VI •Statistica per l’esame della significatività dei parametri (t) e valore di probabilità (p) associato ad ogni parametro •Valori che riassumono la variazione complessiva della VD imputabile al movimento delle VI (variazione congiunta):
R: è un indice di adattamento che esprime la correlazione tra la VD e le VI R2:è un indice di adattamento del modello lineare ai dati (rapporto tra sommatoria dei quadrati di regressione e sommatoria dei quadrati totali) rappresenta quanto della variazione totale viene spiegata dal modello lineare, ovvero la variabilità condivisa dalle variabili F:è una statistica all’ interno di una distribuzione di probabilità adeguata ad effettuare la verifica di ipotesi sull’ adattamento del modello.
1. Individuare le VI su cui regredisce la VD;
2. Ipotizzare che la VI determini/influenzi/predica la VD; 3. Individuare la retta (teorica) che permetta di prevedere al meglio i punteggi della VD a partire da quelli della VI.
Es. È possibile prevedere, in base all’altezza di un soggetto, il suo peso?
ALCUNI PASSI FONDAMENTALI… 1.Valutazione dell’adeguatezza delle variabili (livello di misura, collinearità tra i predittori); 2.Scelta della strategia analitica per inserire le VI; 3.Interpretazione della soluzione. 4.Verifica della forza esplicativa dei parametri. Maggiore è l’elevazione dei parametri (standardizzati), maggiore è l’adeguatezza del modello.
N.B. Il termine “collinearità” (collinearity) si riferisce alla possibilità che almeno due variabili indipendenti siano perfettamente correlate fra loro oppure che una variabile indipendente sia una combinazione lineare di alcune o di tutte le altre variabili indipendenti.
Intercetta: il punto in cui la retta incrocia l’asse delle ordinate e corrisponde al valore atteso di Y quando X= 0 Coefficiente angolare o Coefficiente di
Regressione: l’inclinazione della retta di regressione di Y su X e indica di quante unità cambia Y per una variazione unitaria della X.
Errore di previsione o residuo: le relazioni tra le variabili non sono perfette, quindi nell’equazione di regressione è presente un termine di errore (o residuo) per ogni caso.
Predittore
Criterio
LARETTA DI REGRESSIONE È LA MIGLIORE TRA TUTTE LE INFINITE RETTE CHE SI POSSONO FAR PASSARE ATTRAVERSO I PUNTI DEL DIAGRAMMA DI DISPERSIONE
METODO DEI MINIMI QUADRATI È il metodo che viene usato per scegliere la migliore retta possibile, cioè quella retta che rende MINIMA la somma delle distanze al quadrato tra le y (v. osservate) e le y’ (v. stimate).
Tipi di analisi della regressione
1 VI e 1 VD=Regressione lineare semplice
Più VI e 1 VD=Regressione lineare multipla
Più VI e più VD=Regressione lineare multipla multivariata
Regressione lineare multipla (caratterizzata da più VI) La VI deve essere quantitativa e la VD devono essere misurata almeno su scala ad intervalli; La varianza di ogni VI deve essere > 0; Il campionamento deve essere casuale semplice; La relazione tra la VI e la VD deve essere lineare; Non devono essere omesse VI rilevanti, o incluse VI irrilevanti; Assenza dell’errore di misurazione assunta per la VI; Assenza di MULTICOLLINEARITA’: se vi sono più VI nessuna di esse deve essere una combinazione lineare perfetta delle altre. Se i predittori sono troppo correlati tra di loro ciò causa problemi logici (ridondanza) e problemi statistici (aumenta la dimensione dei termini d’errore, indebolendo l’analisi)
standard o simultaneo : tutte le variabili indipendenti vengono inserite insieme nell’equazione di predizione. Ogni variabile indipendente viene quindi valutata in termini di cosa aggiunge alla predizione della variabile dipendente rispetto alla predizione garantita da tutte le altre variabili indipendenti. gerarchica o sequenziale: le variabili indipendenti sono inserite nell’equazione in un ordine specificato dal ricercatore, una alla volta, oppure, più comunemente, a blocchi. Ogni variabile o blocco di variabili indipendenti viene valutato in termini di cosa aggiunge alla spiegazione della variabilità della variabile dipendente al momento del suo ingresso. Il ricercatore di solito assegna l’ordine di entrata delle variabili nel modello in base a considerazioni di ordine logico o teorico, per cui non esiste una regola fissa. Statistica: è una procedura in cui l’ordine di entrata nel modello delle variabili è basato unicamente su criteri statistici. Le decisioni circa quali variabili inserire o escludere dall’equazione di regressione sono basate solo sulle statistiche calcolate nel campione oggetto della ricerca.
Una regressione multipla può essere realizzata in un gran numero di modi diversi. Le principali strategie di regressione multipla sono fondamentalmente tre:
Per l’elaborazione delle variabili, possono essere utilizzati diversi metodi: • Per blocchi: si valutano contemporaneamente tutti i predittori. Si usa
per la regressione standard e gerarchica. • Per passi (Stepwise), Rimozione (Remove), Indietro (Backward), e
Avanti (Forward) che si usano nella regressione se si vuole verificare l’apporto di ogni singolo predittore nei confronti di quanto già spiegato dagli altri rispetto alla predicibilità statistica. Si usano per la regressione statistica
Con SPSS…
Assunzioni sui residui •Il valore atteso dei residui deve essere = 0 •Omoschedasticità •La distribuzione dei valori dei residui per ogni X deve essere normale •Le VI non devono essere correlate con i residui
Esempio 1:
L’intenzione di acquisto di un motorino da parte di un adolescente può essere influenzata da una serie di fattori, quali
l’atteggiamento, il comportamento passato d’acquisto e il comportamento d’acquisto dei pari?
Si procede dal menu’ Analizza (Analyze):
Verrà visualizzata questa schermata nella quale si possono inserire, selezionandole, le variabili indipendenti (o predittori) e la variabile dipendente.
Per Blocchi (Enter) si valutano contemporaneamente tutti i predittori /o a blocchi stabilendo un ordine di entrata
Per passi (Stepwise), Rimozione (Remove), Indietro (Backward) e Avanti (Foward) si usano per valutare le variabili singolarmente
Da questa schermata si selezionano i coefficienti ritenuti necessari.
Coefficiente di regressione B errore standard di B Beta standardizzato valore t per B livello di significatività
R multiplo R2 e R2 corretto errore standard della stima tabella di analisi della varianza per la signif. di R2
Statistiche Descrittive
Correlazioni
Media del punteggio totale per ciascuna variabile
Deviazione standard per ogni variabile
N°casi validi
numero di casi per ogni correlazione
livello di significatività a una coda
Correlazione tra le variabili
Descriptive Statistics
10.4325 8.43085 541
10.6765 3.10686 541
9.4067 3.36445 541
47.5970 11.00557 541
inacquisto
compPassato
at tegg
compPari
Mean Std. Dev iat ion N
Correlations
1.000 .530 .379 .517
.530 1.000 .541 .495
.379 .541 1.000 .294
.517 .495 .294 1.000
. .000 .000 .000
.000 . .000 .000
.000 .000 . .000
.000 .000 .000 .
541 541 541 541
541 541 541 541
541 541 541 541
541 541 541 541
inacquisto
compPassato
at tegg
compPari
inacquisto
compPassato
at tegg
compPari
inacquisto
compPassato
at tegg
compPari
Pearson Correlation
Sig. (1-tailed)
N
inacquisto compPassato at tegg compPari
Model Summaryb
.614a .377 .373 6.67550 .377 108.109 3 537 .000 1.806
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
R Square
Change F Change df 1 df 2 Sig. F Change
Change Statist ics
Durbin-
Watson
Predic tors : (Constant), compPari, attegg, compPassatoa.
Dependent Variable: inacquistob.
Variabili inserite/rimosse
Riepilogo del modello
variabili inserite ed/o eliminate dal modello. variabili inserite contemporaneamente
Le VI presentano una correlazione multipla (R) con la VD di.61
R2 corretto (Adjusted R square) per i gradi di libertà per rendere lo stimatore efficiente
La varianza spiegata è del 37% R-quadrato (R Square)
La frazione di varianza spiegata dal modello è statisticamente significativa.
Test F legato alla significatività dell’indice di adattamento R2
(Variazione di F /F)
Cambiamento di R quadrato più statistica è importante in particolare per la regressione gerarchica
Variables Entered/Removedb
compPari,
at tegg,
comp
Passatoa
. Enter
Model
1
Variables
Entered
Variables
Remov ed Method
All requested v ariables entered.a.
Dependent Variable: inacquistob.
ANOVAb
14452.827 3 4817.609 108.109 .000a
23929.960 537 44.562
38382.787 540
Regress ion
Residual
Total
Model1
Sum of
Squares df Mean Square F Sig.
Predic tors: (Constant), compPari, at tegg, compPassatoa.
Dependent Variable: inacquistob.
Coefficientsa
-13.225 1.376 -9.613 .000 -15.927 -10.522
.817 .121 .301 6.750 .000 .579 1.055 .530 .280 .230 .584 1.713
.294 .102 .117 2.895 .004 .095 .494 .379 .124 .099 .706 1.416
.256 .030 .334 8.506 .000 .197 .315 .517 .345 .290 .754 1.326
(Constant)
compPassato
attegg
compPari
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Lower Bound Upper Bound
95% Conf idence Interval f or B
Zero-order Part ial Part
Correlat ions
Tolerance VIF
Collinearity Statistics
Dependent Variable: inacquistoa.
Coefficienti
B indica la pendenza della retta nei termini delle unità di scala impiegata
I B standardizzati (Beta) corrispondono all’R, permettono di vedere quale VI risulta più Importante.
Il t corrisponde al rapporto tra B e deviazione standard errore
I valori di probabilità sono inferiori a .05 L’errore standard
indica la varianza d’errore nella stima del valore esatto di B nella popolazione
Se il valore 0 è compreso tra i limiti superiore ed inferiore, la stima non risulta essere statisticamente diversa da 0. In questo caso sono significativi, poiché lo 0 non è compreso!
Tutti i coefficienti sono significativamente diversi da zero. Tutte le variabili predicono il comportamento d’acquisto, il comportamento d’acquisto dei pari ha un peso maggiore.
Il valore zero non è compreso in questi limiti per nessuno dei parametri, quindi essi risultano tutti statisticamente significativi
N.B. Gli intervalli di confidenza si utilizzano per valutare l’accuratezza dei punteggi predetti. L’intervallo indicherà con un livello di fiducia del 95% il range dei valori delle Y, in cui dobbiamo attenderci che cada la nostra stima di Y per X=XI. Sappiamo che più stretto è l’intervallo, migliore sarà la nostra predizione. Usando la logica della comprensione dell’inclusione o meno dello zero, equivale a stimare la larghezza dell’intervallo. Se lo zero non è compreso, l’intervallo è più stretto.
Coefficientsa
-13.225 1.376 -9.613 .000 -15.927 -10.522
.817 .121 .301 6.750 .000 .579 1.055 .530 .280 .230 .584 1.713
.294 .102 .117 2.895 .004 .095 .494 .379 .124 .099 .706 1.416
.256 .030 .334 8.506 .000 .197 .315 .517 .345 .290 .754 1.326
(Constant)
totB
totR
pswqtot
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Lower Bound Upper Bound
95% Conf idence Interval f or B
Zero-order Part ial Part
Correlat ions
Tolerance VIF
Collinearity Statistics
Dependent Variable: bditota.
Sempre nella tabella dei coefficienti analizziamo le correlazioni
Coefficienti di correlazione di Ordine Zero (r di Pearson) tra ogni singolo predittore e la variabile dipendente
Coefficienti di correlazione Parziali indicano le correlazioni tra ogni singolo predittore e la variabile dipendente tenendo sotto controllo congiuntamente gli altri predittori. La porzione della varianza la ottengo elevando al quadrato il coefficiente pr2
Coefficienti di correlazione Semiparziali o Indipendenti rappresentano la correlazione tra una VI e la VD quando tutte le altre VI vengono parzializzate per la VI e non per la VD. NB la proporzione della varianza totale della VD spiegata unicamente da una data VI, al netto di tutte le altre si ottiene elevando al quadrato questo indice sr2
Coefficientsa
-13.225 1.376 -9.613 .000 -15.927 -10.522
.817 .121 .301 6.750 .000 .579 1.055 .530 .280 .230 .584 1.713
.294 .102 .117 2.895 .004 .095 .494 .379 .124 .099 .706 1.416
.256 .030 .334 8.506 .000 .197 .315 .517 .345 .290 .754 1.326
(Constant)
totB
totR
pswqtot
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Lower Bound Upper Bound
95% Conf idence Interval f or B
Zero-order Part ial Part
Correlat ions
Tolerance VIF
Collinearity Statistics
Dependent Variable: bditota.
Le statistiche di collinearità analizzano la ridondanza tra le variabili indipendenti
L’indice di tolleranza viene utilizzato per stimare quanto una variabile indipendente è linearmente correlata alle altre variabili indipendenti. Varia tra 0 e 1. Maggiore è l’indice di tolleranza, minore è la varianza che la variabile condivide con le altre, maggiore è la sua spiegazione della VD.
La statistica VIF (Variance Inflation Factor) è il reciproco della statistica Tolerance
Coll inearity Diagnosticsa
3.869 1.000 .00 .00 .01 .00
.070 7.408 .10 .00 .73 .10
.037 10.282 .31 .80 .20 .00
.024 12.727 .58 .20 .06 .90
Dimension
1
2
3
4
Model
1
Eigenv alue
Condition
Index (Constant) compPassato attegg compPari
Variance Proportions
Dependent Variable: inacquistoa.
Diagnostiche di collinearità
Se gli autovalori (Eingenvalue) sono prossimi allo 0, le variabili sono fortemente correlate
Se l’indice di collinearità è compreso tra 15 e 30, indica possibili problemi di collinearità, se è maggiore di 30 la collinearità è grave.
Esempio 2: L’autostima correla altamente con diverse componenti del benessere psicologico:
autonomia controllo ambientale crescita personale relazioni positive con gli altri scopo nella vita autoaccettazione Una ricerca vuole indagare quali di questi fattori del benessere possa influire sull’autostima di un campione 70 preadolescenti attraverso specifici self-report
Descriptive Statistics
296.3286 47.08510 70
12.8714 2.97780 70
11.8429 3.28208 70
13.9429 2.63139 70
13.0000 3.45153 70
10.5429 2.59702 70
12.6429 3.36666 70
atostima tot
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
Mean Std. Dev iat ion N
Correlations
1.000 .190 .413 .294 .479 .007 .412
.190 1.000 .114 .330 .120 -.131 .484
.413 .114 1.000 .200 .206 -.274 .163
.294 .330 .200 1.000 .340 -.002 .336
.479 .120 .206 .340 1.000 .010 .479
.007 -.131 -.274 -.002 .010 1.000 -.039
.412 .484 .163 .336 .479 -.039 1.000
. .058 .000 .007 .000 .478 .000
.058 . .175 .003 .162 .139 .000
.000 .175 . .048 .044 .011 .089
.007 .003 .048 . .002 .494 .002
.000 .162 .044 .002 . .468 .000
.478 .139 .011 .494 .468 . .375
.000 .000 .089 .002 .000 .375 .
70 70 70 70 70 70 70
70 70 70 70 70 70 70
70 70 70 70 70 70 70
70 70 70 70 70 70 70
70 70 70 70 70 70 70
70 70 70 70 70 70 70
70 70 70 70 70 70 70
atostima tot
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
atostima tot
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
atostima tot
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
Pearson Correlation
Sig. (1-tailed)
N
atostima tot
ben
autonomia
ben controllo
ambientale
ben crescita
personale
ben relazioni
pos itiv e con
gli altri
ben scopo
nella v ita
ben
autoaccet
tazione
Variables Entered/Removedb
ben
autoaccett
azione,
ben scopo
nella v ita,
ben
controllo
ambiental
e, ben
crescita
personale,
ben
relazioni
pos itiv e
con gli
altri, ben
autonomiaa
. Enter
Model1
Variables
Entered
Variables
Remov ed Method
All requested v ariables entered.a.
Dependent Variable: atostima totb.
Model Summaryb
.617a .380 .321 38.78521 .380 6.449 6 63 .000 2.121
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
R Square
Change F Change df 1 df 2 Sig. F Change
Change Statist ics
Durbin-
Watson
Predic tors : (Constant), ben autoaccettazione, ben scopo nella v ita, ben controllo ambientale, ben cresc ita personale, ben relazioni pos itive con
gli alt ri, ben autonomia
a.
Dependent Variable: atostima totb.
Il test di Durbin-Watson esamina la presenza di autocorrelazione tra i residui . Infatti, i residui non devono essere correlati. Il suo valore è tra 0 e 4. Se non vi è correlazione il suo valore è intorno a 2, valori inferiori indicano correlazione positiva, superiori negativa
Le variabili presentano una correlazione multipla (R) di .61 con la VD
La varianza spiegata (R2)è del 38%
ANOVAb
58203.000 6 9700.500 6.449 .000a
94770.443 63 1504.293
152973.4 69
Regress ion
Res idual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predic tors: (Constant), ben autoaccettazione, ben scopo nella v ita, ben controllo
ambientale, ben crescita personale, ben relazioni posit ive con gli alt ri, ben
autonomia
a.
Dependent Variable: atostima totb.
La statistica F per la verifica delle ipotesi risulta essere significativa, rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa. Le componenti del benessere potrebbero predire l’autostima. Questo dato non è ancora sufficiente per sapere se tutti i predittori mostrano significatività statistica nei confronti della VD.
Coefficientsa
114.860 40.019 2.870 .006 34.888 194.832
.297 1.883 .019 .158 .875 -3.466 4.060 .190 .020 .016 .693 1.442
4.827 1.533 .336 3.149 .003 1.764 7.889 .413 .369 .312 .862 1.160
.988 2.009 .055 .492 .624 -3.025 5.002 .294 .062 .049 .780 1.281
4.034 1.624 .296 2.484 .016 .789 7.279 .479 .299 .246 .694 1.441
1.919 1.892 .106 1.015 .314 -1.861 5.700 .007 .127 .101 .903 1.107
2.691 1.817 .192 1.481 .144 -.941 6.323 .412 .183 .147 .582 1.717
(Constant)
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
Model1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Lower Bound Upper Bound
95% Conf idence Interval f or B
Zero-order Part ial Part
Correlat ions
Tolerance VIF
Collinearity Statistics
Dependent Variable: atostima tota.
Solo il coefficiente t del controllo ambientale e delle relazioni positive con gli altri è significativamente diverso da 0 riuscendo a Influire sull’autostima
Solo per questi due parametri lo zero non è compreso negli intervalli di confidenza
Coefficientsa
114.860 40.019 2.870 .006 34.888 194.832
.297 1.883 .019 .158 .875 -3.466 4.060 .190 .020 .016 .693 1.442
4.827 1.533 .336 3.149 .003 1.764 7.889 .413 .369 .312 .862 1.160
.988 2.009 .055 .492 .624 -3.025 5.002 .294 .062 .049 .780 1.281
4.034 1.624 .296 2.484 .016 .789 7.279 .479 .299 .246 .694 1.441
1.919 1.892 .106 1.015 .314 -1.861 5.700 .007 .127 .101 .903 1.107
2.691 1.817 .192 1.481 .144 -.941 6.323 .412 .183 .147 .582 1.717
(Constant)
ben autonomia
ben controllo ambientale
ben crescita personale
ben relazioni positiv e
con gli altri
ben scopo nella v ita
ben autoaccettazione
Model1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig. Lower Bound Upper Bound
95% Conf idence Interval f or B
Zero-order Part ial Part
Correlat ions
Tolerance VIF
Collinearity Statistics
Dependent Variable: atostima tota. sr2 (Coefficiente semiparziale al quadrato): proporzione di varianza totale dell’autostima spiegata unicamente da una data VI, al netto di tutte le altre. La variabile «controllo ambientale» è quella che presenta un contributo unico più elevato nella spiegazione della VD (0.312=9.6%)
La correlazione tra la variabile «controllo ambientale» e autostima è di .41
pr2La proporzione di varianza dell’autostima non spiegata dalle altre VI che è spiegata unicamente da una data VI al netto delle altre. «controllo ambientale» è pari a .392=15%
Coll inearity Diagnosticsa
6.743 1.000 .00 .00 .00 .00 .00 .00 .00
.083 8.993 .00 .00 .21 .00 .01 .39 .01
.063 10.382 .01 .05 .46 .00 .04 .04 .18
.052 11.437 .00 .27 .00 .00 .51 .00 .00
.028 15.425 .00 .03 .16 .39 .08 .13 .47
.020 18.267 .00 .48 .00 .52 .34 .00 .31
.011 25.092 .98 .17 .18 .09 .02 .42 .02
Dimension
1
2
3
4
5
6
7
Model
1
Eigenv alue
Condition
Index (Constant)
ben
autonomia
ben controllo
ambientale
ben crescita
personale
ben relazioni
pos itiv e con
gli altri
ben scopo
nella v ita
ben
autoaccet
tazione
Variance Proportions
Dependent Variable: atostima tota.
Residuals Statisticsa
228.2943 366.4516 296.3286 29.04345 70
-100.220 93.52456 .00000 37.06055 70
-2.342 2.414 .000 1.000 70
-2.584 2.411 .000 .956 70
Predic ted Value
Res idual
Std. Predic ted Value
Std. Residual
Minimum Maximum Mean Std. Dev iation N
Dependent Variable: atostima tota.
La media dei residui standardizzati e grezzi è uguale a 0 il primo assunto è rispettato.
L’istogramma e il normal probability plot (NPP) dei residui standardizzati, sono utilizzati per verificare se sia plausibile l’assunzione di normalità dei residui. Come possiamo osservare i residui seguono approssimativamente una distribuzione normale, sebbene sia riscontrabile una certa asimmetria nei dati. Nel NPP, i punti tendono a disporsi approssimativamente lungo una retta. Si può concludere che i residui standardizzati sono realizzazioni di una distribuzione normale standard.