DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI...

DATA MINING PER IL MARKETING

Andrea Cerioliandrea.cerioli@unipr.it

Sito web del corso

IL MODELLO DI REGRESSIONE LINEARE MULTIPLA

approccio matriciale + aspetti di inferenza

(Capitolo 4 del libro + Appendice A)

Modello di regressione nella popolazione e nel

campione

• Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice ora la deriviamo per esteso

ˆY X e

Popolazione( noto)

Campione( stimato)

Analisi dei valori previsti

yXXXXy ')'(ˆ 1

Hyy ˆ

')'( 1XXXXH

H: matrice di previsione (proiezione) Hat matrix: trasforma y in y cappello

Proprietà della matrice H• Simmetrica (nn): H = H’ • Idempotente: HH = H• Per esercizio (esempio investimenti): p. 186

• Gli elementi hii sulla diagonale principale della matrice H sono compresi tra 0 e 1 Nel modello di regressione semplice:

• Quindi hii è elevato se xi è distante dagli altri valori di X: alto leverage

Cosa succede se hii è elevato

y = 4.0322x - 0.3749

R2 = 0.9194

12 14 16 18 20 22 24 26 28

n = 50

Media X = 19.5

Come sopra, ma per la prima osservazione X passa da 17 a 50

12 17 22 27 32 37 42 47 52.000

20.000

40.000

60.000

80.000

100.000

120.000

f(x) = 1.18077540276336 x + 54.4492599803481R² = 0.225057840353833

Nella regressione multipla

• Traccia di H (somma degli hii)= k (numero di parametri)

• Media degli hii = k/n• Solitamente le osservazioni a cui

corrisponde

hii > 2k/n

vengono dette punti di leverage: i punti in cui hii è grande attirano l’iperpiano di regressione

Esercizio: grafico (in Excel) degli hii e identificazione dei punti di leverage: p. 189

Analisi dei residui• Modello “vero”:

• Modello stimato

• Pertanto:

ˆY X e

( ' ) '

e y y My M

M I X X X X I H

dove I è la matrice Identità

Quindi: e = (I-H)y = (I-H) le proprietà di e dipendono da quelle della matrice M=I-H

Proprietà dei residui (p.187)

Che cosa impariamo da tali formule?

Pertanto:

i = 1, …,n

i ≠ j

• Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori . Infatti Var() = 2I

• I punti in cui hii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(ei) discende che ei 0 se hii 1

• Le proprietà dei residui osservati dipendono da quelle della matrice M matrice simmetrica e idempotente (come H)

Stima di σ2

• Le proprietà di s2 derivano dalla relazione tra residui e errori

• DEV(E) = (n-k)s2 ~ 22 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202)

• gradi di libertà = n – k si “perdono” tanti df quanti sono i parametri da stimare

• e’e = DEV(E) = dev. residua

• k = numero di parametri da stimare (esplicative + intercetta)

• Stima corretta di 2:

s2 = e’e/(n-k) n-k = gradi di libertà (df)

Scomposizione devianza (mod. con intercetta)

• DEV(E): gradi di libertà = n – k • DEV(Y): gradi di libertà = n – 1 (rango

matrice A = I – ii’/n, con i = vettore di 1, p. 85) si “perde” 1 df, come nella stima della media (intercetta del modello senza X)

• DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M) df = numero parametri delle X

• Vale la relazione: (n – 1) = (n – k) + (k – 1)• Tabella riassuntiva: p. 197

∑𝒊=𝟏

( 𝒚 𝒊− 𝒚 )𝟐=∑𝒊=𝟏

( �� 𝒊−𝒚 )𝟐+∑𝒊=𝟏

(𝒚 𝒊− �� 𝒊 )𝟐

Analisi della bontà di adattamento

• Dalla scomposizione della devianza (modello con intercetta) def. di R2 nella regressione multipla:R2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y)

R2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr.

lineare multipla: p. 193)

• Se manca l’intercetta, la scomposizione e la definizione di R2 sono in termini di somme di quadrati

R2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y)Però non vale più la relazione con la corr. multipla

Distribuzione di (p. 191)

12 )'()ˆvar( XX

Sotto quali assunzioni?

Correttezza: significato

Significato; implicazione dell’inversione di X’X

(X’X: simmetrica k×k)

Inferenza su un singolo coefficiente di regressione (p. 197)

In pratica: stima s2 invece di 2 (v. output Excel e SPSS)

Distribuzione di tj (t-statistica)

tj presenta una distribuzione t di Student con n-k gradi di libertà

Analogia con la regressione semplice (k=2)

Il denominatore è l’errore standard di beta cappello

Intervallo di confidenza per βj:

Similmente per la verifica dell’ipotesiH0: βj = 0

ˆ~ ( )

jjt T n ks

Zone rifiuto/accettazione oppure calcolo p-value

Esempio: Dati Investimenti = f(PIL, Trend) Analisi con Excel

Coeff. E.S.Stat

tValore di

signif.Inf. 95%

Sup. 95%

Intercetta -441.27 60.77 -7.260 1.00025E-05 -573.69 -308.849

PIL (X1) 0.625 0.058 10.76 1.60798E-07 0.499 0.752

TREND (X2) -12.522 1.485 -8.432 2.1845E-06 -15.758 -9.287

Esistono stimatori “migliori” rispetto a

beta cappello?

Teorema di Gauss Markov: gli stimatori dei minimi quadrati

sono BLUE

Significato di questa proprietà nella regressione semplice (p. 151) nella regressione multipla (p. 191)

Efficienza (ma anche limiti) degli stimatori dei minimi quadrati

Test su un insieme di coefficienti

Significato

H0: β1 = β2 = … = βq = 0 q coefficienti sono = 0; i rimanenti r = k – q sono invece ≠ 0

H0 vera tutte le variabili esplicative X1 … Xq, associate ai coefficienti 1 … q, NON hanno effetto su Y: scegliamo un modello ridotto senza X1 … Xq

H0 falsa almeno una tra le variabili esplicative X1 … Xq ha effetto su Y: teniamo quindi il modello completo con tutti i coefficienti, non sapendo quale β≠0

Test sul modello

• Si utilizza il test F: rapporto tra devianze

• Richiamo alla distribuzione F (pp. 111-112)

H0: β1 = β2 = … = βk-1 = 0 (solo β0 ≠ 0)

• e’rer = Devianza totale modello senza variabili esplicative, solo con intercetta = media: df = n – 1

• e’e = Devianza residua modello con tutte le variabili esplicative (k parametri): df = n – k

• e’rer – e’e = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1 numero di coefficienti posti = 0 sotto H0 (numero di variabili esplicative)

)/()1(

)1/()(2

knEDEV

kRDevF

Rifiuto H0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo

Esempio• Dati investimenti = f(PIL, Trend)

ANALISI VARIANZA (ANOVA)

gdl SQ MQ F Significatività F

Regressione 25841.0691

82920.5

3107.8605

1 2.14126E-08

Residuo 12324.92348

427.076

Totale 146165.9926

6 Per esercizio: calcolare indice R2

Esempio investimenti: output SPSS

Interpretazione di tutte le quantità riportateConfronto con output Excel

Coefficienti standardizzati• SPSS riporta anche i coefficienti standardizzati

• Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina l’effetto dell’ordine di grandezza e dell’unità di misura sulle X e su Y

• I coeff. std. hanno l’obiettivo di essere confrontabili tra loro dovrebbero misurare l’importanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più “importante” di X1)

• Però il concetto di “importanza relativa” è vago:– Se X ha coeff. std max non è detto che X abbia effetto max

– coeff. std = rxy ma solo se le X sono incorrelate– i coeff. std “confondono” concetti diversi: l’effetto assoluto su

Y (tramite β) e l’effetto della variabilità (tramite )• Per tali motivi i coeff. std non sono molto utilizzati il

confronto tra le X può essere fatto con le t-statistiche

ˆ ( )ˆ ˆˆ ( )

Intervallo di previsione: intervallo di confidenza del valore y0 associato ad uno

specifico insieme di valori delle variabili esplicative

v. §4.13

Passo finale: si esplicita y0

Intervallo di confidenza (di probabilità 1 - ) per la “nuova” osservazione y0: intervallo di previsione di y0

Esempio investimenti (v. p. 218 per i passaggi)

818.236ˆ0 y 𝑣𝑎𝑟 (𝑒0 )=40.515

Commento

Le diagnostiche del modello di regressione

• § 4.11 – 4.13

• Metodi grafici e semplici trasformazioni dei residui

• Implementati in SPSS (e in tutti i software)

• Da usare con cautela

Data set per esercitazioni sulla regressione (v. sito del corso)

• Esercitazione 1: Space Shuttle

Challenger

• Esercitazione 2: analisi del mercato

immobiliare

• Esercitazione 3: dati Trade

(semplificati)

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI...

Documents

Transcript of DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI...

IL BUSINESS PLAN - boa.unimib.it · 1.2.4 Business Plan per analizzare le dinamiche di sviluppo..... 11 1.3 Le funzioni del Business Plan ... Figura 22 Struttura matriciale ...

Appunti di algebra matriciale - UniTrentohostingwin.unitn.it/micciolo/srs/GermanoRossi.pdf · Se dovessimo lavorare sull’intera tabella di numeri, dovremmo ogni volta generalizzare

Sviluppare il pensiero flessibile - shop.erickson.it · Paola Pizzingrilli, Chiara Valenti, Luciano Cerioli e Alessandro Antonietti SVILUPPARE IL PENSIERO FLESSIBILE Percorsi interdisciplinari

ICAR2013.preliminare Layout 1 - epac.it · AIMI - Associazione Infermieri Malattie Infettive AISF ... Benedetto Maurizio CELESIA - Catania, Italia Alessandra CERIOLI - Bologna, Italia

SOFTWARE PER L’ANALISI MATRICIALE DELLE TRAVI … · trave Polonceau, trave Palladio, trave Fink, ... Il metodo matriciale elastico ... Carico della neve al suolo ...

Resistenza dei BioMaterialidma.ing.uniroma1.it/users/scicostr_c1/CapISforzo.pdf · Resistenza dei BioMateriali Sforzo R 4 Relazione Vettore/Tensore di Sforzo Forma matriciale / tensoriale

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso Il caso dello Space Shuttle Challenger Dati e documentazione:

De Cecco e Vitolo Note Di Calcolo Matriciale

santa Paola Elisabetta Cerioli Curricolo 2014 classe 3 · spiegazione/esercizi esercizi di riepilogo e ... Elementi di statistica e probabilità ...

Forma Scara Redusa a Unei Matrici, Transformari Matriciale

DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore.

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LOGISTICA Estensioni e applicazioni.

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso MISURE DI ASSOCIAZIONE PER APPLICAZIONI DI MARKETING.

1 RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE MATRICE INSIEME ORDINATO DI NUMERI DISPOSTI IN RIGHE E COLONNE ELEMENTO GENERICO i = 1, 2, …, M (righe); j.

Daniela Tondini dtondini@unite · LE MATRICI Si osservi che per confermare una formula matriciale, occorre premere Ctrl+Shift+Invio; così facendo, Excel chiude la formula matriciale

santa Paola Elisabetta Cerioli Curricolo 2014 classe 2 · ‐ Umanesimo e Rinascimento. ‐ Le grandi scoperte geografiche e il colonialismo. Verifiche scritte / orali a risposta

Ivan Cerioli Via Pozzoli,1 26856 Senna Lodigiana (LO) · Via Pozzoli,1 Ivan Cerioli 26856 Senna Lodigiana (LO) ... nei modi ) che è possibile raggiungere in bicicletta gran parte

Statistica per l’economia e l’impresa Richiami di Algebra Matriciale

PowerPoint Presentation - microbio.ucoz.com · Asigură aderarea bacteriilor la receptorii de pe suprafaţa celulelor-ţintă sau la proteine matriciale extracelulare (colagen, fibronectină,