Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
1
LA SEGMENTAZIONE DEL MERCATO Per definire gli obiettivi e le modalità di una strategia commerciale, una azienda deve essere in grado di:
1) valutare le caratteristiche, i bisogni e i comportamenti probabili degli acquirenti potenziali
2) identificare domande di tipo diverso da parte dei consumatori, allo scopo di adattare in modo conforme i prodotti e le attività relative di marketing agli specifici bisogni che queste domande esprimono
3) delimitare il mercato in cui intende operare ⇒ suddivisione, cioè segmentazione, del mercato in gruppi omogenei al loro interno e distinti tra loro di consumatori che si presume richiedano specifici prodotti e verso i quali si dovranno indirizzare specifiche politiche di vendita al fine di adeguare i prodotti e le strategie di marketing alle differenze ravvisabili nelle esigenze manifestate dai consumatori
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
2
Adottare una strategia di segmentazione significa, quindi, riconoscere esplicitamente l’esistenza di elementi di eterogeneità entro un mercato. Le informazioni a partire dalle quali trova applicazione una strategia di segmentazione riguardano:
• aspetti demografici, economici, sociali e psicografici dei consumatori;
• caratteristiche legate alle situazioni di consumo (tipologie di acquisto e di utilizzazione del prodotto, benefici attesi, risposte a variabili presenti nell’offerta di marketing dell’azienda, ecc.).
Le variabili a disposizione possono assolvere al ruolo di:
• basi, se generano direttamente il processo di classificazione in gruppi delle unità statistiche in osservazione
• descrittori, se entrano in gioco solo nella fase di interpretazione dei profili dei segmenti
Tipologie di segmentazione • a priori • a posteriori
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
3
Modelli di segmentazione a priori Suddivisione del collettivo in esame a seconda delle modalità presentate da una o più basi, specificate a priori
⇒ L’attività di segmentazione si riduce ad una semplice classificazione delle unità statistiche in classi preventivamente definite Tecniche statistiche di partizione ricorsiva (alberi di classificazione), come l’Automatic Interaction Detection (AID), la Chi-squared Automatic ID (CHAID), e Classification And Regression Trees (CART) per:
• individuare i descrittori dei profili dei segmenti
• ottenere una descrizione sintetica del profilo stesso
Modelli di segmentazione a posteriori
Si basano sull’applicazione di algoritmi di raggruppamento (clustering)
Si differenziano dai precedenti per il modo in cui viene selezionata la base di segmentazione: • manca una scelta a priori • non sono prefissati, in generale, né il numero, né le tipologie dei gruppi da formare
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
4
I segmenti sono determinati attraverso la classificazione delle unità statistiche effettuata sulla base del grado di dissomiglianza rispetto ad un insieme di variabili (comportamenti, bisogni, attitudini dei consumatori, lo stile di vita, ecc.. )
E' importante tenere in considerazione la stabilità nel tempo delle tipologie individuate: l’individuo attribuito ad un certo segmento, continuerà a fare parte dello stesso segmento nel corso del tempo e/o in situazioni ambientali diverse? L’analisi di segmentazione prevede nell'ordine:
1. la determinazione dei segmenti 2. l’identificazione del loro profilo sulla base di specifiche caratteristiche degli intervistati Per comprendere appieno la struttura dei segmenti selezionati è necessario valutare il loro grado di omogeneità e identificarne, in particolare, l’ampiezza relativa e la composizione. Nella fase 2 si esamina l’esistenza di differenze significative in senso statistico fra i valori medi o le frequenze relative assunti nei segmenti dalle variabili che ne descrivono i profili.
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
5
ANALISI DEI GRUPPI - AG (cluster analysis) Consideriamo un certo numero (n) di unità su cui abbiamo osservato p fenomeni (variabili). Obiettivo:
Individuare gruppi di osservazioni all’interno dei quali le osservazioni siano simili (omogenei al loro interno) ed eterogenei tra di loro (gruppi distinti).
Tale omogeneità/disomogeneità si riferisce all’insieme delle variabili osservate
Attenzione : non sappiamo a priori se tali gruppi esistono effettivamente Attraverso l’AG, una realtà molto variegata viene semplificata e ricondotta ad alcune tipologie più leggibili: CLASSIFICAZIONE
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
6
Ad esempio
0
0,5
1
1,5
2
2,5
3
3,5
0 1 2 3 4
X1
X2
0
5
10
15
20
25
30
35
0 2 4 6 8
X1
X2
Gruppi ben definiti� Gruppi non ben definiti� correlazione bassa correlazione elevata
L'obiettivo è quello di realizzare un raggruppamento rispetto a p fenomeni ⇒ abbiamo bisogno di un algoritmo non banale (per p>3 la rappresentazione grafica non ci aiuta) Osservazione di p variabili ps XXXX ,...,,...,, 21 con riferimento ad n individui (i=1,…,n):
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
7
MATRICE dei dati X, dim. n x p Matrice di dissomiglianza tra le unità (distanze o dissimilarità). dim. n x n
npnsn
ipisi
ps
xxx
xxx
xxx
......
...............
......
...............
......
1
1
1111
=
=
0
0
1
1
21
111211
............
..................
............
..................
...............
......
n
iji
nj
d
dd
d
dddd
D
Il raggruppamento delle unità avviene sulla base della matrice D Vedremo che la scelta del tipo di d ci condurrà all’impiego di diversi algoritmi di raggruppamento
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
8
Impieghi dell’AG in ambito economico-aziendale Identificazione di gruppi di:
• consumatori (o utenti di un certo servizio pubblico) sulla base di: � comportamento al consumo � opinioni sul prodotto � importanza assegnata a varie caratteristiche di un prodotto
(segmentazione del mercato)
• strutture di servizi secondo varie caratteristiche che ne definiscono l’efficienza
• marche di un certo prodotto secondo varie caratteristiche
• aziende secondo caratteristiche legate ai rapporti con l’estero
FASI dell’AG
� Scelta delle variabili ed eventuale trasformazione delle stesse
� Scelta della misura di dissomiglianza
� Scelta dell’algoritmo di raggruppamento
� Valutazione della partizione ottenuta e scelta del numero ottimale di gruppi
� Interpretazione dei risultati ottenuti (connotazione dei gruppi)
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
9
Scelta delle variabili
La metodologia statistica è di scarso aiuto, è necessaria una buona conoscenza del fenomeno (l’impiego di variabili con scarso potere discriminatorio può rendere confusa la classificazione)
Se numero elevato di variabili: AG sui punteggi delle prime k CP Trattamento preliminare delle variabili • Generalmente variabili espresse nella stessa scala di misura • Se variabili quant. espresse secondo diverse unità di misura/diverso ordine di
grandezza: standardizzazione Scelta della misura di distanza/dissimilarità Variabili quantitative: indice di distanza Variabili qualitative: indice di dissimilarità
…e quindi ci si basa sulle caratteristiche delle singole metriche (ad es. proprietà)… ─ la più usata è la distanza euclidea (var. quant.) ─ se var. correlate: dist. di Mahalanobis (var. quant.) ─ può essere opportuno verificare la stabilità dei risultati con vari tipi di distanza/diss.
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
10
Scelta dell’algoritmo di raggruppamento, di tipo • Gerarchico • Non gerarchico
I metodi gerarchici consentono di ottenere un insieme di gruppi ordinabili secondo livelli crescenti, con un numero di gruppi da n ad 1:
� al livello iniziale ogni unità costituisce un gruppo � negli stadi intermedi si aggregano gli elementi in gruppi via via sempre più
numerosi � al livello finale tutte le unità sono riunite in un unico gruppo � la scelta del numero dei gruppi avviene contestualmente.
(metodi aggregativi o bottom-up, ve ne sono anche di scissori)
I metodi non gerarchici forniscono un’unica partizione delle n unità in g gruppi, e g deve essere specificato a priori
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
11
Scelta del numero ottimale di gruppi Negli algoritmi di tipo gerarchico avviene, sostanzialmente, sulla base principio per cui non bisogna accorpare gruppi troppo diversi tra loro…. Valutazione della partizione ottenuta L’esistenza dei gruppi non è scontata, potremmo aver ottenuto una partizione che non esiste nella realtà…. La classificazione ottenuta fornisce gruppi: i) composti ognuno da unità simili, e ii) distinti tra loro? Interpretazione dei risultati ottenuti Quali sono le caratteristiche di ognuno dei gruppi ottenuti? ….differenze…. Come si intuisce, è necessario effettuare alcune scelte che introducono elementi di soggettività: è importante la stabilità della soluzione
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
12
METODI DI RAGGRUPPAMENTO DI TIPO GERARCHICO (aggreg ativo)
Genera una famiglia di partizioni delle n unità, a partire da quella banale di n gruppi a quella in cui tutte le unità sono riunite in 1 gruppo Si determinano diversi livelli di partizioni (che corrispondono ad un diverso numero di gruppi) ed i gruppi che si ottengono ad ogni livello comprendono i gruppi ottenuti ai livelli inferiori
→ quando due o più unità sono state unite ad un certo livello della procedura, esse non saranno più separate A questi diversi livelli corrispondono diversi livelli di omogeneità :
una partizione in g gruppi sarà caratterizzata da u na maggiore omogeneità interna rispetto alla partizione in g-1 gruppi
N.B. : Abbiamo parlato di somiglianza/dissomiglianza
(o di omogeneità/eterogeneità) TRA ed ENTRO Nel seguito sarà usato il termine “distanza”, più familiare (anche se, a rigore, dovremmo usare il termine “dissomiglianza” che è più generale) e si preciserà di volta in volta se l’algoritmo può essere usato sia per variabili quantitative (distanza Euclidea, di Mahalanobis, ecc.), sia per variabili qual. (indici di similarità) o solo per variabili quant.
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
13
Fasi per la realizzazione di una procedura gerarchi ca di raggruppamento
a) Si calcola la matrice delle distanze D (simmetrica e n x n)
b) Si individuano in D le due unità più simili (con minore distanza ) e si riuniscono in un unico gruppo � n-1 gruppi
c) Si calcola una nuova matrice di distanza tra gruppi (n-1 x n-1) D1
d) Si individuano in D1 i due gruppi con minore distanza e si riuniscono in un unico gruppo � n-2 gruppi Se vi sono q coppie alla stessa distanza si fondono tutte le coppie ed i gruppi saranno n-(2q-1)
e) Si ripetono le fasi c) e d) fino ad arrivare ad un unico gruppo
Fase 1 n gruppi Fase 2 n-1 gruppi ……………….
Fase k n-k+1 gruppi ……………….
Fase n 1 gruppo Vi sono vari metodi gerarchici a seconda del criterio utilizzato per calcolare la distanza tra i gruppi (non ancora definita!)
La procedura descritta è valida anche per variabili qualitative: si parlerà, in tal caso, di maggiore similarità in luogo di maggiore distanza
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
14
Dendrogramma Procedura sopra descritta ⇒ rappresentata graficamente mediante un diagramma ad “albero” In “ascissa” sono riportate le distanze tra i gruppi che si fondono (a volte riscalate, ponendo uguale a 25 il livello di distanza al quale tutte le unità formano un unico gruppo) Rescaled Distance Cluster Com bine 0 5 10 15 20 25 Num +---------+---------+---------+---------+---------+
C A S I 4 òûòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòø 5 ò÷ò÷ò÷ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòòòò÷ óóóó 6 ò÷ò÷ò÷ò÷ óóóó 1 òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 3 òòòòò÷òòòòò÷òòòòò÷òòòòò÷
Andando da sx a dx, via via che il numero dei gruppi diminuisce, aumenta la distanza tra i gruppi che si fondono (e aumenterà la disomogeneità interna ai gruppi) … il dendrogramma viene impiegato per scegliere il num. dei gruppi
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
15
Definizione della distanza tra due gruppi
� metodi di raggruppamento
• del legame singolo • del legame completo • del legame medio • del centroide • di Ward
Consideriamo due gruppi C e G rispettivamente di numerosità n1 ed n2. Metodo del legame singolo (del vicino più vicino)
La distanza tra i due gruppi C e G è definita come la più piccola (il minimo) tra tutte le n1n2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(C,G)=min(dij ) ∀∀∀∀ i ∈∈∈∈ C, ∀∀∀∀ j ∈∈∈∈ G Si uniscono i due gruppi che presentano la più piccola distanza così definita
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
16
Esempio: Consideriamo sei dipendenti di un’azienda (ad esempio in forze in una certa divisione) che sono stati valutati per le loro prestazioni lavorative in termini di:
─ cortesia ─ competenza ─ capacità di lavorare in gruppo p=5 ─ flessibilità n=6 ─ capacità organizzative
unità cortesia competenza gruppo flessibilità organizza 1 8 8 9 9 8 2 4 4 5 4 4 3 8 7 7 8 7 4 5 6 6 6 6 5 6 6 6 6 7 6 3 4 4 5 4
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
17
Statistiche descrittive
6 3 8 5,67 2,07
6 4 8 5,83 1,60
6 4 9 6,17 1,72
6 4 9 6,33 1,86
6 4 8 6,00 1,67
6
cortesia
competenza
cap. a lav. in gruppo
flessibilità
cap. organizzative
Validi (listwise)
N Minimo Massimo MediaDeviazione
std.
Var. quantitative, stessa unità di misura, con medie e varianze simili: operiamo sulle variabili originarie e impieghiamo la distanza euclidea Passi della procedura di raggruppamento impiegando il metodo del legame singolo:
Passo 1: matrice delle distanze tra unità
Unità 1 2 3 4 5 6
1 9,43 2,65 5,92 5,20 9,902 9,43 7,35 3,74 4,69 1,733 2,65 7,35 4,00 3,16 7,814 5,92 3,74 4,00 1,41 4,125 5,20 4,69 3,16 1,41 5,206 9,90 1,73 7,81 4,12 5,20
I due individui più vicini sono il 4 e il 5:
la prima partizione in 5 gruppi è 1, 2, 3, (4,5), 6
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
18
Passo 2: Calcolo delle distanze tra il gruppo (4,5) e le restanti unità:
d [1,4]= 5,92 scelgo quella min tra le due ⇒ d [1,(4,5)]= 5,20 d [1,5]= 5,20
d [2,4]= 3,74 ⇒ d [2,(4,5)]= 3,74 d [2,5]= 4,69
d [3,4]= 4 ⇒ d [3,(4,5)]= 3,16 d [3,5]= 3,16 Nuova matrice delle distanze:
Unità 1 2 3 4,5 6
1 9,43 2,65 5,20 9,902 9,43 7,35 3,74 1,733 2,65 7,35 3,16 7,814,5 5,20 3,74 3,16 4,126 9,90 1,73 7,81 4,12 I “gruppi” più vicini sono il gruppo costituito dall’unità 6 e quello costituito dall’unità 2 ⇒
seconda partizione in 4 gruppi è 1, (2,6), 3, (4,5)
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
19
Passo 3:
Si calcolano le distanze tra (2,6) e 1, 2, 3 come sopra…
Calcolo delle distanze tra (2,6) e (4,5): d [2,4]= 3,74 ⇒ d [(2,6),(4,5)]= 3,74 d [2,5]= 4,69 d [6,4]= 4,12 d [6,5]= 5,20 Nuova matrice:
Unità 1 2,6 3 4,5
1 9,43 2,65 5,202,6 9,43 7,35 3,743 2,65 7,35 3,164,5 5,20 3,74 3,16 I “gruppi” più vicini sono il gruppo costituito dall’unità 1 e quello costituito dall’unità 3 ⇒
terza partizione in 3 gruppi è (1,3), (2,6), (4,5)
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
20
Passo 4: ….2 gruppi (1,3,4,5), (2,6)
stadio Distanza di
fusione Distanza di
fusione riscalata 1
1 (5 gruppi) 1,41 --- --- 2 (4 gruppi) 1,73 3,43 5 ����4 3 2,65 13,30 4����3 4 3,16 18,78 3����2 5 3,74 25,00 2����1
Dendrogramma– metodo del legame singolo C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 4 òûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 5 ò÷ò÷ò÷ò÷ ùòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòø 1 òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòò÷ óóóó 3 òòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòò÷ óóóó 2 òòòòòûòòòòòòòûòòòòòòòûòòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷ 6 òòòòò÷òòòòò÷òòòòò÷òòòòò÷
1 Ponendo min=minimo della dist. di fusione (1,41) e max= massimo della dist. di fusione (3,74), le distanze riscalate drs, si ottengono dalle distanze di fusione originarie dfs, in cui s indica lo stadio nel seguente modo: drs=[25*(dfs-min)]/(max-min) con dr1= df1
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
21
Metodo del legame completo (o del vicino più lont ano)
La distanza tra i due gruppi C e G è definita come il massimo tra tutte le n1n2 distanze che si possono calcolare tra ciascuna unità i di C e ciascuna unità j di G: d(C,G)=max(dij ) ∀∀∀∀ i ∈∈∈∈ C, ∀∀∀∀ j ∈∈∈∈ G Si uniscono i due gruppi che presentano la più piccola distanza così definita Metodo del legame medio
La distanza tra i due gruppi C e G è definita come la media aritmetica delle n1n2 distanze tra ciascuna unità i di C e ciascuna unità j di G:
d(C,G)= ∑ ∑= =
n
i
n
jijd
nn 1 221
1 ∀∀∀∀ i ∈∈∈∈ C, ∀∀∀∀ j ∈∈∈∈ G
Si uniscono i due gruppi che presentano la più piccola distanza così definita
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
22
Alcune considerazioni….. Metodo del legame singolo: • individua gruppi non necessariamente sferici (metodo non legato alla forma del
cluster) che possono risultare scarsamente omogenei al loro interno (effetto catena)
• interessante per individuare cluster di forma non sferica Metodo del legame completo: individua gruppi sferici e compatti Metodo del legame medio:
buon compromesso tra i precedenti Si noti che i tre metodi presentati possono essere usati sia con distanze sia con indici di dissimilarità - variabili qualitative.
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
23
I metodi seguenti richiedono variabili quantitative. Quindi, quando nel seguito parliamo di “distanza” intendiamo …calcolabile su variabili quantitative…, ad es. d. euclidea, di Minkowski, di Mahalanobis, ecc.) Metodo del centroide
La distanza tra i due gruppi C e G è definita come la distanza tra i rispettivi centroidi d(C,G)=d( )GC xx , ∀∀∀∀ i ∈∈∈∈ C, ∀∀∀∀ j ∈∈∈∈ G Si uniscono i due gruppi che presentano la più piccola distanza così definita. Problemi legati al fatto che la distanza di fusione ad un certo stadio (k gruppi) può essere inferiore a quella rilevata in una fusione successiva (k-1 gruppi) e questo rende difficile la scelta del numero dei gruppi effettuata attraverso il dendrogramma e l’interpretazione dei risultati
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
24
Metodo di Ward (forse il più utilizzato), impiegato con la distanza euclidea quadr.
Avvertenza: tale metodo può essere impiegato con variabili quantitative e con qualsiasi distanza calcolabile per tale tipo di variabili. Per semplicità, sarà, tuttavia, presentato impiegando la distanza euclidea quadr. Ricordiamo che la Devianza totale delle p variabili è la somma delle distanze euclidee al quadrato tra le singole osservazioni ed il vettore delle medie :
( ) ( ) ( )∑∑ ∑∑ ∑== == =
=−=−=n
i
n
i
p
ssis
p
s
n
isis idxxxxT
1
2
1 1
2
1 1
2 , 2 x
Dev totale (p variabili)= somma delle distanze eucl. al quadrato…
sx è la media della variabile s con riferimento all’intero collettivo Data una partizione in g gruppi, tale devianza può essere scomposta in Devianza entro i gruppi e Devianza tra i gruppi:
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
25
Dev. Entro i gruppi (p variabili):
∑=
=g
kkWW
1
in cui kW = ( )∑ ∑= =
−p
s
n
iksis
k
xx1 1
2,
è la devianza riferita alle p variabili con riferimento al gruppo k e ksx , è la media della variabile s con riferimento al gruppo k Dev. Tra i gruppi (p variabili):
( )∑ ∑= =
−=p
s
g
kksks nxxB
1 1
2,
Somma sulla p variabili delle devianze (ponderate) delle medie di gruppo rispetto alla media generale Dev tot p = Dev entro p + Dev tra p T = W + B
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
26
Nel passare da k+1 a k gruppi (aggregazione):
� Dev entro aumenta Dev tra diminuisce per k=g (primo passo) Dev entro=0
per k=1 (ultimo passo) Dev entro = Dev tot e (Dev tra=0) Ad ogni passo della procedura di Ward si aggregano tra loro quei gruppi per cui vi è il minor incremento della devianza entro i gruppi SCELTA DEL NUMERO DEI GRUPPI E CRITERI DI VALUTAZIONE DELLE PARTIZIONI In generale il criterio che si usa per la scelta del numero dei gruppi è il seguente:
• si considerino due passi consecutivi nella procedura di aggregazione;
• se nel passare da k+1 a k gruppi si aggregano due gruppi molto diversi tra loro, allora è meglio fermarsi prima, cioè a k+1 gruppi
A tale fine possiamo impiegare varie tecniche:
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
27
1) dendrogramma: “taglio” allo stadio in cui la distanza di fusione risulta troppo elevata Con riferimento all’esempio precedente, algoritmo di Ward:
Stadio Distanza di
fusione Incrementi relativi della
dist. di fusione Distanza riscalata
1 (5 gruppi ) 1,00 2 (4 gruppi ) 2,50 1,50 (da 5 a 4 gruppi) 0,5 3 6,00 1,40 (da 4 a 3 gruppi) 1,6 4 24,75 3,13 (da 3 a 2 gruppi) 7,5 5 80,33 2,25 (da 2 a 1 gruppo) 25 Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 4 òûòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòøòûòòòòòòòòòòòòòòòø 5 ò÷ò÷ò÷ò÷ ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòøùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 2 òûòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòò÷òûòòòòòòòòòòòòòòò÷ óóóó 6 ò÷ò÷ò÷ò÷ óóóó 1 òòòûòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòûòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòò÷òòòòòòòòòòòòòòòòòòòòòòòòò÷ 3 òòò÷òòò÷òòò÷òòò÷
nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro → 3 gruppi
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
28
2) scree plot: in ordinata il numero dei gruppi ed in ascissa la distanza di fusione
0
1
2
3
4
5
6
0.00 20.00 40.00 60.00 80.00 100.00
distanza di fusione
num
. di g
rupp
i
3) Incrementi relativi della distanza di fusione
Ad es. per lo stadio 3 (da 4 a 3 gruppi) corrisponde a: 4,15,2
5,26 =− (vedi tab. precedente)
L’incremento più elevato si ha nel passare da 3 a 2 gruppi → 3 gruppi
( ) ddd kkkk 11 ++−=δ scelgo k per cui max=kδ
Lo scree plot suggerisce che nel passaggio da 3 a 2 gruppi sono stati aggregati gruppi troppo dissimili tra loro → 3 gruppi
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
29
4) Indice R 2 : R2 = 1 – W/T = B/T Misura la quota di variabilità totale nella matrice dei dati (p variabili) che può essere “spiegata” dalla partizione in gruppi considerata: nel passare da k+1 a k: diminuisce • assume valori nell’intervallo [0,1] → confrontabile per partizioni differenti (valore
ottimale è quello prossimo all’unità) • maggiore inconveniente → porterebbe a privilegiare la partizione banale di n gruppi
composti da una sola unità • lo si utilizza considerando i decrementi nel passare da k+1 a k (se decremento
elevato: k+1 gruppi) NB: tale indice viene usato soprattutto per giudica re della bontà della partizione finale individuata
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
30
METODI DI RAGGRUPPAMENTO DI TIPO NON GERARCHICO Si ottiene una sola partizione degli n elementi in g gruppi, con g prefissato Si cerca la partizione in gruppi che soddisfi un determinato criterio di ottimalità attraverso:
procedura iterativa in cui si definisce una partizione iniziale e si spostano successivamente le unità da un gruppo all’altro così da ottenere la partizione “ottimale”2
In genere “ottimale” corrisponde ad un criterio di minimizzazione della Dev entro (p variabili) Vantaggi:
o velocità di esecuzione o non c’è più il vincolo per cui negli alg. gerarchici se due unità vengono fuse all’inizio,
rimangono tali fino alla fine o non necessita dell’uso del dendrogramma che, per n elevato, risulta difficilmente
interpretabile
2 Per ottenere la partizione “ottimale” bisognerebbe analizzare tutte le possibili partizioni, vedremo che ciò non è possibile essendo queste in numero enorme (n=20 e k=4: oltre 45 miliardi di possibili partizioni!). Si parla allora di ottimo locale (condizionato alla partizione iniziale scelta)
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
31
Se si ritiene che vi sia una struttura gerarchica allora alg. gerarchici, altrimenti non gerarchico Fasi di una procedura iterativa alla base degli alg . di tipo non gerarchico a) Scelta del numero g di gruppi b) Scelta della classificazione iniziale in g gruppi c) Calcolo del valore della funzione obiettivo d) Riallocazione delle unità in gruppi che garantiscono il miglioramento più elevato nella
coesione interna ai gruppi e) Iterazione dei passi c) e d) fino a che non viene soddisfatta una regola di arresto Metodo delle k medie (k=g gruppi) 1. Scelta di g centri (poli, semi: c1, c2, …, ch,…, cg)
2. Raggruppamento delle unità intorno ai k centri in modo che il gruppo delle unità associate a ch è costituita dall’insieme delle unità più vicine a ch che a qualsiasi altro centro.
3. Calcolo dei centroidi dei g gruppi così ottenuti
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
32
4. Calcolo della distanza di ogni elemento da ogni centroide: se la distanza minima non è ottenuta in corrispondenza del centroide del gruppo di appartenenza, allora l’unità è riallocata al gruppo che corrisponde al centroide più vicino
5. Ricalcolo dei centroidi 6. Iterazione dei passi 4. e 5. fino a che i centri non subiscono ulteriori modifiche rispetto
alla iterazione precedente Solitamente si utilizza la distanza euclidea, che garantisce la convergenza della procedura iterativa. In tal caso: Distanza tra unità i e centroide del gruppo l, calcolato nell’iterazione t è
( )( ) ( )( )∑=
−=p
s
tlsis
tlsi xxd
1
2
,,,xx
� il criterio di ottimalità corrisponde alla minimizzazione della Dev entro (p) (di W) Una misura naturale della bontà della partizione è R2 =B/T
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
33
Problemi: • La classificazione finale può essere influenzata dalla scelta iniziale dei poli: attenzione
all’ordine delle unita • Soluzioni instabili se:
─ valori anomali ─ nei dati non esiste struttura in gruppi ─ n piccolo
Soluzione: meglio scelta casuale (badando a che i centri non siano valori anomali e che siano ben distinti) oppure scegliamo come centro il baricentro di una nube di punti
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
34
Scelta del numero g di gruppi
Non sempre si dispone di indicazioni a priori (non in ambito socio-economico) Esecuzione dell’analisi per valori diversi di g e successiva valutazione della bontà della partizione attraverso R2
• …ma il numero dei possibili valori di g non deve essere elevato, altrimenti si perde il vantaggio della velocità di esecuzione
• non è detto, inoltre, che si riesca ad individuare una soluzione “ottima” tra tutte le partizioni ottenute
a) algoritmo di tipo gerarchico b) scelta di un intervallo di valori “ragionevoli” per g c) algoritmo di tipo non gerarchico per ognuno dei valori così individuati d) scelta della soluzione ottimale attraverso R2
In sintesi: ─ è necessario effettuare alcune scelte che hanno margini di soggettività ─ rischio che non esista realmente una suddivisione in gruppi
� verifica della stabilità della soluzione attraverso l’impiego di vari algoritmi (ad es. prima gerarchico poi non ger.)
� la soluzione deve essere il meno possibile sensibile a piccole variazioni nei dati, in modo tale che l’eliminazione di un’unità non modifichi la struttura dei gruppi
Unità 11 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
35
Esempio di applicazione dell’algoritmo delle k-med ie con G=2,3,4
Unità cortesia competenza gruppo flessibilità organizza 1 8 8 9 9 8 2 4 4 5 4 4 3 8 7 7 8 7 4 5 6 6 6 6 5 6 6 6 6 7 6 3 4 4 5 4
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
36
Num. gruppi = 2
Centri dei cluster iniziali
8 3
8 4
9 4
9 5
8 4
cortesia
competenza
cap. di lav. in gruppo
flessibilità
cap. organizzative
1 2
Cluster
Cronologia iterazioni a
2,539 1,700
,000 ,000
Iterazione1
2
1 2
Modifiche ai centri deicluster
Convergenza raggiunta a causa di una modifica delladistanza non effettuata o di piccole dimensioni. Ladistanza massima in base alla quale un qualsiasicentro è stato modificato è ,000. L'iterazione correnteè 2. La distanza minima tra i centri iniziali è 9,899.
a.
Centri dei cluster finali
7 4
7 5
7 5
8 5
7 5
cortesia
competenza
cap. di lav. in gruppo
flessibilità
cap. organizzative
1 2
Cluster
Numero di casi in ogni cluster
3,000
3,000
6,000
,000
1
2
Cluster
Validi
Mancanti
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
37
tabella ANOVA
CLUSTER (TRA)
ERRORE (ENTRO
F SIG.
Media dei quadrati
df Media dei quadrati
df
Cortesia 16,667 1 1,167 4 14,286 ,019Competen. 8,167 1 1,167 4 7,000 ,057Gruppo 8,167 1 1,667 4 4,900 ,091Flessibilità 10,667 1 1,667 4 6,400 ,065Organizza 10,667 1 ,833 4 12,800 ,023
I test F devono essere utilizzati solo per motivi descrittivi poiché i cluster sono stati scelti per ottimizzare le differenze tra i casi in diversi cluster. I livelli di significatività osservati non sono perciò corretti e non possono quindi essere interpretati come test dell'ipotesi che le medie dei cluster siano uguali. CLUSTER: Var tra (g.l.=g-1=2-1=1) ERRORE: Var entro (g.l.=n-g=6-2=4)
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
38
Calcolo di R2:
La colonna F si riferisce alle singole variabili e quindi: a) calcolo delle singole Dev tra ed entro (=Var x g.l) b) somma su tutte le variabili
CLUSTER
ERRORE
CLUSTER (tra)
ERRORE (entro)
Media dei quadrati
df Media dei quadrati
df
Dev (somma dei quadrati)
Cortesia 16,667 1 1,167 4 16,667 4,668Competen. 8,167 1 1,167 4 8,167 4,668Gruppo 8,167 1 1,667 4 8,167 6,668Flessibilità 10,667 1 1,667 4 10,667 6,668Organizza 10,667 1 ,833 4 10,667 3,332 TOT
54,335 26,004
Num. gruppi = 3 R2= 925,03,803,74 =
Num. gruppi = 4 R2= 0,969
R2= 676,03,803,54 =
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
39
Num. gruppi = 5 R2=0,988
k Dev tra Decr. Di Dev tra R2 Decr. di R2 5 79,3 0,988 4 77,8 1,5 0,969 0,019 5 � 4 3 74,3 3,5 0,925 0,044 4 � 3 2 54,3 20,0 0,676 0,249 3 � 2 1 0 54,3 2 � 1
Nel passare da 3 a 2: incremento di Dev entro elevato � mi fermo a 3 Interpretazione dei risultati e connotazione dei gru ppi
─ Ricerca delle caratteristiche di ogni gruppo individuato ─ Analisi dei profili di gruppo Utile anche per una verifica riguardo al numero di gruppi individuato (se emergono tipologie inusuali (?) potrebbe aver senso aumentare g ) • Calcolo dei centri (valor medio per ogni variabile) e confronto tra tali centri
Attraverso il confronto sopra indicato è possibile individuare le variabili “discriminanti” (quelle che hanno maggior peso nell’identificazione dei gruppi)
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
40
• Molto importante verificare che i gruppi differiscano con riferimento a variabili diverse
da quelle impiegate nella fase di identificazione dei gruppi stessi • Analisi grafica dei valori medi
Dopo aver standardizzato le variabili, si rappresentano i valori medi delle p variabili nei g gruppi finali e li si collega tramite una spezzata; quanto più i punti si differenziano su una variabile, tanto più questa variabile risulta discriminante nel formare i gruppi Centri dei cluster finali
Cluster differenze gruppo 1 gruppo 2 gruppo 3 gr1-gr2 gr1-gr3 gr2-gr3
cortesia 8,00 3,50 5,50 4,50 2,50 2,00 competenza 7,50 4,00 6,00 3,50 1,50 2,00 gruppo 8,00 4,50 6,00 3,50 2,00 1,50 flessibilità 8,50 4,50 6,00 4,00 2,50 1,50 organizz. 7,50 4,00 6,50 3,50 1,00 2,50
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
41
3.00
4.00
5.00
6.00
7.00
8.00
9.00
corte
sia
com
pete
nza
grup
po
fless
ibilità
org
anizz
ative
variabili
cent
ri gruppo 1
gruppo 2
gruppo 3
ordinata: valori medi delle 5 variabili “ascissa”: variabili le variabili più discriminanti, cioè quelle che maggiormente permettono di distinguere i gruppi, sono la variabile “cortesia” e “flessibilità”
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
42
ESEMPIO DI SEGMENTAZIONE DEL MERCATO SULLA BASE DI GIUDIZI ESPRESSI DAI CONSUMATORI SU ATTRIBUTI DEL PRODOTTO ACQUISTATO (da Hair et al., 1995)
Percezione di alcuni attributi del prodotto Hatco (benefici richiesti al prodotto) misurati su una scala grafica –segmento lungo 10 cm, ai cui estremi sono collocate le modalità per nulla importante e molto importante, da parte di 100 clienti. Gli intervistati hanno indicato con un tratto di penna sul segmento la posizione corrispondente alla propria opinione. La distanza tra origine e segno indica l’importanza di quell’attributo per un certo cliente.
Fa eccezione la variabile Livello di fedeltà, valutata in base alla percentuale di acquisti del prodotto commercializzato dall’azienda sul totale degli acquisti della classe cui tale prodotto appartiene (effettuati da ciascun consumatore in un certo periodo di tempo) Le valutazioni riguardano:
ASSORT Assortimento del prodotto PREZZO Livello medio di prezzo FLESSI Flessibilità del prezzo nelle diverse fasi congiunturali IMMAGIP Immagine dell’azienda SERVIX Servizio complessivo al consumatore COPERTU Copertura del mercato (capacità distributiva) QUALITÀ Qualità percepita del prodotto FEDELTA ’ Livello di fedeltà SODDISF Livello di soddisfazione
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
43
Obiettivo Da informazioni su:
o benefici cercati nel prodotto o suo livello di utilizzazione o grado di soddisfazione che ne deriva
si vuole: • individuare gruppi di consumatori omogenei rispetto agli attributi sopra richiamati
(segmentazione) • eventualmente adottare politiche e strategie di penetrazione del mercato diverse a seconda
delle diverse caratteristiche di ogni gruppo Effettuiamo l’AG sulle prime 7 variabili Verifica della presenza di outliers L’uso di tale scala in luogo di una serie di modalità di risposta (molto, poco, ecc.) consente l’uso dell’AG su Distanza (ad es.: Euclidea) Non è necessario standardizzare poiché le variabili sono espresse nella stessa unità di misura
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
44
Verifichiamo la presenza di correlazione tra le variabili (che condurrebbe all’utilizzo della distanza di Mahalanobis):
Correlazioni
1,000 -,349** ,509** ,050 ,612** ,077 -,483**
, ,000 ,000 ,618 ,000 ,446 ,000
100 100 100 100 100 100 100
-,349** 1,000 -,487** ,272** ,513** ,186 ,470**
,000 , ,000 ,006 ,000 ,064 ,000
100 100 100 100 100 100 100
,509** -,487** 1,000 -,116 ,067 -,034 -,448**
,000 ,000 , ,250 ,510 ,735 ,000
100 100 100 100 100 100 100
,050 ,272** -,116 1,000 ,299** ,788** ,200*
,618 ,006 ,250 , ,003 ,000 ,046
100 100 100 100 100 100 100
,612** ,513** ,067 ,299** 1,000 ,241* -,055
,000 ,000 ,510 ,003 , ,016 ,586
100 100 100 100 100 100 100
,077 ,186 -,034 ,788** ,241* 1,000 ,177
,446 ,064 ,735 ,000 ,016 , ,078
100 100 100 100 100 100 100
-,483** ,470** -,448** ,200* -,055 ,177 1,000
,000 ,000 ,000 ,046 ,586 ,078 ,
100 100 100 100 100 100 100
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
Correlazione di Pearson
Sig. (2-code)
N
assortimento prodotto
prezzo
flessibilità del prezzo
immagine del produttore
servizio complessivo
copertura del mercato
qualità prodotto
assortimentoprodotto prezzo
flessibilitàdel prezzo
immagine delproduttore
serviziocomplessivo
coperturadel mercato
qualitàprodotto
La correlazione è significativa al livello 0,01 (2-code).**.
La correlazione è significativa al livello 0,05 (2-code).*.
Non ci sono correlazioni così elevate da evidenziare problemi di collinearità
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
45
Adottiamo una strategia a due fasi : • algoritmo di tipo gerarchico aggregativo per la scelta del numero dei gruppi (metodo di
Ward, si evita l’effetto catena, è quello più “informativo”) • algoritmo di tipo non gerarchico SCELTA DEL NUMERO DEI GRUPPI Il range di numero di cluster accettabile nel problema in esame è circa da 1 a 10. Esaminiamo i risultati riferiti a tale range.
Programma di agglomerazione Cluster accorpati Coeff. 3 Stadio di formazione
del cluster 4 Stadio
successivo Stadio Cluster 1 Cluster 2 Cluster 1 Cluster 2
………………..
90 13 16 258,7 71 78 9591 3 82 281,4 79 41 9792 1 18 305,0 84 76 9593 6 11 333,1 88 87 9694 5 7 364,9 2 86 9895 1 13 398,1 92 90 9896 2 6 446,3 89 93 9797 2 3 523,0 96 91 9998 1 5 615,0 95 94 9999 1 2 994,8 98 97 0
3 Coeff. = Distanza (euclidea quadratica) tra i due gruppi che si uniscono 4 Fase in cui il gruppo appare per la prima volta. Ad es. lo 0 è utilizzato per indicare che il cluster è ancora di un solo elemento.
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
46
Dalla tabella precedente calcoliamo gli incrementi relativi della distanza di fusione:
stadio distanza di
fusioneincrementi rel. % della
dist di fusione da k+1 a k90 258,7 91 281,4 8,892 305,0 8,493 333,1 9,294 364,9 9,5 95 398,1 9,1 * 96 446,3 12,197 523,0 17,2 Da 4 a 398 615,0 17,699 994,8 61,8 Da 2 a 1
* = [(398,1-364,9)/ 364,9] = 9,1
Gli incrementi relativi più elevati si hanno nel pa ssare da 4 a 3 da 2 ad 1
Quindi le soluzioni interessanti potrebbero essere 2 oppure 4 gruppi (meglio 2)
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
47
Scree plot
0123456789
1011
200,0 400,0 600,0 800,0 1000,0 1200,0
distanza tra i gruppi
num
. di g
rupp
i
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
48
Dendrogramma Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 15 �� 20 �� 19 �� 28 ���� 67 �� � 90 �� � 7 �� ��� 49 �� � � 97 �� � � 66 ���� � 80 �� � 38 �� � 63 �� ��������� 14 �� � � 12 �� � � 76 �� � � 9 �� � � 74 �� � � 58 �� � � 5 ������ � 42 �� � 22 �� ������������������������������������� 55 ���� � � 13 �� � � � 21 �� ��� � � 35 �� � � � � 47 �� � � � � 61 ���� � � � 16 �� � � � 73 �� � � � 29 �� � � � 78 �� ��������� � 43 �� � � 46 ���� � � 18 �� � � � 92 �� � � � 69 �� � � � 81 �� � � � 50 �� ��� � 72 �� � � 26 �� � � 59 �� � � 33 �� � � 62 �� � � 25 ���� � 44 �� � 51 �� � 77 �� � 1 �� � 95 �� � 82 ���� � 93 �� � � 3 �� � � 71 �� ��������� � 37 �� � � � 48 �� � � � 10 �� � � � 34 ���� � � 30 �� � � 53 �� � � 31 �� � � 57 �� � � 65 �� � � 79 ���� � � 39 �� � ��������������������������������������� 96 �� � � 94 �� ����� � 98 �� � � � 40 �� � � � 54 �� � � � 45 ���� � � 86 �� � � 2 �� � � 83 �� � � 24 �� � � 27 �� � � 75 �� ����� 99 �� � 4 �� � 89 �� � 56 �� � 91 ���� � 23 �� � � 32 �� � � 85 �� � � 87 ���� � 11 �� � � 100 �� ����� 52 �� � 60 ���� 6 �� � 70 �� � 17 �� � 64 ���� 8 �� 68 ��
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
49
Decidiamo quindi di analizzare entrambe le configurazioni. Sceglieremo tra le due sulla base dei risultati derivanti dall’algoritmo di tipo non gerarchico, e con riferimento a:
1. interpretazione delle caratteristiche del cluster 2. validazione della soluzione sulla base di variabili “esterne”
numero di osservazioni per cluster
Ward Method
18 18,0 18,0 18,0
18 18,0 18,0 36,0
12 12,0 12,0 48,0
21 21,0 21,0 69,0
20 20,0 20,0 89,0
11 11,0 11,0 100,0
100 100,0 100,0
1
2
3
4
5
6
Totale
ValidiFrequenza Percentuale
Percentualevalida
Percentualecumulata
Ward Method
29 29,0 29,0 29,0
18 18,0 18,0 47,0
12 12,0 12,0 59,0
21 21,0 21,0 80,0
20 20,0 20,0 100,0
100 100,0 100,0
1
2
3
4
5
Totale
ValidiFrequenza Percentuale
Percentualevalida
Percentualecumulata
Ward Method
29 29,0 29,0 29,0
38 38,0 38,0 67,0
12 12,0 12,0 79,0
21 21,0 21,0 100,0
100 100,0 100,0
1
2
3
4
Totale
ValidiFrequenza Percentuale
Percentualevalida
Percentualecumulata
Ward Method
29 29,0 29,0 29,0
50 50,0 50,0 79,0
21 21,0 21,0 100,0
100 100,0 100,0
1
2
3
Totale
ValidiFrequenza Percentuale
Percentualevalida
Percentualecumulata
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
50
Ward Method
50 50,0 50,0 50,0
50 50,0 50,0 100,0
100 100,0 100,0
1
2
Totale
ValidiFrequenza Percentuale
Percentualevalida
Percentualecumulata
Medie di gruppo per ogni variabile Soluzioni: g=2 g=4
Ward Method 4 gruppi
Ward Method 2 gruppi
1,00 2,00 3,00 4,00 1,00 2,00 Media Media
assortimento 4,2 2,2 3,7 4,8 4,5 2,6 prezzo 1,6 2,8 4,2 1,5 1,6 3,2 flessibilità del prezzo
8,6 7,2 6,0 9,3 8,9 6,9
immagine 4,4 5,4 6,2 5,7 4,9 5,6 servizio complessivo
2,9 2,5 3,9 3,1 3,0 2,8
copertura 2,0 2,7 3,2 3,2 2,5 2,8 qualità prodotto 5,1 8,0 8,3 7,0 5,9 8,0
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
51
Effettuiamo, a questo punto, una cluster NON gerarchica con 2 e 4 gruppi.
ANOVA 2 gruppi
Cluster
Errore
F Sig.
Media dei quadrati
df Media deiquadrati
df
assortimento 81,563 1 ,930 98 87,717 ,000 prezzo 66,457 1 ,766 98 86,753 ,000
flessibilità 109,637 1 ,823 98 133,175 ,000 immagine 11,302 1 1,178 98 9,596 ,003
servizio compl. ,188 1 ,568 98 ,331 ,566 copertura 2,123 1 ,579 98 3,670 ,058
qualità prodotto 123,372 1 1,280 98 96,404 ,000
Solo rispetto alla variabile “servizio complessivo” i due gruppi non si differenziano in modo significativo Numero di casi in ogni cluster
Cluster 1 52,0002 48,000
Validi 100,000
La soluzione è molto simile a quella fornita dall’algoritmo gerarchico
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
52
Calcoliamo R2:
CLUSTER
ERRORE
CLUSTER (tra)
ERRORE (entro)
Media dei quadrati
df Media dei quadrati
df Dev (somma dei quadrati)
Assortim. 81,563 1 0,93 98 81,563 91,14
prezzo 66,457 1 0,77 98 66,457 75,068
flessibilità 109,637 1 0,82 98 109,637 80,654
immagine 11,302 1 1,18 98 11,302 115,444
servizio 0,188 1 0,57 98 0,188 55,664
copertura 2,123 1 0,58 98 2,123 56,742
qualità 123,372 1 1,28 98 123,372 125,44
TOT
394,6 600,2
DEV TRA DEV ENTRO dev tot 394,6 600,2 994,794
R2=0,4 …valore non elevato…
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
53
Medie di cluster per variabile
Cluster non ger 1,00 2,00
Media Mediaassortimento prodotto 4,4 2,6prezzo 1,6 3,2flessibilità del prezzo 8,9 6,8immagine del produttore 4,9 5,6servizio complessivo 3,0 2,9copertura del mercato 2,5 2,8qualità prodotto 5,9 8,1 molto simili a quelle ottenute mediante l’algoritmo gerarchico (g=2): stabilità della soluzione Interpretazione e validazione della classificazione attraverso var. esterne
• Livello di fedeltà • Livello di soddisfazione
Cluster non ger F Pr>F 1,00 2,00
Media Mediafedeltà 49,88 42,32 14,79 0,00soddisfazione 5,16 4,38 23,83 0,00 � i gruppi si differenziano anche rispetto a variabili “esterne” ed i risultati sono coerenti
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
54
Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che:
Cluster non ger 1,00 2,00
Media Mediaassortimento prodotto 4,4 2,6 > prezzo 1,6 3,2 < flessibilità del prezzo 8,9 6,8 > immagine del produttore 4,9 5,6 < servizio complessivo 3,0 2,9 __ __ copertura del mercato 2,5 2,8 < qualità prodotto 5,9 8,1 < fedeltà 49,88 42,32 > soddisfazione 5,16 4,38 > Il gruppo 1 attribuisce un’importanza maggiore a: • grado di assortimento • flessibilità Il gruppo 2 attribuisce un’importanza maggiore a: • livello medio del prezzo • immagine dell’impresa • copertura del mercato • qualità percepita
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
55
Inoltre il gruppo 1 manifesta un più elevato livello di fedeltà e di soddisfazione: � l’azienda deve compiere ulteriori sforzi per migliorare la sua performance
• nei confronti del gruppo 2 • rispetto alle variabili più importanti per tale gruppo
Soluzione in 4 gruppi ANOVA
CLUSTER
ERRORE
CLUSTER (tra)
ERRORE (entro)
Media dei quadrati
df Media dei quadrati
df Dev (somma dei quadrati)
Assortim. 37,11 3 0,64 96 111,33 61,36prezzo 28,53 3 0,58 96 85,59 55,94flessibilità 39,27 3 0,76 96 117,80 72,51immagine 15,53 3 0,83 96 46,58 80,15servizio 7,49 3 0,35 96 22,46 33,41copertura 8,24 3 0,36 96 24,73 34,10qualità 53,22 3 0,93 96 159,66 89,12 TOT
568,1 426,6
I due gruppi non si differenziano in modo significativo rispetto a tutte le variabili
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
56
Numero di casi in ogni cluster
Cluster 1 332 293 194 19
Validi 100 Calcoliamo R2 sulla base dei dati forniti nella tabella Anova:
Medie di cluster per variabile
1,00 2,00 3,00 4,00 Tot Media Media Media Media
assortimento prodotto 4,1 2,0 3,4 4,9 3,5prezzo 1,6 2,7 4,0 1,5 2,4flessibilità del prezzo 8,6 7,0 6,6 9,4 7,9immagine del produttore 4,4 5,2 6,2 5,8 5,2servizio complessivo 2,8 2,3 3,7 3,2 2,9copertura del mercato 2,1 2,6 3,2 3,3 2,7qualità prodotto 5,3 8,2 8,0 7,0 7livello di fedeltà 46 39 48 54 46livello di soddisfazione 4,8 4,0 4,9 5,6 4,8
DEV TRA DEV ENTRO dev tot 568,1 426,6 994,794
R2=0,57 …valore accettabile…
soluzione simile a quella fornita dall’algoritmo gerarchico
Medie molto simili a quelle ottenute mediante l’algoritmo gerarchico (g=4): stabilità della soluzione
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
57
Variabili “esterne”:
Cluster non ger F Pr>F 1 2 3 4
Media fedeltà 46,33 41,23 46,77 54,21 11,3 0,00soddisfazione 4,84 4,13 5,04 5,64 22,2 0,00 � i gruppi si differenziano anche rispetto a tali variabili Dalle medie di gruppo con riferimento alle 9 variabili in esame emerge che: Clu1 e clu4 sono simili con riferimento a
• assortimento media più elevata: clu4 • prezzo • flessibilità media più elevata: clu4 e si differenziano da clu2 e clu3, ma ci sono alcune dimensioni rispetto alle quali i gruppi sono simili
Unità 10 - Corso di Statistica aziendale (prof. M.R. Ferrante) Laurea Magistrale in Economia e Gestione Aziendale - Facoltà di Economia, Polo di Forlì, Università di Bologna
58
In generale clu4 ha una percezione migliore di Hatco rispetto a clu1
Inoltre ha un livello di fedeltà maggiore ed è più soddisfatto Clu1 ha un livello medio di fedeltà e di soddisfazione
Assegna un punteggio molto più basso della media ad Hatco per: copertura, immagine, qualità Clu2 è il gruppo meno soddisfatto e meno fedele:
• Ha una cattiva percezione con riferimento a assortimento e servizio • Tuttavia assegna punteggio elevato ad Hatco per prezzo e qualità …..per aumentare la quantità acquistata da questo gruppo (fedeltà) si potrebbe agire ad esempio migliorando l’assortimento…..
Top Related