LEZIONE A.3 Rappresentazioni grafiche TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi...
-
Upload
marcellino-torre -
Category
Documents
-
view
227 -
download
0
Transcript of LEZIONE A.3 Rappresentazioni grafiche TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi...
LEZIONE A.3
Rappresentazioni grafiche
TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
In questa lezione..
In questa lezione acquisteremo familiarità con
La rappresentazione di una variabile statistica in forma tabellaretabellare
La rappresentazione di una distribuzione di frequenza nella forma graficagrafica più adatta al corrispondente livello di misurazione. Introdurremo così i:
Diagrammi a barreDiagrammi a barre
Diagrammi ad asteDiagrammi ad aste
IstogrammiIstogrammi
Infine, proprio perché la rappresentazione grafica di una variabi-le è uno strumento molto potente e efficace, prenderemo spunto da questa per introdurre il concetto di miscugli di popolazionimiscugli di popolazioni.
La rappresentazione tabellareAbbiamo già visto che la forma ‘in punta di forchetta’ di una v.s. è quella (orizzontale) di una suc-cessione ordinata di coppie di va-lori {xi, ni} univocamente associati x1 x2 x3 x4 xk X = n1 n2 n3 n4 nk
D’ora in poi useremo questa rappre-sentazione tabellare ‘in verticale’.
ni
n1
n2
n3
n4
n5
N
fi= ni /N
…
…
…
…
…
…
xi
x1
x2
x3
x4
x5
xi ni
…
…
…
…
…
…
Essa consente di affiancare alle colonne di modalità e numerosità altre colonne con elaborazioni successive dei dati (per esempio le frequenze relative), e quindi ci permette di seguire passo passo i calcoli per ogni misura di sintesi delle variabili.
Ripasso: una tipologia di variabili
Anche la rappresentazione tabella-re può essere troppo dettagliata. Come ‘fotografare’ una distribuzio-ne di frequenza?
Trascriviamo le modalità (xi) sul-l’asse delle ascisse di un piano cartesiano, e le numerosità (ni) sull’asse delle ordinate. Così fa-cendo associamo ad ogni coppia associamo ad ogni coppia (x(xii, n, nii) un punto sul piano) un punto sul piano.
Qualitative nominali
Qualitative ordinali
Quantitative discrete
Quantitative per classi
xi
x1
x2
x3
x4
x5
ni
n1
n2
n3
n4
n5
Ma c’è un problema: non tutte le moda-lità di una v.s. sono tranquillamente associabili a punti su un piano.
Dovremo dare regole di costruzione dei grafici diverse per tipo di variabile:
n1
x1
(x(xii, n, nii))
Diagrammi a barre per variabili nominali
xi ni fi
Appartamento in condominio 34 0,667
Casa rurale 6 0,117
Villino mono-bifamiliare 11 0,216
51 1,000
appart.ruralevillino0
0,2
0,4
0,6
0,8
1Unica regola per la costruzione Unica regola per la costruzione dei diagrammi a barre: la lun-dei diagrammi a barre: la lun-ghezza delle barre deve essere ghezza delle barre deve essere proporzionale a proporzionale a nnii oppure a f oppure a fii..
Popolazione italiana secondo il tipo di abitazione (dati di fantasia, numerosità in milioni)
Diagramma a ‘barre’Diagramma a ‘barre’
ruraleappart.villino0
0,2
0,4
0,6
0,8
1
Nota: è del tutto arbitraria la scelta sia dell’ordine tra le modalità, sia della distanza tra barre
Altri rappresentazioni diagrammatiche
insuff 6m21%
sufficiente67%
insuff 3m12%
insuff 6m
insuff 3m
sufficien
0 0,2 0,4 0,6 0,8 1 insuff 6minsuff 3msufficien0
0,2
0,4
0,6
0,8
1
E’ talmente libera la scelta E’ talmente libera la scelta della rappresentazione gra-della rappresentazione gra-fica, che essa può assumere fica, che essa può assumere anche altre forme più o anche altre forme più o meno accattivanti ..meno accattivanti ..
Diagramma a torta
Altre iconografieDiagramma a nastri
Diagrammi a barre, variabili ordinali
xi ni fi
Sinistra 20 0,113
Centrosin. 45 0,254
Centro 39 0,220
Centrodes. 59 0,290
Destra 20 0,113
177 1,000
dxcdxcxcsxsx0
0,05
0,1
0,15
0,2
0,25
0,3
Due regole per costruire diagrammi Due regole per costruire diagrammi a barre per variabili ordinali: a barre per variabili ordinali:
Lunghezza delle barre propor-Lunghezza delle barre propor-zionale a zionale a nnii oppure a f oppure a fii..
Ordine tra le modalità obbliga-Ordine tra le modalità obbliga-to (non la distanza)to (non la distanza)
Abacus Social Barometer 1996, Autocolloca-zione politica. Giovani di 25-34 anni, NordOvest
dxcdxcxcsxsx06
121824303642485460NB:Che le ordina-
te del grafico sia-no proporzionali a nnii o a ffii il risul-tato non cambia:
ffii = nni *i * (1/N)
Diagrammi ad aste, variabili discrete
Numero di azionisti per dimensione del pacchetto azionario
xi ni
10 35
50 9
100 2
Per costruire grafici per variabili Per costruire grafici per variabili discrete le regole diventano tre: discrete le regole diventano tre:
Lunghezza delle aste pro-Lunghezza delle aste pro-porzionale a nporzionale a nii oppure a f oppure a fii..
Ordine tra le modalità obbli-Ordine tra le modalità obbli-gato.gato.
Ora anche la distanza tra le Ora anche la distanza tra le modalità è obbligata!!! modalità è obbligata!!!
la v.s. quantitativa discreta assume solo tre valori; essa non esiste, ad esempio, per x = 33,56 oppure per x = 0
il diagramma rappresenta davvero uno spazio bidimen-sionale, in cui ogni punto ha coordinate (xi, fi) o (xi, ni)
le modalità sono poste sull'asse delle ascisse e le frequenze sull'asse delle ordinate per convenzione
010203040
Diagramma ad ‘aste’Diagramma ad ‘aste’
xxii
nnii
Variabili per classi: il diagramma sbagliato
Che fare, se una variabile è per classi? In questo caso non pos-siamo associare a ogni coppia (xi,ni) un punto sul piano poiché le modalità non sono puntuali.
Pazienti anoressiche per età di insorgen-za (Selvini, 1998)
xi-xi+1 ni
9-11 11
11-14 45
14-19 63
19-25 23
142
Dovremo piuttosto alzare su ogni alzare su ogni segmento dell’ascisse, associa-segmento dell’ascisse, associa-to a una classe (to a una classe (xi-xi+1), un ret-), un ret-tangolo di giusta altezza.tangolo di giusta altezza.
Ma quale altezza è giusta?Ma quale altezza è giusta?
0
10
20
30
40
50
60
70
0 5 10 15 20 25 30
Morale: meglio far sì che Morale: meglio far sì che siano le aree ad essere pro-siano le aree ad essere pro-porzionali alle numerositàporzionali alle numerosità
nnii
xxii
Qualcosa non qua- dra: usando le nu-merosità come or-dinate, i 45 pazien-ti della classe (11-14) sembrano dav-vero pochi rispetto ai 63 della classe (14-19). Il grafico non rispetta le pro-porzioni tra classi
Variabili per classi: l’istogramma giusto
0
4
8
12
16
20
0 5 10 15 20 25 30
Il diagramma con altezze proporzionali alle densità e basi alle Il diagramma con altezze proporzionali alle densità e basi alle ampiezze delle classi si chiama ISTOGRAMMAampiezze delle classi si chiama ISTOGRAMMA
xi-xi+1 ni
9-11 11
11-14 45
14-19 63
19-25 23
142
Vogliamo che le aree dei rettangoli ri-spettino le proporzioni tra le numerosità.
Poiché “Area rettangolo=basexaltezza” e la base dei rettangoli è l’ampiezza delle rispettive classi (i=xi+1-xi), l’altezza dei rettangoli deve essere hi=ni/i. Questo rapporto si chiama densità.densità.
Densità: Densità:
hhii=n=nii//ii
hhii
xxii
i hi=ni/i
2 5,50
3 15,00
5 12,60
6 3,83
Condizione Condizione di area: di area:
iihhiiii=N=N
Ora la terza classe (14-19) con-tinua ad avere area più estesa, ma la sua altezza è inferiore al-la classe (11-14) dato che corri-sponde a una classe più ampia
Due cose che è bene sapere sull’istogramma/1
0
0,02
0,04
0,06
0,08
0,1
0,12
0 5 10 15 20 25 30
xi-xi+1 ni fi
9-11 11 0,077
11-14 45 0,317
14-19 63 0,444
19-25 23 O,162
142 1,000
La prima cosa è che, come per i diagrammi a aste l’ordinata può essere indifferentemente proporzionale a ni o a fi, anche l’istogramma può calibrare le ordinate non alla densità assolute hi=ni/i ma alle densità relative i=fi/i.
Le proporzioni del grafico non mutano. La condizione d’area diventa
iiiiii=1=1 .
f f xx
xx
i i=fi/i
2 0,0385
3 0,1057
5 0,0888
6 0,0262
Due cose che è bene sapere sull’istogramma/2
La seconda cosa è che, frammentando indefinitamente i segmenti di base, le ampiezze i diventano differenziali (dx) e le variabili tendono a funzioni di densità di frequenza continue per le quali vale la condizione d’area
0
0,02
0,04
0,06
0,08
0,1
0,12
0 5 10 15 20 25 30
f f xx
xx
f(x)dx=1
Cioè l’area sottesa alla curva è =1.
Non preoccupatevi, comunque.
Nella prima e nella seconda parte del corso useremo variabili continue solo come forme idealtipiche per cogliere l’essenza di una legge di frequenza.
f(x)dx = 1f(x)dx = 1
Due esempi di leggi matematiche di frequenza
Solo nell’analisi dell’inferenza ritroveremo ‘distribuzioni notevoli’, cioè leggi teoriche che stimano il valore della densità di frequenza in funzio-ne del valore delle modalità: y = f(x). Ci limitiamo a due esempi.
Distribuzione rettangolare o uni-Distribuzione rettangolare o uni-forme. Rforme. Ricordate l’istogramma?
ii = ffii / ii
f f xxf f xx
aa bbxxxx
f f xx = 1 / (b-a)
Distribuzione esponenziale (ne-Distribuzione esponenziale (ne-gativa)gativa) (esempio: tempi di attesa)
f f xx = e- x 1//
Un esempio per classixi |- xi+1
0 |- 20
20 |- 40
40 |- 60
60 |- 80
80 |- 100
100|-160
160|-300
ni
126
439
346
123
37
22
6
1099
fi
11,5
39,9
31,5
11,2
3,4
2,0
0,5
100
i
20
20
20
20
20
60
140
hi
6,30
21,95
17,30
6,15
1,85
0,37
0,04
i
0,0057
0,0199
0,0157
0,0056
0,0017
0,0003
0,0001
0
4
8
12
16
20
24
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
xi
hi
General Survey Lombarda 2000 Distribuzione famiglie per reddito annuo (milioni lire)
Nota: sull’asse orizzontale i redditi sono stati divisi per 10 (cioè espressi in decine
di milioni) per pura comodità, senza che ne
risenta la forma del grafico
Nota: la classe (80-100) ha
numerosità che è solo il 60% superiore a quella della
classe seguente, ma la densità è
cinque volte tanto!
Miscugli di popolazioni. Un esempio
Spesso una popolazione non è omogenea al suo interno, rispetto a un ca-rattere osservato. Facciamo il caso della struttura per età degli immigrati presenti in Lombardia
Etàxi |-xi+1
Totalefi
ampiezza
densitàhi
15 |-25 15,7 10 1,57
25 |-35 49,7 10 4,97
35 |-45 27,3 10 2,73
45 |-65 7,3 20 0,37
100,0
05
1015202530354045505560
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Subpopolazioni e distribuzioni di frequenza
Ma popolazioni di diversa provenienza hanno diverse strutture per età. Per esempio:
Etàxi |-xi+1
Perufi
Albaniafi
15 |-25 9,7 29,5
25 |-35 45,5 41,1
35 |-45 30,8 23,8
45 |-65 14,0 5,6
100,0 100,00
60
0 80
Più vecchia la struttura per età dei peruviani
Più giovane la struttura per età albanese
Il numero di immigrati di 15-25 anni sarà pari alla somma delle numerosità di immigrati 15-25 dei diversi paesi.
La corrispondente frequenza relativa f(15-25) sarà invece la media aritmeticamedia aritmetica delle frequenze nei diversi gruppi nazionali, ciascuna ponderataponderata per la numerosità del corrispondente gruppo (un dato che non possediamo!).
05
1015202530354045505560
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Un secondo esempio
Abbiamo già imparato a classificare le province ita-liane secondo il tasso di di-soccupazione.
Disegnando gli istogrammi possiamo capire cosa signi-fica dire che una popola-zione è un miscuglio.miscuglio.
xi|-xi+1 niN ni
S niT
0–5 15 0 15
5-10 36 8 44
10-15 4 21 25
15-25 0 16 16
55 45 100
0
3
6
9
12
15
0 5 10 15 20 25 30
0
3
6
9
12
15
0 5 10 15 20 25 30
0
3
6
9
12
15
0 5 10 15 20 25 30
Miscuglio è un Miscuglio è un aggregato di aggregato di subpopolazioni subpopolazioni rispetto a uno rispetto a uno stesso carattere.stesso carattere.
La distribuzione La distribuzione di numerosità del di numerosità del miscuglio è la miscuglio è la somma delle di-somma delle di-stribuzioni delle stribuzioni delle singole subpopo-singole subpopo-lazioni. La distri-lazioni. La distri-buzione di fre-buzione di fre-quenza (relativa) quenza (relativa) è la loro media è la loro media ponderata. ponderata.
Tornateci su quando avremo introdotto il concetto di media
ponderata..
Un terzo esempio
Il caso della curva dei decessi per età (Lexis)Il caso della curva dei decessi per età (Lexis)
ddxx
xx
L’andamento standard della frequenza dei decessi per età (ddxx) è quello riportato con linea spessa.
Un secolo fa W. Lexis ha ipotizzato che la legge di frequenza dei decessi sia il risultato di un miscuglio di due popolazioni.
La curva rossa indica la subpopolazione congenitamente debole, che viene eliminata nei primi anni con andamento esponenziale negativo.
La curva blu indica la legge dei decessi per la popolazione ‘normale’, simmetrica campanulare (la chiameremo curva Normale o di Gauss).
Un esempio riassuntivo xi |- xi+1
0,0 |- 0,8
0,8 |- 1,2
1,2 |- 1,6
1,6 |- 2,0
2,0 |- 2,4
2,4 |- 2,8
2,8 |- 3,2
3,2 |- 3,6
3,6 |- 4,0
4,0 |- 4,4
4,4 |- 4,8
4,8 |- 5,2
5,2 |- 6,0
6,0 |- 8,0
8,0 |- 12
ni
4
1
7
10
9
23
11
15
8
6
3
3
3
8
3
114
i
0,8
0,4
0,4
0,4
0,4
0,4
0,4
0,4
0,4
0,4
0,4
0,4
0,8
2,0
4,0
fi
35
9
61
88
79
202
96
132
70
53
26
26
26
70
26
1000
hi
5,0
2,5
17,5
25,0
22,5
57,5
27,5
37,5
20,0
15,0
7,5
7,5
3,7
4,0
0,7
i
0,0437
0,0225
0,1525
0,2200
0,1975
0,5050
0,2400
0,3300
0,1750
0,1325
0,0650
0,0650
0,0325
0,0350
0,0065
Esercitiamoci su dati di sur-vey che ci consentono di svi-luppare l’intera procedura di calcolo di variabili per classi.
I dati riportati nelle prime due colonne riguardano le frequenze relative dei redditi ‘equivalenti’ delle 114 fami-glie di Milano città incluse nella General Social Survey.
Conoscendo le fi e N (114) possiamo ricostruire le nu-merosità specifiche ni.
Date le ampiezze (i) calco-liamo anche le densità.
I redditi di Milano cittàxi |- xi+1
0,0 |- 0,8
0,8 |- 1,2
1,2 |- 1,6
1,6 |- 2,0
2,0 |- 2,4
2,4 |- 2,8
2,8 |- 3,2
3,2 |- 3,6
3,6 |- 4,0
4,0 |- 4,4
4,4 |- 4,8
4,8 |- 5,2
5,2 |- 6,0
6,0 |- 8,0
8,0 |- 12
fi
35
9
61
88
79
202
96
132
70
53
26
26
26
70
26
1000
i
0,0437
0,0225
0,1525
0,2200
0,1975
0,5050
0,2400
0,3300
0,1750
0,1325
0,0650
0,0650
0,0325
0,0350
0,0065
0
5
10
15
20
25
30
35
40
45
50
55
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
Notate come la classe dei ricchi (6-8) pur essendo molto più numerosa delle precedenti (70 contro 26) ha ampiezza maggiore e densità assai minore.
Nota: sull’ordinata sono riportate le densità relative (verificate le proporzioni!) ma moltiplicate per cento per comodità (numeri più compatti). Nessun danno
per il grafico!
i
I redditi dei piccoli comunixi |- xi+1
0,0 |- 0,8
0,8 |- 1,2
1,2 |- 1,6
1,6 |- 2,0
2,0 |- 2,4
2,4 |- 2,8
2,8 |- 3,2
3,2 |- 3,6
3,6 |- 4,0
4,0 |- 4,4
4,4 |- 4,8
4,8 |- 5,2
5,2 |- 6,0
6,0 |- 8,0
8,0 |- 10
fi
11
14
88
164
140
196
108
80
48
65
24
17
19
21
5
1000
i
0,0137
0,0350
0,2200
0,4100
0,3500
0,4900
0,2700
0,2000
0,1200
0,1625
0,0600
0,0425
0,0237
0,0105
0,0012
0
5
10
15
20
25
30
35
40
45
50
55
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
Questa invece è la distri-buzione di frequenza dei redditi nei piccoli comuni
Anche sull’ascissa le modalità sono modificate in proporzione (moltipli-cate per dieci) per como-dità, senza danni per una corretta lettura del grafico
L’utilità del confronto
0
5
10
15
20
25
30
35
40
45
50
55
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
0
5
10
15
20
25
30
35
40
45
50
55
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
Rosso = Milano
Blu = Paesi
Più redditi alti in città
Più poveri in città
Più redditi mediobassi nei paesi
La sovrapposizione tra le due distribuzioni consente di cogliere
minuziosamente alcune importanti differenze
Miscugli: una porta verso l’analisi a 2 variabili
Acqua potabile
(dati 1996)
Nord e Centro
ni
Sud e Isole
ni
Totale (x1000)
Sufficiente sempre 28069 5610 33679
Insufficiente 3 mesi 2391 3900 6291
Insufficiente 6+ mesi 1317 9257 10574
Totale 31777 18767 50544
Acqua potabile
Nord e Centro
fi
Sud e Isole
fi
Totale fi
Suff 88,3% 29,9% 66,6%
Insuff 3 mesi
7,5% 20,8% 12,5%
Insuff 6+ mesi 4,2% 49,3% 20,9%
Totale 31777 18767 50544
Popolazione italiana secondo l’accesso all’acqua potabile e la ripartizione geografica
Miscugli si hanno anche per variabili qua-litative. Per esempio, hanno acqua a suffi-cienza 2 italiani su 3, ma solo 3 su 10 al Sud, e 9 su 10 al Nord.
Le distribuzioni di frequenze relati-ve del Nord e del Sud corrispondo-no (se moltiplicate per le rispettive numerosità complessive) alla tabel-la delle numerosità congiunte per ‘Accesso all’acqua’ e ‘Ripartizione’.
Il confronto tra subpopolazioni di un Il confronto tra subpopolazioni di un miscuglio è una porta di passaggio miscuglio è una porta di passaggio dell’analisi da una a due variabili!!dell’analisi da una a due variabili!!