LEZIONE A.3 Rappresentazioni grafiche TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi...

LEZIONE A.3

Rappresentazioni grafiche

TQuArs – a.a. 2010/11Tecniche quantitative per l’analisi nella ricerca sociale

Giuseppe A. Micheli

In questa lezione..

In questa lezione acquisteremo familiarità con

La rappresentazione di una variabile statistica in forma tabellaretabellare

La rappresentazione di una distribuzione di frequenza nella forma graficagrafica più adatta al corrispondente livello di misurazione. Introdurremo così i:

Diagrammi a barreDiagrammi a barre

Diagrammi ad asteDiagrammi ad aste

IstogrammiIstogrammi

Infine, proprio perché la rappresentazione grafica di una variabi-le è uno strumento molto potente e efficace, prenderemo spunto da questa per introdurre il concetto di miscugli di popolazionimiscugli di popolazioni.

La rappresentazione tabellareAbbiamo già visto che la forma ‘in punta di forchetta’ di una v.s. è quella (orizzontale) di una suc-cessione ordinata di coppie di va-lori {xi, ni} univocamente associati x1 x2 x3 x4 xk X = n1 n2 n3 n4 nk

D’ora in poi useremo questa rappre-sentazione tabellare ‘in verticale’.

ni

n1

n2

n3

n4

n5

N

fi= ni /N

…

…

…

…

…

…

xi

x1

x2

x3

x4

x5

xi ni

…

…

…

…

…

…

Essa consente di affiancare alle colonne di modalità e numerosità altre colonne con elaborazioni successive dei dati (per esempio le frequenze relative), e quindi ci permette di seguire passo passo i calcoli per ogni misura di sintesi delle variabili.

Ripasso: una tipologia di variabili

Anche la rappresentazione tabella-re può essere troppo dettagliata. Come ‘fotografare’ una distribuzio-ne di frequenza?

Trascriviamo le modalità (xi) sul-l’asse delle ascisse di un piano cartesiano, e le numerosità (ni) sull’asse delle ordinate. Così fa-cendo associamo ad ogni coppia associamo ad ogni coppia (x(xii, n, nii) un punto sul piano) un punto sul piano.

Qualitative nominali

Qualitative ordinali

Quantitative discrete

Quantitative per classi

xi

x1

x2

x3

x4

x5

ni

n1

n2

n3

n4

n5

Ma c’è un problema: non tutte le moda-lità di una v.s. sono tranquillamente associabili a punti su un piano.

Dovremo dare regole di costruzione dei grafici diverse per tipo di variabile:

n1

x1

(x(xii, n, nii))

Diagrammi a barre per variabili nominali

xi ni fi

Appartamento in condominio 34 0,667

Casa rurale 6 0,117

Villino mono-bifamiliare 11 0,216

51 1,000

appart.ruralevillino0

0,2

0,4

0,6

0,8

1Unica regola per la costruzione Unica regola per la costruzione dei diagrammi a barre: la lun-dei diagrammi a barre: la lun-ghezza delle barre deve essere ghezza delle barre deve essere proporzionale a proporzionale a nnii oppure a f oppure a fii..

Popolazione italiana secondo il tipo di abitazione (dati di fantasia, numerosità in milioni)

Diagramma a ‘barre’Diagramma a ‘barre’

ruraleappart.villino0

0,2

0,4

0,6

0,8

1

Nota: è del tutto arbitraria la scelta sia dell’ordine tra le modalità, sia della distanza tra barre

Altri rappresentazioni diagrammatiche

insuff 6m21%

sufficiente67%

insuff 3m12%

insuff 6m

insuff 3m

sufficien

0 0,2 0,4 0,6 0,8 1 insuff 6minsuff 3msufficien0

0,2

0,4

0,6

0,8

1

E’ talmente libera la scelta E’ talmente libera la scelta della rappresentazione gra-della rappresentazione gra-fica, che essa può assumere fica, che essa può assumere anche altre forme più o anche altre forme più o meno accattivanti ..meno accattivanti ..

Diagramma a torta

Altre iconografieDiagramma a nastri

Diagrammi a barre, variabili ordinali

xi ni fi

Sinistra 20 0,113

Centrosin. 45 0,254

Centro 39 0,220

Centrodes. 59 0,290

Destra 20 0,113

177 1,000

dxcdxcxcsxsx0

0,05

0,1

0,15

0,2

0,25

0,3

Due regole per costruire diagrammi Due regole per costruire diagrammi a barre per variabili ordinali: a barre per variabili ordinali:

Lunghezza delle barre propor-Lunghezza delle barre propor-zionale a zionale a nnii oppure a f oppure a fii..

Ordine tra le modalità obbliga-Ordine tra le modalità obbliga-to (non la distanza)to (non la distanza)

Abacus Social Barometer 1996, Autocolloca-zione politica. Giovani di 25-34 anni, NordOvest

dxcdxcxcsxsx06

121824303642485460NB:Che le ordina-

te del grafico sia-no proporzionali a nnii o a ffii il risul-tato non cambia:

ffii = nni *i * (1/N)

Diagrammi ad aste, variabili discrete

Numero di azionisti per dimensione del pacchetto azionario

xi ni

10 35

50 9

100 2

Per costruire grafici per variabili Per costruire grafici per variabili discrete le regole diventano tre: discrete le regole diventano tre:

Lunghezza delle aste pro-Lunghezza delle aste pro-porzionale a nporzionale a nii oppure a f oppure a fii..

Ordine tra le modalità obbli-Ordine tra le modalità obbli-gato.gato.

Ora anche la distanza tra le Ora anche la distanza tra le modalità è obbligata!!! modalità è obbligata!!!

la v.s. quantitativa discreta assume solo tre valori; essa non esiste, ad esempio, per x = 33,56 oppure per x = 0

il diagramma rappresenta davvero uno spazio bidimen-sionale, in cui ogni punto ha coordinate (xi, fi) o (xi, ni)

le modalità sono poste sull'asse delle ascisse e le frequenze sull'asse delle ordinate per convenzione

010203040

Diagramma ad ‘aste’Diagramma ad ‘aste’

xxii

nnii

Variabili per classi: il diagramma sbagliato

Che fare, se una variabile è per classi? In questo caso non pos-siamo associare a ogni coppia (xi,ni) un punto sul piano poiché le modalità non sono puntuali.

Pazienti anoressiche per età di insorgen-za (Selvini, 1998)

xi-xi+1 ni

9-11 11

11-14 45

14-19 63

19-25 23

142

Dovremo piuttosto alzare su ogni alzare su ogni segmento dell’ascisse, associa-segmento dell’ascisse, associa-to a una classe (to a una classe (xi-xi+1), un ret-), un ret-tangolo di giusta altezza.tangolo di giusta altezza.

Ma quale altezza è giusta?Ma quale altezza è giusta?

0

10

20

30

40

50

60

70

0 5 10 15 20 25 30

Morale: meglio far sì che Morale: meglio far sì che siano le aree ad essere pro-siano le aree ad essere pro-porzionali alle numerositàporzionali alle numerosità

nnii

xxii

Qualcosa non qua- dra: usando le nu-merosità come or-dinate, i 45 pazien-ti della classe (11-14) sembrano dav-vero pochi rispetto ai 63 della classe (14-19). Il grafico non rispetta le pro-porzioni tra classi

Variabili per classi: l’istogramma giusto

0

4

8

12

16

20

0 5 10 15 20 25 30

Il diagramma con altezze proporzionali alle densità e basi alle Il diagramma con altezze proporzionali alle densità e basi alle ampiezze delle classi si chiama ISTOGRAMMAampiezze delle classi si chiama ISTOGRAMMA

xi-xi+1 ni

9-11 11

11-14 45

14-19 63

19-25 23

142

Vogliamo che le aree dei rettangoli ri-spettino le proporzioni tra le numerosità.

Poiché “Area rettangolo=basexaltezza” e la base dei rettangoli è l’ampiezza delle rispettive classi (i=xi+1-xi), l’altezza dei rettangoli deve essere hi=ni/i. Questo rapporto si chiama densità.densità.

Densità: Densità:

hhii=n=nii//ii

hhii

xxii

i hi=ni/i

2 5,50

3 15,00

5 12,60

6 3,83

Condizione Condizione di area: di area:

iihhiiii=N=N

Ora la terza classe (14-19) con-tinua ad avere area più estesa, ma la sua altezza è inferiore al-la classe (11-14) dato che corri-sponde a una classe più ampia

Due cose che è bene sapere sull’istogramma/1

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25 30

xi-xi+1 ni fi

9-11 11 0,077

11-14 45 0,317

14-19 63 0,444

19-25 23 O,162

142 1,000

La prima cosa è che, come per i diagrammi a aste l’ordinata può essere indifferentemente proporzionale a ni o a fi, anche l’istogramma può calibrare le ordinate non alla densità assolute hi=ni/i ma alle densità relative i=fi/i.

Le proporzioni del grafico non mutano. La condizione d’area diventa

iiiiii=1=1 .

f f xx

xx

i i=fi/i

2 0,0385

3 0,1057

5 0,0888

6 0,0262

Due cose che è bene sapere sull’istogramma/2

La seconda cosa è che, frammentando indefinitamente i segmenti di base, le ampiezze i diventano differenziali (dx) e le variabili tendono a funzioni di densità di frequenza continue per le quali vale la condizione d’area

0

0,02

0,04

0,06

0,08

0,1

0,12

0 5 10 15 20 25 30

f f xx

xx

f(x)dx=1

Cioè l’area sottesa alla curva è =1.

Non preoccupatevi, comunque.

Nella prima e nella seconda parte del corso useremo variabili continue solo come forme idealtipiche per cogliere l’essenza di una legge di frequenza.

f(x)dx = 1f(x)dx = 1

Due esempi di leggi matematiche di frequenza

Solo nell’analisi dell’inferenza ritroveremo ‘distribuzioni notevoli’, cioè leggi teoriche che stimano il valore della densità di frequenza in funzio-ne del valore delle modalità: y = f(x). Ci limitiamo a due esempi.

Distribuzione rettangolare o uni-Distribuzione rettangolare o uni-forme. Rforme. Ricordate l’istogramma?

ii = ffii / ii

f f xxf f xx

aa bbxxxx

f f xx = 1 / (b-a)

Distribuzione esponenziale (ne-Distribuzione esponenziale (ne-gativa)gativa) (esempio: tempi di attesa)

f f xx = e- x 1//

Un esempio per classixi |- xi+1

0 |- 20

20 |- 40

40 |- 60

60 |- 80

80 |- 100

100|-160

160|-300

ni

126

439

346

123

37

22

6

1099

fi

11,5

39,9

31,5

11,2

3,4

2,0

0,5

100

i

20

20

20

20

20

60

140

hi

6,30

21,95

17,30

6,15

1,85

0,37

0,04

i

0,0057

0,0199

0,0157

0,0056

0,0017

0,0003

0,0001

0

4

8

12

16

20

24

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

xi

hi

General Survey Lombarda 2000 Distribuzione famiglie per reddito annuo (milioni lire)

Nota: sull’asse orizzontale i redditi sono stati divisi per 10 (cioè espressi in decine

di milioni) per pura comodità, senza che ne

risenta la forma del grafico

Nota: la classe (80-100) ha

numerosità che è solo il 60% superiore a quella della

classe seguente, ma la densità è

cinque volte tanto!

Miscugli di popolazioni. Un esempio

Spesso una popolazione non è omogenea al suo interno, rispetto a un ca-rattere osservato. Facciamo il caso della struttura per età degli immigrati presenti in Lombardia

Etàxi |-xi+1

Totalefi

ampiezza

densitàhi

15 |-25 15,7 10 1,57

25 |-35 49,7 10 4,97

35 |-45 27,3 10 2,73

45 |-65 7,3 20 0,37

100,0

05

1015202530354045505560

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Subpopolazioni e distribuzioni di frequenza

Ma popolazioni di diversa provenienza hanno diverse strutture per età. Per esempio:

Etàxi |-xi+1

Perufi

Albaniafi

15 |-25 9,7 29,5

25 |-35 45,5 41,1

35 |-45 30,8 23,8

45 |-65 14,0 5,6

100,0 100,00

60

0 80

Più vecchia la struttura per età dei peruviani

Più giovane la struttura per età albanese

Il numero di immigrati di 15-25 anni sarà pari alla somma delle numerosità di immigrati 15-25 dei diversi paesi.

La corrispondente frequenza relativa f(15-25) sarà invece la media aritmeticamedia aritmetica delle frequenze nei diversi gruppi nazionali, ciascuna ponderataponderata per la numerosità del corrispondente gruppo (un dato che non possediamo!).

05

1015202530354045505560

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80

Un secondo esempio

Abbiamo già imparato a classificare le province ita-liane secondo il tasso di di-soccupazione.

Disegnando gli istogrammi possiamo capire cosa signi-fica dire che una popola-zione è un miscuglio.miscuglio.

xi|-xi+1 niN ni

S niT

0–5 15 0 15

5-10 36 8 44

10-15 4 21 25

15-25 0 16 16

55 45 100

0

3

6

9

12

15

0 5 10 15 20 25 30

0

3

6

9

12

15

0 5 10 15 20 25 30

0

3

6

9

12

15

0 5 10 15 20 25 30

Miscuglio è un Miscuglio è un aggregato di aggregato di subpopolazioni subpopolazioni rispetto a uno rispetto a uno stesso carattere.stesso carattere.

La distribuzione La distribuzione di numerosità del di numerosità del miscuglio è la miscuglio è la somma delle di-somma delle di-stribuzioni delle stribuzioni delle singole subpopo-singole subpopo-lazioni. La distri-lazioni. La distri-buzione di fre-buzione di fre-quenza (relativa) quenza (relativa) è la loro media è la loro media ponderata. ponderata.

Tornateci su quando avremo introdotto il concetto di media

ponderata..

Un terzo esempio

Il caso della curva dei decessi per età (Lexis)Il caso della curva dei decessi per età (Lexis)

ddxx

xx

L’andamento standard della frequenza dei decessi per età (ddxx) è quello riportato con linea spessa.

Un secolo fa W. Lexis ha ipotizzato che la legge di frequenza dei decessi sia il risultato di un miscuglio di due popolazioni.

La curva rossa indica la subpopolazione congenitamente debole, che viene eliminata nei primi anni con andamento esponenziale negativo.

La curva blu indica la legge dei decessi per la popolazione ‘normale’, simmetrica campanulare (la chiameremo curva Normale o di Gauss).

Un esempio riassuntivo xi |- xi+1

0,0 |- 0,8

0,8 |- 1,2

1,2 |- 1,6

1,6 |- 2,0

2,0 |- 2,4

2,4 |- 2,8

2,8 |- 3,2

3,2 |- 3,6

3,6 |- 4,0

4,0 |- 4,4

4,4 |- 4,8

4,8 |- 5,2

5,2 |- 6,0

6,0 |- 8,0

8,0 |- 12

ni

4

1

7

10

9

23

11

15

8

6

3

3

3

8

3

114

i

0,8

0,4

0,4

0,4

0,4

0,4

0,4

0,4

0,4

0,4

0,4

0,4

0,8

2,0

4,0

fi

35

9

61

88

79

202

96

132

70

53

26

26

26

70

26

1000

hi

5,0

2,5

17,5

25,0

22,5

57,5

27,5

37,5

20,0

15,0

7,5

7,5

3,7

4,0

0,7

i

0,0437

0,0225

0,1525

0,2200

0,1975

0,5050

0,2400

0,3300

0,1750

0,1325

0,0650

0,0650

0,0325

0,0350

0,0065

Esercitiamoci su dati di sur-vey che ci consentono di svi-luppare l’intera procedura di calcolo di variabili per classi.

I dati riportati nelle prime due colonne riguardano le frequenze relative dei redditi ‘equivalenti’ delle 114 fami-glie di Milano città incluse nella General Social Survey.

Conoscendo le fi e N (114) possiamo ricostruire le nu-merosità specifiche ni.

Date le ampiezze (i) calco-liamo anche le densità.

I redditi di Milano cittàxi |- xi+1

0,0 |- 0,8

0,8 |- 1,2

1,2 |- 1,6

1,6 |- 2,0

2,0 |- 2,4

2,4 |- 2,8

2,8 |- 3,2

3,2 |- 3,6

3,6 |- 4,0

4,0 |- 4,4

4,4 |- 4,8

4,8 |- 5,2

5,2 |- 6,0

6,0 |- 8,0

8,0 |- 12

fi

35

9

61

88

79

202

96

132

70

53

26

26

26

70

26

1000

i

0,0437

0,0225

0,1525

0,2200

0,1975

0,5050

0,2400

0,3300

0,1750

0,1325

0,0650

0,0650

0,0325

0,0350

0,0065

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

Notate come la classe dei ricchi (6-8) pur essendo molto più numerosa delle precedenti (70 contro 26) ha ampiezza maggiore e densità assai minore.

Nota: sull’ordinata sono riportate le densità relative (verificate le proporzioni!) ma moltiplicate per cento per comodità (numeri più compatti). Nessun danno

per il grafico!

i

I redditi dei piccoli comunixi |- xi+1

0,0 |- 0,8

0,8 |- 1,2

1,2 |- 1,6

1,6 |- 2,0

2,0 |- 2,4

2,4 |- 2,8

2,8 |- 3,2

3,2 |- 3,6

3,6 |- 4,0

4,0 |- 4,4

4,4 |- 4,8

4,8 |- 5,2

5,2 |- 6,0

6,0 |- 8,0

8,0 |- 10

fi

11

14

88

164

140

196

108

80

48

65

24

17

19

21

5

1000

i

0,0137

0,0350

0,2200

0,4100

0,3500

0,4900

0,2700

0,2000

0,1200

0,1625

0,0600

0,0425

0,0237

0,0105

0,0012

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

Questa invece è la distri-buzione di frequenza dei redditi nei piccoli comuni

Anche sull’ascissa le modalità sono modificate in proporzione (moltipli-cate per dieci) per como-dità, senza danni per una corretta lettura del grafico

L’utilità del confronto

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

0

5

10

15

20

25

30

35

40

45

50

55

0 10 20 30 40 50 60 70 80 90 100 110 120 130 140

Rosso = Milano

Blu = Paesi

Più redditi alti in città

Più poveri in città

Più redditi mediobassi nei paesi

La sovrapposizione tra le due distribuzioni consente di cogliere

minuziosamente alcune importanti differenze

Miscugli: una porta verso l’analisi a 2 variabili

Acqua potabile

(dati 1996)

Nord e Centro

ni

Sud e Isole

ni

Totale (x1000)

Sufficiente sempre 28069 5610 33679

Insufficiente 3 mesi 2391 3900 6291

Insufficiente 6+ mesi 1317 9257 10574

Totale 31777 18767 50544

Acqua potabile

Nord e Centro

fi

Sud e Isole

fi

Totale fi

Suff 88,3% 29,9% 66,6%

Insuff 3 mesi

7,5% 20,8% 12,5%

Insuff 6+ mesi 4,2% 49,3% 20,9%

Totale 31777 18767 50544

Popolazione italiana secondo l’accesso all’acqua potabile e la ripartizione geografica

Miscugli si hanno anche per variabili qua-litative. Per esempio, hanno acqua a suffi-cienza 2 italiani su 3, ma solo 3 su 10 al Sud, e 9 su 10 al Nord.

Le distribuzioni di frequenze relati-ve del Nord e del Sud corrispondo-no (se moltiplicate per le rispettive numerosità complessive) alla tabel-la delle numerosità congiunte per ‘Accesso all’acqua’ e ‘Ripartizione’.

Il confronto tra subpopolazioni di un Il confronto tra subpopolazioni di un miscuglio è una porta di passaggio miscuglio è una porta di passaggio dell’analisi da una a due variabili!!dell’analisi da una a due variabili!!

LEZIONE A.3 Rappresentazioni grafiche TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi...

Documents

Transcript of LEZIONE A.3 Rappresentazioni grafiche TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi...