4 - Le medie a.a. 2009101 LE MEDIE Elementi di Statistica.
-
Upload
drina-forte -
Category
Documents
-
view
227 -
download
3
Transcript of 4 - Le medie a.a. 2009101 LE MEDIE Elementi di Statistica.
4 - Le medie a.a. 200910 1
LE MEDIE
Elementi di Statistica
4 - Le medie a.a. 200910 2
Introduzione
Si è visto che per effettuare lo studio di un fenomeno statistico è spesso opportuno raggruppare in classi le diverse unità statistiche in modo da ottenere delle distribuzioni da analizzare, da rappresentare graficamente, confrontare.
Tale operazione è spesso laboriosa e il risultato non è sempre molto sintetico.
4 - Le medie a.a. 200910 3
Introduzione
Una domanda del tutto legittima è allora la seguente: come evidenziare, partendo dai dati o dalla loro riorganizzazione in distribuzione di frequenza, rapidamente e sinteticamente, le caratteristiche fondamentali di una variabile statistica?
4 - Le medie a.a. 200910 4
Introduzione Per rispondere a questa domanda bisogna prima
chiedersi quali sono le caratteristiche fondamentali che descrivono sinteticamente un qualsivoglia fenomeno statistico.
In questa sede ne individueremo sopratutto due: la centralità e la dispersione.
Le misure di centralità (o di tendenza centrale) esprimono sinteticamente il centro della distribuzione, vale a dire il valore intorno al quale sono disposti i dati.
Le misure di dispersione (o di variabilità) forniscono informazioni per capire se i dati sono più o meno dispersi attorno al centro
4 - Le medie a.a. 200910 5
Le misure di tendenza centrale informano sul centro della distribuzione
4 - Le medie a.a. 200910 6
Le misure di variabilità sulla dispersione
4 - Le medie a.a. 200910 7
INDICI STATISTICI UNIDIMENSIONALI
Per gli indici statistici unidimensionali, si ha la seguente classificazione:
1) Medie.
2) Misure di variabilità (chiamate anche
indici di variabilità).
3) Indici della forma di distribuzione.
4 - Le medie a.a. 200910 8
4 - Le medie a.a. 200910 9
LE MEDIE
Poiché i fenomeni sono molto disparati e le distribuzioni possono presentare forme molto diverse, non è possibile definire un’unica misura di tendenza centrale.
Infatti, sovente la definizione di centro ideale della distribuzione è strettamente connessa al tipo di fenomeno studiato.
4 - Le medie a.a. 200910 10
CATEGORIE DI MEDIE:
Convenzionalmente si suddividono in due grandi categorie: medie analitiche o algebriche; medie di posizione. Le medie analitiche vengono calcolate attraverso
operazioni algebriche sui valori della variabile, che dovrà essere perciò necessariamente di tipo quantitativo.
Le medie di posizione si possono calcolare, a determinate condizioni, anche per fenomeni qualitativi, poiché il loro calcolo coinvolge direttamente le sole frequenze, e indirettamente, solo particolari elementi della distribuzione.
4 - Le medie a.a. 200910 11
LE MEDIE ANALITICHE: la media aritmetica
Una media d’una variabile quantitativa è un numero
che si ritiene idoneo ad esprimere il cosiddetto
“ordine di grandezza” o
“tendenza centrale”
dell’insieme dei dati rilevati.
4 - Le medie a.a. 200910 12
CARATTERISTICHE DELLA MEDIA
E’ sempre compresa tra il più piccolo ed il
più grande dei valori osservati ed il suo
scopo è quello di sintetizzare le
informazioni, sostituendo alla pluralità
dei valori originari (pari ad n) un unico
numero.
4 - Le medie a.a. 200910 13
DEFINIZIONE: MEDIA ARITMETICA
Si dice media aritmetica di n
valori xi (i = 1, …, n) d’una
variabile quantitativa X, e
si indica con M, la somma
di tali valori divisa per n:
n
xM
n
ii
1
4 - Le medie a.a. 200910 14
1a PROPRIETA’ DELLA MEDIA ARITMETICA
La media aritmetica è il numero che
sostituito ai singoli valori xi osservati
(diversi tra loro) ne lascia invariata la
somma:
nMxn
ii
1
4 - Le medie a.a. 200910 15
2a PROPRIETA’ DELLA MEDIA ARITMETICA
La media aritmetica rende nulla la somma
algebrica delle differenze (anche
chiamate “scostamenti” o “scarti”) tra i
singoli xi e la media stessa:0)(
1
n
ii Mx
4 - Le medie a.a. 200910 16
OSSERVAZIONE
La media aritmetica attua quindi una
perfetta compensazione tra i valori
minori e quelli maggiori di essa.
4 - Le medie a.a. 200910 17
Proprietà della media aritmetica: Trasformazione lineare: Y = a + bX
4 - Le medie a.a. 200910 18
La media aritmetica: difetti
La media aritmetica è un valore caratteristico intorno al quale si posizionano i valori della distribuzione. Tuttavia il maggior difetto della media aritmetica è che risente fortemente dei valori estremi, cosicché può accadere che il suo valore non sia ben rappresentativo dell’insieme dei valori osservati.
4 - Le medie a.a. 200910 19
La trimmed mean
Un modo che consente di diminuire l’effetto dei valori estremi nel calcolo della media è quello è quello di effettuare il calcolo solo sui valori centrali.
La media così ottenuta viene detta trimmed mean
4 - Le medie a.a. 200910 20
Le medie di posizione: LA MEDIANA
Si dice mediana di n numeri, e si indica con Me, il valore che occupa la posizione centrale nella successione dei numeri ordinati in senso non decrescente e precisamente:
se n è dispari, il termine che occupa la posizione (n +1)/2;
se n è pari, per convenzione, la semisomma dei termini che occupano le posizioni n/2 e (n/2 + 1)
4 - Le medie a.a. 200910 21
Esempio:calcolo della media aritmetica
9,471.4 700.92,371.8 368.5
508,994.1 2952.62,486.1 215.2
967.5 256.610,735.4 654.221,024.0 1632.46,239.5 94.8
141,254.5 675.98,829.1 1755.01,525.1 307.8
16,709.1 3810.84,604.0 288.21,479.4 346.5
42,674.0 328.658,648.1 414.619,495.0 1174.91,055.5 169.0
18,560.7 5522.4877,124.246,164.49,471.4 700.9
4 - Le medie a.a. 200910 22
Esempio:calcolo della media trimmed Consideriamo il GDP dei 19 paesi fortemente indebitati da noi
considerati in precedenza. Se calcoliamo la media solo sul’80% dei valori centrali (escludiamo il 20%) si ottiene un GDP medio pari a 21,597.80 milioni di US$ contro il 46,164,4 milioni di US$ ottenuto considerando tutti i valori.
4 - Le medie a.a. 200910 23
ESEMPIO 1 (n dispari)
Consideriamo il GDP dei 19 paesi fortemente indebitati da noi considerati in precedenza ordiniamo i valori :
967,5 1.055,5 1.479,4 1.525,1 2.371,8 2.486,1 4.604,0 6.239,5 8.829,1 9.471,4 10.735,4 16.709,1 18.560,7 19.495,0 21.024,0 42.674,0 58.648,1 141.254,5 508.994,1
Essendo n=19 dispari, il termine centrale è il decimo, al quale corrisponde il valore 9.741,4 milioni di US$ (che è il GDP dell’Angola) e risulta molto minore del valore della media aritmetica (46.164,4 di milioni di US$).
4 - Le medie a.a. 200910 24
Dati Esempio 1
GDP (millionUS $)
967.5 Central African Republic 11,055.5 Tajikistan 21,479.4 Moldova 31,525.1 Kyrgyz Republic 42,371.8 Benin 52,486.1 Burkina Faso 64,604.0 Madagascar 76,239.5 Ethiopia 88,829.1 Jordan 99,471.4 Angola 10
10,735.4 Cote d'Ivoire 1116,709.1 Lebanon 1218,560.7 Uruguay 1319,495.0 Syrian Arab Republic 1421,024.0 Ecuador 1542,674.0 Nigeria 1658,648.1 Pakistan 17
141,254.5 Indonesia 18508,994.1 Brazil 19
4 - Le medie a.a. 200910 25
ESEMPIO 2
Consideriamo il GDP dei primi 10 paesi fortemente indebitati da noi considerati in precedenza
ordiniamo i valori :967,5 2.371,8 2.486,1 6.239,5 8.829,1 9.471,4
10.735, 4 21.024,0 141.254,5 508.994,1
Essendo n=10 pari, i due termini centrali sono il quinto ed il sesto, ai quali corrispondono rispettivamente i valori 8.829,1 e 9471,4, per cui la mediana risulta:
Me = (8.829,1 + 9.471,4)/2 = 9150,3 milioni di US$.
4 - Le medie a.a. 200910 26
OSSERVAZIONE
Si parla d’ordinamento non decrescente
dei termini – anziché di ordinamento
crescente – poiché vi possono essere
valori uguali della variabile.
4 - Le medie a.a. 200910 27
1a PROPRIETA’ DELLA MEDIANA
E’ applicabile anche a variabili espresse su
scala ordinale, poiché la sua
definizione richiede semplicemente che
i termini siano ordinabili.
4 - Le medie a.a. 200910 28
Esempio
Paese gruppo di appartenenza
Burkina Fasu Low Income
Sierra LeoneLow Income
Bolivia Lower Middle Income
Jordan Lower Middle Income
Chile Upper Middle Income
CostaRIca Upper Middle Income
Germany High Income
Slovenia High Income
Spain High Income
4 - Le medie a.a. 200910 29
ESEMPIO
Consideriamo l’ Income Group di appartenenza di 9 Paesi (secondo il 2003 GNI per capita, determinato utilizzando il World Bank Atlas method.
La mediana, che corrisponde al quinto termine della successione ordinata, è “Upper Middle Income”.
4 - Le medie a.a. 200910 30
2a PROPRIETA’ DELLA MEDIANALa mediana rimane invariata se si
sostituiscono i termini minori (maggiori) di essa con altri diversi, ma comunque minori (maggiori) di Me.
A differenza della media aritmetica, la mediana non risulta quindi influenzata dall’eventuale presenza di valori anomali (valori eccessivamente grandi o particolarmente piccoli rispetto all’insieme degli altri termini).
4 - Le medie a.a. 200910 31
I PERCENTILI
Come generalizzazione della mediana si
possono considerare i valori che
suddividono l’insieme dei termini (o delle
modalità ordinali) in due parti, con quote
percentuali prefissate.
4 - Le medie a.a. 200910 32
DEFINIZIONE: PERCENTILE
Si dice percentile di ordine z e si indica con xz
(0 < z < 100%)
il numero che suddivide la successione dei
valori ordinati in senso non decrescente in
due parti, tali che i valori minori o uguali a xz
siano una percentuale uguale a z.
4 - Le medie a.a. 200910 33
PERCENTILI DI PARTICOLARE INTERESSE
La mediana è il percentile di ordine z = 50%.
I quartili dividono la distribuzione in quattro
parti uguali: x25%, x50%, x75%.
I decili, definiti come x10%, x20%, x30%, x40%,
x50%, x60%, x70%, x80%, x90%.
4 - Le medie a.a. 200910 34
Percentili (Quantili)
Quartili
I quartili dividono la distribuzione in quattro parti uguali
25% 25% 25% 25%
(minimo) (massimo)(mediana)
4 - Le medie a.a. 200910 35
Percentili (Quantili)
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
I decili dividono la distribuzione in dieci parti uguali
Decili
4 - Le medie a.a. 200910 36
Esempio: calcolo dei quartiliCountry GDP
(millionUS $)
GDPper capita
GDPper capita ordinato
posto nella graduatoria non decrec.
Angola 9.471,4 700,9 94,8 Ethiopia 1Benin 2.371,8 368,5 169,0 Tajikistan 2Brazil 508.994,1 2952,6 215,2 Burkina Faso 3Burkina Faso 2.486,1 215,2 256,6 Central African Republic 4Central African Republic967,5 256,6 288,2 Madagascar 5Cote d'Ivoire 10.735,4 654,2 307,8 Kyrgyz Republic 6Ecuador 21.024,0 1632,4 328,6 Nigeria 7Ethiopia 6.239,5 94,8 346,5 Moldova 8Indonesia 141.254,5 675,9 368,5 Benin 9Jordan 8.829,1 1755,0 414,6 Pakistan 10Kyrgyz Republic1.525,1 307,8 654,2 Cote d'Ivoire 11Lebanon 16.709,1 3810,8 675,9 Indonesia 12Madagascar 4.604,0 288,2 700,9 Angola 13Moldova 1.479,4 346,5 1174,9 Syrian Arab Republic 14Nigeria 42.674,0 328,6 1632,4 Ecuador 15Pakistan 58.648,1 414,6 1755,0 Jordan 16Syrian Arab Republic19.495,0 1174,9 2952,6 Brazil 17Tajikistan 1.055,5 169,0 3810,8 Lebanon 18Uruguay 18.560,7 5522,4 5522,4 Uruguay 19
4 - Le medie a.a. 200910 37
INTERPRETAZIONE
Il nono decile, x90%, ad esempio, è il valore
che suddivide la distribuzione in due
parti tali che le unità statistiche con valori
della variabile minori o uguali ad x90%
siano il 90% del totale e le unità con
valori maggiori siano il restante 10%.
4 - Le medie a.a. 200910 38
ESEMPIO: Decili dei redditi delle famiglie italiane
Decimi di famiglie
Reddito (in migliaia di lire)
Reddito (in euro)
1° decile 14.873 7.681 2° decile 21.433 11.069 3° decile 27.200 14.048 4° decile 33.046 17.067 5° decile 39.252 20.272 6° decile 47.092 24.321 7° decile 55.752 28.794 8°decile 67.288 34.751 9° decile 86.800 44.828
4 - Le medie a.a. 200910 39
INTERPRETAZIONE
Il 10% delle famiglie più povere ha un reddito
annuo sino a 7.681 euro. Il valore che
discrimina il 20% delle famiglie più povere
dalle restanti è uguale a 11.069 euro; …;
l’ultimo 10% delle famiglie più ricche (nono
decile, x90%) ha un reddito annuo maggiore
di 44.828 euro.
4 - Le medie a.a. 200910 40
INTERPRETAZIONE DELLA MEDIANA
La mediana, che coincide con il quinto
decile, x50%, è uguale a 20.272 euro ed è
il valore del reddito annuo che divide il
primo 50% delle famiglie più povere dal
restante 50% delle famiglie più ricche.
4 - Le medie a.a. 200910 41
CONFRONTO CON LA MEDIA ARITMETICA
Il valore medio del reddito annuo delle famiglie italiane, è uguale 24.945 euro.
La media aritmetica dei redditi è alquanto superiore alla mediana poiché alla determinazione del valore della media aritmetica concorrono anche i redditi più elevati, che invece non influenzano il calcolo della mediana.
4 - Le medie a.a. 200910 42
LA MODA: DEFINIZIONE
Si dice moda d’una variabile discreta,
quantitativa o qualitativa, e si indica con
Mo, il numero o la modalità che presenta
la massima frequenza.
4 - Le medie a.a. 200910 43
ESERCITAZIONE 2
Riprendiamo l’esempio analizzato nella ESERCITAZIONE 1 relativo ai tre modi per produrre.
4 - Le medie a.a. 200910 44
ESERCITAZIONE 2
Le distribuzioni dei pezzi prodotti differiscono, come visto, sopratutto per la diversa “posizione”.
Una domanda che sembra naturale è di quanto?.. Ad esempio, “Nuova 2” sembra con i dati a disposizione
migliore di “Vecchia”. Ma quanto migliore?Una possibile maniera per rispondere a questo tipo di domande si
concretizza nel: 1. Sintetizzare le singole distribuzioni in un unico numero che,
in una qualche senso, indichi dove la distribuzione stessa è “posizionata”. Ovvero, calcolare per ogni distribuzione una misura (o parametro o indice) di posizione;
2. Rispondere confrontando gli indici calcolati al punto precedente. I parametri di posizione che vengono di solito utilizzati sono: la media aritmetica, la mediana e i quantili.
4 - Le medie a.a. 200910 45
Media e mediana: il caso delle tre riorganizzazioni del lavoro
Vecchia Nuova 1 Nuova 2
media 705,5 700,8 719,2
mediana 706 699 718,5
Come si vede risulta confermato i risultati
precedenti. Indicano che nuova 2 potrebbe far aumentare la produzione di circa un 2%.
4 - Le medie a.a. 200910 46
Istogramma nuova2
0
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.04
0.045
0.05
674 679 684 689 694 699 704 709 714 719 724 729 734 739 744 749 754 759
Classe
Fre
qu
enza
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
120.00%
Frequenza
% cumulativa
M =719,2Me= 718,5
50%
4 - Le medie a.a. 200910 47
ESEMPIO
Consideriamo l’incom group di 10 paesi fortemente indebitati ed ordiniamo i valori dal più piccolo al più grande:
Low, Low, Lower – middle, Low, Low, Low, Lower – middle, Low, Low, Lower - middle
La moda è uguale a Low (frequenza pari a 7 contro le altre frequenze pari ad 3).
4 - Le medie a.a. 200910 48
PROPRIETA’ DELLA MODA
La moda è l’unica media calcolabile per
una carattere qualitativo nominale
Essa rende minimo il numero di valori (o
delle modalità) diversi da essa.
4 - Le medie a.a. 200910 49
SCELTA DELLA MEDIA Dipende dagli scopi di sintesi. In molti casi
l’impiego congiunto di tutte le medie è utile per fornire un’informazione più completa sul fenomeno
Se il fenomeno è qualitativo ordinale, si possono calcolare la mediana e la moda. Se il fenomeno è qualitativo nominale l’unico criterio di sintesi possibile è la moda.
Se vi sono outliers è preferibile la mediana alla moda.
4 - Le medie a.a. 200910 50
INDICI PONDERATI IN GENERALE
Se le unità statistiche hanno una diversa dimensione o un’importanza differente, si attribuisce a ciascuna di esse un opportuno “peso”.
Per il calcolo della media e di indici di variabilità si utilizzano delle formule ponderate.
4 - Le medie a.a. 200910 51
FORMULE PONDERATE
n
ii
n
iii
w
wx
M
1
1
dove W è la variabile peso e wi è il valore del peso per la unità i-esima.
4 - Le medie a.a. 200910 52
FORMULE PONDERATE
Caso particolare: wi = 1/n → media aritmetica semplice Confronto con media ponderata in
distribuzione di frequenze
4 - Le medie a.a. 200910 53
FORMULE PONDERATE
MEDIA ARITMETICA PONDERATA (distribuzione di frequenze)
SIMBOLOGIA
dove: il numeratore individua l’ammontare complessivo del
fenomeno. Il denominatore la somma delle frequenze
r
ii
r
iii
n
nxM
1
1
4 - Le medie a.a. 200910 54
OSSERVAZIONE
Solitamente la ponderazione si applica nel
calcolo di indici statistici in presenza di
matrici dei dati derivati, in cui le variabili
sono dei rapporti statistici.
4 - Le medie a.a. 200910 55
ESEMPIO: INDICATORI STRUTTURALI
Per il rapporto:
Il peso è la popolazione in ciascun paese
Con questo criterio di ponderazione il GDP/popolazione medio risulta uguale a quello che si ottiene dividendo il totale dei GDP nazionali per il totale delle popolazioni nazionali.
EPOPOLAZION
GDP
4 - Le medie a.a. 200910 56
ESEMPIO
Country export of goods (million US $)
GDP (millionUS $)
Population (million) mid-year
Surface area (thsnd KM squares)
GDPper capita
population per KM squares
Export of goods and services (% of GDP)
Angola 7.103,60 9.471,40 13,5 1.247,00 700,9 10,8 75
Benin 355,8 2.371,80 6,4 113 368,5 57 15
Brazil 66.169,20 508.994,10 172,4 8.547,00 2952,6 20,2 13
Burkina Faso 248,6 2.486,10 11,6 274 215,2 42,2 10
Central African Republic 116,1 967,5 3,8 623 256,6 6,1 12
Cote d'Ivoire 4.079,40 10.735,40 16,4 322 654,2 51 38,0
Ecuador 5.676,50 21.024,00 12,9 284 1632,4 45,3 27,0
Ethiopia 935,9 6.239,50 65,8 1.104,00 94,8 59,6 15,0
Indonesia 59.326,90 141.254,50 209 1.905,00 675,9 109,7 42,0
Jordan 3.884,80 8.829,10 5 89 1755 56,5 44,0
Kyrgyz Republic 564,3 1.525,10 5 200 307,8 24,8 37,0
Lebanon 2.339,30 16.709,10 4,4 10 3810,8 438,5 14,0
Madagascar 1.335,20 4.604,00 16 587 288,2 27,2 29,0
Moldova 739,7 1.479,40 4,3 34 346,5 125,6 50,0
Nigeria 18.776,50 42.674,00 129,9 924 328,6 140,6 44,0
Pakistan 10.556,70 58.648,10 141,5 796 414,6 177,7 18,0
Syrian Arab Republic 7.408,10 19.495,00 16,6 185 1174,9 89,7 38,0
Tajikistan 675,5 1.055,50 6,2 143 169 43,7 64,0
Uruguay 3.526,50 18.560,70 3,4 176 5522,4 19,1 19,0
totale 193.818,60 877.124,20 843,9 17.563,00 21.668,90 1.545,10 604,0
media arit 10200,98 46164,43 44,42 924,37 1140,47 81,32 31,8
media rapp fra somme 1039,4 48 22,1
4 - Le medie a.a. 200910 57
Scelta della media
4 - Le medie a.a. 200910 58
I bilanci delle famiglie italiane nell’anno 2000
4 - Le medie a.a. 200910 59
I bilanci delle famiglie italiane nell’anno 2000
4 - Le medie a.a. 200910 60
ESAME DI STATISTICA ECONOMICA PROVA SCRITTA DEL 29 giugno 2007
3) Che informazione forniscono i quintili della distribuzione di redditi famigliari?
la quantità di reddito ricevuta dai gruppi di 500 famiglie
il numero di famiglie che ricevono un quinto di reddito totale
la quantità di reddito ricevuta da un quinto delle famiglie