Transcript of STATISTICA Giovanni Barbaro NOTE STORICHE SULLA STATISTICA Cina - 2.300 a.c.: annotazioni e conteggi...
- Slide 1
- Slide 2
- STATISTICA Giovanni Barbaro
- Slide 3
- NOTE STORICHE SULLA STATISTICA Cina - 2.300 a.c.: annotazioni e
conteggi di abitanti, terreni Bibbia: conteggio degli Ebrei Impero
Romano: "Census" ogni 5 anni Dal XV secolo viene definita la
Statistica come "Scienza descrittiva degli Stati" (compaiono opere
contenenti dati demografici ed economici) XVIII secolo G.Achenwall
- Universit di Gottinga Comparsa delle prime tabelle comparative
delle risorse geografiche ed economiche dei vari Stati XIX secolo
Introduzione, nelle indagini Statistiche, del Calcolo delle
Probabilit (Laplace, Pascal, Fermat) XX secolo La Statistica
diventa una scienza autonoma Sempre maggiore diffusione... e
abuso!!! (esempio sondaggi commerciali, elezioni politiche,.)
- Slide 4
- DEFINIZIONE E CAMPO DI STUDIO DELLA STATISTICA La statistica
indaga su fenomeni collettivi, cio su fenomeni che riguardano un
insieme di individui,oggetti,beni raccogliendo informazioni
relative ad essi traducendole poi in un modello numerico che possa
essere analizzato semplicemente Il gruppo preso in esame definito
con il termine popolazione. Il singolo elemento della popolazione
detto individuo o unit statistica.
- Slide 5
- Facciamo alcuni esempi di popolazioni statistiche: I cittadini
che hanno il diritto al voto nelle elezioni per il Parlamento. Gli
abitanti della Francia. Le autovetture in circolazione attualmente
in Italia. Le aziende tessili in Liguria. Gli studenti di una
Istituzione Scolastica Le abitazioni esistenti in una cittadina
.
- Slide 6
- LO STUDIO DELLA STATISTICA PUO ESSERE SUDDIVISO IN DUE PARTI:
STATISTICA DESCRITTIVA Raccoglie ed elabora i dati per studiare un
fenomeno collettivo STATISTICA INDUTTIVA Si occupa dei metodi per
stimare un fenomeno collettivo a partire da un campione ricavato da
esso
- Slide 7
- FASI DELLA STATISTICA DESCRITTIVA RACCOLTA DATI
RAPPRESENTAZIONE DEI DATI ELABORAZIONE DATI Piano rilevazione
tabellegrafici Calcolo medie e indici variabilit
- Slide 8
- I caratteri che formano loggetto di una rilevazione statistica,
possono essere: Qualitativi, espressi in forma verbale, sovente
rappresentata da aggettivi. Esempi: il colore; la nazionalit; lo
stato civile; laffidabilit; lattitudine ai lavori manuali;
lattitudine agli studi Quantitativi, espressi da numeri. Esempi: la
statura, il peso, il numero di stanze di un appartamento Le modalit
di un carattere quantitativo saranno, allora, espresse da numeri,
che si chiamano anche i valori di quel carattere. COSA
RILEVARE?
- Slide 9
- I caratteri qualitativi si possono classificare in: Sconnessi:
relazioni di diversit (es. colore dei capelli) Ordinati: relazioni
dordine (es. grado distruzione) I caratteri quantitativi, invece,
si possono classificare in: Discreti: insieme finito o infinito
numerabile (es. numero componenti di una famiglia) Continui:
carattere espresso con un numero reale (es. altezze di un certo
gruppo di individui)
- Slide 10
- COME RACCOGLIERE I DATI SCHEDE QUESTIONARI INTERVISTE (ANCHE
TELEFONICHE) EXIT POLL Tipo della rilevazione Totale : viene
effettuata su tutte le unit statistiche della popolazione
(censimento) costi elevati e tempi elevati risultati affidabili
Parziale (o campionaria): viene effettuata su una parte (o
campione) della popolazione costi contenuti rapidit risultati
approssimati Occasionale: fatta "quando serve sondaggi d'opinione
Periodica: fatta regolarmente "ogni tanto tempo censimento (10
anni)
- Slide 11
- COME RAPPRESENTARE I DATI SERIAZIONE STATISTICA: Tabella
contenente frequenze di intensit di un carattere QUANTITATIVO SERIE
STATISTICA: Tabella contenente frequenze di modalit di un carattere
QUALITATIVO SERIE STORICHE: Tabella contenente intensit di un
carattere QUANTITATIVO rilevato per modalit TEMPORALI( p.es. le
vendite di automobili negli ultimo 10 anni) Il modo pi semplice ed
immediato per rappresentare i dati costituito da tabelle. Esiste
una classificazione
- Slide 12
- TITOLO DI STUDIO N.PERSONE lic.elementare2.000 lic. Media6.000
diploma10.000 laurea2.000 NUMERO STANZEN.APPARTAMENTI 1300 2500
32.000 43.000 5150 6100 7300 Serie statistica Seriazione
statistica
- Slide 13
- Peso (in grammi) N neonati 1.800-2.20010 2.200-2.60032
2.600-3.000120 3.000-3.400254 3.400-3.800134 3.800-4.20040
4.200-4.60010 ANNOVENDITE AUTO 199610.000 199715.000 199820.000
199918.000 200017.000 200122.000 200223.000 200310.000 Seriazione
statistica con dati divisi in classi Si suddividono i dati in
classi quando il carattere analizzato continuo Serie temporale
- Slide 14
- Il numero che rappresenta quante unit statistiche presentano un
certo carattere prende il nome di frequenza assoluta di quella
modalit. Linsieme delle coppie ordinate(modalit, frequenza
assoluta) si dice distribuzione di frequenze, cio una funzione che
pu essere rappresentata elencandone tutte le coppie organizzate in
una tabella. E possibile calcolare anche le cosiddette frequenze
relative che possono anche essere espresse in forma percentuale
Frequenza assoluta il numero di individui il cui carattere assume
un determinato valore. Frequenza relativa il rapporto tra la
frequenza assoluta e la totalit della popolazione statistica su cui
si sta svolgendo lindagine. Frequenza percentuale semplicemente la
frequenza relativa espressa in termini percentuali.
- Slide 15
- CarattereFrequenza assoluta Frequenza relativa Frequenza
percentuale Frequenza cumulata 0200,440 % 5100,220 %60% 10 0,220
%80% 1550,110 %90% 2050,110%100% TOTALE501100% F relativa = F
assoluta / Totale Come esempio si riportano i risultati su
unindagine condotta su un gruppo di 50 persone relativa al numero
di sigarette fumate ogni giorno: Talvolta pu essere utile calcolare
anche la frequenza cumulata (percentuale o relativa)
- Slide 16
- USO DEI GRAFICI I dati raccolti in tabelle possono essere
rappresentati attraverso grafici che offrono il vantaggio di una
descrizione del fenomeno in forma visiva. Possono essere utilizzati
i seguenti tipi di grafici: Diagrammi cartesiani Istogrammi e
ortogrammi Diagrammi a nastro Diagrammi circolari Diagrammi polari
Cartogrammi Ideogrammi
- Slide 17
- Diagrammi cartesiani sono usati soprattutto per le serie
temporali
- Slide 18
- Istogrammi Si usano per rappresentare seriazioni continue con i
dati raggruppati in classi. Le altezze dei rettangoli sono
proporzionali alle frequenze
- Slide 19
- Ortogrammi Sono simili agli istogrammi ma usati per serie
statistiche. Possono anche caratterizzarsi per pi rettangoli
affiancati
- Slide 20
- Diagrammi a nastro
- Slide 21
- Diagrammi circolari
- Slide 22
- Slide 23
- Diagrammi polari sono usati per particolari serie storiche con
carattere di ciclicit
- Slide 24
- Cartogrammi 7,3 11 20,1 Sono utilizzati per rappresentare serie
territoriali
- Slide 25
- Ideogrammi anni Auto vendute Sono rappresentazioni mediante
figure stilizzate che rappresentano il fenomeno studiato
- Slide 26
- ELABORAZIONE DEI DATI QUESTA FASE SERVE AD ESPRIMERE IN MODO
SINTETICO I RISULTATI DELLINDAGINE SVOLTA CALCOLANDO DEGLI INDICI:
VALORI MEDI INDICI DI VARIABILITA
- Slide 27
- I valori medi I valori medi I l valore medio un valore che
esprime una tendenza centrale. Secondo Cauchy la media di un
insieme un valore compreso tra il minimo e il massimo. Medie di
calcolo : sono quelle che si calcolano tenendo conto di tutti i
valori della distribuzione o Media aritmetica e sue propriet Media
aritmetica e sue propriet o Media Geometrica Media Geometrica o
Media quadratica Media quadratica o Media armonica Media armonica
Medie di posizione : sono quelle che si calcolano tenendo conto
solo di alcuni valori della distribuzione o Mediana Mediana o Moda
o valore normale Moda o valore normale
- Slide 28
- MEDIA ARITMETICA x 1 + x 2 + x n M = n x 1 f 1 + x 2 f 2 + x n
f n xf M = = N f Questa viene chiamata media ponderata ed
utilizzata quando i valori rilevati hanno frequenze diverse Questa
viene chiamata media semplice ed utilizzata quando i valori
rilevati non sono riportati con le frequenze
- Slide 29
- PROPRIETA DELLA MEDIA ARITMETICA Si definisce scarto della
media aritmetica la differenza tra il valore osservato e la media
stessa x i M La somma degli scarti positivi dalla media aritmetica
uguale, in valore assoluto, a quella degli scarti negativi, e
quindi la somma algebrica di tutti gli scarti dalla media uguale a
zero. Pertanto ne consegue che: ( x i M ) = 0
- Slide 30
- MEDIA GEOMETRICA Se i valori sono tutti positivi e non nulli si
pu calcolare la media geometrica. Si definisce media geometrica dei
valori x1, x2, , xn, quel numero G che sostituito ai valori xi
lascia invariato il loro prodotto: che la media geometrica
semplice. Nel caso di valori xi con frequenze o pesi y i, si ha:
dove: Dove f sono le frequenze
- Slide 31
- USO DELLA MEDIA GEOMETRICA La media geometrica viene utilizzata
quando si vuole analizzare il variare di un fenomeno nel tempo, per
esempio il tasso di variazione dei prezzi o i tassi di rendimento
di capitali. ESEMPIO Un capitale stato impiegato per 4 anni al
tasso del 2%, per altri 3 anni al tasso del 3 % ed in fine per 2
anni al tasso del 5%. Per il calcolo del tasso medio si pu
impiegare la Media Geometrica Ponderata:
- Slide 32
- MEDIA QUADRATICA Media quadratica semplice Media quadratica
ponderata dove La media quadratica quella con valore maggiore e
viene usata per mettere in evidenza i valori che si scostano molto
dai valori centrali Dove f sono le frequenze
- Slide 33
- MEDIA ARMONICA Media armonica semplice Media armonica ponderata
Dove: Dove f sono le frequenze
- Slide 34
- QUANDO USARE LA MEDIA ARMONICA Questa media utilizzata quando
ha significato il calcolo del reciproco di una certa grandezza. Per
esempio si definisce potere di acquisto di una moneta la quantit di
beni acquistabile con una unit di tale moneta. Se, per esempio un
prodotto costo 0,85 euro il potere di acquisto riferito a tale bene
: 1/0,85. Ora supponiamo che uno stesso prodotto in 4 citt
differenti abbia i seguenti prezzi: Milano 0,85 euro Torino 0,90
Roma 0,75 Bari 0,70 Potere acquisto medio =
- Slide 35
- MEDIANA Dati un insieme di valori x 1, x 2, x 3,. x n ordinati
si definisce Mediana il valore che bipartisce la successione.
Ovvero il valore centrale se il numero dei termini dispari La media
aritmetica dei due valori centrali se il numero dei termini pari.
Esempio: Calcolare la Mediana dei seguenti valori: Il Valore 9
quello che sta in centro ed pertanto la mediana Esempio: Calcolare
la Mediana dei seguenti valori: 4789101255 822333638414446 La
mediana la media aritmetica dei due valori centrali (36+38)/2 =
37
- Slide 36
- MEDIANA Se si ha invece una distribuzione di frequenze, occorre
calcolare le frequenze cumulate. Indicando con N la somma delle
frequenze, la Mediana il valore corrispondente a N/2 se N pari a
(N+1)/2 se N dispari N.FigliFrequenze assolute Frequenze cumulate
033 1811 2718 3422 4123 5124 6125 Tot 25 N =25 quindi la mediana il
valore corrispondente a (N+1)/2 = (25+1)/2 = 13 cio il valore 2
Indagine sul numero di figli su un campione di famiglie
- Slide 37
- MEDIANA Se i dati sono raggruppati in classi si determina la
classe mediana mediante le frequenze cumulate quindi si procede con
uninterpolazione lineare. Classi cilindrata(cc) F.ass.F. cum.
0-800100 800-1200840940 1200-16009551895 1600-20003052200
2000-25002002400 2500-30001002500 Tot 2500 2500 Esempio: stata
condotta una ricerca sulla cilindrata delle auto possedute da un
campione di persone: Poich N pari N/2 =1250 che corrisponde alla
Classe Mediana 1200-1600 Per giungere ad un valore preciso della
Mediana si deve impostare una proporzione: 1200 940 x 1250 1600
1895 (x-1200) : (1600-1200) = (1250-940) : (1895 -940)
- Slide 38
- MODA Si dice Moda o Valore Modale di una distribuzione di
frequenze il valore corrispondente alla massima frequenza Esempio
Voti matematica F.ass. 32 41 57 65 74 82 91 101 La Moda il valore 5
poich il valore corrispondente alla frequenza pi alta
- Slide 39
- MODA Se i valori sono raggruppati in classi si determina la
Classe Modale: Se lampiezza delle classi costante si dir classe
modale quella con frequenza maggiore; Se lampiezza delle classi non
costante si divide ogni frequenza per lampiezza della rispettiva
classe calcolando cos la densit di frequenza; il valore pi alto di
densit definisce la classe modale N.B. esistono delle distribuzione
di frequenza che presentano pi valori della moda( distribuzioni
plurimodali)
- Slide 40
- COME SI SCEGLIE UNA MEDIA ? Si possono solo fare considerazioni
a carattere generale: La media aritmetica pi utilizzata per
esprimere un concetto di equidistribuzione La media geometrica
utilizzata quando i dati si susseguono in progressione geometrica
La media quadratica quando si vuole eliminare linfluenza dei segni
e quando si vuole dare importanza a valori piuttosto grande La moda
si usa quando importante rilevare il valore che ha maggior
probabilit di presentarsi La mediana caratterizzata dal fatto di
non essere influenzata dalla rilevante differenza tra i dati
- Slide 41
- LA VARIABILITA I valori medi sono indici importanti per la
descrizione sintetica di un fenomeno statistico per non forniscono
informazioni sulla dispersione dei dati cio sulla loro variabilit
Esempio Due gruppi di studenti hanno sostenuto una prova di
matematica con i seguenti risultati: 1Gruppo345810 2 Gruppo56676 La
media dei voti per entrambi i gruppi vale 6, ma evidente che i dati
del 1 gruppo sono molto pi dispersi
- Slide 42
- INDICI DI VARIABILITA Campo di variazione Scarto quadratico
medio Varianza Coefficiente di variazione Scostamento semplice
medio Per stimare la variabilit si ricorre ad alcuni indici:
- Slide 43
- CAMPO DI VARIAZIONE( RANGE) E il pi semplice degli indici di
variazione: Si calcola facendo la differenza tra il dato pi grande
e il dato pi piccolo Campo variazione R = x max x min Il C.V. molto
semplice da calcolare per poco significativo poich tiene conto solo
del valore pi piccolo e di quello pi grande trascurando tutti gli
altri valori. Il campo di variazione d informazioni sulla
distribuzione dei dati: pi R piccolo pi i dati sono concentrati; pi
R grande pi i dati sono dispersi
- Slide 44
- SCARTO QUADRATICO MEDIO E VARIANZA Sono gli indici di
variabilit pi utilizzati, e tengono conto della distribuzione di
tutti i dati. Scarto quadratico medio(o deviazione standard)
Rappresenta la media quadratica, semplice o ponderata degli scarti
dei dati dalla media aritmetica M dove:
- Slide 45
- Varianza E definita come il quadrato dello scarto quadratico
medio e viene indicata con 2 Per il calcolo della varianza e dello
scarto quadratico medio si preferisce adottare la seguente formula
facilmente dimostrabile : dove Se i dati sono senza frequenze
- Slide 46
- OSSERVAZIONI La varianza 2 e lo scarto quadratico medio danno
informazioni sulla distribuzione dei dati: pi sono piccoli pi i
dati sono concentrati; pi sono grandi pi i dati sono dispersi.
- Slide 47
- Esempio : valorefrequenza 23 41 82 114 Calcolare varianza e
scarto quadratico medio
- Slide 48
- IL COEFFICIENTE DI VARIAZIONE CV Il CV una misura relativa di
dispersione (le precedenti sono misure assolute) ed una grandezza
adimensionale. E particolarmente utile quando si devono confrontare
le distribuzioni di due gruppi con medie molto diverse o con dati
espressi in scale differenti (es. confronto tra variazione del peso
e variazione dellaltezza).
- Slide 49
- SCOSTAMENTO SEMPLICE MEDIO Un altro modo per calcolare la
variabilit dei dati (tenendo conto di tutti i dati) consiste nel
calcolare la distanza di tutti i dati dalla media e fare la media
aritmetica di tali distanze dove In alcuni casi in tali formule
possibile sostituire alla Media Aritmetica M la Mediana Me
Scostamento semplice medio = Distanza media dei dati dalla media Se
i dati sono senza frequenze
- Slide 50
- Lo scostamento semplice medio dalla media d informazioni sulla
distribuzione dei dati: pi S M piccolo pi i dati sono concentrati;
pi S M grande pi i dati sono dispersi