Post on 01-May-2015
Rappresentazioni grafiche di serie di frequenza … etc … etc
• Diagrammi a barre• Torte• Diagrammi ad aghi• Istogrammi di frequenza• Istogrammi di densità• Box plots• Diagrammi a gambo e foglia• I modelli matematici• Diagrammi a linee continue
UNA SERIE DI FREQUENZA
Una serie statistica è la successione delle frequenze che corrispondono alle modalità di un carattere qualitativo.
Esempio:
Si consideri la variabile esito di un esperimento di ototossicità condotto su 120 cavie trattate, per due settimane consecutive, con un antibiotico che ha sia ototossicità sia tossicità generale. L'insieme delle coppie "modalità, frequenza di comparsa" viene anche indicato con il nome di distribuzione della variabile esito.
FREQUENZE
MODALITÀ assolute relative
morte nella 1a settimana
18 0.15
morte nella 2a settimana
12 0.10
sopravvissute e otolese 36 0.30
sopravvissute e non otolese
54 0.45Nota: una frequenza relativa è il rapporto tra la frequenza assoluta con cui si manifesta una modalità e la numerosità totale del campione
Rappresentazione tabulare di una serie qualitativa
Distribuzione degli esiti di un esperimento di ototossicità.
GRAFICI PER SERIE QUALITATIVE
0 10 20 30 40 50 60
sopravvissute enon otolese
sopravvissute eotolese
morte in 2 settimana
morte in 1°settimana
frequenza assoluta
a
a
sopravvissutee non-otolese
sopravvissutee otolese
morte in 2a
settimana
morte in 1a
settimana
45%
30%
15%
10%
Diagramma a barre orizzontali
Diagramma areolare (o a torta)
SERIE STATISTICHE QUANTITATIVE
Anche la successione delle frequenze che corrispondono alla comparsa di un carattere quantitativo discreto costituisce una serie statistica.
Rappresentazione tabulare di una serie quantitativaMorti per calcio di cavallo in 200 reggimenti di cavalleria prussiani. (Bortkiewicz. 1898)
numero di morti frequenze semplici frequenze cumulatein un reggimento assolute relative assolute relative
0 109 54,5 109 54,51 65 32,5 174 87,02 22 11,0 196 98,03 3 1,5 199 99,54 1 0,5 200 100,0
5+ 0 0 200 100,0
Nota: la frequenza cumulata assoluta in corrispondenza di un valore x* indica il numero di volte che la variabile x ha assunto valori pari o inferiori a x*.
Ad esempio, la frequenza cumulata assoluta per il valore 2 è data dalla somma 109+65+22= 196: ben 196 dei 200 reggimenti (pari al 98%, frequenza cumulata relativa) hanno presentato un numero morti per calcio di cavallo inferiore oppure uguale a due.
RAPPRESENTAZIONE GRAFICA DI SERIE QUANTITATIVE
0
0.1
0.2
0.3
0.4
0.5
0 1 2 3 4
n° di morti per calcio di cavallo
fre
qu
en
za s
em
plic
e r
ela
tiv
a
0
0.2
0.4
0.6
0.8
1
-1 0 1 2 3 4 5
freq
uen
za c
um
ula
ta r
elat
iva
n° di morti per calcio di cavallo
01234
54,5%
32,5%
1.5%11%
0.5%
morti per calcio di cavallo
Diagramma ad aghi per frequenze semplici
Diagramma a gradini per frequenze cumulate
Diagramma areolare
RAPPRESENTAZIONE GRAFICA DI SERIAZIONE DI FREQUENZA
La distribuzione di variabili continue espresse in scala quantitativa si rappresenta in modo analogo: tuttavia, la frequenza non è riferita ad una modalità o ad un singolo valore, ma ad intervalli (o classi) di valori, ognuno dei quali include un'infinità di possibili valori (almeno virtualmente).
51.0 49.4 49.0 52.5 51.5 51.8
46.5 47.8 49.7 44.5 49.8 53.0
48.7 50.0 52.9 50.8 46.2 48.9
54.5 48.2 48.9 51.2 49.5 56.3
46.0 52.2 47.0 50.8 50.0 52.5
51.2 51.1 54.7 52.3 48.2 50.8
55.0 50.2 50.3 47.7 48.5 53.8
50.2 53.4 47.4 50.5 51.7 49.5
44.4 49.2 50.5 49.5 52.9 50.5
54.0 46.5 51.5 50.9 51.6 52.7
Esempio:
Un'indagine condotta da un gruppo di neonatologi ha rilevato i valori di lunghezza supina (cm) in un campione di 60 neonati.
Le misurazioni, eseguite con l'infantometro Harpenden, sono riportate nella tabella.
Come costruire una seriazione di frequenza.
valore frequenzalimiti di classe centrale assoluta cumulata( 44.3 - 45.7 ] 45.0 2 2( 45.7 - 47.3 ] 46.5 5 7( 47.3 - 48.7 ] 48.0 7 14( 48.7 - 50.3 ] 49.5 14 28( 50.3 - 51.7 ] 51.0 16 44( 51.7 - 53.3 ] 52.5 9 53( 53.3 - 54.7 ] 54.0 5 58( 54.7 - 56.3 ] 55.5 1 59( 56.3 - 57.7 ] 57.0 1 60
Il numero di classi può oscillare tra 8 e 20, a seconda della numerosità dell'insieme di dati.
Il centro della classe deve coincidere con un valore misurabile
(es.: 46.5 va bene perchè è misurabile; mentre 44.48 non lo è, con l'infantometro)
e di uso comune (es.: 46.5 è da preferirsi a 45.2).
Come costruire una seriazione di frequenza.
Il centro di classe deve coincidere con la media degli estremi di classe.
I valori misurabili non devono coincidere con gli estremi di classe.
limiti apparenti valore Frequenza Frequenza relativadi classe Centrale Assoluta Cumulata Semplice Cumulata
44.25 - 45.75 45.0 2 2 0.033 0.03345.75 - 47.25 46.5 5 7 0.083 0.11747.25 - 48.75 48.0 7 14 0.117 0.23348.75 - 50.25 49.5 14 28 0.233 0.46750.25 - 51.75 51.0 16 44 0.267 0.73351.75 - 53.25 52.5 9 53 0.150 0.88353.25 - 54.75 54.0 5 58 0.083 0.96754.75 - 56.25 55.5 1 59 0.017 0.98356.25 - 57.75 57.0 1 60 0.017 1.000
Istogramma (o diagramma a canne d'organo)
0
0.1
0.2
0.3
45 48 51 54 57
freq
uen
za r
elat
iva
0
0.1
0.2
0.3
cm
ISTOGRAMMA POLIGONO DIFREQUENZA
centro della classe
Ogiva di Galton per le frequenze cumulate
0.0020.033
0.117
0.233
0.467
0.733
0.883
0.967 0.983 1
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
44.25 45.75 47.25 48.75 50.25 51.75 53.25 54.75 56.25 57.75Titolo asse
fre
qu
en
za
re
lati
va
cu
mu
lata
cm
ISTOGRAMMI DI DENSITÀ DI FREQUENZA
Negli istogrammi e nei poligoni di “densità” le frequenze sono proporzionali all'area (delimitata dalla spezzata che li costituisce e inclusa tra due valori reali sull'asse orizzontale), e non all'altezza della figura. Ovviamente, quando le classi hanno tutte la stessa ampiezza, l'area è propor-zionale anche all'altezza. I valori riportati sull'asse verticale indicano la densità di frequenza per una prefissata ampiezza di classe.
0
0.1
0.2
0.3
45 48 51 54 57 cm
f(x)
50
23 270
0.1
0.2
0.3
Titolo asse cm
f(x)
45 48 51 54 57
9 classi3 classi
Modificazione della forma degli istogrammi in funzione dell'ampiezza delle classi.
FUNZIONE DENSITÀ Lunghezza supina (cm) in un campione di 60 neonati.
Valori della funzione densità nel caso di tre classi di ampiezza identica = 4.5 cm.
Limiti valore frequenze Semplici Frequenze cumulate densità
di classe centrale n % n %
44.3-48.7 47.5 14 0.233 14 0.233 0.0518518
48.8-53.2 51.5 39 0.650 53 0.883 0.1444444
53.3-57.7 55.5 7 0.116 60 1.000 0.0258259
0
0.1
0.2
0.3
Titolo asse cm
f(x)
45 48 51 54 57
9 classi3 classi
La densità si calcola dividendo la frequenza relativa per l'ampiezza della
classe.
La densità è una nuova poligonale
L'area compresa tra la poligonale e l'asse delle ascisse è uguale ad 1.0
La somma 0.0518518 4.5+ 0.1444444 4.5+0.0258259 4.5 = 1.00
( 0.233) + ( 0.650) + (0.116 ) = 1.00
NB: Anche se le ampiezze di classe sono diverse tra loro, la densità ha le stesse proprietà
ISTOGRAMMI DI DENSITÀ DI FREQUENZA
45 48 51 54 57
0
0.1
0.2
0.3
cm
f(x)
Un grafico complesso: age of life tree
Under 55 to 9
10 to 1415 to 1920 to 2425 to 2930 to 3435 to 3940 to 4445 to 4950 to 5455 to 5960 to 6465 to 6970 to 7475 to 7980 to 84
10 7.5 5 2.5 2.5 5 7.5 10Population in millions
Males Females
Source: U.S. Census Bureau, Census 2000, Tables 1, 2 and 3
Year 2000US Male and Female Population by Age
Censimento USA anno 2000
agegrp white black Indian asian islandMalewhite
Maleblack
MaleIndian
Maleasian
Maleisland
Femwhite
Femblack
Femindian
Femasian
Femisland
Under 5 12859892 2804786 213052 670406 33391 6597764 1424275 108659 337149 17254 6262128 1380511 104393 333257 16137
5 to 9 13944882 3205512 239007 680536 36503 7159656 1627475 120954 348856 18702 6785226 1578037 118053 331680 17801
10 to 14 14322638 3121530 245677 684525 35772 7361650 1584518 125260 352071 18376 6960988 1537012 120417 332454 17396
15 to 19 14167148 2929553 232351 746511 37328 7288058 1482765 119350 380560 19394 6879090 1446788 113001 365951 17934
20 to 24 13064891 2628752 198010 816452 38693 6675922 1280628 102116 407865 20243 6388969 1348124 95894 408587 18450
25 to 29 13501773 2548968 186689 986222 35224 6846202 1211753 95441 484136 18385 6655571 1337215 91248 502086 16839
30 to 34 14818786 2618602 186072 949418 33129 7490728 1239755 94245 461712 16883 7328058 1378847 91827 487706 16246
35 to 39 17031492 2826361 202013 909439 33031 8544270 1328309 99900 439179 16638 8487223 1498052 102113 470260 16393
40 to 44 17265996 2700418 189201 846118 28760 8631912 1267177 92141 398480 14660 8634083 1433241 97060 447638 14100
45 to 49 15810626 2275191 159422 749777 23675 7855623 1056143 77577 345873 11717 7955003 1219048 81845 403904 11958
50 to 54 14213875 1805457 128303 626255 18938 7023516 831065 62799 288810 9479 7190359 974392 65504 337445 9459
55 to 59 11107247 1306641 90531 433749 13428 5415680 588262 43962 203331 6642 5691567 718379 46569 230418 6786
60 to 64 8945842 1063469 67189 342795 10142 4292670 468895 32324 160314 4908 4653172 594574 34865 182481 5234
65 to 69 8040225 881786 49463 274085 7698 3753923 374464 22837 119499 3747 4286302 507322 26626 154586 3951
70 to 74 7648193 731386 36434 220066 5529 3407201 291976 16163 92669 2462 4240992 439410 20271 127397 3067
75 to 79 6530019 550024 25608 155965 3614 2696297 206915 10701 67074 1537 3833722 343109 14907 88891 2077
80 to 84 4408597 346465 14646 88183 2155 1643745 116030 5488 36339 907 2764852 230435 9158 51844 1248
DIAGRAMMA A GAMBO E FOGLIA (1)
Una utile rappresentazione di un numero limitato di dati è il grafico a “gambo-e-foglia”: Esso …
ha una forte somiglianza con l'istogramma ed ha lo stesso scopo fornisce informazioni riguardanti il range dell'insieme dei dati, mostra la posizione della concentrazione delle misure più elevate, mette in evidenza la presenza o l'assenza di simmetria, mantiene l'informazione contenuta nelle misure individuali. elimina il passo intermedio di preparazione di una tabella ordinata.
Per la sua costruzione dividiamo ciascun valore numerico in due parti:la prima parte è chiamata gambo e la seconda parte foglia. il gambo è costituito da una o più cifre iniziali del valore numerico e la foglia è formata da una o più delle rimanenti cifre.
Tutti i numeri suddivisi vengono riportati insieme in un singolo grafico; i gambi formano una colonna ordinata con il più piccolo gambo all'inizio ed il più grande alla fine della colonna.
DIAGRAMMA A GAMBO E FOGLIA (2)
Stem-and-leaf plot for altezzaAltezza rounded to nearest Multiple of.1Plot in units of .144* | 4545* |46* | 025547* | 047848* | 22579949* | 0245557850* | 00223555888951* | 01225567852* | 235579953* | 04854* | 05755* | 056* | 3
Il seguente esempio illustra la costruzione di un grafico gambo-e-foglia.
Le righe del grafico contengono le foglie, ordinate ed elencate a destra dei rispettivi gambi.
Quando le foglie sono formate da più di una cifra, tutte le cifre dopo la prima
possono essere eliminate.
(BOXPLOT)Boxplot della Lunghezza supina (cm) in un campione di 60 neonati
Terzo quartile
Primo quartile
Mediana
soglia superiore
soglia inferiore
La linea orizzontale entro la scatola è indica il valore della mediana della distribuzione delle Lunghezze supine.
I bordi superiore ed inferiore della scatola sono le soglie superiore ed inferiore (ovvero i quartili) della distribuzione delle Lunghezze supine.
Le linee verticali agli estremi della box connettono i punti estremi delle rispettive soglie.
Calories in three types of hot dogs, 20 campioni esaminati per tipo
Esempio di Box Plot
Distanza in miglia con un litro di benzina per automobili “Mini”.
Guinea pig survival data
Babe Ruth “Home Run” data
Esempio: asimmetria a destra
Histogram Example
il problema della “piscina"
Per esempio, si potrebbe richiedere a voi di spiegare il numero di mattonelle che saranno necessarie a fare i bordi intorno ad una piscina di varie lunghezza e larghezza, come nella figura 2. Voi potreste sviluppare varie formule per esprimere questi rapporto in base ad una tabella di datie e il loro rapporto nella situazione in esame;
costruiamo un “modello”
"avete bisogno di L + 2 mattonelle nella parte superiore e lo stesso numero nella parte inferiore. Ed avete bisogno di W mattonelle alla sinistra ed alla destra. Così in totale, il numero necessario di mattonelle è T = 2(L + 2) + 2W."
L
W
I modelli costruiscono i “valori attesi”
Ora è chiaro che non dobbiamo conoscere il valore di L ed il valore di W e non interessa.Quando ci troveremo in una situazione concreta utilizzeremo il “modello”
T = 2(L + 2) + 2W
per definire un valore atteso “T” il quella situazione particolare
Diagrammi a linee continue
Diagrammi a linee continue