LEZIONI DI LEZIONI DI STATISTICA MEDICASTATISTICA MEDICA
Sezione di Epidemiologia & Statistica Medica Università degli Studi di Verona
Prof. Roberto de Marco
Lezione n.4
- Misure di posizione
“ un qualsiasi insieme di dati porta in sè una certa quantità di informazione ”
OBIETTIVO:riassumere tutta l’informazione possibile
in modo SINTETICO ed EFFICACE
diversi strumenti e possibilità offerti dalla statistica
STATISTICHE DI BASE
la variabile d’interesse è l’ALTEZZA
UNA POPOLAZIONE CON MOLTA VARIABILITÀ
UNA POPOLAZIONE CON POCA VARIABILITÀ
Una serie di dati [misurazioni] è compiutamente descritta da tre PROPRIETÀ PRINCIPALI:
La tendenza centrale o posizione La dispersione o variabilità La forma
quando descrivono la POPOLAZIONE(si indicano con lettere dell’alfabeto
greco
STATISTICHE
PARAMETRI
Queste misure descrittive sintetiche sono chiamate:
quando sono calcolate su un CAMPIONE di dati (si indicano con lettere
dell’alfabeto latino)
(x, s, p)
INDICI DI POSIZIONEINDICI DI POSIZIONE(measures of location or central tendency)
1. MODA
2. MEDIA
3. MEDIANA
MODAMODA
Si definisce moda di un insieme di dati o di una distribuzione di frequenza la modalità, il valore (o l’intervallo di classe) della variabile a cui corrisponde la massima frequenza.
E’ la scelta fatta dalla maggioranza della popolazione, lo stile che “tutti” seguono
in statistica non è diverso
esempio: (50 neonati)
modalitàxi
frequenzaassoluta
ni
frequenzarelativa
pi
frequenza relativapercentuale
pi (%)
normale 35 0.70 70%
forcipe 1 0.02 2%
cesareo 14 0.28 28%
TOTALE 50 1.00 100%
MODA o classe modale
MA LA MODA E’ SEMPRE UNA MA LA MODA E’ SEMPRE UNA SOLA?SOLA?
0
0,05
0,1
0,15
0,2
<106 106-115
116-125
126-135
136-145
146-155
156-165
>=166
pressione sistolica (mmHg)
freq
. rel
ativ
a
0
0,05
0,1
0,15
0,2
0,25
<106 106-115
116-125
126-135
136-145
146-155
156-165
>=166
pressione sistolica (mmHg)
freq
. rel
ativ
a
0
0,05
0,1
0,15
0,2
0,25
<106 106-115
116-125
126-135
136-145
146-155
156-165
>=166
pressione sistolica (mmHg)
freq
. rel
ativ
a
Pressione sistolica di tre gruppi di maschi giapponesi: nativi, prima e seconda generazione di immigrati negli USA (Issei e Nisei).Winkelstein et al. Am J Epidemiol 1975; 102:502-13.
NATIVI GIAPPONESI
ISSEI NISEI
MEDIANAMEDIANA
Il valore centrale di una serie ORDINATA di dati
Le osservazioni vengono separate dal valore mediano in due parti numericamente uguali
Mediana (Me) è sinonimo di 50-esimo percentile o di II quartile
se n è dispari
Me = x[(n+1)/2]
se n è pari Me = [xn/2 + x(n/2+1)] / 2
es. sulla mediana
50 cm150 cm 155 cm165 cm 180 cm
campione di 5 unità
variabile d’interesse = altezza
1. ordino le unità secondo un ordine crescente di altezza
50 cm 150 cm 155 cm 165 cm 180 cm
2. identifico l’unità centrale nella serie ordinata di dati
es. sulla mediana
campione di 5 unità
variabile d’interesse = altezza
50 cm 150 cm 155 cm 165 cm 180 cm
2. la mediana è il VALORE che la variabile altezza assume sull’unità che divide il campione in due parti numericamente uguali
NB: le misure di posizione sono valori, NON frequenze!
50 cm 150 cm 155 cm 165 cm 180 cm
n è dispari Me = x[(n+1)/2] = x(5+1/2) = x3
formalmente:
14
3
5
2
ESERCIZIO-IIESERCIZIO-III dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:
9 11,4 12,99,3 11,4 139,4 11,4 13,19,7 11,5 13,110,2 11,6 13,210,2 11,6 13,310,3 11,7 13,310,4 11,7 13,410,4 11,8 13,410,5 11,8 13,510,6 11,9 13,510,6 11,9 13,610,7 12 13,710,8 12 13,710,8 12,1 14,110,9 12,1 14,610,9 12,1 14,610,9 12,2 14,711 12,3 14,911 12,5 15
11,1 12,511,1 12,711,2 12,911,2 12,911,3 12,9
2. Raggruppate i dati in intervalli di ampiezza 1 g/100 ml.
3. Determinate la moda e la mediana della distribuzione (dati raggruppati in intervalli di classe).
MEDIA ARITMETICAMEDIA ARITMETICALa media aritmetica di un insieme di osservazioni è pari alla somma dei valori diviso il numero totale delle osservazioni
9.128/1038/)13135112713165( x
Formalmente: siano (x1, x2, … , xn) le osservazioni della variabile X su un campione di n unità statistiche, allora
nxxxnxx n
n
ii /)..(/ 21
1
5 16 13 27 11 5 13 13esempio:
(8 osservazioni)
x1 x2 x3 x4 x5 x6 x7 x8x1 x2 x3 x4 x5 x6 x7 x8
MEDIA ARITMETICA PONDERATA - IMEDIA ARITMETICA PONDERATA - I
n
nxnxnx
n
nxx kk
k
iii
..22111
Se una variabile assume lo stesso valore in più unità statistiche la media può essere calcolata moltiplicando quel valore per la frequenza con cui compare nella distribuzione
k = numero di valori che la variabile può assumere
xi = i-esimo valore assunto dalla variabile i-esimo
ni = frequenza corrispondente al valore xi
9.128/1038/)2716391110( x
xi ni xini
5 2 10
11 1 11
13 3 39
16 1 16
27 1 27
Totale 8 103
x1
x2
x3
x4
x5
x6
x7
x8
51613271151313
esempio sulla media aritmetica ponderata:
n
nxnxnx
n
nxx kk
k
iii
..22111
k = numero di valori che la variabile può assumerexi = valore assunto dalla variabile nel sogg. i-esimoni = frequenza corrispondente al valore xi
la variabile può assumere 5
valori (k = 5)
età ni xi xini
5-9 2 7 14
9-13 2 11 22
13-17 5 15 75
17-21 1 18 18
tot 10 129.12.9.129/10/)..( 882211 nnxnxnxx
n
nxnxnx
n
nxx kk
k
iii
..22111
k = numero di classi della variabile xi = valore centrale della classe
ni = frequenza corrispondente al valore xi
La media ponderata si applica anche alla distribuzione di frequenza di una var. quantitativa continua
La media aritmetica gode di diverse proprietà, le due principali dal punto di vista applicativo sono legate al concetto di scarto:
n
ini xxxxxxxx
121 0)(..)()()(
scarto (distanza) della prima osservazione dalla
media media aritmetica = punto ‘centrale’ della distribuzione
PRIMA PROPRIETA’ DELLA PRIMA PROPRIETA’ DELLA MEDIA ARITMETICAMEDIA ARITMETICA
la somma algebrica degli scarti delle osservazioni dalla loro media aritmetica è pari a zero
ESERCIZIO-IIIESERCIZIO-III
i) Determinate la media della distribuzione;
ii) Verificate la I° pproprietà della media
--------------------------------------------- CLASSE PUNTO FREQUENZA CENTRALE ASSOLUTA xi*ni (xi) (ni)---------------------------------------------[9-10) 9.5 4 38.0[10-11) 10.5 14 147.0[11-12) 11.5 19 218.5[12-13) 12.5 14 175.0[13-14) 13.5 13 175.5[14-15] 14.5 6 87.0 ---- ------- TOTALE 70 841.0
I dati seguenti si riferiscono al livello di emoglobina (X) in g/100 ml misurato in un campione di 70 donne:
TIPO DI OPERAZIONI
VARIABILE CONSENTITE MODA MEDIANA MEDIA
nominale =
ordinale = < >
quantitativa = < > – + (/ *)
QUALE MISURA DI POSIZIONE QUALE MISURA DI POSIZIONE UTILIZZARE?UTILIZZARE?
Sì
Sì Sì
Sì Sì Sì
No No
No
MEDIA ARITMETICA
MEDIANAMODA
Facile da trattare matematicamente
Utilizza tutta l’informazione
contenuta nei dati
CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA
E’ inaffidabile in caso
di distribuzioni asimmetriche
Difficile da trattare
matematicamente
Dipende dal raggruppamentoarbitrario dei dati
Varia molto da campione a campione
Buona misura con distribuzioni
asimmetriche (es. tempo di
sopravvivenza)
Buona misura quando un valore ha una frequenza
relativa molto elevata
Buona misura con distribuzioni
simmetriche (es. molti parametri
biologici)
CONFRONTO TRA LE MISURE DI POSIZIONE PER CONFRONTO TRA LE MISURE DI POSIZIONE PER UNA VARIABILE QUANTITATIVAUNA VARIABILE QUANTITATIVA
CAMPIONE 4 5 12 3 4 4 95 8 6
Moda = 4
Mediana = 5
Media ≈ 16 (senza outliers sarebbe circa 6)
esempio:Supponiamo di avere le Degenze Ospedaliere di 10 individui (espresse in giorni)
La media aritmetica è poco “robusta” in presenza di valori anomali (outliers)!
Moda> Mediana> Media
ASIMMETRIA
NEGATIVA
Moda< Mediana< Media
ASIMMETRIA POSITIVA
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
Moda= Mediana = Media
SIMMETRIA
RELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICARELAZIONE TRA MODA MEDIANA E MEDIA ARITMETICA
1. CAMPO DI VARIAZIONE (range)
2. DISTANZA INTERQUARTILE
3. VARIANZA
INDICI DI DISPERSIONEINDICI DI DISPERSIONE(measures of dispersion)
6. COEFFICIENTE DI VARIAZIONE
Range = xmax - xmin
differenza tra il valore massimo e il valore minimo osservati
RANGE (CAMPO DI VARIAZIONE)RANGE (CAMPO DI VARIAZIONE)
Si basa soltanto sui valori estremi della distribuzione e non tiene conto dei valori intermedi
E' molto influenzato da osservazioni anomale (outliers)
Tende ad aumentare al crescere del numero delle osservazioni
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 11 Range = xmax - xmin = 17 - 0 =17
num. linfonodi metastatici
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 n = 10 Range = xmax - xmin = 10 - 0 =10 = (0,10)
num. linfonodi metastatici
Variazione del numero di linfonodi metastatici
IQR = Q3 - Q1
differenza tra il III°quartile (Q3) ed il I°quartile (Q1)
DISTANZA INTERQUARTILEDISTANZA INTERQUARTILE
In questo intervallo ricade la metà dei valori osservati, posta esattamente al centro della distribuzione.
Non è influenzata da osservazioni anomale o estreme.
Statura Freq. Cumul.
162 1 1
168 1 2
169 1 3
170 3 6
172 2 8
174 2 10
175 5 15
176 3 18
177 3 21
178 3 24
179 1 25
181 1 26
182 2 28
183 2 30
184 1 31
188 1 32
192 1 33
193 1 34
Totale 34
MASCHI
esempio: Statura matricole della Facoltà di Medicina (A.A. 95/96)
Range = xmax - xmin = 193 - 162 = 31 cm
mediana (range) = 176 (162-193) cmmediana (IQR) = 176 (174-181) cm
Calcolo del I° quartile:
(rango percentilico = 25)
1. rango = (34+1) * 25 / 100
= 35 / 4 9
2. I° quartile = 174 cm
Calcolo del III° quartile:
(rango percentilico = 75)
1. rango = (34+1) * 75 / 100
= 35 * 3 / 4 26
2. III° quartile = 181 cmIQR = Q3 - Q1 = 181 - 174 =
7 cm
Deviazione standard:
2iD (x -x)
2 Ds =
n-1
2s s
Varianza campionaria:
Devianza:
Gli indici di dispersione di più largo uso sono basati sugli scarti dalla media e, : per un campione di dimensione n, {x1,x2,...xn}, sono così definiti
La Varianza
La devianza è la somma dei quadrati degli scarti tra ogni elemento del campione (xi) e la media campionaria ( ).
x
Calcolo della deviazione standard (d.s)
0
2
4
6
8 x
x
x xi= 2 + 5 + 8=15
devianza = (2 - 5)2 + (5 - 5)2 + (8 - 5)2
= 18
S2 = 18/2 = 9
d.s = 3
X = 5
Interpretazione della deviazione standard (SD) in una distribuzione simmetrica (Gaussiana)
In alcune situazioni il confronto della variabilità all’interno di due gruppi di osservazioni utilizzando la deviazione standard è fuorviante
Due variabili diverse:
In 91 ragazze matricole di Medicina a Verona nell’A.A. 95/96,
la media del peso era pari a 55.1 Kg e la deviazione standard era pari a 5.7 Kg,
la media della statura era pari a 166.1 cm e la deviazione standard era pari a 6.1 cm.
E’ maggiore la variabilità del peso o la variabilità della statura?
1. Le variabili misurate nei due gruppi sono diverse (le osservazioni nei due gruppi sono espresse con diverse unità di misura)
1. La variabile misurata è la stessa ma i valori medi delle osservazioni nei due gruppi sono molto distanti (le osservazioni nei due gruppi sono su diversi ordini di grandezza)
Due gruppi con valori medi molto distanti:
Tre neonati pesano rispettivamente 3, 4 e 5 Kg (media = 4 Kg; dev.st. = 1 Kg).Tre bambini di 1 anno pesano 10, 11 e 12 Kg (media = 11 Kg; dev.st. = 1 Kg).
La deviazione standard è uguale nei due gruppi, ma il buon senso suggerisceche la variabilità del peso sia maggiore nei neonati.
COEFFICIENTE DI VARIAZIONE COEFFICIENTE DI VARIAZIONE PERCENTUALE PERCENTUALE
CV% = (deviazione standard / media) *
100%
Ci permette di misurare la variabilità indipendentemente dalla grandezza e dalla scala di
misura delle osservazioni
Media Dev. standard CV Neonati 4 Kg 1 Kg 25.0 %
Bambini 1 anno 11 Kg 1 Kg 9.1 %
La variabilità del peso è maggiore nei neonati.
Media Dev. standard CV Peso 55.1 Kg 5.7 Kg 10.3 %
Statura 166.1 cm 6.1 cm 3.7 %
La variabilità del peso è maggiore della variabilità della statura.
MISURE PONDERATE (POOLED)MISURE PONDERATE (POOLED)
Molto spesso è necessario riassumere l’informazione pertinente ai valori di una variabile X misurata su due o più campioni indipendenti
Esempio: lo stesso farmaco viene sperimentato in 2 ospedali A e B
in A la % di guarigioni è del 25% su 100 pazienti
in B la % di guarigioni è del 35% su 300 pazienti
Considerando le due sperimentazioni, qual è la % di successo del farmaco?
325.0300100
30035.010025.0
pooledP
In generale se si dispone di k campioni e su
ognuno di essi è calcolata una misura di sintesi mi
con fattore di ponderazione wi (in genere la
numerosità del campione), la misura di sintesi ponderata in tutti i campioni sarà:
i
k
iii
p w
mwm 1
mesixp 45.243080
300.27805.23
esercizio: il tempo di sopravvivenza medio dei pazienti con carcinoma polmonare trattati in due centri A e B è rispettivamente:
A = 23.5 mesi n = 80
B = 27.0 mesi n = 30
Calcolare il tempo di sopravvivenza medio relativo ai due centri
Ax
Bx
Top Related