Corso di statistica medica Prof.ssa Cinzia Leuter [email protected] tel. 340 7149124.
-
Upload
franco-casagrande -
Category
Documents
-
view
230 -
download
4
Transcript of Corso di statistica medica Prof.ssa Cinzia Leuter [email protected] tel. 340 7149124.
Testi consigliati
• T.Colton, Statistica in medicina
Piccin Padova• E.Ballatori, Statistica e metodologia della ricerca
Margiacchi Editore • F.Di Orio, Igiene epidemiologia e statistica,
Masson Milano• P.Lantieri, D.Risso,G.Ravera, Statistica medica per le
professioni sanitarie, McGraw-Hill Milano
La Statisticadefinizione
• Analisi quantitativa delle osservazioni di un qualsiasi fenomeno soggetto a variazioni
• Raccolta e osservazione di dati per spiegarne i modelli di comportamento
• I metodi statistici consentono di effettuare analisi quantitative di un fenomeno le cui manifestazioni sono osservate attraverso unità di rilevazione
La Statistica
• La statistica è uno strumento
• Ha come obiettivi la descrizione,misurazione e la sintesi di un fenomeno
• Serve per verificare una ipotesi scientifica
• Descrive i fenomeni mettendone in luce le tendenze
(fornisce indicazioni di tipo probabilistico)
Fenomeni collettivi
fenomeni collettivi : sono quei fenomeni che non si
possono conoscere con una sola osservazione, ma
si apprendono tramite la sintesi delle osservazioni di
fenomeni più semplici, detti fenomeni individuali.
Fenomeni individualimorti
nascite
Fenomeni collettivimortalitànatalità
L’attività statistica
• La progettazione del piano di ricerche
• L’organizzazione della rilevazione dei dati
• Lo spoglio e la classificazione delle informazioni raccolte
• La tabulazione dei dati
• L’analisi dei dati
• La sintesi delle informazioni attraverso opportuni parametri statistici
La disciplina statistica
Oggetto della Statistica sono quei fenomeni
che presentano caratteri di variabilità all’interno di
un collettivo di riferimento (popolazione statistica)
costituito da unità statistiche elementari
Finalità e caratteristiche del metodo statistico
• Sviluppo tecnico scientifico in campo medico
• Evoluzione economico-sociale del Paese
Nuovi problemi ed esigenze neiServizi sanitari
Nuova figura di operatoresanitario
Capacità richieste
L’operatore sanitario deve acquisire capacità per
Identificare formulare rendere operativi i metodi per soddisfare le nuove necessità sanitarie
Pianificare - organizzare - erogare - valutare i servizi (prevenzione, cura educazione sanitaria)
Partecipare alla ricerca
Come raggiungere questi obiettivi
Studiare le malattie e le loro cause
Osservare l’evoluzione delle malattie e dei bisogni dei pazienti
Interpretare i fenomeni e modificare modalità operative ed
organizzative
Acquisire spirito critico per valutare i risultati
Assumere decisioni per ottimizzare le prestazioni erogate
È importante l’approccio quantitativo ai problemi sanitari
La Statistica
Insegna ad utilizzare il metodo scientifico per raccogliere,organizzare l’informazione favorendo la comprensione dei fenomeni naturali
Fornisce una serie di metodi per dare un valore oggettivo e generale alle esperienze attraverso la quantificazione dei fenomeni
Popolazione e unità statistiche
• L’insieme di tutti gli elementi che si vogliono osservare rispetto a un dato fenomeno si definiscono universo statistico o popolazione
• I singoli elementi della popolazione si chiamano unità statistiche
• Possono essere: semplici ( singoli individui, incidenti domestici …)
composte ovvero aggregati di unità semplici (famiglie, classi scolastiche)
Le grandi aree della Statistica(1)
Statistica Descrittiva
• Metodo deduttivo (dal generale al particolare)
• Raccolta dei dati
• Sintesi dei dati di un campione
• Presentazione dei risultati (analisi esplorativa)
Le grandi aree della Statistica(2)
Statistica inferenziale
• Metodo induttivo (dal particolare al generale)
• Rilevazioni parziali (campioni rappresentativi)
• Stima dei parametri di una popolazione ignota
• Verifica delle ipotesi
Caratteri e modalità
• Data una popolazione, si definisce carattere una particolare caratteristica che si presenta in ciascun elemento della popolazione in forme differenti o modalità
• Studiare una popolazione secondo un dato carattere significa osservare come si distribuiscono in essa le modalità del carattere esaminato
• Le modalità del carattere in esame devono essere incompatibili ed esaustive: ciascun elemento della popolazione presenta una e una sola delle modalità del carattere in esame
I caratteri statistici
• Un insieme di unità statistiche può essere descritto secondo uno o più caratteri selezionati in funzione degli obiettivi della ricerca (sesso, età, statura, salute....)
• L’attribuzione di una modalità (classificazione delle unità statistiche) porta alla formazione del dato statistico
• Una distribuzione statistica è l’insieme delle modalità che un carattere presenta in un insieme N di unità statistiche
Classificazione dei caratteri
Quantitativi (variabili)Caratteri le cui modalità sono misurabili( a ciascuna corrisponde un numero che esprime una misura)
• Continuo (possono assumere qualunque valore tra due valori dati)
Pressione sanguignaAltezza,( 1,60.. 1,65- 1,66…1,70) peso (56.. 56,1... 56,5.... 57)
• Discreto (possono assumere solo alcuni valori)Numero bambini, numero attacchi asma alla settimana,... (n figli: possono essere 1, 2,3.. Non 1,4 o 2,5 !!)
Classificazione dei caratteri
Qualitativi (mutabili) Caratteri le cui modalità non sono il risultato di misurazioni in senso fisico
• Ordinale (categorie ordinate) Stadio del cancro al seno; migliore- uguale- peggiore;
non sono d’accordo- neutro- sono d’accordo.
• Sconnesso (categorie non ordinate)
Sesso (maschio- femmina);
vivo-morto;
gruppo sanguigno 0,A,B,AB
Relazioni e operazioni fra le modalità
Caratteri Relazioni e operazioni
Qualitativi sconnessi uguaglianza e disuguaglianza
Qualitativi ordinati uguaglianza e disuguaglianza;ordinamento
Quantitativi uguaglianza e disuguaglianza;ordinamento;
addizione e sottrazione
CARATTERI E MODALITÀ
• Le modalità di ogni carattere sono selezionate in base alle unità statistiche in esame, all’oggetto dello studio e alla scelta dell’osservatore
Carattere Modalità Sesso - maschio, femmina
Colore occhi -marroni, verdi, celesti ,scuri, chiari
Statura -1,55 1,69 1,75 1,80
minore di 1,65, compreso tra 1,65 e 1,80
maggiore di 1,60..
Trasformazione dei caratteri
• Da quantitativi a qualitativi Statura in cm basso, medio, alto
Pressione arteriosa in mm/Hg ipertensione moderata, lieve , grave
La trasformazione può essere utile ma comporta una perdita di informazione
Classificazione dei caratteri statistici secondo il livello di misurazione
Scale nominali
Sono rappresentate da quei caratteri qualitativi le cui
modalità non presentano alcun ordine di successione e
senza relazione quantitativa tra esse
(sesso, gruppo sanguigno,professione,...)
Si possono formulare solo i giudizi: • di uguaglianza• di disuguaglianza
Classificazione dei caratteri statistici secondo il livello di misurazione
Scale ordinali
Sono rappresentate da quei caratteri qualitativi le cui
modalità presentano un ordine di successione ma non una grandezza:
Es: ordinamento di un gruppo di individui secondo un dato
carattere
Ordine crescente di: reddito, titolo di studio, stadio di una malattia...
Classificazione dei caratteri statistici secondo il livello di misurazione
Scale ad intervalli Sono rappresentate da caratteri quantitativi disposti in una scala ordinale in cui è possibile misurare la distanza tra di essi espressi in valori singoli o in classi di valori(lunghezza, statura, peso,....)
Le classificazioni di caratteri e scale
Terminologia italiana Terminologia anglosassone
Carattere qualitativo sconnesso
Scala nominale
Carattere qualitativo ordinato Scala ordinale
Carattere quantitativo Scala di intervalli
Esempio
• Un gruppo di studenti è stato classificato secondo alcune informazioni
• NE = quantitativo discreto
• V = quantitativo
• Val = qualitativo ordinato
• CL = qualitativo sconnesso
studente N
esami
voto valutazione Condizione lavorativa
1 2 24 buono lavoratore
2 1 18 sufficiente lavoratore
3 2 30 ottimo non
lavoratore
4 1 28 ottimo lavoratore
5 1 20 sufficiente non
lavoratore
6 3 24 buono lavoratore
Raccolta e organizzazione dei dati
Le fasi delle ricerca
Definizione del problema
Formulazione del disegno di ricerca
Raccolta dei dati
Valutazione della qualità del dato
Elaborazioni statistiche
Interpretazione dei risultati
Corso di Statistica
Definizione del problema
Si stabiliscono gli obiettivi della ricerca
Si definisce il fenomeno
Si sceglie la popolazione in cui il fenomeno si manifesta
Si individuano le caratteristiche della popolazione che interessano lo studio.
Corso di Statistica
Il disegno della ricerca
Definizione delle risorse
Il tipo di indagine da effettuare
La definizione delle ipotesi
La consultazione bibliografica
I metodi di rilevazione
Gli strumenti da utilizzare
L’addestramento degli addetti alla rilevazione
Il pre-test (indagine pilota)
Corso di Statistica
INDAGINE STATISTICA
Su tutta la popolazione(censimento famiglie italiane)
Su un campione della popolazione statistica
(indagine campionaria)
Indagine statisticaRaccoglie e analizza i dati
Statistica descrittivaTrarre indicazioni sull’intera
popolazione(descrivere il fenomeno)
Statistica inferenzialeTrarre indicazioni dal campione
che siano valide per l’intera popolazione
I dati e le statistiche
I dati possono essere:
• Primari: se raccolti direttamente dal ricercatore
È sufficiente utilizzare semplici schede di registrazione sulle quali
riportare i dati di interesse o in caso di banca dati acquisire il file dati
del fenomeno che interessa
• Secondari se ricavabili da una rilevazione già effettuata (Fonti statistiche esistenti es. dati ufficiali, rilevazioni periodiche ..)
Rilevazione di dati
• Nel caso di dati provenienti da indagine programmata è
necessario predisporre un
questionario
DirettoCompilato dall’intervistato
IndirettoCompilato dal ricercatore
o dall’intervistatore
IL QUESTIONARIO regole per la stesura I
• Le finalità del questionario devono essere precise e limitate per garantire logicità e razionalità alla struttura del questionario
• Il tempo di somministrazione dovrebbe essere sufficientemente limitato
IL QUESTIONARIO regole per la stesura II
Le domande devono essere:
• Univocamente comprensibili e non orientate
• Relative ad un solo aspetto
• Possibilmente precodificate
• Poste in sequenza (dai quesiti semplici a quelli più
complessi)
• In numero limitato (essenziali)
QUALITÀ DEL DATO
• Valutare sempre i criteri adottati nella raccolta e le finalità della rilevazione
Esempio: tipo di colloquio operatore statistico Operatore: ho raccolto 300 cartelle sono molte
quale indagine posso fare? Statistico: 300 cartelle sono tante.... Ma rispetto a
cosa?
Qual è l’universo di riferimento?Cosa intendevi studiare?Quale ipotesi di lavoro hai fatto?
CONTROLLO E VERIFICA DEI DATI
Gli errori possono essere:
Sistematici:quando si presentano nella stesa maniera per ogni dato rilevato (es. strumento di misura non preciso)
Accidentali: si verificano irregolarmente e con modalità differenti (es. trascrizione dati)
Casuali : derivanti da fattori non conosciuti e e non controllabili
Accertare presenza/assenza di errori prima dello spoglio dei dati
Verifica dell’attendibilità dei dati
• Controllo compatibilità Evidenzia eventuali errori di contraddizione confrontando 2 o più dati
riguardanti la stessa unità statistica e /o lo stesso /i aspetto/i legati logicamente tra loro (età vs anno di nascita)
• Controllo di coerenza o congruità verifica se il dato rilevato rientra nel campo di definizione del
fenomeno (età 0 – 100)
• Controllo di qualità si basa sui concetti di validità (accuratezza) e di
precisione(riproducibilità) un dato è tanto più valido quanto meno si discosta dal valore medio
reale del fenomeno tanto più è preciso quanto meno si differenzia da altri valori rilevati
(concordanza tra rilevazioni ripetute dello stesso fenomeno)
Il concetto di popolazione statistica
• L’insieme di tutti gli elementi (unità statistiche) che posseggono il carattere esaminato costituisce l’universo o la popolazione statistica
• Le unità statistiche possono appartenere a più popolazioni
ES : maschio adulto
↓ popolazione
Ipertesi coniugati ricoverati
Paziente ricoverato
↓ unità statistica
Cartella clinica
↓ Insieme di variabili (caratteri)
Organizzazione dei dati
• I dati rilevati vengono trascritti
• Talvolta è necessaria la trasformazione in codici (simboli alfanumerici)
• Lo spoglio dei dati
classificare ciascuna
unità statistica in base alla modalità rilevata
Es: 25 soggetti in base al gruppo sanguigno
Rilevazione : A,B,B,0,0,AB,0,A,A,0,0,B,AB,A,A,0,0,A,AB,B,,B,0,B,AB
Prospetto:
0 IIIIIIII
A IIIIIII
Modalità B IIIIII
AB IIII
Frequenze osservate
Classificazione di una popolazione per modalità o per frequenze
• Si cercano quale modalità dei caratteri
considerati è presente in ciascuna delle unità
statistiche della popolazione e raggruppando
(contando) le unità che si presentano con
modalità uguali (frequenze)
Frequenza e distribuzioni di frequenza
• Per frequenza si intende il numero di volte che si è manifestato un fenomeno
• Una distribuzione di frequenze fa riferimento al complesso di dati rilevati unendo quelli con le stesse caratteristiche
• Per ogni modalità del carattere osservato (statura, sesso,..) per frequenze assolute (ni) si intende il numero delle unità nelle quali il carattere presenta la stessa modalità i -ma
Tabella di dati grezzi qualitativisoggetto fumatore soggetto fumatore soggetto fumatore
1 si 11 si 21 si
2 no 12 si 22 no
3 si 13 no 23 si
4 si 14 si 24 si
5 no 15 si 25 no
6 si 16 si 26 no
7 si 17 no 27 si
8 no 18 si 28 si
9 no 19 no 29 si
10 no 20 no 30 si
Spoglio dei dati rispetto alla variabile fumo
Modalità Spoglio dei dati Frequenze
Fumatori IIII IIII IIII III 18
Non fumatori IIII IIII II II 12
totale IIIIIIIIIIIIIIIIIIIIII
IIIIIIIIIIIIIIIIII
30
Distribuzioni di frequenze
• Se la distribuzione di frequenze è fatta per un solo carattere, la distribuzione è definita semplice
• Se i caratteri rispetto ai quali è fatta la distribuzione sono due, tre …. m, la distribuzione di frequenza sarà doppia, tripla ,….multipla
La matrice dei dati
I dati codificati in una in una rilevazione statistica su n
unità statistiche studiando x variabili sono raccolti in
forma di tabella (matrice di dati)
N sesso Età(anni)
Peso(Kg)
Titolo di studio
n.°ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F 61 79 Licenza media
inferiore
4
La matrice dei dati
Ogni riga corrisponde ad una unità statistica
N sesso Età(anni)
Peso(Kg)
Titolo di studio
n.°ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F 61 79 Licenza media
inferiore
4
La matrice dei dati
Ogni colonna rappresenta una variabile
N sesso Età(anni)
Peso(Kg)
Titolo di studio
n.°ricoveri
1 M 42 83 laurea 2
2 F 48 65 diploma 1
... ... ... ... ....... ......
n F 61 79 Licenza media
inferiore
4
Analisi ed elaborazione statistica dei dati
Sintesi dei dati
Tabelle frequenze(distribuzioni di frequenze) Indici statistici
Per sintetizzare un carattere Per confrontare diverse situazioni
50 unità classificate secondo la statura
140 148 159 150 152 157 150 155 158 153 154 160
141 162 166 161 169 161 165 165 168 162 166 160
142 164 161 168 163 179 173 170 178 171 177 175
143 171 172 175 177 178- 180 188 189 182 186 181
144 188 180-190 199
Distribuzione in classi
• In presenza di un carattere con molte modalità è possibile (è conveniente!) formare delle classi di valori
• Ne deriverà una variabile statistica divisa per intervalli o classi di frequenza
• In ciascuna delle classi si raccolgono tutte le osservazioni che cadono al suo interno
• I dati così organizzati costituiscono una distribuzione di frequenze definita distribuzione in classi
Distribuzione in classi
I valori minimo massimo della classe si definiscono limiti
di classe: limiti inferiori e limiti superiori
Statura in cm frequenze assolute
(classi) ni
140 – 150 2
150 – 160 9
160 – 170 17
170 – 180 12
180 – 190 8
190 - 200 2
Ciascuna coppia di limiti costituisce l’intervallo della classe
Distribuzione in classi
Statura in cm frequenze assolute (classi) n i
140 – 150 144 2 150 – 160 155 9 160 – 170 ..... 17 170 – 180 ..... 12 180 – 190 8 190 - 200 2
Il valore centrale di una classe è dato dalla semisomma degli estremi
limite inferiore + limite superiore
2
Criteri per costruire una distribuzione in classi
• Identificare il campo di variazione (differenza tra il valore più grande e il più piccolo)
• Suddividere il campo di variazione in un numero conveniente di classi secondo la numerosità dei dati
• Una tabella con un numero elevato di classi è troppo simile alla tabella di origine dei dati; una con poche classi, eccessivamente ampie, fa perdere troppe informazioni
• Gli intervalli di classe dovrebbero avere la stessa ampiezza
• L’obiettivo della divisione in classi è una migliore leggibilità della tabella senza perdere troppe informazioni
Distribuzione di frequenza di 50 unità classificate secondo la statura
Statura in cm. Unità statistiche frequenze assolute
(in classi) n i
140-150 II 2
150-160 IIIIIIIII 9
160-170 IIIIIIIIIIIIIIIII 17
170-180 IIIIIIIIIIII 12
180-190 IIIIIIII 8
190-200 II 2
Frequenza, distribuzioni di frequenza II
• La somma delle frequenze assolute è = al totale N delle unità del collettivo
• Oltre le frequenze assolute si considerano le
frequenze relative
indicano il rapporto tra la frequenza assoluta della modalità i –ma e il numero totale N
• La somma di tutte le frequenze relative di tutte le modalità in cui si articola il carattere considerato è =1 (o a 100 se le frequenze relative sono espresse in percentuali)
N
ni
Distribuzione di frequenza di 50 unità classificate secondo la statura
Statura in cm. frequenze assolute frequenze relat. Frequenze %
(in classi)
ni
140-149 2 0.04 4
150-159 9 0.18 18
160-169 17 0.34 34
170-179 12 0.24 24
180-189 8 0.16 16
190-199 2 0.04 4
N
ni 100N
ni
Distribuzione di frequenzavariabile qualitativa
Colore degli occhi Frequenza
Assoluta Relativa Percentuale
ni fi %
ModalitàCastani 500 0.714 71.4Azzurri 100 0.143 14.3 Verdi 100 0.143 14.3
Totale(Σi) 700 1 100
Frequenze relative = frequenze assolute totaleFrequenze percentuali = frequenze relative x 100
Uso di frequenze percentuali(1)
• In presenza di osservazioni di più caratteri contemporaneamente si possono calcolare più frequenze relative e percentuali
• Si possono dare interpretazioni errate se non si definisce accuratamente il denominatore
• Es: la frequenza % delle donne che fumano può essere calcolata in riferimento al totale delle donne, in relazione al totale dei fumatori, al totale dei soggetti esaminati
• La frequenza assoluta delle donne fumatrici (numeratore) è sempre la stessa. Il denominatore cambia in base ad ogni possibile relazione
Uso di frequenze percentuali(2)
• Attenzione al significato che si attribuisce alle percentuali in presenza di una bassa numerosità delle frequenze!
• Piccole variazioni, probabilmente casuali, vengono sottolineate alterando il risultato
• ES: se mensilmente i ricoverati per una patologia passano da 4 a 5 e successivamente a 3, appare ingiustificato evidenziare variazioni percentuali sensibili rispettivamente di +25% e -40%
• Pur se esatto il calcolo matematico, statisticamente si attribuisce un eccesso di significato a banali fluttuazioni in un fenomeno che appare costante nel tempo
Variabile sesso
Frequenze assolute
(n)
matricole di matricole di
Statistica Medicina
M 16 33
F 17 92
Frequenze relative (f)
matricole di matricole diStatistica Medicina
M (16/33)=48.5% (33/125)=26,4%
F (17/33)=51.5% (92/125)=83,6%
Variazioni percentuali
Età Peso
prima
Peso dopo Variazione %
Paziente1 26 58 60 3,4
Paziente 2 52 63 56 -11,1
Paziente 3 61 84 73 -13,1
Paziente 4 43 70 75 7,1
P f – P i / Pi x 100 60 – 58 / 58 x 100 = 3,4
Frequenze cumulate
La frequenza cumulata (assoluta, relativa e percentuale)
in corrispondenza di un valore Xi indica il numero di volte
che la variabile X ha assunto valori pari o inferiori a Xi
Frequenze assolute cumulate
C1 = N1
C2 = N1+N2
C3 =N1+N2+N3
.....
Ck = N1+N2+N3... + Nk
Distribuzione in classi:caratteristiche e quadro delle frequenze
classe Peso (Kg) x c f f % fcum f%cum
I 40├ 45 42.5 6 5.6 6 5.6
II 45├ 50 47.5 15 14.0 21 19.6
III 50├ 55 52.5 28 26.2 49 45.8
IV 55├ 60 57.5 35 32.7 84 78.5
V 60├ 65 62.5 14 13.1 98 91.6
VI 65├ 70 67.5 5 4.7 103 96.3
VII 70├ 75 72.5 4 3.7 107 100.0
Valori centrali xc (40+45)/2=42.5; (45+50)/2=47.5;.....; (70+75)/2=72.5
Ampiezza di classe c partendo dai confini: 45-40=5; 50-45=5;..... ; 75-70=5;
Più variabili rilevate per unità statisticaDistribuzione di frequenza di 50 unità classificate secondo il sesso
Sesso unità statistiche frequenze assolute
ni
Maschi IIIIIIIIII IIIIIIIIII III 23
Femmine IIIIIIIIII IIIIIIIIII IIIIIIII 27
Più variabili rilevate per unità statisticaDistribuzione di frequenza di 50 unità classificati
per sesso e statura
Statura in cm.
Sesso
140-150 150-160 160-170 170-180 180-190 190-200 Totale
Maschi 2 4 7 7 2 1 23
Femmine 0 5 10 8 3 1 27
Totale 2 9 17 15 5 2 50
Schema per tabella a due entrate
Y
X
CARATTERE Y
Totale
riga
y1 y2 y3….. yj….. ym
C
A
R
A
T
T
E
R
E
X
x 1 f11 f12 f13… f1j… f1m F1
x2 f21 f22 f23… f2j…. f2m F2
x3
……f31 f32 f33… f3j… f3m F3
xi
….fj1
…..fj2
…..fj3….…..
fij ……..
fim
…..Fi
……
xn fn1 fn2 fn3… fnj... fnm Fn
Totalecolonna
F1 F2 F3...... F.j...... F.m F..