Elementi di epidemiologia per la valutazione comparativa di esito · Elementi di epidemiologia per...
Transcript of Elementi di epidemiologia per la valutazione comparativa di esito · Elementi di epidemiologia per...
Elementi di epidemiologia
per la valutazione comparativa di esito
Dipartimento di Epidemiologia del S.S.R. - ASL Roma 1
Via Cristoforo Colombo, 112
00147 - Roma
Edizione 2016
1
SOMMARIO
OBIETTIVI DEL CORSO - AREA METODOLOGICA ................................................................... 2
1. MISURE DI OCCORRENZA E DI ASSOCIAZIONE ............................................................... 3
1.1. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA .................. 3
1.2. IL PRIMO PASSO: IL CONTEGGIO DEI CASI ............................................................ 3
1.3. LE PROPORZIONI .......................................................................................................... 4
1.3.1. L’incidenza cumulativa ....................................................................................... 4
1.4. I TASSI ............................................................................................................................. 5
1.5. GLI ODDS ........................................................................................................................ 7
1.6. LE MISURE DI VARIABILITÀ – I “MEDIAN ODDS RATIO”..................................... 8
1.7. LE MISURE DI ASSOCIAZIONE ................................................................................ 11
1.7.1. Le misure assolute di associazione .................................................................... 11
1.7.2. Le misure relative di associazione ..................................................................... 12
1.7.3. Odds ratio e rischio relativo .............................................................................. 14
1.7.4. Rischi relativi per esposizioni su più livelli ...................................................... 15
1.7.5. Rischi relativi: i confronti possibili nel Programma Nazionale Esiti ................ 16
1.7.6. Rischi relativi: esito positivo o negativo? ......................................................... 17
2. LA VALIDITA’ DELLO STUDIO ............................................................................................ 19
2.1. GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA .................................................. 19
2.2. IL CONFONDIMENTO ................................................................................................. 20
2.3. IL CONTROLLO DEL CONFONDIMENTO ............................................................... 22
2.3.1. La misura della gravità ...................................................................................... 23
2.3.2. L’uso della misura di gravità: la standardizzazione diretta ............................... 24
2.3.3. La standardizzazione indiretta ........................................................................... 26
2.3.4. Risk adjustment versus propensity adjustment ................................................. 26
2.3.5. La modificazione di effetto ............................................................................... 27
3. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA ................................................. 28
3.1. L’ERRORE CASUALE ................................................................................................. 28
3.2. LA LOGICA DEI TEST STATISTICI .......................................................................... 28
3.3. GLI INTERVALLI DI CONFIDENZA ......................................................................... 33
3.3.1. Ampiezza dell’intervallo e test statistici ........................................................... 34
BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI ......................................................... 35
2
1. OBIETTIVI DEL CORSO - AREA METODOLOGICA
Il calcolo e l’interpretazione delle misure che saranno descritte durante il corso di formazione ci
aiuteranno nelle attività di valutazione della qualità dell’assistenza, rispondendo a domande quali:
• l’incidenza di alcuni “esiti negativi” dell’assistenza ospedaliera (come la mortalità dopo un
ricovero o le complicanze dopo un intervento) sta aumentando o sta diminuendo?
• esistono alcune strutture ospedaliere o ASL di residenza in cui questi esiti sfavorevoli
avvengono con maggiore frequenza?
• è possibile identificare le possibili cause correlate all’incidenza di questi esiti?
• la qualità dell’assistenza sanitaria è migliorata dopo l’introduzione di cambiamenti
organizzativi o strutturali?
3
2. MISURE DI OCCORRENZA E DI ASSOCIAZIONE
2.1. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA
L’incidenza fa riferimento all’occorrenza di nuovi casi di malattia durante un determinato periodo
di osservazione (dato di flusso).
La prevalenza indica la proporzione di individui in una popolazione che presentano la malattia in
uno specifico momento temporale (dato di stock).
Incidenza e prevalenza sono misure distinte, che non devono essere confuse. L’incidenza misura la
transizione dallo stato di non-malattia allo stato di malattia; la prevalenza misura la probabilità che
un soggetto, casualmente selezionato da una popolazione, abbia già la malattia di interesse.
L’incidenza è basata sull’insorgenza di nuovi casi di malattia; la prevalenza è basata sul numero
totale dei casi di malattia, indipendentemente da quando la malattia è cominciata.
2.2. IL PRIMO PASSO: IL CONTEGGIO DEI CASI
La misura della frequenza di malattia in una popolazione ha inizio con un semplice conteggio dei
casi, descrivendo:
• il numero di nuovi casi di malattia durante un periodo di tempo (conteggio di incidenza);
• il loro numero in un particolare istante temporale (conteggio di prevalenza).
Nelle valutazioni comparative, tuttavia, è necessario che il conteggio (per esempio, il numero di
complicanze dopo un intervento chirurgico) sia espresso in relazione alla dimensione della
popolazione da cui i casi hanno avuto origine.
Cerchiamo di chiarire meglio con un esempio. Supponiamo di voler confrontare la mortalità a 30
giorni dal ricovero per infarto miocardico acuto (IMA) tra due strutture ospedaliere: l’Ospedale
Andrea Costa di Porretta Terme e l’Azienda Ospedaliero-Universitaria Careggi di Firenze.
Nell’Ospedale Andrea Costa di Porretta si sono verificati 5 decessi, a fronte di 62 decessi osservati
nell’Azienda Ospedaliero-Universitaria Careggi di Firenze. Trattandosi di nuovi casi di malattia,
avvenuti in un follow-up di 30 giorni a partire dalla data di ricovero, siamo di fronte a un conteggio
di incidenza. Tuttavia questa informazione non è sufficiente per effettuare una valutazione
comparativa tra le due strutture, perché non abbiamo tenuto in considerazione il numero totale dei
ricoveri per infarto del miocardio effettuati dalle due strutture, solo 54 nel caso dell’Ospedale
Andrea Costa di Porretta, ben 609 nel caso dell’Azienda Ospedaliero-Universitaria Careggi di
Firenze.
4
Per esprimere il conteggio dei casi in relazione alla dimensione della popolazione, è necessario
calcolare quelle grandezze che l’epidemiologia chiama misure di occorrenza: le proporzioni e i
tassi.
2.3. LE PROPORZIONI
La proporzione è un rapporto in cui il numeratore costituisce un sottoinsieme del denominatore.
Varia tra zero e uno ed è adimensionale, ovvero, priva di unità di misura. Infatti, le proporzioni
sono puri valori numerici poiché non vengono espresse in metri, anni o altre unità di misura.
Le proporzioni possono essere utilizzate per misurare sia la prevalenza sia l’incidenza. Ipotizziamo
che tra i 609 pazienti ricoverati per infarto miocardico acuto nell’Azienda ospedaliero-universitaria
Careggi di Firenze, al momento dall’ammissione ospedaliera, 105 erano affetti da diabete. Il
rapporto 105/609, che restituisce un valore percentuale pari a 17,2%, esprime la prevalenza di
diabete nella coorte di infartuati dell’Azienda ospedaliero-universitaria Careggi di Firenze,
calcolata alla data dell’ammissione ospedaliera. Il calcolo di queste prevalenze riveste un ruolo
fondamentale nelle valutazioni comparative di esito, perché ci permette di caratterizzare i pazienti
ricoverati nei diversi ospedali oggetto di analisi, in funzione di tutte le caratteristiche demografiche
e cliniche presenti nei sistemi informativi sanitari.
2.3.1. L’INCIDENZA CUMULATIVA
Ma vediamo adesso in che modo è possibile utilizzare le proporzioni come misura dell’incidenza.
Torniamo all’Ospedale Andrea Costa di Porretta e all’Azienda ospedaliero-universitaria Careggi di
Firenze. Si vuole calcolare la mortalità a 30 giorni dal ricovero per infarto miocardico acuto nelle
due strutture. Nel primo Ospedale si erano verificati 5 decessi su un totale di 54 ricoveri. Nel
secondo Ospedale si erano verificati 62 decessi su un totale di 609 ricoveri.
L’incidenza cumulativa, anche nota come rischio, è una misura di incidenza basata sulle
proporzioni. E’ calcolata come rapporto tra il numero di nuovi casi di malattia avvenuti durante un
determinato periodo di osservazione e il numero di soggetti inizialmente esposti a rischio.
Calcoliamo, quindi, i rischi per ciascuna delle due strutture.
La tabella 1 riprende i dati del Programma Nazionale Esiti relativi alle due strutture prese a esempio
e mostra come calcolare il rischio e come esprimerlo.
5
Tabella 1. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero
Struttura ospedaliera Numero di
ricoveri per
infarto
Numero di
deceduti
Calcolo
del rischio
Rischio
Ospedale Andrea Costa di Porretta Terme 54 5 5/54 9,26%
Azienda O.U.U. Careggi di Firenze 609 62 62/609 10,18%
Si noti come, per un corretto calcolo e una corretta interpretazione di questa misura è necessario che
tutti i soggetti siano stati osservati per un identico periodo di tempo (follow-up) e che questo sia
chiaramente esplicitato nella presentazione dei rischi.
Adesso è possibile confrontare le due strutture ospedaliere. Infatti, il ‘rischio’ tiene conto sia del
numero di decessi che del numero di ricoveri effettuati. Nell’esempio, l’Ospedale Andrea Costa di
Porretta ha un rischio di morte più basso rispetto all’Azienda ospedaliero-universitaria Careggi di
Firenze.
2.4. I TASSI
L’altra misura di occorrenza che consente di esprimere il conteggio dei casi in relazione alla
dimensione della popolazione è il tasso, che consente di sintetizzare in un’unica grandezza sia la
frequenza di una malattia (quanti pazienti sviluppano la malattia) sia la sua “velocità” (quando i
pazienti sviluppano la malattia).
Al contrario della proporzione, che può essere utilizzata per misurare sia l’incidenza sia la
prevalenza, il tasso può essere utilizzato soltanto per misurare l’incidenza.
Noto anche come densità di incidenza, il tasso viene calcolato rapportando il numero di nuovi casi
di malattia sviluppati durante il periodo di osservazione, al totale degli anni-persona. Può variare
tra 0 e infinito e, al contrario del rischio, ha unità di misura, ovvero il (tempo)-1.
A questo punto è necessario approfondire il concetto di anni-persona. Per ciascun individuo, gli
anni persona quantificano il periodo di esposizione al rischio, che inizia con l’ingresso del paziente
nello studio (la data di un ricovero, di un intervento chirurgico o di una diagnosi) e può terminare
nel momento in cui si verifica l’esito di interesse (in questo esempio, ipotizziamo che si tratti del
decesso per tutte le cause);
Periodo di osservazione
Numero di pazienti
inizialmente
esposti a rischio
Numero di nuovi casi di
malattia
6
• nel momento in cui termina lo studio (in questo esempio, ipotizziamo che la durata dello studio
sia di quattro anni);
• nel momento in cui il paziente sia “perso al follow-up” (soggetti per i quali, da un certo momento
in poi, non è più possibile ottenere le informazioni necessarie per lo svolgimento dello studio,
per esempio i pazienti che emigrano verso zone non coperte dai sistemi informativi disponibili).
In figura 1 viene schematizzato il follow-up di uno studio di coorte cui partecipano tre pazienti. Il
paziente numero 1 conclude lo studio senza avere manifestato l’esito di interesse (quindi, dopo 4
anni di osservazione); gli altri due pazienti manifestano l’esito in tempi differenti, il paziente
numero 2 presenta l’esito dopo 2 anni mentre il paziente numero 3 presenta l’esito dopo 1 anno.
Figura 1. Follow-up di uno studio di coorte con tre pazienti, esempio 1
Il tasso viene calcolato dividendo la somma degli esiti per la somma degli anni-persona, ovvero:
2/(4+2+1) = 0,29 esiti per anno-persona. Eseguendo lo stesso calcolo per lo studio schematizzato in
figura 2, si ottiene un tasso pari a: 2/(4+3+3) = 0,20 esiti per anno-persona.
Tasso: 0,29
Rischio: 0,67
D = esito, dall’inglese death o
disease
D
D
7
Figura 2. Follow-up di uno studio di coorte con tre pazienti, esempio 2
In entrambi gli studi, un paziente su tre manifesta l’esito di interesse (rischio) tuttavia, i pazienti
schematizzati in figura 2 hanno una maggiore sopravvivenza, che si traduce in un tasso di
mortalità più basso.
Adesso risulta più chiaro il motivo per cui l’unità di misura del tasso è il (tempo)-1. Semplicemente
perché il tempo (che nell’esempio è espresso in anni-persona) appare al denominatore della misura
di occorrenza.
Si noti, infine, come il rischio sia totalmente insensibile alla sopravvivenza dei pazienti deceduti: sia nello
studio schematizzato in figura 1 sia in quello schematizzato in figura 2, il rischio assume valore 2/3, cioè
0,67.
2.5. GLI ODDS
Oltre alle proporzioni e ai tassi, esiste una terza misura di occorrenza di malattia: l’odds.
L’odds è una trasformata della proporzione Π, definita come segue: odds = Π/(1-Π). Molti autori
descrivono l’odds come una probabilità in termini di scommessa, poiché esprime la probabilità
che un determinato esito si verifichi (Π) rispetto alla probabilità che l’esito non si verifichi (1-Π). E’
adimensionale e può variare da 0 a infinito.
Quando l’esito in studio è raro (per esempio, nel caso di proporzioni minori o uguali al 10%) la
proporzione e il suo analogo odds saranno approssimativamente equivalenti.
L’odds trova la sua maggiore applicazione negli studi caso-controllo (Rothman K, Greenland S.
Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins, Philadelphia 1998) ed è la
misura di riferimento di uno dei più diffusi modelli di regressione, la regressione logistica,
utilizzata nel Programma Nazionale Esiti per la specificazione dei modelli predittivi (questo
argomento sarà ampiamente trattato nel capitolo 3 della guida metodologica).
D
D
Tasso: 0,20
Rischio: 0,67
8
2.6. LE MISURE DI VARIABILITÀ – I “MEDIAN ODDS RATIO”
Nel Programma Nazionale Esiti, gli indicatori di variabilità misurano le differenze tra strutture
ospedaliere o aree di residenza, in termini di qualità dell’assistenza sanitaria.
Queste valutazioni rivestono un notevole interesse. Infatti, un’elevata variabilità tra provider
sanitari potrebbe riflettere un problema di equità nell’accesso alle cure ottimali.
Uno degli indicatori maggiormente utilizzati per misurare l’eterogeneità tra unità statistiche (siano
esse Ospedali, aree di residenza o Primary care provider) è la varianza, che misura le differenze
calcolando la dispersione dei valori attorno ad un valore centrale, in genere la media aritmetica
dell’intero collettivo. All’aumentare della dispersione, aumenta l’eterogeneità tra le strutture
considerate. Recentemente, è stata proposta una misura alternativa alla varianza che ne supera
alcuni limiti, soprattutto nelle situazioni in cui le unità statistiche sono rappresentate da gruppi,
come nel caso delle strutture ospedaliere o delle aree di residenza, che costituiscono gruppi di
pazienti o di ricoveri. Questa misura prende il nome di Median Odds Ratio (MOR).
Vediamo adesso come si interpretano i MOR. Come abbiamo già detto, il MOR misura la
variabilità tra gruppi. Questa grandezza è sempre maggiore o uguale ad 1. Se il MOR è uguale
ad 1 vuol dire che non c’è variabilità tra i gruppi. Al contrario, se c’è variabilità tra i gruppi,
il MOR sarà elevato.
Seguendo un approccio più formale, il MOR può anche essere interpretato come l’incremento
«atteso» di rischio di un individuo che si sposta casualmente da un gruppo all’altro, nell’ipotesi in
cui lo spostamento avvenga sempre verso gruppi con un rischio più elevato.
Prima di passare ad alcuni esempi concreti, è opportuno sottolineare quali sono le caratteristiche del
MOR che lo distinguono dalla varianza. Infatti, il MOR è un indicatore di variabilità «corretto» che
tiene in considerazione diversi parametri, quali:
1. la numerosità all’interno dei gruppi;
2. il numero di esiti all’interno dei gruppi;
3. la differenza tra il risultato dei singoli gruppi e la media generale, ad esempio, la media
regionale;
4. la distribuzione dei fattori socio-demografici e clinici nei diversi gruppi.
9
Come primo esempio, analizziamo la variabilità a livello nazionale nel triennio 2013-2015.
L’indicatore oggetto di analisi è l’intervento chirurgico entro 2 giorni a seguito di frattura del collo
del femore. La mappa fa riferimento ai dati del 2015, le proporzioni aggiustate sono espresse in
valori percentuali.
La proporzione di interventi eseguiti entro 2 giorni dopo il ricovero era pari al 46% nel 2013, al
50% nel 2014 e al 55% nel 2015. L’indicatore di processo, pertanto, evidenzia un miglioramento
nelle performance a livello nazionale durante il triennio. L’analisi della variabilità attraverso i MOR
ha evidenziato una riduzione dell’eterogeneità tra le aree di residenza (MOR da 2.92 a 2.49 durante
il triennio) e una sostanziale stabilità in relazione alle differenze di risultato tra le strutture
ospedaliere.
10
La stessa tipologia di analisi è disponibile per tutte le Regioni italiane. Segue l’esempio dell’Emilia-
Romagna. La mappa fa riferimento ai dati del 2015.
In questa Regione, la proporzione di interventi eseguiti entro due giorni a seguito di frattura del
collo del femore è aumentata progressivamente durante il triennio di osservazione, passando dal
64% nel 2013, al 70% nel 2014, fino al 72% nel 2015. Considerando congiuntamente l’andamento
dell’indicatore nel tempo e la sua variabilità intra-regionale, questa Regione presenta un risultato
ottimale. Infatti, l’ordine medio di grandezza è aumentato, evidenziando una performance crescente
durante il triennio e, al tempo stesso, l’eterogeneità è diminuita, sia in relazione alle differenze di
risultato tra le strutture ospedaliere che in relazione alla variabilità tra le aree di residenza.
11
2.7. LE MISURE DI ASSOCIAZIONE
Le misure di associazione vengono calcolate per quantificare l’effetto di un’esposizione
sull’occorrenza di malattia.
Vengono calcolate confrontando l’occorrenza di malattia tra un gruppo di “esposti” e un gruppo di
“non esposti” a un determinato fattore.
L’associazione può essere:
• positiva, se l’esposizione è un fattore di rischio, ovvero gli esposti hanno una maggiore
incidenza di malattia rispetto ai non esposti;
• negativa, se l’esposizione è un fattore protettivo, ovvero gli esposti hanno una minore
incidenza di malattia rispetto ai non esposti;
• neutrale, se gli esposti e i non esposti hanno un’incidenza simile di malattia.
Tuttavia, non sempre la popolazione in studio viene classificata in due gruppi, gli esposti e i non
esposti. Infatti, l’esposizione può essere a livelli multipli, come la stadiazione di una patologia, la
struttura ospedaliera in cui è avvenuto un ricovero o la ASL di residenza.
Le misure di associazione possono essere classificate in due tipi: misure assolute e misure
relative. Entrambe confrontano l’occorrenza di malattia tra esposti e non esposti, ciò che le
differenzia è la modalità con cui viene effettuato il confronto.
2.7.1. LE MISURE ASSOLUTE DI ASSOCIAZIONE
Le misure assolute di associazione sono basate sulla differenza tra rischi (risk difference) o tra tassi
(rate difference):
Differenza tra rischi = rischio negli esposti – rischio nei non esposti
Differenza tra tassi = tasso negli esposti – tasso nei non esposti
Queste misure, anche note come “misure di impatto”, consentono di calcolare quanti casi di
malattia sono attribuibili all’esposizione. Cerchiamo di chiarire questo concetto con un esempio,
tratto dall’epidemiologia occupazionale.
Si supponga che 20.000 lavoratori siano stati arruolati in uno studio di coorte. Al momento
dell’arruolamento (data in cui sono entrati a fare parte dello studio), gli individui sono stati
classificati in esposti e non esposti a una particolare sostanza chimica sulla base del tipo di lavoro
che svolgevano al momento dell’arruolamento. Tutti i lavoratori sono stati seguiti per un periodo di
cinque anni al fine di stabilire se i soggetti esposti avessero un incremento del rischio di morire per
cancro. I dati raccolti sono sintetizzati in tabella 2.
12
Tabella 2. Deceduti ed esposti a rischio per tipologia di esposizione
Esposti Non esposti
Soggetti inizialmente esposti a rischio (n) 4.000 16.000
Deceduti 28 64
Il rischio negli esposti è: 28/4.000 = 0,007 = 7 per 1.000 lavoratori.
Il rischio nei non esposti è: 64/16.000 = 0,004 = 4 per 1.000 lavoratori.
La differenza tra i rischi è: 7 per 1.000 - 4 per 1.000 = 3 per 1.000 lavoratori.
Pertanto, negli esposti, ogni 1.000 lavoratori, 3 decessi per cancro sono attribuibili all’esposizione e
avrebbero potuto essere evitati fornendo adeguate protezioni ai dipendenti.
2.7.2. LE MISURE RELATIVE DI ASSOCIAZIONE
Le misure relative di associazione sono basate sul rapporto tra rischi (risk ratio o rischio relativo)
tra tassi (rate ratio) o tra odds (odds ratio):
• risk ratio o rischio relativo = rischio negli esposti/rischio nei non esposti
• rate ratio = tasso negli esposti/tasso nei non esposti
• odds ratio = odds negli esposti/odds nei non esposti
Queste misure esprimono la forza dell’associazione tra l’esposizione e la malattia e consentono di
calcolare “di quante volte gli esposti hanno una maggiore (o minore) probabilità di sviluppare
la malattia rispetto ai non esposti”.
Torniamo al nostro confronto tra l’Ospedale Andrea Costa di Porretta e l’Azienda ospedaliero-
universitaria Careggi di Firenze. Nel paragrafo 2.3.1 abbiamo calcolato il rischio (l’incidenza
cumulativa) di mortalità nei due ospedali.
Tabella 3. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero
Struttura ospedaliera Numero di
ricoveri
per infarto
Numero di
deceduti
Calcolo del
rischio
Rischio
Ospedale Andrea Costa di Porretta Terme 54 5 5/54 9,26%
Azienda O.U.U. Careggi di Firenze 609 62 62/609 10,18%
13
Per ottenere una misura relativa di effetto è sufficiente calcolare il rapporto tra i due rischi:
10,18%/9,26% = 1,10.
In questo caso, il rischio dell’Ospedale Andrea Costa (9,26%) si trova al denominatore del rapporto,
pertanto viene assunta come categoria di riferimento (reference category).
Il rischio relativo (risk ratio), generalmente abbreviato in RR, è dunque pari a 1,10. Si noti come,
trattandosi di un rapporto, il rischio relativo è un “numero puro” poiché non ha unità di misura.
Il calcolo del rischio relativo, in questo caso, ci dice che l’Azienda Ospedaliera Careggi di Firenze
ha un rischio di morte a 30 giorni dal ricovero in caso di infarto miocardico lievemente superiore
rispetto all’Ospedale Andrea Costa di Porretta. In altre parole, l’Azienda Ospedaliera Careggi ha un
rischio del 10% superiore rispetto a quello dell’Ospedale Andrea Costa. In questo caso,
l’incremento percentuale viene calcolato come segue:
(RR-1,00)x100 = (1,10-1,00)x100 = 10%.
Va ricordato che in tutte le misure relative di associazione, il valore 1,00 rappresenta
l’uguaglianza tra le misure di occorrenza negli esposti e nei non esposti, quindi, l’indipendenza tra
l’esposizione e la malattia.
14
2.7.3. ODDS RATIO E RISCHIO RELATIVO
Proviamo a vedere che cosa sarebbe successo se, nell’esempio precedente, invece di calcolare il
rischio relativo avessimo calcolato l’odds ratio.
Come descritto nel paragrafo 2.5, l’odds è definito come Π/(1-Π), dove Π rappresenta il rischio.
Dunque, gli odds di malattia nei due ospedali saranno:
per l’Ospedale Andrea Costa di Porretta Terme, odds = 0,0926/(1 - 0,0926) = 0,1020
per l’Azienda Ospedaliero-Universitaria Careggi di Firenze, odds = 0,1018/(1 - 0,1018) = 0,1133.
Adesso sarà sufficiente calcolare il rapporto tra i due odds: 0,1133/0,1020 = 1,11.
Come si vede in questo caso, l’odds ratio (1,11) costituisce una buona approssimazione del
rischio relativo (1,10). Questo si verifica quando l’esito in studio è un evento raro, che può essere
definito come un evento il cui rischio è inferiore al 10%, anche se alcuni autori utilizzano la soglia
del 5%. Nell’esempio proposto, il rischio complessivo, per l’insieme delle due strutture, è pari a
(5+62)/(54+609) = 0,10 = 10%. Siamo, pertanto, in una situazione “limite”, anche perché una delle
due strutture, l’Azienda Ospedaliera Careggi, ha un rischio superiore al 10%.
Quando l’evento non è raro, gli odds ratio vanno interpretati alla luce del fatto che sono sempre
più estremi del rischio relativo, ovvero sempre più lontani dal valore 1,00.
Nel grafico di pagina seguente, viene riportata la variazione di un odds ratio all’aumentare della
frequenza dell’esito, in un esempio in cui il rischio relativo è pari a 2,00.
Come si vede, all’aumentare della frequenza dell’esito l’odds ratio si discosta molto dal rischio
relativo.
9,26%
10,18%
15
2.7.4. RISCHI RELATIVI PER ESPOSIZIONI SU PIÙ LIVELLI
Torniamo adesso al nostro confronto tra strutture ospedaliere e aggiungiamo altri due ospedali
nell’analisi.
Tabella 4. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero
Struttura ospedaliera Numero di
ricoveri per
infarto
Deceduti Rischio Rischio
relativo
Azienda Ospedaliera Garibaldi (Catania) 254 17 6,69% 0,72
Ospedale di Martina Franca 57 7 12,28% 1,33
Azienda O.U.U. Careggi di Firenze 609 62 10,18% 1,10
Ospedale Andrea Costa di Porretta Terme 54 5 9,26% 1,00
In tabella 4, sono stati riportati i rischi relativi per ciascun ospedale. L’Ospedale Andrea Costa di
Porretta Terme, essendo stato assunto come categoria di riferimento, ha un valore pari a 1,00, a
indicare che tutte le altre strutture presenti nella tabella saranno confrontate con questo Ospedale.
Osservando i rischi relativi riportati nell’ultima colonna, si nota come questi abbiano diverse
direzioni e diverse intensità.
16
L’Ospedale di Martina Franca e l’Azienda Ospedaliera Careggi hanno la stessa direzione ma
diverse intensità. La direzione è la stessa perché entrambi i rischi relativi sono maggiori di 1, a
indicare una maggiore mortalità dei due ospedali rispetto alla categoria di riferimento, L’Ospedale
Andrea Costa di Porretta Terme. Tuttavia le intensità sono diverse: mentre l’Ospedale di Martina
Franca presenta un rischio del 33% maggiore rispetto all’Ospedale Andrea Costa, l’Azienda
Ospedaliera Careggi ha un rischio del 10% maggiore rispetto all’Ospedale Andrea Costa.
L’intensità è, pertanto, minore.
L’Azienda Ospedaliera Garibaldi si differenzia invece dagli altri perché ha una direzione diversa.
Infatti, il suo rischio relativo è inferiore all’unità, a indicare un rischio minore rispetto all’Ospedale
Andrea Costa, il 28% in meno, in questo caso.
E’ necessario prestare attenzione quando si ottengono rischi relativi inferiori all’unità. Infatti, il
rischio relativo può variare da 0 a infinito. Pertanto, i fattori protettivi avranno rischi relativi
compresi nel ristretto intervallo tra 0 e 1,00, mentre i fattori di rischio avranno rischi relativi
compresi nel più “ampio” intervallo tra 1,00 e infinito. Da questo deriva che i rischi relativi
maggiori di 1,00 non sono “direttamente confrontabili” con quelli minori di 1,00, perché la scala è
diversa.
Per esempio, un rischio relativo di 2,00 (raddoppio la probabilità di un evento) e un rischio relativo
di 0,50 (dimezzo la probabilità di un evento), che chiaramente presentano direzioni opposte, hanno
la stessa intensità. Eppure, nel primo caso gli esposti hanno un rischio del 100% in più rispetto ai
non esposti mentre nel secondo caso gli esposti hanno un rischio del 50% in meno rispetto ai non
esposti. Dunque, la scala è diversa ma l’intensità è la stessa. Infatti, generalizzando, dire che A è il
doppio di B (RR=2,00) contiene la medesima informazione che dire: B è la metà di A (RR=0,50).
2.7.5. RISCHI RELATIVI: I CONFRONTI POSSIBILI NEL PROGRAMMA NAZIONALE ESITI
Finora abbiamo utilizzato i rischi relativi per confrontare tra loro le strutture ospedaliere. Tuttavia, è
possibile operare confronti di altra natura. Infatti, i risultati di una struttura ospedaliera possono
essere confrontati con un valore medio, con un gruppo selezionato di strutture o con il risultato della
stessa struttura in un periodo differente.
Nel Programma Nazionale Esiti, oltre ai confronti “testa a testa”, già descritti nei paragrafi
precedenti, è possibile confrontare i risultati di ciascuna struttura e di ciascuna ASL di residenza
con la media nazionale, con i risultati dell’anno precedente e con un benchmark, costituito dalle
strutture o dalle ASL di residenza che presentano i risultati più favorevoli.
Per esempio, come abbiamo già riportato, l’Ospedale Andrea Costa di Porretta Terme presenta un
rischio di mortalità a 30 giorni dal ricovero per infarto miocardico acuto pari al 9,26%.
Il rischio calcolato a livello nazionale è pari al 9,03%, mentre il gruppo di strutture con i risultati più
favorevoli (il benchmark appunto), presenta un rischio pari al 5,78%.
17
Pertanto, il rischio relativo rispetto alla media nazionale per l’Ospedale Andrea Costa di Porretta
Terme sarà pari a 9,26% / 9,03% = 1,03 mentre il rischio relativo rispetto al benchmark sarà pari
a 9,26% / 5,78% = 1,60.
2.7.6. RISCHI RELATIVI: ESITO POSITIVO O NEGATIVO?
Nel paragrafo 2.7.4 abbiamo introdotto il concetto di direzione del rischio relativo. Osservando se il
rischio relativo è maggiore o minore di 1,00 è possibile capire se la struttura ospedaliera o la ASL di
residenza in studio presenta esiti più favorevoli o meno favorevoli rispetto alla categoria di
riferimento. Tuttavia, l’interpretazione dei rischi relativi non può prescindere dalla natura dell’esito
(outcome) in studio, che può essere “negativo” o “positivo”.
Per esempio, la mortalità a 30 giorni da un ricovero per infarto miocardico acuto costituisce
chiaramente un esito negativo. Al contrario, l’intervento chirurgico entro 48 ore a seguito di una
frattura del collo del femore costituisce senza dubbio un esito positivo.
Per chiarire con un esempio concreto, analizziamo i risultati del Policlinico Gemelli di Roma in
relazione a questi due indicatori (mortalità a 30 giorni dopo infarto e intervento chirurgico entro 48
ore dopo frattura di femore). I rischi relativi sono calcolati rispetto alla media nazionale.
Infarto miocardico acuto: mortalità a 30 giorni dal ricovero
Rischio Rischio relativo
Policlinico Gemelli di Roma 6,79% 0,75
Italia 9,03% 1,00
Frattura del collo del femore: intervento chirurgico entro 2 giorni
Rischio Rischio relativo
Policlinico Gemelli di Roma 86,56% 1,58
Italia 54,64% 1,00
Pur avendo direzioni opposte, entrambi i rischi relativi evidenziano una situazione favorevole per il
Policlinico Gemelli. Infatti, la mortalità a 30 giorni dall’infarto è del 25% inferiore rispetto alla
media nazionale mentre la probabilità di ricevere un intervento chirurgico entro due giorni è del
58% superiore rispetto alla media nazionale.
18
Prima di procedere con gli altri argomenti del corso, è opportuno puntualizzare che
i rischi e i rischi relativi che abbiamo presentato in questo capitolo possono essere
definiti “grezzi”, poiché su queste misure non sono state applicate le tecniche per il
controllo del confondimento che verranno descritte nei capitoli successivi.
19
3. LA VALIDITA’ DELLO STUDIO
3.1. GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA
Gli errori sistematici, anche noti come distorsioni o bias, possono influenzare sostanzialmente i
risultati di uno studio, a causa di errori di classificazione o a difetti del disegno che allontanano dal
valore reale le misure di occorrenza e di associazione calcolate nello studio. Per comprendere
meglio il concetto di errore sistematico, ipotizziamo che l’epidemiologo debba compiere un
esercizio di tiro al bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un
rischio relativo, sia nel centro esatto del bersaglio. Ogni prova può essere vista come un tentativo
del ricercatore di stimare correttamente il parametro di interesse. Oltre all’errore casuale, che non ha
una direzione ben precisa e caratterizza qualsiasi processo di misura (bersaglio a sinistra), può
essere presente un difetto insito nello strumento utilizzato dall’epidemiologo (pensate a una pistola
con la canna deviata) che imprime a ogni tentativo un errore sempre uguale (costante), spostando i
risultati dello studio verso una direzione ben precisa (bersaglio a destra).
La validità di uno studio fa riferimento alla sua capacità di ridurre al minimo tutte le possibili
distorsioni, ovvero tutti gli errori di misura che portano sistematicamente verso una sovrastima o
una sottostima delle misure oggetto di interesse.
E’ possibile classificare gli errori sistematici in tre grandi tipologie: bias di selezione, bias di
informazione e bias di confondimento. In questo manuale, le prime due tipologie saranno
presentate con pochi approfondimenti metodologici, limitandone la trattazione ad alcune definizioni
basilari. Ampio spazio sarà invece dedicato al concetto di confondimento, fondamentale per
l’interpretazione dei dati del Programma Nazionale Esiti.
Il bias di selezione è legato all’arruolamento dei soggetti in studio, nel caso in cui questi non
vengano selezionati in modo casuale. Pensiamo alle valutazioni comparative di esito e pensiamo,
Stima molto valida (non
distorta)
Stima poco valida
(distorta)
20
per esempio, all’indicatore “mortalità a 30 giorni da un ricovero per infarto miocardico acuto”.
Potremmo trovarci di fronte a un bias di selezione se alcune delle strutture valutate avessero
codificato come infarto anche casi nei quali non erano pienamente soddisfatti tutti i criteri per porre
questa diagnosi, selezionando, come conseguenza, soggetti con una diversa condizione clinica, più
grave o meno grave rispetto a quella indicata dal protocollo dello studio. In queste strutture, i
risultati ottenuti non potranno essere considerati come rappresentativi di una popolazione di
pazienti con infarto del miocardio e i confronti con gli altri ospedali saranno necessariamente falsati
dal diverso criterio di selezione utilizzato.
Il bias di informazione è invece legato a un’errata attribuzione dell’esposizione o dell’esito e
consiste nella classificazione dei pazienti o dei ricoveri in un gruppo (esposti rispetto a non esposti,
con esito rispetto a senza esito) diverso da quello al quale dovrebbero essere assegnati, generando
così un’errata classificazione (misclassificazione). E’ opportuno sottolineare che, nel Programma
Nazionale Esiti, le esposizioni di maggiore interesse sono costituite dalla struttura ospedaliera o
dalla ASL di residenza. Un caso di misclassificazione dell’esposizione potrebbe avvenire nelle
valutazioni comparative della mortalità a trenta giorni da un’angioplastica coronarica. Nei casi in
cui la procedura venga eseguita in service, l’intervento (con il relativo esito) potrebbe essere
erroneamente attribuito alla struttura di ricovero e non alla struttura in cui è stata effettivamente
eseguita l’angioplastica (esterna per esempio all’ospedale valutato). Infatti, utilizzando le
informazioni del sistema informativo ospedaliero (SIO) non è possibile tracciare il percorso del
paziente nei casi in cui una procedura segua questo particolare iter organizzativo.
Per una più ampia presentazione e discussione degli errori sistematici in epidemiologia, si rimanda
a: Rothman K, Greenland S. Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins,
Philadelphia 1998.
3.2. IL CONFONDIMENTO
Nel capitolo precedente abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette
di capire se una determinata struttura ospedaliera o ASL di residenza abbia esiti più favorevoli o
meno favorevoli rispetto a una categoria di riferimento, che può essere la media nazionale, un
benchmark o un’altra struttura ospedaliera.
Ipotizziamo di avere analizzato la mortalità a 30 giorni dal ricovero per infarto miocardico acuto in
una determinata struttura ospedaliera, l’Ospedale A, e di avere ottenuto un rischio relativo rispetto
alla media nazionale pari a 1,76. Pertanto, l’Ospedale A presenta una mortalità del 76% superiore
rispetto alla media nazionale. A che cosa può essere attribuibile questo risultato sfavorevole?
Questo eccesso di rischio esprime realmente una peggiore qualità dell’assistenza rispetto alla media
nazionale?
Per una valutazione più completa, si decide di confrontare le caratteristiche demografiche e cliniche
dei pazienti ricoverati nell’Ospedale A con quelle del totale dei pazienti ricoverati per infarto in
21
Italia. In tabella 5 sono riportate alcune delle caratteristiche di cui è possibile disporre attraverso il
sistema informativo ospedaliero (SIO).
Tabella 5. Mortalità a 30 giorni dal ricovero per infarto miocardico acuto: confronto tra le
caratteristiche demografiche e cliniche
Ospedale A Italia
Rischio grezzo (%) 15,93% 9,03%
Età in anni (media) 75 68
Diabete (%) 25 14
Pregresse malattie cerebrovascolari (%) 20 8
Come si vede dalla tabella, i pazienti trattati nell’Ospedale A hanno una situazione clinica più
sfavorevole rispetto alla media nazionale. Sono più anziani, hanno una maggiore prevalenza di
diabete e una maggiore proporzione di soggetti con pregresse malattie cerebrovascolari. Questo
rende più difficile il confronto tra i due gruppi perché non è possibile distinguere l’effetto
dell’Ospedale dall’effetto della diversa distribuzione delle patologie.
Perché, dunque, l’Ospedale A ha una mortalità maggiore rispetto alla media nazionale? Si tratta
realmente di un problema legato alla qualità dell’assistenza o dipende soltanto dalla maggiore
complessità clinica dei suoi pazienti?
Questa “confusione di effetti” prende il nome di confondimento, un errore sistematico (in
epidemiologia si utilizzano i sinonimi distorsione o bias) che impedisce di determinare
correttamente l’effetto dell’esposizione sull’esito.
Diamo a questo punto una definizione più formale di fattore confondente. Un fattore può essere
definito confondente se:
• è causalmente associato con l’esito; in altre parole, il fattore confondente deve essere associato
all’esito in studio come causa e non come effetto. Nell’esempio appena proposto, in base alle
conoscenze a priori, l’età avanzata, il diabete e le pregresse malattie cerebrovascolari sono causalmente
associati con la mortalità da ricovero per infarto. Queste caratteristiche vengono spesso definite fattori
di rischio, poiché, se presenti, aumentano la probabilità che si verifichi l’esito in studio;
• è associato con l’esposizione; ciò vuole dire che le distribuzioni dei fattori confondenti devono
essere diverse tra esposti e non esposti. Nell’esempio, la distribuzione dell’età (sintetizzata dal
suo valore medio), del diabete e delle pregresse malattie cerebrovascolari sono sostanzialmente
diverse tra esposti (i pazienti trattati nell’Ospedale A) e non esposti (il totale dei pazienti
ricoverati per infarto in Italia);
• non deve costituire un passaggio intermedio nel percorso causale tra l’esposizione e la
malattia; ciò significa che il fattore confondente non deve essere un effetto dell’esposizione.
Cerchiamo di chiarire meglio: se l’esposizione in studio fosse costituita dall’uso di un farmaco
antipertensivo e l’esito fosse la mortalità per infarto, la pressione arteriosa rilevata dopo l’inizio
22
del trattamento non può essere considerata un fattore confondente. Infatti, questo valore
pressorio sarebbe un effetto dell’esposizione, attraverso il quale il farmaco riduce, nel lungo
periodo, la mortalità per infarto.
Torniamo alla tabella 5:
Ospedale A Italia
Rischio grezzo (%) 15,93% 9,03%
Età in anni (media) 75 68
Diabete (%) 25 14
Pregresse malattie cerebrovascolari (%) 20 8
Età, diabete e pregressi eventi cerebrovascolari sono fattori di rischio per la mortalità (e soddisfano
quindi l’associazione causale con l’esito), sono associati all’esposizione e non possono certamente
essere un effetto dell’assistenza ospedaliera (non sono quindi un passaggio intermedio nel percorso
tra esposizione e malattia). Sono, pertanto, fattori confondenti.
Il rischio relativo grezzo di 1,76 è quindi sovrastimato dal confondimento, perché parte
dell’eccesso di rischio osservato nell’Ospedale A è spiegato dalla maggiore complessità clinica dei
suoi pazienti.
Questo rende necessario l’utilizzo di metodi statistici per il controllo del confondimento.
3.3. IL CONTROLLO DEL CONFONDIMENTO
Nel Programma Nazionale Esiti il confondimento viene controllato mediante tecniche di risk-
adjustment. Questo metodo si articola in due fasi essenziali:
• la costruzione di una misura di gravità che descrive il rischio a priori, ovvero la “complessità
clinica” del paziente. Questa misura dipenderà dalle caratteristiche anagrafiche, dalla gravità
della patologia in studio e dalle patologie concomitanti dei pazienti;
• l’uso di tale misura per ottenere rischi e rischi relativi aggiustati, che consentono un confronto
valido anche tra gli ospedali o le ASL di residenza i cui pazienti hanno, come nell’esempio
presentato nella tabella 5, diversi livelli di gravità.
23
3.3.1. LA MISURA DELLA GRAVITÀ
La procedura analitica usata per la costruzione della misura di gravità prende il nome di modello
predittivo, un modello statistico finalizzato a predire l’esito sulla base delle caratteristiche misurate
sul paziente, alcune delle quali potranno essere fattori confondenti. Pertanto, le tecniche di risk
adjustment prevedono, nella fase iniziale, l’analisi della relazione tra i potenziali fattori confondenti
e l’esito in studio.
Nel Programma Nazionale Esiti, il modello predittivo segue un approccio empirico: alla base di
tale approccio sta la necessità, da sempre riconosciuta nell’ambito degli studi osservazionali di tipo
eziologico, di identificare i fattori confondenti e controllarne l’effetto con specifico riferimento
alla popolazione studiata.
L’approccio empirico prevede la costruzione di una misura di gravità specifica della popolazione in
studio, realizzata attraverso l’analisi della relazione multivariata tra le caratteristiche misurate sul
paziente (i predittori) e l’esito considerato. Lo strumento generalmente utilizzato per la costruzione
di una misura di gravità empirica è il modello di regressione multipla, come la regressione lineare,
la regressione logistica o la regressione di Cox, a seconda che l’esito in studio sia una variabile
continua (per esempio, la pressione arteriosa sistolica), dicotomica (per esempio, la mortalità a 30
giorni dopo ricovero per infarto miocardico acuto), un tempo di sopravvivenza o di attesa (per
esempio, il tempo di attesa per l’intervento di sostituzione del collo del femore a seguito di ricovero
per frattura).
I modelli predittivi empirici hanno un notevole vantaggio rispetto agli score prognostici come
l’euroSCORE (European System for Cardiac Operative Risk Evaluation) o il Charlson
comorbidity index. Infatti, l’uso di score o di modelli preconfezionati esterni presuppone che la
relazione tra predittori ed esito sia costante tra le popolazioni, assunto raramente verificato nella
realtà.
Vediamo adesso un esempio concreto di modello predittivo. L’esito è di natura dicotomica
(deceduto rispetto a non deceduto) pertanto usiamo la regressione logistica multivariata. La misura
di effetto prodotta da questo modello è l’odds ratio che, come descritto nel paragrafo 2.7.3,
costituisce una buona approssimazione del rischio relativo nel caso in cui l’esito sia un evento raro.
In tabella 6 vengono presentate alcune delle caratteristiche dei pazienti che il modello ha
identificato come potenziali fattori confondenti in base alla loro associazione multivariata con
l’esito. Nella seconda colonna della tabella viene riportato il numero dei pazienti con le singole
caratteristiche: per esempio i pazienti di genere femminile sono 30.585, quelli con pregresso tumore
maligno sono 5.089 e così via. Nella terza colonna sono riportati gli odds ratio grezzi, nella quarta
gli odds ratio aggiustati.
Infatti, abbiamo precedentemente definito il modello come multivariato; questo vuol dire che il
modello è in grado di analizzare contemporaneamente tutte le variabili misurate sul paziente. E’
grazie a questa caratteristica che l’odds ratio può essere aggiustato, per poter misurare l’effetto
24
indipendente dei singoli fattori di rischio, tenendo costanti i valori assunti da tutte le altre
variabili presenti nel modello.
Tabella 6. Modello predittivo. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero.
Predittore Numero di
casi
Odds ratio
grezzo
Odds ratio
aggiustato
Età in anni - 1,09 1,08
Genere (donne vs uomini) 30.585 1,87 1,02
Tumori maligni 5.089 2,02 1,55
Diabete 8.015 1,81 1,28
Scompenso cardiaco 6.257 2,81 1,48
Malattie cerebrovascolari 4.518 2,45 1,52
Pregresso by-pass aorto-coronarico 4.750 0,46 0,48
Pregressa angioplastica coronarica 12.535 0,42 0,46
Proviamo a interpretare qualche odds ratio così ottenuto. Per ogni aumento di un anno di età, il
rischio di morire a 30 giorni dal ricovero per infarto aumenta dell’8% (odds ratio = 1,08). Al
contrario, le differenze di genere sono trascurabili perché l’odds ratio è prossimo al valore di 1,00
(odds ratio = 1,02) valore che, come descritto nel primo capitolo, esprime l’indipendenza tra
l’esposizione (in questo caso il genere del paziente) e l’esito in studio (in questo caso il decesso a 30
giorni).
I tumori maligni costituiscono invece un fattore di rischio: la loro presenza aumenta del 55% la
mortalità a 30 giorni (odds ratio = 1,55). Anche il diabete, lo scompenso cardiaco e le malattie
cerebrovascolari sono fattori di rischio. Infatti, tutte queste patologie concomitanti presentano un
odds ratio maggiore di 1,00. Il pregresso by-pass aorto-coronarico è invece un fattore protettivo,
essendo associato a una riduzione relativa del rischio pari al 52%, ottenuta come (1,00-0,48) x 100.
Valutazioni analoghe valgono per la pregressa angioplastica coronarica.
3.3.2. L’USO DELLA MISURA DI GRAVITÀ: LA STANDARDIZZAZIONE DIRETTA
Attraverso il modello predittivo abbiamo costruito la “misura di gravità”, da intendersi come un
insieme di fattori di rischio misurati sul paziente, per ciascuno dei quali è stato stimato l’effetto
indipendente sull’esito in studio.
A questo punto, nel Programma Nazionale Esiti, il confronto tra le strutture ospedaliere e le ASL di
residenza avviene attraverso una metodologia chiamata standardizzazione diretta. Dal punto di
vista operativo, la standardizzazione diretta viene applicata mediante modelli statistici multivariati
in cui, oltre alle variabili selezionate come fattori di rischio, sono presenti alcune variabili speciali
(chiamate dummy) che rappresentano l’ospedale o la ASL di residenza. Questo metodo utilizza la
25
distribuzione dei fattori di rischio di una popolazione di riferimento come base per tutti i
confronti. Per ciascuno degli indicatori valutati, la popolazione di riferimento è costituita
dall’insieme di tutti i ricoveri osservati a livello nazionale.
Attraverso i parametri stimati dai modelli statistici, per ciascuna struttura e ASL di residenza
vengono calcolati i rischi aggiustati, denominati nel sito con la voce “rischi adj”. Questi rendono
ininfluente la diversa distribuzione dei fattori di rischio e consentono un confronto valido tra tutti i
gruppi oggetto di interesse. Infatti, dopo l’aggiustamento, i rischi possono essere interpretati come
se tutte le strutture e tutte le ASL presentassero la stessa distribuzione dei fattori di rischio (età,
sesso, gravità della patologia e comorbilità) della popolazione di riferimento.
Pertanto, dopo l’aggiustamento, le differenze osservate tra gli ospedali non potranno più essere
attribuibili alla diversa gravità dei pazienti e rifletteranno le reali differenze nella qualità delle cure.
Il rapporto tra due rischi aggiustati costituisce un rischio relativo aggiustato, che corrisponde nel
sito alla voce “RR adj”. Vediamo un esempio in relazione alla mortalità a 30 giorni dal ricovero per
infarto miocardico acuto.
Il Policlinico Umberto I di Roma ha un rischio grezzo di mortalità a 30 giorni dal ricovero per
infarto pari al 7,35%, che diventa 9,40% dopo l’aggiustamento per gravità. Questi pazienti, prima
dell’aggiustamento, non erano confrontabili con la media nazionale perché presentavano una
minore complessità clinica rispetto al totale dei pazienti ricoverati per infarto in Italia. Applicando
al Policlinico Umberto I la distribuzione nazionale delle caratteristiche-paziente, quali età, sesso e
patologie concomitanti, il rischio della struttura aumenta. Ricordando che la mortalità a livello
nazionale è pari al 9,03%, il rischio relativo aggiustato si ottiene dal rapporto 9,40% / 9,03% = 1,04.
Pertanto, dopo aver reso ininfluente l’effetto della diversa gravità dei pazienti, Il Policlinico
Umberto I di Roma presenta un rischio di mortalità del 4% superiore rispetto alla media nazionale.
Avendo applicato a tutti gli ospedali la stessa distribuzione per gravità (quella osservata a livello
nazionale), tutte le strutture ospedaliere sono confrontabili sia tra di loro sia con la media
nazionale.
26
3.3.3. LA STANDARDIZZAZIONE INDIRETTA
La standardizzazione indiretta (non usata nel Programma Nazionale Esiti) è una possibile
alternativa alla standardizzazione diretta. Anche questa metodologia prevede l’utilizzo di una
popolazione di riferimento e si basa sul calcolo del numero atteso di esiti in ciascuno dei gruppi
messi a confronto, ovvero il numero di esiti che ci si aspetterebbe in quell’ospedale o in quella ASL
di residenza sulla base della distribuzione, nel gruppo stesso, dei fattori di rischio considerati.
Questo valore atteso viene calcolato sulla base della relazione tra fattori di rischio ed esito che si
osserva nella popolazione di riferimento.
Una volta che per ciascuno dei gruppi a confronto si è derivato l’esito atteso, è possibile calcolare,
per ciascun ospedale o ASL di residenza, il rapporto standardizzato (RS):
RS = esito osservato/esito atteso
Questo rapporto misura di quante volte l’esito nel gruppo considerato è più frequente (o meno
frequente) di quanto lo sarebbe sulla base della distribuzione, nel gruppo stesso, dei fattori di
rischio e sulla base della relazione tra i fattori di rischio e l’esito nella popolazione di riferimento. In
questo senso, valori di RS maggiori di 1 (o minori di 1) indicano una maggiore (o minore)
frequenza dell’esito considerato nel gruppo in studio rispetto al riferimento, al netto delle possibili
differenze nella distribuzione dei fattori di rischio.
La standardizzazione indiretta permette dunque un confronto risk-adjusted tra gli esiti osservati in
un gruppo e quelli osservati nella popolazione di riferimento. Tuttavia, nel Programma Nazionale
Esiti, si è preferito non utilizzare questa procedura poiché il confronto è valido solo se viene
effettuato tra ciascun gruppo e il riferimento ma non è possibile utilizzare i valori del rapporto
standardizzato per confrontare gli ospedali o le ASL di residenza tra loro.
3.3.4. RISK ADJUSTMENT VERSUS PROPENSITY ADJUSTMENT
Come descritto nel paragrafo 3.3.1, le tecniche di risk adjustment prevedono, nella prima fase delle
analisi, lo studio della relazione tra i potenziali fattori confondenti e l’esito.
Esiste un approccio alternativo e “simmetrico” a questa metodologia, noto col nome di propensity
adjustment (non usata nel Programma Nazionale Esiti) che nella prima fase si focalizza sulla
relazione tra i potenziali fattori confondenti e l’esposizione.
Una volta calcolata la probabilità di esposizione in base alle caratteristiche demografiche e cliniche
del paziente, tale misura, chiamata propensity score, viene opportunamente integrata nell’analisi
“finale”, quella che indaga la relazione tra esposizione ed esito. In altri termini, mentre la prima fase
è finalizzata a identificare i fattori predittivi dell’esposizione, la seconda si focalizza sulla relazione
tra esposizione ed esito, utilizzando il propensity score come unico fattore di aggiustamento.
Nel Programma Nazionale Esiti, questa tecnica per il controllo del confondimento non è stata
utilizzata perché di difficile applicazione nei casi in cui l’esposizione sia costituita da un elevato
27
numero di livelli, come nel caso delle strutture ospedaliere. Inoltre, le tecniche basate sul
propensity adjustment sono incentrate sulla sintesi di tutti i potenziali fattori confondenti in
un’unica variabile, il propensity score, da utilizzare nei processi di aggiustamento e trovano
maggiore applicazione nei casi in cui il numero dei fattori confondenti sia molto elevato rispetto al
numero degli esiti osservati. Tuttavia, nei contesti in cui si ha a disposizione un notevole numero di
esiti, come nelle valutazioni comparative a livello nazionale o regionale, le metodologie di risk
adjustment e propensity adjustment conducono a risultati praticamente identici.
Per approfondimenti sul tema si consigliano le seguenti pubblicazioni:
• Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for
causal effects. Biometrika 1983;70:41-5.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3144483/
• D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to
a non-randomized control group. Statistics in Medicine 1998;17:2265-81.
http://www.ncbi.nlm.nih.gov/pubmed/9802183
3.3.5. LA MODIFICAZIONE DI EFFETTO
Si parla di modificazione di effetto quando l’effetto dell’esposizione sull’esito è diverso in funzione
dei valori assunti da un terzo fattore chiamato appunto modificatore d’effetto. Nel caso più semplice
di un modificatore di effetto dicotomico, l’effetto dell’esposizione sull’esito sarà diverso in assenza
o in presenza di questo fattore.
Nell’ambito della valutazione comparativa degli esiti è importante definire a priori, sulla base delle
evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i fattori di cui si voglia indagare il
ruolo di possibile modificatore di effetto.
Infatti, nel caso di un modificatore di effetto, non ha senso interrogarsi sull’eventuale ruolo dello
stesso fattore come confondente e tanto meno proporsi di calcolare una misura di associazione
aggiustata, poiché questa stima, calcolata come media di misure troppo diverse tra loro, non
consentirebbe una corretta interpretazione dei risultati.
28
4. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA
4.1. L’ERRORE CASUALE
Alla base degli argomenti che verranno presentati in questo capitolo c’è il concetto di errore
casuale. Ipotizziamo ancora una volta che l’epidemiologo debba compiere un esercizio di tiro al
bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un rischio relativo,
sia nel centro esatto del bersaglio. L’errore casuale deriva dal fatto che l’epidemiologo ha a
disposizione un numero limitato di osservazioni per soddisfare gli obiettivi della sua ricerca. Queste
osservazioni sono costituite dai pazienti o dai ricoveri inclusi nelle analisi. Ogni ricovero fornisce
un’informazione elementare sulla qualità dell’assistenza dell’ospedale cui fa riferimento, pertanto
all’aumentare del numero di queste osservazioni l’epidemiologo potrà trarre conclusioni più solide e
le stime dei rischi o dei rischi relativi ottenute dal suo studio saranno più precise.
Al contrario dell’errore sistematico, descritto nel paragrafo 3.1, l’errore casuale non ha una
direzione ben precisa e si distribuisce uniformemente intorno al vero valore del parametro di
interesse (per esempio, un rischio relativo). C’è un’altra differenza rilevante tra le due tipologie di
errore. Mentre l’errore sistematico è indipendente dalla numerosità campionaria (ovvero dal numero
delle osservazioni analizzate), l’errore casuale diminuisce all’aumentare del numero delle
osservazioni, consentendo di ottenere stime sempre più precise.
4.2. LA LOGICA DEI TEST STATISTICI
Nel primo capitolo abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette di
capire se una determinata struttura ospedaliera o ASL di residenza presenta esiti più favorevoli o
meno favorevoli rispetto a una categoria di riferimento, che può essere la media nazionale, un
benchmark o un’altra struttura ospedaliera.
Nel secondo capitolo abbiamo introdotto le tecniche per il controllo del confondimento. Utilizzando
queste metodologie è possibile calcolare il rischio relativo aggiustato, che consente di operare
Stima poco precisa
(elevato errore casuale)
29
confronti tra ospedali o ASL di residenza rendendo statisticamente ininfluente l’effetto della diversa
distribuzione dei fattori di rischio.
Soffermiamoci su un esempio concreto, analizzando la proporzione di pazienti che ricevono
tempestivamente un intervento chirurgico a seguito di frattura del collo del femore. Si ricorda che,
in questo contesto, il termine rischio è un sinonimo di proporzione (vedi paragrafo 2.3.1).
Per l’Azienda Ospedaliera S. Antonio e Biagio la probabilità di ricevere un intervento chirurgico
entro 2 giorni è del 10% inferiore rispetto alla media nazionale. Ma questo risultato “sfavorevole” è
statisticamente significativo?
Per rispondere a questa domanda, è necessario spendere alcune parole sulla logica dei test statistici.
Questa branca della statistica prende il nome di verifica di ipotesi o anche analisi della
significatività.
In alcuni contesti, l’analisi di un campione di dati ha come obiettivo anche quello di “prendere una
decisione” sulla base delle informazioni contenute nei dati stessi. A tale proposito, i test statistici
possono fornire utili elementi di valutazione sulla base di tre grandezze fondamentali.
• La forza della misura di associazione: di quanto si allontana il rischio relativo rispetto al valore
1,00 di indifferenza?
• Il numero di osservazioni analizzate: sull’osservazione di quanti ricoveri sto basando le mie
conclusioni?
• La frequenza dell’esito in studio (in genere desunta dalla media nazionale): l’esito che sto
valutando è raro, come per esempio la mortalità a 30 giorni dall’intervento di bypass aorto-
coronarico, o è comune (non raro), come per esempio la proporzione di parti con taglio cesareo
primario?
La verifica di ipotesi, che è una branca dell’inferenza statistica, attraverso la combinazione di questi
tre elementi consente di ottenere il valore della p (p-value), che esprime la probabilità di
sbagliare per effetto del caso se dichiariamo che il risultato dell’ospedale che stiamo analizzando è
diverso rispetto a una determinata categoria di riferimento.
Esistono relazioni ben definite che legano le tre grandezze fondamentali appena descritte col valore
del p-value, in particolare:
30
• tenendo costanti la media nazionale e il numero di osservazioni analizzate, il p-value diminuisce
all’aumentare della forza della misura di associazione (Tabella 7);
• tenendo costanti la media nazionale e il rischio relativo, il p-value diminuisce all’aumentare del
numero di osservazioni analizzate (Tabella 8);
• tenendo costanti il numero di osservazioni analizzate e il rischio relativo, il p-value diminuisce
all’aumentare della frequenza dell’esito in studio (Tabella 9).
Tabella 7. Variazione del p-value al variare della forza della misura di associazione
Ospedale
Numero di
ricoveri
analizzati
Rischio Media
nazionale
Rischio
relativo p-value
Ospedale A 60 15% 10% 1,5 0,195
Ospedale B 60 20% 10% 2,0 0,016
Ospedale C 60 25% 10% 2,5 < 0,001
Tabella 8. Variazione del p-value al varare del numero di osservazioni analizzate
Ospedale
Numero di
ricoveri
analizzati
Rischio Media
nazionale
Rischio
relativo p-value
Ospedale A 40 20% 10% 2,0 0,057
Ospedale B 50 20% 10% 2,0 0,030
Ospedale C 60 20% 10% 2,0 0,016
Tabella 9. Variazione del p-value al variare della frequenza dell’esito in studio
Ospedale
Numero di
ricoveri
analizzati
Rischio
Media
nazionale
(frequenza
dell’esito)
Rischio
relativo p-value
Ospedale A 60 10% 5% 2,0 0,125
Ospedale B 60 20% 10% 2,0 0,016
Ospedale C 60 70% 35% 2,0 < 0,001
31
Torniamo al nostro esempio sulla frattura del collo del femore: per l’Azienda Ospedaliera S.
Antonio e Biagio il test statistico produce un valore della p pari a 0,249 (esprimendolo in
percentuale 24,9%).
Il test mette a confronto il risultato dell’Azienda Ospedaliera (intervento tempestivo nel 49,20% dei
casi) col risultato medio nazionale (intervento tempestivo nel 54,64% dei casi).
Proviamo a interpretare il valore della p: la probabilità di sbagliare per effetto del caso, se
dichiariamo che in questo Ospedale la proporzione di pazienti operati entro due giorni è diversa
dalla media nazionale, è pari al 24,9%.
In altre parole, 24,9% è la probabilità di sbagliare per effetto del caso se si conclude che il risultato
dell’Azienda Ospedaliera S. Antonio e Biagio è veramente peggiore rispetto alla media nazionale.
Per convenzione, un rischio relativo viene considerato statisticamente significativo se il valore
della p prodotto dal test statistico è minore o uguale a 0,05. Secondo questa logica, la probabilità di
errore che siamo disposti ad accettare nel dichiarare che il risultato di un ospedale è veramente
diverso dalla media nazionale (e non lo sia per effetto del caso) deve essere inferiore al 5%.
In conclusione, il rischio relativo aggiustato dell’Azienda Ospedaliera S. Antonio e Biagio non è
statisticamente significativo perché il valore della p (0,249) è maggiore di 0,05. Pertanto non
abbiamo abbastanza elementi per escludere che la differenza tra questo Ospedale e la media
nazionale sia interamente attribuibile all’effetto del caso.
In base 1) alla direzione del rischio relativo aggiustato e 2) al risultato del test statistico è
possibile classificare ogni ospedale in tre categorie:
1. strutture con esiti più favorevoli rispetto alla media nazionale (p≤0,05);
2. strutture con esiti non significativamente diversi dalla media nazionale (p>0,05);
3. strutture con esiti meno favorevoli rispetto alla media nazionale (p≤0,05).
32
Nell’esempio seguente, che vuole confrontare i risultati dell’Azienda Ospedaliera Villa Sofia, in
Sicilia, con quelli della Casa di cura S. Lucia, in Campania, è possibile evidenziare come il risultato
del test statistico sia strettamente legato al numero dei ricoveri analizzati.
Pur presentando rischi relativi rispetto alla media identici (rischio relativo aggiustato pari a 0,46), la
Casa di cura S. Lucia non raggiunge la significatività statistica (p>0,05) a causa del limitato numero
di osservazioni (58 ricoveri analizzati nel 2015) mentre l’Azienda Ospedaliera Villa Sofia (261
ricoveri analizzati nel 2015) presenta un valore della p (0,020) che indica una mortalità
significativamente inferiore rispetto alla media nazionale.
33
4.3. GLI INTERVALLI DI CONFIDENZA
Oltre ai test statistici sui rischi relativi, è possibile calcolare per ciascuna misura di associazione un
intervallo di valori tale da essere confidente, a un determinato livello di probabilità, che esso
includa il valore reale del rischio relativo.
Ipotizziamo di avere stimato per una data struttura ospedaliera un rischio relativo, rispetto alla
media nazionale, pari a 1,95 e di avere calcolato attorno a esso l’intervallo di confidenza al 95%
compreso tra 1,08 e 3,33.
Cosa significa? Siamo confidenti al 95% che questo intervallo (da 1,08 a 3,33) comprenda il
valore reale del rischio relativo, ovvero il valore che avremmo osservato per quella struttura
all’aumentare indefinito del numero delle prove (i ricoveri analizzati). L’ampiezza
dell’intervallo di confidenza fornisce, pertanto, un’indicazione sulla precisione della stima.
Ipotizziamo adesso di avere confrontato tra loro due strutture ospedaliere e di avere ottenuto un
rischio relativo pari a 2,00. In tabella 10 vengono proposti tre scenari in cui il rischio relativo
appena ottenuto viene calcolato a partire da diverse numerosità campionarie.
Tabella 10. Ampiezza dell’intervallo e numerosità campionaria
Rischio relativo Numerosità
campionaria* Livello di confidenza
Intervallo di
confidenza
2,00 100 95% 0,74-5,43
2,00 200 95% 0,99-4,05
2,00 400 95% 1,21-3,30
* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B)
Dall’osservazione dei risultati emerge che l’ampiezza dell’intervallo di confidenza diminuisce
all’aumentare della numerosità campionaria, a indicare una maggiore precisione della stima del
rischio relativo.
34
Analizziamo, adesso, la relazione tra ampiezza dell’intervallo e livello di confidenza. I risultati sono
presentati in tabella 11.
Tabella 11. Ampiezza dell’intervallo e livello di confidenza
Rischio relativo Numerosità
campionaria* Livello di confidenza
Intervallo di
confidenza
2,00 400 90% 1,31-3,04
2,00 400 95% 1,21-3,30
2,00 400 99% 1,04-3,86
* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B).
Dall’osservazione dei risultati presentati nella tabella emerge che l’ampiezza dell’intervallo
aumenta all’aumentare del livello di confidenza. Infatti, a parità di numerosità campionaria,
l’unico modo che abbiamo per incrementare il livello di confidenza è quello di aumentare
l’ampiezza dell’intervallo, che essendo più ampio avrà una maggiore probabilità di comprendere il
valore reale del rischio relativo.
4.3.1. AMPIEZZA DELL’INTERVALLO E TEST STATISTICI
Si supponga nuovamente di avere calcolato un rischio relativo pari a 2,00 per confrontare gli esiti
tra due strutture ospedaliere, di avere effettuato un test statistico e di avere ottenuto un valore di p
pari a 0,161. Questo valore è maggiore della soglia convenzionale di 0,05, pertanto, la nostra misura
di associazione è statisticamente non significativa. Si supponga inoltre che per questo rischio
relativo pari a 2,00 sia stato calcolato anche l’intervallo di confidenza al 95%.
Ebbene, esiste una relazione che lega l’ampiezza dell’intervallo di confidenza al risultato del test.
Infatti, se l’intervallo di confidenza al 95% comprende il valore 1,00, per esempio l’intervallo tra
0,74 e 5,43, allora il corrispondente test statistico non è significativo (p>0,05) e non è possibile
escludere con sufficiente evidenza empirica che le differenze osservate tra le due strutture siano da
attribuire all’effetto del caso.
Il valore 1,00 riveste una particolare importanza in questa valutazione perché, come descritto nel
paragrafo 2.7.2, esprime l’indipendenza tra l’esposizione e l’esito, ovvero la totale assenza di
qualsiasi effetto.
Tornando all’esempio, l’intervallo di confidenza tra 1,21 e 3,30 non sarebbe compatibile con il
risultato del test. Infatti il valore della p era maggiore di 0,05 ma l’intervallo di confidenza non
comprende il valore 1,00.
35
BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI
1. Agabiti N, Davoli M, Fusco D, et al. Comparative evaluation of health services outcomes.
Epidemiol Prev 2011;35:1-80. http://www.ncbi.nlm.nih.gov/pubmed/21628766
2. Amato L, Colais P, Davoli M, et al. Volume and health outcomes: evidence from Systematic
Reviews and from evaluation of Italian hospital data. Epidemiol Prev 2013;37:1-100.
http://www.ncbi.nlm.nih.gov/pubmed/23851286
3. Larsen K, Merlo J. Appropriate Assessment of Neighborhood Effects on Individual Health:
Integrating Random and Fixed Effects in Multilevel Logistic Regression. American Journal of
Epidemiology 2005; 161: 81-88.
4. D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to a
non-randomized control group. Statistics in Medicine 1998;17:2265-81.
http://www.ncbi.nlm.nih.gov/pubmed/9802183
5. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for
causal effects. Biometrika 1983;70:41-5.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3144483/
6. Rothman K, Greenland S. Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins,
Philadelphia 1998.