Elementi di epidemiologia per la valutazione comparativa di esito · Elementi di epidemiologia per...

Elementi di epidemiologia

per la valutazione comparativa di esito

Dipartimento di Epidemiologia del S.S.R. - ASL Roma 1

Via Cristoforo Colombo, 112

00147 - Roma

Edizione 2016

1

SOMMARIO

OBIETTIVI DEL CORSO - AREA METODOLOGICA ................................................................... 2

1. MISURE DI OCCORRENZA E DI ASSOCIAZIONE ............................................................... 3

1.1. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA .................. 3

1.2. IL PRIMO PASSO: IL CONTEGGIO DEI CASI ............................................................ 3

1.3. LE PROPORZIONI .......................................................................................................... 4

1.3.1. L’incidenza cumulativa ....................................................................................... 4

1.4. I TASSI ............................................................................................................................. 5

1.5. GLI ODDS ........................................................................................................................ 7

1.6. LE MISURE DI VARIABILITÀ – I “MEDIAN ODDS RATIO”..................................... 8

1.7. LE MISURE DI ASSOCIAZIONE ................................................................................ 11

1.7.1. Le misure assolute di associazione .................................................................... 11

1.7.2. Le misure relative di associazione ..................................................................... 12

1.7.3. Odds ratio e rischio relativo .............................................................................. 14

1.7.4. Rischi relativi per esposizioni su più livelli ...................................................... 15

1.7.5. Rischi relativi: i confronti possibili nel Programma Nazionale Esiti ................ 16

1.7.6. Rischi relativi: esito positivo o negativo? ......................................................... 17

2. LA VALIDITA’ DELLO STUDIO ............................................................................................ 19

2.1. GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA .................................................. 19

2.2. IL CONFONDIMENTO ................................................................................................. 20

2.3. IL CONTROLLO DEL CONFONDIMENTO ............................................................... 22

2.3.1. La misura della gravità ...................................................................................... 23

2.3.2. L’uso della misura di gravità: la standardizzazione diretta ............................... 24

2.3.3. La standardizzazione indiretta ........................................................................... 26

2.3.4. Risk adjustment versus propensity adjustment ................................................. 26

2.3.5. La modificazione di effetto ............................................................................... 27

3. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA ................................................. 28

3.1. L’ERRORE CASUALE ................................................................................................. 28

3.2. LA LOGICA DEI TEST STATISTICI .......................................................................... 28

3.3. GLI INTERVALLI DI CONFIDENZA ......................................................................... 33

3.3.1. Ampiezza dell’intervallo e test statistici ........................................................... 34

BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI ......................................................... 35

2

1. OBIETTIVI DEL CORSO - AREA METODOLOGICA

Il calcolo e l’interpretazione delle misure che saranno descritte durante il corso di formazione ci

aiuteranno nelle attività di valutazione della qualità dell’assistenza, rispondendo a domande quali:

• l’incidenza di alcuni “esiti negativi” dell’assistenza ospedaliera (come la mortalità dopo un

ricovero o le complicanze dopo un intervento) sta aumentando o sta diminuendo?

• esistono alcune strutture ospedaliere o ASL di residenza in cui questi esiti sfavorevoli

avvengono con maggiore frequenza?

• è possibile identificare le possibili cause correlate all’incidenza di questi esiti?

• la qualità dell’assistenza sanitaria è migliorata dopo l’introduzione di cambiamenti

organizzativi o strutturali?

3

2. MISURE DI OCCORRENZA E DI ASSOCIAZIONE

2.1. DUE DEFINIZIONI FONDAMENTALI: PREVALENZA E INCIDENZA

L’incidenza fa riferimento all’occorrenza di nuovi casi di malattia durante un determinato periodo

di osservazione (dato di flusso).

La prevalenza indica la proporzione di individui in una popolazione che presentano la malattia in

uno specifico momento temporale (dato di stock).

Incidenza e prevalenza sono misure distinte, che non devono essere confuse. L’incidenza misura la

transizione dallo stato di non-malattia allo stato di malattia; la prevalenza misura la probabilità che

un soggetto, casualmente selezionato da una popolazione, abbia già la malattia di interesse.

L’incidenza è basata sull’insorgenza di nuovi casi di malattia; la prevalenza è basata sul numero

totale dei casi di malattia, indipendentemente da quando la malattia è cominciata.

2.2. IL PRIMO PASSO: IL CONTEGGIO DEI CASI

La misura della frequenza di malattia in una popolazione ha inizio con un semplice conteggio dei

casi, descrivendo:

• il numero di nuovi casi di malattia durante un periodo di tempo (conteggio di incidenza);

• il loro numero in un particolare istante temporale (conteggio di prevalenza).

Nelle valutazioni comparative, tuttavia, è necessario che il conteggio (per esempio, il numero di

complicanze dopo un intervento chirurgico) sia espresso in relazione alla dimensione della

popolazione da cui i casi hanno avuto origine.

Cerchiamo di chiarire meglio con un esempio. Supponiamo di voler confrontare la mortalità a 30

giorni dal ricovero per infarto miocardico acuto (IMA) tra due strutture ospedaliere: l’Ospedale

Andrea Costa di Porretta Terme e l’Azienda Ospedaliero-Universitaria Careggi di Firenze.

Nell’Ospedale Andrea Costa di Porretta si sono verificati 5 decessi, a fronte di 62 decessi osservati

nell’Azienda Ospedaliero-Universitaria Careggi di Firenze. Trattandosi di nuovi casi di malattia,

avvenuti in un follow-up di 30 giorni a partire dalla data di ricovero, siamo di fronte a un conteggio

di incidenza. Tuttavia questa informazione non è sufficiente per effettuare una valutazione

comparativa tra le due strutture, perché non abbiamo tenuto in considerazione il numero totale dei

ricoveri per infarto del miocardio effettuati dalle due strutture, solo 54 nel caso dell’Ospedale

Andrea Costa di Porretta, ben 609 nel caso dell’Azienda Ospedaliero-Universitaria Careggi di

Firenze.

4

Per esprimere il conteggio dei casi in relazione alla dimensione della popolazione, è necessario

calcolare quelle grandezze che l’epidemiologia chiama misure di occorrenza: le proporzioni e i

tassi.

2.3. LE PROPORZIONI

La proporzione è un rapporto in cui il numeratore costituisce un sottoinsieme del denominatore.

Varia tra zero e uno ed è adimensionale, ovvero, priva di unità di misura. Infatti, le proporzioni

sono puri valori numerici poiché non vengono espresse in metri, anni o altre unità di misura.

Le proporzioni possono essere utilizzate per misurare sia la prevalenza sia l’incidenza. Ipotizziamo

che tra i 609 pazienti ricoverati per infarto miocardico acuto nell’Azienda ospedaliero-universitaria

Careggi di Firenze, al momento dall’ammissione ospedaliera, 105 erano affetti da diabete. Il

rapporto 105/609, che restituisce un valore percentuale pari a 17,2%, esprime la prevalenza di

diabete nella coorte di infartuati dell’Azienda ospedaliero-universitaria Careggi di Firenze,

calcolata alla data dell’ammissione ospedaliera. Il calcolo di queste prevalenze riveste un ruolo

fondamentale nelle valutazioni comparative di esito, perché ci permette di caratterizzare i pazienti

ricoverati nei diversi ospedali oggetto di analisi, in funzione di tutte le caratteristiche demografiche

e cliniche presenti nei sistemi informativi sanitari.

2.3.1. L’INCIDENZA CUMULATIVA

Ma vediamo adesso in che modo è possibile utilizzare le proporzioni come misura dell’incidenza.

Torniamo all’Ospedale Andrea Costa di Porretta e all’Azienda ospedaliero-universitaria Careggi di

Firenze. Si vuole calcolare la mortalità a 30 giorni dal ricovero per infarto miocardico acuto nelle

due strutture. Nel primo Ospedale si erano verificati 5 decessi su un totale di 54 ricoveri. Nel

secondo Ospedale si erano verificati 62 decessi su un totale di 609 ricoveri.

L’incidenza cumulativa, anche nota come rischio, è una misura di incidenza basata sulle

proporzioni. E’ calcolata come rapporto tra il numero di nuovi casi di malattia avvenuti durante un

determinato periodo di osservazione e il numero di soggetti inizialmente esposti a rischio.

Calcoliamo, quindi, i rischi per ciascuna delle due strutture.

La tabella 1 riprende i dati del Programma Nazionale Esiti relativi alle due strutture prese a esempio

e mostra come calcolare il rischio e come esprimerlo.

5

Tabella 1. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero

Struttura ospedaliera Numero di

ricoveri per

infarto

Numero di

deceduti

Calcolo

del rischio

Rischio

Ospedale Andrea Costa di Porretta Terme 54 5 5/54 9,26%

Azienda O.U.U. Careggi di Firenze 609 62 62/609 10,18%

Si noti come, per un corretto calcolo e una corretta interpretazione di questa misura è necessario che

tutti i soggetti siano stati osservati per un identico periodo di tempo (follow-up) e che questo sia

chiaramente esplicitato nella presentazione dei rischi.

Adesso è possibile confrontare le due strutture ospedaliere. Infatti, il ‘rischio’ tiene conto sia del

numero di decessi che del numero di ricoveri effettuati. Nell’esempio, l’Ospedale Andrea Costa di

Porretta ha un rischio di morte più basso rispetto all’Azienda ospedaliero-universitaria Careggi di

Firenze.

2.4. I TASSI

L’altra misura di occorrenza che consente di esprimere il conteggio dei casi in relazione alla

dimensione della popolazione è il tasso, che consente di sintetizzare in un’unica grandezza sia la

frequenza di una malattia (quanti pazienti sviluppano la malattia) sia la sua “velocità” (quando i

pazienti sviluppano la malattia).

Al contrario della proporzione, che può essere utilizzata per misurare sia l’incidenza sia la

prevalenza, il tasso può essere utilizzato soltanto per misurare l’incidenza.

Noto anche come densità di incidenza, il tasso viene calcolato rapportando il numero di nuovi casi

di malattia sviluppati durante il periodo di osservazione, al totale degli anni-persona. Può variare

tra 0 e infinito e, al contrario del rischio, ha unità di misura, ovvero il (tempo)-1.

A questo punto è necessario approfondire il concetto di anni-persona. Per ciascun individuo, gli

anni persona quantificano il periodo di esposizione al rischio, che inizia con l’ingresso del paziente

nello studio (la data di un ricovero, di un intervento chirurgico o di una diagnosi) e può terminare

nel momento in cui si verifica l’esito di interesse (in questo esempio, ipotizziamo che si tratti del

decesso per tutte le cause);

Periodo di osservazione

Numero di pazienti

inizialmente

esposti a rischio

Numero di nuovi casi di

malattia

6

• nel momento in cui termina lo studio (in questo esempio, ipotizziamo che la durata dello studio

sia di quattro anni);

• nel momento in cui il paziente sia “perso al follow-up” (soggetti per i quali, da un certo momento

in poi, non è più possibile ottenere le informazioni necessarie per lo svolgimento dello studio,

per esempio i pazienti che emigrano verso zone non coperte dai sistemi informativi disponibili).

In figura 1 viene schematizzato il follow-up di uno studio di coorte cui partecipano tre pazienti. Il

paziente numero 1 conclude lo studio senza avere manifestato l’esito di interesse (quindi, dopo 4

anni di osservazione); gli altri due pazienti manifestano l’esito in tempi differenti, il paziente

numero 2 presenta l’esito dopo 2 anni mentre il paziente numero 3 presenta l’esito dopo 1 anno.

Figura 1. Follow-up di uno studio di coorte con tre pazienti, esempio 1

Il tasso viene calcolato dividendo la somma degli esiti per la somma degli anni-persona, ovvero:

2/(4+2+1) = 0,29 esiti per anno-persona. Eseguendo lo stesso calcolo per lo studio schematizzato in

figura 2, si ottiene un tasso pari a: 2/(4+3+3) = 0,20 esiti per anno-persona.

Tasso: 0,29

Rischio: 0,67

D = esito, dall’inglese death o

disease

D

D

7

Figura 2. Follow-up di uno studio di coorte con tre pazienti, esempio 2

In entrambi gli studi, un paziente su tre manifesta l’esito di interesse (rischio) tuttavia, i pazienti

schematizzati in figura 2 hanno una maggiore sopravvivenza, che si traduce in un tasso di

mortalità più basso.

Adesso risulta più chiaro il motivo per cui l’unità di misura del tasso è il (tempo)-1. Semplicemente

perché il tempo (che nell’esempio è espresso in anni-persona) appare al denominatore della misura

di occorrenza.

Si noti, infine, come il rischio sia totalmente insensibile alla sopravvivenza dei pazienti deceduti: sia nello

studio schematizzato in figura 1 sia in quello schematizzato in figura 2, il rischio assume valore 2/3, cioè

0,67.

2.5. GLI ODDS

Oltre alle proporzioni e ai tassi, esiste una terza misura di occorrenza di malattia: l’odds.

L’odds è una trasformata della proporzione Π, definita come segue: odds = Π/(1-Π). Molti autori

descrivono l’odds come una probabilità in termini di scommessa, poiché esprime la probabilità

che un determinato esito si verifichi (Π) rispetto alla probabilità che l’esito non si verifichi (1-Π). E’

adimensionale e può variare da 0 a infinito.

Quando l’esito in studio è raro (per esempio, nel caso di proporzioni minori o uguali al 10%) la

proporzione e il suo analogo odds saranno approssimativamente equivalenti.

L’odds trova la sua maggiore applicazione negli studi caso-controllo (Rothman K, Greenland S.

Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins, Philadelphia 1998) ed è la

misura di riferimento di uno dei più diffusi modelli di regressione, la regressione logistica,

utilizzata nel Programma Nazionale Esiti per la specificazione dei modelli predittivi (questo

argomento sarà ampiamente trattato nel capitolo 3 della guida metodologica).

D

D

Tasso: 0,20

Rischio: 0,67

8

2.6. LE MISURE DI VARIABILITÀ – I “MEDIAN ODDS RATIO”

Nel Programma Nazionale Esiti, gli indicatori di variabilità misurano le differenze tra strutture

ospedaliere o aree di residenza, in termini di qualità dell’assistenza sanitaria.

Queste valutazioni rivestono un notevole interesse. Infatti, un’elevata variabilità tra provider

sanitari potrebbe riflettere un problema di equità nell’accesso alle cure ottimali.

Uno degli indicatori maggiormente utilizzati per misurare l’eterogeneità tra unità statistiche (siano

esse Ospedali, aree di residenza o Primary care provider) è la varianza, che misura le differenze

calcolando la dispersione dei valori attorno ad un valore centrale, in genere la media aritmetica

dell’intero collettivo. All’aumentare della dispersione, aumenta l’eterogeneità tra le strutture

considerate. Recentemente, è stata proposta una misura alternativa alla varianza che ne supera

alcuni limiti, soprattutto nelle situazioni in cui le unità statistiche sono rappresentate da gruppi,

come nel caso delle strutture ospedaliere o delle aree di residenza, che costituiscono gruppi di

pazienti o di ricoveri. Questa misura prende il nome di Median Odds Ratio (MOR).

Vediamo adesso come si interpretano i MOR. Come abbiamo già detto, il MOR misura la

variabilità tra gruppi. Questa grandezza è sempre maggiore o uguale ad 1. Se il MOR è uguale

ad 1 vuol dire che non c’è variabilità tra i gruppi. Al contrario, se c’è variabilità tra i gruppi,

il MOR sarà elevato.

Seguendo un approccio più formale, il MOR può anche essere interpretato come l’incremento

«atteso» di rischio di un individuo che si sposta casualmente da un gruppo all’altro, nell’ipotesi in

cui lo spostamento avvenga sempre verso gruppi con un rischio più elevato.

Prima di passare ad alcuni esempi concreti, è opportuno sottolineare quali sono le caratteristiche del

MOR che lo distinguono dalla varianza. Infatti, il MOR è un indicatore di variabilità «corretto» che

tiene in considerazione diversi parametri, quali:

1. la numerosità all’interno dei gruppi;

2. il numero di esiti all’interno dei gruppi;

3. la differenza tra il risultato dei singoli gruppi e la media generale, ad esempio, la media

regionale;

4. la distribuzione dei fattori socio-demografici e clinici nei diversi gruppi.

9

Come primo esempio, analizziamo la variabilità a livello nazionale nel triennio 2013-2015.

L’indicatore oggetto di analisi è l’intervento chirurgico entro 2 giorni a seguito di frattura del collo

del femore. La mappa fa riferimento ai dati del 2015, le proporzioni aggiustate sono espresse in

valori percentuali.

La proporzione di interventi eseguiti entro 2 giorni dopo il ricovero era pari al 46% nel 2013, al

50% nel 2014 e al 55% nel 2015. L’indicatore di processo, pertanto, evidenzia un miglioramento

nelle performance a livello nazionale durante il triennio. L’analisi della variabilità attraverso i MOR

ha evidenziato una riduzione dell’eterogeneità tra le aree di residenza (MOR da 2.92 a 2.49 durante

il triennio) e una sostanziale stabilità in relazione alle differenze di risultato tra le strutture

ospedaliere.

10

La stessa tipologia di analisi è disponibile per tutte le Regioni italiane. Segue l’esempio dell’Emilia-

Romagna. La mappa fa riferimento ai dati del 2015.

In questa Regione, la proporzione di interventi eseguiti entro due giorni a seguito di frattura del

collo del femore è aumentata progressivamente durante il triennio di osservazione, passando dal

64% nel 2013, al 70% nel 2014, fino al 72% nel 2015. Considerando congiuntamente l’andamento

dell’indicatore nel tempo e la sua variabilità intra-regionale, questa Regione presenta un risultato

ottimale. Infatti, l’ordine medio di grandezza è aumentato, evidenziando una performance crescente

durante il triennio e, al tempo stesso, l’eterogeneità è diminuita, sia in relazione alle differenze di

risultato tra le strutture ospedaliere che in relazione alla variabilità tra le aree di residenza.

11

2.7. LE MISURE DI ASSOCIAZIONE

Le misure di associazione vengono calcolate per quantificare l’effetto di un’esposizione

sull’occorrenza di malattia.

Vengono calcolate confrontando l’occorrenza di malattia tra un gruppo di “esposti” e un gruppo di

“non esposti” a un determinato fattore.

L’associazione può essere:

• positiva, se l’esposizione è un fattore di rischio, ovvero gli esposti hanno una maggiore

incidenza di malattia rispetto ai non esposti;

• negativa, se l’esposizione è un fattore protettivo, ovvero gli esposti hanno una minore

incidenza di malattia rispetto ai non esposti;

• neutrale, se gli esposti e i non esposti hanno un’incidenza simile di malattia.

Tuttavia, non sempre la popolazione in studio viene classificata in due gruppi, gli esposti e i non

esposti. Infatti, l’esposizione può essere a livelli multipli, come la stadiazione di una patologia, la

struttura ospedaliera in cui è avvenuto un ricovero o la ASL di residenza.

Le misure di associazione possono essere classificate in due tipi: misure assolute e misure

relative. Entrambe confrontano l’occorrenza di malattia tra esposti e non esposti, ciò che le

differenzia è la modalità con cui viene effettuato il confronto.

2.7.1. LE MISURE ASSOLUTE DI ASSOCIAZIONE

Le misure assolute di associazione sono basate sulla differenza tra rischi (risk difference) o tra tassi

(rate difference):

Differenza tra rischi = rischio negli esposti – rischio nei non esposti

Differenza tra tassi = tasso negli esposti – tasso nei non esposti

Queste misure, anche note come “misure di impatto”, consentono di calcolare quanti casi di

malattia sono attribuibili all’esposizione. Cerchiamo di chiarire questo concetto con un esempio,

tratto dall’epidemiologia occupazionale.

Si supponga che 20.000 lavoratori siano stati arruolati in uno studio di coorte. Al momento

dell’arruolamento (data in cui sono entrati a fare parte dello studio), gli individui sono stati

classificati in esposti e non esposti a una particolare sostanza chimica sulla base del tipo di lavoro

che svolgevano al momento dell’arruolamento. Tutti i lavoratori sono stati seguiti per un periodo di

cinque anni al fine di stabilire se i soggetti esposti avessero un incremento del rischio di morire per

cancro. I dati raccolti sono sintetizzati in tabella 2.

12

Tabella 2. Deceduti ed esposti a rischio per tipologia di esposizione

Esposti Non esposti

Soggetti inizialmente esposti a rischio (n) 4.000 16.000

Deceduti 28 64

Il rischio negli esposti è: 28/4.000 = 0,007 = 7 per 1.000 lavoratori.

Il rischio nei non esposti è: 64/16.000 = 0,004 = 4 per 1.000 lavoratori.

La differenza tra i rischi è: 7 per 1.000 - 4 per 1.000 = 3 per 1.000 lavoratori.

Pertanto, negli esposti, ogni 1.000 lavoratori, 3 decessi per cancro sono attribuibili all’esposizione e

avrebbero potuto essere evitati fornendo adeguate protezioni ai dipendenti.

2.7.2. LE MISURE RELATIVE DI ASSOCIAZIONE

Le misure relative di associazione sono basate sul rapporto tra rischi (risk ratio o rischio relativo)

tra tassi (rate ratio) o tra odds (odds ratio):

• risk ratio o rischio relativo = rischio negli esposti/rischio nei non esposti

• rate ratio = tasso negli esposti/tasso nei non esposti

• odds ratio = odds negli esposti/odds nei non esposti

Queste misure esprimono la forza dell’associazione tra l’esposizione e la malattia e consentono di

calcolare “di quante volte gli esposti hanno una maggiore (o minore) probabilità di sviluppare

la malattia rispetto ai non esposti”.

Torniamo al nostro confronto tra l’Ospedale Andrea Costa di Porretta e l’Azienda ospedaliero-

universitaria Careggi di Firenze. Nel paragrafo 2.3.1 abbiamo calcolato il rischio (l’incidenza

cumulativa) di mortalità nei due ospedali.



ricoveri

per infarto

Numero di

deceduti

Calcolo del

rischio

Rischio

Ospedale Andrea Costa di Porretta Terme 54 5 5/54 9,26%

Azienda O.U.U. Careggi di Firenze 609 62 62/609 10,18%

13

Per ottenere una misura relativa di effetto è sufficiente calcolare il rapporto tra i due rischi:

10,18%/9,26% = 1,10.

In questo caso, il rischio dell’Ospedale Andrea Costa (9,26%) si trova al denominatore del rapporto,

pertanto viene assunta come categoria di riferimento (reference category).

Il rischio relativo (risk ratio), generalmente abbreviato in RR, è dunque pari a 1,10. Si noti come,

trattandosi di un rapporto, il rischio relativo è un “numero puro” poiché non ha unità di misura.

Il calcolo del rischio relativo, in questo caso, ci dice che l’Azienda Ospedaliera Careggi di Firenze

ha un rischio di morte a 30 giorni dal ricovero in caso di infarto miocardico lievemente superiore

rispetto all’Ospedale Andrea Costa di Porretta. In altre parole, l’Azienda Ospedaliera Careggi ha un

rischio del 10% superiore rispetto a quello dell’Ospedale Andrea Costa. In questo caso,

l’incremento percentuale viene calcolato come segue:

(RR-1,00)x100 = (1,10-1,00)x100 = 10%.

Va ricordato che in tutte le misure relative di associazione, il valore 1,00 rappresenta

l’uguaglianza tra le misure di occorrenza negli esposti e nei non esposti, quindi, l’indipendenza tra

l’esposizione e la malattia.

14

2.7.3. ODDS RATIO E RISCHIO RELATIVO

Proviamo a vedere che cosa sarebbe successo se, nell’esempio precedente, invece di calcolare il

rischio relativo avessimo calcolato l’odds ratio.

Come descritto nel paragrafo 2.5, l’odds è definito come Π/(1-Π), dove Π rappresenta il rischio.

Dunque, gli odds di malattia nei due ospedali saranno:

per l’Ospedale Andrea Costa di Porretta Terme, odds = 0,0926/(1 - 0,0926) = 0,1020

per l’Azienda Ospedaliero-Universitaria Careggi di Firenze, odds = 0,1018/(1 - 0,1018) = 0,1133.

Adesso sarà sufficiente calcolare il rapporto tra i due odds: 0,1133/0,1020 = 1,11.

Come si vede in questo caso, l’odds ratio (1,11) costituisce una buona approssimazione del

rischio relativo (1,10). Questo si verifica quando l’esito in studio è un evento raro, che può essere

definito come un evento il cui rischio è inferiore al 10%, anche se alcuni autori utilizzano la soglia

del 5%. Nell’esempio proposto, il rischio complessivo, per l’insieme delle due strutture, è pari a

(5+62)/(54+609) = 0,10 = 10%. Siamo, pertanto, in una situazione “limite”, anche perché una delle

due strutture, l’Azienda Ospedaliera Careggi, ha un rischio superiore al 10%.

Quando l’evento non è raro, gli odds ratio vanno interpretati alla luce del fatto che sono sempre

più estremi del rischio relativo, ovvero sempre più lontani dal valore 1,00.

Nel grafico di pagina seguente, viene riportata la variazione di un odds ratio all’aumentare della

frequenza dell’esito, in un esempio in cui il rischio relativo è pari a 2,00.

Come si vede, all’aumentare della frequenza dell’esito l’odds ratio si discosta molto dal rischio

relativo.

9,26%

10,18%

15

2.7.4. RISCHI RELATIVI PER ESPOSIZIONI SU PIÙ LIVELLI

Torniamo adesso al nostro confronto tra strutture ospedaliere e aggiungiamo altri due ospedali

nell’analisi.



ricoveri per

infarto

Deceduti Rischio Rischio

relativo

Azienda Ospedaliera Garibaldi (Catania) 254 17 6,69% 0,72

Ospedale di Martina Franca 57 7 12,28% 1,33

Azienda O.U.U. Careggi di Firenze 609 62 10,18% 1,10

Ospedale Andrea Costa di Porretta Terme 54 5 9,26% 1,00

In tabella 4, sono stati riportati i rischi relativi per ciascun ospedale. L’Ospedale Andrea Costa di

Porretta Terme, essendo stato assunto come categoria di riferimento, ha un valore pari a 1,00, a

indicare che tutte le altre strutture presenti nella tabella saranno confrontate con questo Ospedale.

Osservando i rischi relativi riportati nell’ultima colonna, si nota come questi abbiano diverse

direzioni e diverse intensità.

16

L’Ospedale di Martina Franca e l’Azienda Ospedaliera Careggi hanno la stessa direzione ma

diverse intensità. La direzione è la stessa perché entrambi i rischi relativi sono maggiori di 1, a

indicare una maggiore mortalità dei due ospedali rispetto alla categoria di riferimento, L’Ospedale

Andrea Costa di Porretta Terme. Tuttavia le intensità sono diverse: mentre l’Ospedale di Martina

Franca presenta un rischio del 33% maggiore rispetto all’Ospedale Andrea Costa, l’Azienda

Ospedaliera Careggi ha un rischio del 10% maggiore rispetto all’Ospedale Andrea Costa.

L’intensità è, pertanto, minore.

L’Azienda Ospedaliera Garibaldi si differenzia invece dagli altri perché ha una direzione diversa.

Infatti, il suo rischio relativo è inferiore all’unità, a indicare un rischio minore rispetto all’Ospedale

Andrea Costa, il 28% in meno, in questo caso.

E’ necessario prestare attenzione quando si ottengono rischi relativi inferiori all’unità. Infatti, il

rischio relativo può variare da 0 a infinito. Pertanto, i fattori protettivi avranno rischi relativi

compresi nel ristretto intervallo tra 0 e 1,00, mentre i fattori di rischio avranno rischi relativi

compresi nel più “ampio” intervallo tra 1,00 e infinito. Da questo deriva che i rischi relativi

maggiori di 1,00 non sono “direttamente confrontabili” con quelli minori di 1,00, perché la scala è

diversa.

Per esempio, un rischio relativo di 2,00 (raddoppio la probabilità di un evento) e un rischio relativo

di 0,50 (dimezzo la probabilità di un evento), che chiaramente presentano direzioni opposte, hanno

la stessa intensità. Eppure, nel primo caso gli esposti hanno un rischio del 100% in più rispetto ai

non esposti mentre nel secondo caso gli esposti hanno un rischio del 50% in meno rispetto ai non

esposti. Dunque, la scala è diversa ma l’intensità è la stessa. Infatti, generalizzando, dire che A è il

doppio di B (RR=2,00) contiene la medesima informazione che dire: B è la metà di A (RR=0,50).

2.7.5. RISCHI RELATIVI: I CONFRONTI POSSIBILI NEL PROGRAMMA NAZIONALE ESITI

Finora abbiamo utilizzato i rischi relativi per confrontare tra loro le strutture ospedaliere. Tuttavia, è

possibile operare confronti di altra natura. Infatti, i risultati di una struttura ospedaliera possono

essere confrontati con un valore medio, con un gruppo selezionato di strutture o con il risultato della

stessa struttura in un periodo differente.

Nel Programma Nazionale Esiti, oltre ai confronti “testa a testa”, già descritti nei paragrafi

precedenti, è possibile confrontare i risultati di ciascuna struttura e di ciascuna ASL di residenza

con la media nazionale, con i risultati dell’anno precedente e con un benchmark, costituito dalle

strutture o dalle ASL di residenza che presentano i risultati più favorevoli.

Per esempio, come abbiamo già riportato, l’Ospedale Andrea Costa di Porretta Terme presenta un

rischio di mortalità a 30 giorni dal ricovero per infarto miocardico acuto pari al 9,26%.

Il rischio calcolato a livello nazionale è pari al 9,03%, mentre il gruppo di strutture con i risultati più

favorevoli (il benchmark appunto), presenta un rischio pari al 5,78%.

17

Pertanto, il rischio relativo rispetto alla media nazionale per l’Ospedale Andrea Costa di Porretta

Terme sarà pari a 9,26% / 9,03% = 1,03 mentre il rischio relativo rispetto al benchmark sarà pari

a 9,26% / 5,78% = 1,60.

2.7.6. RISCHI RELATIVI: ESITO POSITIVO O NEGATIVO?

Nel paragrafo 2.7.4 abbiamo introdotto il concetto di direzione del rischio relativo. Osservando se il

rischio relativo è maggiore o minore di 1,00 è possibile capire se la struttura ospedaliera o la ASL di

residenza in studio presenta esiti più favorevoli o meno favorevoli rispetto alla categoria di

riferimento. Tuttavia, l’interpretazione dei rischi relativi non può prescindere dalla natura dell’esito

(outcome) in studio, che può essere “negativo” o “positivo”.

Per esempio, la mortalità a 30 giorni da un ricovero per infarto miocardico acuto costituisce

chiaramente un esito negativo. Al contrario, l’intervento chirurgico entro 48 ore a seguito di una

frattura del collo del femore costituisce senza dubbio un esito positivo.

Per chiarire con un esempio concreto, analizziamo i risultati del Policlinico Gemelli di Roma in

relazione a questi due indicatori (mortalità a 30 giorni dopo infarto e intervento chirurgico entro 48

ore dopo frattura di femore). I rischi relativi sono calcolati rispetto alla media nazionale.

Infarto miocardico acuto: mortalità a 30 giorni dal ricovero

Rischio Rischio relativo

Policlinico Gemelli di Roma 6,79% 0,75

Italia 9,03% 1,00

Frattura del collo del femore: intervento chirurgico entro 2 giorni

Rischio Rischio relativo

Policlinico Gemelli di Roma 86,56% 1,58

Italia 54,64% 1,00

Pur avendo direzioni opposte, entrambi i rischi relativi evidenziano una situazione favorevole per il

Policlinico Gemelli. Infatti, la mortalità a 30 giorni dall’infarto è del 25% inferiore rispetto alla

media nazionale mentre la probabilità di ricevere un intervento chirurgico entro due giorni è del

58% superiore rispetto alla media nazionale.

18

Prima di procedere con gli altri argomenti del corso, è opportuno puntualizzare che

i rischi e i rischi relativi che abbiamo presentato in questo capitolo possono essere

definiti “grezzi”, poiché su queste misure non sono state applicate le tecniche per il

controllo del confondimento che verranno descritte nei capitoli successivi.

19

3. LA VALIDITA’ DELLO STUDIO

3.1. GLI ERRORI SISTEMATICI IN EPIDEMIOLOGIA

Gli errori sistematici, anche noti come distorsioni o bias, possono influenzare sostanzialmente i

risultati di uno studio, a causa di errori di classificazione o a difetti del disegno che allontanano dal

valore reale le misure di occorrenza e di associazione calcolate nello studio. Per comprendere

meglio il concetto di errore sistematico, ipotizziamo che l’epidemiologo debba compiere un

esercizio di tiro al bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un

rischio relativo, sia nel centro esatto del bersaglio. Ogni prova può essere vista come un tentativo

del ricercatore di stimare correttamente il parametro di interesse. Oltre all’errore casuale, che non ha

una direzione ben precisa e caratterizza qualsiasi processo di misura (bersaglio a sinistra), può

essere presente un difetto insito nello strumento utilizzato dall’epidemiologo (pensate a una pistola

con la canna deviata) che imprime a ogni tentativo un errore sempre uguale (costante), spostando i

risultati dello studio verso una direzione ben precisa (bersaglio a destra).

La validità di uno studio fa riferimento alla sua capacità di ridurre al minimo tutte le possibili

distorsioni, ovvero tutti gli errori di misura che portano sistematicamente verso una sovrastima o

una sottostima delle misure oggetto di interesse.

E’ possibile classificare gli errori sistematici in tre grandi tipologie: bias di selezione, bias di

informazione e bias di confondimento. In questo manuale, le prime due tipologie saranno

presentate con pochi approfondimenti metodologici, limitandone la trattazione ad alcune definizioni

basilari. Ampio spazio sarà invece dedicato al concetto di confondimento, fondamentale per

l’interpretazione dei dati del Programma Nazionale Esiti.

Il bias di selezione è legato all’arruolamento dei soggetti in studio, nel caso in cui questi non

vengano selezionati in modo casuale. Pensiamo alle valutazioni comparative di esito e pensiamo,

Stima molto valida (non

distorta)

Stima poco valida

(distorta)

20

per esempio, all’indicatore “mortalità a 30 giorni da un ricovero per infarto miocardico acuto”.

Potremmo trovarci di fronte a un bias di selezione se alcune delle strutture valutate avessero

codificato come infarto anche casi nei quali non erano pienamente soddisfatti tutti i criteri per porre

questa diagnosi, selezionando, come conseguenza, soggetti con una diversa condizione clinica, più

grave o meno grave rispetto a quella indicata dal protocollo dello studio. In queste strutture, i

risultati ottenuti non potranno essere considerati come rappresentativi di una popolazione di

pazienti con infarto del miocardio e i confronti con gli altri ospedali saranno necessariamente falsati

dal diverso criterio di selezione utilizzato.

Il bias di informazione è invece legato a un’errata attribuzione dell’esposizione o dell’esito e

consiste nella classificazione dei pazienti o dei ricoveri in un gruppo (esposti rispetto a non esposti,

con esito rispetto a senza esito) diverso da quello al quale dovrebbero essere assegnati, generando

così un’errata classificazione (misclassificazione). E’ opportuno sottolineare che, nel Programma

Nazionale Esiti, le esposizioni di maggiore interesse sono costituite dalla struttura ospedaliera o

dalla ASL di residenza. Un caso di misclassificazione dell’esposizione potrebbe avvenire nelle

valutazioni comparative della mortalità a trenta giorni da un’angioplastica coronarica. Nei casi in

cui la procedura venga eseguita in service, l’intervento (con il relativo esito) potrebbe essere

erroneamente attribuito alla struttura di ricovero e non alla struttura in cui è stata effettivamente

eseguita l’angioplastica (esterna per esempio all’ospedale valutato). Infatti, utilizzando le

informazioni del sistema informativo ospedaliero (SIO) non è possibile tracciare il percorso del

paziente nei casi in cui una procedura segua questo particolare iter organizzativo.

Per una più ampia presentazione e discussione degli errori sistematici in epidemiologia, si rimanda

a: Rothman K, Greenland S. Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins,

Philadelphia 1998.

3.2. IL CONFONDIMENTO

Nel capitolo precedente abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette

di capire se una determinata struttura ospedaliera o ASL di residenza abbia esiti più favorevoli o

meno favorevoli rispetto a una categoria di riferimento, che può essere la media nazionale, un

benchmark o un’altra struttura ospedaliera.

Ipotizziamo di avere analizzato la mortalità a 30 giorni dal ricovero per infarto miocardico acuto in

una determinata struttura ospedaliera, l’Ospedale A, e di avere ottenuto un rischio relativo rispetto

alla media nazionale pari a 1,76. Pertanto, l’Ospedale A presenta una mortalità del 76% superiore

rispetto alla media nazionale. A che cosa può essere attribuibile questo risultato sfavorevole?

Questo eccesso di rischio esprime realmente una peggiore qualità dell’assistenza rispetto alla media

nazionale?

Per una valutazione più completa, si decide di confrontare le caratteristiche demografiche e cliniche

dei pazienti ricoverati nell’Ospedale A con quelle del totale dei pazienti ricoverati per infarto in

21

Italia. In tabella 5 sono riportate alcune delle caratteristiche di cui è possibile disporre attraverso il

sistema informativo ospedaliero (SIO).

Tabella 5. Mortalità a 30 giorni dal ricovero per infarto miocardico acuto: confronto tra le

caratteristiche demografiche e cliniche

Ospedale A Italia

Rischio grezzo (%) 15,93% 9,03%

Età in anni (media) 75 68

Diabete (%) 25 14

Pregresse malattie cerebrovascolari (%) 20 8

Come si vede dalla tabella, i pazienti trattati nell’Ospedale A hanno una situazione clinica più

sfavorevole rispetto alla media nazionale. Sono più anziani, hanno una maggiore prevalenza di

diabete e una maggiore proporzione di soggetti con pregresse malattie cerebrovascolari. Questo

rende più difficile il confronto tra i due gruppi perché non è possibile distinguere l’effetto

dell’Ospedale dall’effetto della diversa distribuzione delle patologie.

Perché, dunque, l’Ospedale A ha una mortalità maggiore rispetto alla media nazionale? Si tratta

realmente di un problema legato alla qualità dell’assistenza o dipende soltanto dalla maggiore

complessità clinica dei suoi pazienti?

Questa “confusione di effetti” prende il nome di confondimento, un errore sistematico (in

epidemiologia si utilizzano i sinonimi distorsione o bias) che impedisce di determinare

correttamente l’effetto dell’esposizione sull’esito.

Diamo a questo punto una definizione più formale di fattore confondente. Un fattore può essere

definito confondente se:

• è causalmente associato con l’esito; in altre parole, il fattore confondente deve essere associato

all’esito in studio come causa e non come effetto. Nell’esempio appena proposto, in base alle

conoscenze a priori, l’età avanzata, il diabete e le pregresse malattie cerebrovascolari sono causalmente

associati con la mortalità da ricovero per infarto. Queste caratteristiche vengono spesso definite fattori

di rischio, poiché, se presenti, aumentano la probabilità che si verifichi l’esito in studio;

• è associato con l’esposizione; ciò vuole dire che le distribuzioni dei fattori confondenti devono

essere diverse tra esposti e non esposti. Nell’esempio, la distribuzione dell’età (sintetizzata dal

suo valore medio), del diabete e delle pregresse malattie cerebrovascolari sono sostanzialmente

diverse tra esposti (i pazienti trattati nell’Ospedale A) e non esposti (il totale dei pazienti

ricoverati per infarto in Italia);

• non deve costituire un passaggio intermedio nel percorso causale tra l’esposizione e la

malattia; ciò significa che il fattore confondente non deve essere un effetto dell’esposizione.

Cerchiamo di chiarire meglio: se l’esposizione in studio fosse costituita dall’uso di un farmaco

antipertensivo e l’esito fosse la mortalità per infarto, la pressione arteriosa rilevata dopo l’inizio

22

del trattamento non può essere considerata un fattore confondente. Infatti, questo valore

pressorio sarebbe un effetto dell’esposizione, attraverso il quale il farmaco riduce, nel lungo

periodo, la mortalità per infarto.

Torniamo alla tabella 5:

Ospedale A Italia

Rischio grezzo (%) 15,93% 9,03%

Età in anni (media) 75 68

Diabete (%) 25 14

Pregresse malattie cerebrovascolari (%) 20 8

Età, diabete e pregressi eventi cerebrovascolari sono fattori di rischio per la mortalità (e soddisfano

quindi l’associazione causale con l’esito), sono associati all’esposizione e non possono certamente

essere un effetto dell’assistenza ospedaliera (non sono quindi un passaggio intermedio nel percorso

tra esposizione e malattia). Sono, pertanto, fattori confondenti.

Il rischio relativo grezzo di 1,76 è quindi sovrastimato dal confondimento, perché parte

dell’eccesso di rischio osservato nell’Ospedale A è spiegato dalla maggiore complessità clinica dei

suoi pazienti.

Questo rende necessario l’utilizzo di metodi statistici per il controllo del confondimento.

3.3. IL CONTROLLO DEL CONFONDIMENTO

Nel Programma Nazionale Esiti il confondimento viene controllato mediante tecniche di risk-

adjustment. Questo metodo si articola in due fasi essenziali:

• la costruzione di una misura di gravità che descrive il rischio a priori, ovvero la “complessità

clinica” del paziente. Questa misura dipenderà dalle caratteristiche anagrafiche, dalla gravità

della patologia in studio e dalle patologie concomitanti dei pazienti;

• l’uso di tale misura per ottenere rischi e rischi relativi aggiustati, che consentono un confronto

valido anche tra gli ospedali o le ASL di residenza i cui pazienti hanno, come nell’esempio

presentato nella tabella 5, diversi livelli di gravità.

23

3.3.1. LA MISURA DELLA GRAVITÀ

La procedura analitica usata per la costruzione della misura di gravità prende il nome di modello

predittivo, un modello statistico finalizzato a predire l’esito sulla base delle caratteristiche misurate

sul paziente, alcune delle quali potranno essere fattori confondenti. Pertanto, le tecniche di risk

adjustment prevedono, nella fase iniziale, l’analisi della relazione tra i potenziali fattori confondenti

e l’esito in studio.

Nel Programma Nazionale Esiti, il modello predittivo segue un approccio empirico: alla base di

tale approccio sta la necessità, da sempre riconosciuta nell’ambito degli studi osservazionali di tipo

eziologico, di identificare i fattori confondenti e controllarne l’effetto con specifico riferimento

alla popolazione studiata.

L’approccio empirico prevede la costruzione di una misura di gravità specifica della popolazione in

studio, realizzata attraverso l’analisi della relazione multivariata tra le caratteristiche misurate sul

paziente (i predittori) e l’esito considerato. Lo strumento generalmente utilizzato per la costruzione

di una misura di gravità empirica è il modello di regressione multipla, come la regressione lineare,

la regressione logistica o la regressione di Cox, a seconda che l’esito in studio sia una variabile

continua (per esempio, la pressione arteriosa sistolica), dicotomica (per esempio, la mortalità a 30

giorni dopo ricovero per infarto miocardico acuto), un tempo di sopravvivenza o di attesa (per

esempio, il tempo di attesa per l’intervento di sostituzione del collo del femore a seguito di ricovero

per frattura).

I modelli predittivi empirici hanno un notevole vantaggio rispetto agli score prognostici come

l’euroSCORE (European System for Cardiac Operative Risk Evaluation) o il Charlson

comorbidity index. Infatti, l’uso di score o di modelli preconfezionati esterni presuppone che la

relazione tra predittori ed esito sia costante tra le popolazioni, assunto raramente verificato nella

realtà.

Vediamo adesso un esempio concreto di modello predittivo. L’esito è di natura dicotomica

(deceduto rispetto a non deceduto) pertanto usiamo la regressione logistica multivariata. La misura

di effetto prodotta da questo modello è l’odds ratio che, come descritto nel paragrafo 2.7.3,

costituisce una buona approssimazione del rischio relativo nel caso in cui l’esito sia un evento raro.

In tabella 6 vengono presentate alcune delle caratteristiche dei pazienti che il modello ha

identificato come potenziali fattori confondenti in base alla loro associazione multivariata con

l’esito. Nella seconda colonna della tabella viene riportato il numero dei pazienti con le singole

caratteristiche: per esempio i pazienti di genere femminile sono 30.585, quelli con pregresso tumore

maligno sono 5.089 e così via. Nella terza colonna sono riportati gli odds ratio grezzi, nella quarta

gli odds ratio aggiustati.

Infatti, abbiamo precedentemente definito il modello come multivariato; questo vuol dire che il

modello è in grado di analizzare contemporaneamente tutte le variabili misurate sul paziente. E’

grazie a questa caratteristica che l’odds ratio può essere aggiustato, per poter misurare l’effetto

24

indipendente dei singoli fattori di rischio, tenendo costanti i valori assunti da tutte le altre

variabili presenti nel modello.

Tabella 6. Modello predittivo. Infarto miocardico acuto: mortalità a 30 giorni dal ricovero.

Predittore Numero di

casi

Odds ratio

grezzo

Odds ratio

aggiustato

Età in anni - 1,09 1,08

Genere (donne vs uomini) 30.585 1,87 1,02

Tumori maligni 5.089 2,02 1,55

Diabete 8.015 1,81 1,28

Scompenso cardiaco 6.257 2,81 1,48

Malattie cerebrovascolari 4.518 2,45 1,52

Pregresso by-pass aorto-coronarico 4.750 0,46 0,48

Pregressa angioplastica coronarica 12.535 0,42 0,46

Proviamo a interpretare qualche odds ratio così ottenuto. Per ogni aumento di un anno di età, il

rischio di morire a 30 giorni dal ricovero per infarto aumenta dell’8% (odds ratio = 1,08). Al

contrario, le differenze di genere sono trascurabili perché l’odds ratio è prossimo al valore di 1,00

(odds ratio = 1,02) valore che, come descritto nel primo capitolo, esprime l’indipendenza tra

l’esposizione (in questo caso il genere del paziente) e l’esito in studio (in questo caso il decesso a 30

giorni).

I tumori maligni costituiscono invece un fattore di rischio: la loro presenza aumenta del 55% la

mortalità a 30 giorni (odds ratio = 1,55). Anche il diabete, lo scompenso cardiaco e le malattie

cerebrovascolari sono fattori di rischio. Infatti, tutte queste patologie concomitanti presentano un

odds ratio maggiore di 1,00. Il pregresso by-pass aorto-coronarico è invece un fattore protettivo,

essendo associato a una riduzione relativa del rischio pari al 52%, ottenuta come (1,00-0,48) x 100.

Valutazioni analoghe valgono per la pregressa angioplastica coronarica.

3.3.2. L’USO DELLA MISURA DI GRAVITÀ: LA STANDARDIZZAZIONE DIRETTA

Attraverso il modello predittivo abbiamo costruito la “misura di gravità”, da intendersi come un

insieme di fattori di rischio misurati sul paziente, per ciascuno dei quali è stato stimato l’effetto

indipendente sull’esito in studio.

A questo punto, nel Programma Nazionale Esiti, il confronto tra le strutture ospedaliere e le ASL di

residenza avviene attraverso una metodologia chiamata standardizzazione diretta. Dal punto di

vista operativo, la standardizzazione diretta viene applicata mediante modelli statistici multivariati

in cui, oltre alle variabili selezionate come fattori di rischio, sono presenti alcune variabili speciali

(chiamate dummy) che rappresentano l’ospedale o la ASL di residenza. Questo metodo utilizza la

25

distribuzione dei fattori di rischio di una popolazione di riferimento come base per tutti i

confronti. Per ciascuno degli indicatori valutati, la popolazione di riferimento è costituita

dall’insieme di tutti i ricoveri osservati a livello nazionale.

Attraverso i parametri stimati dai modelli statistici, per ciascuna struttura e ASL di residenza

vengono calcolati i rischi aggiustati, denominati nel sito con la voce “rischi adj”. Questi rendono

ininfluente la diversa distribuzione dei fattori di rischio e consentono un confronto valido tra tutti i

gruppi oggetto di interesse. Infatti, dopo l’aggiustamento, i rischi possono essere interpretati come

se tutte le strutture e tutte le ASL presentassero la stessa distribuzione dei fattori di rischio (età,

sesso, gravità della patologia e comorbilità) della popolazione di riferimento.

Pertanto, dopo l’aggiustamento, le differenze osservate tra gli ospedali non potranno più essere

attribuibili alla diversa gravità dei pazienti e rifletteranno le reali differenze nella qualità delle cure.

Il rapporto tra due rischi aggiustati costituisce un rischio relativo aggiustato, che corrisponde nel

sito alla voce “RR adj”. Vediamo un esempio in relazione alla mortalità a 30 giorni dal ricovero per

infarto miocardico acuto.

Il Policlinico Umberto I di Roma ha un rischio grezzo di mortalità a 30 giorni dal ricovero per

infarto pari al 7,35%, che diventa 9,40% dopo l’aggiustamento per gravità. Questi pazienti, prima

dell’aggiustamento, non erano confrontabili con la media nazionale perché presentavano una

minore complessità clinica rispetto al totale dei pazienti ricoverati per infarto in Italia. Applicando

al Policlinico Umberto I la distribuzione nazionale delle caratteristiche-paziente, quali età, sesso e

patologie concomitanti, il rischio della struttura aumenta. Ricordando che la mortalità a livello

nazionale è pari al 9,03%, il rischio relativo aggiustato si ottiene dal rapporto 9,40% / 9,03% = 1,04.

Pertanto, dopo aver reso ininfluente l’effetto della diversa gravità dei pazienti, Il Policlinico

Umberto I di Roma presenta un rischio di mortalità del 4% superiore rispetto alla media nazionale.

Avendo applicato a tutti gli ospedali la stessa distribuzione per gravità (quella osservata a livello

nazionale), tutte le strutture ospedaliere sono confrontabili sia tra di loro sia con la media

nazionale.

26

3.3.3. LA STANDARDIZZAZIONE INDIRETTA

La standardizzazione indiretta (non usata nel Programma Nazionale Esiti) è una possibile

alternativa alla standardizzazione diretta. Anche questa metodologia prevede l’utilizzo di una

popolazione di riferimento e si basa sul calcolo del numero atteso di esiti in ciascuno dei gruppi

messi a confronto, ovvero il numero di esiti che ci si aspetterebbe in quell’ospedale o in quella ASL

di residenza sulla base della distribuzione, nel gruppo stesso, dei fattori di rischio considerati.

Questo valore atteso viene calcolato sulla base della relazione tra fattori di rischio ed esito che si

osserva nella popolazione di riferimento.

Una volta che per ciascuno dei gruppi a confronto si è derivato l’esito atteso, è possibile calcolare,

per ciascun ospedale o ASL di residenza, il rapporto standardizzato (RS):

RS = esito osservato/esito atteso

Questo rapporto misura di quante volte l’esito nel gruppo considerato è più frequente (o meno

frequente) di quanto lo sarebbe sulla base della distribuzione, nel gruppo stesso, dei fattori di

rischio e sulla base della relazione tra i fattori di rischio e l’esito nella popolazione di riferimento. In

questo senso, valori di RS maggiori di 1 (o minori di 1) indicano una maggiore (o minore)

frequenza dell’esito considerato nel gruppo in studio rispetto al riferimento, al netto delle possibili

differenze nella distribuzione dei fattori di rischio.

La standardizzazione indiretta permette dunque un confronto risk-adjusted tra gli esiti osservati in

un gruppo e quelli osservati nella popolazione di riferimento. Tuttavia, nel Programma Nazionale

Esiti, si è preferito non utilizzare questa procedura poiché il confronto è valido solo se viene

effettuato tra ciascun gruppo e il riferimento ma non è possibile utilizzare i valori del rapporto

standardizzato per confrontare gli ospedali o le ASL di residenza tra loro.

3.3.4. RISK ADJUSTMENT VERSUS PROPENSITY ADJUSTMENT

Come descritto nel paragrafo 3.3.1, le tecniche di risk adjustment prevedono, nella prima fase delle

analisi, lo studio della relazione tra i potenziali fattori confondenti e l’esito.

Esiste un approccio alternativo e “simmetrico” a questa metodologia, noto col nome di propensity

adjustment (non usata nel Programma Nazionale Esiti) che nella prima fase si focalizza sulla

relazione tra i potenziali fattori confondenti e l’esposizione.

Una volta calcolata la probabilità di esposizione in base alle caratteristiche demografiche e cliniche

del paziente, tale misura, chiamata propensity score, viene opportunamente integrata nell’analisi

“finale”, quella che indaga la relazione tra esposizione ed esito. In altri termini, mentre la prima fase

è finalizzata a identificare i fattori predittivi dell’esposizione, la seconda si focalizza sulla relazione

tra esposizione ed esito, utilizzando il propensity score come unico fattore di aggiustamento.

Nel Programma Nazionale Esiti, questa tecnica per il controllo del confondimento non è stata

utilizzata perché di difficile applicazione nei casi in cui l’esposizione sia costituita da un elevato

27

numero di livelli, come nel caso delle strutture ospedaliere. Inoltre, le tecniche basate sul

propensity adjustment sono incentrate sulla sintesi di tutti i potenziali fattori confondenti in

un’unica variabile, il propensity score, da utilizzare nei processi di aggiustamento e trovano

maggiore applicazione nei casi in cui il numero dei fattori confondenti sia molto elevato rispetto al

numero degli esiti osservati. Tuttavia, nei contesti in cui si ha a disposizione un notevole numero di

esiti, come nelle valutazioni comparative a livello nazionale o regionale, le metodologie di risk

adjustment e propensity adjustment conducono a risultati praticamente identici.

Per approfondimenti sul tema si consigliano le seguenti pubblicazioni:

• Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for

causal effects. Biometrika 1983;70:41-5.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3144483/

• D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to

a non-randomized control group. Statistics in Medicine 1998;17:2265-81.

http://www.ncbi.nlm.nih.gov/pubmed/9802183

3.3.5. LA MODIFICAZIONE DI EFFETTO

Si parla di modificazione di effetto quando l’effetto dell’esposizione sull’esito è diverso in funzione

dei valori assunti da un terzo fattore chiamato appunto modificatore d’effetto. Nel caso più semplice

di un modificatore di effetto dicotomico, l’effetto dell’esposizione sull’esito sarà diverso in assenza

o in presenza di questo fattore.

Nell’ambito della valutazione comparativa degli esiti è importante definire a priori, sulla base delle

evidenze disponibili o di specifiche ipotesi di ricerca, quali sono i fattori di cui si voglia indagare il

ruolo di possibile modificatore di effetto.

Infatti, nel caso di un modificatore di effetto, non ha senso interrogarsi sull’eventuale ruolo dello

stesso fattore come confondente e tanto meno proporsi di calcolare una misura di associazione

aggiustata, poiché questa stima, calcolata come media di misure troppo diverse tra loro, non

consentirebbe una corretta interpretazione dei risultati.



28

4. VERIFICA DI IPOTESI E INTERVALLI DI CONFIDENZA

4.1. L’ERRORE CASUALE

Alla base degli argomenti che verranno presentati in questo capitolo c’è il concetto di errore

casuale. Ipotizziamo ancora una volta che l’epidemiologo debba compiere un esercizio di tiro al

bersaglio e che il valore reale della misura di interesse, per esempio un tasso o un rischio relativo,

sia nel centro esatto del bersaglio. L’errore casuale deriva dal fatto che l’epidemiologo ha a

disposizione un numero limitato di osservazioni per soddisfare gli obiettivi della sua ricerca. Queste

osservazioni sono costituite dai pazienti o dai ricoveri inclusi nelle analisi. Ogni ricovero fornisce

un’informazione elementare sulla qualità dell’assistenza dell’ospedale cui fa riferimento, pertanto

all’aumentare del numero di queste osservazioni l’epidemiologo potrà trarre conclusioni più solide e

le stime dei rischi o dei rischi relativi ottenute dal suo studio saranno più precise.

Al contrario dell’errore sistematico, descritto nel paragrafo 3.1, l’errore casuale non ha una

direzione ben precisa e si distribuisce uniformemente intorno al vero valore del parametro di

interesse (per esempio, un rischio relativo). C’è un’altra differenza rilevante tra le due tipologie di

errore. Mentre l’errore sistematico è indipendente dalla numerosità campionaria (ovvero dal numero

delle osservazioni analizzate), l’errore casuale diminuisce all’aumentare del numero delle

osservazioni, consentendo di ottenere stime sempre più precise.

4.2. LA LOGICA DEI TEST STATISTICI

Nel primo capitolo abbiamo introdotto una misura di effetto, il rischio relativo, che ci permette di

capire se una determinata struttura ospedaliera o ASL di residenza presenta esiti più favorevoli o

meno favorevoli rispetto a una categoria di riferimento, che può essere la media nazionale, un

benchmark o un’altra struttura ospedaliera.

Nel secondo capitolo abbiamo introdotto le tecniche per il controllo del confondimento. Utilizzando

queste metodologie è possibile calcolare il rischio relativo aggiustato, che consente di operare

Stima poco precisa

(elevato errore casuale)

29

confronti tra ospedali o ASL di residenza rendendo statisticamente ininfluente l’effetto della diversa

distribuzione dei fattori di rischio.

Soffermiamoci su un esempio concreto, analizzando la proporzione di pazienti che ricevono

tempestivamente un intervento chirurgico a seguito di frattura del collo del femore. Si ricorda che,

in questo contesto, il termine rischio è un sinonimo di proporzione (vedi paragrafo 2.3.1).

Per l’Azienda Ospedaliera S. Antonio e Biagio la probabilità di ricevere un intervento chirurgico

entro 2 giorni è del 10% inferiore rispetto alla media nazionale. Ma questo risultato “sfavorevole” è

statisticamente significativo?

Per rispondere a questa domanda, è necessario spendere alcune parole sulla logica dei test statistici.

Questa branca della statistica prende il nome di verifica di ipotesi o anche analisi della

significatività.

In alcuni contesti, l’analisi di un campione di dati ha come obiettivo anche quello di “prendere una

decisione” sulla base delle informazioni contenute nei dati stessi. A tale proposito, i test statistici

possono fornire utili elementi di valutazione sulla base di tre grandezze fondamentali.

• La forza della misura di associazione: di quanto si allontana il rischio relativo rispetto al valore

1,00 di indifferenza?

• Il numero di osservazioni analizzate: sull’osservazione di quanti ricoveri sto basando le mie

conclusioni?

• La frequenza dell’esito in studio (in genere desunta dalla media nazionale): l’esito che sto

valutando è raro, come per esempio la mortalità a 30 giorni dall’intervento di bypass aorto-

coronarico, o è comune (non raro), come per esempio la proporzione di parti con taglio cesareo

primario?

La verifica di ipotesi, che è una branca dell’inferenza statistica, attraverso la combinazione di questi

tre elementi consente di ottenere il valore della p (p-value), che esprime la probabilità di

sbagliare per effetto del caso se dichiariamo che il risultato dell’ospedale che stiamo analizzando è

diverso rispetto a una determinata categoria di riferimento.

Esistono relazioni ben definite che legano le tre grandezze fondamentali appena descritte col valore

del p-value, in particolare:

30

• tenendo costanti la media nazionale e il numero di osservazioni analizzate, il p-value diminuisce

all’aumentare della forza della misura di associazione (Tabella 7);

• tenendo costanti la media nazionale e il rischio relativo, il p-value diminuisce all’aumentare del

numero di osservazioni analizzate (Tabella 8);

• tenendo costanti il numero di osservazioni analizzate e il rischio relativo, il p-value diminuisce

all’aumentare della frequenza dell’esito in studio (Tabella 9).

Tabella 7. Variazione del p-value al variare della forza della misura di associazione

Ospedale

Numero di

ricoveri

analizzati

Rischio Media

nazionale

Rischio

relativo p-value

Ospedale A 60 15% 10% 1,5 0,195

Ospedale B 60 20% 10% 2,0 0,016

Ospedale C 60 25% 10% 2,5 < 0,001

Tabella 8. Variazione del p-value al varare del numero di osservazioni analizzate

Ospedale

Numero di

ricoveri

analizzati

Rischio Media

nazionale

Rischio

relativo p-value

Ospedale A 40 20% 10% 2,0 0,057

Ospedale B 50 20% 10% 2,0 0,030

Ospedale C 60 20% 10% 2,0 0,016

Tabella 9. Variazione del p-value al variare della frequenza dell’esito in studio

Ospedale

Numero di

ricoveri

analizzati

Rischio

Media

nazionale

(frequenza

dell’esito)

Rischio

relativo p-value

Ospedale A 60 10% 5% 2,0 0,125

Ospedale B 60 20% 10% 2,0 0,016

Ospedale C 60 70% 35% 2,0 < 0,001

31

Torniamo al nostro esempio sulla frattura del collo del femore: per l’Azienda Ospedaliera S.

Antonio e Biagio il test statistico produce un valore della p pari a 0,249 (esprimendolo in

percentuale 24,9%).

Il test mette a confronto il risultato dell’Azienda Ospedaliera (intervento tempestivo nel 49,20% dei

casi) col risultato medio nazionale (intervento tempestivo nel 54,64% dei casi).

Proviamo a interpretare il valore della p: la probabilità di sbagliare per effetto del caso, se

dichiariamo che in questo Ospedale la proporzione di pazienti operati entro due giorni è diversa

dalla media nazionale, è pari al 24,9%.

In altre parole, 24,9% è la probabilità di sbagliare per effetto del caso se si conclude che il risultato

dell’Azienda Ospedaliera S. Antonio e Biagio è veramente peggiore rispetto alla media nazionale.

Per convenzione, un rischio relativo viene considerato statisticamente significativo se il valore

della p prodotto dal test statistico è minore o uguale a 0,05. Secondo questa logica, la probabilità di

errore che siamo disposti ad accettare nel dichiarare che il risultato di un ospedale è veramente

diverso dalla media nazionale (e non lo sia per effetto del caso) deve essere inferiore al 5%.

In conclusione, il rischio relativo aggiustato dell’Azienda Ospedaliera S. Antonio e Biagio non è

statisticamente significativo perché il valore della p (0,249) è maggiore di 0,05. Pertanto non

abbiamo abbastanza elementi per escludere che la differenza tra questo Ospedale e la media

nazionale sia interamente attribuibile all’effetto del caso.

In base 1) alla direzione del rischio relativo aggiustato e 2) al risultato del test statistico è

possibile classificare ogni ospedale in tre categorie:

1. strutture con esiti più favorevoli rispetto alla media nazionale (p≤0,05);

2. strutture con esiti non significativamente diversi dalla media nazionale (p>0,05);

3. strutture con esiti meno favorevoli rispetto alla media nazionale (p≤0,05).

32

Nell’esempio seguente, che vuole confrontare i risultati dell’Azienda Ospedaliera Villa Sofia, in

Sicilia, con quelli della Casa di cura S. Lucia, in Campania, è possibile evidenziare come il risultato

del test statistico sia strettamente legato al numero dei ricoveri analizzati.

Pur presentando rischi relativi rispetto alla media identici (rischio relativo aggiustato pari a 0,46), la

Casa di cura S. Lucia non raggiunge la significatività statistica (p>0,05) a causa del limitato numero

di osservazioni (58 ricoveri analizzati nel 2015) mentre l’Azienda Ospedaliera Villa Sofia (261

ricoveri analizzati nel 2015) presenta un valore della p (0,020) che indica una mortalità

significativamente inferiore rispetto alla media nazionale.

33

4.3. GLI INTERVALLI DI CONFIDENZA

Oltre ai test statistici sui rischi relativi, è possibile calcolare per ciascuna misura di associazione un

intervallo di valori tale da essere confidente, a un determinato livello di probabilità, che esso

includa il valore reale del rischio relativo.

Ipotizziamo di avere stimato per una data struttura ospedaliera un rischio relativo, rispetto alla

media nazionale, pari a 1,95 e di avere calcolato attorno a esso l’intervallo di confidenza al 95%

compreso tra 1,08 e 3,33.

Cosa significa? Siamo confidenti al 95% che questo intervallo (da 1,08 a 3,33) comprenda il

valore reale del rischio relativo, ovvero il valore che avremmo osservato per quella struttura

all’aumentare indefinito del numero delle prove (i ricoveri analizzati). L’ampiezza

dell’intervallo di confidenza fornisce, pertanto, un’indicazione sulla precisione della stima.

Ipotizziamo adesso di avere confrontato tra loro due strutture ospedaliere e di avere ottenuto un

rischio relativo pari a 2,00. In tabella 10 vengono proposti tre scenari in cui il rischio relativo

appena ottenuto viene calcolato a partire da diverse numerosità campionarie.

Tabella 10. Ampiezza dell’intervallo e numerosità campionaria

Rischio relativo Numerosità

campionaria* Livello di confidenza

Intervallo di

confidenza

2,00 100 95% 0,74-5,43

2,00 200 95% 0,99-4,05

2,00 400 95% 1,21-3,30

* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B)

Dall’osservazione dei risultati emerge che l’ampiezza dell’intervallo di confidenza diminuisce

all’aumentare della numerosità campionaria, a indicare una maggiore precisione della stima del

rischio relativo.

34

Analizziamo, adesso, la relazione tra ampiezza dell’intervallo e livello di confidenza. I risultati sono

presentati in tabella 11.

Tabella 11. Ampiezza dell’intervallo e livello di confidenza

Rischio relativo Numerosità

campionaria* Livello di confidenza

Intervallo di

confidenza

2,00 400 90% 1,31-3,04

2,00 400 95% 1,21-3,30

2,00 400 99% 1,04-3,86

* equamente distribuita tra esposti (Ospedale A) e non esposti (Ospedale B).

Dall’osservazione dei risultati presentati nella tabella emerge che l’ampiezza dell’intervallo

aumenta all’aumentare del livello di confidenza. Infatti, a parità di numerosità campionaria,

l’unico modo che abbiamo per incrementare il livello di confidenza è quello di aumentare

l’ampiezza dell’intervallo, che essendo più ampio avrà una maggiore probabilità di comprendere il

valore reale del rischio relativo.

4.3.1. AMPIEZZA DELL’INTERVALLO E TEST STATISTICI

Si supponga nuovamente di avere calcolato un rischio relativo pari a 2,00 per confrontare gli esiti

tra due strutture ospedaliere, di avere effettuato un test statistico e di avere ottenuto un valore di p

pari a 0,161. Questo valore è maggiore della soglia convenzionale di 0,05, pertanto, la nostra misura

di associazione è statisticamente non significativa. Si supponga inoltre che per questo rischio

relativo pari a 2,00 sia stato calcolato anche l’intervallo di confidenza al 95%.

Ebbene, esiste una relazione che lega l’ampiezza dell’intervallo di confidenza al risultato del test.

Infatti, se l’intervallo di confidenza al 95% comprende il valore 1,00, per esempio l’intervallo tra

0,74 e 5,43, allora il corrispondente test statistico non è significativo (p>0,05) e non è possibile

escludere con sufficiente evidenza empirica che le differenze osservate tra le due strutture siano da

attribuire all’effetto del caso.

Il valore 1,00 riveste una particolare importanza in questa valutazione perché, come descritto nel

paragrafo 2.7.2, esprime l’indipendenza tra l’esposizione e l’esito, ovvero la totale assenza di

qualsiasi effetto.

Tornando all’esempio, l’intervallo di confidenza tra 1,21 e 3,30 non sarebbe compatibile con il

risultato del test. Infatti il valore della p era maggiore di 0,05 ma l’intervallo di confidenza non

comprende il valore 1,00.

35

BIBLIOGRAFIA PER EVENTUALI APPROFONDIMENTI

1. Agabiti N, Davoli M, Fusco D, et al. Comparative evaluation of health services outcomes.

Epidemiol Prev 2011;35:1-80. http://www.ncbi.nlm.nih.gov/pubmed/21628766

2. Amato L, Colais P, Davoli M, et al. Volume and health outcomes: evidence from Systematic

Reviews and from evaluation of Italian hospital data. Epidemiol Prev 2013;37:1-100.


3. Larsen K, Merlo J. Appropriate Assessment of Neighborhood Effects on Individual Health:

Integrating Random and Fixed Effects in Multilevel Logistic Regression. American Journal of

Epidemiology 2005; 161: 81-88.

4. D’Agostino R. Propensity score methods for bias reduction in the comparison of a treatment to a

non-randomized control group. Statistics in Medicine 1998;17:2265-81.


5. Rosenbaum P, Rubin D. The central role of the propensity score in observational studies for

causal effects. Biometrika 1983;70:41-5.


6. Rothman K, Greenland S. Modern epidemiology. 2a edizione. Lippincott Williams & Wilkins,

Philadelphia 1998.





Elementi di epidemiologia per la valutazione comparativa di esito · Elementi di epidemiologia per...

Documents

Transcript of Elementi di epidemiologia per la valutazione comparativa di esito · Elementi di epidemiologia per...