Repaso de Epidemiologia y Bioestadistica

30
Universidad de Navarra Dpto. M. Preventiva y Salud Pública " REPASO DE EPIDEMIOLOGÍA Y BIOESTADÍSTICA 1. PRUEBAS DIAGNÓSTICAS (adaptado de capítulo 8 del compendio de salud pública) INTRODUCCIÓN Aunque habitualmente se hace de forma no consciente, el médico clínico procura orientar su interrogatorio y las pruebas diagnósticas de forma que aporten información sobre la probabilidad de que el paciente tenga o no cierta enfermedad; si al aplicar la prueba, la probabilidad de tener la enfermedad es muy elevada, se produce el diagnóstico; si la probabilidad resulta muy baja, se descarta el diagnóstico. Si el resultado de una prueba no modifica la probabilidad de enfermedad, entonces la prueba era innecesaria. En la evaluación de pruebas diagnósticas hay que considerar dos pasos: (a) reproducibilidad y (b) validez. REPRODUCIBILIDAD Una prueba es reproducible si al repetirla por el mismo observador (reproducibilidad intra-observador) o por distinto (reproducibilidad entre observadores) se obtiene el mismo resultado. Aunque se suele dar menos importancia a la reproducibilidad, lo cierto es que una prueba no puede ser válida si no es reproducible. Para estudiar la reproducibilidad de una prueba dicotómica, se organizan los datos como en la tabla siguiente. El índice más utilizado es el kappa (1): Reproducibilidad en una prueba dicotómica Observador 2 + - Total Observador 1 + n11 n12 n1+ - n21 n22 n2+ Total n+1 n+2 n En el ejemplo del cálculo de kappa, puede comprobar que, a partir de la tabla observada se calcula Po A continuación, se construye la tabla esperada al azar: cada casilla se obtiene multiplicando el total de la fila por el total de la columna y dividiendo ese producto entre el total de los totales participantes (por ejemplo, los esperados para n11 serían 60x70/300=14). A partir de esta nueva tabla de esperados se calcula Pe: 1 o e e P P P ! " = " Donde Po es el grado de acuerdo observado: 11 22 o n n P n + = Y Pe el grado de acuerdo esperado al azar: 1 1 2 2 / / e n n n n n n P n + + + + ! + ! = Ejemplo: 2 observadores (Obs1 y Obs2) valoran a 300 pacientes. en negrita Po (observada) Obs2 Total + - Obs1 + 40 30 70 - 20 210 230 Total 60 240 300 Po= (40+210)/300 =0,83 Pe= (14+184)/300 =0,66 en negrita Pe (esperada) Obs2 Total + - Obs1 + 14 56 70 - 46 184 230 Total 60 240 300 kappa = (0,83-0,66)/(1-0,66) = 0,5 Universidad de Navarra Dpto. M. Preventiva y Salud Pública # Finalmente, se calcula kappa: Índice kappa de reproducibilidad de una prueba dicotómica. La interpretación de kappa es sencilla: valores próximos a 1 indican alta reproducibilidad; valores próximos a 0 indican baja reproducibilidad. En la aplicación práctica de kappa pueden surgir dos inconvenientes (2,3): (a) paradoja del sesgo: si uno de los observadores tiene mayor tendencia a diagnosticar la enfermedad que el otro, entonces kappa tiende a ser bajo. (b) Paradoja de la prevalencia: kappa es más elevado en las poblaciones en que el porcentaje de resultados positivos es más alto. Por ejemplo, la reproducibilidad entre especialistas suele ser mayor que entre médicos generales, porque en la consulta general la frecuencia de la enfermedad es menor. Otros índices de reproducibilidad de pruebas dicotómicas son los grados de acuerdo positivo, negativo y total (Po), aunque se recomienda utilizarlos siempre acompañados del kappa (4,5). Cuando la prueba diagnóstica tiene más de dos niveles, es posible calcular el índice kappa ponderado (6,7). Para la reproducibilidad de pruebas continuas (determinación de glucemia, por ejemplo), es incorrecto utilizar el coeficiente de correlación lineal o la prueba t de Student; lo adecuado es emplear el método de Bland y Altman (8) el coeficiente de correlación intraclase (9,10) o el gráfico de acuerdo mediante supervivencia (survival agreement plot) (11,12). 5 0 66 0 1 66 0 83 0 1 , , , , = ! ! = ! ! = e e o P P P " NO EXPLICADO POR EL AZAR $%&'()*+$ EXPLICADO POR EL AZAR ,- ,- "./, 00 34 3 17, = kappa 1 5 0 34 3 17 66 100 66 3 83 azar por esperada - máxima ia concordanc azar por esperada - observada ia concordanc , , , = = ! ! = = kappa

Transcript of Repaso de Epidemiologia y Bioestadistica

Page 1: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "!

REPASO DE EPIDEMIOLOGÍA Y BIOESTADÍSTICA

1. PRUEBAS DIAGNÓSTICAS (adaptado de capítulo 8 del compendio de salud pública)

INTRODUCCIÓN

Aunque habitualmente se hace de forma no consciente, el médico clínico procura orientar su interrogatorio y las pruebas diagnósticas de forma que aporten información sobre la probabilidad de que el paciente tenga o no cierta enfermedad; si al aplicar la prueba, la probabilidad de tener la enfermedad es muy elevada, se produce el diagnóstico; si la probabilidad resulta muy baja, se descarta el diagnóstico. Si el resultado de una prueba no modifica la probabilidad de enfermedad, entonces la prueba era innecesaria.

En la evaluación de pruebas diagnósticas hay que considerar dos pasos: (a) reproducibilidad y (b) validez.

REPRODUCIBILIDAD Una prueba es reproducible si al repetirla por el mismo observador

(reproducibilidad intra-observador) o por distinto (reproducibilidad entre observadores) se obtiene el mismo resultado. Aunque se suele dar menos importancia a la reproducibilidad, lo cierto es que una prueba no puede ser válida si no es reproducible.

Para estudiar la reproducibilidad de una prueba dicotómica, se organizan los datos como en la tabla siguiente. El índice más utilizado es el kappa (1):

Reproducibilidad en una prueba dicotómica Observador 2 + - Total

Observador 1 + n11 n12 n1+ - n21 n22 n2+

Total n+1 n+2 n En el ejemplo del cálculo de kappa, puede comprobar que, a partir de la tabla

observada se calcula Po A continuación, se construye la tabla esperada al azar: cada casilla se obtiene

multiplicando el total de la fila por el total de la columna y dividiendo ese producto entre el total de los totales participantes (por ejemplo, los esperados para n11 serían 60x70/300=14). A partir de esta nueva tabla de esperados se calcula Pe:

1o e

e

P PP

!"

="

Donde Po es el grado de acuerdo observado:

11 22on n

Pn+

=

Y Pe el grado de acuerdo esperado al azar:

1 1 2 2/ /en n n n n nP

n+ + + +! + !

= !

Ejemplo: 2 observadores (Obs1 y Obs2) valoran a 300 pacientes. en negrita Po (observada)

Obs2 Total + -

Obs1 + 40 30 70 - 20 210 230

Total 60 240 300 Po= (40+210)/300 =0,83 Pe= (14+184)/300 =0,66

en negrita Pe (esperada)

Obs2 Total + -

Obs1 + 14 56 70 - 46 184 230

Total 60 240 300

kappa = (0,83-0,66)/(1-0,66) = 0,5

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #!

Finalmente, se calcula kappa:

Índice kappa de reproducibilidad de una prueba dicotómica. La interpretación de kappa es sencilla: valores próximos a 1 indican alta

reproducibilidad; valores próximos a 0 indican baja reproducibilidad. En la aplicación práctica de kappa pueden surgir dos inconvenientes (2,3): (a)

paradoja del sesgo: si uno de los observadores tiene mayor tendencia a diagnosticar la enfermedad que el otro, entonces kappa tiende a ser bajo. (b) Paradoja de la prevalencia: kappa es más elevado en las poblaciones en que el porcentaje de resultados positivos es más alto. Por ejemplo, la reproducibilidad entre especialistas suele ser mayor que entre médicos generales, porque en la consulta general la frecuencia de la enfermedad es menor.

Otros índices de reproducibilidad de pruebas dicotómicas son los grados de acuerdo positivo, negativo y total (Po), aunque se recomienda utilizarlos siempre acompañados del kappa (4,5).

Cuando la prueba diagnóstica tiene más de dos niveles, es posible calcular el índice kappa ponderado (6,7).

Para la reproducibilidad de pruebas continuas (determinación de glucemia, por ejemplo), es incorrecto utilizar el coeficiente de correlación lineal o la prueba t de Student; lo adecuado es emplear

• el método de Bland y Altman (8) • el coeficiente de correlación intraclase (9,10) • o el gráfico de acuerdo mediante supervivencia (survival agreement plot)

(11,12).

506601660830

1,

,,,

=!!

=!!

=e

eo

PPP

"

NO EXPLICADO POR EL AZAR

$%&'()*+$!

EXPLICADO POR EL AZAR

,-!

,-!"./,!

00!

! !!

34317,

=kappa ! 1!

5034

3176610066383

azarpor esperada - máxima iaconcordancazarpor esperada - observada iaconcordanc ,,,

==!!

==kappa

Page 2: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,!

VALIDEZ INTERNA: SENSIBILIDAD Y ESPECIFICIDAD Una prueba perfecta permitiría diferenciar siempre entre los enfermos y los sanos;

su resultado sería positivo en todos los enfermos y negativo en todos los sanos. Para validar una prueba, lo que se hace es compararla con una prueba perfecta,

a la que denominamos "criterio de verdad" o "gold standard" (en la práctica, la prueba perfecta no existe y es necesario utilizar criterios de verdad imperfectos; la forma de hacerlo está más allá de los objetivos de este libro).

Validez de una prueba dicotómica

Criterio de verdad Enfermo (

) No enfermo

(nD) Prueba + a1=VP b1=FP

- a0=FN b0=VN VP: verdaderos positivos; FP: falsos positivos; FN: falsos negativos; VN: verdaderos negativos

En la tabla anterior se presenta la forma de organizar los datos para medir la

validez de una prueba diagnóstica (13,14). Sobre esta tabla se definen dos índices: ! La sensibilidad es la capacidad de la prueba para clasificar correctamente

(resultado +) a los enfermos. Observe que en el cálculo de la sensibilidad sólo se tienen en cuenta los enfermos.

! La especificidad es la capacidad de la prueba para clasificar correctamente (resultado -) a los no enfermos. Observe que en el cálculo de la especificidad sólo se tienen en cuenta los no enfermos.

Especificidad (E ) = P (! | nD ) = VNVN + FP

Validez de una prueba dicotómica. Ejemplo

Hipocalcemia Sí No

PTH <10 ng/L 180 32 !10 ng/L 20 168

Ejemplo: Sywak (15) estudió si la determinación de la PTH 4 horas después de la

tiroidectomía permitía identificar los pacientes que desarrollarían hipocalcemia; en la tabla anterior se presentan los datos (modificados) de pacientes con y sin hipocalcemia que presentaron resultado positivo (PTH<10 ng/L) o negativo.

Con estos datos, y .

VALIDEZ EXTERNA: VALORES PREDICTIVOS

La sensibilidad sirve para responder a la pregunta: si un paciente tiene hipocalcemia, ¿qué probabilidad hay de que previamente tuviera PTH baja? Análogamente, la especificidad permite responder a: si un paciente no tiene hipocalcemia, ¿qué probabilidad hay de que tuviera PTH normal? Ambas preguntas son inútiles en la clínica, donde lo importante es predecir la hipocalcemia utilizando los valores de PTH.

Por eso, se desarrollan dos nuevos indicadores: los valores predictivos (7,10,16). El valor predictivo positivo (VPP) indica la probabilidad de que un paciente con un

D

( ) ( | ) VPSensibilidad S P DVP FN

= + =+

180 0,9180 20

S = =+

168 0,84168 32

E = =+

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -!

resultado positivo tenga la enfermedad. Para su cálculo se empleas las fórmulas siguientes:

VP= verdaderos positivos T+ =total de tests positivos

En la tabla, bastaría dividir 180 (VP) entre 180+32 (total T+). VP = 180/(180+32) = 0,849. Lo más sencillo es hacer una tabla y calcularlo desde la tabla. De forma análoga, se define el valor predictivo negativo (VPN) como la

probabilidad de que un paciente con resultado negativo no tenga la enfermedad:

VN = verdaderos negativos T- =total de tests negativos

VPP = 168 / (168+20) = 0,894 Ejemplo: basándose en su historia previa, el médico estima que un paciente tiene

una probabilidad de 0,3 de desarrollar hipocalcemia. Realiza la determinación de PTH y encuentra 8 ng/L (un resultado positivo). ¿Cuál es ahora la probabilidad de hipocalcemia?

Lo más sencillo es inventar un total redondeado a una cifra alta y aplicar las probabilidades para crear una tabla. Primero se aplica la prevalencia (0,3):

Sí No Total

PTH <10 ng/L !10 ng/L 3000 7000 10000

Despúes se aplican sensibilidad y especificidad (0,9x3000) y (0,84x7000):

Sí No Total PTH <10 ng/L 2700 1120

!10 ng/L 300 5880 3000 7000 10000

El VPP = 2700 / (2700+1120) = 0,71 El VPN = 5880 / (5880+300) = 0,95 Los modos de calcular VPP y VPN muestran que los valores predictivos

dependen de la probabilidad a priori de tener la enfermedad; cuando aumenta esta probabilidad, aumenta el VPP y disminuye el VPN. Esto da lugar a que la misma prueba diagnóstica tenga distinta validez al aplicarla en diferentes poblaciones (17). Por ejemplo, un resultado positivo será más creíble: ! En poblaciones con alta prevalencia de la enfermedad. Por ejemplo, el uso de

mamografía para diagnóstico precoz del cáncer de mama tendrá mayor VPP en EE. UU. (donde esta enfermedad es más frecuente) que en España.

! Las pruebas diagnósticas tienen distinta validez a unas edades que a otras. Siguiendo con el ejemplo de la mamografía, como el cáncer de mama es más frecuente entre 50 y 59 años que entre 40 y 49, el VPP será también más alto.

+=TVPVPP

!=TVNVPP

Page 3: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2!

Ejemplos parecidos se pueden poner para mostrar la diferencia de VPP si la prevalencia de enfermedad varía entre sexos, razas, profesiones,...

! Una prueba diagnóstica tiene mayor VPP en la consulta / planta del especialista correspondiente que en la del médico de Atención Primaria. Por ejemplo, si a la consulta oncología se derivan los pacientes con mayor probabilidad de tener un cáncer de colon, la prueba diagnóstica que se utilice encontrará mayor prevalencia de esta enfermedad y, por lo tanto, tendrá mayor VPP.

! La misma prueba diagnóstica tiene mayor VPP cuando se aplica para el diagnóstico clínico (en pacientes en los que se sospecha que pueden tener la enfermedad) que cuando se usa para el diagnóstico precoz (en pacientes aparentemente sanos).

! En pacientes en los que el diagnóstico se ha orientado mediante una buena historia y exploración que en pacientes en los que la prueba se hace "por si acaso".

! Una situación típica en la clínica: durante el proceso de atención a un paciente, el MIR-2 de Familia encuentra un resultado de laboratorio alarmante que parece contradecir el buen estado y la historia del paciente. Cuando consulta con el adjunto, éste le dice: “Si la clínica dice una cosa y el laboratorio otra, lo que manda es la clínica”. ¿Qué subyace detrás de esta regla empírica? La situación del paciente indica baja probabilidad de tener la enfermedad; por lo tanto, el VPP del resultado de laboratorio será bajo. En las mismas situaciones indicadas antes, el VPN será menos fiable porque,

como ya se ha dicho, disminuye al aumentar la probabilidad a priori.

RAZONES DE VEROSIMILITUD (RV) Las razones de verosimilitud1 positiva (RV+) y negativa (RV-) son dos índices muy

útiles sobre la validez de una prueba diagnóstica que permiten relacionar la probabilidad a priori de enfermedad ( ) con la probabilidad a posteriori (valores predictivos).

La RV+ es la más utilizada y expresa cuántas veces es más probable que la prueba diagnóstica sea positiva en los enfermos que en los sanos.

RV+ = p(T+ |D)p(T+ | nD)

Por ejemplo, si una prueba diagnóstica resulta positiva en el 95% de los enfermos

y sólo da erróneamente un falso positivo en el 5% de los no enfermos, su RV+ = 0,95/0,05 = 19 y se interpreta que es 19 veces más probable que el test sea positivo en enfermos que que lo sea en sanos.

Por tanto, la RV+ se obtiene también dividiendo la sensibilidad entre el complementario de la especificidad (observe que se utilizan sólo las casillas con resultados positivos). Para disponer de una buena prueba diagnóstica, lo que interesa es que la RV+ sea mayor que 1, y cuanto mayor, mejor prueba. Aplicado al ejemplo de la PTH e hipocalcemia, se obtiene:

La RV- se obtiene dividiendo el complementario de la sensibilidad entre la especificidad (observe que se utilizan sólo las casillas con resultados negativos). Para

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1 Likelihood ratio en ingles.!

( )P D

0,9 5,6251 0,16SRVE

+ = = =!

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 0!

disponer de una buena prueba diagnóstica, interesa que RV- sea menor que 1, y cuanto menor, mejor prueba. Aplicado al ejemplo de la PTH:

RELACIÓN ENTRE RAZONES DE VEROSIMILITUD Y VALORES PREDICTIVOS

Si 80 de cada 100 enfermos dan un resultado positivo, entonces la sesnsibilidad es del 80%. Los 80 (verdaderos positivos) aparecerán tanto en el numerador como en el denominador. Esto sucede porque la sensibilidad es una proporción y todas las proporciones y probabilidades (S, E, VPP, VPN) incluyen el numerador en su denominador.

En cambio las odds dividen los que tienen una característica entre quienes no la tienen y así excluyen el numerador del denominador. Decir que la odds de mujeres:varones es 1, es lo mismo que decir que el 50% son mujeres. En el ejemplo anterior de la sensibilidad del 80%, podría decirse que su odds es 4 (80/20).

También puede decirse que una odds es una probabilidad dividida por su complementario:

odds = p1! p

Por ejemplo, si la prevalencia de una enfermedad fuese del 30%, la odds de esa prevalencia (que luego llamaremos oddspretest) sería 0,3/0,7 = 0,43 A partir de una odds, se vuelve a obtener la probabilidad con la siguiente fórmula:

p = odds1!odds

Si sabemos que la odds de prevalencia de una enfermedad es 0,43, su

prevalencia será 0,43/1,43 = 0,3. Son dos modos de expresar lo mismo. Cuando la probabilidad es muy pequeña la

odds casi coincide con la probabilidad. Usando odds en vez de probabilidades hay una fórmula simple y muy interesante

para relacionar la razón de verosimilitud positiva con la prevalencia (que dará la odds previa) y el valores predictivo positivo (que dará la odds posterior). Se denomina odds previa a la odds de la prevalencia y odds posterior a la del VPP. Se cumple que

Esta fórmula es importante pues transmite de algún modo el planteamiento

bayesiano. El planteamiento bayesiano, de modo general, exige matizar un hallazgo a la luz de unos supuestos o creencias previas, en este caso la creencia previa es la estimación de la prevalencia de la enfermedad en la población. Ver el apartado sobre Factor Bayes en pág. 34-35 que repite de algún modo estas ideas.

La odds previa es la información basal de tipo general que se tiene antes de recoger ningún dato específico del caso que se está estudiando. La odds posterior, en cambio, es la que se obtiene despúes de que la prueba diagnóstica ya haya dado un resultado positivo e integra el conocimiento nuevo (cociente entre sensibilidad y 1-especificidad) con la odds previa para proporcionar una nueva odds.

Volviendo al ejemplo inicial: basándose en su historia previa, el médico estima que un paciente tiene una probabilidad de 0,3 de desarrollar hipocalcemia. Realiza la determinación de PTH y encuentra 8 ng/L (un resultado positivo). ¿Cuál es ahora la probabilidad de hipocalcemia?

• Creencia previa sobre la prevalencia: 0,3 ! odds previa = 0,3/0,7 = 0,43 • RV+ = p(T+ | D) / p(T+ | nD) = S / (1-E) = 0,9 / 0,16 = 5,625

1 0,1 0,1190,84

SRVE!

! = = =

+!= RVODDSODDS prepost

Page 4: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! .!

• Fórmula: oddspost = oddspre x RV+ = 0,43 x 5,625 = 2,42 • Transformación de oddspost en VPP = 2,42 / (1+2,42) = 0,71

El lector puede contestar por su cuenta a la siguiente pregunta Una prueba de laboratorio aparece alterada en 8 de cada 10 individuos que

padecen una determinada enfermedad crónica mientras se obtienen valores normales en 8 de cada 10 individuos que no sufren dicha enfermedad. Si se aplica la prueba a una población de 100 individuos de los cuales 20 sufren la enfermedad ¿cuál será el valor predictivo positivo de la prueba?

La respuesta correcta debe ser VPP= 50%. Cuanto mayor sea la RV+, mayor será el VPP. Si la RV+ es 1, la prueba no

aporta ninguna ganancia, pues el VPP será igual a la prevalencia. Una RV+=1 es nula. Si la RV+ fuese inferior a 1, habría que intepretar la prueba al revés.

También si RV-=1 se obtiene que la probabilidad tras el resultado negativo es la misma que sin realizar la prueba: la prueba es inútil.

Se ha propuesto (hasta ahora sin éxito) cambiar la expresión de la RV- (18,19).

VALIDEZ DE PRUEBAS CON MÁS DE DOS CATEGORÍAS En ocasiones, se dispone de pruebas que clasifican a los pacientes en más de

dos categorías. La tabla inferior muestra el ejemplo de PTH e hipocalcemia, clasificando el resultado de la PTH en cuatro categorías. Las columnas de hipocalcemia = Sí/No presentan la distribución de los pacientes con hipocalcemia en porcentaje (es decir, el 71% de los pacientes hipocalcémicos y el 6% de los pacientes normocalcémicos tuvieron PTH < 3 ng/L).

Validez de una prueba con más de dos categorías. Se presentan porcentajes sobre el total de enfermos y total de sanos.

Hipocalcemia RV+ Sí No

PTH (ng/L) <3 71 6 11,8 3-10 19 10 1,9

10-20 5 16 0,313 >20 5 68 0,074 Total 100% 100%

En estas pruebas con más de dos categorías, es muy sencillo generalizar el concepto de razón de verosimilitud. Por ejemplo, para conocer la razón de verosimilitud de un resultado con PTH<3, basta con dividir los porcentajes de pacientes con y sin hipocalcemia que tienen ese nivel de PTH:

Las razones de verosimilitud aparecen calculadas en la última columna de la tabla. Con esos valores, puede calcularse la probabilidad de hipocalcemia de cualquier paciente, en función del nivel de la PTH, utilizando una fórmula similar a la que se acaba de ver para los valores predictivos. VALIDEZ DE PRUEBAS CONTINUAS: CURVA ROC

En los apartados anteriores se ha considerado el diagnóstico basado en tests que dan una respuesta dicotómica (positivo o negativo). Sin embargo, muchas pruebas diagnósticas son cuantitativas (por ejemplo, glucemia, hemoglobinemia, tensión arterial sistólica, fracción de eyección ventricular,!). Para convertir estas pruebas en dicotómicas es necesario determinar un punto de corte a partir del cual se considerará que los resultados son positivos; la decisión sobre el punto de corte adecuado no es automática y uno de los instrumentos útiles para tomarla es la curva ROC, aunque se deben tener en cuenta otros aspectos (20-23). Las curvas ROC se desarrollaron en la década de los 50 del siglo pasado para evaluar la señal de radar. El nombre original

371 11,86PTHRV < = =

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 3!

de la curva es Receiver Operating Characteristic; es un término procedente del radar y no tiene aplicación a la medicina, por lo que no tiene sentido traducirla.

La curva ROC se construye situando el complementario de la especificidad (1-E) en abscisas (eje horizontal) y la sensibilidad en ordenadas (eje vertical). A continuación, se representan los diferentes puntos de corte y se unen por una línea. La figura siguiente presenta la curva ROC del ejemplo sobre hipocalcemia y PTH, tomando la PTH como variable continua.

Curva ROC sobre la validez del valor de PTH a las 4 horas de la tiroidectomía

para detectar hipocalcemia (15). ELECCIÓN DEL PUNTO DE CORTE

El punto de corte ideal es S = 1, 1-E = 0, que coincide con el ángulo superior izquierdo de la figura; por lo tanto, una buena aproximación a la elección de punto de corte es elegir el más próximo a dicho ángulo.

Otra idea interesante para elegir el punto de corte es encontrar el punto de máxima curvatura de la curva ROC. En la figura, la máxima curvatura se alcanza en el punto marcado con un 1; puede observarse que desde ese punto, aumentar ligeramente la sensibilidad (desplazándose hacia el punto marcado con un 3) produce un gran descenso en la especificidad, y -al contrario- aumentar ligeramente la especificidad (desplazándose hacia el punto marcado con un 2) produce un gran descenso en la sensibilidad.

La elección del punto de corte no depende sólo de su cercanía al ángulo superior izquierdo: según la enfermedad y el uso que se pretenda dar a la prueba, se puede preferir una prueba más sensible y menos específica (o al revés), o puede ser necesario tener en cuenta el coste de la prueba y los tratamientos. ÁREA BAJO LA CURVA

El área bajo la curva ROC es una buena medida de la validez general de una prueba diagnóstica. Una prueba que discrimine perfectamente entre los dos grupos (enfermos y sanos) dará una curva que coincide con los lados izquierdo y superior de la figura. La figura completa es un cuadrado de lado 1, por lo que el área máxima bajo la curva será 1, que se alcanzará cuando la curva ROC recorra el eje de ordenadas hasta el punto (1, 0) y, a continuación, el eje horizontal superior hasta el punto (1, 1). Cuanto mayor sea el área bajo la curva, mejor es la prueba diagnóstica. Una prueba completamente inútil será una línea recta que vaya desde el ángulo inferior izquierdo al ángulo superior derecho. Esta prueba (la peor prueba posible) es la que tiene área bajo la curva = 0,5. ¿Qué ocurre si una curva tiene área menor de 0.5? Simplemente, que se están interpretando mal los valores de la prueba y lo que hay que hacer es invertir la terminología: lo que se ha llamado positivo pasa a ser negativo y viceversa; con eso el área bajo la curva pasará a ser mayor de 0,5.

El área bajo la curva tiene una interpretación probabilista: si se escogen al azar un paciente hipocalcémico y uno normocalcémico, el área bajo la curva indica la probabilidad de que el hipocalcémico presente una PTH menor que el normocalcémico. Si la PTH fuera una prueba perfecta (área bajo la curva = 1), todos los hipocalcémicos tendrían valores más bajos que los normocalcémicos (por lo tanto,

"!

#!

,!

Page 5: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 4!

la prueba discriminaría perfectamente entre ambos grupos). Si la PTH fuera una prueba inútil (área bajo la curva = 0,5), la probabilidad de que un hipocalcémico tuviera PTH más baja que un normocalcémico sería igual a 0,5; esto daría a la prueba diagnóstica la misma validez que arrojar una moneda al aire. CALIBRACIÓN Y DISCRIMINACIÓN

Los conceptos de calibración y discriminación en pruebas diagnósticas son diferentes. ! La calibración se refiere a la capacidad de predecir correctamente la proporción de personas dentro

de cada subgrupo que padecerán la enfermedad (ej. habrá más eventos en un grupo de pacientes de mayor riesgo). Por ejemplo, si una prueba diagnóstica o un modelo multivariable clasifica a los pacientes en 3 grupos con riesgos predichos del 5%, 10% y 15%, se considerará que la calibración es buena si al aplicar la clasificación a un grupo externo al que generó estas predicciones, las incidencias reales de eventos observados están próximas al 5%, 10% y 15%. La calibración se demuestra presentando las tasas de eventos observados versus esperados para cada grupo de riesgo predicho.

! La discriminación se refiere en cambio a la probabilidad que tiene una prueba diagnóstica o instrumento de predicción para distinguir entre dos pacientes, uno con alto y otro con bajo riesgo. P. ej., al atender a 2 pacientes al azar, en los que 1 de ellos posteriormente desarrollará un evento clínico, la prueba discriminará bien si predice correctamente cuál de los dos tiene mayor riesgo de padecer el evento. Matematicamente esto se describe mediante el área bajo la curva ROC (también se le llama índice C o estadístico C y se puede calcular mediante la U de Mann Whitney dividiendo la U mayor de las dos que se obtengan entre el total de comparaciones (n1 x n2)). El área bajo la curva ROC define la probabilidad de que una persona seleccionada al azar del grupo de pacientes tenga un valor más alto en la prueba que una persona tomada al azar del grupo no afectado.

REFERENCIAS (1) Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960;20:37-46. (2) Feinstein AR, Cicchetti DV. High agreement but low kappa: The problems of two paradoxes. J Clin Epidemiol

1990;43:543-9. (3) Cicchetti DV, Feinstein AR. High agreement but low kappa: Resolving the paradoxes. J Clin Epidemiol 1990;43:551-8. (4) Kraemer HC, Bloch DA. Kappa coefficients in epidemiology: an appraisal of a reappraisal. J Clin Epidemiol 1988;41:959-

68. (5) Maclure M, Willett WC. Misinterpretation and misuse of the kappa statistic. Am J Epidemiol 1987;126:161-9. (6) Cohen J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychol Bull

1968;70:213-20. (7) Delgado-Rodríguez M, et al. Estudio de las pruebas diagnósticas. En: Sierra-López A et al: Piédrola Gil - Medicina

Preventiva y Salud Pública. 11ª ed, Barcelona: Elsevier; 2008;173-84. (8) Bland JM,Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement.

Lancet 1986;1(8476):307-10. (9) Prieto L, Lamarca R, Casado A. La evaluación de la fiabilidad en las observaciones clínicas: el coeficiente de correlación

intraclase. Med Clin (Barc.) 1998;110:142-5. (10) Sánchez-Villegas A, Martínez-González MA, Palma S. Análisis de la concordancia. En: Martínez-González MA,

Sánchez-Villegas A, Faulín Fajardo FJ (eds.). Bioestadística amigable. 2ª ed. Madrid: Díaz de Santos, 2006;821-50. (11) Luiz RR, Costa AJ, Kale PL, Werneck GL. Assessment of agreement of a quantitative variable: a new graphical

approach. J Clin Epidemiol 2003;53:963-7. (12) Llorca J, Delgado-Rodríguez M. Survival analytical techniques were used to assess agreement of a quantitative variable.

J Clin Epidemiol 2005;58:314-5. (13) Altman DG, Bland JM. Diagnostic test 1: sensitivity and specificity. BMJ 1994;308:1552. (14) Gilbert R et al. Assessing diagnostic and screening tests: Part 1. Concepts. West J Med 2001;174:405-9. (15) Sywak MS, Palazzo FF, Yeh M, et al. Parathyroid hormone predicts hypocalcaemia after total thyroidectomy. ANZ J

Surg 2007;77:667-70. (16) Altman DG, Bland JM. Diagnostic tests 2: Predictive values. BMJ. 1994;309:102. (17) Brenner H, Gefeller O. Variation of sensitivity, specificity, likelihood ratios and predictive values with disease prevalence.

Stat Med 1997;16:981-91. (18) Delgado-Rodríguez M, Almaraz A, Fariñas-Alvarez C. Should the definition for the negative likelihood ratio be changed?

J Clin Epidemiol. 1997;50:641-2; discussion 643-4. (19) Delgado-Rodríguez M, Almaraz A, Fariñas-Alvarez C. Should the definition for the negative likelihood ratio be changed?

J Clin Epidemiol. 1997;50:639-40. (20) Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic curve. Radiology

1982;143:29-36. (21) Hanley JA, McNeil BJ. A method of comparing the area under two ROC curves derived from the same cases. Radiology

1983;148:839-43. (22) Zweig MH , Campbell G. Receiver-Operating Characteristic (ROC) Plots: A Fundamental Evaluation Tool in Clinical

Medicine. Clin Chem 1993;39:561-577. (23) Altman DG, Bland JM. Diagnostic tests 3: receiver operating characteristic plots. BMJ 1994;309:188.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "5!

2. CAUSALIDAD EN EPIDEMIOLOGÍA MODELO CAUSAL DE ROTHMAN (MODELO DETERMINISTA MODIFICADO)

La creencia de que una enfermedad tiene una sola causa, y que cada posible causa origina una sola enfermedad es falsa, pero consciente o inconscientemente está arraigada en nuestra mente. Aun cuando se admita la multicausalidad, también está arraigada la creencia de que al sumar el porcentaje de casos de enfermedad atribuibles a cada factor, al final se llegará a una suma del 100%. Esto no es así.

Obsérvese la siguiente tabla (tasas de un cáncer por 100.000 habitantes-año) No fuma Fuma Abstemios 10 40 Beben alcohol 30 120

Podría decirse que el tabaco multiplica por 4 las tasas y en cambio, el alcohol lo multiplica por 3. Esto es cierto según la tabla. No habría ni sinergia ni antagonismo, sino simplemente una multiplicación de efectos en los expuestos a ambos factores. Se puede afirmar que de los 120 casos por 100.000 observados en bebedores y fumadores:

• se habrían evitado 90 si nadie en esa población fumase (120-30=90). • se habrían evitado 80 si todos en esa población fuesen abstemios (120-40=80).

Por lo tanto, de esos 120 casos, el 75% (90/120) se deben al tabaco y el 67% (80/120) se deben al alcohol. La suma de ambos porcentajes es superior al 100%.

¿Cómo puede ser esto? El modelo determinista modificado de Rothman resuelve ésta y otras perplejidades al incorporar

conceptos deterministas y multicausales2. Se define: ! Causa suficiente: mecanismo multicausal compuesto por el conjunto mínimo de componentes

que actuando conjuntamente, invariablemente producen la enfermedad. Ver figura 2.1 donde aparecen 2 causas suficientes (I y II).

! Causa componente (o contribuyente): cada uno de los elementos de la causa suficiente. Ver figura 2.1 donde aparecen 4 causas componentes de cada una de las 2 causas suficientes.

! Causa necesaria: causa componente presente en todas las causas suficientes. La mayoría de las enfermedades tienen distintos mecanismos causales suficientes y cada uno de

ellos incluye varias causas componentes. Para producir la enfermedad, cada uno de los mecanismos requiere que todos y cada uno de sus componentes actúen conjuntamente. Cundo todos están presentes inevitablemente se produce la enfermedad. De ahí el carácter determinista. No hay lugar para el azar o la probabilidad. Si falta un sólo componente de una causa suficiente, la enfermedad no se producirá por este mecanismo. Por eso, aunque se ignore la mayoría de los componentes del mecanismo suficiente, eliminar un solo componente prevendrá la enfermedad por ese mecanismo.

Hay componentes que pueden participar en distintos mecanismos multicausales. Esto explica que la suma de las proporciones atribuibles a cada componente pueda ser >100%.

Figura 2.1. Causa suficiente

Causa suficiente I Causa suficiente II

(60%) (40%)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!2 El modelo determinista (Koch-Henle) postula la relación única, constante y recíproca entre causa y efecto. No está vigente

porque las enfermedades tienen varias causas. El modelo multicausal se basa en que todo suceso está producido por una multiplicidad de factores que actúan de forma conjunta o independiente para provocar el suceso.

!

C

B A

D

A E

G H

Page 6: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ""!

La causa componente A es responsable del 100% de la enfermedad, B del 60%, H del 40%. La causa componente A sería necesaria y por tanto las intervenciones preventivas sobre ella, serán las prioritarias para evitar la enfermedad.

MODELO CONTRAFÁCTICO (COUNTERFACTUAL) DE CAUSALIDAD

Supongamos que deseamos comparar el riesgo de infarto de miocardio dependiendo del consumo de aceite de oliva. La intuición nos llevará a comparar el riesgo de infarto entre los consumidores y los no consumidores. Sin embargo, esto no ofrece una información fidedigna del efecto del aceite de oliva porque los consumidores de aceite suelen tener un estilo de vida más saludable incluyendo mayor consumo de verduras y ensaladas, menor consumo de carnes y otros factores asociados a menor riesgo de infarto. En definitiva, habría que admitir que los grupos comparados son distintos no solo en el consumo de aceite de oliva. Por lo tanto, la pregunta realmente interesante es: ¿cómo se modifica el riesgo de infarto de una persona que no consume aceite de oliva si pasa a hacerlo, pero sigue igual en todo lo demás? Lo interesante conceptualmente es plantear una comparación de cada sujeto consumidor de aceite con otro sujeto exactamente igual a él en todo, pero que no probase nunca el aceite. Tales sujetos exactamente iguales no existen en la realidad. Se trataría de un grupo ficticio de sujetos (un grupo que fuese el de los realmente expuestos pero situándolos en el hipotético caso de que no estuviesen expuestos). A este tipo de comparación, que va en contra de los hechos, se le llama contrafáctica. Pensar así puede parecer absurdo, pero resulta útil para llegar a inferencias causales y realizar buenos diseños de investigación.

Buenas aproximaciones al modelo contrafáctico son el ajuste multivariable, los diseños aleatorizados y especialmente los ensayos cross-over (ver más adelante).

Se habla de mera “asociación estadística” entre dos variables cuando se encuentra que existe una relación entre ellas, mayor que la que cabría esperar por el azar y entonces se dice que hay una asociación estadísticamente significativa. Esto no implica necesariamente “causalidad”. Las asociaciones pueden ser causales o no causales. Es mejor reservar la palabra “efecto” para cuando hay elementos de juicio suficientes como para hablar de causalidad, siempre teniendo en mente el modelo contrafáctico. Mientras no se dispone de tales elementos es más prudente hablar de meras asociaciones.

Las asociaciones pueden ser positivas (directas), cuando la probabilidad de aparición de un fenómeno aumenta con la presencia de la otra variable, o cuando crece la variable “y” al crecer la variable “x”; o negativas (inversas), cuando la probabilidad de aparición de un fenómeno disminuye con la presencia de la otra variable (haya causalidad o no).

Las asociaciones no causales o espurias (o por error, artificiales), son las que aparecen como consecuencia de sesgos de selección de la muestra, por errores de información o por sesgos de confusión. Un ejemplo típico es el de las manchas amarillas en los dedos de los fumadores y su asociación no causal con el cáncer broncopulmonar. Las asociaciones no causales fortuitas son las debidas al azar, a sesgos (o a razones desconocidas por nosotros).

PERIODO DE INDUCCIÓN

Si en la causa suficiente I de la figura 2.1, la secuencia temporal con la que actu !an los componentes causales es que actúa primero A, luego B, C, y por u !ltimo D; esto hace que si se investiga la causalidad del factor B, no se podrá observar la ocurrencia de enfermedad inmediatamente después de intervenir B, puesto que se requiere esperar a que también ocurran C y D. La enfermedad no aparecerá hasta que se complete la secuencia y transcurrirá un tiempo mientras que ocurre C y hasta que finalice de intervenir D. Solo entonces aparecerá la enfermedad. El intervalo de tiempo entre la actividad de B y la enfermedad, será el tiempo o periodo de inducción para la causa componente B. Este periodo de inducción de B será mayor que el periodo de inducción del último componente de la cadena (D).

Las causas contribuyentes que actúan al inicio de la secuencia causal tendrán periodos de inducción más largos. El periodo de inducción de la u !ltima causa componente en la secuencia será casi igual a cero.

Es incorrecto hablar de «un periodo de induccio !n» para una enfermedad determinada, ya que el periodo de induccio !n siempre se asocia a la relacio !n especi !fica entre cada una sola de las causas contribuyentes y la enfermedad que esta causa componente produce. Es decir, para una sola enfermedad, habrá tantos periodos de inducción como causas contribuyentes o componentes tenga en

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "#!

sus mecanismos causales suficientes. En el ejemplo de la Figura 2.1, habrá 8 periodos de inducción, ya que el periodo de inducción de A en el mecanismo suficiente I puede ser distinto del de ese mismo componente A en el mecanismo causal II.

En carcinoge !nesis se habla de iniciadores o promotores, según sean causas que actu !en más temprano o más tarde, respectivamente. Por ejemplo, los anticonceptivos orales son más promotores que iniciadores de cáncer de mama, el efecto de estrógenos/progestágenos es hacer crecer las células neoplásicas que ya se han vuelto malignas o invasivas. Cuando se estudian factores de riesgo de cáncer en epidemiología los factores iniciadores siempre tendra !n mayores periodos de induccio !n que los promotores. Lo mismo puede decirse de la terminologi !a de factores predisponentes o precipitantes utilizados en enfermedades cro !nicas, la ruptura o desestabilización de la placa de aterosclerosis y los factores que la desestabilizan son desencadenantes, con periodos de inducción cortos. Si un estudio epidemiológico encuentra un corto periodo de inducción para la exposición a cocaína respecto al infarto de miocardio, se tratará de un desencadenante.

En conclusio !n, puede decirse que el modelo determinista absoluto esta ! desechado por la ciencia actual, y que el modelo determinista modificado de Rothman, basado en conceptos de multicausalidad y probabilísticos, se adapta mejor a la realidad. CRITERIOS DE CAUSALIDAD EN EPIDEMIOLOGÍA No toda asociación verificable con el método epidemiológico corresponderá a una verdadera relación causa-efecto. Los criterios de causalidad más conocidos son los de Bradford Hill. Todos pueden tener excepciones y son criticables. El único requisito sine qua non es la secuencia temporal. La causa siempre precederá al efecto. Estos criterios son:

1. Secuencia temporal: la supuesta causa debe preceder al efecto. 2. Fuerza de la asociación: cuanto mayor RR, más verosímil será la causalidad. 3. Gradualidad; tendencia dosis-respuesta en las asociaciones causales. 4. Consistencia: si la asociación es causal muchos estudios la evidenciarán. 5. Especificidad: al ser causal sólo existirá para un efecto o una exposición concreta. 6. Plausibilidad biológica: podemos explicar el mecanismo causal. 7. Coherencia: no contradice las tendencias temporales o su historia natural. 8. Evidencia experimental: hay estudios experimental que lo confirman. 9. Analogía: existen asociaciones similares ya demostradas.

Los tres primeros criterios pueden comprobarse en el estudio concreto que se ha realizado, según sus hallazgos y según su diseño (ver más adelante). Los estudios trasversales (cross-sectional) no suelen permitir verificar la secuencia temporal. Los otros criterios proceden habitualmente de la bibliografía.

Page 7: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ",!

odds = síno

proporción = sísí + no

tasa = a(a+ b)! t

3. MEDIDAS DE FRECUENCIA MEDIDAS DE FRECUENCIA PROPORCIÓN: Cociente cuyo numerador está incluido en el denominador. Carece de unidades. Tiene valores entre 0-1 (o bien entre 0% y 100% si se expresa en porcentajes, como suele ser frecuente).

Proporción (p) =a / a+b

RAZÓN: Cociente cuyo numerador no está incluido en el denominador. No tiene unidades. Sus límites son 0 e infinito.

Razón=a/b

ODDS: Es un caso particular de razón en la que el numerador es la probabilidad de que ocurra un suceso (p) y el denominador la probabilidad de que no ocurra (1-p). La odds (o ventaja), como todas las razones, carece de unidades y sus valores oscilan entre cero e infinito. Evalúa lo mismo que la proporción pero en una escala distinta. Desde el punto de vista práctico se calcula dividiendo el número de sujetos que sí tienen una característica entre el número de sujetos que no la tienen. Por ejemplo: si de 100 pacientes, 80 se curan con tratamiento, la odds de curación será

odds = 80/20 =4 Interpretación: se curan 4 por cada uno que no se cura. Es 4 veces más probable curarse que no curarse. Pero la proporción (p) sería

p = 80 / (80+20) = 0,8. Como la odds es la probabilidad (p) de que ocurra algo, dividido por su complementario (1-p), se puede obtener la odds sabiendo las proporciones (p)

odds = p/1-p

odds = 0,8 / 0,2 = 4

También se puede hacer al revés: obtener la proporción (p) a partir de una odds

p=odds/1+odds

p = 4 / (1+4) = 0,8

En definitiva, la odds evalúa lo mismo que la proporción, pero en una escala distinta. TASA: Cociente que lleva incorporado en el denominador una variable de naturaleza diferente al fenómeno estudiado y que generalmente es el tiempo (t): Donde a son los casos y b los no casos.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "-!

Por ejemplo, si de 100 personas, 4 enferman durante el seguimiento y el tiempo de seguimiento medio fue de 0,5 años, la tasa de enfermedad será

tasa = 4 / (4+96)x0,5 = 0,08 años-1 Su unidad es el recíproco del tiempo (p.ej. años-1). Un aspecto importante de la tasa es que tiene interpretación sólo poblacional, pero no individual. Así, si la tasa de infarto en un grupo de alto riesgo fuese de 0,08 años-1 significa que se producen 8 infartos por cada 100 habitantes y año en esa población. Esto se aplica a la población, pero no al sujeto. Mide la velocidad de ocurrencia o fuerza de morbilidad de una enfermedad. Sus valores oscilan entre cero e infinito. MEDIDAS DE FRECUENCIA DE LA ENFERMEDAD PREVALENCIA: Proporción de sujetos que padecen un fenómeno en un momento determinado. El numerador es el total de casos y el denominador toda la población.

Casos existentes en tiempo t P = --------------------------------------------

Población total en tiempo t La prevalencia puntual o de punto mide la proporción de enfermos en un solo momento (t). El momento t se puede referir a un momento concreto del calendario o un momento determinado dentro de la evolución de un proceso que varía, en tiempo de calendario, de una persona a otra. Por ejemplo: puede hablarse de proporción de prevalencia de punto de infecciones en heridas quirúrgicas en las primeras 48 horas postquirúrgicas. El momento que sigue a las primeras 48 horas postquirúrgicas no ocurre en el mismo momento del calendario para cada paciente pero sigue tratándose de una prevalencia de punto. Alternativamente, se puede medir la frecuencia de enfermedad en una población durante un periodo de tiempo predefinido y entonces se llama prevalencia de periodo. El numerador son todos los que han estado enfermos en algún momento de ese periodo y el denominador todos los que han estado presentes en esa población en algún momento de ese periodo. Si ese tiempo fuese toda la vida, se hablaría de lifetime prevalence o prevalencia a lo largo de la vida, en ese caso el numerador lo constituyen todos aquellos que hayan sufrido la enfermedad en algún momento de sus vidas. Pero a veces se usa como denominador el tamaño poblacional de la mitad del periodo de tiempo considerado o la población media durante dicho periodo de observación. Los factores que aumentan o reducen la prevalencia son: Aumentan la prevalencia Reducen la prevalencia

Por aumento de numerador • Aumento de casos nuevos (incidencia) • Mayor duración: enfermedades cro !nicas • Mayor supervivencia de los pacientes (sin

curarse) • Mejora de procedimientos diagno!sticos • Inmigracio!n de casos • Inmigración de susceptibles (si acaban

enfermando) Por reducción de denominador

• Emigración de los sanos o poco susceptibles

• Muerte de los poco susceptibles

Por reducción de numerador • Disminucio!n de casos nuevos (menor incidencia) • Menor duración: enfermedades agudas • Alta mortalidad de casos (mayor letalidad=menor

prevalencia). • Más curaciones por mejora de tratamientos • Emigracio !n de casos

Por aumento de denominador

• Inmigracio!n de personas sanas. • Inmigracio!n de personas no susceptibles (p.ej.

vacunados).

Page 8: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "2!

Es importante que quede claro que cuanto más duración tiene una enfermedad, mayor tenderá a ser su prevalencia. La prevalencia es como un depósito con una entrada (incidencia de casos nuevos) y dos salidas (muerte y curación). La utilizacio!n de la prevalencia es especialmente u !til en:

— Situaciones donde no es posible medir la incidencia (ver más abajo). Por ejemplo, para estudiar malformaciones conge!nitas se habla de prevalencia porque no es posible medir el nu !mero de fetos anormales que se han destruido mediante abortos esponta!neos y precoces. Las malformaciones observables en el momento del nacimiento son proporciones de prevalencia de punto (en el nacimiento). Es incorrecto hablar de incidencia de malformaciones congénitas porque los casos observables son solamente los que han sobrevivido hasta el momento del nacimiento.

— Planificacio !n sanitaria: p. ej, para saber cua!ntas camas se necesitan, cada di!a del año, en Unidades de Cuidados Intensivos, será útil contar con el dato de la prevalencia diaria observada de enfermos que precisen este tipo de cuidados en la población de referencia del hospital.

— Enfermedades degenerativas no letales (p.ej. artrosis), o ciertas enfermedades mentales (p.ej. depresión) cuyo comienzo en el tiempo es difícil de precisar. Para estimar la incidencia es preciso conocer el momento de comienzo de la enfermedad con exactitud; sin embargo, para la prevalencia es suficiente saber quie!nes tienen una enfermedad en un periodo determinado (sin conocer su momento exacto de comienzo). En el caso de enfermedades con siíntomas o brotes intermitentes se hablará de pacientes que hayan tenido dichos síntomas, al menos una vez durante el periodo de observacio !n.

INCIDENCIA ACUMULADA (IA) O RIESGO ABSOLUTO: Proporción de individuos susceptibles que desarrollan un fenómeno (casos nuevos) en un tiempo determinado (período de seguimiento t0-t1). La incidencia acumulada también se llama riesgo y sí tiene una clara interpretación individual: riesgo de enfermar en dicho periodo. En enfermedades infecciosas, se denomina tasa de ataque.

Nº casos nuevos durante t0-t1 IA = ------------------------------------------

Nº sujetos susceptibles en t0 Lo importante es que el numerador sólo incluye a los casos nuevos. Para calcular la incidencia hay que olvidarse de los casos que existían al comienzo del estudio y contar sólo los que empiezan a producirse a partir de entonces. El denominador son sólo los que están a riesgo de convertirse en casos nuevos durante el periodo de seguimiento. A los casos nuevos a veces se les llama casos incidentes. Si la prevalencia es una foto estática que refleja la proporción de enfermos en un momento determinado, la incidencia es como un vídeo que va contando como avanza la enfermedad a lo largo de un periodo seguimiento. Sin seguimiento, no hay incidencia. La IA es sensible al abandono de personas del estudio (muertes por otras causas competitivas, traslado de residencia, falta de colaboracio !n o defectos de observacio !n y seguimiento por parte del investigador). Las causas competitivas son otras enfermedades que pueden competir con la enfermedad de intere!s. Por ejemplo si en un estudio sobre cáncer de mama, hubiese muchas muertes prematuras por accidentes de tráfico en un grupo, esas mujeres que mueren por accidente tendrían menos probabilidad de convertirse a la larga en casos de cáncer de mama. La especificación de cuánto dura el seguimiento es imprescindible para poder interpretar una proporción de incidencia acumulada. No es lo mismo decir que han muerto un 20% de personas en un estudio que ha durado 6 años, que en un estudio con 20 años de duración. Al final, si el tiempo de observación es muy largo, la incidencia acumulada de mortalidad será siempre del 100%, por eso, muchas veces es preferible usar las tasas que tienen el tiempo en cuenta ya desde su denominador, como se explica a continuación.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "0!

DENSIDAD DE INCIDENCIA (DI) O TASA DE INCIDENCIA: Tasa que mide la velocidad con la que se pasa de sano a enfermo (por unidad de tiempo) en una población. Estima la fuerza de morbilidad o velocidad de enfermar.

Casos nuevos en t0-t1 DI = -------------------------------- = (unidades tiempo-1)

Personas*tiempo Para obtener el denominador es necesario medir para cada sujeto su tiempo total en riesgo. El denominador es la suma de los tiempos de observación de cada persona. Si se han producido dos casos nuevos de enfermedad aguda en 10 personas y su seguimiento fue:

— 5 de ellas fueron seguidas 3 días cada una — 3 de ellas fueron seguidas 6 días cada una — los dos que enfermaron lo hicieron a los 2 y a los 5 días

El numerador será: 2 El denominador: (5x3 días) + (3x6 días) + 2 dias + 5 días = 40 personas-días La DI = 2 / 40 = 0.05 días-1 Interpretación:

— Por cada persona-día la velocidad de ocurrencia de enfermedad es 0.05. — Por término medio, por cada 20 personas-días enfermará una persona.

El denominador de la DI se expresa en unidades de personas-tiempo. La DI es una tasa (sus dimensiones son 1/tiempo o tiempo–1 y toma valores entre 0 e infinito). La DI tiende a infinito cuando observamos muchos desenlaces en un instante pequeño, por ejemplo si contabiliza!ramos las muertes producidas por una bomba ato !mica. A diferencia de la IA, la DI carece de interpretacio!n a nivel individual, so!lo se entiende en grupos de personas. Expresa una característica de una enfermedad, expresa la «fuerza» que tiene un feno !meno para producir un cambio de estado (por ejemplo de estar sano a enfermo). Por ejemplo, una DI de 27 por 1.000 para fracturas de cadera entre mujeres de raza blanca y 65 o ma!s años de edad con ciertos factores de riesgo podri!í interpretarse como que esa fractura de cadera ocurre a los 37 an !os de seguimiento como media (ya que 1/0,027 = 37). Otro ejemplo sería el de una DI de mortalidad de 0,04 an!os–1 que indica una supervivencia media de 25 años (1/0,04 = 25). Sin embargo, si se mide la incidencia de una enfermedad o la mortalidad por una causa específica (no la mortalidad en general), entonces esta estimacio !n de la supervivencia solamente sera ! correcta cuando la persona no este! a riesgo de otras causas de enfermedad o muerte, es decir, cuando no existan causas competitivas. Esta interpretacio !n alternativa es conocida como el tiempo de espera. Por ejemplo, se plantea la siguiente pregunta (MIR 2010): Se ha realizado un estudio de cohortes en pacientes expuestos a diferentes anti-inflamatorios no esteroideos. El evento de interés fue la ocurrencia de hemorragia digestiva alta. En la cohorte de pacientes expuestos a ibuprofeno, se ha obtenido una densidad de incidencia de 2 por 1000 personas-año. ¿Cómo debe interpretarse este resultado? Las opciones de respuesta son: 1) Ocurren de media 2 casos de hemorragia digestiva alta por cada 1000 años de exposición a

ibuprofeno, sumados los tiempos de observación de todos los individuos de la cohorte. 2) El riesgo de desarrollar una hemorragia digestiva alta estando expuesto a ibuprofeno es 2 veces

mayor que con el resto de antiinflamatorios no esteroideos, en personas tratadas al menos durante 1 año.

3) Por cada 1000 personas que están expuestas durante al menos un año a ibuprofeno, se producen 2 casos de hemorragia digestiva alta.

4) Dos de cada 1000 personas que inician tratamiento con ibuprofeno desarrollan una hemorragia digestiva alta después de un año.

5) Cada 2 años de media, ocurre un nuevo caso de hemorragia digestiva en la cohorte de 1000 personas expuestas a ibuprofeno

¿Cuál es la respuesta correcta? El enunciado plantea que la DI = 0.002 años-1.

Page 9: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ".!

La DI es una medida de frecuencia absoluta, no de asociación ni de comparación alguna, por lo que la opción 2) no es válida. La opción 3) se aproxima a la realidad, pero se estropea al decir “al menos”, pues significa que la unidad de medida no es años-1 sino algo que es mayor de un año, puesto que “al menos” significa que como mínimo un año, pero no se sabe el máximo tiempo. Si se suprimiesen esas dos palabras (“al menos”) la opción 3) sería correcta. La DI no tiene interpretación individual, ya que no es una proporción, sino una tasa, por lo que la opción 4) es incorrecta. Puede ser por ejemplo que de cada 1000 personas sea sólo 1 la que desarrolle la hemorragia, pero que la suma de los tiempos de seguimiento individuales sea 500 personas-años (porque haya abandonos, causas competitivas, etc.), y 1 caso /500 personas-años sería una DI = 0.002 años-1. La opción 5) está mal calculada, ya que para ver cuántas personas-años se necesitan para observar un caso se debería hacer 1/0.002 = 500 personas-años. Se necesita observar 500 personas un año, 250 durante dos años, o mil durante medio año para observar un caso. Es decir, cada medio año /y no cada 2) de media por cada 1000 personas se produce un caso. La respuesta correcta es la primera.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "3!

4. MEDIDAS DE ASOCIACIÓN E IMPACTO MEDIDAS DE ASOCIACIÓN Estiman la magnitud de relación entre un factor y un efecto. Comparan una medida de frecuencia de enfermedad (incidencia o prevalencia) en expuestos respecto a no expuestos, con el fin de estimar la magnitud de la relacio!n entre la exposicio !n y el efecto (desenlace, resultado, enfermedad o lesio !n, outcome en ingle!s). En principio, y como se ha visto en los criterios de Bradford Hill, cuanto mayor sea la magnitud de la asociacio!n ma!s probable es que se trate de una relacio!n causal; aunque como ha descrito Rothman en su modelo determinista modificado es posible que esto no se cumpla siempre. ! Riesgo relativo RR: Es la razón entre la incidencia acumulada en expuestos (IA1) y la incidencia

acumulada en no expuestos (IA0).

RR=IA1 / IA0. Informa sobre cuántas veces es mayor el riesgo de que se produzca desenlace en expuestos en comparación con no expuestos. Expresa por cua !nto se multiplica el riesgo o probabilidad del desenlace en personas expuestas en comparacio !n con las que no lo esta !n. Las razones de prevalencias se estiman de manera parecida, con la diferencia de que se trabajan con prevalencias en vez de con incidencias acumuladas y expresan cua !ntas veces mayor es la prevalencia en personas expuestas en comparacio !n con personas no expuestas. El RR carece de unidades de medida. Sus valores oscilan entre cero e infinito y su valor nulo es 1.

— Cuando RR<1 la exposición es protectora — si RR>1 la exposición será factor de riesgo — Si RR=1 se dice que el efecto (o asociación) es nulo — Si el intervalo de confianza para el RR incluye el valor 1 se dirá que los resultados son

compatibles con un efecto nulo (no son estadísticamente significativos) El ejemplo siguiente es de un estudio sobre trastornos de conducta alimentaria (TCA).

Tabla 4.1. Relación entre el estado civil de los padres y TCA en Navarra.

Estado civil SI TCA NO TCA TOTAL Casados 74 2199 2273 Divorciados/Separados 16 220 236 TOTAL 90 2419 2509

IA1=16/236=0,0678

IA0=74/2273=0,0326

RR=IA1/IA0=2,08 El riesgo de TCA se multiplica por 2,08 en hijas de divorciados/separados comparadas con hijas de padres casados. A este RR se le debe calcular su intervalo de confianza. ! Odds Ratio (OR): Es la razón de odds. Compara la frecuencia de exposición en sujetos con o sin

desenlace. Carece de unidades. Sus valores oscilan entre el cero e infinito. Su valor nulo es 1. Una OR = 1 implica que las dos categorías comparadas son iguales. Al igual que para el riesgo relativo, OR>1 implica exposición perjudicial. OR<1 exposición protectora. Lo mismo que para el RR puede decirse también de la OR respecto a cuando sus intervalos de confianza comprenden o no el valor 1. Si incluyen el valor 1, no habrá diferencias significativas entre las categorías comparadas. La OR se suele estimar en estudios epidemiolo!gicos de casos y controles (que se verán ma !s adelante), aunque en realidad se puede estimar con cualquier diseño de estudio. Si se cumplen ciertas condiciones (enfermedades poco frecuentes) la OR es un buen estimador del Riesgo Relativo. La razo!n por la cual tiene intere!s la OR es, en primer lugar, porque es la u!nica medida de

Page 10: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! "4!

asociacio !n que se puede estimar en ciertos tipos de estudios epidemiolo !gicos como los estudios de casos y controles y, en segundo lugar, porque es la medida de asociacio !n que estiman los programas estadísticos cuando se utilizan ana!lisis multivariantes de Regresio!n Logi!stica.

En el ejemplo anterior:

Odds1=16/220=0,07272;

Odds0=74/2199=0,033651

OR=2,16 La OR es un buen estimador del RR pero tiende a sobreestimarlo especialmente cuando el suceso es frecuente y las diferencias entre grupos son grandes.

Es posible corregir esta sobreestimación cuando el suceso es frecuente:

OR RR= ---------------------------- (1-IA0) + (IA0 x OR)

La OR tiene una ventaja sobre el RR consiste en que la OR es simétrica. OR y RR de TCA para las hijas de divorciados/separados:

OR= 2,16 (RR=2,08) OR y RR de ser hijas de divorciados/separados si tienen TCA:

OR=2,16 (RR=1,95) (16/74) 16x2199 OR=--------------- = ------------- = 2,16 (220/2199) 220x74

(16/90) 0,1778 RR=---------------- =-------------= 1,95 (220/2419) 0,0909

A diferencia del RR, la OR es igual en un sentido que en otro (simétrica). La Odds Ratio se puede calcular directamente de los valores de la tabla tetraco !rica hallando la razo!n de los productos cruzados (de allí que la OR se llame tambie!n así), siempre que la casilla correspondiente a la presencia tanto del desenlace de intere!s y de la exposicio!n o bien de la ausencia simulta!nea de ambas se encuentre en la casilla superior izquierda de la tabla 2x2, como puede verse en el ejemplo siguiente:

En los estudios de casos y controles emparejados, uno o más controles se equiparan con el caso en sexo, edad y otras características de interés. Aquí se expone la opción más sencilla: un control por caso. Para calcular la OR se construye una tabla 2 x 2 en la que cada celda represente parejas de caso-control. La OR es el cociente entre parejas discordantes.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #5!

Tabla 4.2. Ejemplo de estudio de Casos y Controles emparejados. Parejas Control con migraña Control sin migraña

Ictus con migraña 34 60

Ictus sin migraña 32 74

OR=60/32=1,8.

Las personas que padecen migraña tienen una odds 1,8 veces mayor de padecer ictus que quienes no tienen migraña. A esta OR se le debe calcular su intervalo de confianza. MEDIDAS DE IMPACTO Una vez que se puede asumir la causalidad, las medidas impacto permiten estimar la carga de enfermedad atribuible a ese factor y el beneficio de las acciones preventivas dirigidas a eliminarlo.

Tabla 4.3. Cohorte prospectiva. Desarrollan enfermedad No desarrollan enfermedad Total Expuestos 40 60 100 No expuestos 20 80 100 Total 60 140 200

Nota: Se asume causalidad y validez externa. Incidencia acumulada en expuestos =IA1 = 40/100=0,4 Incidencia acumulada en no expuestos =IA0 = 20/100=0,2 Incidencia acumulada en población total =IAtotal = 60/200=0,3

Tabla 4.4. Análisis de la cohorte prospectiva de la tabla 4.3.

1pce: proporción de casos expuestos

RIESGO RELATIVO (RR) RR RR = IA1/ IA0 = 2

La enfermedad es dos veces más frecuente en los expuestos INCREMENTO RELATIVO DE RIESGO (IRR) EN EXPUESTOS

IRR IRR=(RR-1)x100=(2-1) x 100=100% La exposición incrementa relativamente el riesgo en un 100%

RIESGO ATRIBUIBLE EN EXPUESTOS (RAE) -INCREMENTO ABSOLUTO DEL RIESGO (IAR) RAE =IAR= IA1-IA0 = 0,4-0,2= 0,2

Un 20% de los expuestos padecerán la enfermedad precisamente por haber estado expuestos. Si se evitase la exposición, se prevendría la enfermedad en el 20% de los expuestos.

NÚMERO NECESARIO PARA INTERVENIR (NNI) NNI= 1/ RAE = 1/0,2=5

Hay que intervenir sobre 5 personas expuestas para prevenir un caso. FRACCIÓN ETIOLÓGICA EN EXPUESTOS (FEE)

FEE = RAE / I1= RR-1 / RR=0,5 (50%) El 50% de los casos que se producen en expuestos se deben a la exposición. Evitando la exposición, se prevendría la mitad de los casos que ocurren en expuestos

RIESGO ATRIBUIBLE POBLACIONAL (RAP) RAP= IAtotal - IA0=0,3-0,2=0,1

El 10% de la población adquirirá la enfermedad debido a la exposición. Se prevendría la enfermedad en el 10% de toda la población si se evitase la exposición.

FRACCIÓN ETIOLÓGICA POBLACIONAL (FEP) PROPORCIÓN DE RIESGO ATRIBUIBLE POBLACIONAL (RAP%)

FEP RAP%

FEP=pce1 FEE= (40/60)x0,5=0,33 RAP%= (IAt- IA0/ Itotal)x100=33%

La tercera parte de los casos que se producen en la población se deben a la exposición.

Page 11: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #"!

Tabla 4.5. Cohorte prospectiva (medida protectora)

Un ensayo aleatorizado de prevención de cáncer de mama con mamografías (MM). Muertes Muertes-años Tasa de mortalidad

Mamografía 70 20000 0,0035 años-1

No mamografía 120 30000 0,0040 años-1 Total 190 50000 0,0038 años-1

Se asume causalidad y validez externa.

Tabla 4.6. Análisis de la cohorte prospectiva (medida protectora) de la tabla 4.5.

RAZÓN DE DENSIDADES DE INCIDENCIA (RDI) RDI= DI1 / DI0 = 0,875 La tasa de mortalidad en las expuestas es del 87,5% de la tasa en no expuestas.

REDUCCIÓN RELATIVA DEL RIESGO o FRACCIÓN PREVENTIVA (FP)

FP = 1-RDI=1-0.875=0,125 El programa de mamografías reduce en 12.5% la tasa de mortalidad

DIFERENCIA DE DENSIDADES DE INCIDENCIA (DDI)

o REDUCCIÓN ABSOLUTA DE LA TASA DDI = DI0-DI1= 0,0005 años-1

El programa de mamografías evita 5 muertes al año por cada 10000 mujeres sometidas a mamografía

NÚMERO NECESARIO PARA INTERVENIR O TRATAR (NNT) NNT=1/DDI=2000

Para evitar una muerte al año es necesario que 2000 mujeres se sometan a mamografía.

DIFERENCIA DE DENSIDADES DE INCIDENCIA POBLACIONAL (DDIP) DDIP DDIP=DItotal – DI1=0,0003 años-1

Si todas las mujeres se sometiesen a mamografías se evitarían 3 muertes/año por cada 10000 mujeres.

FRACCIÓN PREVENIBLE POBLACIONAL (FPP)

FPP=pcne1 x FP= (120/190) x 0,125= 0,0789=7,9% Si todas las mujeres de esa población se sometiesen a mamografías, se podrían prevenir potencialmente el 7,9% de las muertes por cáncer de mama que actualmente ocurren en esa población 1pcne: proporción de casos No expuestos En los estudios de casos y controles, se calcula habitualmente sólo la odds ratio (OR). Si se asume que la enfermedad sea rara (<10%) y se conoce la incidencia total por fuentes externas (no se pueden calcular directamente ni la incidencia ni el riesgo atribuible), se podría aplicar las siguientes fórmulas (poco usadas) para derivar fracciones etiológicas y riesgos atribuibles.

FEP = FEE ! pce

RAP = RAE ! pe

En general, casi nunca se llega al RAP en estudios de casos y controles.

ORORFEE 1!

=

111+!

!=

)()(

ORpeORIRAE total

OR = odds ratio FEE = fracción etiológica en expuestos FEP = fracción etiológica poblacional RAE = riesgo atribuible en expuestos RAP = riesgo atribuible poblacional pe = proporción de sujetos expuestos (en la población) pce = proporción de casos expuestos

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ##!

INCREMENTO RELATIVO DEL RIESGO A trave!s de las medidas de asociacio !n como el RR se puede hallar el incremento relativo de

riesgo que se asocia a una exposicio!n. Dado que el valor nulo de una medida de asociacio !n es RR = 1 entonces, si se halla un RR = 1,5, podrá estimarse el aumento relativo que ha experimentado el RR al incrementar de 1 (ausencia de asociacio !n o valor nulo) a 1,5 (asociacio !n): 1,5 - 1 = 0,5. Este incremento de 0,5 es de hecho el 50 % del valor nulo inicial RR = 1 (0,5 es la mitad de 1). Por lo tanto, se expresa la cantidad de 0,5 en te!rminos de incremento relativo como un porcentaje (o proporcio !n de incremento relativo debido a la exposicio !n) multiplica !ndolo por 100. Al obtener un RR = 1,5 se puede decir que ha habido un incremento relativo de riesgo del 50 % debido a la exposicio!n (en el caso de asumir que efectivamente existe una relacio!n causal), pero esto no debe confundirse con el incremento absoluto del riesgo que consiste en la diferencia entre el riesgo en expuestos y el riesgo en no expuestos (o riesgo atribuible en expuestos). INCREMENTO ABSOLUTO DEL RIESGO

Los efectos absolutos se pueden medir hallando la diferencia entre incidencias acumuladas, densidades de incidencia o prevalencias entre un grupo expuesto a un factor de riesgo y otro no expuesto.

Generalmente, los efectos absolutos son medidas u!tiles a la hora de valorar el impacto del problema de Salud Pu !blica provocado por la exposicio !n a un factor de riesgo (por ejemplo, para la administracio !n sanitaria) y asi! mismo el beneficio potencial esperable si elimina!semos dicho factor de riesgo en personas expuestas.

El riesgo atribuible en expuestos (RAE) se llama tambie!n diferencia de riesgo, exceso de riesgo, o incremento absoluto de riesgo. El te!rmino de riesgo atribuible en expuestos (RAE) expresa que! incidencia de enfermedad es debida a la exposicio !n (relacio !n causal) y, por lo tanto, da una idea de la frecuencia de enfermedad, en personas expuestas, que puede atribuirse a la exposicio !n a un factor de riesgo determinado. Por ejemplo, si se produjo enfermedad en el 2% de los no expuestos y en el 2,4% de los expuestos, el RAE o incremento absoluto del riesgo será del 0,4%, pero en cambio, el RR=0,024/0,02=1,2 y corresponderá a un incremento relativo del riesgo del 20%, ya que 1,2 es un 20% superior a 1 (valor nulo).

Page 12: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #,!

5. TIPOS DE ESTUDIOS EPIDEMIOLÓGICOS MUESTRAS EN EPIDEMIOLOGI!A

Normalmente, no es posible estudiar a todas las personas que pertenecen a una poblacio!n. Por ello, se seleccionan muestras o subconjuntos ma!s pequeños de dichas poblaciones. A la poblacio !n de la que se extrae la muestra se le llama poblacio!n diana. Si el procedimiento de muestreo es el adecuado, la muestra tendra! caracteri!sticas parecidas a la poblacio!n diana de la que se ha extrai!do, es decir el que sea representativa de esta poblacio!n diana. Se podrán generalizar (validez externa) los resultados a la poblacio!n entera si la muestra es representativa de dicha poblacio!n. Existen diferentes procedimientos de muestreo. Estos procedimientos pueden clasificarse en dos grandes grupos:

• muestreo aleatorio o por probabilidad • muestreo no aleatorio.

El muestreo aleatorio se caracteriza porque todas las personas de la poblacio!n diana tienen una probabilidad conocida de ser elegidas. Para realizar este tipo de muestreo se requiere un registro de todos los sujetos pertenecientes a la poblacio!n diana. Es el muestreo que asegura una mayor representatividad de la muestra y, siempre que sea posible, es el me!todo preferible. Se habla de muestra aleatoria estratificada cuando se divide la poblacio!n en subgrupos, atendiendo a alguna característica importante como por ejemplo la edad o el nivel socioecono!mico, y se selecciona una muestra aleatoria de cada grupo. Si el taman!o que se elige de cada subgrupo o estrato es proporcional a la frecuencia de este subgrupo o estrato en la poblacio !n de origen, entonces la muestra total ara los diferentes estratos sera ! representativa de la poblacio!n de origen. Muestra agrupada (cluster sampling). Consiste en que cada unidad de seleccio!n esta! constituida por un grupo de personas (todos los nin !os de una escuela, los miembros de una familia, todos los pacientes de un centro de salud, etc.). La unidad de muestreo final no es una persona individual, sino que es un colectivo (cluster).

En otras ocasiones la seleccio !n de la muestra se hace por conveniencia (voluntarios, pacientes de una determinada consulta...) o de forma sistema!tica segu!n criterios tales como el di!a de la semana, el nu!mero de orden del paciente, etc. Puede ocurrir que aspectos tales como la gravedad del caso, la fase de la enfermedad o la presencia de otras comorbilidades influyan sobre los criterios elegidos para la seleccio!n de la muestra —el diía de la semana en que se ve el paciente, la hora de visita...— lo que puede comprometer la representatividad de la misma. Cuando la probabilidad que tiene un sujeto de la poblacio!n diana para ser elegido es desconocida se habla de muestreo no aleatorio.

Las muestras verdaderamente representativas escasean en la realidad. ¿Qué problemas trae esto? Los problemas son graves cuando el objetivo del estudio es responder a una pregunta descriptiva (¿cuál es la proporción de fumadores?, ¿cuál es el colesterol medio en la población?, ¿qué porcentaje de mujeres usan el método sintotérmico?, etc.). En estas investigaciones el objetivo es calcular una media o una proporción usando la muestra en vez de la población para ahorrar recursos y se hace absolutamente necesario garantizar la representatividad. Hablamos de descripción en estos casos porque no se están haciendo comparaciones. En cambio, el problema de la muestra no representativa y el posible compromiso para la validez externa no suele ser tan grave cuando se asume que no se va a describir una población sino que simplemente se trata de hacer comparaciones válidas internamente para los que participan en el estudio (¿es mejor el tratamiento médico o el tratamiento quirúrgico en estos pacientes? ¿puede ser que el consumo de café haya protegido a sus consumidores frente a la diabetes? ¿aumenta el riesgo de cáncer de mama si se consumen anticonceptivos orales?, etc.). En estas situaciones, aunque la muestra no sea perfectamente representativa puede solventarse el problema y no deberían caer los investigadores en una preocupación obsesiva que les lleve a buscar metas utópicas en pro de garantizar la representatividad estadística. Esta preocupación desaforada por obtener la representatividad estadística a veces ha podido hacer más daño que bien a la ciencia, especialmente en la investigación de las causas de las enfermedades (epidemiología analítica), tal como han denunciado los autores más destacados en epidemiología. Rothman, quizá el principal de ellos, llega a afirmar taxativamente lo siguiente "la representatividad es una falacia que ha contaminado a los estudios epidemiológicos durante décadas". Esta fuerte afirmación requiere ser matizada. Es cierto que muchos de los descubrimientos más

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #-!

importantes de la epidemiología moderna se han realizado en muestras que no eran representativas en el sentido estadístico del término. Por ejemplo, una muestra que sólo incluía a varones ingleses, todos ellos de clase alta, pues todos eran médicos (y entonces, a pesar de las apariencias actuales, ser médico sí que equivalía a un alto estatus económico) fue definitiva para comprobar que el tabaco producía cáncer de pulmón. Esta muestra no era en absoluto representativa de la población general británica. Sin embargo, ¿podrían generalizarse sus resultados a las mujeres o a los varones que no fuesen médicos? Lo que debe tenerse en cuenta es que generalizar no es un proceso estadístico automático.

En las encuestas transversales (descriptivas) sí que interesa asegurar la representatividad, pues lo que se hace es elegir una muestra a partir de la población diana para ahorrar costes, pues medir una característica en toda la población diana sería muy caro. Entonces, la representatividad estadística (selección por muestreo aleatorio) es un aspecto prioritario en esos caso, como hemos dicho. En cambio, en los estudios comparativos (casos y controles, cohortes, ensayos clínicos, como se verá a continuación), el objetivo no es describir, sino llegar a realizar una inferencia científica, que no se basa en extrapolar el resultado estimado en una muestra a una población mayor o universo, sino que precisamente suele requerir elegir personas peculiares (con frecuencia nada representativas) para hacer la investigación. Una vez obtenidas unas conclusiones con alta validez interna, se trata de generalizarlas a toda la humanidad en función del conocimiento biológico, no de una aplicación automática de principios estadísticos. A veces será preferible que participen en un estudio sólo las personas más motivadas y conscientes, porque serán quienes proporcionarán una información más fiable, aunque la baja participación reduzca la representatividad en el sentido estadístico del término.

En este sentido, a veces (no siempre, desde luego) los estudios con una baja proporción de candidatos que aceptan participar, pueden ser más válidos que aquellos donde se garantiza que una alta proporción de los invitados acepta participar. La ciencia adquirida con el estudio del tabaco y el cáncer de pulmón en los médicos británicos se extrapola a todas las personas, no mediante una "representatividad" estadística sino por las siguientes razones:

1) No hay ningún motivo biológico para pensar que si el tabaco causa cáncer en los varones no lo vaya a causar en mujeres, ¿es que es distinto el tejido pulmonar en los hombres y en las mujeres en cuanto a sus susceptibilidad a cancerígenos? Afirmar que es distinto supondría olvidar la histopatología pulmonar.

2) No hay ningún motivo biológico para pensar que si el tabaco causa cáncer en quienes son intelectuales o de clase alta no lo vaya a causar en los de clase baja o en quienes no han estudiado medicina, ¿es que cambia el tejido pulmonar cuando uno de clase social baja pasa a ser de clase alta o cuando alguien se licencia en medicina?

3) Sucesivos estudios de otros países realizados en otras muestras, que tampoco son por sí mismas representativos, corroboran que cuanto más se exponen las personas al tabaco, mayor es su riesgo de desarrollar cáncer de pulmón (consistencia).

4) Estudios realizados en animales demuestran que el humo del tabaco es cancerígeno. 5) El análisis químico del humo del tabaco identifica conocidos cancerígenos en altas concentraciones

presentes en él. 6) Se observa que en quienes dejan de fumar se reduce mucho el riesgo de cáncer de pulmón. 7) Se observa que en quienes nunca fumaron pero han convivido largamente con fumadores (fumadores

pasivos) también aumenta el riesgo de cáncer de pulmón. Todas estas razones, que no son de carácter estadístico, sino de conocimiento biológico y epidemiológico, son los motivos realmente importantes para dar validez a los estudios de tipo comparativo (aquí se comparan fumadores frente a no fumadores). Los estudios comparativos son los más habituales en la epidemiología analítica y en el diseño experimental. Sin embargo, a quienes están acostumbrados a realizar estudios sólo descriptivos les produce de entrada extrañeza encontrarse con un estudio comparativo que use una muestra claramente no representativa (es el caso de los mejores ensayos clínicos que más han cambiado la práctica médica). Pero, simplemente teniendo en cuenta los principios anteriores, puede comprenderse que la representatividad estadística queda muy detrás en este tipo de estudios no descriptivos que buscan hacer inferencias científicas. Este es el sentido de las palabras de Rothman antes citadas. De todos modos, cuando sea posible, también estos estudios mejoran si la muestra que se elige cuenta con garantías de representatividad, pues entonces su aplicación a una población diana es más directa. La pena es perder la oportunidad de realizarlos, o comprometer seriamente su viabilidad dándole prioridad equivocadamente al objetivo de que la muestra sea representativa. Hay otras prioridades en el diseño.

Page 13: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #2!

ESTUDIOS ANALÍTICOS Pretenden inferir causalidad. Se clasifican en: Experimentales: el investigador asigna los participantes a recibir o no la exposición.

! Experimentales puros: la asignación es aleatoria ! Cuasi experimentales: no son aleatorizados.

Los estudios experimentales pueden ser: ! Ensayo clínico: son pacientes y se aleatorizan a una intervención terapéutica ! Ensayo de campo: son sujetos sanos y se aleatorizan a medidas preventivas ! Ensayo comunitario. Un colectivo es la unidad de aleatorización.

Los requisitos éticos son muy importantes en los ensayos. Únicamente se asignarán exposiciones protectoras. No deben existir mejores posibilidades de tratamiento que las ofrecidas. A la luz de los conocimientos existentes, las dos alternativas deberían ser igualmente aceptables. No es ético comparar con placebo si hay otro tratamiento eficaz. Los participantes deben estar adecuadamente informados de las consecuencias de la participación en el estudio y deben firmar su consentimiento. El ensayo debe ser aprobado por un comité ético. Los ensayos con medicamentos requieren diversos requisitos legales.

No experimentales: también llamados observacionales. El investigador observa lo que de manera natural ocurre en expuestos y no expuestos, sin que el investigador asigne nada. ! Cohortes: los sujetos inicialmente libres del desenlace se clasifican en expuestos y no expuestos, y

se les sigue para observar el desarrollo del desenlace o efecto. Una cohorte es un grupo de personas que comparten una experiencia comu !n en un mismo periodo de tiempo. Por ejemplo, una cohorte de nacimiento seri!a un grupo de personas nacidas en un mismo año y una cohorte ocupacional o laboral, un grupo de personas que trabajan en una misma profesio!n. En los estudios de cohortes prospectivos3, todos tienen que estar libres de enfermedad al comienzo del estudio. No es necesario realizar un estudio de cohortes con una sola exposicio !n. El ejemplo de la cohorte de trastornos de la conducta alimentaria (TCA) en Navarra era un estudio de cohortes prospectivo en el que se recogieron una serie de variables como los datos sociodemogra!ficos de las chicas, estado civil de los padres, antecedentes familiares de trastornos psiquia !tricos, frecuencia de comidas en solitario, exposicio !n a medios de comunicacio !n como las revistas del corazo !n o la radio y puntuaciones en diferentes pruebas psicolo !gicas. Posteriormente, se midió la incidencia de casos nuevos de TCA que se presentaron a lo largo de 18 meses de observacio !n. De esta forma se pudo asociar cualquier exposicio !n con la incidencia de TCA.

! Casos y controles se examina comparativamente la exposición al factor de riesgo en sujetos con la enfermedad de interés (casos) y en sujetos libres de ella (controles). Las personas se seleccionan basa!ndose en la presencia (casos) o ausencia (controles) de una enfermedad cuya etiologi !a se quiere estudiar. A continuacio !n, se valora la presencia o no de factores de riesgo (exposicio !n) en el pasado, para estimar si existe una mayor prevalencia de exposicio !n en enfermos en comparacio !n con esa muestra de personas sanas que son los controles4. El propo !sito de tener un grupo control es el poder medir la frecuencia relativa de expuestos y no expuestos en la poblacio !n de riesgo; así pues, es imperativo que los controles se seleccionen de forma independiente a su nivel de exposicio !n. Los estudios de casos y controles pueden tener un cara !cter prospectivo cuando, despue!s de iniciarse el estudio, se espera a que aparezcan casos nuevos de enfermedad en la poblacio !n (casos incidentes) para ir incorpora!ndolos al grupo de personas enfermas. Los controles se suelen incorporar tambie!n paulatinamente al estudio aunque a veces se pueden escoger aleatoriamente, una vez conseguidos todos los casos que se requieren, de una lista de posibles controles. Por el

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!3 En los estudios de cohortes retrospectivos (no concurrentes o histo!ricos), tambie!n se identifican los grupos a comparar basa!ndose en la presencia o no de la exposicio!n de intere!s, personas expuestas o no expuestas al comienzo del estudio, pero en el momento en que comienza el estudio, ya se han producido todos los desenlaces. Estos estudios dependen totalmente de la existencia de un buen registro. Lo que se hace es retroceder en el tiempo para identificar las cohortes expuestas y no expuestas y se buscan los casos nuevos de enfermedad, en ambos grupos, y que tuvieron lugar en los an!os posteriores al comienzo de la exposicio!n, pero que son años previos al comienzo de la investigación.!4 Una estrategia para reducir costes de un estudio de cohortes es almacenar las muestras biolo!gicas que se tomen de toda una cohorte, pero no gastar dinero en analizar las muestras de todos los participantes, sino so!lo de aquellos que con el paso del tiempo van desarrollando eventos, compara!ndolos con controles que no los hayan desarrollado en ese momento. Este diseño sería un diseño de casos y controles anidados en la cohorte (nested case-control).!

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #0!

contrario, los estudios de casos y controles tienen cara!cter retrospectivo cuando los casos de enfermedad ya se han producido todos al comienzo del estudio (casos prevalentes). Es aconsejable utilizar solamente los casos incidentes para evitar el sesgo de supervivencia o falacia de Neyman que consiste en que las personas que ma !s sobreviven a una enfermedad presentan probablemente formas ma!s leves de la misma y por lo tanto probablemente tambie !n una menor exposicio !n al factor de riesgo en comparacio !n con personas que fallecen antes, por padecer formas ma !s agudas y/o graves de enfermedad.

ESTUDIOS DESCRIPTIVOS Tratan de presentar, sintetizar y resumir la distribución de la enfermedad o de la exposición

atendiendo a variables epidemiológicas de persona, lugar y tiempo. En ocasiones no es sencillo distinguir entre estudios puramente descriptivos y analíticos. Por

ejemplo, cuando construimos una tabla a partir de datos poblacionales, para resaltar diferencias de frecuencias de enfermedad entre grupos, lo podemos hacer simplemente porque algo nos ha llamado la atencio!n, o bien porque quiza!s la frecuencia de enfermedad observada nos parece diferente a la esperada. En este u !ltimo caso se estaría procediendo (aunque de manera implícita) a una comparacio!n entre lo observado y lo esperado, lo que es un proceso analítico que nos conduce a valorar las posibles causas de las diferencias observadas. Por otra parte, aunque no tengamos ninguna idea preconcebida sobre lo que deberíamos hallar en nuestros datos, la descripcio !n de los mismos nos puede llevar a realizar comparaciones entre subgrupos de la muestra estudiada y a encontrar diferencias que sugieran la existencia de factores de riesgo. La diferencia entre este estudio (con cara!cter eminentemente descriptivo) y otro que fuera analítico de entrada, es que el primero tiene como objetivo generar hipo !tesis mientras que el segundo se diseña especi!ficamente para llegar a conclusiones etiolo!gicas basadas en comparaciones correctas. ! Estudios transversales, de corte, (cross-sectional) o de prevalencia: recogen en un momento

concreto y de forma simultánea la exposición y el efecto. No aseguran una correcta secuencia temporal y, en principio, no pueden ser utilizados para inferir causalidad. Cuando se trata de exposiciones estables en el tiempo (sexo, polimorfismos gene !ticos, etnia, etc.), debe considerarse siempre que con este tipo de estudios no es posible diferenciar entre factores de riesgo (por tenerlos, se esta! enfermo) y factores prono !sticos (por tenerlos, se tiene una supervivencia ma!s o menos prolongada). No se debe olvidar nunca que la prevalencia depende tanto de la incidencia como de la duración de la enfermedad.

! Estudios ecológicos tienen como unidad de estudio y análisis a colectivos determinados según criterios geográficos o temporales. A cada individuo se le asigna el valor medio o modal de la exposición de su grupo. Es decir, la unidad de observacio !n y ana !lisis es la poblacio!n, de tal forma que se utilizan valores medios de exposicio !n (de ahi! que se puedan llamar ecolo !gicos) y desenlace que se aplican o se refieren a una poblacio!n de estudio entera. Pueden servir para generar hipótesis. No obstante, algunas intervenciones preventivas de tipo legislativo o en general estructural, so!lo pueden medirse a este nivel, por ejemplo la prohibicio !n de beber alcohol con menos de 18 o! 21 an!os o la legislacio!n que regula el aborto en un país. Son estudios relativamente fa!ciles, econo!micos y ra!pidos de realizar porque su aplicacio !n depende frecuentemente de informacio !n que ya existe a la que se le llaman datos secundarios (encuestas nacionales de salud, registros rutinarios de enfermedad), no recogidos especi!ficamente para el estudio. El inconveniente obvio de estos estudios es que la correlacio !n asume que todos los miembros de las poblaciones esta !n expuestos en la misma medida al factor de riesgo. El ca!lculo per capita por ejemplo del consumo total de carne por países y su relación con las tasas de cáncer de colon asume que todos los habitantes de un país comerán la misma cantidad de carne. El error es asumir que todos los ciudadanos de un país ( ode una provincia o ciudad) tienen la misma exposicio !n. Adema!s, no se puede estar seguro de que las personas que han tenido ca !ncer de colon son precisamente aquellas que han consumido mucha carne. En resumidas cuentas, no se puede relacionar un individuo enfermo con su exposicio!n especi!fica al factor estudiado. Por este motivo es posible que asociaciones medidas a nivel agregado (estudios ecológicos) sean contrarias a la realidad que se obtendría si se midiesen a nivel individual. Este feno !meno se llama la falacia ecolo !gica. En la figura inferior se explica cómo el índice de masa corporal (IMC) está directamente asociado con el nivel económico a nivel ecológico (hay mayor IMC medio en los países más ricos), pero inversamente asociado a nivel individual (en muchos países hay más obesidad en las clases sociales más desfavorecidas). La verdad científica la da la asociación medida individualmente, lo otro es falacia ecológica, aunque también puede ser un efecto contextual de interés en salud pública.

Page 14: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #.!

Figura 5.1. Falacia ecológica.

! Series de casos: describen las características en la evolución natural de un proceso.

Figura 5.2. Clasificación de los principales estudios epidemiológicos

Tabla 5.1. Ventajas y limitaciones de los estudios analíticos. El mejor para inferir causalidad Gran control de las condiciones del estudio ENSAYOS La aleatorización minimiza los sesgos (poca confusión) Condicionantes éticos Escasa validez externa Adecuados para enfermedades frecuentes Adecuados para exposiciones raras Útiles para valorar multiefectividad COHORTES Estudia historia natural enfermedad (secuencia temporal) Calcula directamente incidencias Complejos, duraderos y caros Principal problema: pérdidas durante el seguimiento Adecuados para enfermedades raras Útiles para valorar multicausalidad CASOS Y CONTROLES Reproducibles, breves y baratos Mejor eficiencia estadística Principal problema: sesgos de selección y de información

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #3!

6. SESGOS DE INFORMACIÓN Y SELECCIÓN ERROR ALEATORIO Y PRECISIÓN Un error aleatorio es un error que no es constante en cada medicio !n, no ocurre siempre en la misma direccio !n. De manera aleatoria, obtenemos valores a veces mayores y a veces menores que el valor real. Por ejemplo, hablariíamos de error aleatorio en una ba !scula que a veces mide por defecto y otras por exceso. Habra! mayor precisio !n o mayor fiabilidad de una medicio!n, cuando los errores aleatorios sean pequen !os. En ausencia de error sistema !tico, si realiza!ramos la media de una serie de mediciones con errores aleatorios, dicho valor medio se acercaría al valor real. El rango entre una serie de mediciones aumenta con el grado de errores aleatorios. El error aleatorio no afecta en si! a la validez interna pero sí dificulta la posibilidad de encontrar una asociacio !n entre dos variables por la imprecisio!n de las medidas. La estadística trata fundamentalmente del error aleatorio (falta de precisión); la epidemiología se ocupa del error sistemático o falta de validez. La validez puede ser interna o externa. VALIDEZ INTERNA La validez interna de un estudio epidemiolo!gico valora el grado en que los resultados obtenidos son correctos para las personas incluidas en ese estudio concreto. Se obtiene evitando errores en el diseño del estudio pero tambie!n en el ana!lisis de los datos. VALIDEZ EXTERNA La validez externa de un estudio es la capacidad de poder generalizar los resultados de la muestra en el estudio a la poblacio !n de referencia o a aquella sobre la que se pretenden aplicar las conclusiones del estudio. Se obtiene trabajando con muestras representativas de la poblacio!n de referencia (muestreo aleatorio probabilístico, o cualquiera de las otras variedades, cuando es posible) y evitando que el desarrollo del estudio o la falta de seguimiento adecuado de sus participantes modifiquen una seleccio !n de personas inicialmente adecuada. SESGOS Un sesgo se puede definir como un error sistema!tico en un estudio epidemiolo !gico que tiene como consecuencia la estimacio!n erro !nea de la asociacio!n entre la exposicio!n y el desenlace (entre variable independiente y variable dependiente, respectivamente). Al trabajar con seres humanos, es pra !cticamente imposible eliminar los sesgos en su totalidad; no es posible obtener grupos de comparacio !n ide!nticos que solamente se diferencien en la exposicio!n de intere !s como en experimentos con animales gene!ticamente similares. Los sesgos pueden originarse en cualquier fase de la investigacio!n: la revisio!n bibliogra!fica, la seleccio!n de participantes, la obtencio!n de datos de mu!ltiples lugares o registros, en los procesos de medicio!n, en el ana!lisis e interpretacio!n de los resultados y, finalmente, en la fase de publicacio!n. SESGOS DE SELECCIÓN Existe una característica que simultáneamente se asocia a mayor probabilidad de ser elegido y a un determinado resultado en la asociación. Un sesgo se selección lleva a que no se incluyan las personas adecuadas para que la comparación sea válidamente causal. ! Mala selección al inicio del estudio. Por ejemplo, si para anticonceptivos orales-infarto se calcula el

riesgo atribuible en expuestas (RAE) y se exponen a anticonceptivos las mujeres específicamente seleccionadas por tener bajo riesgo cardiovascular (no fumadoras, delgadas, normotensas) se infravalorará el verdadero RAE.

! Sesgo del trabajador sano: (cohortes) la morbimortalidad asociada a una exposición laboral de riesgo es menor en trabajadores expuestos, ya que se exponen por ser especialmente sanos para este trabajo (esto les hace también no ser retirados de él).

! Sesgo de sospecha diagnóstica: la exposición a un factor de riesgo levanta sospechas, propicia el diagnóstico y facilita entrar como caso en estudios de casos y controles.

! Falacia de Neyman o sesgo de supervivencia: ocurre en estudios de casos y controles con casos prevalentes. Los factores de riesgo pueden ser también factores pronósticos que determinen la

Page 15: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! #4!

duración de la enfermedad. Si la exposición agrava el pronóstico, los casos prevalentes serán preferentemente no expuestos (los expuestos mueren pronto y no tienen oportunidad de elegirse). Esto infravaloraría la asociación. En caso contrario (el factor de riesgo es factor de buen pronóstico), se sobreestimaría la asociación. En la asociación alcohol-miocardiopatía dilatada, la miocardiopatía dilatada alcohólica tiene mejor pronóstico que la isquémica o la idiopática. Los pacientes con miocardiopatía dilatada alcohólica viven más por lo que es más probable que sean elegidos como casos; así la exposición está más representada en los casos, sobrevalorándose la asociación.

! Sesgo de Berkson: en estudios de casos y controles con controles hospitalarios (los controles son enfermos con enfermedades distintas a la estudiada). Sucede si el factor de riesgo se asocia con mayor o con menor probabilidad de ser hospitalizado.

! Sesgo por pérdidas diferenciales. En los estudios de seguimiento, suele haber participantes que abandonan el estudio. El problema es que las pérdidas suelen ser diferenciales. Si los perdidos son diferentes a los retenidos, es posible que hubiesen respondido de manera diferente a la exposición. Unas pérdidas>25% cuestionan seriamente los resultados. Para defender su validez, se realiza:

o Comparaciones de características basales entre seguidos y perdidos o Métodos probabilísticos de ponderación que le dan más peso a los retenidos que

tienen características más similares a los perdidos. o Análisis de sensibilidad: se repiten los análisis asumiendo los supuestos: (a) qué pasaría si todos los perdidos desarrollasen el efecto (b) qué pasaría si ninguno lo desarrolla. Si no cambia el RR, es improbable que haya existido sesgo por pérdidas.

SESGOS DE CLASIFICACIÓN O INFORMACIÓN Se trata de errores introducidos por el investigador al medir las variables. Hay que distinguir: ! Mala clasificación no diferencial: el error afecta por igual a todos los grupos. Por ejemplo se

clasifica igual de mal la exposición en los casos y en los controles; o se clasifica igual de mal la incidencia de enfermedad en expuestos y no expuestos. Sesgan habitualmente hacia el valor nulo (acercan el RR o la OR a 1).

! Mala clasificación diferencial: el error afecta de un modo distinto a los grupos e introduce diferencias en la clasificación de unos y otros, por lo que el resultado de este sesgos es más peligroso por ser impredecible.

Son sesgos de información diferenciales los siguientes: ! El sesgo anamnésico (de recuerdo, recall bias) propio de estudios de casos y controles. Los casos

pueden recordar mejor las exposiciones perjudiciales porque achacan a ellas su enfermedad. Otro ejemplo: en un estudio de deterioro cognitivo, los casos recuerdan peor la exposición. También puede ocurrir que un caso mienta sobre su exposición porque sospecha que ese factor causó su enfermedad y no quiere reconocerlo.

! Sesgo del observador: el entrevistador investiga con diferente intensidad la exposición o el desenlace en el grupo de expuestos que en el de no expuestos.

Hay sesgos de información que pueden ser diferenciales o no: ! Sesgo de atención o efecto Hawthorne: los participantes alteran su comportamiento cuando se

saben observados. ! Sesgo de inaceptabilidad: se tiende a infravalorar las exposiciones que se perciben como de

riesgo (drogas) o socialmente poco aceptadas (social desirability bias). ! Sesgo de obsequiosidad: se sobreestima la exposición socialmente aceptada o protectora

(deporte). Sesgo de información no diferencial:

! Sesgo de migracio !n diagno !stica: Un ejemplo cla !sico de sesgo de informacio !n no diferencial del desenlace es el sesgo de la migracio !n diagno !stica o feno !meno de Will Rogers que suele ocurrir en estudios que se desarrollan durante varios años coincidiendo con cambios de criterios diagno !sticos o con cambios de sensibilidad de los aparatos diagno!sticos. Habitualmente lo que suele ocurrir es que al diagnosticar mejor a un paciente, se suelen ver mejor ciertas lesiones (por

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,5!

ejemplo, ganglios afectados) y algunos pacientes suelen acabar clasifica !ndose en un estadio superior al que estaban. Evidentemente estos pacientes tienen una forma de enfermedad ma!s grave que la del grupo donde estaban inicialmente (estadio II) aunque por otra parte tienen una gravedad menor que la del grupo donde ahora se sitúan (estadio III). Ocurre algo aparentemente parado !jico; la mortalidad es menor en los dos grupos objeto de la migracio !n diagno !stica: la mortalidad del estadio II bajara ! porque hay menos pacientes graves y la mortalidad del estadio III tambie !n bajará porque ahora hay personas con una gravedad de enfermedad menor que la que le corresponde al grupo. Podri!amos explicar este feno !meno con el símil de la altura. Si la persona ma !s alta de un grupo de gente baja pasa a pertenecer a otro grupo de personas con mayor altura, ambos grupos vera !n disminuir la media de sus alturas.

OTROS SESGOS ! Regresión a la media: quienes mostraron valores extremos en una determinación inicial tenderán a

presentar posteriormente valores más cercanos a la media. Se debe a mecanismos homeostáticos, a posibles mediciones erróneas iniciales o a registros bajo circunstancias excepcionales en la primera ocasión.

! Falacia ecológica: la asociación entre exposición-efecto observada en la colectividad, no necesariamente se sostiene a nivel individual.

Page 16: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,"!

7. CONFUSIÓN E INTERACCIÓN.

Uno de los conceptos ma!s importantes en epidemiología es el de confusio !n. Todo el trabajo que se realiza al escoger, diseñar e implementar el mejor diseño posible para responder a una pregunta científica consiste precisamente en lograr grupos de comparacio!n que sean contrafa !cticos. En definitiva, se intenta reducir al ma!ximo ese componente de la medida de asociacio!n que en apartados anteriores hemos llamado error o sesgo y conseguir así que la medida de asociacio !n coincida con la medida del efecto que queremos conocer y valorar. Por otra parte, para interpretar de manera crítica y correcta los resultados de los estudios que se publican en la literatura científica, es tambie!n imprescindible comprender el feno !meno de confusio!n. Una variable (o factor) de confusio!n se puede definir como una variable que distorsiona la medida de la asociacio !n entre otras dos variables. El resultado de la presencia de una variable de confusio !n puede ser la observacio!n de un efecto donde en realidad no existe o la exageracio!n de una asociacio!n que realmente existe (confusio!n positiva) o, por el contrario, la atenuacio!n de una asociacio!n real e incluso una inversio !n del sentido de una asociacio!n real (confusio !n negativa). SESGOS DE CONFUSIÓN Las relaciones específicas existentes entre las variables estudiadas y otras variables que no son el efecto ni la exposición distorsionan la medida de asociación. Las condiciones para que se dé un factor de confusión son, que esa variable: ! Esté asociada con el efecto independientemente de la exposición. ! Esté asociada con la exposición independientemente del efecto. ! No sea un eslabón causal intermedio entre exposición y efecto.

Figura 7.1. Factor de confusión.

Se ha asociado el consumo de alcohol con un mayor riesgo de muchos cánceres; pero el consumo de tabaco y alcohol se asocian. Es posible que sea el tabaco lo que realmente aumente el riesgo y que no se haya controlado bien la confusión por tabaco. El concepto más importante es que podrá ser factor de confusión toda variable que comparta causas comunes con la exposición y con el efecto.

Una variable (por ejemplo el sexo) puede ser un factor de confusión en una base de datos (de un estudio determinado) y no serlo en otra. MODIFICACIÓN DEL EFECTO O INTERACCIÓN La interacción entre dos factores supone una interdependencia entre sus mecanismos de acción. Cuando al estratificar los datos globales según las distintas exposiciones, la medida de asociación es distinta dentro de los diferentes estratos se dice que hay interacción o modificación del efecto. La interacción es un efecto biológico real.

Por ejemplo, el efecto de los anticonceptivos hormonales sobre el riesgo de enfermedad cardiovascular (ECV) puede estar modificado por el tabaco.

Tabla 7.1. Interacción tabaco-anticonceptivos orales. GLOBAL Casos Controles

Anticonceptivos sí 2304 800 Anticonceptivos no 480 1600

OR global=9,6

Análisis estratificado

Confusión!Tabaco!

Causa Alcohol

Efecto Cáncer

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,#!

FUMAN Casos Controles ORfum

Anticonceptivos sí 1920 480 8,0 Anticonceptivos no 160 320

NO FUMAN Casos Controles ORno fum

Anticonceptivos sí 384 320 4,8 Anticonceptivos no 320 1280

La interacción anticonceptivos-tabaco se podría representar en una tabla (tabla 6.9)

Tabla 7.2. Interacción anticonceptivos-tabaco. Ratio casos/controles para cada posible categoría.

No fuman Fuman Anticonceptivos NO 320/1280=0,25 160/320=0,5

Anticonceptivos sí

384/320=1,2

1920/480=4

Odds ratios1 para cada posible categoría. No fuman Fuman

Anticonceptivos NO 1 (ref) 2

Anticonceptivos sí

4,8

16,0

1Tomando como referencia la categoría no usuarias de anticonceptivos y no fumadoras El efecto de los anticonceptivos es distinto en fumadoras que en no fumadoras. El tabaco modifica el efecto de los anticonceptivos. Hablaremos de interacción si: ! La medida de asociación (OR) de los dos estratos es distinta entre sí (8 ! 4,8). ! En la tabla que combina ambos efectos, el valor de odds ratio en la cuarta casilla (OR=16 ) se

aparta significativamente de la multiplicación de las otras dos odds ratios (2 x 4,8) (interacción multiplicativa sinérgica o positiva). Este apartamiento puede darse porque lo observado sea mayor, como sucede en el ejemplo (16>9,6), o también porque lo que se observe sea menor que el producto de las otras dos odds ratio (interacción negativa o antagonismo).

En este ejemplo se está asumiendo un modelo multiplicativo de interacción. Esto es lo que suele asumirse en estudios epidemiológicos que valoran un desenlace dicotómico y que usan modelos exponenciales (regresión logística o de Cox), pero también podría hablarse de interacción aditiva y esto es lo que implícitamente se asume cuando la variable dependiente es continua (modelos de ANOVA, ANCOVA o regresión múltiple). Se dirá que hay interacción aditiva cuando el efecto conjunto de dos factores sea significativamente diferente de la suma de sus efectos por separado.

Page 17: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,,!

8. PROBABILIDAD. CONCEPTOS DE PROBABILIDAD. CONCEPTOS DE PROBABILIDAD Podría definirse inicialmente la probabilidad de un suceso como la proporción de veces que ese suceso ocurriría si repitiésemos la experiencia un número muy grande de veces. ¿Cuál es la probabilidad de que al lanzar una moneda al aire salga cara? Decimos que es del 50% porque suponemos que si lanzamos muchas veces la misma moneda el 50% de ellas saldrá cara. Hay dos tendencias principales al concebir la probabilidad. • Según el concepto frecuencista de probabilidad, la probabilidad es algo similar a una proporción o

porcentaje: cuando decimos que la probabilidad de que algo ocurra vale 0,2 viene a significar lo mismo que decir que ocurrirá en el 20 % de los casos ó 1 de cada 5 veces. La definición frecuencista mantiene que las probabilidades son los límites a los que tiende la proporción o frecuencia relativa con la que sucede un acontecimiento. Por ejemplo, si se lanza una moneda un número muy grande de veces, la frecuencia relativa con la que saldrá cara tenderá a ser del 50% (probabilidad = 0,5). Así, el pensamiento frecuencista define que la probabilidad de que ocurra un suceso sería el límite de la frecuencia relativa cuando el número de observaciones tiende a infinito. Ya que las frecuencias relativas son observables empíricamente, se puede pensar que los límites a los que tienden pueden proponerse como propiedades de los sistemas o mecanismos que generan las secuencias de acontecimientos. Por eso a esta concepción corresponde el concepto de la probabilidad como algo objetivo (probabilidad física). En su forma más pura el pensamiento frecuencista niega todo significado a la probabilidad individual de un acontecimiento singular, ya que, al no engendrar una repetición, no es posible estimar empíricamente su frecuencia relativa. Hay preguntas para las que no existen posibilidades de repetir la experiencia, por ejemplo ¿Cuál es la probabilidad de que un graduado universitario saque una oposición en la primera convocatoria tras terminar la carrera? Sólo habrá una primera convocatoria tras acabar la carrera. Aunque haya posibilidad de repetición, esas repeticiones ya son respuestas a otra pregunta distinta. Este problema podría presentarse al aplicar la probabilidad al paciente individual ya que "no hay enfermedades sino enfermos". La respuesta frecuencista es imputarle a cualquier paciente lo que ha ocurrido previamente con pacientes similares, siempre acompañada de un cierto grado de incertidumbre, pero prescindiendo del hecho de que no hay dos seres humanos iguales.

• La otra filosofía es la bayesiana, que maneja la probabilidad como algo subjetivo, es decir el grado de certeza que se posee sobre un asunto, la "credibilidad" o la probabilidad personal. Frecuencistas y bayesianos constituyen actualmente dos clanes o grupos filosóficos que mantienen una cordial disputa en el mundo de la estadística.

Los frecuencistas son más abundantes que los bayesianos. A los bayesianos se les denuncia cierto carácter arbitrario o irracional en sus probabilidades subjetivas (que se suelen llamar "a priori"), ya que estas probabilidades no son directamente medibles. También se podría decir que la verificación frecuencista de la probabilidad empírica nunca ha sido hecha. Nadie ha lanzado una moneda al aire infinitas veces. FACTOR BAYES

Si en un estudio que incluye a 1000 pacientes, sólo 200 de ellos padecen diabetes, la odds de desarrollar diabetes se calcularía dividiendo 200 entre 800 (odds =1/4).

También podría expresarse la odds como 1:4. Se interpreta que apareció un diabético por cada 4 no-diabéticos.

41

1000200

diabéticos nodiabéticosODDS ===

Como ya se vio en el capítulo 1, se demuestra que la odds a posteriori (una vez que se sabe que se ha cumplido una condición) es igual a la odds marginal (no condicionada o previa a saber la condición), multiplicada por un factor. En la tabla 8.1, la odds de ser diabético previamente a saber la condición, es decir no condicional a la glucosuria, se basa en la probabilidad total o marginal y se calcularía dividiendo 200 entre 800 (odds previa=1/4 o bien 1:4) y se interpreta que hay un diabético por cada 4 no-diabéticos

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,-!

Tabla 8.1. Presencia de glucosuria en pacientes diabéticos y sin diabetes.

Diabetes No diabetes Total Glucosuria 60 8 68 No

glucosuria 140 792 932

Total 200 800 1000

41

800200

1000/8001000/200

diabetes) (no P(diabetes) PODDSprevia ====

Puede hablarse también de una odds posterior que sería la odds condicionada a cumplir un requisito, en el ejemplo la odds posterior sería la odds condicionada a tener glucosuria. Esta odds posterior valdría:

7,5860

8/6860/68

)glucosuria|diabetes (no P)glucosuria|(diabetes Pposterior ODDS ====

El teorema de Bayes demuestra que la odds posterior (condicional) es igual a la odds previa multiplicada por un factor al que llamaremos "factor Bayes" (al que en el capítulo 1 se le llamó RV+):

Bayes FactorODDSprevia iorODDSposter !=

El factor Bayes equivale a la razón de probabilidades de la condición, es decir al cociente de probabilidades de presentar la condición (glucosuria) entre los que tienen el evento (diabéticos) y los que no lo tienen (no-diabéticos). Ya habíamos dicho que tener glucosuria era 30 veces más frecuente entre los diabéticos que entre los no-diabéticos. A ese cociente se le llama Factor Bayes:

3001,03,0

diabetes) no | a(glucosuri Pdiabetes) | a(glucosuri P

Bayes Factor ===

El factor Bayes se interpreta como que es 30 veces más frecuente encontrar glucosuria en los diabéticos que en los no diabéticos. Vemos que se cumple la regla de Bayes:

5,74130 ODDSprevia Bayes Factor iorODDSposter =!=!=

Como vimos más arriba, la odds posterior era 7,5 y equivalía a dividir 60 entre 8. Esta odds posterior se interpreta como que entre los que tienen glucosuria hay 7,5 diabéticos por cada no diabético (es 7,5 veces más probable ser diabético si se cumple la condición de la glucosuria). Si se transforma la odds en probabilidad, usando la expresión vista

odds1odds+

=p

probabilidad = 7,5/(1+7,5) = 0,882. Esta es la probabilidad posterior, es decir la probabilidad de diabetes condicionada a glucosuria, que ya habíamos calculado.

Si ahora nos cambiasen el problema y nos dijesen que, por ejemplo, en una población con un 10% de diabéticos, el 40% de los diabéticos presentan glucemias por encima de 140 mg/dl y sólo el 5% de los no-diabéticos las presentan, simplemente aplicando el teorema de Bayes podríamos responder a la pregunta de cuál es la probabilidad de que una persona con glucemia superior a 140 sea diabético:

91

9,01,0

diabetes) (no P(diabetes) PODDSprevia ===

805,04,0

diabetes) no | 140(glucemia Pdiabetes) | 140(glucemia P

Bayes Factor ==>

>=

889,098

918 BayesFactor ODDSpreviaior ODDSposter ==!=!=

La odds posterior valdría 8:9. Como hemos dicho, transformar una odds en una probabilidad consiste simplemente en añadir el numerador al denominador.

Page 18: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,2!

Por lo tanto, la probabilidad de ser diabético si se presenta una glucemia >140 mg/dl (éste es el valor predictivo positivo) sería:

=> 140)glu|P(diab 0,889/(1+0,889) = 0,471.

El 47,1% de los que presentan glucemias superiores a 140 mg/dl serán diabéticos en esa población. Esto es lo que más le suele interesar al médico, saber cuál es la probabilidad de enfermedad condicional a que un test diagnóstico sea positivo. Esto se llama valor predictivo positivo. Corresponde a la probabilidad a posteriori. Su odds es la odds posterior. PLANTEAMIENTO BAYESIANO Imaginemos que una enfermedad (E) se da en los pacientes que acuden a urgencias con una relativa baja frecuencia, en concreto, se sabe que hay 1 persona con esa enfermedad por cada 200 que no la padecen. Esta será nuestra odds previa a cualquier otra información. Nuestra presunción de que la padezca algún paciente que llega a urgencias, antes de saber nada más de él, será que su odds de padecer esta enfermedad es 1 : 200. Pero le aplicamos dos pruebas y ambas resultan positivas. Cada prueba puede ser positiva o negativa. Las características de las pruebas 1 y 2 son:

Prueba 1 Prueba 2 Sensibilidad 90%: p(prueba1+|E) = 0,9 70%: p(prueba2+|E) = 0,7 Especificidad 80%: p(prueba1-|nE)= 0,8 99%: p(prueba2-|nE)= 0,99

El planteamiento bayesiano será el que recoge la figura 8.1 Figura 8.1. Evolución sucesiva de la odds de enfermedad al resultar 2 pruebas diagnósticas

positivas.

En la figura 8.1 se comprueba como la odds se va multiplicando por el Factor Bayes de cada

prueba a medida que las pruebas van dando resultados positivos. Este proceso podría continuar con sucesivos pasos donde siempre se parte de la odds obtenida en el paso previo. Pero, en el ejemplo, ya con dos pruebas positivas, la decisión debería ser que el paciente tiene la enfermedad, ya que es más probable que la tenga que su contrario. Al principio se nos han dado las probabilidades de un resultado u otro de la prueba condicionada a la enfermedad. Al final estimamos una odds de enfermedad condicionada a los resultados observados en las pruebas. Este es el fundamento de la estadística bayesiana. La estadística frecuencista convencional calcula las probabilidades de que ocurra un resultado condicionadas a que una hipótesis sea cierta (pero no se valora cuál es la probabilidad de que esa hipótesis sea cierta). La estadística bayesiana en cambio calcula la probabilidad de que la hipótesis sea cierta condicionada a los resultados obtenidos. Al factor Bayes, en el contexto de las pruebas diagnósticas se le llama también razón de verosimilitud (likelihood ratio).

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,0!

DISTRIBUCIÓN NORMAL Es una distribución de probabilidad teórica para variables continuas. Tiene forma de campana,

es simétrica, mesocúrtica y en ella la media, la mediana y la moda coinciden. Esta distribución de frecuencias, se usa mucho en bioestadística y es conocida como campana de Gauss. En una campana de Gauss el eje horizontal o de abscisas corresponde a cada uno de los valores posibles de la variable que se estudia, mientras que el eje vertical (ordenadas) corresponde a la probabilidad de que ocurran los valores. Pero la probabilidad de un valor individual aislado teóricamente es 0, y sólo el área que queda bajo la curva correspondiente a un cierto intervalo de valores es el que se interpreta como la probabilidad de que ocurra alguno de los valores contenidos en ese intervalo. La probabilidad de un valor concreto es 0 porque el modelo matemático de la distribución normal es el de una variable continua y en esta situación hablar de un valor concreto supondría una exactitud absoluta y radical.

Por ejemplo, si sabemos que el nivel de colesterol total de una población sigue una distribución normal y se nos pregunta cuál es la probabilidad de que alguien tenga un colesterol=200 mg/dl, tendremos que decir que dicha probabilidad es 0, porque no nos estamos refiriendo a que tenga un nivel de colesterol entre 199,5 y 200,5 mg/dl, ni entre 199,9 y 200,1 mg/dl, sino exactamente 200,000000000000, y habría que ampliar los dígitos decimales hasta el infinito. Nadie tiene exactamente esa cifra de colesterol.

La solución con la distribución normal es valorar siempre la probabilidad de un rango de valores entre dos límites. Esto sí puede hacerse, por cercanos que sean los límites. Es preciso advertir por tanto que las variables continuas (colesterol, tensión arterial, edad) tienen (teóricamente) un número infinito de posibles valores. En estos casos no tiene sentido hablar de la probabilidad de que un sujeto presente un determinado valor puntual de colesterol, puesto que, como tal, no puede ser calculada. En estos casos hablamos de densidad de probabilidad, un concepto que se refiere a la probabilidad de que un sujeto tenga un valor incluido en un determinado intervalo entre dos valores. Así, cuando trabajamos con variables continuas, se tiende a realizar el límite de cada una de las barras de los histogramas o diagramas de barras de los que hemos comenzado hablando, logrando con ello una distribución mucho más suave, pero en la cual, las alturas ya no son probabilidades, sino densidades de probabilidad, y así ya no tiene sentido hablar de que haya una probabilidad de que se dé cada posible valor concreto de la variable, sino que tan sólo podemos calcular probabilidades para intervalos entre dos valores.

Figura 8.2. Campana de Gauss, distribución normal.

En la figura 8.2. la suma de todo el área bajo la curva (desde !" hasta +") tiene una

probabilidad del 100%. La altura de la ordenada no se puede interpretar como la probabilidad de que ocurra un valor particular (esta probabilidad sería cero en una variable continua) sino que corresponde al concepto de densidad de probabilidad. Algunas de las variables estudiadas en medicina y en ciencias de la salud suelen seguir una distribución normal o de Gauss, siendo más frecuentes los valores intermedios y más raros los de los extremos. ¿Por qué este tipo de distribución, en la que los valores centrales son muy frecuentes y en cambio los valores alejados del centro (colas) son raros está muy presente?. Para resolver esta cuestión podríamos preguntarnos por ejemplo: ¿de qué depende la altura de una persona? Sin ánimo de ser exhaustivos responderíamos:

1-De la altura de su padre.

Page 19: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,.!

2-De la altura de su madre. 3-De su nutrición (cantidad de energía consumida) durante la infancia y adolescencia . 4-De la velocidad de maduración de su esqueleto (en esto influyen los niveles hormonales, la edad en la que aparece la pubertad, etc). 5-Del aporte que reciba de vitamina D (ésta a su vez se ve influenciada por la exposición mayor o menor a la luz solar) . 6-Del aporte de calcio. 7-Del ejercicio físico. 8-De sus niveles de hormona de crecimiento. 9-etc... (aquí se incluyen muchos otros factores, algunos de ellos desconocidos actualmente). Podemos pensar que estos 9 factores son como 9 dados que puntúan alto o bajo. Sería muy

raro encontrar un caso en que todos simultáneamente puntuaran tan alto que resultara un individuo con 2,40 m de altura. Lo más frecuente es que unos "dados" puntúen alto, otros bajo y muchos en posiciones intermedias. Esto pasa con la mayor parte de las características de los seres vivos: peso, talla, frecuencia cardiaca, número de respiraciones por minuto, colesterol en sangre, presión arterial, etc. todas estas variables dependen de muchos factores, todos ellos sometidos a su vez a una amplia variabilidad biológica y por ello suelen seguir una distribución que se aproxima a la normal. La distribución normal es la indicada para datos que siguen una escala -al menos en teoría- continua (peso, talla, edad, colesterol, tensión arterial, ácido úrico, bilirrubina, etc.) y además posee la ventaja de que otras distribuciones, bajo ciertas condiciones, acaban aproximándose a ella, como sucede con la distribución binomial (para sucesos dicotómicos) cuando " se aproxima a 0,5 y n es grande. También se aproxima a la normal la suma de varias distribuciones uniformes. Esto es lo que sucede con la suma de varios dados. La distribución normal se conoce también como curva o Campana de Gauss, en honor del matemático que la describió, y es muy útil en estadística por las razones mencionadas. La distribución normal teórica nunca se da exactamente en la realidad, sólo hay aproximaciones a ella, pero se puede expresar como ecuación matemática. No es preciso conocer esta expresión matemática para resolver la mayor parte de los problemas relativos a la distribución normal. Al ser expresada como un modelo o ecuación, la distribución se hace continua y teóricamente hay infinitos puntos, infinitos valores posibles. En teoría, su eje horizontal (abscisas) se extiende desde menos infinito hasta más infinito. En general, una distribución normal se caracteriza por:

1) Tener forma de campana. 2) Ser simétrica. 3) No ser excesivamente plana ni excesivamente picuda (mesocúrtica). 4) Coincidir en ella la media, la mediana y la moda. 5) Tener aproximadamente el 95% de sus valores dentro del intervalo µ ± 2 # (media ± 2

desviaciones estándar). Exactamente, el 95% de los individuos se encuentra dentro del intervalo comprendido por µ ± 1,96 #. Incluso podemos afirmar que casi el 100% de los valores están dentro del intervalo µ ±3 #.

6) Ser la distribución muestral que siguen los índices o estimadores estadísticos calculados en una muestra.

Lo más importante de todo es que cualquier distribución aunque no siga una normal, tiende a ella en su distribución muestral. Por ejemplo, si tomamos 1000 muestras distintas, todas del mismo tamaño (por ejemplo, de 30 individuos) de la distribución uniforme (lanzamiento de un sólo dado) y a todas ellas les calculamos su media y con estas 1000 medias hacemos una distribución de frecuencias, nos vuelve a aparecer la campana de Gauss. Aunque la población de la que proceden las muestras no siga una distribución normal, los estimadores calculados en las sucesivas muestras sí la siguen, siempre que las muestras tengan suficiente tamaño (n>30). CÁLCULOS BÁSICOS CON UNA DISTRIBUCIÓN NORMAL Desde el punto de vista práctico también es muy importante adquirir familiaridad con un procedimiento que sirve para responder a muchas preguntas sobre una variable que sigue una distribución normal. Estas preguntas se puedan responder con una tabla y unos sencillos cálculos (sumar, restar, multiplicar y dividir).

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,3!

El procedimiento consiste en “tipificar” o estandarizar la normal. Se trata simplemente de transformar una determinada distribución normal en otra que tenga una media igual a 0 y una desviación estándar igual a 1. Esto consigue que cualquier valor represente una distancia a la media expresada como el número de desviaciones estándar en que ese valor se aleja de la media. Habrá valores positivos, los que están por encima de la media y valores negativos, los que están por debajo de la media. Para eso se emplea la siguiente ecuación: Donde x es la antigua variable y z es la nueva variable que ya sigue una distribución normal de media=0 y desviación estándar=1. Para devolver la transformación a su estado original tendremos:

X = µ +!z Por ejemplo, si la media de tensión arterial sistólica de una población es 120 mmHg y la desviación estándar es 25 mmHg, y se asume que sigue una distribución normal, podemos responder a diversas preguntas con sólo unos cálculos muy sencillos. Así, si queremos saber qué proporción de personas tiene más de 170 mmHg, habrá que calcular el valor z que corresponde a 170: ¿Qué ventaja nos ofrece saber que 170 mmHg corresponde a un valor de z = +2?. En primer lugar sabemos que está a 2 desviaciones estándar por encima de la media. En segundo lugar, existen tablas que nos dicen cuál es la probabilidad de que se dé un valor superior o inferior a cada valor de z. Esas son las tablas de la distribución normal que vienen en todos los libros de estadística. Estas tablas están encabezadas por una frase que dice “Dentro de la tabla se proporciona el valor de p para +z o para -z”. Como z es positiva, nos dará el valor de la zona por encima de z. Para buscar una z= +2,00 hay que localizar el valor correspondiente a 2,0 (en la primera columna) y ,00 (en la primera fila). La probabilidad “p” correspondiente al área de la cola que está a la derecha de un valor de z=+2 es 0,0228. Es decir, el 2,3% de los individuos tendrán valores superiores a 170 mmHg. También se pueden obtener la probabilidad correspondiente a cada z en excel con la expresión:

= DISTR.NORM.ESTAND (-z) En nuestro ejemplo

= DISTR.NORM.ESTAND (-2) y devolverá

p = 0.028 En Excel siempre se debe meter con signo negativo, porque siempre da la cola de la izquierda. En el software Stata se debe introducir:

display normal(-2) y devolverá p = 0.028 Para saber cuántas personas tienen tensiones arteriales sistólicas entre 160 y 180 mmHg tendremos que hacer lo mismo con 180 (le calculamos su z y es +2,40; a continuación buscamos en la tabla y nos dice que el 0,8% (0,0082) de las personas tendrán valores por encima de z=+2,40. A continuación hay que hacer lo mismo con 160 y su z valdrá +1,60. Recordemos que esto simplemente significa que 160 está a 1,6 desviaciones estándar por encima de la media. La probabilidad que nos da la tabla de que alguien esté a más de 1,60 desviaciones estándar de la media es del 5,5% (0,0548). Lo único que queda es restar 0,8% de 5,5%. • Si hay un 0,8% de resultados por encima de 180 • Y hay un 5,5% por encima de 160 • ¿Cuántos habrá entre 160 y 180?

!µ"

=x

z

225120170

+=!

=!

="µx

z

Page 20: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! ,4!

5,5% - 0,8% = 4,7% La solución es que el 4,7% de las personas de esa población tienen tensiones sistólicas comprendidas entre esos valores (160-180 mm Hg). También podemos preguntarnos: ¿Qué valor deja al 90% de las personas por debajo de él? Esto supone exactamente preguntarnos por cuál es el percentil 90. Para hacerlo hay que recorrer un camino similar, pero al revés, empezando por mirar las tablas: 1º Buscamos en las tablas qué valor de z deja 0,1 por encima. Este valor es z=1,28. 2º Calculamos x a partir de z. Este valor es 152 mm Hg.

x = µ + z# = 120 + (1,28 x 25) = 152 Imaginemos otro ejemplo. ¿Cuál es la proporción de individuos de una población (sigue una distribución normal) que se encuentran entre los valores 20 y 35, si la media vale 30 y la desviación estándar 10? Los valores z respectivos serán –1 y +0,5 para 20 y 35. El área bajo la curva que nos interesa calcular es la delimitada por los valores -1 y +0.5 en la figura 8.2. Para resolver el problema bastará con restar de 1 la suma de las probabilidades que quedan a la derecha y a la izquierda del área central, que es la que nos interesa. • Si hay un 15,9% de individuos por debajo de z= -1 • Y hay un 30,9% por encima de z=+0,5 • ¿Cuántos habrá entre z=-1y z=+0,5?

100% - (15,9% + 30,9%) = 53,2%

!"#$%&'()%*+%*,(-"#%.*/0%*/0%+(&*%&*+1,%#.".*1&'%#,(-".*%&*0&(*+1.'#120$13&*&"#4(-56*

Desviaciones estándar (z)

% valores en cada cola (p a 1 cola) % central (media ±zs)

1 15,85 68,3 1,28 5 90 1,96 2,5 95 2,58 0,5 99

3 0,15 99,7 67!689':!&'!;<'+'!=7>($+<9=(!:*!'8;('&=?7!@ABCDEFGHEIF6CDJGAKLM!N!+*(O!':!O('*!P<'!P<'+*!'7!:*!9$:*!+%*-(*17/01%#+(!;*(*!9*+*!)*:$(!+'!L!P<'!&'!'&9(=%*/!;$(!'Q'R;:$S!@ABCDEFGHEIF6CDJGAKT#M!+')<':)'!;@5/5#,!K"!9$:*MF!

!U*! +=&>(=%<9=?7! 7$(R*:! '&! :*! +=&>(=%<9=?7! P<'! &=V<'7!R<9W$&! X7+=9'&! $! '&>=R*+$('&!

'&>*+X&>=9$&!9*:9<:*+$&!'7!<7*!"#$%&'(F!6&>*!;($;='+*+!'&!:*!RO&!=R;$(>*7>'F!C=V7=Y=9*!P<'!&=!&'!>$R*7!R<'&>(*&!+'!<7*!;$%:*9=?7!P<'!&=V<'!9<*:P<='(!+=&>(=%<9=?7!*<7P<'!7$!&=V*!<7*!7$(R*:/! :$&! '&>=R*+$('&! P<'! &'! 9*:9<:'7! '7! :*&! &<9'&=)*&! R<'&>(*&! >'7+'(O7! *! :*!+=&>(=%<9=?7! 7$(R*:F! J<7P<'! :*! ;$%:*9=?7! +'! :*! P<'! ;($9'+*7! :*&!R<'&>(*&! 7$! &=V*! <7*!+=&>(=%<9=?7! 7$(R*:/! :$&! '&>=R*+$('&! 9*:9<:*+$&! '7! :*&! &<9'&=)*&! R<'&>(*&! &X! :*! &=V<'7/!&='R;('!P<'!:*&!R<'&>(*&!>'7V*7!&<Y=9='7>'!>*R*Z$!K7[,5MF!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!5 Los datos excluidos del intervalo se reparten a ambos lados de la distribución normal.!

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -5!

9. CONCEPTOS BÁSICOS DE BIOESTADISTICA (adaptado del Compendio de salud pública)

C'V\7!<7*!Y=V<(*!&'Z'(*!;*(*!:*!&*:<+!;\%:=9*/!]:$('79'!G=VW>=7V*:'0/!W*N!V(*7+'&!

(*L$7'&!;*(*!*;('7+'(!'&>*+X&>=9*S!!)*!#+,$'%&(+,!-*,.%!&/*#0/&%!1$!"#%&!%&#,2!%&(&3%&34%!!

5*'!&/$%$!('$!&/$!"$(%#'$%!*5!63%!7#'7*%$!89:6!!;<=>?@<=AB>*?;<BCA!=AD>!!)89:;!<=!>?@8?AB=;!

!

Para trabajar con variables cualitativas se usan proporciones (p), mientras que para trabajar con

variables cuantitativas se usan habitualmente sus medias ( ). !

C=<8<?;!<=!)=D<=DE8?!E=D)@?B!6&>=R*7! 9<O:! '&! ':! )*:$(! RO&! >X;=9$! $! (';('&'7>*>=)$! +'! <7*! R<'&>(*F! U*!"$,3(!

('3&"F&34(!$&!':!;($R'+=$!+'!>$+$&!:$&!)*:$('&!N!'&!:*!R'+=+*!+'!>'7+'79=*!9'7>(*:!RO&!<&*+*F!^$(!'Q'R;:$/!:*!R'+=*!*(=>R_>=9*!+'!:$&!)*:$('&!"/!#!N!,!'&!#S!

!! !

6:! =79$7)'7='7>'! +'! :*! R'+=*! *(=>R_>=9*! '&! P<'/! '7! R<'&>(*&! ;'P<'Z*&/! &'! +'Q*!=7Y:<=(!R<9W$! ;$(! )*:$('&! '8>('R$&/! ;$(! '&$! &'! +=9'! P<'! '&! ;$9$! ($%<&>*F! C=! ':! >'(9'(!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!6 Vivió en Inglaterra de 1820 a 1910. Es considerada la pionera de la enfermería moderna. Fue rebelde frente a los prejuicios de su época. Destacó inicialmente en la guerra de Crimea. Tanto allí como en otros conflictos bélicos sus brillantes acciones -basadas en evidencias- para organizar la atención sanitaria lograron descender dramáticamente la mortalidad. Fue la primera mujer miembro de la Royal Statistical Society británica. Su frase puede traducirse como: Debemos estudiar estadística para comprender la mente de Dios, porque en ella están las medidas de Sus designios.!

x

( )2

3321=

++== !

nx

x i

Cualitativas

6&9*:*!7$R=7*:!J/!`/!a!

!Característica o cualidad que la persona posee o no posee. Si sólo hay dos categorías: variables dicotómicas o binarias. Los posibles valores son excluyentes. Permiten: 1) clasificar o diferenciar (igualdad/desigualdad)

6&9*:*!$(+=7*:!B/!BB/!BBB!

C<&!)*:$('&!&$7!Q'(*(P<=L*%:'&!N!$(+'7*%:'&F!J+'RO&!+'!!!!!!!"M!9:*&=Y=9*(!$!+=Y'('79=*(/!;'(R=>'7S!!! ! #M!Q'(*(P<=L*(/!$!*&=V7*(!'(+0*%F!

Cuantitativas!

Discreta 2, 6, 33

C?:$!;<'+'7!>$R*(!)*:$('&!7<R_(=9$&!'7>'($&F!C<&!)*:$('&!&$7!Y=7=>$&!N!7$!*+R=>'7!+'9=R*:'&F!J+'RO&!+'!"M!9:*&=Y=9*(!$!+=Y'('79=*(!N!#MQ'(*(P<=L*(/!;'(R=>'7S!! ! !!!!!!,M!9$7>*(!N!!!!!!! !!!!!!-M!('*:=L*(!$;'(*9=$7'&!*:V'%(*=9*&F!

a$7>=7<*!4F,/!#3F40!

6&9*:*!+'!(*L?7F!C$7!7<R_(=9*&!N!*+R=>'7!9<*:P<='(!9*7>=+*+!=7>'(R'+=*!'7>('!+$&!;$&=%:'&!)*:$('&!K+'9=R*:'&MF!^'(R=>'7S!! "M!9:*&=Y=9*(!$!+=Y'('79=*(!!! ! ! #M!Q'(*(P<=L*(!!! ! ! ,M!R'+=(!!! ! ! -M!$;'(*9=$7'&!*:V'%(*=9*&F!!

Page 21: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -"!

)*:$(!'7!)'L!+'!&'(!,!Y<'&'!#-/!:*!R'+=*!*(=>R_>=9*!&<%=(X*!*!4F!67!9*R%=$/!:*!"$,3(+(!+*!%$!,$G(!3+5H#3'!7*'!$I&'$"*%J!N*!P<'!'&!*P<':!)*:$(!P<'!+'Q*!:*!R=>*+!+'!:*&!$%&'()*9=$7'&!;$(! +'%*Q$! N! :*! R=>*+! ;$(! '79=R*! K&=! :$&! +*>$&! &$7! ;*('&/! &'(X*! :*! R'+=*! +'! :$&! +$&!)*:$('&! 9'7>(*:'&MF! C'(X*! #! '7! *R%$&! 9*&$&F! C=()'! >*R%=_7!;*(*!)*(=*%:'&! ! $(+=7*:'&F! C<!=79$7)'7='7>'! '&! P<'! 7$! <&*! >$+$&! :$&! +*>$&F! U*! "$,3(! 7*+,$'(,(! *&*'0(! *! <7*&!$%&'()*9=$7'&! RO&! =R;$(>*79=*! $! ;'&$! Kb=M! P<'! *! $>(*&F! ^$(! 'Q'R;:$/! &=! :*! >'(9'(*!$%&'()*9=?7!K,M!>='7'!<7!;'&$!+':!35c!N!:*&!$>(*&!+$&!K"!N!#M!&?:$!+':!"5cS!

C$,3(!7*+,$'(,(K! !

U*!"*,(!'&!*P<':!)*:$(!P<'!&'!(';=>'!9$7!R*N$(!Y('9<'79=*F!!!

C=<8<?;!<=!9:;8E8LD!B7+=9*7! ':! :<V*(! $! ':! $(+'7! P<'! $9<;*! <7! +*>$! +'7>($! +'! :*! +=&>(=%<9=?7! *! :*! P<'!

;'(>'7'9'F!U$&!9#(+&3H$%!B7+=9*7!P<_!;<'&>$!>='7'!<7!+'>'(R=7*+$!)*:$(!+'!<7*!)*(=*%:'!'7!':!9$7Q<7>$!$(+'7*+$!+'!:$&!+*>$&!8E:F!U$&!;'(9'7>=:'&!+=)=+'7!:*!R<'&>(*!'7!;*(>'&!;$(9'7><*:'&!*9<R<:*>=)*R'7>'F!^$(!'Q'R;:$!':!;'(9'7>=:!,5!'&!':!)*:$(!P<'!+'Q*!':!,5c!+'!:*&!$%&'()*9=$7'&!+'!:*!R<'&>(*!;$(!+'%*Q$F!C$,3(+(!@7$'4$+&3H!MNF!!

!C=<8<?;!<=!<8;9=@;8LD!

6&>=R*7! :*! )*(=*%=:=+*+! +'! :$&! +*>$&F! U*! )('3(+O(S! &'! ;*('9'! *:! ;($R'+=$! +'! :*&!+'&)=*9=$7'&!9<*+(O>=9*&!+'!9*+*!)*:$(!('&;'9>$!*!:*!R'+=*/!;'($!&<!+'7$R=7*+$(!'&!7T"!'7! )'L! +'! &'(! 7F! 6&>'! +'7$R=7*+$(! K7T"M! 9$(('&;$7+'! *! :$&! 0'(,*%! ,$! H3P$'&(,! +'! :*!)*(=*7L*F! J:! 7<R'(*+$(! +'! :*! )*(=*7L*! &'! :'! 9$7$9'! 9$R$! %#"(! ,$! 4#(,'(,*%F! ^$(!'Q'R;:$/!:*!)*(=*7L*!+'!,!)*:$('&/!"/!#!N!,/!&'(OS!

>('3(+O(!"#$%&'(H!Q%RSK !

6:! =79$7)'7='7>'! +'! :*! )*(=*7L*! '&! P<'! >='7'! <7=+*+'&! *:! 9<*+(*+$! +'! :$&! +*>$&!$(=V=7*:'&F!U*!,$%T3(43U+!$%&V+,('!*!,$%T3(43U+!&W734(!':=R=7*! :*&!<7=+*+'&!*:! 9<*+(*+$/!;<'&!9$7&=&>'!'7!'8>(*'(! :*!(*XL!9<*+(*+*!+'!:*!)*(=*7L*F!U*!+'&)=*9=?7!>X;=9*!K&M!>='7'/!;$(!>*7>$/!:*&!R=&R*&!<7=+*+'&!P<'!:*!R'+=*!N!'&!':!X7+=9'!+'!+=&;'(&=?7!RO&!<>=:=L*+$S!

%!K !

6:! 4*$5343$+&$! ,$! T('3(43U+! 9$R;*(*! :*! +=&;'(&=?7! +'! )*(=*%:'&! 9$7! +=&>=7>*&!<7=+*+'&!K'&!*+=R'7&=$7*:MF!6&!':!9$9='7>'!'7>('!+'&)=*9=?7!>X;=9*!N!R'+=*!*(=>R_>=9*S!

!E*$5343$+&$!,$!T('3(43U+K !

C'!&<':'!'8;('&*(!'7!;$(9'7>*Q'!K'7!':!'Q'R;:$/!':!9$'Y=9='7>'!+'!)*(=*9=?7!=7+=9*(X*!P<'!:*!+'&)=*9=?7!>X;=9*!'&!':!25c!+'!:*!R'+=*MF!^$+(X*!&'(!["55cF!

d7! 9$79';>$! >(*&9'7+'7>*:! '7! '&>*+X&>=9*! '&! ':! +'! $''*'! $%&V+,('! Q==S! +'! <7!'&>=R*+$(! K*! 7$! 9$7Y<7+=(! 9$7! :*! +'&)=*9=?7! '&>O7+*(MF! 6:! 66! R=+'! ':! V(*+$! +'!+=&;'(&=?7! +'! :$&! '&>=R*+$('&! R<'&>(*:'&! +'! >$+*&! :*&! ;$&=%:'&! R<'&>(*&! +'! =V<*:!>*R*Z$!P<'!&'!;<+='&'7!$%>'7'(!*:'*>$(=*R'7>'!+'!<7*!;$%:*9=?7F!J!R$+$!+'!'Q'R;:$/!&'!;('&'7>*7!:$&!66!+'!<7*!R'+=*!N!+'!<7*!;($;$(9=?7S!!

9('(!#+(!"$,3(X! ! 9('(!#+(!7'*7*'43U+X! !

a*+*!'&>=R*+$(!>='7'!&<!;($;=$!'(($(!'&>O7+*(!9$7!&<!9$(('&;$7+='7>'!Y?(R<:*F!@(+0*!3+&$'4#('&WH34*X!6&!:*!+=Y'('79=*!'7>('!':!;'(9'7>=:!.2!N!':!;'(9'7>=:!#2F!

!! !

( )( ) 2,7

0,80,10,130,820,110,1

ww

i

ii =++

!+!+!==

"" x

( ) ( ) ( ) ( )1

13232221

1nx 2222

=!

!+!+!=

!

!= " xi

( )11

1nx

2

==!

!= " xi

%5010021100

media tipicaDesviacion

=!=!=xs

ns

EEx=

nppEEp)1( !

=

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -#!

@=9@=;=D)?E8:D=;!-@YZ8E?;!*

=(2-(*5696*C%F#%.%&'($1"&%.*G#HI1$(.*.%GJ&*%-*'1F"*+%*,(#1(2-%.6*D(#1(2-%* C%F#%.%&'($13&*G#HI1$(* B(#($'%#K.'1$(.*a<*:=>*>=)*&!7$R=7*:'&!

e(OY=9$!+'!&'9>$('&!

!!!!!!!!!!! !!!!

U*! Y('9<'79=*! '&! ;($;$(9=$7*:! *:!O('*F!

a<*:=>*>=)*&!$(+=7*:'&!!a<*7>=>*>=)*&!+=&9('>*&!

A=*V(*R*!+'!%*((*&!

!!!!!!!!!! !

U*!Y('9<'79=*!'&!;($;$(9=$7*:!*!:*!*:><(*!+'!:*&!%*((*&F!

a<*7>=>*>=)*&!9$7>=7<*&!

f=&>$V(*R*!

!!!!!!!!!!!!! gg!

U$&! ('9>O7V<:$&! &'! (';('&'7>*7!Q<7>$&F! 6:! ;<7>$! R'+=$! +':!=7>'()*:$!;<'+'!+*(!>X><:$!*!9*+*!('9>O7V<:$F! U*! Y('9<'79=*! '&!;($;$(9=$7*:! *:! O('*! +'! :*&!%*((*&F!

! ^$:XV$7$!+'!Y('9<'79=*&!

!!!!!!!!!!!!! !

C'!$%>='7'!<7='7+$!9$7!<7*! :X7'*!:*&! Y('9<'79=*&! +'! :$&! ;<7>$&!R'+=$&! +'! :$&! =7>'()*:$&! +'! <7!W=&>$V(*R*F!

! ^$:XV$7$! +'! Y('9<'79=*&!*9<R<:*+*&!

!!!!!!!!!!!!! !

C'! &<R*7! :*&! Y('9<'79=*&! +'! :$&!=7>'()*:$&!;('9'+'7>'&F!E';('&'7>*! 9<O7>$&! &<Q'>$&! +'! :*!R<'&>(*!;('&'7>*7!;$(!:$!R'7$&!<7! +'>'(R=7*+$! )*:$(! +'! :*!)*(=*%:'F!

! e(OY=9$&!+'!9*Q*!

!

C'! (';('&'7>*7! :*! R'+=*7*/! ':!(*7V$! =7>'(9<*(>X:=9$/! N! :$&!)*:$('&! (*($&! K;'(=Y_(=9$&! $!*#&H3$'%[ MF! 67! '&>'! 'Q'R;:$! 7$!W*N!$<>:='(&F!!

! e(OY=9$!+'!+=&;'(&=?7!

!!!!!!!!!!!! !

E';('&'7>*! :*! (':*9=?7! '7>('! +$&!)*(=*%:'&!7<R_(=9*&!9$7>=7<*&F!!

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!7 Un valor periférico es aquél que está muy alejado por arriba del percentil 75 o por abajo del percentil 25.!

321

Grupo

DCBA

Frecuencia

80

60

40

20

0

Frecuencia

60

50

40

30

20

10

0

57

3833

49

4

25

9

11,010,09,08,07,06,05,04,03,02,0

0

5

10

15

20

25

A B C D E F

0

10

20

30

40

50

60

A B C D E F

10

8

6

4

x1086420

y

10

8

6

4

2

0

Page 22: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -,!

AL=;CD>MN<*?;*BNLOA>LP>*Q*BNL=C><=;<*?;*RA!S=;<A<*!=@@:@!;8;)=CY)8E:!\!=@@:@!?B=?):@8:!

U$&!'(($('&!&=&>'RO>=9$&!$!&'&V$&!'&>O7!;($+<9=+$&!;$(!<7!+'Y'9>$!+':!=7&>(<R'7>$!+'! R'+=+*! $! ;$(! <7*! >'7+'79=*! '((?7'*! +'! $%&'()*+$(! N/! ;$(! >*7>$/! >='7+'7! *!('V=&>(*(&'! '7! ':! R=&R$! &'7>=+$F! U$&! '(($('&! *:'*>$(=$&! $! *99=+'7>*:'&! &$7! *P<'::$&!+'%=+$&!*!;'P<'Z*&!9*<&*&!=R;$7+'(*%:'&!'!=R;$&=%:'&!+'!9$7>($:*(!8T:F!!!

=(2-(*56T6*?1I%#%&$1(.*%&'#%*%##"#%.*(-%('"#1".*U*%##"#%.*.1.'%4H'1$".6*6EEHE!JU6JDHEBH! 6EEHE!CBCD6IhDBaH!

- Impredecible - Simétrico - Inevitable, aunque estimable - No afecta a la validez interna ni externa - Equivale a falta de precisión - Estimación y control " Estadística

- Predecible - Asimétrico - Corregible - Afecta a la validez interna y/o externa - Equivale a falta de validez (sesgo) - Prevención y control " Epidemiología

]<'7>'S!8E:F!!8D)=@>?B:;!<=!E:DZ8?D]?!

E*+4$7&*!,$! 3+&$'T(H*!,$! 4*+53(+O(X!a*&=! &='R;('! ('&<:>*! =R;(*9>=9*%:'! ('9$V'(! :*!=7Y$(R*9=?7!+'!:*&!)*(=*%:'&!+'!=7>'(_&!+'!>$+*!:*!;$%:*9=?7F!^$(!'::$/!&'!&<':'!>(*%*Q*(!9$7! R<'&>(*&! '8>(*X+*&! +'! <7*! ;$%:*9=?7! '7! :*&! P<'! &'! +'>'(R=7*7! :$&! $%&3"(,*'$%!R<'&>(*:'&!KR'+=*/!;($;$(9=?7/!'>9FMF!J!;*(>=(!+'!'::*&/!&'!7'9'&=>*!=7+*V*(!<7!(*7V$!+'!)*:$('&! +$7+'! &'*! 9('X%:'! P<'! &'! '79<'7>('! ':! )'(+*+'($! ;*(OR'>($! ;$%:*9=$7*:!K)'(+*+'(*!R'+=*!+'! :*!;$%:*9=?7! >$>*:/!)'(+*+'(*!;($;$(9=?7/!'>9FM!P<'!7$!'&! Y*9>=%:'!+'>'(R=7*(!K;<'&!;*(*!W*9'(:$!&'!W<%='&'7!('P<'(=+$!:$&!+*>$&!+'!&*,(!:*!;$%:*9=?7MF!J:!(*7V$! <! W$(P<=::*! +'! )*:$('&! 9('X%:'&! ;*(*! '&'! ;*(OR'>($! ;$%:*9=$7*:! P<'! *W$(*! '&!=7*99'&=%:'!&'! :'!+'7$R=7*! 3+&$'T(H*!,$!4*+53(+O(!8TV5:F! C'!9*:9<:*!':! =7>'()*:$!<&*7+$!&?:$! :$&! +*>$&! +'! :*! R<'&>(*F! ^'($! '7! '&'! =7>'()*:$! 4'$$"*%! $! 9$7Y=*R$&! P<'! '&>*(O!=79:<=+$!':!)'(+*+'($!)*:$(!;$%:*9=$7*:!K;*(OR'>($MF!U$! =R;$(>*7>'!'&!&*%'(!P<'!&=!&'!(';=>='&'! ':! R<'&>('$! "55! )'9'&! N! *! ;*(>=(! +'! :*&! "55! R<'&>(*&! &'! 9*:9<:*&'7! "55!=7>'()*:$&! +'! 9$7Y=*7L*! *:! 42c/! W*%(X*! 42! =7>'()*:$&! P<'! ('*:R'7>'! 9$7>'7+(X*7! *:!)'(+*+'($!)*:$(!+':!;*(OR'>($!;$%:*9=$7*:!N!2!P<'!7$!:$!9$7>'7+(X*7F!!

EVH4#H*!,$!3+&$'T(H*%!,$!4*+53(+O(X!U$&!=7>'()*:$&!+'!9$7Y=*7L*!&'!9*:9<:*7!<&*7+$!':!'(($(! '&>O7+*(! K66M/! P<'! '&! <7! =7+=9*+$(! +'! :*! )*(=*%=:=+*+! +'! :$&! '&>=R*+$('&!9*:9<:*+$&! '7! R<9W*&! ;$&=%:'&! R<'&>(*&! +'! =V<*:! >*R*Z$! P<'! &'! >$R'7! +'! <7*!;$%:*9=?7F!67!+'Y=7=>=)*/!':!66!+'!<7!'&>=R*+$(!R=+'!':!V(*+$!+'!=79'(>=+<R%('!('&;'9>$!*!:*!9*;*9=+*+!+'!'&'!'&>=R*+$(!;*(*!*)'(=V<*(!':!;*(OR'>($!;$%:*9=$7*:!8W:F!!!

6:!9O:9<:$!+':!=7>'()*:$!+'!9$7Y=*7L*!;('&<;$7'!P<'!:$&!'&>=R*+$('&!R<'&>(*:'&!+'!<7!;*(OR'>($!&=V<'7!<7*!+=&>(=%<9=?7!7$(R*:!K>'$('R*!9'7>(*:!+':!:XR=>'MF!!

!U*! Y?(R<:*! ;*(*! ':! 9O:9<:$! +':! =7>'()*:$! +'! 9$7Y=*7L*! )*(X*(O! '7! Y<79=?7! +':!;*(OR'>($!P<'!&'!+'&''!'&>=R*(F!C=7!'R%*(V$/!'7!V'7'(*:/!;$+'R$&!*Y=(R*(!P<'S!

! ! 9('V"$&'*!7*PH(43*+(H! !$%&3"(,*'!^!OI==!JP<X/!L!'&!':!)*:$(!9$(('&;$7+='7>'!*!:*!+=&>(=%<9=?7!7$(R*:F!

!E:D)@?;)=!<=!689L)=;8;!

d7!9$7>(*&>'!+'!W=;?>'&=&!=R;:=9*!<7*!9$R;*(*9=?7!'7>('!<7!$5$4&*!N!:*!)*(=*%=:=+*+!*:'*>$(=*! '&;'(*+*! K$''*'MF! C=! :*!R*V7=><+!+':! 'Y'9>$! $%&'()*+$! '7! :*!R<'&>(*! '&!R<N!&<;'(=$(!*:!'(($(/!&'!+=(O!P<'!:*!R<'&>(*!*;$N*!:*!'8=&>'79=*!+'!>*:!'Y'9>$!'7!:*!;$%:*9=?7F!C=! ':! 'Y'9>$! $%&'()*+$! '7! :*! R<'&>(*! '&! &=R=:*(! $! =7Y'(=$(! '7! R*V7=><+! *:! '(($(/! &'!9$79:<=(O!P<'!:*!R<'&>(*!7$!*;$N*!:*!'8=&>'79=*!+'!+=9W$!'Y'9>$F!^*(*!>$R*(!<7*!<!$>(*!+'9=&=?7/!&'!'&>*%:'9'7!+$&!W=;?>'&=&!K*!7=)':!+'!:*!;$%:*9=?7MS!

!

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! --!

• 637U&$%3%!+#H(!Q6NSS!R*7>='7'!P<'!':!'Y'9>$!+'!=7>'(_&!7$!'8=&>'!K'&!7<:$/!'&!+'9=(/!)*:'!5M!'7!:*!;$%:*9=?7!+'!:*!P<'!;($9'+'!:*!R<'&>(*F!C=!f5!Y<'&'!9='(>*/!>$+*!:*!)*(=*%=:=+*+!$%&'()*+*!&'!;$+(X*!'8;:=9*(!R'(*R'7>'!;$(!':!*L*(F!

• 637U&$%3%!(H&$'+(&3T(!Q6_SS!R*7>='7'!P<'!'8=&>'! *:V\7!'Y'9>$!+=&>=7>$!+'!5! '7! :*!;$%:*9=?7! +'! :*! P<'! ;($9'+'! :*! R<'&>(*F! U*! )*(=*%=:=+*+! $%&'()*+*! 7$! &'!'8;:=9*(X*!>$>*:R'7>'!;$(!':!*L*(F!

U*&!W=;?>'&=&!K7<:*!N!*:>'(7*>=)*M!&'!;:*7>'*7!&='R;('!*!7=)':!+'!:*!;$%:*9=?7i!&=7!'R%*(V$/!:$&!+*>$&!<&*+$&!;*(*!*;$N*(:*&!$!('9W*L*(:*&!;($9'+'(O7!+'!:*!R<'&>(*F!

C'! 9*:9<:*! +'&;<_&! <7! T(H*'! 7! ,$! %30+3534(43U+! $%&(,W%&34(/! P<'! '&>=R*! :*! ;($%*%=:=+*+! +'!'79$7>(*(!<7!'Y'9>$!9$R$!':!'79$7>(*+$!*!#+*!&*,(TW(!"(2*'!'7!:*!R<'&>(*!&=!':!'Y'9>$!Y<'&'!5!'7!:*!;$%:*9=?7!K'&!+'9=(/!&=!f5!Y<'&'!9='(>*MF!6&*!;($%*%=:=+*+!R<9W*&!)'9'&!9$(('&;$7+'(O!*:!O('*!+'! :*!9$:*!+'! :*!+=&>(=%<9=?7!7$(R*:!;*(*!<7!)*:$(!L!9*:9<:*+$F!6:! 9O:9<:$!+'! >*:!)*:$(!L! &'!W*(O!R<9W*&! )'9'&!+=)=+='7+$! ':! 'Y'9>$! '7>('! ':! '(($(! K'(($(! '&>O7+*(MF! a<*7>$!R'7$(! &'*! '&*! 9$:*/!R'7$&! 9$R;*>=%:'! &'(O! ':! ('&<:>*+$! '79$7>(*+$! '7! :*! R<'&>(*! 9$7! :*! W=;?>'&=&! 7<:*! '7! :*!;$%:*9=?7F!!

8+&$'7'$&(43U+! ,$H! 4*+&'(%&$! ,$! /37U&$%3%X! 6:! )*:$(! 7! '&! <7*! ;($%*%=:=+*+!9$7+=9=$7*+*!*!P<'!:*!W=;?>'&=&!7<:*!&'*!9='(>*F!B7+=9*!:*!;($%*%=:=+*+!+'!$%&'()*(!'7!:*!R<'&>(*!+=Y'('79=*&!R*N$('&!$! =V<*:'&!*! :*&! ('*:R'7>'!$%&'()*+*&!&=! :*!W=;?>'&=&!7<:*!Y<'(*!9='(>*F!!!

>(H*'!7K *!

?%$1.1"&%.*/0%*.%*'"4(&*%&*0&*$"&'#(.'%*+%*X1F3'%.1.*%&*I0&$13&*+%-*,(-"#*"*+%*.1G&1I1$($13&*%.'(+K.'1$(Y6*

FZ[\[5* F][\9[*Se rechaza la hipótesis nula No se puede rechazar la Hipótesis nula No parece que el azar lo explique todo No se puede descartar que el azar lo explique todo El “efecto” es mayor que el “error” El “efecto” es similar al “error” Hay diferencias estadísticamente significativas

No hay diferencias estadísticamente significativas

Existen evidencias a favor de la hipótesis alternativa

No existen evidencias a favor de la hipótesis alternativa.

]<'7>'S!*+*;>*+$!+'!8E:F!U$&!:XR=>'&!5/52!N!5/"5!&$7!'7!9='(>$!R$+$!*(%=>(*(=$&!N!7$!&'!:'&!+'%'!+*(!<7*!9$7&=+'(*9=?7!+$VRO>=9*!$!*%&$:<>*F!67>('!5/52!N!5/"5!&'!;<'+'!*+R=>=(!P<'/!+'!*:V\7!R$+$!&'!'&>O!'7!j>='((*!+'!7*+='j!N!;$+(X*!+'9=(&'!P<'!:$&!('&<:>*+$&!&'!*;($8=R*7!$!'&>O7!9'(9*7$&!*!:*!&=V7=Y=9*9=?7F!

!;)%4F-"*+%*$"&'#(.'%*+%*X1F3'%.1.6*

En una muestra de 100 varones, su perímetro abdominal medio es 94 cm (s=9), en otra muestra, esta vez de 136 varones, la media es 97 (s=9) .

¿Son significativamente distintas las medias de perímetro abdominal en ambas muestras?

z = efecto/error = (94-97) / (9x((1/100)+(1/136))^0,5)= -3 / 1,186 = -2,53

El efecto (diferencia de medias: 94-97= -3) tiene una magnitud 2,53 veces superior al error. El error corresponde al error estándar de la diferencia de medias para varianzas homogéneas:

**

El resultado z=-2,53 corresponde a un valor p (a 1 cola) de 0,0057 y p=0,0114 (2 colas). Conclusión: Se decide rechazar H0 (que mantiene que las muestras proceden de dos poblaciones que

no difieren en sus perímetros abdominales) y se concluye que los perímetros medios son significativamente distintos en las dos muestras comparadas.

G$>*S!^*(*!9$R;*(*(!+$&!R'+=*&!&'!<&*(O!W*%=><*:R'7>'!:*!+=&>(=%<9=?7!>!+'!C><+'7>!P<'!&'!;*('9'!*!:*!7$(R*:/!;'($!&<&!)*:$('&!;!9*R%=*7!'7!Y<79=?7!+':!>*R*Z$!R<'&>(*:F!a<*7>$!R'7$(!&'*!7/!RO&!=R;$(>*7>'!'&!<&*(!>F!C=!'7!'&>'!'Q'R;:$/!&'!W<%='&'!9$7!:*!>/!':!)*:$(!;!K#!9$:*&M!W<%='&'!&=+$!;@5/5"#F!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!8 Los límites 0,05 y 0,10 son en cierto modo arbitrarios y aproximados.!

)|( 0Hobservadasdifp !

21

11nn

sEEDM +=.hom.var

Page 23: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -2!

6&! =R;$(>*7>'! +=&>=7V<=(! '7>('! :$&! 9$79';>$&! +'! &=V7=Y=9*9=?7! '&>*+X&>=9*! N! +'!&=V7=Y=9*9=?7!$!(':')*79=*!;(O9>=9*!K&=V7=Y=9*9=?7!4HW+34(!'7! :*! =7)'&>=V*9=?7!R_+=9*MF!U*!&=V7=Y=9*9=?7! '&>*+X&>=9*! '&! :*! R*N$(! $! R'7$(! ;($%*%=:=+*+! +'! $%>'7'(! <7! ('&<:>*+$!9$R$!':!$%&'()*+$!K$!RO&!'8>('R$M!'7!':!'&><+=$!&=!>$+$!&'!+'%='(*!&?:$!*:!*L*(F!^<'+'!P<'! <7*! *&$9=*9=?7! P<'! W*::'R$&! &'*! '&>*+X&>=9*R'7>'! &=V7=Y=9*>=)*! ;'($! >'7V*! ;$9*!(':')*79=*! 9:X7=9*! ;$(P<'! :*! R*V7=><+! +'! :*! +=Y'('79=*! $%&'()*+*! 7$! >='7'! 7=7V<7*!>(*&9'7+'79=*! ;*(*! :*! &*:<+! +'! <7! ;*9='7>'F! 67! ':! 'Q'R;:$! +'! :*! >*%:*! *7>'(=$(! :*!&=V7=Y=9*9=?7!9:X7=9*!)'7+(X*!+*+*!;$(!:*!;('V<7>*S!k9?R$!*Y'9>*(O!*!:*!&*:<+!+'!<7!)*(?7!+'!'&*&!9*(*9>'(X&>=9*&!P<'!&<!;'(XR'>($!*%+$R=7*:!*<R'7>'!'7!,!9Rl!!=@@:@!)89:!_!\!=@@:@!)89:!R`!9:)=DE8?!=;)?<a;)8E?!

!?%$1.1"&%.*/0%*.%*F0%+%&*'"4(#**

+%.F0^.*+%*0&*$"&'#(.'%*+%*X1F3'%.1.6!! ! ! ! m6EAJA!KE6JUBAJAM!! ! f5! f"!

DECISIÓN

!f5!

JaB6EDH!!

6EEHE!DB^H!#!KEB6CeH!nM!

!f"!

6EEHE!DB^H!"!KEB6CeH!oM!

JaB6EDH!K^HD6GaBJ/!"!p!nM!

!!!!!]<'7>'S!K#M!!6:!)*:$(!7!K+'!&=V7=Y=9*9=?7!'&>*+X&>=9*M!'&>=R*!:*!;($%*%=:=+*+!+'!9$R'>'(!<7!'(($(!

+'!>=;$!"!<7*!)'L!P<'!&'!W*7!*7*:=L*+$!:$&!+*>$&/!'7!9*R%=$!':!(='&V$!*:Y*!'&!':!9(=>'(=$!+'!+'9=&=?7!;(')=*R'7>'! '&>*%:'9=+$F! ^<'+'!;*('9'(! *! ;(=R'(*! )=&>*! P<'! *:Y*! 9$=79=+'!9$7!':!)*:$(!7/!;'($!:$!P<'!&<9'+'!'&!P<'!':!(='&V$!*:Y*!&'!('Y='('!*!:*!;($%*%=:=+*+!P<'!':!=7)'&>=V*+$(!%$!53G(!,$!(+&$"(+*/!'&>*%:'9='7+$!P<_!(='&V$!+'!9$R'>'(!<7*!'P<=)$9*9=?7!'&>O!+=&;<'&>$!*!*+R=>=(/! '&!;$(! >*7>$!<7!7\R'($! Y=Q$!N! &'!'&;'9=Y=9*! &=7!7'9'&=+*+!+'!9$7$9'(!:$&!+*>$&i!'7!9*R%=$/!7!&'!9*:9<:*!*!;$&>'(=$(=/!*!;*(>=(!+'!:$&!+*>$&!*7*:=L*+$&!8W\_:F!!

!*!C`;a><*?;*BNL=C><=;*?;*RA!S=;<A<!9@8DE89?B=;!9@b=A?;!<=!E:D)@?;)=!<=!689L)=;8;!

U*&! ;(<'%*&! +'! 9$7>(*&>'! +'! W=;?>'&=&! RO&! <>=:=L*+*&! *;*('9'7! '7! :*! >*%:*! &=V<='7>'/!*V(<;*+*&! &'V\7! ':! >=;$! +'! )*(=*%:'&! P<'! &'! *7*:=9'7F! U*&! ;(<'%*&! ;*(*R_>(=9*&! &'! ::*R*7! *&X!;$(P<'! &'! %*&*7! '7! ;*(OR'>($&! KR'+=*/! )*(=*7L*/! '>9FM! +'! <7*! +=&>(=%<9=?7! >'?(=9*! +'!;($%*%=:=+*+! N! ('P<='('7! ':! 9<R;:=R='7>$! +'! <7*&! 9$7+=9=$7'&! +'! *;:=9*9=?7! RO&! '&>(=9>*&F!a<*7+$!7$!&'!9<R;:'7!>*:'&!&<;<'&>$&!$!&=!:*&!)*(=*%:'&!+';'7+='7>'&!&=V<'7!<7*!'&9*:*!$(+=7*:!&'!+'%'7!<&*(!:*&!;(<'%*&!+*!7('("F&'34(%F!!

U*&!R<'&>(*&!=7+';'7+='7>'&!&$7!*P<'::*&!'7!P<'!7$!W*N!7=7V<7*!(':*9=?7!;*(>=9<:*(!'7>('!9*+*! ;*(! +'! =7+=)=+<$&! +'! :$&! V(<;$&! P<'! &'! 9$R;*(*7F! 67! 9*R%=$! :$&! >'&>&! 'R;*('Q*+$&/!;*('*+$&!$!+'!R'+=+*&!(';'>=+*&!&$7!:$&!P<'!'&>O7!=7+=9*+$&!9<*7+$!&'!>(*>*!+'!<7!R=&R$!&<Q'>$!R'+=+$! '7! +$&! $9*&=$7'&! $! +'! +=&'Z$&! +$7+'! &'! '&>*%:'9'7! 9$R;*(*9=$7'&! '7>('! ;*('Q*&!'&;'9XY=9*&! N! %='7! (':*9=$7*+*&! +'! &<Q'>$&! KW'(R*7$&/! Y*R=:=*('&! $! 9$7>($:'&! 'R;*('Q*+$&!=7+=)=+<*:R'7>'!9$7!9*+*!9*&$MF!

!* *

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -0!

!#0%2(.*+%*$"&'#(.'%*+%*X1F3'%.1.*(F-1$(2-%.*%&*$(+(*.1'0($13&6*Variable independiente*

Variable dependiente*

Pruebas empleadas

Observaciones

Categórica

Categórica

Ji cuadrado Ji cuadrado de tendencia lineal Prueba exacta Fisher Test de McNemar REGRESIÓN LOGÍSTICA

Si muestra grande Categorías siguen algún orden o variables ordinales Si muestra pequeña Medidas repetidas Multivariable

Categórica

Cuantitativa

T-DE STUDENT T-DE STUDENT PAREADA ANALISIS VARIANZA9 ANOVA MED. REPETIDAS ANCOVA Mann-Whitney Wilcoxon Kruskall-Wallis10 Friedman

2 grupos. Muestras independientes 2 grupos. Medidas repetidas >2 grupos. Muestras independientes >2 grupos. Medidas repetidas >2 grupos. Muestras independientes 2 grupos. Muestras independientes 2 grupos. Medidas repetidas >2 grupos. Muestras independientes >2 grupos. Medidas repetidas

Cuantitativa

Cuantitativa

REGRESIÓN CORRELACIÓN-PEARSON Correlación-Spearman REGRESIÓN MÚLTIPLE

Predice una variable a partir de otra Asociación Asociación Multivariable

Categórica

Supervivencia

Kaplan-Meier11 Log-Rank (Mantel-Haenzsel) REGRESIÓN DE COX REGRESIÓN DE POISSON

Curvas supervivencia #2 curvas supervivencia Multivariable Multivariable

q! U*&! )*(=*%:'&! =7+';'7+='7>'&! K'Q'! +'! *%&9=&*&! $! +'! :*&! j8jM! &$7! :$&! ;('+=9>$('&! P<'! W*%=><*:R'7>'! *7>'9'+'7! *! :$&!&<;<'&>$&!'Y'9>$&!K>(*>*R='7>$!*&=V7*+$/!V(<;$!*:!P<'!;'(>'7'9'!':!&<Q'>$/!9*(*9>'(X&>=9*!=7=9=*:!$!%*&*:M!qq!U*&!)*(=*%:'&!+';'7+='7>'&!K'Q'!+'!$(+'7*+*&!$!+'!:*&!jNjM!'&!':!'Y'9>$/!('&<:>*+$!$!('&;<'&>*!P<'!T9$79';><*:R'7>'!*:!R'7$&T!$9<((=(X*!;$&>'(=$(R'7>'!*:!;('+=9>$(i!&'!>(*>*!+'!9$R;($%*(!&=!'&*!)*(=*%:'!+';'7+'!+'!:$&!;('+=9>$('&F!G$>*S!&'!;('&'7>*7!'7!R*N\&9<:*&!:*&!;(<'%*&!;*(*R_>(=9*&! 9@b=A?;!?!bD?!E:B?!\!9@b=A?;!?!<:;!E:B?;!

C=! :*! W=;?>'&=&! *:>'(7*>=)*! '7! <7! >'&>! +'! W=;?>'&=&! *;<7>*! &?:$! '7! <7*! +=('99=?7/!=7+=9*7+$!:*!&<;'(=$(=+*+!+'!<7!V(<;$!Y('7>'!*:!$>($/!&'!>(*>*(O!+'!<7!>'&>!+'!W=;?>'&=&!<7=:*>'(*:F! C=! ;$(! ':! 9$7>(*(=$/! :*! W=;?>'&=&! *:>'(7*>=)*! R*7>='7'! :*! +=Y'('79=*! +'! :$&!V(<;$&/! ;<+='7+$! &'(! 9<*:P<='(*! +'! '::$&! ':!R*N$(/! &'! >(*>*(O! +'! <7! >'&>! +'! W=;?>'&=&!%=:*>'(*:F!67!':!;(=R'(!9*&$!:$&!)*:$('&!;!&'(X*7!&?:$!(!#+(!4*H(F!C=!<7*!;(<'%*!%=:*>'(*:!'&! &=V7=Y=9*>=)*/! >*R%=_7! :$! &'(O!<7*!;(<'%*!<7=:*>'(*:F! U*&! ;(<'%*&! *! +$&! 9$:*&! +*(O7!)*:$('&!7!"(2*'$%!KN!;$(!>*7>$!9$7!"$+*'!&=V7=Y=9*9=?7!'&>*+X&>=9*MF!U*&!;(<'%*&!*!<7*!9$:*!&'!'R;:'*(O7!'89';9=$7*:R'7>'F!C'!*9$7&'Q*!<&*(!;(<'%*&!*!+$&!9$:*&F!! NOCIONES DE ANÁLISIS MULTIVARIABLE Actualmente, casi toda la estadística que se usa en medicina y en salud pública consiste en análisis multivariables que se basan en modelos de regresión que tratan con tres o más variables simultáneamente. Rara vez existe un sólo predictor para cualquier suceso. Nuestro universo es multivariable. Los fenómenos de interés para la salud pública también tienen habitualmente múltiples causas. Los análisis estadísticos actuales intentan explicar un fenómeno (variable y o variable dependiente en la figura siguiente) teniendo en consideración varias variables simultáneamente. Los usos principales de estos modelos de regresión multivariable son 3:

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!9 El ANOVA, al incluir muchos grupos, suele necesitar que se corrijan o penalicen los valores p por las comparaciones múltiples que se pueden hacer, ya que al comparar todo con todo alguna comparación resultaría significativa sólo por azar. El método clásico más empleado para esta corrección es el de Bonferroni. También se ha usado el método de Scheffé. Hay otros menos conservadores (Sidak, Tukey, Tamhane, Gabriel, Duncan, Dunnet). Recientemente se está usando mucho el método de Benjamini-Hochberg que usa un límite de significación estadística progresivamente distinto para cada comparación, tras ordenarlas de menor a mayor según sus valores p.!"5!El test de!Jonckheere-Terpstra, más reciente, puede usarse para la misma finalidad que el de Kruskal-Wallis.!11 Se trata en realidad de un método descriptivo.!

Page 24: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -.!

! El uso más importante y más frecuente es el de intentar ajustar las estimaciones por posibles factores de confusión (ver capítulo correspondiente). La existencia de factores de confusión es omnipresente en la investigación epidemiológica. Los factores de confusión son variables distintas a la exposición (variable "x" o independiente) y al efecto (variable "y" o dependiente), pero asociadas con ellas (comparten causas comunes) que distorsionan las medidas de asociación. Hoy día nadie cree un análisis estadístico que no esté ajustado al menos por edad y sexo. En el primer panel de la figura 5.1 la "y" correspondería a función cognitiva (minimental test, MMSE), la línea superior a los no fumadores (x1=0), la inferior a fumadores (x1=1) y en el eje "x" estaría la edad como cuantitativa (x2). Una simple comparación de la media de MMSE entre fumadores y no fumadores (t de Student) no sería válida, puesto que si los fumadores son más jóvenes, tendrán mejor memoria, a pesar de que el tabaco les produzca deterioro cognitivo. Se soluciona el problema introduciendo la variable x2 (edad) en el modelo. Entonces el coeficiente de regresión b1 que acompaña a x1 dará la diferencia entre fumadores y no fumadores a igualdad de edad. Es decir se consigue comparar un fumador frente a un no fumador que sea de su misma edad. Si se introducen otras variables xi (sexo, nivel educativo, antecedentes familiares, alelo de la apoE, etc.) se puede conseguir reducir la posible confusión por dichos factores. Se consigue ajustar por todo factor que se haya introducido en la ecuación (8).

! El segundo uso es valorar la interacción o modificación del efecto. En el panel intermedio de la figura se aprecia que el deterioro cognitivo se acelera más con la edad en los fumadores que en los no fumadores. Las diferencias según tabaco no son homogéneas sino que aumentan con la edad. El tabaco modificaría el efecto de la edad (mayor deterioro cognitivo asociado a la edad en fumadores) y la edad modificaría el efecto del tabaco (mayores diferencias entre fumadores y no fumadores a medida que aumenta la edad). A esto se le llama interacción (9). Así como la confusión es un error sistemático o sesgo que debe corregirse, la interacción no es ningún error, sino una realidad biológica que debe valorarse y describirse de la mejor manera posible. Se valora la interacción mediante términos de producto (multiplicación). La significación estadística (valor p) del coeficiente b3 propio del término de producto indicará si el apartamiento del paralelismo de ambas líneas es significativo o no. Cuando sea significativo se podrá hablar de que hay interacción o modificación del efecto.

! El tercer uso es introducir términos cuadráticos o cúbicos que permitan que las relaciones sean en forma de U o sigan cualquier otro modelo distinto de la rígida línea recta (panel inferior de la figura). En el ejemplo de la figura (panel inferior) se ha introducido un término cuadrático (x2 o lo que es igual x^2) para recoger una relación en forma de U. Este sería el caso de lo que sucede por ejemplo en la relación entre el consumo de alcohol y riesgo coronario.

*

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -3!

Usos de los modelos multivariables. ********************! U$&! 9$'Y=9='7>'&! +'! '&>$&! R$+':$&! K%=M! 7$! &$7! 9*:9<:*%:'&! *! R*7$F! U$&!;($;$(9=$7*!':!$(+'7*+$(!>(*&!=7>($+<9=(!:$&!+*>$&!N!+*(:'!=7&>(<99=$7'&!*+'9<*+*&!8E:F!! U*! Y=V<(*!;('&'7>*! :*&!$;9=$7'&!RO&!W*%=><*:'&!+'!R$+':$&!R<:>=)*(=*%:'&!N!&<!(':*9=?7! 9$7! 9*+*! <7$! +'! :$&! R_>$+$&! +'&9(=;>=)$&! N! +'! *7O:=&=&! %=)*(=*7>'! RO&!W*%=><*:'&F! U*! +'9=&=?7! &$%('! P<_! R$+':$! R<:>=)*(=*%:'! <&*(! +';'7+'(O! +':! >=;$! +'!)*(=*%:'!,$7$+,3$+&$!KjNjM!P<'!&'!'&>_!<>=:=L*7+$F!! ^*(*! )*(=*%:'&! +';'7+='7>'&! 9<*7>=>*>=)*&! K7<R_(=9*&M! 9$R$! ':! ;'&$/! :*! >'7&=?7!

*(>'(=*:!$!':!9$:'&>'($:/!&'!<&*(O!:*!('V('&=?7!:=7'*:!R\:>=;:'F!U$&!9$'Y=9='7>'&!%=!P<'!;($;$(9=$7*! '&>'! R$+':$! &$7! +=('9>*R'7>'! =7>'(;('>*%:'&! 9$R$! +=Y'('79=*&! +'!R'+=*&!Y('7>'!*:!V(<;$!$!9*>'V$(X*!P<'!&'!9$7&=+'('!9$R$!('Y'('79=*!K+=Y'('79=*!+'!R'+=*&@5!;*(*!'&'!V(<;$/!N*!P<'!_:!'&!':!%#$H*!$!('Y'('79=*MF!

! ^*(*! )*(=*%:'&! +';'7+='7>'&! +=9$>?R=9*&! K&Xr7$M! 9$R$! ;$(! 'Q'R;:$! W*%'(&'!)*9<7*+$!$!7$/!>'7'(!W=;'(>'7&=?7!K;(')*:'79=*M!$!<&*(!':!9=7><(?7!+'!&'V<(=+*+/!&'!<&*(O! :*! ('V('&=?7! :$VX&>=9*F! U$&! 9$'Y=9='7>'&! %=! P<'! ;($;$(9=$7*! '&>'! R$+':$!('P<='('7!&'(!'8;$7'79=*+$&!;*(*!P<'!&'*7! =7>'(;('>*%:'&F!6:!'8;$7'79=*:! K'%M!+':!9$'Y=9='7>'!9$(('&;$7+'!*!:*!$++&!(*>=$!KHEM!+'!'&'!V(<;$!$!9*>'V$(X*!('&;'9>$!*!:*!('Y'('79=*!KHE@"!;*(*!'&'!V(<;$!+'!('Y'('79=*M!89[:F!

! ^*(*!)*(=*%:'&!+';'7+='7>'&!+':!>=;$!&3$"7*!/(%&(!#+!$T$+&*!&'!':'V=(O!:*!('V('&=?7!+'! a$8! K7'*7*'&3*+(H!/(O(',%!"*,$HSF! ^$(! 'Q'R;:$/! &'! +'%'(O! <&*(! :*! ('V('&=?7! +'!a$8! '7! :$&! *7O:=&=&! +'! &<;'()=)'79=*! $! '7! '&><+=$&! :$7V=><+=7*:'&! +$7+'! &'! +'&''!)*:$(*(! :*! =79=+'79=*! +'! 7<')$&! 9*&$&! +'! '7Y'(R'+*+! '7! Y<79=?7! +'! <7*! &'(='! +'!9*(*9>'(X&>=9*&!%*&*:'&F!D*R%=_7!&'!&<':'!<&*(!'7!:$&!'7&*N$&!+'!9*R;$!K;(')'79=?7!;(=R*(=*MF!a$R$!9$7!:*!('V('&=?7!:$VX&>=9*/! :$&!9$'Y=9='7>'&!%=!P<'!;($;$(9=$7*!'&>'!R$+':$! ('P<='('7!&'(!'8;$7'79=*+$&!;*(*!P<'!&'*7! =7>'(;('>*%:'&F!6:!'8;$7'79=*:!K'%M! +':! 9$'Y=9='7>'! 9$(('&;$7+'(O! *W$(*! *! :*! W*L*(+! (*>=$! KfEM! +'! '&'! V(<;$! $!9*>'V$(X*!('&;'9>$!*!:*!('Y'('79=*!KfE@"!;*(*!'&'!V(<;$!+'!('Y'('79=*M!899:F!

*

Page 25: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! -4!

*b"+%-".*40-'1,(#1(2-%.*4H.*0.(+".6**

**********************;<=>?@<=AB>*a>Q;<A>L>*! C'! &<':'! *%<&*(! '7! :*! =7)'&>=V*9=?7! '7! &*:<+! ;\%:=9*! +'! :*&! ;(<'%*&! +'!&=V7=Y=9*9=?7! '&>*+X&>=9*! K)*:$('&! ;! +':! 9$7>(*&>'! +'! W=;?>'&=&MF! A'%'(X*! +*(&'! R*N$(!=R;$(>*79=*!*! :$&! =7>'()*:$&!+'! 9$7Y=*7L*!P<'!9$7&>=><N'7!<7*!*:>'(7*>=)*!R<9W$!RO&!+=('9>*! N! YO9=:! +'! '7>'7+'(F! U*&! 7$(R*&! CDEH`6! K;&'$+0&/$+3+0! &/$! @$7*'&3+0! *5!*P%$'T(&3*+(H!%&#,3$%!3+!=73,$"3*H*02!;&(&$"$+&M! =7+=9*7!'8;:X9=>*R'7>'!P<'!*:!'&9(=%=(!*(>X9<:$&!&$%('!'&><+=$&!';=+'R=$:?V=9$&!$%&'()*9=$7*:'&!&'!;('&'7>'7! :*&!R'+=+*&!+'!*&$9=*9=?7!*Q<&>*+*&!N!*9$R;*Z*+*&!+'!&<&!=7>'()*:$&!+'!9$7Y=*7L*F!!! U$&! =7>'()*:$&! +'! 9$7Y=*7L*! W*%=><*:R'7>'! <&*7! ':! 9$79';>$! Y('9<'79=&>*! +'!;($%*%=:=+*+F! 68=&>'7! $>(*! 9$((='7>'! +=&>=7>*! +'! :*! Y('9<'79=&>*! ;*(*! +'Y=7=(! :*!;($%*%=:=+*+S!:*!Y=:$&$YX*!%*N'&=*7*F!^$(!'Q'R;:$/!;*(*!:*!;($%*%=:=+*+!+'!$%>'7'(!9*(*!*:!>=(*(! <7*!R$7'+*/! :*! +'Y=7=9=?7! Y('9<'79=&>*!R*7>='7'! P<'! :*&! ;($%*%=:=+*+'&! &$7! :$&!:XR=>'&! *! :$&! P<'! >='7+'! :*! ;($;$(9=?7! 9$7! :*! P<'! &*:+(O! 9*(*! &=! :*!R$7'+*! &'! :*7L*&'!=7Y=7=>*&!)'9'&F!^'($!7*+='!W*!:*7L*+$!<7*!R$7'+*!=7Y=7=>*&!)'9'&F!67!9*R%=$/!:*!Y=:$&$YX*!%*N'&=*7*!R*7'Q*!:*!;($%*%=:=+*+!9$R$!<7!9$79';>$!%#PG$&3T*F!C'!>(*>*!+'!*Z*+=(:'!*!:*!=7>'(;('>*9=?7!Y('9<'79=&>*!':!V(*+$!+'!9'(>'L*!;(')=*!+':!=7)'&>=V*+$(F!C'!<&*!:*!9'(>'L*!;(')=*! ;*(*! R*>=L*(! ':! ('&<:>*+$! $%>'7=+$! '7! <7*! R<'&>(*! ;'P<'Z*F! 6:! V(*+$! +'!9('+=%=:=+*+! P<'! &'! >='7'! +'! *7>'R*7$! &$%('! <7! Y'7?R'7$! N! W*&>*! P<_! ;<7>$! &'! '&>O!+=&;<'&>$!*!;('+'9=(!9*+*!;$&=%:'!)*:$(!+':! ('&<:>*+$!'7! :*!R<'&>(*!&'! =7>'V(*!9$7! :$&!('&<:>*+$&!$%&'()*+$&! ('*:R'7>'! '7! :*!R<'&>(*F!J&X/! ;*(*! ':! ;:*7>'*R='7>$!%*N'&=*7$!&'(X*!R<N!;$9$!9('=%:'!+'!*7>'R*7$!P<'!::')*(!;='(9=7V!;($>'V='&'!Y('7>'!*!:*!W';*>=>=&/!;'($!&'(X*!R<N!9('X%:'!P<'!9$R'(!R'7$&!::')*&'!*!*+':V*L*(F!6&>*!9(''79=*!&'!Y$(R*:=L*!N!&'!=7>'V(*!9<*7>=>*>=)*R'7>'!;*(*!R*>=L*(!*!:*!%*Q*!$!*:!*:L*!:$&!('&<:>*+$&!('*:R'7>'!$%&'()*+$&!'7!:*!R<'&>(*F!!! U*!'8;('&=?7!RO&!V'7'(*:!N!&=R;:'!&'(X*S!!

odds posterior = odds a priori x Factor Bayes !! U*!$++&!;$&>'(=$(!&'(X*!':!('&<:>*+$!+':!*7O:=&=&!%*N'&=*7$F!U*!$++&!;(')=*!&'(X*!&<%Q'>=)*!K:*!9(''79=*!P<'!&'!>='7'!*7>'&!+'!=7=9=*(!':!'&><+=$MF!6:!]*9>$(!`*N'&!&'!$%>='7'!

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 25!

*! ;*(>=(! +'! :$&! +*>$&! ('9$V=+$&! '7! :*! R<'&>(*F! 6&>*! '8;('&=?7! ('9<'(+*! *! :*! P<'! &'!;('&'7>*! '7!':! 9*;X><:$!3!;*(*! :*&!;(<'%*&!+=*V7?&>=9*&/! ;'($! &'! *R;:=*! >*R%=_7!*! :$&!+'RO&!>=;$&!+'!*7O:=&=&!'&>*+X&>=9$F!! 68=&>'7! R_>$+$&! &'79=::$&! N! P<'! 7$! ('P<='('7! 7=7V\7! %*5&1('$! '&;'9=*:! ;*(*!9*:9<:*(!=7>'()*:$&!+'!9$7Y=*7L*!9$7!;($9'+=R='7>$&!%*N'&=*7$&!*;($8=R*+$&!89E:F!*C;O;C;LBA><**(1) Pencheon D, Guest C, Melzer D, Gray AM. Oxford handbook of public health. N. York:

Oxford University Press, 2001;13. (2) Martínez-González MA, Sánchez-Villegas A, Faulín Fajardo FJ (eds.). Bioestadística

amigable. 2ª ed. Madrid: Díaz de Santos, 2006. (3) Sentís J, Pardell H, Cobo E, Canela J. Bioestadística. 2ª ed. Barcelona: Masson, 1995. (4) de Irala J, Martínez-González MA, Seguí-Gómez M. Epidemiología aplicada. 2ª ed.

Barcelona: Ariel, 2008. (5) Carrasco JL, Hernán MA, Martín-Hortelano C. El método estadístico en la investigación

médica. Madrid: Ciencia, 1995. (6) Rothman KJ, Greenland S, Lash TL. Modern Epidemiology, 3ª ed. Filadelfia: Lippincott

Williams & Wilkins, 2008. (7) Ware JH, Mosteller F, Delgado F, Donnelly C, Ingelfinger JA. P Values. En: Bailar JC III,

Hoaglin DC (eds.). Medical uses of statistics, 3ª ed. Boston: New England Journal of Medicine, 2009.

(8) de Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es un factor de confusión? Med Clin (Barc.) 2001;117:377-85. (Fe errores: Med Clin (Barc.) 2001;117:775).

(9) de Irala J, Martínez-González MA, Guillén-Grima F. ¿Qué es una variable modificadora del efecto? Med Clin (Barc.) 2001;117:297-302.

(10) Martínez-González MA, de Irala J, Guillén-Grima F. ¿Qué es una odds ratio? Med Clin (Barc.) 1999;112:416-22.

(11) Martínez-Gonzalez MA, Alonso A, López-Fidalgo J. ¿Qué es una hazard ratio? (nociones de análisis de supervivencia). Med Clin (Barc.) 2008;131:65-72.

(12) Martínez-González MA, Seguí-Gómez M, Delgado-Rodríguez M. ¿Cómo mejorar los intervalos de confianza? Med Clin (Barc.) 2009;135:30-4.

!!!!!!!!!!!!!!!!

Page 26: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2"!

10. INTRODUCCIÓN AL METANÁLISIS (adaptado del compendio de salud pública)

El metaánalisis se usa para combinar múltiples estudios que intentan contestar todos a

la misma pregunta de investigación. El término metaanálisis precede cronológicamente al concepto de revisión sistemática. Lo acuñó el psicólogo Glass en 1976 para definir un conjunto de técnicas que se utilizan para cuantificar la información contenida en estudios similares que valoran una misma pregunta de investigación.

La revisión sistemática es definida por la colaboración Cochrane como una síntesis de los resultados de varios estudios primarios mediante técnicas que limitan los sesgos y el error aleatorio. En la actualidad el término metaanálisis se reserva para denominar las técnicas estadísticas de combinación de resultados, mientras que en el pasado incluía también la noción de revisión sistemática. SESGO DE PUBLICACIÓN

Lo más frecuente es que los investigadores que desean combinar los estudios realizados sobre un tema se basen en estudios publicados y aunque intenten sacar a la luz los no publicados, los publicados tendrán siempre más probabilidad de ser localizados.

El sesgo de publicación se origina cuando lo que se publica no es representativo de lo que se investiga. La trascendencia de este sesgo es grande para investigadores y lectores: si lo que aparece no representa la realidad, se está distorsionando el propio proceso de aprendizaje. Por eso es importante saber si este sesgo se presenta y cuáles son las razones que favorecen su presencia.

Este sesgo no sólo reside en evaluadores y comités editoriales de las publicaciones científicas, también reside en los autores, que muchas veces son los primeros en decidir no enviar sus investigaciones a publicar: por considerar que esos resultados tienen poco interés, por no tener la propiedad de los datos (estudios financiados por la industria, que puede buscar que los resultados que no la favorecen permanezcan en el anonimato), o por sesgos (en diseño o ejecución) que comprometen la validez de un estudio.

Los hechos que se conocen que influyen en la presencia del sesgo de publicación son: ! Significación estadística del resultado. Es el más importante y en el que se basan los

procedimientos estadísticos para identificar la presencia del sesgo. Los resultados significativos suelen ser los primeros en publicarse.

! Características de la investigación realizada: algunas de ellas se asocian con una probabilidad diferencial de publicación: los estudios aleatorizados y los multicéntricos se publican más. Los de gran tamaño muestral rara vz dejan de publicarse. Los estudios grandes suponen un mayor esfuerzo en su diseño y ejecución y los autores ponen un mayor interés en que los resultados no permanezcan ignorados, ya sean positivos o negativos.

! La fuente de financiación se asocia con la publicación. El conflicto de interés puede dar lugar a publicaciones engañosas o maquilladas y dar pie a que cierta documentación tenga más probabilidad de ser publicada. Un ejemplo de ello es el papel desempeñado por la industria tabaquera al investigar los efectos del tabaquismo pasivo (se recogía la información que resultaba menos perjudicial para la industria).

! El prestigio de la institución puede jugar un papel en el sesgo de publicación. Un ejemplo histórico de esto es el artículo de Levin (1) sobre la relación entre tabaco y cáncer de pulmón, retenido por el director de JAMA ante la desconfianza surgida por lo novedoso del diseño (uno de los primeros estudios de casos y controles de la historia), hasta que llegó a sus manos un estudio similar (de Wynder y Graham), firmado por un cirujano de prestigio

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2#!

mundial (Graham), conocido por sus innovaciones. Publicó los dos estudios en el mismo número, pero primero el de Wynder y Graham (2).

! Prejuicio: aquí el proceso editorial tiene más responsabilidad. Por ejemplo, en la relación entre el consumo de cocaína en el embarazo y riesgo fetal se ha comprobado que los trabajos que no hallan un efecto nocivo sobre el feto se rechazan con más frecuencia, a pesar de que su calidad es similar a los restantes: así se está juzgando la metodología por los resultados, con resultados no creíbles el evaluador minusvalora los métodos.

! Regresión a la media: El sesgo de publicación se ha intentado justificar parcialmente como un fenómeno de regresión a la media. Los primeros artículos sobre una misma pregunta de investigación, por su mayor novedad, son más fácilmente aceptados, que los que a continuación se remiten para su publicación, y en los que se pueden manifestar con mayor intensidad los aspectos mencionados con anterioridad. En previsión de que un determinado estudio pase en el futuro a formar parte de un

metaanálisis ha supuesto la implantación en muchas revistas de las normas CONSORT, para los que quieran publicar un estudio de intervención, y posiblemente ocurrirá lo mismo con las normas STARD para pruebas diagnósticas o las normas STROBE para estudios observacionales.

Las normas PRISMA son las actualmente vigentes para escribir una revisión sistemática. http://www.prisma-statement.org/

Debieran hacerse esfuerzos para que toda investigación con un mínimo de calidad se

publicase, con independencia de la significación de sus resultados, pero el papel se vende caro. Una opción futura es la edición electrónica (internet).

El registro de ensayos intenta monitorizar todo ensayo clínico en marcha para identificar los que finalmente se publican y los qu ese esconden, aunque esto también tiene sus limitaciones. Puede haber un conflicto de intereses, por ejemplo, si un organismo privado prefiere que se ignore que un estudio está en marcha (no infrecuente en salud laboral) o cuando se esperan beneficios económicos en el desarrollo de nuevos fármacos. También hay ventajas: valorar el sesgo de publicación, defender los derechos en ser el primero en investigar un tema, conocer a otros que trabajan en temas relacionados, etc.

El sesgo de publicación puede ser muy grave. Hay que cuantificarlo. Existen varios procedimientos para ello: ! Representación del ln RR y su intervalo de confianza frente al tamaño de muestra del

estudio. Si se coloca el ln RR en el eje de ordenadas, se obtendrá la imagen de un embudo (funnel plot), con la parte más estrecha dirigida a la derecha (más precisión cuando el tamaño de muestra es mayor). La existencia una figura simétrica alrededor de un eje que pasa por el valor ponderado del RR habla en favor de la ausencia de este error. Cuando se coloca el ln RR en el eje de abscisas se obtiene una imagen similar a un árbol de navidad. Obsérvese en la figura de la derecha que faltan estudios pequeños con RR alrededor de la unidad.

Page 27: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2,!

! Cálculo del número probable de estudios no publicados: requieren asumir supuestos más

o menos subjetivos en su aplicación. Se puede estimar el número de estudios con resultados no significativos que se necesitarían para hacer que una asociación global significativa se hiciera no significativa estadísticamente (método de Rosenthal). También se pueden aplicar otros métodos como estrategias de remuestreo asumiendo que los estudios encontrados con resultado no significativo son una muestra representativa de todos los que se han hecho (publicados o no).

! El método de Egger (Egger’s method) es un procedimiento para detectar un sesgo de publicación. Consiste en una regresión lineal simple de la magnitud del efecto dividida por su error estándar sobre el inverso del error estándar.

MÉTODOS DE COMBINACIÓN

Se pueden combinar los resultados publicados (metanálisis convencional) o combinar las bases de datos (pooled analysis). En este último caso, el análisis estadístico es el habitual, salvo que es conveniente incluir en los modelos multivariables una variable que identifique al estudio. Este apartado se dedicará a la combinación de datos procedentes de estudios publicados.

Las técnicas estadísticas de metaanálisis generan varios problemas: ! Se puede asumir que el efecto producido por la exposición sea constante de estudio

en estudio (modelo de efectos fijos, MEF) o, por el contrario, tenga una distribución al azar a lo largo de los distintos estudios (modelo de efectos aleatorios, MEA).

! Los estudios individuales de un metaanálisis pueden no ser independientes, ya que los últimos pueden iniciarse tras conocer los resultados de los primeros. Es un auténtico problema: la investigación actual se apoya en la del pasado.

! Existe una tendencia a encontrar resultados estadísticamente significativos conforme el número de estudios aumenta, aunque no favorezcan la asociación. Por ello, se recomienda que el nivel de significación (riesgo alfa) sea como mínimo del 1%. No obstante, la mayoría de los metaanálisis calculan intervalos de confianza del 95%.

Sea cual sea el procedimiento que se aplique, cada estudio proporcionará el mismo parámetro, #i. Lo más habitual es que este parámetro sea el logaritmo neperiano de una medida multiplicativa de asociación (riesgos relativos, odds ratios, etc). Lo que se hace viene a ser una media ponderada de los parámetros de todos los estudios.

Recuérdese que una media ponderada supone multiplicar cada dato por un peso y dividir la suma de estos productos por la suma de los pesos. Por ejemplo si un alumno obtuvo un 4 en el examen final un 8 en el examen parcial, y un 85 en unos tests de clase, y los pesos son del 60% para el examen final y del 20% para las otras dos notas, su media ponderada (Mp) será:

Mp =wixi!wi!

=(0, 6" 4)+ (0, 2"8)+ (0, 2"5)

0, 6+ 0,2+ 0,2= 5

Del mismo modo, cuando se hace un metaanálisis lo que se combinan no son notas, sino los resultados de diferentes estudios epidemiológicos, utilizando un criterio de ponderación, es decir unos pesos llamados wi :

#p = ($ wi#i)/$ wi

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2-!

MÉTODOS PARA VARIABLES DICOTÓMICAS: MODELO MULTIPLICATIVO Son métodos que se basan en la noción de riesgo relativo (RR). En este caso,

el parámetro #i será el logaritmo neperiano del RR (o de la OR) en cada estudio, de ahí el subíndice i.

Método del inverso de varianza Como ejemplo se expone el caso de la odds ratio (OR), que es lo más utilizado

en metaanálisis. Para la combinación de resultados, dado que la OR (al igual que el RR) no sigue una distribución normal, se transformará logarítmicamente. Por tanto, en el caso de que se use la OR, el parámetro #i corresponderá al logaritmo neperiano de la OR en cada estudio, es decir #i = lnORi.

!i = ln(ORi ) Por ejemplo, para el primer estudio de la tbla 10.1, el parámetro #i

corresponderá a !i = ln(0, 96) = !0,04

Cada estudio proporciona un ln(ORi). Pero además debe extraerse su varianza. La varianza de ln(OR) se puede obtener a partir de los intervalos de confianza al 95% de la OR (mejor si está ya ajustada por factores de confusión). Los estudios donde se ofrecen estimaciones ajustadas (controlando por uno o más factores de confusión), suelen proporcionar también el intervalo de confianza de la OR. En esta situación, se calcula la varianza con la ecuación var (ln OR)= [(ln ORs - ln ORi)/3,92]2, siendo ORs y ORi los límites superior e inferior de confianza de la OR. Esto es así porque 3,92 es el doble de 1,96 y 1,96 es el valor z de la distribución normal para un intervalo de confianza al 95%.

Por ejemplo, en el primer estudio de la tabla 10.1, la varianza de ln(OR1) sería

var(lnOR) = ln(1, 28)! ln(0, 73)3, 92

"

#$

%

&'2

= 0,1432 = 0,0205

Tabla 10.1. Descenso de la colesterolemia por dieta y medicación y mortalidad:

estudios de prevención primaria Estudio

Tto. experimental / tto. control

Gr. experimental Grupo control OR Viven

(b) Mueren(a) Viven (d) Mueren (c)

LA Veterans Dieta especial / convencional 250 174 245 177 0,96 (0,73-1,28) Minnesota Dieta especial / convencional 2039 158 2044 153 1,04 (0,82-1,31) OMS Clofibrato / placebo 5203 128 5209 87 1,47 (1,11-1,96) Upjohn Colestipol / placebo 531 17 519 27 0,62 (0,31-1,19) Lipids Colestiramina + dieta / placebo + dieta 1838 68 1829 71 0,95 (0,67-1,36) Helsinki Gemfibrozil + dieta / placebo + dieta 2006 45 1988 42 1,06 (0,68-1,66)

Fuente: adaptado de 3. Se usa como criterio de ponderación el inverso de la varianza.

wi =1

var(lnORi )

El peso para el primer estudio sería

wi =1

0,0205= 48,8

Así se va haciendo para todos los estudios como muestra la tabla 10.2.

Page 28: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 22!

Tabla 10.2. Varianzas y pesos del ejemplo de la Tabla 10.1 en la aplicación del método del inverso de la varianza.

Estudio

OR

ln (OR)

V (ln OR) = [(lnORs-lnORi)/3,92]2

Peso (1/V)

Peso % del total

LA Veterans 0,96 -0,041 0,0205 48,73 48,73x100/224,7= 21,7 Minnesota 1,04 0,039 0,0143 70,02 31,2 OMS 1,47 0,385 0,0210 47,53 21,2 Upjohn 0,62 -0,478 0,1177 8,49 3,8 Lipids 0,95 -0,051 0,0326 30,66 13,6 Helsinki 1,06 0,058 0,0518 19,29 8,6 Total = 224,7 Total = 100%

Al final se calcula una media ponderada, que equivaldrá al logaritmo neperiano

de la OR combinada (ln(ORp)).

ln(ORp) =wi!i!wii!

Siendo ORp la odds ratio ponderada.

ln(ORp) = (48, 73!"0,041)+...+ (19, 29!0,058)48, 73+...+19,29

= 0,065

Para pasar de lnORp a ORp será necesario realizar la transformación antilogarítmica.

ORp = eln(ORp) = e0,065 =1,07 El siguiente paso es calcular un intervalo de confianza a la ORp. Para eso se

requiere su varianza (la del estimador combinado final). La varianza del logaritmo natural de la ORp es igual al inverso de la suma de los

pesos de cada OR, V(ln ORp)= 1/($ wi). El intervalo de confianza de la ORp es = ORp%EXP [± z&/2'V (ln ORp)], siendo z&/2 = 1,96 si se quiere una confianza del 95%.

IC95%=ORp! e±z! /2 Vp =1,07! e±1,96 1

224,72 = 0,94"1,22 La significación global del parámetro se puede estimar dividiendo el logaritmo

natural del ORp por su error estándar, zasoc = ln ORp/[V(ln ORp)]^0,5, que sigue una distribución Normal (0,1). Se puede apreciar, no obstante, que el resultado no es significativo porque el intervalod e confianza al 95% (0,94-1,22) comprende el valor nulo (OR=1). El grado de homogeneidad se valora mediante el estadístico Q

Q= $ wi(ln ORi - ln ORp)2

Q = 48,73(-0,041-0,065)2+!+19,29(0,058-0,065)2=8,4 Cuanto mayor sea el estadístico Q, más argumentos habrá para hablar de

heterogeneidad. Q sigue una distribución (2 con (k - 1) grados de libertad, siendo k el número de

estudios (5 grados de libertad en el ejemplo). Para cada valor de chi cuadrado (con sus respectivos grados de libertad) corresponde un valor p de significación estadística.

En Stata display chi2tail(5,8.4) devolverá p = 0.136 Cuanto mayor sea la chi cuadrado obtenido (chi cuadrado=Q), menor (más

significativo) será el valor p. El punto de corte para detectar heterogeneidad se sitúa en el 10% (p = 0,1) y no

en el clásico 5% (p = 0,05). Aquí en el ejemplo no se cuenta con pruebas para rechazar la homogeneidad, ay que p = 0,136.

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 20!

Tabla 10.3. Resumen de la ponderación por inverso de la varianza (modelo de efectos fijos).

Objetivo Estimación Ponderación resumen, #p

!!=

i

iip w

w""

)(1

ii Varw

!=

Error estándar de #p

!=

ip w

EE 1)("

Intervalo de confianza de #p )(2/ pp EEz !! "#

Significación estadística de #p

)( p

p

EEz

!

!=

Heterogeneidad, Q ( )! "= 2piiwQ ##

(2 con k – 1 grados de libertad. k = número de estudios

Si se ponderan RD, #p = RDp, #i = RDi y wi = 1/Var(RDi) Si se ponderan RR, #p = ln(RRp), #i = ln(RRi) y wi = 1/Var(ln RRi)

Método de efectos aleatorios (MEA) de DerSimonian Laird

Se puede incorporar explícitamente la variabilidad entre estudios y asumir un modelo de efectos aleatorios (MEA: se le llama método de DerSimonian Laird, Tabla 10.4), en vez de un MEF, como hasta ahora se ha hecho. Ahora se calculará la varianza entre estudios ()2).

tau2 = (8,4-6+1) / (224,7-(10920/224,7)) = 0,019

Los valores negativos de tau2 se asume que son cero. El peso de cada investigación vendría dado ahora por: w*i= 1/(Vi + )2). Esto

supondría que la ORp* = $ (w*iORi)/$ w*i. La varianza y el intervalo de confianza se

estiman como en el caso anterior, cuando no se tuvo en cuenta la variabilidad entre estudios. En el presente caso se sustituiría wi por w*i.

En la Tabla 10.4 se resumen las varianzas de cada estudio, sus pesos, y los nuevos pesos tras la comprobación de que )2 = 0,019.

Tabla 10.4. Varianzas y pesos del ejemplo de la Tabla 11.6 en la aplicación del

modelo de efectos aleatorios ()2 = 0,019). Estudio V (ln OR) Peso* = [1/(V+)2)] %Peso LA Veterans 0,0205 25,15 20,88 Minnesota 0,0143 29,84 24,77 OMS 0,0210 24,83 20,61 Upjohn 0,1177 7,30 6,06 Lipids 0,0326 19,29 16,01 Helsinki 0,0518 14,07 11,68

( )!"!#$

!%

!&'

(

+(=

) ) ) iii wwwKQ

máx/1,0. 2

2*

Page 29: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 2.!

Tabla 10.5. Resumen de la ponderación por inverso de la varianza (modelo de efectos aleatorios de DerSimonian Laird).

Objetivo Estimación Ponderación resumen, #p

Q, wi y k como en la Tabla 11.3. Error estándar de #p

Intervalo de confianza de #p

Significación estadística de #p

Heterogeneidad, Q

(2 con k – 1 grados de libertad

Como ya se ha mencionado, )2 > 0 y se puede aplicar el MEA. Se recalculan los

pesos. En primer lugar se aprecia que los pesos son menores que en el MEF, lo que se traducirá en una mayor varianza (recuerde, el inverso de la suma de los pesos) y un intervalo de confianza mayor. Se comprueba también que las diferencias en la importancia de los estudios se han amortiguado: con los pesos originales el estudio Minnesota era siete veces más influyente que el de Upjohn (72,5 frente a 10,0), mientras que con la nueva ponderación, es algo superior a tres (27,1 frente a 8,1). Se concede con el MEA una mayor importancia relativa a los estudios pequeños.

Con el MEA, la ORp = 1,05 y un intervalo de confianza más amplio que con el MEF, e igualmente no significativo (0,88-1,26). Al descender el valor de los pesos, la prueba de homogeneidad Q se hace más pequeña, Q = 5,2, p = 0,39. Es más difícil encontrar heterogeneidad con el MEA.

Estrategia general de análisis La elección entre una medida basada en el RR o en la diferencia de riesgos

depende de los objetivos de la investigación, pero anundan mucho más los metanálisis basados en el RR. En los estudios observacionales (cohortes, casos y controles) el método del inverso de la varianza permite combinar parámetros (p.ej. RR) ajustados. Hay otros métodos como el de Mantel-Haenszel y el de Peto que obligan a utilizar directamente los datos brutos de cada casilla de la tabla 2x2, y es probable que haya sesgo de confusión. Esto supone que los métodos Mantel-Haenszel y Peto se recomienden sólo para los estudios experimentales, donde ae puede asumir que al aleatorizar la exposición se ha conseguido prevenir la confusión.

Con respecto a la disyuntiva de utilizar el MEF o el MEA, se insiste en que la elección debe especificarse a priori y no tras conocer los resultados. Es muy común empezar por un MEF (mucho más restrictivo a la hora de considerar la heterogeneidad, ya que es más fácil detectarla con este procedimiento) y esto basta

!!= *

*

i

iip w

w ""

2*

)(1

!" +=

ii Varw

!!

"

!!

#

$

!!

%

!!

&

'

(

+(=

) ))

i

ii w

ww

KQ2

2 1,0max*

!= *

1)(i

p wEE "

)(2/ pp EEz !! "#

)( p

p

EEz

!

!=

( )! "= 2*piiwQ ##

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 23!

si no hay heterogeneidad; por el contrario, si hay heterogeneidad se recurre al MEA. A priori se recomienda el MEA cuando el número de estudios es pequeño (< 20).

El MEA asume que sólo se dispone de una muestra de los estudios existentes, asunción más realista que tener todo el universo de estudios, como subyace en el MEF.

El MEA introduce un término de variabilidad adicional y aumenta la varianza del estimador resumen, ampliando el intervalo de confianza final. Esto es una ventaja no desdeñable, ya que uno de los inconvenientes que se han señalado en el metaanálisis es la facilidad de obtener intervalos de confianza exageradamente estrechos y resultados estadísticamente significativos.

Sin embargo, la desventaja del MEA es que el mismo coeficiente de variabilidad se añade por igual a cada estudio, lo que hace que se acabe concediendo una mayor importancia relativa a los estudios pequeños frente a los grandes, lo que supone que el MEA se influye más por los errores que afectan a los estudios pequeños, como el sesgo de publicación.

Algunos autores recomiendan que se haga un análisis de sensibilidad, siempre y cuando sea posible, y combinar los resultados de las distintas investigaciones por más de un método. Si los distintos análisis coinciden, queda más clara la robustez de la inferencia. ESTUDIO DE LA HETEROGENEIDAD

Siempre debe realizarse un análisis de la heterogeneidad. Lo más habitual es usar el estadístico Q. Si el estadístico Q es grande y tiene un valor p significativo o próximo a la significación surgirán dudas sobre la homogeneidad de los estudios y la capacidad de combinarlos se pone en tela de juicio.

La síntesis de estudios realizados en diferentes lugares y tiempos, sobre distintas poblaciones y con diseños diferentes, con frecuencia da lugar a que los resultados sean estadísticamente diferentes entre sí. Esta heterogeneidad no puede ignorarse. Supóngase que todos los resultados de los estudios individuales son ciertos, sin sesgos, y existe una marcada heterogeneidad; aquí el cálculo de una medida resumen que promediaría de algún modo los diferentes estudios no aporta nada (más bien confunde). El conocimiento del promedio entre los diferentes estudios no permite apreciar la riqueza de la variabilidad existente y lo más acertado sería investigar cuáles son las razones para que se produzcan resultados contradictorios. El metaanálisis sólo debe sacar un denominador común sólo cuando de verdad éste existe.

Un inconveniente grave del análisis de la heterogeneidad es que la mayoría de sus pruebas estadísticas no tienen una potencia estadística adecuada, especialmente cuando hay pocos estudios; por ello, el no rechazar la hipótesis de homogeneidad no implica que no exista heterogeneidad.

Una alternativa interesante al estadístico Q es el estadísitco I2 que cuantifica el efecto de la heterogeneidad, proproporcionando una medida del grado de inconsistencia en los resultados de los diferentes estudios. I2 describe el porcentaje de la variabilidad total entre estudios que es debida a heterogeneidad en vez de ser debida al azar. I2 se puede calcular como

I2 = 100%"(Q - gl)/Q

donde Q es la cantidad antes presentada y gl son los grados de libertad. En el ejemplo

I2 = 100"(8,4 -5)/8,4 = 40.4% para el MEF

I2 = 100"(5,2 -5)/5,2 = 3.8% para el MEA

Page 30: Repaso de Epidemiologia y Bioestadistica

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 24!

Los valores negativos de I2 se asume que son cero. Eso permite que el rango de valores para I2 esté entre el 0% y el 100%. Un valor del 0% indica que no se observa heterogeneidad; en cambio valores grandes muestran nivelkes crecientes de heterogeneidad (3).

En el análisis de la heterogeneidad se debe partir de una reflexión acerca de

cuáles pueden ser las variables que pueden ejercer una influencia diferencial: variables de diseño, exposición, efecto, u otros factores de riesgo (variables de persona, tiempo y lugar, etc.). A continuación se puede proceder de varias maneras: ! Análisis estratificado: se repite el metaanálisis en cada uno de los estratos. Si

desaparece la heterogeneidad dentro de los estratos es razonable pensar que esa variable influye. El inconveniente que presenta esta estrategia es que puede resultar poco eficiente si hay muchos estratos y el número total de estudios es pequeño.

! Metarregresión: Suele ser más eficiente que la técnica anterior. En ella se utiliza como variable dependiente la magnitud del efecto que se valora con una o varias variables independientes: ln OR = *0 + $*ixi. Las técnicas de metarregresión trabajan con datos agregados y por lo tanto están sometidas a los problemas de la falacia ecológica.

! Metaanálisis acumulado: es menos sensible que las anteriores para la identificación de la heterogeneidad.

! Análisis de influencia: El análisis de la heterogeneidad, en ocasiones, no revela ninguna causa, sino que sugiere que tal heterogeneidad puede ser debida a un error aleatorio, motivado porque una o varias investigaciones encuentran valores que difieren de la media. Son valores extremos sin ninguna razón aparente. Un análisis de influencia puede ser aconsejable: consiste en repetir el análisis con y sin ellos. Si el resultado significativo depende de ellos, hay que ser cauto en la inferencia. También puede cambiarse el peso de esos estudios y comprobar qué sucede.

! Análisis de sensibilidad: puede hacerse de varias maneras: cambiando los criterios de inclusión de los estudios que se combinan (generalmente características metodológicas) y, si se corrigieron errores, variando los criterios utilizados para corregirlos.

GRÁFICO DE BOSQUE (FOREST PLOT) El gráfico de bosque o forest plots es el modo habitual de presentar un meta-análisis y está diseñado para mostrar los riesgos relativos (u odds ratios) de múltiples estudios que intentan contestar todos a la misma pregunta de investigación. Inicialmente se usó sólo para mostrar los resultados de diversos ensayos. En los últimos 20 años está siendo aplicad también a estudios observacionales.

Los forest plots pueden adoptar diversas configuraciones, pero normalmente se presentan como una lista situada a la izquierda con los nombres (muchas veces en orden cronológico) de cada uno de los estudios recogidos, seguida de unas figuras para cada estudio que incluyen unas barras laterales (intervalo de confianza) en torno a un pequeño cuadrilátero central (estimación puntual del RR), todo este gráfico está situado a la derecha del nombre del cada estudio. Las barras de confianza son horizontales. El gráfico puede representarse en escala logarítmica cuando se usen odds ratios u otras medidas multilicativas porque sólo así los intervalos de confianza serán simétricos en torno a la estimación puntual (RR u OR de cada estudio). De lo contrario, podría darse mucha importancia indebidamente a la parte del intervalo de confianza que es superior a 1, mientras que se le da poca importancia a la inferior a 1 (ya que todo su margen de movilidad quedaría meramente entre 0 y 1).

El área de cada cuadrilátero suele ser proporcional al peso que tiene el estudio. Se representan dos líneas verticales, una es la correspondiente al nulo (RR=1) y otra corresponde

Universidad de Navarra Dpto. M. Preventiva y Salud Pública

! 05!

a la estimación combinada (ORp, por ejemplo) que resulta del metanálisis. Estas líenas cruzan todos los estudios. Al final, en la parte inferior se representa como un rombo la estimación combinada global del metaanálisis. El rombo abarca el intervalo de confianza de la ORp.

REFERENCIAS (1) Levin ML, Goldstein H, Gerhardt PR. Cancer and tobacco smoking: a preliminary report. JAMA 1950;143,

336–338. (2) Wynder EL, Graham EA. Tobacco smoking as a possible etiologic factor in bronchiogenic carcinoma. A study

of six hundred and eighty-four proved cases. JAMA 1950;143, 329–336. (3) Higgins JPT, Thompson SG, Deeks JJ, Altman DG. Measuring inconsistency in meta-analyses BMJ 2003;

327: 557–560.

Overall (I-squared = 40.4%, p = 0.136)

LA Veterans

Study

Helsinki

OMS

Lipids

Upjohn

Minnesota

1.07 (0.94, 1.22)

0.96 (0.72, 1.27)

Ratio (95% CI)

1.06 (0.68, 1.66)

1.47 (1.11, 1.95)

0.95 (0.67, 1.35)

0.62 (0.32, 1.21)

1.04 (0.82, 1.31)

Odds

100.00

21.68

Weight

8.59

21.15

13.64

3.78

31.16

%

1.07 (0.94, 1.22)

0.96 (0.72, 1.27)

Ratio (95% CI)

1.06 (0.68, 1.66)

1.47 (1.11, 1.95)

0.95 (0.67, 1.35)

0.62 (0.32, 1.21)

1.04 (0.82, 1.31)

Odds

100.00

21.68

Weight

8.59

21.15

13.64

3.78

31.16

%

1.5 1 2