MATH - Bioestadistica

327
 Material docente de la Unidad de Bioestadística Clínica Material docente de la Unidad de Bioestadística Clínica 1. Teoría de la probabilidad 2. Introducción a la estadística 3. Análisis de la varianza 4. Modelos de regresión lineal 5. Precisión y validez de las pruebas diagnósticas 6. Modelos de regresión logística 7. Modelos de regresión de Poisson 8. Análisis de Supervivencia 9. Medidas de frecuencia de la enfermedad 1. Teoría de la probabilidad 1.1 Idea intuitiva 1.2 Formalización de la probabilidad  1.3 Definición axiomática de la probabilidad  1.4 Propiedades de la probabilidad  1.5 Probabilidad condicionada 1.6 Sucesos independientes 1.7 Regla de la probabilidad total  1.8 Teorema de Bayes 1.9 Problemas propuestos  Anexo I Repaso de Algebra de Conjuntos Definiciones Propiedades Función de conjunto 2 Estadística 2.1 Definiciones 2.1.1 ¿Por qué la estadística? 2.2 Estadística descriptiva 2.2.1 Métodos gráficos de representación de datos 2.2.2 Medidas descriptivas 2.2.3.Medidas de posición  2.2.4 Medidas de dispersión 2.3 Variable aleatoria 2.3.1 Inducción de probabilidad a variables aleatorias

Transcript of MATH - Bioestadistica

Material docente de la Unidad de Bioestadstica Clnica

Material docente de la Unidad de Bioestadstica Clnica

1. Teora de la probabilidad 2. Introduccin a la estadstica 3. Anlisis de la varianza 4. Modelos de regresin lineal 5. Precisin y validez de las pruebas diagnsticas 6. Modelos de regresin logstica 7. Modelos de regresin de Poisson 8. Anlisis de Supervivencia 9. Medidas de frecuencia de la enfermedad 1. Teora de la probabilidad 1.1 Idea intuitiva 1.2 Formalizacin de la probabilidad 1.3 Definicin axiomtica de la probabilidad 1.4 Propiedades de la probabilidad 1.5 Probabilidad condicionada 1.6 Sucesos independientes 1.7 Regla de la probabilidad total 1.8 Teorema de Bayes 1.9 Problemas propuestos Anexo I Repaso de Algebra de Conjuntos Definiciones Propiedades Funcin de conjunto 2 Estadstica 2.1 Definiciones 2.1.1 Por qu la estadstica? 2.2 Estadstica descriptiva 2.2.1 Mtodos grficos de representacin de datos 2.2.2 Medidas descriptivas 2.2.3.Medidas de posicin 2.2.4 Medidas de dispersin 2.3 Variable aleatoria 2.3.1 Induccin de probabilidad a variables aleatorias 2.3.2 Funcin densidad de probabilidad (fdp) 2.3.3 Funcin acumulativa de probabilidadhttp://www.hrc.es/bioest/M_docente.html (1 of 5) [28/12/2002 18:09:39]

Material docente de la Unidad de Bioestadstica Clnica

2.3.4 Parmetros caractersticos de una fdp 2.4 Problemas propuestos 2.5 Inferencia estadstica 2.6 Estimacin de parmetros 2.6.1 Distribucin muestral de medias 2.6.2 Estimacin de proporciones 2.7 Problemas propuestos 2.8 Contrastes de hiptesis 2.8.1 Tamao muestral para contrastes sobre medias 2.8.2 Comparacin de medias 2.8.3 Independencia de v.a. cualitativas 2.9 Estadsticos de fuerza de asociacin 2.10 Problemas propuestos 2.11 Introduccin a la causalidad 2.12 Introduccin al anlisis multivariante 3. Anlisis de la varianza 3.1 Bases del anlisis de la varianza 3.2 Algunas propiedades 3.3 Ejemplo 1 3.4 Pruebas para la homocedasticidad 3.5 Modelos de Anova 3.5.1 Modelo I o de efectos fijos 3.5.2 Modelo II o de efectos aleatorios 3.6 Pruebas a posteriori 3.7 Anlisis de la varianza de dos factores 3.8 Identidad de la suma de cuadrados 3.9 Contrastes de hiptesis en el anova de 2 vas 3.9.1 Modelo I 3.9.2 Modelo II 3.9.3 Modelo mixto 3.10 Ejemplo 2 3.11 Tamaos muestrales desiguales en un anova de 2 vas 3.12 Casos particulares: Anova sin repeticin y Bloques completos aleatorios 3.13 Ejemplo 3 3.14 Anlisis de la varianza de ms de dos factores 4. Correlacin y Modelos de regresin lineal 4.1 Bibliografa 4.2 Generalizacin del concepto de fdp a variables multidimensionales 4.3 Independencia de dos variables aleatorias 4.4 Funcin lineal 4.5 Modelo I de regresin lineal simplehttp://www.hrc.es/bioest/M_docente.html (2 of 5) [28/12/2002 18:09:39]

Material docente de la Unidad de Bioestadstica Clnica

4.6 Interpretacin del contraste 1=0 4.7 Inferencias sobre la regresin 4.8 Anlisis de la varianza de la regresin simple 4.9 Modelo II de regresin lineal simple 4.10 Propiedades del coeficiente de correlacin 4.11 Potencia de los contrastes en regresin 4.12 Modelo de regresin lineal mltiple 4.13 Estimacin y contrastes de hiptesis 4.14 Anlisis de la varianza de la regresin mltiple 4.15 Variables indicadoras ("dummy") 4.16 Interaccin y confusin en la regresin 4.17 Estrategias de modelizacin 4.18 El problema de la colinealidad 4.19 Anlisis de los residuos 4.20 Regresin lineal con el PRESTA 5. Errores en las mediciones y clasificaciones clnicas: Precisin y validez 5.1 ndices de concordancia 5.2 Problemas del ndice kappa 5.3 Clasificaciones multinomiales 5.4 ndice kappa con "pesos" 5.5 Distribucin muestral del ndice kappa 5.6 Clculo del ndice kappa con el PRESTA 5.7 Concordancia para variables continuas 5.8 ndices de validez 5.9 Cocientes de probabilidad (CP) 5.10 Intervalos de confianza para los CP's 5.11 Tablas Kx2 5.12 Ms de dos enfermedades 5.13 Clculo de estos ndices con el PRESTA 5.14 Curvas ROC 5.15 Eleccin del punto de corte ptimo 5.16 Sesgos en la evaluacin de las pruebas diagnsticas 6. Modelos de regresin logstica 6.1 Bibliografa 6.2 Asociacin entre variables binomiales 6.3 Modelo de regresin logstica simple 6.4 Estimacin de los coeficientes 6.5 Distribucin muestral de los coeficientes 6.6 Estimacin por intervalos y contrastes de hiptesis sobre los coeficientes 6.7 Modelo mltiple 6.8 Prueba de Hosmer-Lemeshowhttp://www.hrc.es/bioest/M_docente.html (3 of 5) [28/12/2002 18:09:39]

Material docente de la Unidad de Bioestadstica Clnica

6.9 rea bajo la curva ROC 6.10 Variables indicadoras ("dummy") 6.11 Interaccin y confusin en regresin logstica 6.12 Estrategias de modelizacin 6.13 La colinealidad en regresin logstica 6.14 Regresin logstica condicional 6.15 Evaluacin de los modelos de regresin logstica 7. Modelos de regresin de Poisson 7.1 Bibliografa 7.2 Variables de Poisson 7.3 Modelo de regresin de Poisson 7.4 Estimacin de los coeficientes 7.5 Distribucin muestral de los estimadores 7.6 Contrastes de hiptesis y estrategias de modelizacin 7.7 La colinealidad en regresin de Poisson 7.8 Relacin entre los modelos de Poisson y logstico 8. Anlisis de Supervivencia 8.1 Bibliografa 8.2 Introduccin 8.3 Distribucin de la variable tiempo de espera 8.4 Estimacin de la funcin de supervivencia (mtodo de Kaplan-Meier) 8.5 Varianza de los estimadores 8.6 Mtodo actuarial 8.7 Comparacin de funciones de supervivencia 8.8 Alternativa parmetrica 8.8.1 Funcin exponencial 8.8.2 Funcin de Weibull 8.8.3 Funcin lognormal 8.8.4 Funcin gamma 8.9 Modelo de riesgo proporcional (Cox) 8.10 Estimacin de los coeficientes y contrastes de hiptesis 8.11 Estrategias de modelizacin 9. Medidas de frecuencia de la enfermedad 9.1 Bibliografa 9.2 Introduccin 9.3 Prevalencia 9.4 Incidencia 9.4.1 Incidencia acumulada 9.4.2 Densidad de incidencia 9.5 Intervalos de confianza

http://www.hrc.es/bioest/M_docente.html (4 of 5) [28/12/2002 18:09:39]

Material docente de la Unidad de Bioestadstica Clnica

9.6 Medidas de asociacin o efecto 9.6.1 Razn de tasas de incidencia 9.6.2 Riesgo relativo 9.6.3 Odds ratio 9.6.4 Diferencia absoluta de riesgo 9.6.5 Reduccin absoluta de riesgo 9.6.6 Diferencia relativa de riesgo 9.6.7 Reduccin relativa de riesgo 9.6.8 Nmero necesario a tratar 9.7 Comparacin de las distintas medidas 9.8 Intervalos de confianza

http://www.hrc.es/bioest/M_docente.html (5 of 5) [28/12/2002 18:09:39]

TEORIA de la PROBABILIDAD

PROBABILIDADV.Abraira Referencia bibliogrfica A.Prez de Vargas, V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid. 1996. Idea intuitiva Nmero, entre 0 y 1, asociado con la verosimilitud de que ocurra un suceso, 0 cuando estamos seguros que el suceso no va a ocurrir y 1 cuando estamos seguros que s va a ocurrir. El problema es cmo asignar ese nmero en situaciones de incertidumbre? a) A veces se estima por la frecuencia relativa. P.e. una manera de aproximarnos a la probabilidad de que una intervencin quirrgica arriesgada tenga xito es consultar el registro de las intervenciones quirrgicas realizadas sobre pacientes similares, si de las ltimas 10, ha sido un xito en 8, la frecuencia relativa es 8/10=0,8 se parecer a esa probabilidad. La frecuencia relativa cambia, en el ejemplo anterior si el registro, en lugar de 10 pacientes, tuviera 11, la frecuencia relativa sera necesariamente distinta (8/11 9/11), pero hay una ley emprica que establece que cuando el "nmero de ensayos" (pacientes, en el ejemplo) es suficientemente grande, la frecuencia relativa se estabiliza. A veces, se define la probabilidad como el lmite de la frecuencia relativa. Cmo saber, en cada caso, si el "nmero de ensayos" es suficientemente grande? Una parte de la estadstica tiene que ver con este problema. La grfica muestra la evolucin de la frecuencia relativa del resultado "cara 1" en 4 series de 100 tiradas de un dado. Se observa que la frecuencia relativa oscila, que la amplitud de las oscilaciones va decreciendo a medida que aumenta el nmero de tiradas y que todas las series tienden a estabilizarse a la misma altura, tambin que 100 no es un nmero "suficientemente grande" para que la frecuencia relativa ya est estabilizada (los valores finales de las 4 series varan entre 0,17 y 0,21).

b) Hay situaciones en que se puede calcular: si todos los resultados del experimento son igualmente probables, entonces la probabilidad se define (definicin clsica o de Laplace) como el cociente entre el nmero de casos favorables y el nmero de casos totales.

La probabilidad de que el resultado de tirar un dado sea un uno, se calculara de esta forma. Comprese el resultado 1/6 obtenido as con la grfica anterior.

http://www.hrc.es/bioest/Probabilidad_1.html [28/12/2002 18:09:56]

Formalizacin de la probabilidad

Formalizacin de la probabilidad Convenios: Los textos en color malva corresponden a un mayor nivel de formalizacin y pueden ser omitidos en una primera lectura. Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado concreto. Espacio muestral: conjunto de posibles resultados. Punto muestral: elemento del espacio muestral. Suceso: cualquier subconjunto del espacio muestral. Si representamos el espacio muestral por y a los sucesos por A: A . Dado que el conjunto vaco es subconjunto de cualquier conjunto ( ) y que todo conjunto es subconjunto de s mismo ( ), tanto el conjunto vaco como el espacio muestral son sucesos. Si lo necesita Repaso del lgebra de conjuntos Un problema a tener en cuenta es que dado un experimento, podemos encontrar ms de un espacio muestral. Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos Cul es el espacio muestral apropiado para estudiar la posible hemofilia de estos? Opcin a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto 1={sss, ssn, sns, nss, snn, nsn, nns, nnn} Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que asegurarse que no se olvida ninguno. En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn} Opcin b: Pueden padecer hemofilia los tres hijos (3), dos (2), ... 2={3, 2, 1, 0} En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los dos primeros no la padecen" no se puede representar porque en el espacio muestral no est contemplado el orden.

http://www.hrc.es/bioest/Probabilidad_12.html [28/12/2002 18:10:24]

Definicin axiomtica de probabilidad

Definicin axiomtica de probabilidad Convenios: Los textos en color malva corresponden a un mayor nivel de formalizacin Sea : espacio muestral, P() conjunto de las partes de , o conjunto de sucesos, o lgebra de sucesos. Se define probabilidad, o funcin de probabilidad, a cualquier funcin p: P() (es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, nmero real) que cumpla los axiomas siguientes i) p(A) 0 A P() ii) p(A1 A2 A3 ...) = p(A1) + p(A2) + p(A3) + ... si Ai Aj = i j (sucesos mutuamente excluyentes) iii) p() = 1 A la estructura (, P(), p) se le denomina espacio de probabilidad. Establecer claramente el espacio de probabilidad ser el primer paso imprescindible para estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la prctica, en el anlisis estadstico de investigaciones clnicas tienen que ver con el establecimiento implcito y defectuoso de este espacio. Obsrvese que es necesario asignar un nmero a todos los sucesos, no slo a los sucesos elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a travs de la propiedad ii) se puede asignar a todos los dems. Ejemplo 1: Para el experimento aleatorio de tirar un dado, el espacio muestral es = {1, 2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P() = {, {1}, {2}, ...{1,2}, {1,3}, ...{1,2,3,4,5,6}}. Para establecer una probabilidad hay que asignar un nmero a todos esos sucesos. Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6. Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el dado es una cara impar".

http://www.hrc.es/bioest/Probabilidad_13.html [28/12/2002 18:10:34]

Propiedades de la probabilidad

Propiedades de la probabilidad Demostraciones 1) p(Ac) = 1 - p(A) Ac representa el suceso complementario de A, es decir el formado por todos los resultados que no estn en A. 2) A1 A2 p(A1) p(A2) 3) p() = 0 4) p(A) 1 5) p(A B) = p(A) + p(B) - p(A B) (Regla general de la adiccin) Ejemplo 2: Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son obesos y un 3% son hipertensos y obesos. Qu probabilidad hay de que elegido un paciente al azar sea obeso o hipertenso? A = {obeso} B = {hipertenso} A B = {hipertenso y obeso} A B = {obeso o hipertenso} p(A) = 0,10; p(B) = 0,15; p(A B) = 0,03 p(A B) = 0,10 + 0,15 - 0,03 = 0,22

http://www.hrc.es/bioest/Probabilidad_14.html [28/12/2002 18:10:54]

Probabilidad condicionada

Probabilidad condicionada Como la probabilidad est ligada a nuestra ignorancia sobre los resultados de la experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de los dems. El proceso de realizar la historia clnica, explorar y realizar pruebas complementarias ilustra este principio. La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada y se define

Esta definicin es consistente, es decir cumple los axiomas de probabilidad. Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A veces es ms fcil calcular la probabilidad condicionada teniendo en cuenta este cambio de espacio muestral. Ejemplo 3: Una mujer es portadora de la enfermedad de Duchenne Cul es la probabilidad de que su prximo hijo tenga la enfermedad? Segn las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora (xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio muestral es = {xX, xY, XX, XY} el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, segn la definicin clsica de probabilidad p(A) = 1/4 = 0,25 La mujer tiene el hijo y es varn qu probabilidad hay de que tenga la enfermedad? Se define el suceso B = {ser varn} = {xY, XY} la probabilidad pedida es p(A|B) y aplicando la definicin anterior p(B) = 0,5; A B = {xY}; p(A B) = 0,25; p(A|B) = 0,25/0,5 = 0,5 Si sabemos que es varn, el espacio muestral ha cambiado, ahora es B. Por lo tanto se puede calcular p(A|B) aplicando la definicin clsica de probabilidad al nuevo espacio muestral p(A|B) = 1/2 = 0,5 Ejemplo 4: Se sabe que el 50% de la poblacin fuma y que el 10% fuma y es hipertensa. Cul es la probabilidad de que un fumador sea hipertenso? A = {ser hipertenso} B = {ser fumador} A B = {ser hipertenso y fumador} p(A|B) = 0,10/0,50 = 0,20 Obsrvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnsticas son probabilidades condicionadas. La frmula anterior se puede poner p(A B) = p(B) p(A|B) = p(A) p(B|A) llamada regla de la multiplicacin, que se puede generalizar a ms sucesos p(A1 A2 A3) = p((A1 A2) A3) = p(A1 A2) p(A3|A1 A2) = p(A1) p(A2|A1) p(A3|A1 A2)

http://www.hrc.es/bioest/Probabilidad_15.html (1 of 2) [28/12/2002 18:11:13]

Probabilidad condicionada

En general p(A1 A2 A3 ...) = p(A1) p(A2|A1) p(A3|A1 A2) ... llamado principio de las probabilidades compuestas y especialmente til para aquellas situaciones en que las probabilidades condicionadas son ms fciles de obtener que las probabilidades de las intersecciones. Ejemplo 4: Se sabe por estudios previos que el 0,1% de la poblacin tiene problemas vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos son placas de ateroma. Si el 10% de los individuos con placas de ateroma estn expuestos a muerte sbita por desprendimiento de trombos qu probabilidad tiene un individuo cualquiera de estar expuesto a muerte sbita por desprendimiento de trombos de una placa de ateroma? A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte sbita por ....} p(A1) = 0,001; p(A2|A1) = 0,20; p(A3|A1 A2) = 0,1 p(A1 A2 A3) = 0,001 x 0,20 x 0,1 = 0,000002 Ejemplo 5: Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos verdes. Definimos A1 = {la 1 bola es azul}; A2 = {la 2 bola es verde}; A3 = {la 3 bola es verde} p(A1) = 2/10 aplicando la definicin clsica de probabilidad, puesto que hay 10 bolas y 2 son verdes. p(A2|A1) = 5/9; si la primera bola extrada es azul, en la urna quedan 9 bolas, 5 de ellas verdes. p(A3|A1 A2) = 4/8; si la primera bola extrada es azul y la segunda verde en la urna quedan 8 bolas, 4 de ellas verdes. p(A1 A2 A3) = 2/10 x 5/9 x 4/8 = 1/18

http://www.hrc.es/bioest/Probabilidad_15.html (2 of 2) [28/12/2002 18:11:13]

Sucesos independientes

Sucesos independientes Dos sucesos son independientes si y slo si p(A B) = p(A) p(B). Si dos sucesos son independientes

y del mismo modo p(B|A) = p(B) Esta propiedad coincide ms con la idea intuitiva de independencia y algunos textos la dan como definicin. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes. Ejemplo 6: Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad son independientes? Segn vimos en el Ejemplo 3 el espacio muestral es = {xX, xY, XX, XY} Definimos los sucesos A = {varn} = {xY, XY}; B = {enfermo} = {xY} A B = {xY} por lo tanto p(A) = 0,5; p(B) = 0,25; p(A B) = 0,25 p(A) p(B) NO son independientes.

http://www.hrc.es/bioest/Probabilidad_16.html [28/12/2002 18:11:32]

Regla de la PROBABILIDAD total

Regla de la probabilidad total Se llama particin a conjunto de sucesos Ai tales que A1 A2 ... An = y Ai Aj = i j es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el espacio muestral

Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una particin del espacio muestral y p(Ai) 0 Ai, para cualquier otro suceso B se cumple

Demostracin Ejemplo 7: La prevalencia de infarto cardaco para hipertensos es del 0,3% y para no hipertensos del 0,1%. Si la prevalencia de hipertensin en una cierta poblacin es del 25% Cul es la prevalencia del infarto en esa poblacin? A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una particin B = {padecer infarto} datos: p(B|A1) = 0,003; p(B|A2) = 0,001; p(A1) = 0,25 evidentemente p(A2) =0,75 por la propiedad 1 p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015

http://www.hrc.es/bioest/Probabilidad_17.html [28/12/2002 18:12:21]

Teorema de Bayes

Teorema de Bayes Si los sucesos Ai son una particin y B un suceso tal que p(B) 0

Demostracin Aplicaciones Diagnstico mdico (en general clasificaciones no biunvocas): El diagnstico consiste en establecer la enfermedad de un paciente, a partir de una serie de sntomas. Pero los sntomas y las enfermedades no estn ligados de un modo biunvoco. Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cncer de pulmn; E3: bronquitis obstructiva; etc. y Si a los sntomas y sndromes asociados con las mismas S1: tos; S2: estado febril; S3: hemotisis; etc. La informacin accesible en los libros de patologa, o en un archivo de historias clnicas es del tipo Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las dems enfermedades En trminos de probabilidad condicionada, esta informacin es p(S3|E1) = 0,2; p(S1|E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los sntomas que presenta el paciente p(E1|Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una particin (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el sntoma) y se conocen sus prevalencias. Ntese que un mismo conjunto de sntomas podra dar lugar a un diagnstico diferente en poblaciones en las que las prevalencias fueran diferentes. Pruebas diagnsticas: Supngase una prueba diagnstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l. Para evaluar la prueba, (habr que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabticos diagnosticados por otro procedimiento (el patrn de oro o "gold standar") y a una serie de individuos no diabticos. Los resultados se pueden representar en una tabla de doble entrada Patrn de oro NE Pruebahttp://www.hrc.es/bioest/Probabilidad_18.html (1 of 2) [28/12/2002 18:12:55]

E b r

a

Teorema de Bayes

+

c t

d u

s

Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimacin de la probabilidad condicionada p(+|NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimacin de la probabilidad condicionada p(-|E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simtricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+|E), y la especificidad p(-|NE). Cuando la prueba se usa con fines diagnsticos (o de "screening") interesa calcular p(E|+) y/o p(NE|-). como E y NE son una particin, usando el Teorema de Bayes

y

Ntese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnstica que funciona muy bien en la clnica Mayo, puede ser intil en el Hospital Ramn y Cajal. Ejemplo 8: una prueba diagnstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la poblacin donde se usa es del 7% cul es la probabilidad de que sea diabtico un individuo en el que la prueba d positiva? y de que no lo sea uno en el que d negativo? p(+|NE) = 0,04 p(-|NE) = 0,96 p(-|E) = 0,05 p(+|E) = 0,95 p(E) = 0,07 p(NE) = 0,93

y

Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), sern la p(E|+) y p(NE|+) de la prueba anterior (si dio positiva) o p(E|-) y p(NE|-) si dio negativa.

http://www.hrc.es/bioest/Probabilidad_18.html (2 of 2) [28/12/2002 18:12:55]

Problemas de probabilidad propuestos:

Problemas de probabilidad propuestos: 1 Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos sanos. Calcular la probabilidad de que ella sea portadora de la enfermedad. Solucin 2 Una prueba diagnstica para el cncer uterino tiene un coeficiente falso-positivo de 0.05 y falso-negativo de 0.10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0.15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no est enferma. Solucin

http://www.hrc.es/bioest/Probabilidad_pro.html [28/12/2002 18:13:09]

Problemas de probabilidad resueltos:

Problemas de probabilidad resueltos: 1 Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la enfermedad. Solucin Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el nacimiento de la mujer ={xX, XX}, cada suceso elemental con la misma probabilidad (1 ley de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, segn la definicin clsica de probabilidad p(A) = 1/2. Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varn es ={xY, XY}, por tanto la probabilidad de que un hijo varn no tenga la enfermedad es 1/2 (tambin segn la definicin clsica). Cmo los genotipos de los sucesivos hijos son independientes (2 ley de Mendel), y de acuerdo a la definicin de independencia, la probabilidad de que los 3 hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1. Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es portadora} forman una particin, se puede aplicar el teorema de Bayes en relacin con el suceso B = {los 3 hijos varones no tienen la enfermedad}

2 Una prueba diagnstica para el cncer uterino tiene un coeficiente falso-positivo de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no est enferma. Solucin Sea NE = {la mujer no est enferma}, + = {el resultado de la prueba es positivo} y - = {el resultado de la prueba es negativo}. La pregunta pide p(NE|-). Los datos que se dan son p(+|NE)=0,05; p(-|E)=0,10 y p(E)=0,15. Del primero se deduce que p(-|NE)=0,95 y del ltimo p(NE)=0,85, por lo tanto aplicando el teorema de Bayesp(NE|--) = [ p(--|NE) p(NE) ] / [ p(--|NE) p(NE) + p(--|E) p(E) ] p(NE|--) = [ 0,95 x 0,85 ] / [ 0,95 x 0,85 + 0,10 x 0,15 = 0,982

http://www.hrc.es/bioest/Probabilidad_prosul.html [28/12/2002 18:18:34]

REPASO DE ALGEBRA DE CONJUNTOS

REPASO DE ALGEBRA DE CONJUNTOS V.Abraira Definiciones Dado un conjunto A={a, b, c, d}, la relacin de pertenencia se representa por a A. Se llama cardinal del conjunto, y se representa car(A), al nmero de elementos que contiene. Se llama conjunto vaco, y se representa por , al conjunto que no contiene ningn elemento. No desespere, estamos de acuerdo en que si no contiene ningn elemento, no es un conjunto, sin embargo su definicin como tal es muy til. Se llama universo o conjunto universal, y se suele representar por H, al conjunto formado por todos los elementos que se estn considerando. Dado un conjunto A, se llama complementario del mismo, y se representa por Ac, al conjunto formado por los elementos del universo que no son de A. Dos conjuntos son iguales si estn formados por los mismos elementos. Se dice que B es subconjunto de A, y se representa B A, si todos los elementos de B pertenecen a A. Se dice tambin que B est incluido en A. Dados dos conjuntos A y B, se llama unin de ambos, y se representa A B, al conjunto formado por los elementos que pertenecen a A o a B. Ejemplo 1: A={a, b, c, d} B={c, d, e, h} A B = {a, b, c, d, e, h} Ejemplo 2: C={personas obesas} D={personas hipertensas} C D = {personas obesas o hipertensas} Se llama interseccin y se representa A B, al conjunto formado por los elementos que pertenecen a A y a B. Ejemplo 3: para los conjuntos anteriores A B = {c, d} C D = {hipertensos y obesos} Si dos conjuntos no tienen elementos comunes, se llaman disjuntos y su interseccin es el conjunto vaco. Si, para el ejemplo 2, en el universo que se est considerando no hay nadie que sea hipertenso y obeso C D = Al conjunto formado por todos los subconjuntos de un conjunto dado se le denomina conjunto de las partes del conjunto o lgebra y se representa por P(A) Ejemplo: A = {1, 2, 3} P(A) = { , {1}, {2}, {3}, {1,2}, {1,3}, {2,3}, {1,2,3}} Propiedades Propiedades de la inclusin i) A A ii) A iii) A B B A ; slo si A = B iv) A B y B D ==> A D

http://www.hrc.es/bioest/Algebra_conjuntos.html (1 of 2) [28/12/2002 18:31:54]

REPASO DE ALGEBRA DE CONJUNTOS

Propiedades de la unin e interseccin

i) Identidad ii) Idempotencia iii) Commutatividad iv) Asociatividad v) Distributividad vi) Absorcin vii) Complementaridad

A=A AA=A AB=BA (A B) D = A (B D) (A B) D = (A D) (B D) A (A B) = A A Ac = H

A H = A AA=A AB=BA (A B) D = A (B D) (AB) D = (A D) (B D) A (A B) = A A Ac =

Nota: A todo conjunto en el que se hayan definido dos operaciones que tengan estas propiedades, se le denomina Algebra de Boole. Funcin de conjunto: toda regla que de un modo perfectamente determinado haga corresponder un nmero real a cada elemento del conjunto. Se representa por f: A el nmero x que le corresponde al elemento a, se representa por x=f(a) Se denomina imagen de la funcin al conjunto de nmeros que estn en correspondencia con algn elemento, a travs de la funcin.

im f = { x ; a A , f(a)=x }

Volver

Ir a Bioestadstica

http://www.hrc.es/bioest/Algebra_conjuntos.html (2 of 2) [28/12/2002 18:31:54]

Estadstica

ESTADISTICAV.Abraira Referencia bibliogrfica A.Prez de Vargas, V.Abraira. Bioestadstica. Centro de Estudios Ramn Areces. Madrid. 1996. Definiciones Conjunto de mtodos cientficos ligados a la toma, organizacin, recopilacin, presentacin y anlisis de datos, tanto para la deduccin de conclusiones como para tomar decisiones razonables de acuerdo con tales anlisis. Arte de la decisin en presencia de incertidumbre. Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando en realidad una ha comido uno y la otra ninguno. Por qu la estadstica? Usaron la estadstica Galileo, Newton y Einstein? En ciertas ciencias (Biologa, Ciencias Humanas, algunos campos de la Fsica, ...) aparece el concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no produce el mismo resultado) y asociado al mismo el de variable aleatoria. Una variable no aleatoria (asociada al resultado de una experiencia que s produce el mismo resultado) est caracterizada por un valor para cada condicin. Una variable aleatoria est caracterizada por la llamada funcin densidad de probabilidad, a partir de la cual se obtienen las probabilidades para sus posibles valores para cada condicin. Los objetivos de la investigacin cientfica se pueden entender, de un modo muy general, en trminos de encontrar y describir las variables de inters y las relaciones entre ellas, para el problema en estudio. La estadstica es la ciencia que estudia los mtodos que permiten realizar este proceso para variables aleatorias. Estos mtodos permiten resumir datos y acotar el papel de la casualidad (azar). Se divide en dos reas: Estadstica descriptiva: Trata de describir las variables aleatorias en las "muestras". Estadstica inductiva o inferencial: Trata de la generalizacin hacia las poblaciones de los resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son vlidas. Se enfrenta bsicamente con dos tipos de problemas: Estimacin, que puede ser puntual o por intervalos.

http://www.hrc.es/bioest/estadis_1.html (1 of 2) [28/12/2002 18:41:40]

Estadstica

Contraste de hiptesis. ESTADISTICA DESCRIPTIVA La descripcin completa de una variable aleatoria est dada por su funcin densidad de probabilidad (fdp). Afortunadamente una gran cantidad de variables de muy diversos campos estn adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc. Dentro de cada familia, cada fdp est caracterizada por unos pocos parmetros, tpicamente dos: media y varianza. Por tanto la descripcin de una variable indicar la familia a que pertenece la fdp y los parmetros correspondientes. Ejemplo: (hipottico) la concentracin de glucosa en sangre en individuos no diabticos, medida en mg/dl, es normal con media 98 y varianza 90. El problema es cmo averiguar la fdp de una variable de inters? La familia, generalmente, se sabe por resultados de la teora de la probabilidad, aunque, en cada caso, conviene verificarlo. Para conocer los parmetros se deberan conocer los resultados de todos los posibles experimentos (poblacin: conjunto de todos los valores de una variable aleatoria). Generalmente la poblacin es inaccesible, bien es infinita, o aunque finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la poblacin) que, en caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parmetros de las fdps. Muestra aleatoria: muestra elegida independientemente de todas las dems, con la misma probabilidad que cualquier otra y cuyos elementos estn elegidos independientemente unos de otros y con la misma probabilidad. Mtodos grficos de representacin de muestras: El mtodo grfico ms frecuente es el histograma, que puede adoptar distintas formas. Vanse algunos ejemplos. Advertencias: 1 Estos diagramas tienen un fin descriptivo: deben ser fciles de leer. 2 El convenio es que la frecuencia sea proporcional al rea (es proporcional a la altura slo si las barras tienen la misma anchura). 3 Para fines comparativos es mejor usar frecuencias relativas. 4 El nmero de clases (barras), cuando la variable no es cualitativa, no debe ser ni muy grande ni muy pequeo. Generalmente se recomiendan entre 5 y 20 clases de igual tamao. Otro criterio es usar la raz cuadrada del nmero de datos. 5 Los lmites de las clases no deben ser ambiguos, p.e. no deben coincidir con valores posibles de los datos (una cifra decimal ms).

http://www.hrc.es/bioest/estadis_1.html (2 of 2) [28/12/2002 18:41:40]

Medidas descriptivas

MEDIDAS DESCRIPTIVAS Medidas de posicin o tendencia Media muestral: Si tenemos X1, X2, ... , Xn datos, se llama media muestral de los mismos a su media aritmtica

Moda muestral: El valor que ms se repite (puede no existir y si existe puede no ser nica). Mediana muestral: Ordenando los Xi, el valor que est en el medio

Ejemplo: Sean los datos 3, 5, 7, 7, 8, 9 = 39/6 = 6,5; = 7; moda = 7

Medidas de dispersin Rango: Si Xi estn ordenados Xn - X1 Varianza:

aunque para el clculo se suele usar otra frmula ms cmoda

Desviacin tpica o estndar:

Ojo!! no confundir con error tpico o estndar Coeficiente de variacin:

http://www.hrc.es/bioest/estadis_2.html (1 of 2) [28/12/2002 18:43:34]

Medidas descriptivas

http://www.hrc.es/bioest/estadis_2.html (2 of 2) [28/12/2002 18:43:34]

VARIABLE ALEATORIA

Variable aleatoria Una funcin que asocia un nmero real, perfectamente definido, a cada punto muestral. A veces las variables aleatorias (v.a.) estn ya implcitas en los puntos muestrales. Ejemplo 1: Experiencia consistente en medir la presin sistlica de 100 individuos. Un punto muestral (resultado de un experimento) es ya un nmero (presin sistlica). La v.a. est implcita. Ejemplo 2: En el ejemplo de la mujer portadora de hemofilia. = {sss, ssn, sns, snn, nss, nsn, nns, nnn} Se podra definir una variable que asignara a cada punto muestral el nmero de orden en el espacio muestral. X: sss 1; ssn 2; sns 3;... 3; ssn 2; ...

Pero otra posible v.a.: a cada punto muestral el nmero de s. X: sss Los conjuntos pueden ser: discretos: nmero finito o infinito numerable de elementos. continuos: nmero infinito no numerable de elementos.

Las v.a. definidas sobre espacios muestrales discretos se llaman v.a. discretas y las definidas sobre espacios muestrales continuos se llaman continuas. Una v.a. puede ser continua, aunque nosotros slo podamos acceder a un subconjunto finito de valores. P.e. la presin arterial es una v.a. continua pero slo podemos acceder a un conjunto finito de valores por la limitacin de los aparatos de medida. En general, las medidas dan lugar a v.a. continuas y los conteos a v.a. discretas. Induccin de la probabilidad a variables aleatorias Las v.a permiten definir la probabilidad como una funcin numrica (de variable real) en lugar de como una funcin de conjunto como se haba definido antes Ejemplo 3: Tiramos una moneda 3 veces. Representamos cara por c y cruz por z. = {ccc, ccz, czc, zcc, czz, zcz, zzc, zzz} La probabilidad de cada suceso elemental es 1/8. Por ejemplo p(ccc)=1/8, ya que la probabilidad de sacar cara en una tirada es 1/2 segn la definicin clsica y las tiradas son independientes. Definimos la v.a. X: nmero de caras, que puede tomar los valores {0, 1, 2, 3}. Se buscan todos los puntos muestrales que dan lugar a cada valor de la variable y a ese valor se le asigna la probabilidad del suceso correspondiente.

http://www.hrc.es/bioest/estadis_21.html (1 of 5) [28/12/2002 18:44:02]

VARIABLE ALEATORIA

x 0 1 2 3 {zzz}

Sucesos

px 1/8 3/8 3/8 1/8

{czz, zcz, zzc} {ccz, czc, zcc} {ccc}

A esta funcin se le denomina funcin densidad de probabilidad (fdp), que desgraciadamente "funciona" de distinta manera en las variables discreta que en las continuas. En el caso de las variables discretas, como en el ejemplo, es una funcin que para cada valor de la variable da su probabilidad. Ejemplo 4: Supongamos la variable tipo histolgico de un tumor, con los valores 1, 2, 3, 4. Si la fdp fuera

x 1 2 3 4

f(x) 0,22 0,27 0,30 0,21

significara que la probabilidad del tipo 2 es 0,27, etc. Para variables continuas la probabilidad de que una variable tome cualquier valor concreto es 0, por lo tanto la fdp slo permite calcular la probabilidad para un intervalo del tipo (a1) c. Hallar p(X=1) d. Hallar p(X1) Ayuda: hacerlo todo grficamente e. Calcular la media y la varianza (Slo para iniciados). Solucin a. La grfica de la fdp es La condicin equivalente a

para variables continuas es que el rea bajo la fdp sea 1. De modo general ese rea se calcula mediante clculo integral, pero en este caso se puede calcular por la conocida frmula del rea de un tringulo A = (bxh)/2, es decir A = (2x1)/2=1

b. Grficamente, la probabilidad pedida es el rea coloreada de verde, por lo tanto se puede calcular tambin con la frmula del rea del tringulo. Ahora b=1 y para calcular h hay que ver que valor toma la fdp cuando x=1, y = -1/2 + 1 = 1/2. Por lo tanto, la probabilidad es (1x1/2)/2 = 1/4

c. Como en toda variable continua la probabilidad de que tome un valor concreto es 0, por lo tanto p(X=1) = 0 d. Obviamente p(X1) = p(X >1) = 1/4 e. Media

varianza

http://www.hrc.es/bioest/estadis_prosul.html (3 of 4) [28/12/2002 18:45:31]

Problemas de estadstica resueltos

http://www.hrc.es/bioest/estadis_prosul.html (4 of 4) [28/12/2002 18:45:31]

Estadstica inferencial: estimacin de parmetros y contrastes de hiptesis

Estadstica inferencial Los dos tipos de problemas que resuelven las tcnicas estadsticas son: estimacin y contraste de hiptesis. En ambos casos se trata de generalizar la informacin obtenida en una muestra a una poblacin. Estas tcnicas exigen que la muestra sea aleatoria. En la prctica rara vez se dispone de muestras aleatorias, por la tanto la situacin habitual es la que se esquematiza en la figura

Entre la muestra con la que se trabaja y la poblacin de inters, o poblacin diana, aparece la denominada poblacin de muestreo: poblacin (la mayor parte de las veces no definida con precisin) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalizacin est amenazada por dos posibles tipos de errores: error aleatorio que es el que las tcnicas estadsticas permiten cuantificar y crticamente dependiente del tamao muestral, pero tambin de la variabilidad de la variable a estudiar y el error sistemtico que tiene que ver con la diferencia entre la poblacin de muestreo y la poblacin diana y que slo puede ser controlado por el diseo del estudio. Tamao muestral El tamao muestral juega el mismo papel en estadstica que el aumento de la lente en microscopa: si no se ve una bacteria al microscopio, puede ocurrir que: - la preparacin no la contenga - el aumento de la lente sea insuficiente. Para decidir el aumento adecuado hay que tener una idea del tamao del objeto. Del mismo modo, para decidir el tamao muestral: i) en un problema de estimacin hay que tener una idea de la magnitud a estimar y del error aceptable. ii) en un contraste de hiptesis hay que saber el tamao del efecto que se quiere ver.

http://www.hrc.es/bioest/Introducion.html [28/12/2002 18:46:52]

Estimacin de parmetros

Estimacin de parmetros En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parmetros. Para calcularlos necesitaramos tener todos los posibles valores de la variable, lo que no suele ser posible. La inferencia estadstica trata de cmo obtener informacin (inferir) sobre los parmetros a partir de subconjuntos de valores (muestras) de la variable. Estadstico: variable aleatoria que slo depende de la muestra aleatoria elegida para calcularla. Estimacin: Proceso por el que se trata de averiguar un parmetro de la poblacin representado, en general, por a partir del valor de un estadstico llamado estimador y representado por El problema se resuelve en base al conocimiento de la "distribucin muestral" del estadstico que se use. Qu es esto? Concretemos, p.e. en la media (). Si para cada muestra posible calculamos la media muestral ( ) obtenemos un valor distinto ( es un estadstico: es una variable

aleatoria y slo depende de la muestra), habr por tanto una fpd para , llamada distribucin muestral de medias. La desviacin tpica de esta distribucin se denomina error tpico de la media. Evidentemente, habr una distribucin muestral para cada estadstico, no slo para la media, y en consecuencia un error tpico para cada estadstico. Si la distribucin muestral de un estadstico estuviera relacionada con algn parmetro de inters, ese estadstico podra ser un estimador del parmetro.

http://www.hrc.es/bioest/Introducion_est.html [28/12/2002 18:47:24]

Distribuccin muestral de medias

Distribucin muestral de medias Si tenemos una muestra aleatoria de una poblacin N(, ), se sabe (Teorema del lmite central) que la fdp de la media muestral es tambin normal con media y varianza 2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera. Es decir error estndar de la media. es el error tpico, o

Cmo usamos esto en nuestro problema de estimacin? 1 problema: No hay tablas para cualquier normal, slo para la normal =0 y =1 (la llamada z); pero haciendo la transformacin (llamada tipificacin)

una normal de media y desviacin se transforma en una z. Llamando z al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva de , es decir, que la probabilidad que la variable sea mayor que ese valor es (estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la forma

para los que la probabilidad es 1 - .

Teniendo en cuenta la simetra de la normal y manipulando algebracamente

que tambin se puede escribir

o, haciendo nfasis en que

es el error estndar de la media,

Recurdese que la probabilidad de que est en este intervalo es 1 - . A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - )%, o nivel de significacin de 100%. El nivel de confianza habitual es el 95%, en cuyo caso =0,05 y z /2=1,96. Al valor se dice que es un estimador de . se le denomina estimacin puntual y

http://www.hrc.es/bioest/esti_medias.html (1 of 2) [28/12/2002 18:48:00]

Distribuccin muestral de medias

Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20 en la que se calcula se puede decir que tiene una probabilidad de 0,95 de estar comprendida en el intervalo

que sera el intervalo de confianza al 95% para En general esto es poco til, en los casos en que no se conoce tampoco suele conocerse 2; en el caso ms realista de 2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.

o, haciendo nfasis en que

es el error estndar estimado de la media,

Este manera de construir los intervalos de confianza slo es vlido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error. Otras lecturas recomendadas Interpreting study results: confidence intervals. Guyatt et al. CMAJ. 152:169-173. 1995

http://www.hrc.es/bioest/esti_medias.html (2 of 2) [28/12/2002 18:48:00]

Estimacin de proporciones

Estimacin de proporciones Sea X una variable binomial de parmetros n y p (una variable binomial es el nmero de xitos en n ensayos; en cada ensayo la probabilidad de xito (p) es la misma, por ejemplo: nmero de diabticos en 2000 personas). Si n es grande y p no est prximo a 0 1 (np 5) X es aproximadamente normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el estadstico (proporcin

muestral), que es tambin aproximadamente normal, con error tpico dado por en consecuencia, un IC para p al 100(1 - )% ser

es decir, la misma estructura que antes: Obsrvese que para construirlo, se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq 0,25 si se substituye pq por 0,25 se obtiene un intervalo ms conservador (ms grande). Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.

Qu significa este intervalo? La verdadera proporcin de curaciones est comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. Es suficientemente preciso? Habr que juzgarlo con criterios clnicos.

http://www.hrc.es/bioest/esti_propor.html [28/12/2002 18:50:15]

Problemas de estadstica propuestos

Problemas de estadstica propuestos (2 parte): 1 En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene hecho? Solucin 2 Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se est vacunado. En los otros 100 pacientes sin vacunar la pasan 20. Hay evidencia de que la vacuna es eficaz? Solucin = 132 mg/dl y s2=109. Construir el IC al 95% para Qu asuncin se ha

http://www.hrc.es/bioest/estadis_pro2.html [28/12/2002 18:50:45]

Problemas de estadstica resueltos

Problemas de estadstica resueltos (2 parte): 1 En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene hecho? Solucin Usando la frmula general para cuando 2 es desconocida = 132 mg/dl y s2=109. Construir el IC al 95% para Qu asuncin se ha

podemos, o bien mirar a las tablas de la t (o en un programa de ordenador) el valor de t0,025 que para 89 grados de libertad (los grados de libertad son n - 1) es 1,99, o bien como n > 30 aproximar a la z y usar el valor 1,96.

Para poder usar esta frmula es necesario que la variable sea normal. es abusiva esta asuncin? Ver, por ejemplo The normal distribution. Altman & Bland. BMJ 1995; 310:298. 2 Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se est vacunado. En los otros 100 pacientes sin vacunar la pasan 20. Hay evidencia de que la vacuna es eficaz? Solucin La frmula para calcular IC para proporciones es

y aproximando p y q por sus estimaciones

es decir, hay una probabilidad del 95% de que la probabilidad de pasar la gripe si se est vacunado est comprendida entre el 4% y el 16%. Para los no vacunados

Existe solapamiento, aunque pequeo, entre ambos intervalos; por tanto no podemos asegurar que la vacuna sea eficaz.http://www.hrc.es/bioest/estadis_pro2sul.html (1 of 2) [28/12/2002 18:50:58]

Problemas de estadstica resueltos

http://www.hrc.es/bioest/estadis_pro2sul.html (2 of 2) [28/12/2002 18:50:58]

Contrastes de hiptesis

Contrastes de hiptesis Una hiptesis estadstica es una asuncin relativa a una o varias poblaciones, que puede ser cierta o no. Las hiptesis estadsticas se pueden contrastar con la informacin extrada de las muestras y tanto si se aceptan como si se rechazan se puede cometer un error. La hiptesis formulada con intencin de rechazarla se llama hiptesis nula y se representa por H0. Rechazar H0 implica aceptar una hiptesis alternativa (H1). La situacin se puede esquematizar: H0 cierta H0 falsa H1 cierta Decisin correcta (*) Error tipo II ()

H0 rechazada

Error tipo I ()

H0 no rechazada Decisin correcta

(*) Decisin correcta que se busca =p(rechazar H0|H0 cierta) =p(aceptar H0|H0 falsa) Potencia=1-=p(rechazar H0|H0 falsa) Detalles a tener en cuenta: 1 y estn inversamente relacionadas. 2 Slo pueden disminuirse las dos, aumentando n. Los pasos necesarios para realizar un contraste relativo a un parmetro son: 1. Establecer la hiptesis nula en trminos de igualdad

2. Establecer la hiptesis alternativa, que puede hacerse de tres maneras, dependiendo del inters del investigador

en el primer caso se habla de contraste bilateral o de dos colas, y en los otros dos de lateral (derecho en el 2 caso, o izquierdo en el 3) o una cola.

http://www.hrc.es/bioest/Introducion_ch.html (1 of 4) [28/12/2002 18:54:24]

Contrastes de hiptesis

3. Elegir un nivel de significacin: nivel crtico para 4. Elegir un estadstico de contraste: estadstico cuya distribucin muestral se conozca en H0 y que est relacionado con y establecer, en base a dicha distribucin, la regin crtica: regin en la que el estadstico tiene una probabilidad menor que si H0 fuera cierta y, en consecuencia, si el estadstico cayera en la misma, se rechazara H0. Obsrvese que, de esta manera, se est ms seguro cuando se rechaza una hiptesis que cuando no. Por eso se fija como H0 lo que se quiere rechazar. Cuando no se rechaza, no se ha demostrado nada, simplemente no se ha podido rechazar. Por otro lado, la decisin se toma en base a la distribucin muestral en H0, por eso es necesario que tenga la igualdad. 5. Calcular el estadstico para una muestra aleatoria y compararlo con la regin crtica, o equivalentemente, calcular el "valor p" del estadstico (probabilidad de obtener ese valor, u otro ms alejado de la H0, si H0 fuera cierta) y compararlo con . Ejemplo: Estamos estudiando el efecto del estrs sobre la presin arterial. Nuestra hiptesis es que la presin sistlica media en varones jvenes estresados es mayor que 18 cm de Hg. Estudiamos una muestra de 36 sujetos y encontramos

1. Se trata de un contraste sobre medias. La hiptesis nula (lo que queremos rechazar) es:

2. la hiptesis alternativa

es un contraste lateral derecho. 3. Fijamos "a priori" el nivel de significacin en 0,05 (el habitual en Biologa). 4. El estadstico para el contraste es

y la regin crtica T>thttp://www.hrc.es/bioest/Introducion_ch.html (2 of 4) [28/12/2002 18:54:24]

Contrastes de hiptesis

Si el contraste hubiera sido lateral izquierdo, la regin crtica sera T 0 Para calcular el tamao muestral debemos, adems de fijar y , concretar H1 Concretando H1: = 0 + . Si n suficientemente grande para poder usar la normal, es decir

resulta que Si el contraste fuera a dos colas habra que cambiar z por z/2

http://www.hrc.es/bioest/tamano.html [28/12/2002 18:55:02]

Comparacin de medias

Comparacin de medias La hiptesis nula H0: 1 2 = d0 Generalmente d0=0 Hay 3 situaciones distintas: 1 2 3 conocidos (poco frecuente). desconocidos pero iguales. desconocidos pero distintos.

Los estadsticos son distintos (z en 1 y t en 2 y 3) pero el procedimiento es el mismo. En los 3 casos se supone que las muestras son independientes; si no lo fueran hay otro estadstico (t pareada). Todos asumen normalidad. Si no se cumpliera hay que usar los llamados test no paramtricos. Ejemplo En un ensayo clnico para evaluar un hipotensor se compara un grupo placebo con el grupo tratado. La variable medida es la disminucin de la presin sistlica y se obtiene: grupo placebo n = 35; Hg. y s2 = 33,9; grupo tratado n = 40; = 3,7 mm de = 15,1 mm de Hg. y s2 = 12,8. Es eficaz el tratamiento?

Se trata de un contraste sobre diferencias de medias H0: T P = 0 H1: T P > 0 Como no conocemos las varianzas, para realizarlo debemos decidir si son iguales o distintas, para ello se plantea el contraste H0: H1: El estadstico es , para el que p F(k-1,(n-1)k)

http://www.hrc.es/bioest/Anova_2.html (2 of 2) [28/12/2002 19:04:11]

Algunasd propiedades de la tabla de anova

Algunas propiedadesEs fcil ver en la tabla anterior que GLerror+ GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GLtotal No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados:

SST = SSA + SSEEl anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos, sin embargo es recomendable iguales tamaos por dos motivos: 1) La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el tamao es igual. 2) Igual tamao minimiza la probabilidad de error tipo II.

http://www.hrc.es/bioest/Anova_3.html [28/12/2002 19:04:53]

Ejemplo de anova

Ejemplo 1Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al finalizar los tratamientos son: Grupo1 180 173 175 182 181 La tabla de anova es: Fuente de variacin Tratamiento Error Total GL 4 20 24 SS 2010,64 894,4 2905,04 MS 502,66 44,72 F 11,24 2 172 158 167 160 175 3 163 170 158 162 170 4 158 146 160 171 155 5 147 152 143 155 160

Como F0,05(4,20) =2,87 y 11,24>2,87 rechazamos la hiptesis nula y concluimos que los resultados de los tratamientos son diferentes.

Nota: Para hacerlo con un paquete estadstico, p.e. el SPSS, deberamos crear un archivo con 2 variables: Trata (con un cdigo distinto para cada grupo, p.e. de 1 a 5) y Presion con la presin arterial de cada individuo al acabar el estudio. Para calcular el Anova desplegamos los mens que se ven en la grfica:

http://www.hrc.es/bioest/Anova_4.html (1 of 2) [28/12/2002 19:05:49]

Ejemplo de anova

La tabla de anova que devuelve el programa es

que incluye tambin el valor p asociado al contraste.

http://www.hrc.es/bioest/Anova_4.html (2 of 2) [28/12/2002 19:05:49]

Pruebas para la homocesdasticidad

Pruebas para la homocedasticidadPara que este contraste de hiptesis, basado en la F, lo sea de la igualdad de medias es necesario que todas las muestras provengan de una poblacin con la misma varianza (2), de la que MSE y MSA son estimadores. Por lo tanto es necesario comprobarlo antes de realizar el contraste. Del mismo modo que no se puede usar repetidamente la prueba basada en la en la t para comparar ms de dos medias, tampoco se puede usar la prueba basada en la F para comparar ms de dos varianzas. La prueba ms usada para contrastar si varias muestras son homocedsticas (tiene la misma varianza) es la prueba de Bartlett. La prueba se basa en que, en la hiptesis nula de igualdad de varianzas y poblaciones normales, un estadstico calculado a partir de las varianzas muestrales y MSE sigue una distribucin Otras pruebas para contrastar la homocedasticidad de varias muestras son la de Cochran y la de la F del cociente mximo, ambas similares y de clculo ms sencillo pero restringidas al caso de iguales tamaos muestrales. La de Cochran es particularmente til para detectar si una varianza es mucho mayor que las otras En el caso de que las muestras no sean homocedsticas, no se puede, en principio, realizar el anlisis de la varianza. Existen, sin embargo, soluciones alternativas: Sokal y Rohlf describen una prueba aproximada, basada en unas modificaciones de las frmulas originales. Hay situaciones en que la heterocedasticidad es debida a falta de normalidad. En estos casos existen transformaciones de los datos que estabilizan la varianza: la raz cuadrada en el caso de Poisson, el arco seno de la raz cuadrada de p para la binomial, el logaritmo cuando la desviacin estndar es proporcional a la media. En la prctica, si las pruebas de homocedasticidad obligan a rechazar la hiptesis nula, se prueba si con alguna de estas transformaciones los datos son homocedsticos, en cuyo caso se realiza el anova con los datos transformados. Hay que tener en cuenta que estas pruebas van "al reves" de lo habitual. La hiptesis nula es lo que se quiere probar, en consecuencia hay que usarlas con precaucin.

http://www.hrc.es/bioest/Anova_5.html [28/12/2002 19:07:16]

Modelos de anlisis de la varianza

Modelos de anlisis de la varianzaEl anova permite distinguir dos modelos para la hiptesis alternativa: modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es el Ejemplo 1, porque en l se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extrado las muestras. Un ejemplo de modelo II sera: un investigador est interesado en determinar el contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas. La manera ms sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo despus, en un modelo I las muestras seran iguales (no los individuos que las forman) es decir corresponderan a la misma situacin, mientras que en un modelo II las muestras seran distintas. Aunque las asunciones iniciales y los propsitos de ambos modelos son diferentes, los clculos y las pruebas de significacin son los mismos y slo difieren en la interpretacin y en algunas pruebas de hiptesis suplementarias.

http://www.hrc.es/bioest/Anova_6.html [28/12/2002 19:08:03]

Modelo I de anlisis de la varianza

Modelo I o de efectos fijosUn valor individual se puede escribir en este modelo como

es la media global, i es la constante del efecto, o efecto fijo, que diferencia a las k poblaciones. Tambin se puede escribir: representa la desviacin de la observacin j-sima de la muestra i-sima, con respecto a su media. A este trmino se le suele llamar error aleatorio y, teniendo en cuenta las asunciones iniciales del anlisis de la varianza son k variables (una para cada muestra), todas con una distribucin normal de media 0 y varianza 2. La hiptesis nula en este anlisis es que todas las medias son iguales

que puede escribirse en trminos del modelo como:

Como en H0 se cumplen las condiciones del apartado anterior se tratar de ver como se modifican las estimaciones de la varianza en H1. En H0 MSA y MSE son estimadores centrados de 2, es decir y usando el superndice 0 para indicar el valor de las variables en H0 E[MSA0] = 2 E[MSE0] = 2 Se puede ver que MSE es igual en la hiptesis nula que en la alternativa. Por lo tanto: E[MSE] = E[MSE0] = 2 Sin embargo al valor esperado de MSA en la hiptesis alternativa se le aade un trmino con respecto a su valor en la hiptesis nula

Al segundo sumando dividido por n se le llama componente de la varianza aadida por el tratamiento, ya que tiene forma de varianza, aunquehttp://www.hrc.es/bioest/Anova_7.html (1 of 2) [28/12/2002 19:08:37]

Modelo I de anlisis de la varianza

estrictamente no lo sea pues i no es una variable aleatoria. La situacin, por lo tanto, es la siguiente: en H0, MSA y MSE estiman 2; en H1, . Contrastar la H0 es equivalente a MSE estima 2 pero MSA estima contrastar la existencia de la componente aadida o, lo que es lo mismo, que MSE y MSA estimen, o no, la misma varianza. El estadstico de contraste es F=MSA/MSE que, en la hiptesis nula, se distribuye segn una F con k - 1 y (n - 1)k grados de libertad. En caso de rechazar la H0, MSA - MSE estima .

http://www.hrc.es/bioest/Anova_7.html (2 of 2) [28/12/2002 19:08:37]

Modelo II de anlisis de la varianza

Modelo II o de efectos aleatoriosEn este modelo se asume que las k muestras son muestras aleatorias de k situaciones distintas y aleatorias. De modo que un valor aislado Yij se puede escribir como:

donde es la media global, ij son variables (una para cada muestra) distribuidas normalmente, con media 0 y varianza 2 (como en el modelo I) y A varianza .

i

es una variable distribuida normalmente, independiente de las ij, con media 0 y

La diferencia con respecto al modelo I es que en lugar de los efectos fijos i ahora se consideran efectos aleatorios Ai. Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor esperado de MSA se le aade el trmino de componente aadida (que aqu es una verdadera varianza ya que Ai es una variable aleatoria):

Para llegar a este resultado se utiliza la asuncin de independencia entre Ai y ij y es, por tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso. En el ejemplo de las cobayas significara que las variaciones de grasa en el hgado de cada cobaya son independientes de las variaciones entre cobayas. Esta asuncin se violara si, por ejemplo, en el animalario existieran 2 cepas genticas tales que en una de ellas la concentracin de grasa en las clulas hepticas fuera mayor y ms variable que en la otra. Por tanto, en H0 tanto MSA como MSE estiman 2, mientras que en H1, MSE . La existencia de esta componente sigue estimando 2 y MSA estima aadida se contrasta con F=MSA/MSE y en caso afirmativo, la varianza de Ai se estima como:

http://www.hrc.es/bioest/Anova_8.html [28/12/2002 19:09:33]

Pruebas "a posteriori"

Pruebas a posterioriEn general, en un modelo II el inters del investigador es averiguar si existe componente aadida y en su caso estimarla. Sin embargo, en un modelo I, lo que tiene inters son las diferencias entre los distintos grupos. En el Ejemplo 1, lo que interesa, una vez visto que la presin arterial media es diferente para los cinco grupos, es, por ejemplo, estimar el efecto de la dieta sin sal, 3 1, o el aumento del efecto de la segunda dosis del frmaco con respecto a la primera dosis 5 4. Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las posibles hiptesis del tipo i j = 0. Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el rango (diferencia entre medias) de todos los pares de muestras como estadstico y dicho rango debe superar un cierto valor llamado mnimo rango significativo para considerar la diferencia significativa. La principal diferencia con respecto a la t de Student radica en que usan MSE como estimador de la varianza, es decir un estimador basado en todas las muestras. Una manera semigrfica habitual de representar los resultados es dibujar una lnea que una cada subconjunto de medias adyacentes entre las que no haya diferencias significativas. Para los datos del Ejemplo 1 la salida semigrfica para la prueba LSD de, por ejemplo, el Statgraphics es

http://www.hrc.es/bioest/Anova_9.html (1 of 2) [28/12/2002 19:10:59]

Pruebas "a posteriori"

que se interpreta como: Los grupos 5 y 4 estn unidos por una lnea vertical de X por tanto sus medias no son diferentes entre s y lo mismo los grupos 4, 3 y 2, mientras que la media del grupo 1 es distinta de la de todos los dems.

http://www.hrc.es/bioest/Anova_9.html (2 of 2) [28/12/2002 19:10:59]

Anlisis de la varianza de dos vas

Anlisis de la varianza de dos factoresEs un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes de variacin. En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensin arterial, se podra plantear que, quizs, la evolucin de la misma fuera diferente para los hombres y las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en cada muestra no fuera el mismo, podra ocurrir que una parte del efecto atribuido a los tratamientos fuera debido al sexo. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolucin segn el sexo. En un anova de dos vas se clasifica a los individuos de acuerdo a dos factores (o vas) para estudiar simultneamente sus efectos. En este ejemplo se haran cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrn ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observacin individual se representa como:

El primer subndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observacin dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemtico de este anlisis es:

modelo I modelo II modelo mixto donde es la media global, i o Ai el efecto del nivel i del 1 factor, j o Bj el efecto del nivel j del 2 factor y ijk las desviaciones aleatorias alrededor de las medias, que tambin se asume que estn normalmente distribuidas, son independientes y tienen media 0 y varianza 2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo aade la de aditividad de los efectos de los factores. A los trminos ()ij, (AB)ij, (B)ij, se les denomina interaccin entre ambos factoreshttp://www.hrc.es/bioest/Anova_10.html (1 of 3) [28/12/2002 19:11:37]

Anlisis de la varianza de dos vas

y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interaccin veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supngase un estudio para analizar el efecto de un somnfero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnfero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la pldora. Se trata de un anova de dos factores (sexo y frmaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnfero y placebo para el frmaco). Los dos tipos de resultados posibles se esquematizan en la figura

A

B

En la figura A se observa que las mujeres tardan ms en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan ms en dormirse que los tratados con somnfero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fcilmente observables. Sin embargo en la figura B es difcil cuantificar el efecto del somnfero pues es distinto en ambos sexos y, simtricamente, es difcil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interaccin. Podra, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnfero y los hombres antes con el placebo. La interaccin indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando estn por separado, por lo que, si en un determinado estudio se encuentra interaccin entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interaccin positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biologa se le denomina sinergia o potenciacin y a la interaccin negativa inhibicin. En el ejemplo de la figura B, se dira que el ser mujer inhibe el efecto del somnfero, o que el ser hombre lo potencia (segn el sexo que se tome comohttp://www.hrc.es/bioest/Anova_10.html (2 of 3) [28/12/2002 19:11:37]

Anlisis de la varianza de dos vas

referencia).

http://www.hrc.es/bioest/Anova_10.html (3 of 3) [28/12/2002 19:11:37]

Identidad de la suma de cuadrados

Identidad de la suma de cuadradosLa suma de cuadrados total en un anova de 2 vas, es:

(donde para representar las medias se ha usado la convencin habitual de poner un punto (.) en el lugar del subndice con respecto al que se ha sumado) que dividida por sus grados de libertad, abn - 1, estima la varianza 2 en el supuesto de que las ab muestras provengan de una nica poblacin. Se puede demostrar que

que es la llamada identidad de la suma de cuadrados en un anova de dos factores. Los sucesivos sumandos reciben respectivamente el nombre de suma de cuadrados del 1 factor (tiene a -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 1 factor), del 2 factor (con b -1 grados de libertad y recoge la variabilidad de los datos debida exclusivamente al 2 factor), de la interaccin (con (a - 1)(b - 1) grados de libertad, recoge la variabilidad debida a la interaccin) y del error (con ab(n - 1) grados de libertad, recoge la variabilidad de los datos alrededor de las medias de cada muestra). Los resultados de un anlisis de la varianza de dos factores se suelen representar en una tabla como la siguiente: Fuente de variacin 1 factor 2 factor Interaccin Error Total GL a -1 b-1 (a - 1)(b - 1) ab(n - 1) abn - 1 SS SSA SSB SSAB SSE SST MS SSA/(a - 1) SSB/(b - 1) SSAB/[(a - 1)(b - 1)] SSE/[ab(n - 1)]

Los grados de libertad tambin son aditivos. En ocasiones se aade una primera lnea llamada de tratamiento o de subgrupos cuyos grados de libertad y suma de cuadrados son las sumas de los del primer, segundo factor y la interaccin, que corresponderan a la suma de cuadrados y grados de libertad del tratamiento de un anlisis de una va en que las ab muestras se considerarn como muestras de una clasificacin nica.http://www.hrc.es/bioest/Anova_11.html (1 of 2) [28/12/2002 19:12:02]

Identidad de la suma de cuadrados

Para plantear los contrastes de hiptesis hay que calcular los valores esperados de los distintos cuadrados medios.

http://www.hrc.es/bioest/Anova_11.html (2 of 2) [28/12/2002 19:12:02]

Contrastes de hiptesis en anova de 2 vas

Contrates de hiptesis en un anlisis de la varianza de dos factoresDel mismo modo que se hizo en el anova de una va, para plantear los contrastes de hiptesis habr que calcular los valores esperados de los distintos cuadrados medios. Los resultados son:

Modelo IMSMSA Valor esperado

MSB

MSAB MSE Por lo tanto, los estadsticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hiptesis: i) no existe interaccin (MSAB/MSE)

ii) no existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE)

iii) no existe efecto del segundo factor (MSB/MSE)

http://www.hrc.es/bioest/Anova_12.html (1 of 2) [28/12/2002 19:13:09]

Contrastes de hiptesis en anova de 2 vas

Si se rechaza la primera hiptesis de no interaccin, no tiene sentido contrastar las siguientes. En este caso lo que est indicado es realizar un anlisis de una va entre las ab combinaciones de tratamientos para encontrar la mejor combinacin de los mismos.

http://www.hrc.es/bioest/Anova_12.html (2 of 2) [28/12/2002 19:13:09]

Contrastes de hiptesis en un anova de 2 vas modelo II

Contraste de hiptesis en un anova de 2 vasModelo IIMS MSA MSB MSAB MSE donde son, respectivamente las componentes aadidas por el primer factor, por el segundo y por la interaccin, que tienen la misma forma que los del modelo I, sin ms que cambiar i y j por Ai y Bj, respectivamente. La interaccin se contrasta, como en el modelo I, con MSAB/MSE, si se rechaza la hiptesis nula se contrastaran cada uno de los factores con MSA/MSAB y MSB/MSAB. En un modelo II, como no se est interesado en estimar los efectos de los factores sino slo la existencia de la componente aadida, s tiene sentido contrastar la existencia de la misma para cada factor incluso aunque exista interaccin. Aqu el problema se plantea cuando no se puede rechazar la hiptesis nula y se concluye que no existe interaccin: entonces tanto MSE como MSAB estiman 2, entonces cul se elige para contrastar la componente aadida de los factores? En principio, parece razonable escoger su media (la media de varios estimadores centrados es tambin un estimador centrado y ms eficiente), sin embargo si se elige MSAB se independiza el contraste para los factores de un posible error tipo II en el contraste para la interaccin. Hay autores que por ello opinan que es mejor usar MSAB, pero otros proponen promediar si se puede asegurar baja la probabilidad para el error tipo II. La media de los cuadrados medios se calcula dividiendo la suma de las sumas de cuadrados por la suma de los grados de libertad. Valor esperado

http://www.hrc.es/bioest/Anova_13.html (1 of 3) [28/12/2002 19:13:51]

Contrastes de hiptesis en un anova de 2 vas modelo II

Ejemplo A partir de la siguiente tabla de un anova de 2 factores modelo II, realizar los contrastes adecuados. Fuente de variacin 1 factor 2 factor Interaccin Error Total G.L. 4 3 12 100 119 SS 315,8 823,5 328,9 2308,0 3776,2 MS 78,95 274,5 27,41 23,08

Se empezara contrastando la existencia de interaccin: f = 27,41/23,08 = 1,188 como F0,05(12,100) = 1,849 no se puede, al nivel de significacin del 95%, rechazar la hiptesis nula y se concluye que no existe interaccin. Si usamos MSAB para contrastar los factores: 1 factor: f = 78,95/27,41 = 2,880 como F0,05(4,12) = 3,26 no se rechaza la hiptesis nula y se concluye la no existencia de componente aadida por este factor. 2 factor: f = 274,5/27,41 = 10,015 como F0,05(3,12) = 3,49 se rechaza la hiptesis nula y se acepta la existencia de componente aadida por este factor. El resultado del anlisis es: no existe componente aadida por la interaccin, tampoco por el 1 factor y s existe componente aadida por el 2. La estimacin de esta componente es: como a partir de los grados de libertad de la tabla podemos calcular a = 5, b = 4 y n = 6 resulta que la estimacin de es 274,5 - 27,41 = 247,09; por lo tanto que representa un 35,7% de componente aadida por el segundo factor. Si se hubiera optado por promediar, los cuadrados medios promediados son (328,9+2308,0)/(12+100)= 23,54 con 112 grados de libertad y hubiera resultado significativo tambin el 1 factor.

La salida de un paquete estadstico, p.e. el Statgraphics, para un anova de 2 factores modelo IIhttp://www.hrc.es/bioest/Anova_13.html (2 of 3) [28/12/2002 19:13:51]

Contrastes de hiptesis en un anova de 2 vas modelo II

http://www.hrc.es/bioest/Anova_13.html (3 of 3) [28/12/2002 19:13:51]

Contrastes de hiptesis en un anova de 2 vas (modelo mixto)

Contrastes de hiptesis en un anova de dos vasModelo mixto

Supngase el primer factor de efectos fijos y el segundo de efectos aleatorios, lo que no supone ninguna perdida de generalidad, ya que el orden de los factores es arbitrario.

MS MSA MSB MSAB MSE

Valor esperado

Se contrastan la interaccin y el factor aleatorio con el trmino de error, si la interaccin fuera significativa no tiene sentido contrastar el efecto fijo y si no lo fuera, el efecto fijo se contrasta con el trmino de interaccin o con el promedio de interaccin y error.

http://www.hrc.es/bioest/Anova_14.html [28/12/2002 19:15:28]

Ejemplo

EjemploSe quiere probar la eficacia de un somnfero estudiando posibles diferencias de la misma por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el somnfero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse. Los resultados son: Placebo Somnfero 30 35 50 32 45 30 47 25 38 30 50 42 35 30 46 15 25 18 32 23

Hombre

Mujer

Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene dos niveles: placebo y somnfero. El segundo factor es el sexo tambin con 2 niveles: hombres y mujeres. El tamao de las muestras es n=5. La tabla de anova es: Fuente de variacin Somnfero Sexo Interaccin Error Total GL 1 1 1 SS 696,2 105,8 0,2 MS 696,2 105,8 0,2 74,85

16 1197,6 19 1999,8

Se empieza contrastando la interaccin: f = 0,2/74,85 = 0,0026 que como es menor que F0,05(1,16)=4,49 no se rechaza la hiptesis nula de que no existe interaccin. A continuacin se contrastan los factores: para el somnfero f = 696,2/74,85 = 9,3 que es mayor que 4,49 por lo tanto existe efecto del somnfero y para elhttp://www.hrc.es/bioest/Anova_15.html (1 of 3) [28/12/2002 19:16:00]

Ejemplo

sexo f = 105,8/74,85 = 1,41 que como es menor que 4,49 no existe diferencias entre los sexos. La estimacin del efecto del somnfero ser la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el sexo, una vez que se ha visto que no tiene efecto.

Para analizarlo con un paquete estadstico, p.e. el Statgraphics, se necesita crear un archivo con tres variables

y el resultado, pidiendo la tabla de anova

http://www.hrc.es/bioest/Anova_15.html (2 of 3) [28/12/2002 19:16:00]

Ejemplo

y la tabla de medias

Por tanto la estimacin del efecto del somnifero es 39,8 - 28,0=11,8 min

http://www.hrc.es/bioest/Anova_15.html (3 of 3) [28/12/2002 19:16:00]

Tamaos muestrales desiguales en un anova de dos factores

Tamaos muestrales desiguales en un anova de dos factores Aunque los paquetes estadsticos suelen hacer el anova de dos factores, tanto en el caso de tamaos muestrales iguales como desiguales, conviene resaltar que el anlisis es bastante ms complicado en el caso de tamaos desiguales. La complicacin se debe a que con tamaos desiguales hay que ponderar las sumas de cuadrados de los factores con los tamaos muestrales y no resultan ortogonales (su suma no es la suma de cuadrados total) lo que complica no slo los clculos sino tambin los contrastes de hiptesis. Por esto, cuando se disea un anlisis factorial de la varianza se recomienda disearlo con tamaos iguales. Hay ocasiones en que, sin embargo, por la dificultad de obtener los datos o por prdida de alguno de ellos es inevitable recurrir al anlisis con tamaos desiguales. Algunos autores recomiendan, incluso, renunciar a alguno de los datos para conseguir que todas las muestras tengan el mismo tamao. Evidentemente esta solucin es delicada pues podra afectar a la aleatoriedad de las muestras.

http://www.hrc.es/bioest/Anova_16.html [28/12/2002 19:16:24]

Casos particulares de anova

Casos particulares: Anova de dos factores sin repeticin En ciertos estudios en que los datos son difciles de obtener o presentan muy poca variabilidad dentro de cada subgrupo es posible plantearse un anova sin repeticin, es decir, en el que en cada muestra slo hay una observacin (n=1). Hay que tener en cuenta que, como era de esperar con este diseo, no se puede calcular SSE. El trmino de interaccin recibe el nombre de residuo y que, como no se puede calcular MSE, no se puede contrastar la hiptesis de existencia de interaccin. Esto ltimo implica tambin que: a) en un modelo I, para poder contrastar las hiptesis de existencia de efectos de los factores no debe haber interaccin (si hubiera interaccin no tenemos trmino adecuado para realizar el contraste). b) en un modelo mixto existe el mismo problema para el factor fijo. Bloques completos aleatorios Otro diseo muy frecuente de anova es el denominado de bloques completos aleatorios diseado inicialmente para experimentos agrcolas pero actualmente muy extendido en otros campos. Puede considerarse como un caso particular de un anova de dos factores sin repeticin o como una extensin al caso de k muestras de la comparacin de medias de dos muestras emparejadas. Se trata de comparar k muestras emparejadas con respecto a otra variable cuyos efectos se quieren eliminar. Por ejemplo, en un ensayo clnico para comparar los efectos de dos analgsicos y un placebo en el que el efecto se mide por el tiempo que tarda en desaparecer una cefalea. Si se hicieran tres grupos de enfermos y a cada uno de ellos se le suministrara un tratamiento distinto, habra una gran variacin individual en las respuestas, debido a que no todas las cefaleas son de la misma intensidad y no todos los individuos tienen la misma percepcin del dolor, que dificultara el hallazgo de diferencias entre los tratamientos. Esta dificultad desaparece si se aplican los tres tratamientos a los mismos individuos en diferentes episodios de cefalea. Se ha emparejado a cada individuo consigo mismo, con lo que se elimina la variacin individual. En este diseo a los datos de cada individuo se les denomina bloque y los datos se representan en una tabla de doble entrada anloga a la del anova de clasificacin nica en la que las a columnas son los tratamientos y las b filas los bloques, el elemento Yij de la tabla corresponde al tratamiento i y al bloque j. Las hiptesis que se pueden plantear son: (igualdad de medias de tratamientos)http://www.hrc.es/bioest/Anova_17.html (1 of 2) [28/12/2002 19:16:52]

Casos particulares de anova

y tambin, aunque generalmente tiene menos inters: (igualdad de medias de bloques) A pesar del parecido con la clasificacin nica, el diseo es diferente: all las columnas eran muestras independientes y aqu no. Realmente es un diseo de dos factores, uno de efectos fijos: los tratamientos, y el otro de efectos aleatorios: los bloques, y sin repeticin: para cada bloque y tratamiento slo hay una muestra. El modelo aqu es:

donde i es el efecto del tratamiento i y Bj el del bloque j. No hay trmino de interaccin ya que, al no poder contrastar su existencia no tiene inters. Al ser un modelo mixto exige la asuncin de no existencia de interaccin y los contrastes se hacen usando el trmino MSE como divisor.

http://www.hrc.es/bioest/Anova_17.html (2 of 2) [28/12/2002 19:16:52]

Ejemplo de anova de bloques completos aleatorios

Ejemplo 3 En el ensayo clnico de los analgsicos descrito anteriormente se encuentran los siguientes resultados: Placebo 35 40 60 50 50 Analgsico A Analgsico B 20 35 50 40 30 22 42 30 35 22

La tabla de anova correspondiente: Fuente de variacin Analgsico (tratamiento) Paciente (bloque) Error Total G.L. 2 4 8 14 SS 748,8 767,6 409,2 1925,6 MS 374,4 191,9 51,15

Los contrastes de hiptesis se hacen: para el analgsico f=374,4/51,15=7,32 que como es mayor que F0,05(2,8)=4,46 existe un efecto del tratamiento. para los bloques f=191,9/51,15=3,75 que es menor que F0,05(4,8)=3,84 por tanto no hay componente aadida por los pacientes. El archivo para analizarlo con en un paquete estadstisco

http://www.hrc.es/bioest/Anova_18.html (1 of 3) [28/12/2002 19:17:42]

Ejemplo de anova de bloques completos aleatorios

y el resultado

http://www.hrc.es/bioest/Anova_18.html (2 of 3) [28/12/2002 19:17:42]

Ejemplo de anova de bloques completos aleatorios

http://www.hrc.es/bioest/Anova_18.html (3 of 3) [28/12/2002 19:17:42]

Anova de ms de dos factores

Anlisis de la varianza de ms de dos factores Es una generalizacin del de dos factores. El procedimiento, por lo tanto, ser: 1) encontrar el modelo, teniendo en cuenta si los factores son fijos o aleatorios y todos los trminos de interaccin. 2) subdividir la suma de cuadrados total en tantos trminos ortogonales como tenga el modelo y estudiar los valores esperados de los cuadrados medios para encontrar los estadsticos que permitan realizar los contrastes de hiptesis. Un modelo de tres factores fijos, por ejemplo, ser:

Los tres primeros subndices para los factores y el cuarto para las repeticiones, ntese que aparecen trminos de interaccin de segundo y tercer orden, en general en un modelo de k factores aparecen trminos de interaccin de orden 2, 3,... hasta k y el nmero de trminos de interaccin de orden n ser el nmero combinatorio Ck;n. Este gran nmero de trminos de interaccin dificulta el anlisis de ms de dos factores, ya que son difciles de interpretar y complican los valores esperados de los cuadrados medios por lo que tambin resulta difcil encontrar los estadsticos para los contrastes. Por estas razones no se suele emplear este tipo de anlisis y cuando interesa estudiar varios factores a la vez se recurre a otros mtodos de anlisis multivariante.

http://www.hrc.es/bioest/Anova_19.html [28/12/2002 19:18:31]

Correlacion y modelos de regresion lineal

CORRELACION Y MODELOS DE REGRESION LINEAL V. AbrairaBibliografa: V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de Estudios Ramn Areces. 1996. D.G. Kleinbaum, L.L. Kupper, K.E. Muller Applied Regression Analysis and Other Multivariables Methods. PWS-KENT Publishing Company. 1988. Generalizacin del concepto de fdp a variables multidimensionales La funcin densidad de probabilidad (fdp) para una variable aleatoria es una funcin a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable. En el caso discreto:

en el caso continuo:

Esto se puede generalizar a ms de una variable. Para n variables aleatorias X1, X2, ..., Xn se llama fdp conjunta a una funcin n-dimensional f(x1,x2,...,xn) a partir de la cual se puede calcular la probabilidad de los distintos valores de las variables. En el caso discreto:

en el caso continuo:

Del mismo modo que en el caso unidimensional estas funciones estn sometidas a las condiciones:

http://www.hrc.es/bioest/Reglin_1.html (1 of 3) [28/12/2002 19:19:23]

Correlacion y modelos de regresion lineal

discreta

continua

Ejemplo 1: En una cierta poblacin se definen dos variables discretas: X1= hipertensin arterial y X2= consumo excesivo de sal, ambas con los valores 0=no y 1=s. La fdp conjunta podra ser X1 X2 0 1 0 0,4 0,3 1 0,1 0,2

f(0,0)=0,4 quiere decir que la probabilidad de que un individuo no sea hipertenso (X1=0) y no tenga un consumo excesivo de sal (X2=0) es 0,4. Obsrvese que la suma de los valores de la fdp es 1. A partir de esta fdp se puede calcular p.e. la probabilidad de que un individuo sea hipertenso como 0,1+0,2=0,3. En general dada una fdp conjunta (para simplificar la notacin consideremos slo dos variables X e Y) se pueden calcular las denominadas fdp marginales como Caso discreto Caso continuo

y simtricamente para la variable Y. En el ejemplo anterior: X1

http://www.hrc.es/bioest/Reglin_1.html (2 of 3) [28/12/2002 19:19:23]

Correlacion y modelos de regresion lineal

X2 0 1 f1(X1)

0 0,4 0,3 0,7

1 0,1 0,2 0,3

f2(X2) 0,5 0,5

Se definen tambin las fdp condicionadas

que permiten calcular las respectivas probabilidades condicionadas. En el ejemplo anterior se puede construir, p.e., la fdp de la hipertensin (X1) condicionada al consumo no excesivo de sal (X2=0). X1 0 1 0,4/0,5=0,8 0,1/0,5=0,2

Obsrvese que como esto es una fdp, la suma de sus valores debe ser 1. 0,8 es la probabilidad de que un individuo no sea hipertenso dado que no tiene un consumo excesivo de sal.

http://www.hrc.es/bioest/Reglin_1.html (3 of 3) [28/12/2002 19:19:23]

Correlacion y modelos de regresion lineal

Independencia de dos variables aleatorias Dos v.a. X e Y se dice que son estocsticamente independientes si y slo si f(x,y)=f1(x).f2(y). En caso contrario se dice que estn correlacionadas. Son independientes las variables del ejemplo anterior? Como f1(0)=0,7 y f2(0)=0,5 f1(0). f2(0)=0,35 no es igual a f(0,0)=0,4 no son independientes. Segn la definicin de fdp condicionada, si X e Y son independientes

que coincide ms con la idea intuitiva de independencia. Cundo diramos que la hipertensin es independiente del consumo de sal? Cuando la probabilidad de ser hipertenso es la misma en los consumidores de sal: f(x1|X2=1), en los no consumidores: f(x1|X2=0) y en la poblacin general: f1(x1). En el ejemplo, la probabilidad de ser hipertenso en la poblacin general f1(1)=0,3 y en los consumidores de sal f(X1=1|X2=1)=0,2/0,5=0,4 por lo tanto tampoco son independientes desde esta perspectiva (evidentemente, ya que ambas son equivalentes). Diramos que el consumo de sal y la hipertensin estn correlacionados o asociados, o que la hipertensin depende del consumo de sal o, en terminologa epidemiolgica, que el consumo de sal es un factor de riesgo para la hipertensin. En cualquier caso, la correlacin no implica dependencia causal. El problema, en la prctica, es que no se suelen conocer las fdp's. A partir de una muestra slo se puede obtener una estimacin de la misma, adems tambin se desean obtener estimaciones de la fuerza de la asociacin. Los modelos de regresin son modelos matemticos de dependencia entre variables que permiten resolver ambos problemas. Hay tantos modelos como funciones matemticas de dependencia se puedan concebir, los ms usados son lineal, polinmico, logstico, de Poisson,