Bioestadística para biología y ciencias de la salud

744

description

REPASANDO BIOESTADÍSTICA

Transcript of Bioestadística para biología y ciencias de la salud

  • 1. ESTADSTICA PARABIOLOGA Y CIENCIASDE LA SALUD

2. ESTADSTICA PARABIOLOGA Y CIENCIASDE LA SALUD3.a edicin ampliadaJ. Susan MiltonUniversidad de RadfordIncluye: MTODOS ESTADSTICOSCON STATGRAPfflCS Y SPSSAgustn Turrero y Pilar ZuluagaUniversidad Complutense de MadridMcGRAW-HILL INTERAMERICANAMADRID BUENOS AIRES CARACAS GUATEMALA LISBOA MXICONUEVA YORK PANAM SAN JUAN BOGOT SANTIAGO SAO PAUBLOAUCKLAND HAMBURGO LONDRES MILN MONTREAL NUEVA DELI PARISSAN FRANCISCO SYDNEY SINGAPUR ST. LOUIS TOKIO TORONTO 3. TraduccinDIEGO DELGADO CRESPOJUAN LLOVET VERDUGOJULIN MARTNEZ VALEROProfesores del Departamento de MatemticasFacultad de CienciasUniversidad de Alcal, MadridApndices C y D: Mtodos estadsticos con STATGRAPHICS y SPSSAGUSTN TURRERO NOGUSPILAR ZULUAGA ARIASDoctores en Ciencias MatemticasProfesores Titulares del Departamento de Estadstica e Investigacin OperativaFacultad de MedicinaUniversidad Complutense de MadridESTADSTICA PARA BIOLOGA Y CIENCIAS DE LA SALUDNo est permitida la reproduccin total o parcial de este libro, ni sutratamiento informtico, la transmisin de ninguna otra forma o porcualquier medio, ya sea electrnico, mecnico, por fotocopia, por registrou otros mtodos, sin el permiso previo y por escrito de los titularesdel copyright.Derechos reservados 2001, respecto de la segunda edicin en espaol, porMcGRAW-HILL/INTERAMERICANA DE ESPAA, S. A. U.Edificio ValrealtyBasauri, 17,1.a planta28023 Aravaca (Madrid)Tercera edicin, 2001Primera reimpresin, 2002Segunda reimpresin, 2004Tercera reimpresin, 2006Tercera edicin 2001, ampliada en 2007ISBN: 978-84-481-5996-2Depsito legal: M-7176-2007Traducido de la tercera edicin del ingls de la obra:STATISTICAL METHODS IN THE BIOLOGICAL AND HEALTH SCIENCESde J. SUSAN MILTONISBN: 0-07-290148-9 (Edicin original)Copyright MCMXCIX por The McGraw-Hill Companies, Inc.Preimpresin: MonoComp, S. A. Cartagena, 43. 28028 MadridImpreso en: Inmagrag.S.L.IMPRESO EN ESPAA - PRINTED IN SPAIN 4. PRLOGO A LA 3.a EDICIN EN ESPAOL AMPLIADALa creciente utilizacin de recursos informticos, tanto por estudiantes como por investigado-res,hace interesante conocer la resolucin de problemas estadsticos con un software adecua-do.Este conocimiento resulta imprescindible para el anlisis de las complejas bases de datosque se manejan habitualmente en la investigacin de Ciencias de la Salud. Por ello, al final decada captulo del libro se pueden encontrar las sentencias correspondientes del paquete esta-dsticoSAS que realizan lo all expuesto.No obstante, hemos credo que los paquetes estadsticos ejecutables por medio de mensson ms accesibles para un usuario del entorno Windows. Por esta razn, hemos aadido losApndices C y D, que incorporan el anlisis y la interpretacin de problemas estadsticoscon STATGRAPHICS Plus, versin 5.1 (www.statgraphics.com), y SPSS, versin 12.0(www.addlink.es), respectivamente. Ambas versiones son de fcil manejo y muy verstilesdesde el punto de vista de los resultados, numricos y grficos, que podemos obtener.Los Apndices C y D estn divididos en 9 bloques que abarcan todas las tcnicas estads-ticasdesarrolladas en los 13 captulos del libro, incluyendo, en algunos casos, la presentacinde mtodos alternativos de anlisis, no contenidos en dichos captulos. En cada uno de los 9bloques se hace referencia a los captulos donde puede encontrarse con detalle la base tericade los mtodos estadsticos all referidos. Los contenidos de los bloques se correspondenentre ambos Apndices. Esta estructura permite comparar el tratamiento que de un mismoproblema hacen sendos paquetes. En algunas ocasiones resultar indiferente resolver un pro-blemacon uno u otro software, pero en otras dispondremos de tcnicas complementarias,numricas o grficas, que sern de utilidad para la mejor y ms completa resolucin de losproblemas.La exposicin de una tcnica estadstica en cualquiera de los bloques obedece al siguienteitinerario: Se presenta una base de datos y sobre sta un problema a resolver. Se identifica la tcnica estadstica adecuada. Se elige el procedimiento del paquete estadstico que ejecuta dicha tcnica. Se ensea el manejo de dicho procedimiento con la ayuda de ventanas y pantallas delpropio programa. Se obtienen los resultados, que se presentan mediante tablas y grficas. Finalmente, se interpretan dichos resultados aadiendo sugerencias sobre cmo prose-guirel anlisis o llamadas de atencin cuando se vulnera alguna hiptesis relevante dela tcnica utilizada.vii 5. viii Prlogo a la 3.a edicin en espaol ampliadaLa estructura formal de los Apndices C y D est concebida para un uso independiente deltexto principal. El lector con conocimientos previos de estadstica no necesitar acudir adicho texto para acometer el anlisis estadstico deseado; le bastar con identificar la tcnicaadecuada, buscar inmediatamente el apartado correspondiente del STATGRAPHICS (Apn-diceC) o SPSS (Apndice D) y seguir la secuencia de procedimientos que all se detallanPara aquellos lectores sin conocimientos previos de estadstica, el camino puede ser similarlas bases de datos suministradas sugieren diferentes anlisis estadsticos que pueden servir degua para identificar el anlisis adecuado o sugerir otros nuevos. Los propios comentarios y lainterpretacin de resultados ayudarn, a ambos tipos de lectores, a clarificar y entender elmtodo de anlisis.Por ltimo, los problemas estadsticos tratados son de tres tipos: Ejemplos resueltos en el texto que se replican con los paquetes. El objetivo en estoscasos es identificar los procedimientos adecuados y ver las posibles ampliaciones quedichos programas ofrecen. Ejercicios propuestos en el texto. Adems de los objetivos anteriores, se aportan lassoluciones. Cuestiones relativas a dos nuevas bases de datos que se presentan en los bloques C2 yC6, la primera referida a la supervivencia de mujeres con cncer cervicouterino, y lasegunda al crecimiento fetal. Estas bases, por el amplio nmero de datos y variables quecontienen, permiten enfocar los problemas desde un punto de vista ms realista. Gene-ramente,para abordar la resolucin de un problema real es necesario emplear variastcnicas estadsticas, dependiendo la eleccin de algunas de ellas de los resultados obtenidos por las precedentes. Por ello, cada una de estas dos bases de datos se utilizarnpara ilustrar los procedimientos contenidos en varios bloques.AGUSTN TURRERO y PILAR ZULUAGA 6. ACERCA DEL AUTORJ. Susan Milton es profesora de estadstica en la Universidad de Radford. La Dra. Miltonobtuvo el grado de Bachelor of Science en la Western Carolina University, el de Master ofArts de la University of North Carolina en Chapel Hill y el Ph.D. en estadstica en el VirginiaPolytechnic Institute y la State University. Ostenta el cargo de Danforth Associate y ha reci-bidoel Radford University Foundation Award for Excellence in Teaching. Ha publicadoIntroduction to Probability and Statistics: Principies and Applications for Engineering andthe Computing Sciences, as como Introduction to Statistics, Probability with the EssentialAnalysis, Applied Statistics with Probability, y A First Course in the Theory of Linear Statis-ticalModels. 7. A mi familia:Joan y Tom SavageEnid MiltonStephanie y David SavageDeborah Savage y Tim Woolf 8. CONTENIDOPrlogo a la 3.a edicin en espaol ampliada viiPrlogo xvii1. Mtodos descriptivos 11.1. Tablas de distribucin: datos discretos 3Grficos de barras/Datos con dos variables: tablas de doble entrada /Ejercicios 1.11.2. Un vistazo rpido a la distribucin: diagrama de tallo y hojas 13Construccin de un diagrama de tallo y hojas simple / Ejercicios 1.21.3. Distribuciones de frecuencia: histogramas 21Reglas para agrupar datos en categoras o clases / Distribuciones acu-muladas/ Ejercicios 1.31.4. Medidas de posicin o tendencia central 36Media muestral / Mediana muestral / Ejercicios 1.41.5. Medidas de variabilidad o de dispersin 42Varianza muestral / Desviacin tpica muestral / Rango muestral / Ran-gointercuartlico / Determinacin del rango intercuartlico muestral /Conjuntos de datos mltiples (opcional) / Ejercicios 1.51.6. Diagrama de cajas (opcional) 53Construccin de un diagrama de cajas / Ejercicios 1.61.7. Manejo de datos agrupados (opcional) 58Ejercicios 1.7Herramientas computacionales 622. Introduccin al clculo de probabilidades y al clculo combinatorio 732.1. Interpretacin de las probabilidades 73Ejercicios 2.12.2. Diagrama de rbol y gentica elemental 77Gentica elemental (opcional) /Ejercicios 2.22.3. Permutaciones y combinaciones (opcional) 85Ejercicios 2.32.4. Principio de multiplicacin (opcional) 87Directrices para la aplicacin del principio de multiplicacin / Ejerci-cios2.4xi 9. X Contenido2.5. Permutaciones de objetos indistinguibles (opcional) 93Ejercicios 2.52.6. Combinaciones (opcional) 96Ejercicios 2.6Herramientas computacionales 993. Teora de probabilidades y resolucin de problemas 1013.1. Diagramas de Venn y los axiomas de probabilidad (opcional) 101Diagramas de Venn /Axiomas de probabilidad /Ejercicios 3.13.2. Regla general de la adicin 108Ejercicios 3.23.3. Probabilidad condicionada 111Ejercicios 3.33.4. Test de diagnstico y riesgo relativo 116Riesgo relativo / Ejercicios 3.43.5. Independencia 124Ejercicios 3.53.6. La regla de la multiplicacin 129Ejercicios 3.63.7. Teorema de Bayes 133Ejercicios 3.74. Variables aleatorias discretas 1394.1. Variables discretas y continuas 139Ejercicios 4.14.2. Funciones de densidad discreta y esperanza 141Esperanza / Ejercicios 4.24.3. La funcin de distribucin acumulada 150Ejercicios 4.34.4. La distribucin binomial 153Esperanza y varianza: binomial / Clculo de probabilidades binomiales:distribucin acumulada / Ejercicios 4.44.5. Distribucin de Poisson (opcional) 161Ejercicios 4.5Herramientas computacionales 1655. Variables aleatorias continuas 1695.1. Funciones de densidad continua y esperanza 169Esperanza / Ejercicios 5.15.2. Funcin de distribucin acumulada 176Ejercicios 5.25.3. Distribucin normal 180Propiedades de la curva normal /Distribucin normal tipificada / Tipifi-cacin/ Ejercicios 5.35.4. Reglas de la probabilidad normal y tablas mdicas (opcional) 188Ejercicios 5.4Herramientas computacionales 1936. Inferencias sobre la media 1976.1. Muestreo aleatorio y aleatorizacin 197Muestreo aleatorio simple /Aleatorizacin /Ejercicios 6.1 10. Contenido Xlll6.2. Estimacin puntual de la media e introduccin a la estimacin por inter-valo:teorema central del lmite 206Estimacin por intervalo / Teorema central del lmite / Ejercicios 6.26.3. Intervalo de confianza para la media poblacional y la distribucin de T.. 217Propiedades de las variables aleatorias T / Ejercicios 6.36.4. Introduccin a los contrastes de hiptesis 224Ejercicios 6.46.5. Contrastes de hiptesis de la media poblacional: contraste T 226Valores alfa prefijados / Ejercicios 6.56.6. Tamao muestral: intervalos de confianza y potencia (opcional) 235Tamao de la muestra: estimacin / Tamao de la muestra: contrastesde hiptesis / Ejercicios 6.6Herramientas computacionales 2427. Distribucin ji-cuadrado e inferencias sobre la varianza 2477.1. Distribucin ji-cuadrado y estimacin por intervalo de la varianza pobla-cional247Intervalo de confianza para a2 (opcional) / Ejercicios 7.17.2. Contrastes de hiptesis de la varianza poblacional (opcional) 254Ejercicios 7.28. Inferencias sobre proporciones 2598.1. Estimacin puntual 259Ejercicios 8.1 ,8.2. Estimacin por intervalo de p 264Ejercicios 8.28.3. Tamao muestral para la estimacin de p 267Ejercicios 8.38.4. Contraste de hiptesis sobre p 270Ejercicios 8.48.5. Comparacin de dos proporciones: estimacin 275Intervalo de confianza de la diferencia de dos proporciones / Ejercicios 8.58.6. Comparacin de dos proporciones: contraste de hiptesis 280Contraste en el que el valor nulo es cero: contraste conjunto /Ejercicios 8.6Herramientas computacionales 2859. Comparacin de dos medias y dos varianzas 2899.1. Estimacin puntual: muestras independientes 289Ejercicios 9.19.2. Comparacin de varianzas: la distribucin F 293Regla prctica para la comparacin de varianzas / Contraste de la Fpara comparar varianzas: distribucin F (opcional) / Ejercicios 9.29.3. Inferencias sobre ix- i.T conjunta 301Estimacin por intervalo de nx- /^ / Contraste T de varianza conjunta /Ejercicios 9.39.4. Inferencias sobre /j - fi2: varianzas distintas 309Ejercicios 9.49.5. Inferencias sobre fix - IJL^. T para datos emparejados 314Contraste T para datos emparejados / Ejercicios 9.5Herramientas computacionales 320 11. XIV Contenido10. Procesos para -muestras: introduccin al diseo 32710.1. Clasificacin simple o de una va, diseo completamente aleatorio conefectos fijos 32[7Formato de los datos y notacin / Contraste de H,,: nx = /i2 = = /^k /Ejercicios 10.110.2. Comparaciones mltiples y por parejas 341Contraste T de Bonferroni: comparaciones por parejas / Contraste deDuncan de rango mltiple /Nota sobre los clculos /Ejercicios 10.210.3. Efectos aleatorios (opcional) 35(2Ejercicios 10.310.4. Bloques completos aleatorizados 35J5Formato de los datos y notacin / Contraste de H,,: fxv = fi2.= ---= fik /Efectividad de la construccin de bloques / Comparaciones por parejasy mltiples /Nota sobre los clculos /Ejercicios 10.410.5. Experimentos factoriales 37^)Formato de los datos y notacin / Contraste de los efectos principales einteraccin / Comparaciones mltiples y por parejas / Nota sobre losclculos / Ejercicios 10.5Herramientas computacionales 38)411. Regresin y correlacin 38911.1. Introduccin a la regresin lineal simple 389Ejercicios 11.111.2. Mtodo de los mnimos cuadrados 396Estimando una respuesta individual / Nota sobre los clculos / Ejerci-cios11.211.3. Introduccin a la correlacin 40f7Estimacin de p / Nota sobre los clculos / Ejercicios 11.311.4. Evaluacin de la consistencia de la relacin lineal (opcional) 41J5Coeficiente de determinacin /Anlisis de la varianza /Nota sobre losclculos / Ejercicios 11.411.5. Estimaciones por intervalos de confianza (opcional) 42)4Ejercicios 11.511.6. Regresin mltiple (opcional) 42^Ejercicios 11.6Herramientas computacionales 43(212. Datos categricos 43912.1. Tablas de contingencia 2 x 2 43(9Prueba de independencia /Prueba de homogeneidad/Ejercicios 12.112.2. Tablas de contingencia r x c 451Ejercicios 12.2Herramientas computacionales 45813. Otros procedimientos y mtodos alternativos de distribucin libre 46113.1. Pruebas de normalidad: la prueba de Lilliefors 462Ejercicios 13.113.2. Contrastes de posicin: una muestra 46(7Contraste de los signos para la mediana / Contraste de los rangos designos de Wilcoxon / Ejercicios 13.2 12. Contenido XV13.3. Contrastes de posicin: datos emparejados 474Contraste de los signos para la mediana de las diferencias / Contraste delos rangos de signos de Wilcoxon: datos emparejados / Ejercicios 13.313.4. Contrastes de posicin: datos no asociados 480Contraste de la suma de los rangos de Wilcoxon / Ejercicios 13.413.5. Contraste de posicin de Kruskal-Wallis para -muestras: datos no aso-ciados484Contraste para k-muestras de Kruskal-Wallis / Ejercicios 13.513.6. Contraste de posicin de Friedman para fc-muestras: datos asociados .. 488Contraste de Friedman / Ejercicios 13.613.7. Correlacin 492Coeficiente de correlacin de rangos de Spearman /Ejercicios 13.713.8. Contraste de Bartlett de igualdad de varianzas 496Ejercicios 13.813.9. Aproximaciones normales 499Ejercicios 13.913.10. Un contraste sobre proporciones para pequeas muestras 503Ejercicios 13.10Apndice A. Notacin sumatoria y reglas para la esperanza matemtica y lavarianza 507Notacin sumatoria 507Reglas para la esperanza matemtica y la varianza 509Apndice B. Tablas estadsticas 512Apndice C. Mtodos estadsticos STATGRAPHICS Plus 543Introduccin al STATGRAPHICS Plus 544Estadstica descriptiva 550Distribuciones de probabilidad 564Inferencia sobre los parmetros de una poblacin 571Comparacin de dos poblaciones 579Anlisis de la varianza 589Regresin y correlacin 597Contrastes para datos cualitativos 606Contrastes no paramtricos 610Apndice D. Mtodos estadsticos con SPSS 618Introduccin al SPSS 619Estadstica descriptiva 623Distribuciones de probabilidad con SPSS 633Inferencia sobre los parmetros de una poblacin 641Comparacin de dos poblaciones 646Anlisis de la varianza 651Regresin y correlacin 657Contrastes para datos cualitativos 664Contrastes no paramtricos 667Referencias 673Respuestas a problemas impares sueltos 675ndice 721 13. PROLOGOSe ha hecho ya evidente que la interpretacin de muchas de las investigaciones en las Cien-ciasBiolgicas y de la Salud dependen en gran parte de los mtodos estadsticos. Por estarazn, es esencial que los estudiantes de estas reas se familiaricen lo antes posible, en suscarreras, con los razonamientos estadsticos. Este libro se entiende como un primer cursosobre los mtodos estadsticos para estudiantes de Biologa y Ciencias de la Salud, aunquetambin puede ser empleado de forma ventajosa por estudiantes ya licenciados, con escasa oninguna experiencia en mtodos estadsticos.El libro no es un recetario estadstico ni tampoco un manual para investigadores. Preten-demosencontrar un camino intermedio que proporcione al estudiante una comprensin de lalgica empleada en las tcnicas estadsticas as como su puesta en prctica. No se requierenconocimientos previos de matemticas. El lector con una base adecuada de lgebra elementalser capaz de seguir los argumentos presentados.Hemos elegido ejemplos y ejercicios especficamente pensados para estudiantes de Cien-ciasBiolgicas y de la Salud. Se han tomado stos de la Gentica, la Biologa general, laEcologa y la Medicina. Y, excepto donde se indique, los datos son simulados. En todo caso,la simulacin est hecha con cuidado, de modo que los mtodos de anlisis sean consistentescon lo puesto de manifiesto por investigaciones recientes. De esta forma, el estudiante se haruna idea de los tipos de problemas que interesan en los trabajos actuales propios de lasCiencias Biolgicas. Muchos ejercicios se dejan incompletos con la esperanza de estimularalgunas discusiones en clase.Se supone que el estudiante tiene acceso a algn tipo de calculadora electrnica. En elmercado existen muchas marcas y modelos, y la mayor parte tiene incorporadas funcionesestadsticas. Recomendamos el uso de estas calculadoras, dado que con ello se permite alestudiante concentrarse en la interpretacin del anlisis, ms que en los clculos aritmticos.En el texto se dan las instrucciones para utilizar la calculadora TI83. sta, que es relativamen-tenueva en el mercado, permite realizar la mayora de las tcnicas presentadas en el libro.Pueden obtenerse, adems, muchos de los intervalos de confianza descritos y la mayor partede las tablas estadsticas mostradas en el manuscrito.Queremos hacer hincapi en el hecho de que muchos de los conjuntos de datos aqupresentados son ms bien pequeos, para que el estudiante no se abrume por el aspectopuramente operativo del anlisis estadstico. Ello no implica que las muestras pequeas dexvii 14. xviii Prlogodatos sean aceptables en la investigacin biolgica. De hecho, la mayor parte de los principa-lesprogramas de investigacin implican una tremenda inversin de tiempo y dinero, y elresultado es un nmero elevado de datos. Tales datos invitan por s mismos al anlisis pormedio del ordenador. Por esta razn, incluimos algunas instrucciones en la interpretacin delas salidas o outputs del ordenador. El paquete elegido con fines ilustrativos es el SAS (Statis-ticalAnalysis System: SAS Institute, Inc., Raleigh, North Carolina). Ello se debe a su popula-ridady fcil manejo. No pretendemos suponer que sea superior a otros productos bien conoci-dos,tales como el SPSS (Statistical Package for the Social Sciences), el BMD (BiomedicalComputer Programs, University of California Press) o el MINITAB (Duxbury Press). Afinal de algunos captulos, en la seccin Herramientas computacionales, se incluye una intro-duccinal SAS, junto con el cdigo de programa necesario para generar la salida dada en eltexto.Esta es una revisin sustancial de la segunda edicin del libro. En muchos apartados deltexto, se han incorporado los comentarios sugeridos por distintos revisores del mismo, parareforzar las exposiciones presentadas. Se han aadido, igualmente, nuevos ejercicios. Al finalde muchos captulos se ha incluido una seccin, Herramientas computacionales, para introdu-cirla programacin en SAS y la calculadora grfica TI83. Tambin se han incluido nuevasaportaciones como los diagramas de tallos y hojas adosados, una comparacin de varianzasefectuada de forma muy simple y una tabla T ampliada. En el texto contina teniendo unpapel importante el modo de hallar e interpretar los valores P.A partir de este libro se pueden impartir distintos cursos. Su extensin en el tiempo puedevariar desde un semestre hasta un ao. Es difcil determinar exactamente la materia que puedeser cubierta en un tiempo dado, puesto que ello est en funcin del tamao de la clase, de lamadurez acadmica de los estudiantes y de las inclinaciones del profesor. En todo caso,ofrecemos algunos criterios para el uso del texto en los resmenes de los captulos.Captulo 1. Este captulo es una introduccin a la Estadstica descriptiva. Se presentan, ypronto se diferencian, las nociones de poblacin y muestra, en las que se hace especial hinca-pi.Se han aadido, adems, los temas de anlisis exploratorio de datos (EDA), los diagra-masde tallo y hojas, as como los de cajas. Tambin se remarca la importancia que tiene elhecho de evaluar la forma, la posicin y la variabilidad.Captulo 2. En l se introduce la probabilidad desde un punto de vista intuitivo. Se hacehincapi en los diagramas de rbol y su utilizacin en la resolucin de problemas de Gentica.Se dan tcnicas de conteo (combinatoria) en relacin con problemas de clculo de probabili-dadesmediante el mtodo clsico. Si el tiempo es insuficiente para tratar todo el captulo,sugerimos que se vean las Secciones 2.1. y 2.2.Captulo 3. Este captulo comprende los axiomas de la probabilidad, adems de losteoremas que se deducen de los axiomas. Tambin se encuentran en el captulo los temas deindependencia, probabilidad condicionada y teorema de Bayes. Una seccin titulada Testsde diagnstico y riesgo relativo, ofrece aplicaciones de la probabilidad condicionada, parti -cularmente interesantes para los estudiantes de Medicina (y disciplinas afines). Este captulopuede saltarse si el tiempo no permite su estudio.Captulo 4. Este captulo desarrolla nicamente las variables aleatorias discretas, intro-duciendolos conceptos de densidad, distribucin acumulada y esperanza.Captulo 5. En este captulo se exponen, de forma paralela, las ideas presentadas en elCaptulo 4, pero aplicadas a variables aleatorias continuas. Tambin se incluye un subaparta-docon la regla de probabilidad normal y sus aplicaciones en grficos mdicos.Captulo 6. En l hablamos de la estimacin de la media, puntual y por intervalos, ascomo el contraste de hiptesis respecto a valores de este parmetro. Se incluye una seccinsobre muestreo aleatorio y aleatorizacin. Adems, se explica pormenorizadamente el uso del 15. Prlogo xixvalor P, algo en lo que se incide en el resto del texto. Finalmente, se aade una seccin sobreel efecto del tamao de la muestra en la amplitud del intervalo de confianza y en la potenciade un contraste.Captulo 7. Este es un captulo breve sobre inferencias sobre la varianza y la desviacintpica de una variable aleatoria. Se ha simplificado la exposicin sobre la comparacin devarianzas, incluyendo una regla prctica para comprobar la igualdad. El contraste formal F seincluye todava en el texto.Captulo 8. En el Captulo 8 se comentan las inferencias sobre una proporcin y lascomparaciones entre dos proporciones, con el Teorema central del lmite, utilizado con el finde justificar las tcnicas ya empleadas.Captulo 9. En este captulo comparamos dos medias, mediante estimacin puntual yestimacin por intervalos, y mediante contrastes de hiptesis. Se exponen los contrastes preli-minaresF para comparar varianzas. Se explican los mtodos para comparar medias de mues-trasindependientes: el de varianza conjunta y el de Smith-Satterthwaite. Se incluye una expo-sicinsobre el modo de utilizar un paquete informtico comercial para realizar estoscontrastes. El captulo concluye con una seccin sobre datos emparejados.Captulo 10. En este captulo, se introducen las tcnicas utilizadas al comparar las me-diasde ms de dos poblaciones, incluyendo comentarios sobre el modelo de clasificacin deuna va, los bloques aleatorizados y el modelo de clasificacin de dos vas. Se incluye unaexposicin sobre la eficacia de la construccin de bloques y el contraste T de Bonferroni, parahacer comparaciones por parejas. A lo largo de todo el captulo, se incluyen notas sobre losclculos.Captulo 11. Este captulo explica con cierto detalle la regresin lineal simple y la corre-lacin.Se ha aadido una nueva seccin sobre regresin mltiple.Captulo 12. Se consideran en l los problemas relativos a los datos categricos, hacien-doespecial hincapi en las pruebas de independencia y pruebas de homogeneidad en lastablas 2 x 2 y r x c.Captulo 13. Este captulo presenta alternativas de distribucin libre a los mtodos clsi-cosya vistos en captulos anteriores. Incluye nuevos apartados sobre la prueba de Lillieforsde normalidad, el de Bartlett para la igualdad de varianzas, as como un contraste binomialpara proporciones, en el caso de muestras pequeas.Ya que muchos cursos de este nivel duran un semestre, y es difcil abarcar el texto enteroen ese tiempo, pueden omitirse las secciones etiquetadas como opcional.Deseo agradecer a Maggie Rogers, Bill Barter y Cathy Smith su aliento y consejo durantela revisin de este texto, y a Joann Fisher el mecanografiado del manuscrito. Mi agradeci-mientotambin a Tonya Porter, por su ayuda en la preparacin de las soluciones del manual.Quiero igualmente reconocer a Joan Savage y Charlene Lutes su ayuda como asesoras biol-gicas.Finalmente, gracias muy especiales, por sus numerosas sugerencias a lo largo de larevisin del original, a las siguientes personas: Charles M. Biles, Ph.D., Humboldt StateUniversity; John E. Boyer, Jr., Kansas State University; Annette Bucher, Colorado StateUniversity; Christiana Drake, University of California; Dr. R. K. Elswick, Jr., Medical Colle-geof Virginia, Virginia Commonwealth University; Thomas J. Glover, Hobart and WilliamSmith Colleges; Golde I. Holtzman, Virginia Tech (VPI); Mark Krailo, University of Sout-hernCalifornia; Benny Lo, NW Polytechnic University; Christopher Morrell, Loyola Colle-ge;Lisa Sullivan, Boston University; Andrew Jay Tierman, Saginaw Valley State University;Mark S. West, Auburn University; y Robert F. Woolson, Ph.D., The University of Iowa.J. SUSAN MILTON 16. Mtodos descriptivosLa estadstica se ha convertido en una herramienta indispensable para la mayora de loscientficos. Qu es la estadstica y cmo pueden utilizarse las tcnicas estadsticas pararesponder a las cuestiones prcticas propuestas por los cientficos?Se ha definido la estadstica como el arte de la decisin frente a la incertidumbre. Comen-zaremosdescribiendo un problema tpico que requiere una solucin estadstica y utilizaremoseste ejemplo para introducir parte del lenguaje subyacente al campo de la estadstica. Lostrminos se usan aqu a nivel intuitivo. Se definirn despus, ms rigurosamente, cuandosurja la necesidad.Un investigador, estudiando una enfermedad cardaca en personas de 18 aos o mayores,ha identificado cuatro factores potencialmente asociados con el desarrollo de la misma: laedad, el peso, el nmero de cigarrillos fumados por da y los antecedentes familiares deenfermedad cardaca. El investigador quiere acumular pruebas que confirmen estos factorescomo contribuyentes al desarrollo de la enfermedad, o demuestren que no son importantes.Cmo debe proceder?Aqu se plantea un problema estadstico. Qu caractersticas lo identifican como tal?Simplemente stas:1. El problema se asocia a un grupo grande de objetos (en este caso, personas) acerca delos cuales van a hacerse inferencias. Este grupo de objetos se llama poblacin.2. Ciertas caractersticas de los miembros de la poblacin son de particular inters. Elvalor de cada una de esas caractersticas puede cambiar de objeto a objeto dentro dela poblacin. Estas caractersticas se llaman variables aleatorias: variables porquecambian de valor; aleatorias porque su comportamiento depende del azar y es impre-decible.3. La poblacin es demasiado grande para ser estudiada en su totalidad. Por tanto, debe-moshacer inferencias sobre la poblacin basadas en lo observado estudiando slouna porcin, o muestra, de objetos de la poblacin.En el estudio de factores que afectan a la enfermedad cardaca, la poblacin es el conjuntode todas las personas que padecen la enfermedad. Las variables aleatorias de inters son laedad y el peso del paciente, el nmero de cigarrillos fumados por da y la historia familiar. Esimposible identificar y estudiar a cada persona con enfermedad cardaca. De este modo,1 17. 2 Estadstica para Biologa y Ciencias de la Saludcualesquiera que sean las conclusiones, deben basarse solamente en el estudio de una porcino muestra de esas personas.Las variables aleatorias se agrupan en dos categoras: continuas y discretas. Una variablealeatoria continua es una variable que puede tomar cualquier valor en algn intervalo oporcin continua de los nmeros reales. En el estudio de la enfermedad cardaca, la variab leedad es continua, como lo es tambin la variable peso. Por ejemplo, la edad de una personapuede tomar cualquier valor entre 18 y, digamos, 110 aos, intervalo continuo de tiempo. Y elpeso de una persona puede situarse en cualquier lugar, digamos entre 40 y, quiz, 270 kg. Unavariable aleatoria discreta es una variable que toma su valor en puntos aislados. De estemodo, el conjunto de los posibles valores es finito o infinito numerable. Con frecuencia, lasvariables aleatorias discretas surgen en la prctica en conexin con las variables de conteo. Elnmero de cigarrillos fumados por da es discreto. Si contamos la parte de un cigarro fumadocomo un cigarro entero, entonces su conjunto de posibles valores es {0, 1, 2, 3, 4, 5,...}, unacoleccin infinita numerable. Si el historial familiar se estudia registrando el nmero depadres y abuelos que experimentaron dolencias cardacas, entonces esta variable es tambindiscreta. El conjunto de sus posibles valores es {0, 1, 2, 3, 4, 5, 6}, una coleccin finita.Generalmente, las variables aleatorias se indican con letras maysculas.Una medida descriptiva relacionada con una variable aleatoria, cuando la variable seconsidera sobre toda la poblacin, se denomina parmetro. Los parmetros se indican gene-ralmentecon letras griegas. Para recordar que los parmetros describen poblaciones slo hayque observar que ambos empiezan por p. Un parmetro con el que es frecuente encontrarse esel valor promedio de la poblacin o media de la poblacin. Este parmetro se indica mediantela letra griega . Por ejemplo, en el estudio de las enfermedades cardacas, el investigadorestara interesado en determinar el valor promedio de cigarros fumados al da por los miem-brosde la poblacin. No es posible obtener el valor exacto de este parmetro, salvo que seanestudiados todos los miembros de la poblacin. Puesto que es imposible hacerlo, el valorexacto de seguir siendo desconocido incluso tras haber finalizado nuestro estudio. Sinembargo, podremos utilizar mtodos estadsticos para aproximarnos a su valor basndonos enlos datos obtenidos a partir de la muestra de pacientes extrada de la poblacin.Una medida descriptiva relacionada con una variable aleatoria, cuando la variable slo seconsidera sobre una muestra, se denomina estadstico. Los estadsticos tienen dos fines. Porun lado, describen la muestra que est disponible y, por otro, sirven como aproximacin a losparmetros correspondientes a la poblacin. Por ejemplo, la media de cigarros fumados dia-riamentepor los miembros de una muestra de pacientes con enfermedades cardacas es unestadstico. Se le denomina promedio de la muestra o media muestral. Su valor para unamuestra dada, probablemente, no ser exactamente igual a la media de la poblacin. Sinembargo, se espera que al menos su valor se aproxime a .Un estadstico, o usuario estadstico, siempre est trabajando en dos mundos. El mundoideal est al nivel de la poblacin y es de naturaleza terica. Es el mundo que desearamosver. El mundo de la realidad es el mundo de la muestra. Este es el nivel en el que realmer teoperamos. Esperamos que las caractersticas de nuestra muestra reflejen bien las caractersti-casde la poblacin. Es decir, tratamos nuestra muestra como un microcosmos que refleja atoda la poblacin. La idea se ilustra en la Figura 1.1.Nos interesamos principalmente por tres cuestiones concernientes al comportamiento dela variable aleatoria. Son stas:1. Cul es la posicin de la variable? Es decir, alrededor de qu valor flucta lavariable?2. Qu cantidad de variacin existe? Es decir, los valores de la variable observados,tienden a agruparse o se encuentran muy dispersos? 18. Mtodos descriptivosPoblacin(mundo ideal, pero terico,cuyas caractersticas sedescriben medianteparmetros)Muestra(mundo real y alcanzablecayas caractersticas sedescriben mediante estudios)3Figura 1.1. La muestra se visualiza como una poblacin en miniatura. Se espera que el comporta-mientode la variable aleatoria estudiada en la muestra proporcione una imagen precisa de su com-portamientoen la poblacin.3. Cul es la forma de la distribucin? Es decir, tienden los valores a adoptar forma decampana, plana, en U u otra diferente?En este captulo introducimos algunas tcnicas grficas y analticas que pueden utilizarsepara responder a estas cuestiones.1.1. TABLAS DE DISTRIBUCIN: DATOS DISCRETOSRecurdese que una variable aleatoria discreta es una variable aleatoria que puede tomarcomo mximo un nmero finito o un nmero infinito numerable de valores posibles. Lasvariables aleatorias discretas surgen frecuentemente en los datos de cualquier estudio. Porejemplo, quiz queramos comparar la opinin de las mujeres con la opinin de los hombressobre el tema del aborto. De ah que una variable del estudio sea el sexo. Esta variable esdiscreta pues slo toma los dos valores que aparecen de forma natural, masculino o feme-nino. Podramos preguntarnos: Est usted a favor de la legalizacin del aborto si se solicitadurante el primer trimestre del embarazo? Dado que la respuesta a esta pregunta vara de unapersona a otra, nos encontramos ante una variable aleatoria. El investigador puede decidirregistrar cada respuesta como s, no, indeciso o no sabe, no contesta. De esta forma,se crea una variable aleatoria discreta con cuatro valores posibles. Para comprender y resumirestos datos, es til presentarlos en una tabla o grfico, en la que aparezcan los valores posiblesde la variable aleatoria y el nmero de veces que cada valor se repite. A este nmero se ledenomina frecuencia absoluta o simplemente frecuencia. El Ejemplo 1.1.1 recoge esta idea.Ejemplo 1.1.1. Se realiza un estudio comparativo de dos geritricos del oeste de Virginia.El objetivo del estudio es determinar el tipo de pacientes a los que se atiende y averiguardnde van los pacientes cuando dejan el geritrico. Estn implicadas cuatro variables aleato-riasdiscretas: sexo (codificado por el investigador como F = femenino o M = masculino),diagnstico (codificado como RM = retrasado mental, EM = enfermo mental, FE = fsicamen- 19. Estadstica para Biologa y Ciencias de la Saludte enfermo), edad y destino al dejar el geritrico (codificado como 1 = fallecido, 2 = hogar defamiliares, 3 = hospital, 4 = calle, 5 = otro geritrico, 6 = sanatorio particular, 7 = no ha dejadoel geritrico). (Los datos presentados son de un geritrico real y han sido recogidos de unestudio ms amplio realizado por el laboratorio estadstico y Debbie Thompson, Departamen-tode Trabajos Sociales, Radford University, 1990.)Sexo Diagnstico Edad Destino Sexo Diagnstico Edad DestinoMMFMFFFFMMFMMFFFMFFMEMRMFEEMRMEMFEFERMEMFEFEEMRMRMFERMFERMFE293534362520318942414741875650283523394227777771777271777737FMFMMFFFFMFFMMMFFFMFEMEMFEFEFEEMRMEMRMFEFERMFERMFEEMEMEMRMRM725231354229611864513035407659716265511867777273777763767377Categora FrecuenciaEM (enfermo mental) 12RM (retrasado mental) 13FE (fsicamente enfermo) 154La distribucin de frecuencias para la variable diagnstico se muestra en la Tabla l.1.Obsrvese que la tabla relaciona la categora en la que se ubica la respuesta junto con lacantidad de observaciones por categora.En la mayora de estudios se obtienen recuentos de frecuencias, los cuales proporcionanuna valiosa idea del comportamiento de la variable aleatoria objeto del estudio. Sin embargo,los recuentos de frecuencia por s solos pueden causar confusin. Por ejemplo, supongamosque nos dicen que se han diagnosticado 10 nuevos casos de sndrome de inmunodeficienciaadquirida (SIDA) en un hospital particular durante el mes de junio. Es ello motivo de alar-ma?Quiz s o quiz no. Naturalmente, depende del nmero de personas que hayan pasado aprueba de la enfermedad. Diez casos descubiertos entre 20 personas analizadas describen unpanorama completamente diferente a 10 casos hallados entre 1000 personas analizadas. Paradar una perspectiva de un recuento de frecuencias, consideramos el recuento relativo al total,Tabla 1.1. Distribucin de frecuencias de lavariable diagnstico del Ejemplo 1.1.1 20. Mtodos descriptivos 5formando as una frecuencia relativa. La Tabla 1.2 proporciona las distribuciones de frecuen-ciasy de frecuencias relativas de la variable diagnstico del Ejemplo 1.1.1. Las frecuenciasrelativas pueden multiplicarse por 100 para obtener el porcentaje de observaciones que co-rrespondena cada categora. Esta informacin es til puesto que los porcentajes son rpida-mentecomprendidos por todos. La Tabla 1.3 muestra el resumen completo de la variablediagnstico.La Tabla 1.4 es el resumen completo de los datos tal y como lo presentara el SAS, inicialesde Statistical Analysis System, paquete informtico de amplio uso entre analistas de datos,estadsticos e investigadores. Algunas nociones bsicas del SAS se explican en la seccin deHerramientas Computacionales de este libro. Obsrvese que el SAS ha listado las variables dediagnstico por orden alfabtico. Tambin ha incluido una columna llamada frecuencia acu-mulada y otra llamada porcentaje acumulado. La palabra acumulado/a significa que losvalores se suman acumulndose. As, la frecuencia acumulada 25 se obtiene al sumar el nmerode pacientes con retraso mental (13), que se encuentra en la segunda fila, al nmero de pacien-tescon enfermedades mentales (12), que se encuentra en la primera fila; la frecuencia acumula-da40 es la suma de todos los valores en la columna de frecuencias (40 = 12 + 13 + 15).Obsrvese que si los datos han sido introducidos correctamente, el ltimo nmero de la co-lumnade frecuencias acumuladas debe ser el tamao de la muestra.La columna de porcentaje acumulado se obtiene sumando la columna de porcentaje; sultimo valor debe ser siempre 100 %. No obstante, en algunas tablas los porcentajes puedenno sumar 100 % exactamente, debido a diferencias en el redondeo. Debemos sealar que,cuando los valores de las variables no son numricos o tienen un orden lineal no natural, ladistribucin acumulada puede no ser significativa. El cdigo del SAS usado para hacer estatabla se proporciona en la seccin de Herramientas Computacionales al final de este captulo.Tabla 1.2. Distribucin de frecuencias y de frecuencias relativasde la variable diagnstico del Ejemplo 1.1.1CategoraEM (enfermo mental)Frecuencia Frecuencia relativa12 12/40 = 0.300Tabla 1.3. Distribucin completa de la variable diagnstico del Ejemplo 1.1.1CategoraEM (enfermo mental)RM (retrasado mental)FE (fsicamente enfermo)Frecuencia121315Frecuenciarelativa12/40 = 0.30013/40 = 0.32515/40 = 0.375Porcentaje30.032.537.5Tabla 1.4. Frecuencias y p o r c e n t a j e s para la v a r i a b l e d i a g n s t i c o delEjemplo 1.1.1Diagnstico Frecuencia PorcentajeFrecuenciaacumuladaPorcentajeacumuladoEMRMFE12131530.032.537.512254030.062.5100.0 21. 6 Estadstica para Biologa y Ciencias de la SaludGrficos de barrasPara transmitir visualmente la informacin contenida en una tabla de distribucin, se puedeutilizar un grfico de barras verticales. Cada categora est representada por una barra vertical, todas de la misma anchura. Las alturas de las barras dependen del nmero de observaciones por categora. El eje vertical del grfico puede representar frecuencias, frecuencias relati-vaso porcentajes. Cada tipo de grfico es informativo, y los dos ltimos tienen la ventaja deque sus escalas verticales no dependen de los datos. En el caso de un grfico de barras defrecuencias relativas, varan de 0 a 1 y, en el caso de un grfico de porcentajes, de 0 %100%. La Figura 1.2 muestra todos estos grficos para la variable diagnstico del Ejem-plo1.1.1. Si se desea, las barras pueden colocarse horizontalmente. De hecho, los grficos debarras horizontales son algunas veces preferibles al escribir informes, puesto que requieranEM RM FE EM RM FE(a) (b)EM RM FE(c)Figura 1.2. (a) Grfico de barras de frecuencias para la variable diagnstico del Ejemplo 1.1.(b) grfico de barras de frecuencias relativas para la variable diagnstico; (c) grfico de barras deporcentajes para la variable diagnstico. 22. Mtodos descriptivosUn grfico de barras horizontales:Variable diagnsticoF %F acumulada % acumuladoFigura 1.3. Un grfico de barras horizontales, obtenido con el SAS, para la variable diagnstico delEjemplo 1.1.1.menos espacio que los grficos de barras verticales. La Figura 1.3 muestra el grfico de barrashorizontal para la variable diagnstico hecho por el SAS. Ntese que este grfico tambinmuestra la informacin contenida en la Tabla 1.4.Datos con dos variables: tablas de doble entradaAlgunas veces deseamos estudiar simultneamente dos variables aleatorias discretas. Porejemplo, es posible que queramos utilizar datos del Ejemplo 1.1.1 para investigar una posiblerelacin entre el sexo de un paciente y el diagnstico efectuado. Para iniciar este estudio,construimos una tabla de doble entrada. Esta tabla contiene r filas, donde r es el nmero derespuestas posibles de la primera variable, y c columnas, donde c es el nmero de respuestasasociadas a la segunda variable. De esta forma, una tabla de doble entrada tiene r c catego-raso celdas. Generalmente, en la tabla se incluye la informacin concerniente a las frecuen-cias,frecuencias relativas y los porcentajes. En los mrgenes de la tabla tambin se incluye ladistribucin marginal de cada variable.SexoFMEMMujeres enfermasmentalesVarones enfermosmentalesDiagnsticoRMMujeres retrasadasmentalesVarones retrasadosmentalesFEMujeres fsicamenteenfermasVarones fsicamenteenfermosDIAGNSTICO12 12 30.00 30.0013 25 32.50 62.5015 40 37.50 100.00Frecuencia (F)EMRMFE2 4 6 8 10 12 147Ejemplo 1.1.2. Consideremos los datos del Ejemplo 1.1.1. La variable aleatoria sexo tienedos respuestas posibles. Si utilizamos esta variable para formar las filas de nuestra tabla,r = 2. La variable aleatoria diagnstico tiene tres respuestas y, por lo tanto, la tabla tiene c = 3columnas. Esto da como resultado una tabla de doble entrada con r c = 2 3 = 6 celdas, lascuales se muestran en la Tabla 1.5. En la Tabla 1.6 se muestra la distribucin de los 40pacientes en las 6 celdas.Tabla 1.5. Tabla de distribucin de doble entrada para el estudio del Ejemplo 1.1.1 con r = 2,c = 3y r . c = 6 celdas 23. 8 Estadstica para Biologa y Ciencias de la SaludTabla 1.6. Tabla de distribucin de doble entrada: sexoy diagnstico, para los datos del Ejemplo 1.1.1 *SexoFMDistribucindeldiagnsticoEM70.17517.5 %50.12512.5 %120.30030%RM80.20020.0%50.12512.5 %130.32532.5 %FE80.20020.0%70.17517.5%150.37537.5 %del sexo230.57557.5%170.42542.5 %40* En cada celda, el primer nmero nos da la frecuencia, le sigue la frecuen-ciarelativa y, finalmente, el porcentaje.Las tablas de doble entrada pueden construirse de manera que permitan una rpida com-paracinde un grupo de individuos de una muestra con otra. Por ejemplo, en el estudio delEjemplo 1.1.1 sera interesante comparar el diagnstico de los varones con el de las mujeres.Ya que las frecuencias, las frecuencias relativas y los porcentajes de la Tabla 1.6 se refieren alas celdas, se requieren algunos clculos adicionales para hacer la comparacin. Obsrveseque en la muestra hay 17 varones. De stos, 5 son retrasados mentales, 5 son enfermos menta-esy 7 estn fsicamente enfermos. Esta informacin puede utilizarse para obtener la distribu-cinde los varones en la muestra, la cual se presenta en la Tabla 1.7 a. En la Tabla 1.7 b seincluye la distribucin de las 23 mujeres de la muestra. Obsrvese que existen algunas dife-renciasentre las distribuciones de los dos grupos. La ms sobresaliente es que, en el momentoactual, el porcentaje de varones fsicamente enfermos (41.18 %) es algo superior al porcentajede mujeres fsicamente enfermas (34.78 %).El SAS incluye un procedimiento para obtener tablas de doble entrada de manera rpida. LaTabla 1.8 es la versin del SAS para la tabla de doble entrada de los datos del Ejemplo 1.1.1.Obsrvese que el SAS lista automticamente los encabezamientos de las filas y las columnas enorden alfabtico. La esquina superior izquierda de la salida impresa del SAS comenta el signifi-cadode los nmeros contenidos en cada celda. El primer nmero es la frecuencia. Por ejemplo,en la tabla podemos ver que hay 7 mujeres con enfermedades mentales en la muestra.El segundo nmero de cada celda proporciona el porcentaje que dicha frecuencia repru-Tabla 1.7a. Distribucin de la variable diagnstico para loshombres del Ejemplo 1.1.1DiagnosticoSexoFMEM RM FE5 5 7 170.41180.294129.41 % 41.18%0.294129.41 %DiagnsticoDistribucin 24. Mtodos descriptivos 9Tabla 1.76. Distribucin conjunta de la variable diagnsticopara los hombres y mujeresSexoFMEM7= 0.304330.43%5= 0.294129.41 %DiagnsticoRM FE8 8= 0.3478 = 0.347834.78% 34.78%5 7= 0.2941 =0.411829.41% 41.18%2317senta respecto al total. Podemos ver que 7 mujeres con enfermedades mentales constituyen un17.5 % del total de la muestra. El tercer nmero da el porcentaje que la frecuencia representaen la fila. En el ejemplo podemos ver que el 30.43 % de las mujeres de la muestra estabanmentalmente enfermas. Obsrvese que los porcentajes por fila coinciden con los mostradosen la Tabla 1 .7b. La Tabla 1.8 nos permite ver que, de los pacientes con enfermedades menta-les,el 58.33 % eran mujeres. Advierta que la distribucin de la variable sexo se encuentra enel SAS en los totales y los porcentajes que aparecen en la ltima columna y que coincide conlos valores de la Tabla 1.6. Adems, la distribucin para la variable diagnstico se muestra enlos totales y porcentajes de la ltima fila, y coincide tambin con los datos de la Tabla 1.6. Elcdigo para este procedimiento en el SAS se encuentra en la seccin de Herramientas Com-putacionalesal final del captulo.Tabla 1.8. Tabla de doble entrada usada para investigar la aso-ciacinentre sexo y diagnstico en el Ejemplo 1.1.1, tal y comola muestra el SAS.Tabla de doble entrada usada para i n v e s t i g a rla r e l a c i n e n t r e sexo y d i a g n s t i c oTabla de Sexo f r e n t e a DIAGNSTICOSexoFrecuenciaPorcentajePct f i l aPct colFMDIAGNSTICOEM717.5030.4358.335RM820.0034.7861.545FE820.0034.7853.33712.5029.4141.6712.5029.4138.4617.5041.1846.67Total2357.501742.50Total 12 13 15 4030.00 32.50 37.50 100.00 25. 10 Estadstica para Biologa y Ciencias de la SaludRecuerde que lo nico que hemos hecho en los ejemplos de esta seccin es describir unamuestra de pacientes de un geritrico concreto. Las tcnicas para llegar a conclusiones sobrela poblacin de pacientes atendidos por este geritrico, a partir de la muestra, se presentarnen los captulos siguientes.EJERCICIOS 1.11. Los datos siguientes proceden de un segundo geritrico y estn tomados del estudiodescrito en el Ejemplo 1.1.1.Sexo Diagnstico Edad Destino Sexo Diagnstico Edad DestinoF EM676MRM807M FE717MEM832F FE541MFE493F EM637FFE786F EM487MEM577M EM567MRM693M FE623FEM837F RM572FFE921F FE817FFE553F FE367FFE636F FE723FFE644F FE653MFE897) Construir una tabla de distribucin para la variable diagnstic.,b) Construir un grfico de barras de porcentajes para la variable diagnstico. Comentarlas diferencias que se observan entre este grfico y el de la Figura 1. 2c.2. a) Utilizar los datos del Ejemplo 1.1.1 y del Ejercicio 1 para construir grficos debarras de frecuencias para la variable destino en los dos geritricos. Por qu no esadecuada una comparacin de esta variable, basadas slo en estos grficos, para lasdos muestras?b) Construir un grfico de barras de frecuencias relativas para la variable destino decada geritrico. Comentar cualquier diferencia aparente que se observe.c) Construir una tabla de doble entrada de sexo frente a destino para cada grupo.d) Construir una tabla de doble entrada de diagnstico frente a destino para cada grupo.3. Construir una tabla de doble entrada de sexo frente a diagnstico para los datos delEjercicio 1. Comparar esta tabla con la Tabla 1.6. Comentar cualquier diferencia aparen-teque se observe.4. Construir una tabla de doble entrada de sexo frente a diagnstico que muestre la distribu-cinde la variable diagnstico para cada sexo segn los datos del Ejercicio 1. Comentarcualquier diferencia notable entre los varones y las mujeres de esta muestra.5. Se realiz un estudio para investigar la relacin entre la dieta y la aparicin de dolores decabeza. Se identificaron dos grupos de personas que sufran jaqueca crnica. Estos secodificaron como V = jaquecas vasculares y T = jaquecas por tensin. En este estudiotambin se incluy un grupo de control consistente en personas que decan sufrir dolores decabeza poco frecuentes. Estas personas se codificaron como C. Cada individuo tambin fueidentificado por su sexo. El grupo de estudio es el siguiente: (Basado en un estudio recogi- 26. Mtodos descriptivos 11do en Patricia Guarnieri, Cynthia Radnitz y Edward Blanchard, Assessment of DietaryRisk Factors in Chronic Headache, Biofeedback and Self-Regulation, vol. 15, marzode 1990, pgs. 15-25.)SexoMFFMFMMMFFFMFFMFFMFFFMMFMFFFFFFFFFFFFFMMFFFFFDiagnsticoVVVTTVVcc Vc Vcc Vc VVcc TVTVTVVVTVTVVVTTCVcTTVVVVSexoFFMFMMFFFFMFFFFFFMFFMFFMFFFFFFFFFFFFFMFMFFMFFDiagnsticoVTCVVCCVVc VTCCVCc VTCVTCCTVTVVVVVc VVc VTVTVTCVCSexoMMMMFFFFFFFFFFFFFMFMFMMFFFFFFFFFMMMFFFFFFFFFDiagnsticoVVVcVTVVVVVVTTCVTCTCVc TVc Vcc VcTVCTTVc TVTVTCVSexoMFMFMMMMFFFFFFFFFFMMFFFFFMFFFFFMMMFFMFFFFFFDiagnsticoVTVcTVTCVVVTVTVc TVCTCTVVTTVVCVVTTCCc TVCTCVV 27. 12 Estadstica para Biologa y Ciencias de la Salud) Construir una tabla de doble entrada de sexo frente a diagnstico,b) Construir una tabla de doble entrada que permita comparar el diagnstico de losvarones con el de las mujeres.6. En muchas disciplinas se hacen preguntas para determinar la fuerza de una opininmantenida por un grupo de gente con respecto a un tema determinado. Las respuestasse puntan segn la escala Likert. Una escala tpica de este tipo etiquetara las res-puestascomo sigue:1 = bastante en desacuerdo2 = algo en desacuerdo3 = neutral4 = algo de acuerdo5 = bastante de acuerdo6 = no aplicableEn un estudio sobre la opinin de estudiantes acerca de la afirmacin de que El centrode salud de R.U. tiene horarios convenientes para los estudiantes, se extrajo una muestrade 246 estudiantes y cada uno de ellos se clasific en funcin de su gnero y de surespuesta a la afirmacin segn la escala Likert. Utilizar el resultado impreso del SASdado en la Tabla 1.9, para responder a las siguientes preguntas:a) Slo hay 245 respuestas de estudiantes en el recuento que aparece en la tabla. Hayvarias razones para que haya una respuesta perdida. Enumerar alguna de ellas.b) Cuntos estudiantes hubo en la muestra que fueran mujeres y que estuvieran bas-tantede acuerdo?c) Qu porcentaje de la muestra eran mujeres y estaban bastante de acuerdo con laafirmacin?d) Qu porcentaje de las mujeres estuvo bastante de acuerdo con la afirmacin?e) Qu porcentaje de los varones estuvo bastante de acuerdo con la afirmacin?f) De los que estuvieron bastante de acuerdo, qu porcentaje eran mujeres?Tabla 1.9. Tabla completa de doble entrada para las variables gnero y horario del centro de saludTabla de gnero f r e n t e a r e s p u e s t aGnero RespuestaFrecuenciaPorcentajePct filaPct colfmBastante endesacuerdo187.3512.6878.2652.044.8521.74Algo endesacuerdo208.1614.0850.00208.1619.4250.00Neutral239.3916.2047.922510.2024.2752.08Algo deacuerdo4518.3731.6961.642811.4327.1838.36Bastantede acuerdo208.1614.0868.9793.678.7431.03Noaplicable166.5311.2750.00166.5315.5350.00Total14257.9610342.04Total 23 40 48 73 29 32 2459.39 16.33 19.59 29.80 11.84 13.06 100.00Frecuencias perdidas = 1 28. Mtodos descriptivos 13g) Desde un punto de vista intuitivo, parece probable que varones y mujeres difieransustancialmente en su opinin acerca de los horarios del centro de salud? Razone surespuesta.h) D algunas razones de por qu un estudiante pueda marcar como no aplicable surespuesta a la afirmacin.(Basado en datos obtenidos en la Universidad de Radford, en marzo de 1997.)7. En un estudio llevado a cabo para investigar la asociacin entre las especies de araas yvarias actividades que stas realizan, se obtuvieron los datos de la Tabla 1.10. Utilizarstos para contestar a las siguientes cuestiones:a) Qu especies tienen el mayor porcentaje de sus miembros participando en la activi-daddel cortejo?b) Qu porcentaje de toda la muestra de 130 araas participaron en el cortejo?c) Basndose en estos datos, cree que hay una diferencia sustancial en los hbitos decortejo entre estas dos especies? Raznese la respuesta.(Basado en un experimento llevado a cabo por Travis Alderman, Departamento de Biolo-ga,Universidad de Radford, en la primavera de 1997.)1.2. UN VISTAZO RPIDO A LA DISTRIBUCIN: DIAGRAMADE TALLO Y HOJASAntes de comenzar a analizar un conjunto de datos es importante comprender lo que repre-sentanlos datos. En particular, es importante entender que cada nmero de un conjunto dedatos es un valor observado de alguna variable aleatoria. Algunas veces tenemos datos detoda la poblacin; habitualmente no es as. Cuando los datos disponibles son datos de po-blacin,cualquier pregunta pertinente puede responderse mediante observacin directa. Noexiste incertidumbre en lo concerniente a las caractersticas de la poblacin. Sin embargo,Tabla 1.10. Tabla de doble entrada para las va-riablesespecie y presencia de cortejoTabla de especie frente a respuestaEspecie RespuestaTotal6550.006550.0055 13042.31 100.00FrecuenciaPorcentajePct filaPct col12no4030.7761.5453.333526.9253.8546.67s2519.2338.4645.453023.0846.1554.55Total 7557.69 29. 14 Estadstica para Biologa y Ciencias de la Saludsi los datos slo representan una muestra de las observaciones extradas de la poblacin,entonces necesitaremos emplear mtodos estadsticos para determinar la naturaleza de lapoblacin.Consideremos una variable aleatoria cuantitativa discreta con un gran nmero de valoresposibles o una variable aleatoria continua. Nuestra primera tarea ser tener alguna idea de adistribucin de la variable aleatoria. Es decir, deseamos determinar dnde se centran losvalores, si se distribuyen de manera amplia o si encajan en un patrn caracterstico. Para ello,emplearemos algunas de las herramientas del anlisis exploratorio de datos (EDA). En pala-brasde John W. Tukey, un conocido analista de datos y autor de muchas de las tcnicasEDA[16].Tendremos que trabajar con nmeros. Es necesario que los manejemos con facilidad y losobservemos de forma eficiente. Las tcnicas para la manipulacin y visualizacin ya seagrfica, aritmtica o mixta sern importantes. Cuanto ms simples sean estas tcnicas,siempre que funcionen, mejor trabajaremos.Una tcnica para la observacin de la distribucin, que funciona bien, es el diagrama detallo y hojas. Es fcil de disear y puede hacerse rpidamente. Como se ver, en el diagra-made tallo y hojas, el conjunto de datos estar reproducido bastante fielmente. As, crea-mosun diagrama en el que los datos puntuales se agrupan de tal modo que podemos visuali-zarla forma de la distribucin mientras que mantenemos su individualidad. Un diagramade tallo y hojas consiste en una serie de filas horizontales de nmeros. El nmero utilizado para designar una fila es su tallo, el resto de nmeros de la fila se denominan hojas. Eltallo es la mayor porcin del nmero. Por ejemplo, en los nmeros 3.1, 3.2, 3.7 y 3.5 loprimero que salta a la vista es que todo son treses: el tallo de cada nmero es tres. Lashojas dan una informacin secundaria acerca del nmero, en nuestro ejemplo sera lacifra decimal, que servira para distinguir entre los treses. No hay reglas exhaustivassobre cmo disear este diagrama. En general, los pasos son los siguientes:Construccin de un diagrama de tallo y hojas simple1. Elija algunos nmeros oportunos que puedan servir de tallos. Para facilitar la deter-minacinde la forma se necesitan al menos 5 tallos. Los tallos elegidos generalmenteson el primero o los dos primeros dgitos de los nmeros del conjunto de datos.2. Etiquete las filas con los tallos elegidos.3. Reproduzca grficamente los datos anotando el dgito que sigue al tallo, como hojadel tallo adecuado.4. Gire el grfico hacia un lado para ver cmo se distribuyen los nmeros. En concreto,intente responder a preguntas como:a) Tienden a agruparse los datos cerca de un tallo o tallos en particular, o sedistribuyen de forma uniforme por el diagrama?b) Tienden a estrecharse los datos hacia un extremo u otro del diagrama?c) Si se traza una curva a lo largo de la parte superior del diagrama, forma ms omenos una campana? Es plana? Es simtrica?Un ejemplo aclarar la idea. 30. Mtodos descriptivos 15Ejemplo 1.2.1. Considere estas observaciones sobre la variable aleatoria X, magnitud de unterremoto en California segn su medicin en la escala de Richter:1.01.22.03.31.45.08.31.01.92.22.72.23.14.16.32.32.41.21.11.11.42.13.07.75.14.01.32.1.4.11.5Los primeros dgitos de estos nmeros son 1, 2, 3, 4, 5, 6, 7, 8. Estos dgitos servirn comonombres de los tallos y las filas. Vase la Figura Aa. A continuacin, representamos los datosgrficamente anotando el nmero que aparece despus del punto decimal, como hoja del talloapropiado. En la Figura Ab se muestran los primeros cuatro datos puntuales. En la Figura 1.4cse visualiza todo el conjunto de datos. Para tener una idea de la forma, gire el libro hacia un ladoy observe la curva que se ha trazado en la Figura 1.4d. De aqu puede deducirse que estos datosse aproximan al extremo inferior de la escala: muchos terremotos eran suaves. Si este ejemplofuera una indicacin precisa de la intensidad de los terremotos en California, sera bastanteinusual observar un terremoto intenso. Obsrvese tambin que la visualizacin no es simtrica.Hay ms bien una cola larga o ahusada hacia el extremo superior o derecho de la visualizacin.Se dice que los datos de este tipo estn sesgados hacia la derecha. Si la cola larga estuviera haciala izquierda, diramos que los datos estn sesgados hacia la izquierda. (Basado en los datoshallados en Robert Iacopi, Earthquake Country, Lane Books, Menlo Park, Calif., 1971.)Algunas veces, la utilizacin del primero o de los dos primeros dgitos de los datos pun-tualescomo tallos, no proporciona suficientes tallos como para permitirnos detectar la forma.Una manera de solucionar este problema es utilizar tallos dobles. Es decir, utilizar cada tallodos veces: una vez para representar las hojas inferiores 0, 1, 2, 3, 4 y, a continuacin, nueva-mentepara representar las hojas superiores 5, 6, 7, 8, 9. El Ejemplo 1.2.2 ilustra el diagramade tallo doble.Ejemplo 1.2.2. En un estudio sobre el crecimiento de los varones, se obtuvieron estasobservaciones sobre X, permetro craneal en centmetros, de un nio al nacer.1234567833.134.533.733.433.736.51234567834.635.836.034.934.834.10 20334.234.534.233.833.934.0123456780031037336.134.234.733.634.735.12 4 0 92 7 2 31 00 1134.234.334.635.235.135.32 1 14 1 135.635.234.334.634.24 3 51234567800310373(a) (b) (c) (d)2210147010 9 2 12 3 4 11 4 3 5Figura 1.4. Visualizacin del diagrama de tallo y hojas para la variable aleatoria: magnitud de unamuestra de terremotos en California, medidos en la escala de Richter: (a) eleccin de tallos, (b)registro de los primeros cuatro datos puntuales, (c) visualizacin de todo el conjunto de datos,(d) bsqueda de la forma. 31. 16 Estadstica para Biologa y Ciencias de la Salud33333434353536361715180547262618291908362 2 3 3 25 7 7 6 62Figura 1.5. Visualizacin de un diagrama de tallo y hojas doble dandoel permetro craneal, en centmetros, de un nio al nacer, basndoseen los datos del Ejemplo 1.2.2.Si utilizamos los primeros dos dgitos como tallos, slo tendremos cuatro tallos, 33, 34, 35,36. Puesto que no es suficiente para que podamos detectar la forma, utilizaremos dos vecescada uno de ellos y formaremos un diagrama de tallo doble. La visualizacin se muestra en laFigura 1.5. Obsrvese que, en cada caso, las hojas inferiores 0, 1, 2, 3,4 estn representadasen el primer tallo seguidas por las hojas superiores 5,6,7,8,9. De aqu podemos observar quelos datos tienden a agruparse alrededor de 34 centmetros. Aunque no hay una simetra perfec-ta,estos datos son ms simtricos que los datos del terremoto del Ejemplo 1.2.1.Los diagramas de tallo y hojas son tiles para comparar dos grupos de datos de naturales asimilar. Por ejemplo, podramos querer comparar los niveles de colesterol de varones y muje-res;o representar los resultados de dos programas de prdida de peso, uno frente a otro; o bienquerramos una representacin visual del crecimiento a lo largo del tiempo de una especie derbol a dos alturas diferentes. Comparaciones de este tipo pueden realizarse por medio de losllamados diagramas de tallo y hojas adosados. El Ejemplo 1.2.3 ilustra esta tcnica.Ejemplo 1.2.3. En un estudio llevado a cabo para comparar el crecimiento durante 10 aosdel roble americano a una altitud de 975 m y a otra de 675 m, la variable medida fue lalongitud de muestras del ncleo, cubriendo los ltimos 10 aos de anillos de crecimiento, encentmetros. En la Figura 1.6 se muestran los datos obtenidos:975 m 675 m3.81.32.62.22.02.83.81.54.01.76.01.71.92.50.71.82.32.02.22.42.31.11.12.62.11.02.90.81.61.7Podramos construir un diagrama de tallos y hojas para cada conjunto de datos, por separado.No obstante, puesto que el propsito es la comparacin y hay solapamiento de tallos, ambosCentro del rbolXFigura 1.6. Una muestra de ncleo tpica. Cada anillo representa un ao de crecimiento. La varia-bleX es la longitud, en centmetros, de los ltimos 10 anillos. 32. conjuntos de datos pueden representarse convenientemente en el mismo conjunto de tallos.Para hacer esto, dejamos la parte entera de cada dato como tallo; el segundo dgito de cadadato sera la hoja. Los tallos se sitan en el centro del diagrama. Las hojas para la altitud de975 m se muestran en la izquierda y las de 675 m, a la derecha. La Figura 1.7 muestra eldiagrama de tallos y hojas adosado. Hay varias cuestiones que comentar. Primero, aunque notenemos observaciones con tallo 5, ste debe ser incluido en el diagrama. Esto es as para queel ojo pueda tener la perspectiva correcta acerca de la dispersin o distribucin de los datos a675 m. Segundo, parece que hay diferencias en la distribucin de la variable crecimiento entreesas dos alturas. Los valores a 975 m estn ms dispersos que los de 675 m, como se deducedel hecho de que haya 4 valores mayores que cualquiera de los encontrados a 675 m. Parecetambin que el centro de los datos a 675 m est por debajo del de 975 m, puesto que elconjunto inferior no tiene datos que excedan de 2.9 mientras que el superior tiene varios.Tngase en cuenta que estas afirmaciones slo son aproximaciones basadas en la figura. Encaptulos posteriores se aprender cmo comparar posiciones y variabilidad de manera anal-tica.(Basado en datos obtenidos por Allison Field, Departamento de Biologa, Universidad deRadford, en otoo de 1996.)1. Una importante variable usada para medir el estado de desarrollo del SIDA en pacientesinfectados es la relacin de linfocitos T colaboradores y linfocitos T supresores. El rangoFigura 1.7. Diagrama de tallo y hojas adosado para la variableX, crecimiento en 10 aos de robles americanos a dos altitudesdiferentes.975m 675m7 0 897753 1 8 1 1 0 6 758026 2 3 0 2 4 3 6 1 98 8 30 450 6Mtodos descriptivos 17Muchos de los procedimientos estadsticos que se presentarn ms adelante se desarrollanbasndose en la suposicin de que la variable aleatoria estudiada tiene al menos aproximada-menteuna distribucin en forma de campana. El diagrama de tallo y hojas es una ayuda paradeterminar si esta suposicin es razonable o no. Por ejemplo, nos sorprenderamos si nosdijeran que la variable aleatoria X, magnitud de un terremoto en California medido en laescala de Richter, tiene una distribucin en forma de campana. El diagrama de tallo y hojas dela Figura 1.4d no parece en absoluto una campana. Por otra parte, el diagrama de la Figu-ra1.5, aunque no es perfectamente simtrico, tiende a aproximarse a la forma de una campa-na.No nos sorprenderamos si nos dijeran que X, permetro craneal de un nio al nacer, tieneuna distribucin en forma de campana.EJERCICIOS 1.2 33. 18 Estadstica para Biologa y Ciencias de la Saludnormal para esta variable es de 1.0 a 2.9. Los siguientes datos se obtuvieron en pacientesafectados de SIDA seleccionados aleatoriamente: (Basado en informacin encontrada enInterpretative Data Guide, Laboratorios ARUP, 1996.)0.450.400.660.790.820.520.780.710.610.910.980.530.680.670.900.620.710.700.811.000.620.710.510.841.10a) Construir un diagrama de tallo y hojas para estos datos, usando como tallos 4, 5, 6, 7,8, 9, 10 y 11. Representar 1.00 como 10/0 y 1.10 como 11/0. (Recurdese que elpunto decimal no aparece como tal en el diagrama como parte del tallo.)b) Comentar la forma sugerida por estos datos.c) Parece probable que la relacin linfocitos T colaboradores/T supresores sea inferioren pacientes con SIDA que en pacientes sanos? Expliquese.2. Se considera como gran derrumbamiento aqul en el que los escombros han recorridouna distancia sobre el suelo plano, o ligeramente inclinado, varias veces mayor que sualtura de cada. Se realiz un estudio del alcance (distancia recorrida por los escombros )de estos derrumbamientos y se obtuvieron los siguientes datos. (Basado en los datospublicados por Charles Campbell, Self-Lubrication for Long Runout Landslides, Jour-nalof Geology, noviembre de 1989, pgs. 653-665.)Alcance, km1.46.16.22.79.810.36.85.63.24.07.28.37.18.611.59.37.96.73.45.88.66.65.86.8a) Construir un diagrama de tallo y hojas para estos datos. Utilcese la parte entera decada nmero como tallo y el primer dgito tras el decimal como hoja.b) Piensa que en el futuro sera raro encontrar un derrumbamiento con un alcance d10 ms kilmetros? Raznese.c) Mediante una simple inspeccin, d una aproximacin del alcance medio de estosderrumbamietos.3. Se ha desarrollado una nueva vacuna contra la difteria para aplicarla a nios. El nivel dproteccin estndar obtenido por las antiguas vacunas era de 1 g/mL, un mes despus dela inmunizacin. Transcurrido un mes, se han obtenido estos datos del nivel de protec-cinde la nueva vacuna: (Basado en un informe del Journal of Family Practice, enero de1990, pgs. 27-30.)12.5 13.8 13.0 13.5 13.212.2 13.4 14.0 13.6 13.313.3 14.1 14.6 13.1 12.113.7 13.4 12.8 12.6 12.7a) Construir un diagrama de tallo y hojas doble para estos datos.b) Se sorprendera si le dijeran que X, nivel de proteccin transcurrido un mes de lanueva vacuna, tiene una distribucin en forma de campana? 34. Mtodos descriptivos 19c) Mediante la inspeccin del diagrama de tallos y hojas, haga un clculo aproximado delnivel de proteccin medio utilizando la nueva vacuna. Se sorprendera si le dijeran quela nueva vacuna tiende a proporcionar un mayor nivel de proteccin que la estndar?4. En un estudio realizado a pacientes clnicos cardacos varones, el objeto del mismo fuedetectar las variables que contribuyen al estrs de estos pacientes. El estrs se midi me-diantela puntuacin de ansiedad de Hamilton. Estas marcas se encuentran en una escala de1 a 25, donde el nmero 18 denota un estrs moderado y el 25, un estrs grave. Se trataba decomparar los dos grupos de pacientes. Se obtuvieron los siguientes datos: (Basado en datospublicados en Earl Burch, Jr., y Jeffery Brandenburg, Variables Contributing to Distress inMale Cardiac Patients, Journal of Family Practice, enero de 1990, pgs. 43-47.)Viven8.69.310.19.414.2solos9.013.511.08.78.29.39.510.310.712.99.68.38.19.411.6Viven con otras personas13.2 15.4 17.5 18.514.7 16.9 14.0 13.314.2 16.0 13.6 14.615.6 17.3 18.1 15.218.0 16.1 17.4 17.2a) Construir diagramas de tallo y hojas para cada grupo.b) Alguna de estas distribuciones tiene forma de campana?c) Alguna de estas distribuciones parece sesgada? Si es as, en qu direccin?d) Construir un diagrama de tallo y hojas adosado para estos datos.e) Qu grupo tiende a tener una menor puntuacin media de estrs?f) Basndonos en estos datos, podemos concluir que la puntuacin media de estrspara todos los pacientes cardacos varones que viven solos est por debajo de lapuntuacin de todos los pacientes cardacos varones que viven con otras personas?Expliquese.5. En un experimento se utilizaron saltamontes para estudiar la direccin durante el vuelo.El inters se centraba en la reaccin del saltamontes a un estmulo acstico y visual. Encada caso, la variable de inters era la latencia, el tiempo que pasa entre la recepcin delestmulo y el movimiento de la cabeza realizado por el saltamontes, que da como resulta-douna alteracin de la marcha. Se obtuvieron estos datos: (Basado en los datos halladosen C. H. F. Rowell, Descending Interneurones of the Locust Reporting Deviation fromFlight Course: What Is Their Role in Steering? Journal of Experimental Biology,vol 146, septiembre de 1989, pgs. 177-194.)Acstico8610210399108100115106109113114107107Latencia,117120101126109106msVisual729910275100103779571978010410178739071708110389 35. Cinc3.05.15.74.45.83.65.05.45.65.55.94.24.84.75.75.3Cobre0.400.560.600.500.510.410.610.450.470.600.480.620.550.460.630.57a) Construir un diagrama de tallo y hojas doble para cada conjunto de datos.b) Alguno de los conjuntos de datos muestra cierto sesgo? Si es as, en qu direccin?c) Se fabrica un nuevo preparado y su nivel medio de cobre se estima en 0.53. Es estacifra excesivamente alta comparada con las de los preparados que actualmente seencuentran en el mercado? Raznese la respuesta.d) Sera raro observar en el nuevo preparado un nivel medio de cinc estimado inferio|ra 4.0? Justifiquese.7. Construir diagramas de tallo y hojas para la variable edad del Ejemplo 1.1.1 y del Ejerci-cio1 de la Seccin 1.1. Parecen similares las distribuciones de edad de los dos geritri-cosen cuanto a forma y localizacin? Expliquese.8. Se realiza un estudio para ayudar a comprender el efecto que tiene el hbito de fumar enlos patrones del sueo. La variable aleatoria considerada es X, tiempo en minutos que setarda en quedar dormido. Las muestras de fumadores y no fumadores producen estasobservaciones sobre X.No fumadores17.216.219.821.221.121.819.519.719.922.618.916.922.118.818.119.820.022.123.021.119.215.123.624.120.620.120.522.418.324.925.023.317.520.419.317.620.121.420.221.320.717.4Fumadores15.116.822.825.824.323.215.720.521.222.424.125.725.115.317.718.119.415.015.216.119.921.322.125.224.118.017.223.116.015.918.321.623.824.923.024.825.225.016.317.919.925.120 Estadstica para Biologa y Ciencias de la Saluda) Construir un diagrama de tallo y hojas doble para cada conjunto de datos. Utiliza:los dos primeros dgitos de cada nmero como tallo. El tallo para un nmero de dosdgitos como 86 es 08.b) Se sorprendera si le dijeran que la latencia est simtricamente distribuida en am-boscasos?c) Se sorprendera si le dijeran que la latencia sigue una distribucin en forma decampana en ambos casos?d) Bajo qu estmulo es ms dispersa la latencia?6. En circunstancias normales, en los alimentos existen pequeas cantidades de cinc y co-bre.Estos elementos pueden ser txicos y causar problemas al interactuar entre s eimpedir, de esta forma, su absorcin por el organismo. Se realiz un estudio sobre losniveles de estos elementos en preparados infantiles. Cada dato puntual representa el nivelmedio, en miligramos por litro, para muestras de igual tamao seleccionadas entre las 16principales marcas del mercado. (Basado en los datos hallados en B. Lonnerdal, TraceElement Absorption in Infants as a Foundation to Setting Upper Limits for Trace Ele-mentsin Infant Formulas, Journal of Nutrition, diciembre de 1989, pgs. 1839-1844.) 36. Mtodos descriptivos 21a) Construir un diagrama de tallo y hojas adosado de estos conjuntos de datos. Utilizarlos enteros del 15 al 25 inclusive como tallos.b) Se sorprendera si alguien le dijera que no existe diferencia en cuanto a la distribu-cinde X en los dos grupos? Expliquese.9. Los incendios de vegetacin en pradera, matorral y bosque son un fenmeno comn.Algunos son accidentales, pero otros son provocados con el fin de crear hbitats post-fuegoque beneficien a plantas y animales. No obstante, el suelo que ha sido expuesto aun alto calentamiento puede esterilizarse. Se realiz un estudio para determinar el efec-tode esta esterilizacin en el crecimiento de plantas, en concreto rbanos. La variablemedida fue el peso seco de la planta al cabo de 4 semanas. (Basado en un estudio de JoyBurcham, Departamento de Biologa, Universidad de Radford, otoo de 1996.)Suelo estril(peso seco en gramos)91010302592818283035152617101134Suelo no estril(peso seco en gramos16191315142711696318141120a) Construir un diagrama de tallo y hojas doble para cada uno de los conjuntos dedatos. Parece tener cada diagrama forma aproximada de campana? Cul pareceestar ms disperso? Cul parece tener la menor tendencia central?b) Construir un diagrama de tallo y hojas adosado doble para estos datos. Comentar qureflejan estos datos acerca de la capacidad de crecimiento de los rbanos en sueloestril.1.3. DISTRIBUCIONES DE FRECUENCIA: HISTOGRAMASEn la Seccin 1.2, presentamos el diagrama de tallo y hojas, que es una tcnica grfica rpidapara organizar conjuntos de datos numricos en los que hay un gran nmero de valores distin-tos.El diagrama de tallo y hojas nos da una idea aproximada de la forma de la distribucin, ascomo de su localizacin. La tcnica funciona bien para los conjuntos de datos que no tienen unadispersin muy grande. Sin embargo, si los datos puntuales cubren una amplia gama de valores,es difcil escoger tallos adecuados. En este caso, necesitamos un sistema alternativo para agru-parlos datos de manera que podamos determinar la forma. Los grficos construidos al efectopara detectar la forma se denominarn histogramas. Utilizaremos tres tipos de histogramas (defrecuencias, de frecuencias relativas y de porcentajes). Esta tcnica se ha utilizado durantemuchos aos, atribuyndose el origen del trmino histograma a Karl Pearson en 1895.Un histograma de frecuencias es un grfico de barras verticales u horizontales. Describela distribucin de valores de tal forma que el rea de cada barra es proporcional al nmero deobjetos en la categora o clase representada por la barra. As, un histograma de datos conti-nuossirve para el mismo fin que los grficos de barras presentados en la Seccin 1.1. Dadoque el conjunto de datos con gran cantidad de valores numricos distintos no tiene clasesnaturales obvias, debemos disear un mtodo para definirlas. Queremos definir clases deigual tamao, de tal forma que cada observacin corresponda clara y exactamente a una de 37. 22 Estadstica para Biologa y Ciencias de la Saludellas. A lo largo de los aos se han ido creando muchos de estos mtodos. La tcnica quese ilustra aqu es una de las que funcionan bien. Se utilizarn estas reglas para la creacin declases. En el Ejemplo 1.3.1 se describirn paso a paso.Reglas para agrupar datos en categoras o clases1. Decidir el nmero de clases deseado. El nmero elegido depende de la cantidad deobservaciones disponibles. La Tabla 1.11 ofrece algunas sugerencias para el nmerode clases a utilizar en funcin del tamao de la muestra. Est basada en la regla deSturges, frmula desarrollada por H. A. Sturges en 1926. Esta regla afirma que k,nmero de clases, viene dada por k = 1 + 3.322 log10 n donde n es el tamao de lamuestra. Se utiliz esta frmula para obtener los nmeros de clase que aparecen en laTabla 1.11. Puede verificar alguno de estos valores por usted mismo. (H. A. Sturges,The Choice of a Class lnterval, Journal of the American Statistical Association,vol. 21, 1926, pgs. 65-66.)2. Localizar la observacin mayor y la menor. Hallar la diferencia entre estas dos obser-vaciones.Restar en el orden mayor menos menor. A esta diferencia se la denominarango de los datos.3. Hallar la amplitud (ancho) mnima de la clase requerida para cubrir este rango,dividiendo el rango por el nmero de clases deseado. Este valor es el mnimo reque-ridopara cubrir el rango, si se toma el lmite inferior de la primera clase como eldato menor. Sin embargo, para asegurarse de que ningn dato caiga en un lmite,definiremos los lmites de tal forma que tengan un decimal ms que los datos. Aspues, comenzaremos la primera clase ligeramente por debajo del primer dato pun-tual.Hacindolo, la amplitud mnima requerida de la clase, necesaria para cubrir elconjunto de datos, no es lo suficientemente grande para atrapar el dato mayor en laltima clase. Por esta razn, el ancho real utilizado deber ser un poco mayor que elmnimo. En concreto, el ancho real de la clase a utilizar se halla redondeando elancho mnimo hasta la misma cantidad de decimales que los datos. Si, por casuali-dad,el ancho mnimo ya tiene la misma cantidad de decimales que los datos, tam-binredondearemos hasta una unidad. Por ejemplo, si tenemos datos registradoscon un decimal de precisin, y la amplitud mnima requerida para cubrir los datoses 1.7, la elevaremos hasta 1.8 para obtener la amplitud real de la clase a utilizar.Tabla 1.11. Nmero de clases sugerido parasubdividir datos numricos en funcin del tamaode la muestraTamao muestralMenos de 1616-3132-6364-127128-255256-511512-10231024-20472048-40954096-8190Nmero de clasesDatos insuficientes5678910111213 38. Mtodos descriptivos 234. El lmite inferior para la primera clase estunidad por debajo de la observacinmenor. La Tabla 1.12 muestra unidades y medias unidades para diferentes tipos deconjuntos de datos. Los lmites para las restantes categoras se hallan aadiendo laamplitud de la clase al valor del lmite precedente.Ejemplo 1.3.1. Se realiz un estudio de llamadas ultrasnicas en jerbos de Mongolia jvenes. A cada animal se le aisl durante un minuto, cada uno de los 14 primeros das de su vida,y se grabaron los sonidos que produjo. Una variable de inters fue el nmero de llamadasemitidas. Existen factores asociados al manejo diario de los animales de experimentacin quepueden influenciar su comportamiento. Para detectar esta posible fuente de error, se dispusoun grupo de animales de control, animales no manipulados en absoluto, y que se estudiaron elquinto da. Los datos de este da, para los dos grupos, fueron los siguientes:Nmero de llamadas por animalExperimental Control135 149 130 (el menor) 123 112 112137 151 151 109 105 121148 143 139 118 106 100152 154 151 116 115 115144 146 137 96 120 112138 145 156 (el mayor) 88 112 122142 136 138 102 123 128145 150 144 117 110 124147 151 142 119 98 109147 138 155 101 111 90Consideremos primero los datos de los animales de experimentacin. Nuestra tarea esseparar estos datos en clases. Vase que hay 30 datos puntuales. Las directrices de la Tabla 1.11 sugieren que dividamos los datos en cinco clases. Localizamos el dato mayor (156) yel menor (130), que nos servirn para calcular la amplitud de la clase o longitud del intervaloque contiene todos los datos puntuales. En este caso, los datos cubren un intervalo de longitud156 - 130 = 26 unidades. Para encontrar la amplitud mnima requerida para cada clase,dividimos este valor por el nmero de clases deseado. As, la amplitud mnima de la clase ser26/5 = 5.2 unidades. La amplitud de clase que usaremos en la prctica para separar los datos laobtendremos redondeando por exceso la amplitud mnima, hasta obtener un valor con elmismo nmero de cifras decimales que los datos. Como los datos vienen dados en nmerosenteros, redondearemos la amplitud mnima, 5.2, por exceso, hasta el nmero entero msTabla 1.12. Unidades y medias unidades para los datosregistrados en el grado de precisin establecidoDatos mnimosregistradosUnidad2 unidadNmero entero10.5Dcimas (1 decimal)0.10.05Centsimas (2 decimales)0.010.005Milsimas (3 decimales)0.0010.0005Diezmilsimas (4 decimales)0.00010.00005 39. 24 Estadstica para Biologa y Ciencias de la Saludprximo, 6. Las clases que usaremos sern pues de amplitud 6. La primera clase comienza 1/2unidad por debajo de la observacin ms pequea. Puesto que los datos tienen valores enteros,vemos en la Tabla 1.12 que una unidad es 1 y media unidad es 0.5. Empezamos la primeraclase 0.5 por debajo de la observacin ms pequea. Esto es, el lmite inferior para la primeraclase es 130 - 0.5 = 129.5. Los lmites para las restantes clases se encuentran sumando sucesi-vamentela amplitud de la clase (6) al lmite superior precedente, hasta que se hayan cubiertotodos los puntos. De esta forma, obtenemos las siguientes cinco clases finitas para los anima-lesen experimentacin: 129.5 a 135.5, 135.5 a 141.5, 141.5 a 147.5, 147.5 a 153.5 y 153.5 a159.5. Obsrvese que, puesto que los lmites tienen una cifra decimal ms que los datos,ningn dato puntual puede coincidir con uno de ellos, esto es, cada dato debe pertenecerestrictamente a una sola clase. Ahora podemos resumir los datos en una tabla, contando elnmero de observaciones en cada clase (vase la columna 3 de la Tabla 1.13).En la Figura 1.8 se muestra el grfico de la distribucin de frecuencias. A este grfico se lellama histograma de frecuencias. Obsrvese que, puesto que las barras tienen la misma an-chura,el rea de cada barra es directamente proporcional a su altura. Como la altura es igualal nmero de observaciones de la clase representada por la barra, el rea es tambin directa-menteproporcional al nmero de observaciones en su clase, como era de esperar. Esta propie-dadde los histogramas es til puesto que es fcil comparar reas visualmente. Los histogra-masrepresentan un esquema visual de la distribucin de frecuencias de los nmeros en elconjunto de datos.Para los animales del grupo de control, la observacin menor es 88, la mayor es 128 y elrango es 40. La amplitud mnima necesaria de la clase, para dividir los datos en cinco clases,es 8. Obsrvese que, aunque ste ya es un nmero entero, lo aumentamos una unidad hasta 9para obtener la amplitud real de la clase. Esto se hace para explicar el hecho de que el lmiteinferior de la primera categora cae ligeramente por debajo del dato menor. En este caso, estelmite es 87.5. La Tabla 1.14 muestra la tabla de frecuencias para los animales de control, y laFigura 1.9, el histograma de frecuencias correspondiente. Obsrvese que el histograma paralos animales de control tiene una forma un tanto diferente al de los experimentales. Loshistogramas tambin se sitan en lugares distintos a lo largo del eje horizontal. Esto implicaque, de hecho, pueden existir algunas diferencias bsicas en el comportamiento de los dosgrupos de animales.La Figura 1.10 da la versin SAS del histograma mostrado en la Figura 1.8. Obsrveseque las barras en el SAS estn etiquetadas por el punto medio de la clase, en lugar de loslmites de clase. Por ejemplo, los lmites para la primera clase son 129.5 y 135.5. El puntomedio es (129.5 + 135.5)/2 = 132.5. El cdigo usado para hacer este histograma en el SASse halla en la seccin de Herramientas Computacionales al final de este captulo.Como se mencion en la Seccin 1.1, los recuentos de frecuencia son importantes, pero noexplican la verdadera naturaleza concerniente a la distribucin de una variable aleatoria. Parasituar la frecuencia en perspectiva, tambin registramos el recuento relativo al total que formala distribucin de frecuencias relativas de la variable. Cuando multiplicamos por 100 la fre-cuenciarelativa, obtenemos el porcentaje relativo. Las Tablas 1.15 y 1.16 resumen lo quesabemos hasta el momento en relacin con la distribucin del nmero de llamadas de lavariable aleatoria para los grupos experimental y de control, respectivamente.Tabla 1.13. Animales experimentales:distribucin de frecuenciasClase Lmites Frecuencia1129.5a135.522135.5a141.573141.5a147.5104147.5a153.585153.5a159.53 40. Mtodos descriptivos 25381072117.5 123.5 129.5 135.5 141.5 147.5 153.5 159.5Nmero de llamadas1086420Figura 1.8. Histograma de frecuencias (experimental).Tabla 1.14. Distribucin de frecuenciasde los animales de controlClase Lmites1 87.5 a 96.52 96.5 a 105.53 105.5 a 114.54 114.5 a 123.55 123.5 a 132.5Frecuencia35911287.5 96.5 105.5 114.5 123.5 132.5Nmero de llamadas121086420Figura 1.9. Histograma de frecuencias (control).Otro punto ms a tener en cuenta: el procedimiento aqu presentado para construir unhistograma funciona bien si los datos no presentan valores extremadamente alejados de lalnea general del resto de los datos. Por ejemplo, supngase que el conjunto de datos deanimales experimentales del Ejemplo 1.3.1 incluye el valor 201. Este nmero es mucho ma-yorque el resto de los datos. Esto tendr un gran impacto en los valores de cada rango; dehecho, el rango pasa de 26 a 71. Esto, a su vez, cambia la amplitud de la clase de 5.2 a 14.2.Qu efecto tiene esto en el histograma? Para apreciarlo, vase la Figura 1.11. Lo ms impor-tantea destacar es que, al expandir el ancho de cada clase, el grueso de los datos se concentraen dos clases muy grandes. Se pierde el sentido acerca de la distribucin de los datos. Esevidente que, cuando un conjunto de datos contiene valores inusuales, el procedimiento cita-doha de cambiarse. El Ejercicio 10 (de la Seccin 1.3) muestra dos posibles soluciones paraeste problema. 41. 26 Estadstica para Biologa y Ciencias de la SaludHISTOGRAMA DE FRECUENCIA: EXPERIMENTALFrecuencia***********************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************************132.5 138.5 144.5 150.5Punto medio de llamadas156.510987654321Figura 1.10. Versin SAS del histograma de los datos experimentales del Ejemplo 1.3.1. 42. Mtodos descriptivos 27Tabla 1.15. Animales experimentalesFrecuenciaClase Lmites Frecuencia relativa Porcentaje1129.5 a 135.520.06676.672135.5 a 141.570.233323.333141.5 a 147.5100.333333.334147.5 a 153.580.266726.675153.5 a 159.520.100010.00Tabla 1.16. Animales de controlClase Lmites FrecuenciaFrecuenciarelativa Porcentaje1234587.5 a 96.596.5 a 105.5105.5 a 114.5114.5 a 123.5123.5 a 132.53591120.10000.16670.30000.36670.066710.0016.6730.0036.676.67Distribuciones acumuladasAdems de las distribuciones de frecuencias, frecuencias relativas y porcentajes para lasclases, es interesante considerar las distribuciones de frecuencias acumuladas, frecuenciasrelativas acumuladas y porcentajes acumulados de las variables numricas. Como se vio en laexposicin acerca de datos discretos, los valores acumulados se obtenan sumando. As pues,la frecuencia acumulada de una clase es el nmero de observaciones incluidas en o por debajode la clase; la frecuencia relativa acumulada es la fraccin de observaciones incluidas en laclase o por debajo de ella, y el porcentaje acumulado es el porcentaje de observacionesincluidas en o por debajo de la clase. En las Tablas 1.17 y 1.18, se presentan estas frecuenciaspara los datos del Ejemplo 1.3.1.La Figura 1.12 muestra un histograma horizontal para los datos de animales experimenta-lesdados en el Ejemplo 1.3.1. Obsrvese que la figura tambin incluye informacin sobre lasfrecuencias, porcentajes, frecuencias acumuladas y porcentajes acumulados mostrados en laTabla 1.17.El Ejemplo 1.3.2 ilustra la distribucin de un conjunto de datos en el que stos no sonnmeros enteros.Ejemplo 1.3.2. Mucha gente manifiesta reacciones de alergia sistmica a las picaduras deinsectos. Estas reacciones varan de paciente a paciente, no slo en cuanto a gravedad, sinotambin en el tiempo transcurrido hasta que se inicia la reaccin. Los datos siguientes repre-sentaneste tiempo de inicio hasta la reaccin en 40 pacientes que experimentaron unareaccin sistmica a la picadura de abeja.(Datosen minutos.)10.511.29.915.011.412.711.411.66.27.93.810.511.78.412.59.113.412.35.911.413.614.711.511.510.912.78.311.28.89.816.510.99.17.412.910.18.110.48.69.9 43. 28 Estadstica pare Biologa y Ciencias de la SaludHISTOGRAMA DE FRECUENCIA: EXPERIMENTAL CON LA INCORPORACINDE VALORES DE DATOS ANORMALMENTE ELEVADOSFigura 1.11***************************************************************** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ********** ***** ********** ***** *****136.6 150.8 165.0 179.2 193.4Punto medio de llamadas181716151413121110987654321En la Tabla 1.11, vemos que es adecuado dividir estos datos en seis clases. La mayor observa-cines 16.5, la menor es 3.8 y el rango es 12.7. La amplitud mnima de la clase requerida paracubrir el rango es 12.7/6 = 2.12. Puesto que los datos estn registrados con precisin de undecimal, redondeamos 2.12 hasta 2.2 para obtener la amplitud efectiva de la clase. En la Tabla1.12 vemos que 1/2 unidad para datos con una cifra decimal e