Medidas descriptivas
Transcript of Medidas descriptivas
Estadística DescriptivaProf. Elisa Mendoza.
Prof. Elisa Mendoza
CONCEPTOS BÁSICOS DE ESTADÍSTICA Y RAMAS DE
LA ESTADÍSTICA
Prof. Elisa Mendoza
Breve Historia de la Estadística La Estadística como herramienta para el conteo y análisis de
datos, no es nueva, pues, la historia cuenta que desde los comienzos de la civilización se utilizaban representaciones gráficas y otros símbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el número de personas, animales o ciertas cosas. Los registros de datos se hacían sobre la producción agrícola, conteo de la población (hombres, mujeres y niños), y otros recursos que sirvieran a los gobernantes de los pueblos.
La Estadística se ha convertido en un método efectivo para analizar datos, por ejemplo, económicos, políticos, sociales, psicológicos, biológicos y físicos. Va más allá de sólo contar, pues contribuye con el proceso de interpretación de esa información y el análisis científico para la toma de decisiones.
Prof. Elisa Mendoza
Estadística La Estadística es considerada como
herramienta auxiliar del método científico y de todas las ciencias del saber para la toma de decisiones.
La Estadística como ciencia, desarrolla, métodos y técnicas para la recolección, organización, procesamiento, interpretación, análisis y toma de decisiones. Por tanto, esta ciencia, adquiere contexto en el campo que se aplique.
Prof. Elisa Mendoza
Metodología EstadísticaPlaneamiento, Recolección
de datos
Organización y
Presentación
Análisis de Datos
La clave de todo proceso en el desarrollo metodológico, es reconocer los propósitos de la investigación y los tipos de datos que se utilizan en el análisis.
Eta
pas d
e la
Met
odol
ogía
Prof. Elisa Mendoza
Algunos conceptos básicos Población: También llamado universo. Se
refiere a la colección completa de las mediciones u observaciones de interés.– Se define en cuanto a: Espacio, Tiempo y
Características. Muestra: Es una parte de la población. Parámetro: Estos se designan con letras
griegas. Es la estadística resultante del análisis de todos los datos de la población.
Estimación: Es la estadística resultante del análisis de la muestra.
Prof. Elisa Mendoza
Algunos conceptos básicos Estimador: Función matemática de los datos
muestrales. Censo: Estudio de todos los elementos de la
población. Muestreo: Técnica que permite la selección y
análisis de una parte de los elementos de la población.
Variable: Característica o propiedad de un objeto u elemento que puede tomar distintos valores de un elemento a otro. (Característica que varía de un elemento o sujeto a otro).
Prof. Elisa Mendoza
Relación de Conceptos
Población:
Todos los PeperoniElementos: Peperoni
Censo: Estudio de todos los Peperoni
Muestra:
Parte de la Población: Un pedazo de pizza de PeperoniElementos: Peperoni
Muestreo: Selección de la muestra
Prof. Elisa Mendoza
Estimación y Parámetros
¿?
CENSO: Estudio de todos los elementos de la
población
Las Estadísticas se denominan:
PARAMETROS
MUESTRA: Selección y Estudio de una parte de la
Población.Las Estadísticas resultantes
se denominan:
ESTIMACIONES
Prof. Elisa Mendoza
Parámetros y EstimadoresEstadístico
Parámetro (Estadística Censal)
Estimador y Estimación(Estadística Muestral)
Media
Varianza 2 s2
Desviación estándar
s
Proporción P
Total
El Estimador es la función matemática y la Estimación el resultado o valor.
Prof. Elisa Mendoza
RAMAS DE LA ESTADÍSTICA
Prof. Elisa Mendoza
Estadística
Es la ciencia encargada de recolectar, organizar y presentar los datos con el fin de obtener conclusiones para realizar inferencias acerca de la población estudiada.
Se clasifica en dos grandes áreas:– Estadística descriptiva– Estadística inferencial
Prof. Elisa Mendoza
Estadística descriptiva
RECOLECTA ORGANIZA PROCESA PRESENTA DESCRIBE
• Número• Cuadros• Gráficas
Prof. Elisa Mendoza
Estadística inferencial Obtiene conclusiones, a través de técnicas
basadas en probabilidades que sirven a la toma de decisiones, a partir de una muestra probabilística.
En el análisis inferencial, los datos son extraídos aleatoriamente de una muestra (o se realiza un censo), se obtiene un error de muestreo (o de variación) con el cual se calculan estimaciones puntuales o por intervalos.
Si la muestra extraída no es aleatoria, entonces no se pueden obtener dichas estimaciones, ya que no se puede calcular el error.
Prof. Elisa Mendoza
Algunos conceptos básicos Dato: es el producto del registro de una
respuesta, ya sea por observación o experimentación.
Medición: proceso de asignar números a objetos y eventos de acuerdo a ciertas reglas. (Ferrando, 2000).– Las clasificaciones de las categorías o
mediciones deben ser:• Exhaustivas• Mutuamente excluyentes.
Prof. Elisa Mendoza
Clasificación de datos y variables• Cuantitativos: Datos expresados numéricamente.
– Discretos: Son números Enteros, como resultado de un proceso de conteo. No se admiten fracciones o decimales, pues no tiene sentido.
• Ejemplo: Número de hijos, Número de ausencias en un mes, etc.
– Continua: Son números Reales, es decir, que pueden ser inclusive decimales y fracciones. Producto del proceso de medición.
• Ejemplo: Peso, Estatura, Temperatura, Velocidad, etc.
• Cualitativa: No numérica. Atributo. Ejemplo: Sexo
Nominal•También se denomina “categórica”
•El orden de las categorías se establece de forma alfabética, frecuencia o regional.
•No cuantifica la característica.
•Sus categorías son Nombres.
•Se puede obtener la Moda (Frecuencias Absolutas y Porcentajes)
Ordinal•También es una característica “categórica”.
•Sus nombres, no cuantifican, pero si expresan un orden.
•Se puede establecer relaciones de “Mayor que”, y “Menor que”.
•Se puede obtener la moda, mediana si las categorías se han expresado en números que indican niveles o escalas, por ejemplo de: calidad, percepción o satisfacción (1; Mucho, 2, Regular, …)
Intervalo•Es numérica o cuantitativa.•El cero es “Arbitrario”, no expresa ausencia de la características.
•Ejemplo, la Temperatura, donde, Cero grados Celsius, por ejemplo, no implica ausencia de la temperatura.
•Se puede establecer relaciones de diferencia entre las escalas.
•Se puede calcular la media, mediana, moda y las medidas de dispersión.
Razón•Es numérica o cuantitativa.•El cero es “un valor real”, su valor expresa ausencia de la característica.
•Ejemplo, un cero en salario mensual, significa que no hay salario mensual.
•Se pueden obtener todas las medidas estadísticas descriptivas.
•Es posible utilizar las estadísticas inferenciales.
E S C A L A S D E M E D I D A
Variables cualitativas Variables cuantitativas
Prof. Elisa Mendoza
ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS
Prof. Elisa Mendoza
Generalidades del Cuadro Estadístico
Su propósito es presentar información de manera clara y concisa. Un cuadro estadístico es la presentación de datos, en forma de tablas, ordenados sistemáticamente en columnas y/o filas.
El cuadro Estadístico tiene varias características importantes:
1. Número del cuadro2. Título3. Encabezado4. Columna Matriz5. Matriz de Datos6. Casillas7. Notas8. Llamadas9. Fuentes
Prof. Elisa Mendoza
Formato del Cuadro EstadísticoCuadro (Número (1) ). (Título (2))
Encabezado (3)
Columna Matriz
(4)
Matriz de Datos (5)
Casilla (6)
Notas (7)Llamadas (8)Fuente (9)
Los cuadros estadísticos no se cierran con líneas en los bordes izquierdo ni derecho.
Prof. Elisa Mendoza
Ejemplo. Cuadro Estadístico
2010.............................................. 5.121 715 4.453 822 1.091 3.3562011…………………………..… 5.551 671 4.744 785 1.114 3.3432012…………………….………………..……6.025 629 5.138 737 1.232 3.0742013…………………………………….. 6.068 635 5.158 747 1.208 3.1882014 (P)……………………………………..6.179 633 5.262 744 1.196 3.272
Enfermeras(os) Odontólogos(as)
Número Habitantes por médico(a) (1)
Número Habitantes por enfermera(o) (1)
Número Habitantes por odontólogo(a) (1)
Cuadro 431-02. MÉDICOS(AS), ENFERMERAS(OS) Y ODONTÓLOGOS(AS) EN LAS INSTALACIONES DE SALUD DE LA REPÚBLICA, SEGÚN AÑOS. Años 2010-14(P)
Años
Médicos(as)
Fuente: Contraloría General de la República.
Prof. Elisa Mendoza
Ejemplo. Cuadro Estadístico
2000.................................................................................484 362 122 149 114 35 44 26 182001.................................................................................473 360 113 148 112 36 56 41 152002.................................................................................473 338 135 141 114 27 54 34 202003.................................................................................424 315 109 111 86 25 54 34 202004.................................................................................444 328 116 129 96 33 47 31 162005.................................................................................447 338 109 133 98 35 42 29 132006.................................................................................471 354 117 140 102 38 46 29 172007.................................................................................460 337 123 147 102 45 38 31 72008.................................................................................473 370 103 140 109 31 46 40 62009.................................................................................491 374 117 164 127 37 34 24 102010..................................................………………………………………..533 404 129 129 103 26 22 14 82011...............................................................………………………………………..440 315 125 126 92 34 28 14 142012..........................................................................478 358 120 110 73 37 24 15 92013...............................................................………………………………………..515 371 144 105 71 34 36 23 132014...............................................................………………………………………..484 373 111 97 73 24 29 19 10
Mujeres
Cuadro 221-10. DEFUNCIONES POR ENFERMEDAD POR VIRUS DE LA INMUNODEFICIENCIA HUMANA (VIH) EN LA REPÚBLICA Y CIUDADES DE PANAMÁ Y COLÓN, POR SEXO:
AÑOS 2000-2014
Año
Defunciones por enfermedad por virus de la inmunodeficiencia humana (VIH)
República Ciudad de Panamá Ciudad de Colón
Total Hombres Mujeres Total Hombres Mujeres Total Hombres
Prof. Elisa Mendoza
Ejemplo. Cuadro Estadístico
Menos de 1................................................................3 2 1 1 1 - - - - 5 a 14....................................................................1 1 - 1 1 - - - - 15 a 24....................................................................43 34 9 3 2 1 1 - 1 25 a 34....................................................................136 107 29 21 17 4 12 9 3 35 a 44....................................................................120 88 32 23 16 7 6 3 3 45 a 54....................................................................109 86 23 31 22 9 5 4 1 55 a 64....................................................................48 36 12 11 10 1 3 1 2 65 a 74....................................................................18 13 5 5 3 2 1 1 - 75 a 84....................................................................4 4 - - - - 1 1 - No especificada.....................................................2 2 - 1 1 - - - -
NOTA: Se excluyen los grupos de edad 1 a 4 y de 85 y más, en el cual no se registró información por esta causa.(a) Cifras suministradas por la División de Epidemiología del Ministerio de Salud.
Total Hombres Mujeres Total Hombres Mujeres
Cuadro 221-10. DEFUNCIONES POR ENFERMEDAD POR VIRUS DE LA INMUNODEFICIENCIA HUMANA (VIH) EN LA REPÚBLICA Y CIUDADES DE PANAMÁ Y COLÓN, POR SEXO, SEGÚN EDAD:
AÑO 2014
Edad
Defunciones por enfermedad por virus de la inmunodeficiencia humana (VIH)
República Ciudad de Panamá Ciudad de Colón
Total Hombres Mujeres
Prof. Elisa Mendoza
Tablas de Frecuencias.(Datos Agrupados)
Tabla de Frecuencia es una forma esquemática de organizar y presentar lo datos.
Se presentan en columnas: Clases (Datos de la Variable segmentada en rangos), Frecuencias Absoluta (fi), Frecuencias Relativas (fr), y frecuencias acumuladas Fi y Fr, entre otras columnas que sirven para cálculos de medidas estadísticas.
Prof. Elisa Mendoza
Tablas de Frecuencias. Sin agrupación de datos en clases. Tipo II Se recomienda emplear este tipo de tablas
cuando, se dan dos situaciones:– Muchos datos (más de 30), y– Poca variabilidad de los datos. Los datos son muy
parecidos.Estos datos son típicos en poblaciones de estudio con características muy parecidas, o grupos específicos. Ejemplo, las edades de los niños atendidos en el programa de Estimulación temprana.
Prof. Elisa Mendoza
Elementos de una tabla de Frecuencias – Datos cuantitativos
Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE NIÑOS ATENDIDOS EN EL PROGRAMA DE ESTIMULACIÓN TEMPRANA
DE LA CSS. AÑO 2012-2013
Observaciones: Las tablas de frecuencias se componen de los valores de la variable de estudio (Edad, en este ejemplo), de las Frecuencias absolutas y de las Frecuencias Relativas. Se agregan las Acumuladas, para una mejor interpretación de los datos.
** LOS DATOS SON HIPOTÉTICOS.
Edad
Frecuencias Absolutas Frecuencias Relativas
Frecuencia absoluta (fi)
Frecuencia Acumulada (Fi)
Frecuencia Relativa (fr%)
Frecencia Relativa Acumulada (Fr%)
5 6 6 4,00 4,006 51 57 34,00 38,007 60 117 40,00 78,008 33 150 22,00 100,00
Total 150 100,00
Prof. Elisa Mendoza
Tablas de Frecuencias. Agrupación de datos en Clases. Tipo III
Se recomienda emplear este tipo de tablas cuando, se dan dos situaciones:– Muchos datos (más de 30), y– Mucha variabilidad de los datos, es
decir, muchos valores diferentes, e incluso la existencia de valores extremos.
Prof. Elisa Mendoza
Elementos de una tabla de Frecuencias – Datos cuantitativos
Tabla 1. DISTRIBUCIÓN DE FRECUENCIAS DE LA EDAD DE MUJERES EMBARAZADAS ATENDIDAS EN LA CSS.
AÑOS 2001-2012
Observaciones: Las tablas de frecuencias se componen de las Clases o Intervalos de agrupación de la variable de estudio (Edad, en este ejemplo), de las Frecuencias absolutas y de las Frecuencias Relativas. Se agregan las Acumuladas, para una mejor interpretación de los datos.
** LOS DATOS SON HIPOTÉTICOS.
Edad
Frecuencias Absolutas Frecuencias Relativas
Frecuencia absoluta (fi)
Frecuencia Acumulada (Fi)
Frecuencia Relativa (fr%)
Frecencia Relativa Acumulada (Fr%)
16 - 20 3 3 0,35 0,3521 - 25 79 82 9,32 9,6726 - 30 226 308 26,65 36,3231 - 35 293 601 34,55 70,8736 - 40 196 797 23,11 93,9941 - 45 51 848 6,01 100,00Total 848 100,00
Prof. Elisa Mendoza
Técnica de agrupación de los datos de la variable de análisis. Definir la cantidad de clases.Existen diversas técnicas para agrupar los datos. Se ilustrarán tres técnicas:1. Uso de la Fórmula de Sturges. Mayormente
empleada en el campo de la salud.
2. Uso de la Raíz de n (donde n, es el número de datos).3. Lo que disponga el investigador o con base a información teórica sobre la variable de análisis.
C
𝐶=√𝑁
Prof. Elisa Mendoza
Técnica de agrupación de los datos de la variable de análisis. Definir la Amplitud de clase
Para determinar la amplitud, se debe:1. Calcular el Rango:
R= Valor máximo – Valor mínimo
2. Calcular la amplitud, como:A= Rango / Clase
Prof. Elisa Mendoza
Ejemplo Los siguientes datos corresponden a los tiempos (en meses) de
duración de tratamientos dentales, registrados en una muestra 40 pacientes atendidos en la Clínica Odontológica de la UIP.
3 30 20 3114 11 25 1610 29 33 1725 23 13 3113 34 32 1328 35 31 1515 15 8 3630 29 20 2818 30 12 3
6 10 6 28
Paso 1. Identificar el valor mínimo y el Valor máximo para determinar el Rango=Vmax-Vmin: R=36-3=33Paso 2. Determinar el número de clases:C = 1+(3,322*log(n))C=1+(3,322*log(40))C=1+(3,322*1,60)C=1+5,32=6,32 7
Paso 3. Determinar la Amplitud. A = R/C = 33/7=4,71 5
Prof. Elisa Mendoza
Ejemplo
Tiempo de Tratamiento fi Fi fr% Fr%
3 7 4 4 10,0 10,08 12 5 9 12,5 22,5
13 17 9 18 22,5 45,018 22 3 21 7,5 52,523 27 3 24 7,5 60,028 32 12 36 30,0 90,033 37 4 40 10,0 100,0
Total 40 100,0
Clases de Ancho 5,Ej: 3,4,5,6,7
CantidadDe Clases:C=7
Frecuencias Absolutas Frecuencias Relativas
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS DE LOS TIEMPOS DE TRATAMIENTO DE PACIENTES
ATENDIDOS EN LA CLINICA DE ODONTOLOGÍA. AÑO 2014
A la tabla de frecuencias se le pueden agregar otros datos con propósitos de hacer cálculos y gráficas. Por ejemplo, Límites Reales y el Punto Medio de las clases.
Prof. Elisa Mendoza
Ejemplo. Agregando Límites Reales y Punto Medio Punto
Medio (Xi) fi Fi fr% Fr%
3 7 2,5 7,5 5 4 4 10,0 10,08 12 7,5 12,5 10 5 9 12,5 22,5
13 17 12,5 17,5 15 9 18 22,5 45,018 22 17,5 22,5 20 3 21 7,5 52,523 27 22,5 27,5 25 3 24 7,5 60,028 32 27,5 32,5 30 12 36 30,0 90,033 37 32,5 37,5 35 4 40 10,0 100,0
40 100,0Total
Tiempo de Tratamiento
Límites Reales (LRi, LRs)
Los límites reales y el punto medio, se obtienen a partir de las clases o intervalos de agrupación de la variable de estudio.Obsérvese que los límites reales coinciden el límite real superior de la primera clase con el límite real inferior de la siguiente. Así sucesivamente.El Punto medio es el punto central de la clase. Por ejemplo: 3, 4, 5, 6, 7.Este cálculo se obtiene, fácilmente, sumando los límites, luego dividiendo entre dos. Ejemplo: X= (3+7)/2 = 10/2 = 5
Prof. Elisa Mendoza
N° %Total 56 100.0
Femenino 37 66.1Masculino 19 33.9
PacientesSexo del Paciente
Tabla 2. PACIENTES ATENDIDOS EN LA CLÍNICA ODONTÓLOGICA DE LA UP,
SEGÚN SEXO. Abril de 2013
Las tablas de frecuencias para datos cualitativos, deben presentar las frecuencias absolutas (N°) y las frecuencias relativas (%). Las categorías llevan un orden: Alfabético, Lógico o Geográfico.Ta
bla
de F
recu
enci
a pa
ra D
atos
cua
litat
ivos
Prof. Elisa Mendoza
Práctica. No.1
1. El siguiente conjunto de datos muestra las calificaciones promedios en un rango de 80 puntos de 70 participantes en una prueba de habilidades para un puesto laboral.
2. Determine el Rango: Valor Máximo y Mínimo3. Determine el número de clases: C4. Determine la Amplitud: A5. Elabore la Tabla de Frecuencias
67.5 40 71.2 61.9 62.6 60.6 56.6 50.3 49.8 54.0
57.5 68.0 75.6 61.2 77.0 51.1 49.2 50.4 52.1 49.7
56.4 56.2 68.2 45.0 55.1 51.5 48.6 39.7 38.2 44.7
64.6 54.1 55.4 44.7 51.1 49.4 45.3 53.1 56.2 47.3
47.6 54.5 60.0 59.0 41.3 54.5 49.6 51.7 59.9 53.0
54.3 50.3 50.3 63.3 45.3 61.8 59.2 66.0 63.4 66.3
51.7 44.1 59.5 57.7 51.4 47.2 54.8 46.1 45.7 79.7
Prof. Elisa Mendoza
Práctica. No.1Construya la tabla de frecuencias. Use la fórmula de Sturges.
2. Los siguientes datos corresponden al IMC de estudiantes universitarios de la UIP, registrados en el año 2014.1. Determine el Rango: Valor Máximo y Mínimo2. Determine el número de clases: C3. Determine la Amplitud: A4. Elabore la Tabla de Frecuencias
21,1 27,9 22,821,1 20,3 18,424,2 22,0 29,820,4 21,2 20,121,0 19,1 21,920,3 28,3 24,020,4 19,9 24,319,4 25,5 18,920,0 18,2 23,127,4 23,3 20,425,8 25,9 22,0
Prof. Elisa Mendoza
Práctica. No.1Construya la tabla de frecuencias. Use la fórmula de Sturges.
3. En el estudio realizado a madres que llevan a sus niños a odontopediatría, se les preguntó sobre el número de hijos que tenían, los datos se registraron en la siguiente tabla. Con estos datos, elabore la Tabla de Frecuencias
3 2 1 22 1 1 31 1 2 21 1 2 31 2 1 13 1 1 33 1 3 11 1 1 33 1 1 11 1 3 13 1 1 31 2 3 1
Prof. Elisa Mendoza
Práctica. No.1Construya la tabla de frecuencias. Use la fórmula de Sturges.
4. Los siguientes datos son de tipo cualitativo. Con estos, organizar una tabla de frecuencias. Sólo debe incluir frecuencia absoluta y frecuencia relativa. No las acumuladas. Los datos corresponden a las respuestas de los estudiantes de la UIP 2014, que participaron en un estudio nutricional, en cuanto a su fruta favorita.
Aguacate guineo mango manzana naranja pera piñaAguacate guineo mango manzana naranja piña piñaAguacate guineo mango manzana naranja piña piñaAguacate guineo mango manzana naranja piña Sandíaguineo guineo manzana manzana naranja piña Sandíaguineo guineo manzana manzana papaya piña Sandíaguineo guineo manzana melón papaya piña Sandíaguineo guineo manzana melón pera piña Uvasguineo guineo manzana naranja pera piña Uvasguineo mango manzana naranja pera piña Uvas
Prof. Elisa Mendoza
Práctica. No.1Construya la tabla de frecuencias. Use la fórmula de Sturges.
5. Los siguientes datos son de tipo cualitativo. Con estos, organizar una tabla de frecuencias. Sólo debe incluir frecuencia absoluta y frecuencia relativa. No las acumuladas. Los datos corresponden a las respuestas de los estudiantes de la UIP 2014, con respeto a su tipo de sangre.
O + A + O +O + B - A +O + A + O +O - B + A +O + A + O +O + AB + O +A + O - A +O + AB - A -
MEDIDAS DE TENDENCIA CENTRAL: Datos sin agrupar
MEDIAMEDIANA
MODA
Prof. Elisa Mendoza
Medidas descriptivas Medidas de Tendencia central: el propósito es
determinar el mejor “dato” central que podría representar al conjunto de todos los datos o mediciones. Las más comunes son:– Media aritmética o promedio– Mediana– Moda
Valor central
Prof. Elisa Mendoza
Media Aritmética (promedio)Es la medida más comúnmente utilizada. Es denotada como:
“equis barra” y se define como la suma de todos los valores observados o medidos entre el número total de observaciones.
x
n
x
datosdetotaldatoslostodosdesumax
ni
ii
1
Prof. Elisa Mendoza
Ejemplo: (en distribución simple)Los siguientes datos son las puntuaciones obtenidas por 15 estudiantes del curso de Estadística:
La media es:
3110310
1036...302830
x
x
Edad30283033312530323536
Prof. Elisa Mendoza
Interpretación de la media
La edad promedio de las madres que llevaron sus niños a odontopediatría es de 30,2 años de edad.
min:25 media=31 max: 36
Esta es una representación gráfica unidimensional.
Prof. Elisa Mendoza
MODAEn un lenguaje común, la Moda es lo que más se observa. Lo más frecuente.
En términos de la estadística, “MODA” es el valor de la distribución de datos que más se repite (o con mayor frecuencia). La podemos denotar como: MoEn el ejemplo anterior, la moda es:
Mo = la Edad que más se repite = 30 años
En el conjunto de datos, se repite 3 veces, mientras que el resto de las edades una sola vez.
Prof. Elisa Mendoza
Interpretación de la modaLa edad de las madres más frecuente es de 30 años de edad.
min:25 media=31 max: 36
moda=30
Observación:
En una distribución de datos se pueden determinar dos modas, en ese caso la distribución será (bimodal), más de dos modas (polimodal), o ninguna moda (amodal), y el caso común o normal, una moda (unimodal).
Prof. Elisa Mendoza
Mediana
P = (n+1) / 2
La mediana es el valor central que divide la población en, exactamente, dos partes iguales (igual cantidad de datos por arriba y por debajo de ella) y la denotaremos por me. Para ubicar la mediana, se deben ordenar los datos, (ascendente o descendentemente). Luego se divide la cantidad de datos, para encontrar P (punto medio de todos los datos), así,
Si n es impar
Si n es par P = n/ 2
Me es exactamente el valor que corresponde a la posición P.
Donde P, es la posición central donde cae el valor de la mediana.
Me es el promedio de los dos valores Xp y Xp+1 2
1 pp XX
Me
Prof. Elisa Mendoza
Continuando con el ejemplo
Recordando que n, es el número total de datos, y
Dado que n=10 ( n, es un número par)
entoncesP= (10/2) y ((10/2)+1) P= 5 y 6
La Mediana, se ubica en los datos n° 5 y 6.
Me = (30+31)/2 = 30,5Obsérvese que en este ejemplo los datos estaban ya ordenados y quedan 5 (50%) datos por arriba de 30,5 y 5 (50%) por debajo del valor de la mediana.
No. (P) Edad (X)1 252 283 304 305 306 317 328 339 3510 36
Prof. Elisa Mendoza
Interpretación de la mediana
min:25 media=31 max: 36
moda=30
mediana= 30,5
El valor que divide al grupo en dos partes iguales, es la edad 30,5 años de edad. Esto quiere decir que, el 50% de las madres tienen edad inferior a 30,5 años, mientras que el otro 50% tienen edad superior a esta edad.
Prof. Elisa Mendoza
Principales Características de las medidas de tendencia central
La media puede emplearse como medida de resumen tanto para mediciones discretas como continuas. Pero en general no resulta adecuada para variables cualitativas (nominales u ordinales).
La mediana no es sensible al valor de cada medición. Puede utilizarse como medida de resumen en variables de escala ordinal, además de las numéricas (discretas o continuas).
La moda puede emplearse como medida de resumen para todo tipo de datos o tipo de medición.
Prof. Elisa Mendoza
Práctica No.2Obtenga la media, mediana y moda en los siguientes datos muestrales de pacientes atendidos en la sala de urgencias del hospital XYZ, en enero de 2016:
Hemoglobina (mg/dl) Edad
Niveles de glucosa en ayunas (mg/dl) N°Hijos
14,1 22 98 112,4 27 76 210,8 32 100 112,2 34 118 013,0 31 103 011,8 32 99 113,6 33 81 114,3 35 89 212,5 40 97 313,6 32 79 612,0 33 116 213,4 28 95 112,7 37 84 112,4 31 102 013,0 36 108 1
MEDIDAS DE DISPERSIÓN: Datos sin agrupar
RangoVarianza
Desviación estándarCoeficiente de Variación
Prof. Elisa Mendoza
Existen Distintas Medidas de Dispersión
Rango: Es la medida más simple. Es utilizada para calcular los intervalos de clase de una distribución de datos agrupados.
Rango= R = Valor Máximo – Valor Mínimo
Se calcula como la diferencia entre el valor máximo menos el valor mínimo del conjunto de datos (mediciones) y se denota por R.
Prof. Elisa Mendoza
VarianzaEs el promedio de las desviaciones estándar, respecto a la media, elevadas al cuadrado. Es un indicador que calcula la dispersión promedio del conjunto de datos respecto a la media. La varianza por sí sola es difícil interpretar, pero si se utiliza como un indicador comparativo de la misma variable puede decir mucho, así mismo si se relaciona con otros indicadores, es muy útil.
La varianza puede ser obtenida sobre datos poblacionales, y se designa por “sigma al cuadrado: 2”, a través de la fórmula siguiente: N
mediaxi
22 )(
Cuando la varianza se obtiene para una muestra se designa por “s al cuadrado”, a través de la fórmula siguiente: 1
)( 22
n
mediaxis
Cuando la varianza y la media son obtenidas sobre los datos de una población, se conocen como “parámetros”. Si la media y la varianza son obtenidas sobre los datos de una muestra, se conocen como “estimadores”.
Prof. Elisa Mendoza
Desviación EstándarLa Desviación Estándar es la raíz cuadrada de la varianza. Esta es una medida que simplifica el valor de la varianza.
2
Se denota por “sigma”, cuando es la desviación sobre los datos de la población; y por s cuando se refiere a la desviación estándar de la muestra.
2ss
Prof. Elisa Mendoza
Coeficiente de VariaciónEl coeficiente de variación, es un indicador en términos relativos (o porcentuales), que relaciona la desviación estándar con su media para determinar qué tanto por ciento están dispersos los datos alrededor de la media. Su interpretación es más fácil, ya que varía de cero a cien por ciento.
100*..xs
VC
Se dice que hay poca dispersión, si el coeficiente de variación es menor o igual al 15%, y la muestra es aceptable entre 15 y 30%.
MEDIDAS ESTADÍSTICAS
DATOS AGRUPADOS EN TABLAS DE FRECUENCIAS
Prof. Elisa Mendoza
Medidas de Tendencia Central. Datos Agrupados.
ni
ii
ni
i
f
fimix
1
1
)*(MEDIA:
Las siguientes fórmulas se aplican a datos agrupados, en tablas de frecuencias tipo I y tipo II.
Prof. Elisa Mendoza
Mediana y Moda.Datos Agrupados
Los cálculos de estas medidas (Mediana y Moda) en los datos agrupados son laboriosos, para efectos prácticos, en primera instancia hablaremos de:
Clase de la Mediana; y
Clase ModalClase de la Mediana: Corresponde a la clase que contiene el valor que divide la población (o muestra) en dos partes iguales: n/2. Para determinar esta clase, se requiere de la frecuencia acumulada.
Clase Modal: Corresponde a la clase con la mayor frecuencia.
Prof. Elisa Mendoza
Mediana y Moda en Datos Agrupados
MEDIANA= AfjLirmem
*
donde Lir es el Límite inferior de la clase de la mediana j es (n/2 – Frecuencia Acumulada anterior a la clase de la mediana) fm es es la frecuencia absoluta de la clase de la mediana. A es la amplitud del intervalo de clase.
MODA= ALirmo *21
1
Este símbolo (delta) representa las diferencias entre la frecuencia más alta y la anterior (delta 1) y la frecuencia más alta y la siguiente (delta 2).
Prof. Elisa Mendoza
Ejemplo: Datos agrupadosEn la realidad, generalmente los datos son presentados en tablas o cuadros estadísticos (es decir, agrupados).
Si no se cuenta con las bases de datos, las medidas de tendencia central se deben obtener de ellos por medio de las fórmulas de Medidas de Tendencia Central para Datos Agrupados.
Considere los siguientes datos sobre el tiempo de utilizar computadoras. La muestra estuvo conformada por 289 funcionarios de una institución en el país.
Clases fi Fi mi4-8 75 75 6
9-13 112 187 1114-18 70 257 1619-23 22 279 2124-28 9 288 2629-33 1 289 31Total 289
Tabla de distribución de frecuencias del tiempo (en años) de utilizar computadoras.
Prof. Elisa Mendoza
SoluciónCálculo de la Media para Datos
Agrupados
Primero se debe calcular el punto medio de cada intervalo de clase (mi):
Punto Medio (PM), también llamado Marca de Clase (mi)m1 = (4+8) / 2 = 12 / 2 = 6m2 = (9+13) / 2 = 22 / 2 = 11Se calculan los mi para las clases restantes de la misma forma.
Clases fi Fi mi4-8 75 75 6
9-13 112 187 1114-18 70 257 1619-23 22 279 2124-28 9 288 2629-33 1 289 31Total 289
Prof. Elisa Mendoza
Solución. Continuación
Recordando la Fórmula para la Media en datos agrupados:
ni
ii
ni
i
f
fimix
1
1
)*(
Clases fi Fi mi4-8 75 75 6
9-13 112 187 1114-18 70 257 1619-23 22 279 2124-28 9 288 2629-33 1 289 31Total 289
Prof. Elisa Mendoza
Solución. Continuación
... se debe calcular el producto de mi por fi.para luego sumar estos productos.
Clases fi Fi mi mi*fi4-8 75 75 6 450
9-13 112 187 11 123214-18 70 257 16 112019-23 22 279 21 46224-28 9 288 26 23429-33 1 289 31 31Total 289 3529
1221.12
2893529
)*(
1
1
x
f
fimix ni
ii
ni
i
La suma de los productos de mi*fi es 3529, la suma de fi es 289. Reemplazando los valores en la fórmula, se tiene que la media es 12 años. Es decir, en promedio los funcionarios tienen 12 años de utilizar las computadoras.
Prof. Elisa Mendoza
Solución. La mediana
La clase de la mediana, es el intervalo de clase que contiene a: n / 2.
Como n / 2 = Suma de fi / 2 =289/2 = 144.5
Entonces,clase de la mediana es:
9 a 13 años,
También se dice que la Mediana es: 11 años, ya que es la marca de clase o punto medio que representa a esta clase.
Clases fi Fi mi4-8 75 75 6
9-13 112 187 1114-18 70 257 1619-23 22 279 2124-28 9 288 2629-33 1 289 31Total 289
Aquí está el dato 144.5
Para saber en qué clase está la mediana, se ubica en la Fi (frecuencia acumulada) el n/2. Obsérvese que en la primera clase se tiene hasta el dato número 75, en la segunda clase, están los datos desde el 76 hasta el dato número 187, en la tercera clase están los datos desde el 188 hasta el 257, y así sucesivamente...
Prof. Elisa Mendoza
Solución. La moda La clase modal es la clase con
mayor frecuencia.
La clase modal es:
9 a 13 años,
También se dice que la moda es: 11 años, ya que es la marca de clase que representa a esta clase.
Entonces,Clases fi Fi mi4-8 75 75 6
9-13 112 187 1114-18 70 257 1619-23 22 279 2124-28 9 288 2629-33 1 289 31Total 289
Prof. Elisa Mendoza
InterpretaciónDe acuerdo a las medidas de tendencia central, los funcionarios que laboran en dicha institución cuentan con 12 años en promedio de utilizar computadoras.
El 50% de los funcionarios, tienen menos de 12 años, y el otro 50% estaba por encima de esta cantidad de años; es decir, el otro 50% de los funcionarios indicó tener más de 12 años de utilizar computadoras.
Con relación a la moda se puede decir que fue de 12 años, de acuerdo a los datos presentados.
Prof. Elisa Mendoza
Medidas de Variabilidad para datos agrupados
Varianza
1
**
1)(*
22
2
22
nn
fmifmi
S
nxmif
S
Las dos fórmulas se pueden utilizar para calcular la varianza de la muestra.
Prof. Elisa Mendoza
Ejemplo. Varianza y Desviación Estándar
17.27288
125.78261289289
)3529(50919
1
**
2
2
22
2
S
nn
fmifmi
S
Clases fi Fi mi mi*fi mi2*fi4-8 75 75 6 450 2700
9-13 112 187 11 1232 1355214-18 70 257 16 1120 1792019-23 22 279 21 462 970224-28 9 288 26 234 608429-33 1 289 31 31 961Total 289 3529 50919
Desviación Estándar 21.517.272 SS
Varianza
Prof. Elisa Mendoza
Coeficiente de VariaciónLos conceptos de medidas de variabilidad para datos simples y datos agrupados son los mismos.
El coeficiente de variación, se expresa como:
100*..xSVC
Para el ejemplo anterior, calcúlese el C.V. ¿Diga cuánto es?
Prof. Elisa Mendoza
Práctica No. 3. Calcular las medidas de variabilidad para los problemas de las prácticas 1 y 2
Prof. Elisa Mendoza
MEDIDAS NO CENTRALES Y MEDIDAS DE FORMA
Prof. Elisa Mendoza
Medidas no centrales Las estadísticas que se pueden obtener en el conjunto
de datos, además de las tradicionales, tendencia central y dispersión, pueden ser: Percentiles, y Cuartiles por ejemplo.
Los cuartiles, dividen el conjunto de datos en 4 partes iguales, cada uno con un 25% de los datos ordenados.
Los percentiles, dividen el conjunto de datos en 100 partes iguales, cada uno de 1% de los datos ordenados.
Otras medidas, son: quintiles (5 partes) y deciles (diez partes). Sus nombres corresponden con la cantidad en que se divide el conjunto de datos.
Prof. Elisa Mendoza
Medidas no centralesLas posiciones de los cuartiles, se obtienen así:Utilicemos los siguientes datos como ejemplo: n = 7
2, 4, 4, 6, 8, 9, 11 Q1 Q2 Q3
Cuartil 1, (Q1): K*(n/4); como k=1, entonces, la posición del cuartil 1 está en n/4=1.75; aproximadamente, en el dato número 2. Así el cuartel 1, es el valor 4. Cuartil 2, (Q2): K (*(n/4); como k=2, entonces, la posición del cuartil 2 está en 2*(7/4)=2*(1.75)=3.5; lo aproximamos al dato número 4. Así el cuartil 2, es el valor 6. Es importante, recordar que este cuartil, es conocido también como Mediana. Cuartil 3, (Q3): K (*(n/4); como k=3, entonces, la posición del cuartil 3 está en 3*(7/4)=3*(1.75)=5.25; lo aproximamos al dato número 6. Así el cuartil 3, es el valor 9.
Prof. Elisa Mendoza
Medidas no centralesCuando los datos son en cantidad, un número par: Se puede emplear el siguiente procedimiento:Datos: 8, 9, 9, 10, 11, 12, 13, 14 Q1 Q2 Q3
Cada uno de los cuarteles, promedia dos valores.La posición del Q1 es = 1*8/4 = 2, así se promedian el valor de la posición 2, con el valor de la posición siguiente. Así, Q1= (9+9)/2 = 9La posición del Q2 es = 2*8/4 = 4, así se promedian el valor de la posición 4, con el valor de la posición siguiente. Así, Q2= (10+11)/2 = 10.5La posición del Q3 es = 3*8/4 = 6, así se promedian el valor de la posición 6, con el valor de la posición siguiente. Así, Q3= (12+13)/2 = 12.5La diferencia entre, el tercer y primer cuartil, se denomina Rango intercuartílico.
Prof. Elisa Mendoza
Medidas no centrales en Datos Agrupados
En datos agrupados, la fórmula que se puede adaptar es la fórmula de la mediana, reemplazando el cálculo del n/2, por el percentil o cuartil, que se desea obtener.
Amplitudf
kn
Pkk
k
k
FLR *100 1
Donde: el cálculo del Percentil, se realiza en la clase del percentil. LRk corresponde al límite real inferior de la clase del percentil k. Fk-1, es la frecuencia acumulada antes de la clase del percentil k, y fk, es la frecuencia de la clase del percentil k.Amplitud o ancho del intervalo de la clase del percentil k.
Percentil: k
Prof. Elisa Mendoza
Medidas no centrales en Datos Agrupados
En datos agrupados, la fórmula que se puede adaptar es la fórmula de la mediana, reemplazando el cálculo del n/2, por el percentil o cuartil, que se desea obtener.
Amplitudf
kn
Ck
k
kk
FLR *4 1
Donde: el cálculo del Cuartil, se realiza en la clase del Cuartil. LRk corresponde al límite real inferior de la clase del percentil k. Fk-1, es la frecuencia acumulada antes de la clase del percentil k, y fk, es la frecuencia de la clase del percentil k.Amplitud o ancho del intervalo de la clase del percentil k.
Cuartil: k
Prof. Elisa Mendoza
Ejemplo. Percentil y Cuartil
..31814:..2
2,231289*)100/80()*)100/((.1
kPercentilelCalcularPasoClasetablalaenPosiciónUbicarPaso
nkPosiciónCalcularPaso
Clases fi Fi mi mi*fi mi2*fi4-8 75 75 6 450 2700
9-13 112 187 11 1232 1355214-18 70 257 16 1120 1792019-23 22 279 21 462 970224-28 9 288 26 234 608429-33 1 289 31 31 961Total 289 3529 50919
Cálculo del Percentil 80
Calcular el Percentil 80: k=80
7,1616,35,13
5*70
2,445,13
5*70
1872,2315,13
80
80
80
80
PP
P
P
El 80% de los datos son menores del valor 16,7. Por lo tanto, el 20% de los datos son superiores a este.
Prof. Elisa Mendoza
Ejemplo: Percentil y Ojiva de Frecuencias
3.5 8.5 13.5 18.5 23.5 28.5 33.50.0
20.0
40.0
60.0
80.0
100.0
120.0
Ojiva de Frecuencia de Datos
Límite Real Superior
Frec
uenc
ia A
cum
ulad
a %
En la Ojiva, se puede ubicar el Percentil 80 calculado.
16,7
Cálculo del P80, mediante la Ojiva.
Prof. Elisa Mendoza
Ejemplo. Percentil y Cuartil
.1.384:..2
25,72289*)4/1()*)4/((.1
kCuartilelCalcularPasoClasetablalaenPosiciónUbicarPaso
nkPosiciónCalcularPaso
Clases fi Fi mi mi*fi mi2*fi4-8 75 75 6 450 2700
9-13 112 187 11 1232 1355214-18 70 257 16 1120 1792019-23 22 279 21 462 970224-28 9 288 26 234 608429-33 1 289 31 31 961Total 289 3529 50919
Cálculo del Cuartil 1Cae en la Primera Clase, Antes de esta clase la Frecuencia Acumulada es 0. Por tanto, F=0
Calcular el Cuartil 3 = K=3
3,88,45,3
5*75
25,725,3
5*75
025,725,3
1
1
1
1
CC
C
C
El 25% de los datos son menores del valor 8,3. Es decir, cae aproximadamente en el Límite Real Superior de la clase. Por lo tanto, el 75% de los datos son superiores a este.
Prof. Elisa Mendoza
Gráfica de Caja y BigotesEs una gráfica que se elabora, por lo general, con los cuartiles del conjunto de datos.
Esta gráfica permite visualizar la dispersión de los datos. Utilizando las medidas de dispersión – Cuartiles y Rango (Valor Máximo y Mínimo).
Mínimo
Primer Cuartil ó Q1
Mediana ó Q2
Tercer Cuartil ó Q3
Máximo
Prof. Elisa Mendoza
Diagrama de Box & Whiskers
A
B C
D
Cuando se comparan grupos, el diagrama de cajas y bigotes son muy útiles para evidenciar distribución de datos y la mediana (cuadrito del centro en rojo).
Prof. Elisa Mendoza
Medidas de FormaLa distribución de los datos, se puede determinar por el grado de concentración y dispersión. La distribución en forma de campana es conocida como Distribución normal. La distribución de los datos se puede medir por medio del Sesgo y la Curtosis.
0 5 10 15 20
xFrec
uenc
ia d
e O
bser
vaci
ón f(x)
Regla Empírica68% de los datos, se agrupan entre -1 y 1 desviación estándar.95% de los datos, se agrupan entre -2 y 2 desviación estándar.99,7% de los datos, se agrupan entre -3 y 3 desviación estándar
Prof. Elisa Mendoza
SesgoUna distribución normal, tiene la mayor concentración de datos en los valores centrales y su media, moda y mediana son iguales. Cuando esto no ocurre, entonces se dice que la distribución está sesgada.
Cuando la Media es mayor que la mediana, el SESGO se da a la derecha por que se hace una cola larga hacia esa dirección.
Cuando la Media es menor que la Mediana, entonces el SESGO se da a la izquierda y la cola larga es en esa dirección.
Prof. Elisa Mendoza
Sesgo
Moda <Mediana < Media
Sesgo a la Derecha Sesgo a la izquierda
Moda>Mediana> Media
Distribución Normal (No Sesgo o Insesgada), Media = Mediana = Moda
estándardesviaciónmedianamediaAsimetríadeeCoeficient )(*3
< 0, entonces los datos están sesgado a la izquierda,
> 0, entonces los datos están sesgado a la derecha
= 0 están insesgados (distribuidos normalmente)
Prof. Elisa Mendoza
Curtosis
Si el valor de la Curtosis es:
< 0, Es Platicúrtica. Casi Uniforme en su recorrido con Frecuencias similares.
> 0, Es Leptocúrtica. Mucha Frecuencia en pocos datos.
= 0 están normalmente distribuidos.
La Curtosis, es un indicador del grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, se puede identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica).
3
*22
4
xx
xxnK
i
i
Prof. Elisa Mendoza
Curtosis
Fórmula que se utiliza en Excel, para el cálculo de la Curtosis.