Material Metodos Cuantitativos 2011 Marzo
-
Upload
eeretamalvs -
Category
Documents
-
view
294 -
download
8
Transcript of Material Metodos Cuantitativos 2011 Marzo
1
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 1
Solución a problemas de Programación lineal usando Excel
I) Problema: Maximizar la utilidad Una fábrica elabora dos productos A y B. Ambos requieren tiempo en dos máquinas. La primera máquina está disponible las 24 horas, mientras que la segunda tiene una disponibilidad de 16. Cada unidad del producto A requiere dos horas en cada máquina. Cada unidad del producto B requiere tres horas de tiempo en la primera máquina y una en la segunda. La utilidad incremental es de US$6 por unidad de A y US$7 por unidad de B. Suponga que el mercado limita a seis la cantidad de unidades del producto B que pueden venderse. Si el objetivo es maximizar la utilidad, ¿cuántas unidades del producto A y cuántas del producto B podrían elaborarse?
0X0,X
6 162X
2432X s.a 76
21
2
22
21
21
≥≥
≤≤+≤+
+=
XX
XXXMaxU
• EL PROBLEMA QUE RESUELVE EL COMPUTADOR. Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades.
Este caso se lleva a cabo mediante el uso de variables de holgura y excedente.
Regla: Cualquier restricción ≤ puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restricción ≥ se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo.
En nuestro problema,: la forma estándar con restricciones de igualdad del modelo es:
0H,0H, 0,0X0,X
6 H X 162X
2432X s.a 76
22121
32
222
121
21
≥≥≥≥≥
=+=++=++
+=
H
HXHX
XXMaxU
La formulación de este problema se presenta en una hoja de cálculo. Abrir el archivo planilla problema 1 PL de Excel. La parte superior de la figura muestra los números, mientras que la parte media muestra las fórmulas utilizadas en la hoja de cálculo. Los valores para las dos variables de decisión, número de unidades de los productos A y B, están en las celdas B2 y C2 respectivamente. Se da una solución que
2
muestra un programa de producción de una unidad de cada producto que claramente no es la óptima. Los coeficientes para la función objetivo están en las celdas B4 y C4, y la función objetivo se encuentra en la celda F4. Los coeficientes para las restricciones de tiempo de la máquina y del límite de mercado del producto B, están desde la celda B7 hasta la celda C9, y el uso total se halla en la columna D. Por ejemplo, la celda D7 contiene la cantidad total de tiempo de la máquina 1, utilizada para este plan de producción (5 horas). La capacidad ficticia o no utilizada se muestra en la columna G.
3
Un primer paso para resolver el problema es ingresar al programa Solver que se encuentra en el menú de herramientas de Excel. Es decir hacer clic en el encabezado Herramientas y luego en la opción Solver. En la pantalla aparecerá la caja de diálogo que se muestra en la figura. La celda objetivo es la que contiene la función objetivo; en este caso F4, que se agrega a la celda de la caja de diálogo digitando en ella o haciendo clic en la celda correspondiente de la hoja de cálculo. Puede maximizarse o minimizarse si se elige la categoría apropiada para marcar. Las celdas de cambio están en la terminología de Excel para las variable de decisión. Hacer clic en la celda de esa caja de diálogo y escribir B2:C2 o destacar las celdas de las variables de decisión en las hojas de cálculo. A continuación se agregan las restricciones. Al hacer clic en las casilla que dice Add...(Agregar) aparece la caja de diálogo Add Constraint (Agregar restricción). La primer restricción que se incorpora es la de que todas las variables de decisión deben ser mayores que cero. Es importante hacerlo, ya que de otro modo Solver, no asume valores no negativos. Digitar en las celdas B2:C2 o destacar las celdas de las variables de decisión en las hojas de cálculo, y seleccionar > = 0 Luego hacer clic en Add. Aparece ahora una segunda caja de diálogo, Add Constraint. En la casilla Cell Referente resaltar o digitar en las celdas D7:D9. Estas celdas contienen la cantidad total del tiempo usado de la máquina y la cantidad total del producto B, los factores que están restringidos. En la caja del lado derecho, resaltar o digitar las celdas F7:F9, estos son los valores al lado derecho que dan los valores de restricción. A continuación, hacer clic en el botón OK para indicar que se han ingresado todas las restricciones. Debe aparecer la caja de diálogo Parámetros de Solver como se muestra en la figura.
4
Sigue un paso final, decirle a Solver que éste es un problema de programación lineal. Para ello hay que hacer clic en Opciones. Activar botón de Asumir Modelo Lineal OK. Se regresa a la caja de diálogo Parámetros de Solver. Activar botón de Solver. (Resolver)
5
6
Microsoft Excel 9.0 Informe de respuestasHoja de cálculo: [Problema 1 de producción P Lineal version 3.xls]Hoja2Informe creado: 21/02/03 19:59:45
Celda objetivo (Máximo)Celda Nombre Valor original Valor final$F$4 Función objetivo Utilidad total 13 64
Celdas cambiantesCelda Nombre Valor original Valor final$B$2 Variables de decisión Producto A 1 6$C$2 Variables de decisión Producto B 1 4
RestriccionesCelda Nombre Valor de la celda fórmula Estado Divergencia$D$7 Tiempo máquina 1 (horas) 24 $D$7<=$F$7 Obligatorio 0$D$8 Tiempo máquina 2 (horas) 16 $D$8<=$F$8 Obligatorio 0$D$9 Límite de mercado del producto B 4 $D$9<=$F$9 Opcional 2$B$2 Variables de decisión Producto A 6 $B$2>=0 Opcional 6$C$2 Variables de decisión Producto B 4 $C$2>=0 Opcional 4
Microsoft Excel 9.0 Informe de sensibilidadHoja de cálculo: [Problema 1 de producción P Lineal version 3.xls]Hoja2Informe creado: 21/02/03 19:59:45
Celdas cambiantesValor Gradiente Coeficiente Aumento Aumento
Celda Nombre Igual reducido objetivo permisible permisible$B$2 Variables de decisión Producto A 6 0 6 8 1,333333333$C$2 Variables de decisión Producto B 4 0 7 2 4
RestriccionesValor Sombra Restricción Aumento Aumento
Celda Nombre Igual precio lado derecho permisible permisible$D$7 Tiempo máquina 1 (horas) 24 2 24 4 8$D$8 Tiempo máquina 2 (horas) 16 1 16 8 4$D$9 Límite de mercado del producto B 4 0 6 1E+30 2
7
II) Problema de los molinos (Minimizar costo) Una fábrica tiene dos molinos . Las variables de decisión son el número de horas por semana que cada uno opera. El primer molino puede operar un máximo de 40 horas y el segundo, un máximo de 60 horas por semana. Cada hora de operación del primer molino produce 3 toneladas de producto terminado; cada hora del segundo molino produce 4 toneladas de producto. La fábrica tiene compromisos con clientes para producir por lo menos 1,75 toneladas de producto terminado. La hora de operación del primer molino cuesta US$20000 y la del segundo, cuesta US$40000 por hora, la fábrica desea mantener los costos tan bajos como sea posible.Por razones de su política interna, la empresa debe operar, por lo menos, igual número de horas en el segundo molino que en el primero. Formular el problema y resolver La formulación de PL es: Sea X1=horas semanales en el primer molino X2= horas semanales en el segundo molino
d)negativida no de ones(restricci 0X0,X interna) política la de entos(requerimi 0X-
as)en tonelad cliente del entos(requerimi 17543Xmolino) del (máximo 60X molino) del (máximo 40X s.a
dólares) de (miles 4020
21
21
21
2
1
21
≥≥≥+≥+≤≤+=
XX
XXMinC
• EL PROBLEMA QUE RESUELVE EL COMPUTADOR. Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restricción ≤ puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restricción ≥ se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estándar con restricciones de igualdad del modelo es:
d)negativida no de ones(restricci 0S 0,S , 0H 0,H , 0X0,X 0X- 17543X 60X 40X s.a
dólares) de (miles 4020
212121
221
121
22
11
21
≥≥≥≥≥≥=−+
=−+=+=+
+=
SXSXHH
XXMinC
8
Molino 1 Molino 2Horas semanales 1 1
TotalCosto 20 40 60
Restricciones No utilizada ExcedenteHoras disponibles molino 1 1 1 <= 40 39Horas disponibles molino 1 1 1 <= 60 59Requerimientos del cliente (tone 3 4 7 >= 175 -168Política de requerimiento -1 1 0 >= 0 0
9
10
11
12
Microsoft Excel 9.0 Informe de respuestasHoja de cálculo: [Problema molinos.xls]Hoja2
Celda objetivo (Mínimo)Celda Nombre Valor original Valor final$F$4 Costo Total 60 1500
Celdas cambiantesCelda Nombre Valor original Valor final$B$2 Horas semanales Molino 1 1 25$C$2 Horas semanales Molino 2 1 25
RestriccionesCelda Nombre Valor de la celda fórmula Estado Divergencia$D$7 Horas disponibles molino 1 25 $D$7<=$F$7 Opcional 15$D$8 Horas disponibles molino 1 25 $D$8<=$F$8 Opcional 35$D$9 Requerimientos del cliente (toneladas) 175 $D$9>=$F$9 Obligatorio 0$D$10 Política de requerimiento 0 $D$10>=$F$10 Obligatorio 0$B$2 Horas semanales Molino 1 25 $B$2>=0 Opcional 25$C$2 Horas semanales Molino 2 25 $C$2>=0 Opcional 25
Microsoft Excel 9.0 Informe de sensibilidadHoja de cálculo: [Problema molinos.xls]Hoja2
Celdas cambiantesValor Gradiente Coeficiente Aumento Aumento
Celda Nombre Igual reducido objetivo permisible permisible$B$2 Horas semanales Molino 1 25 0 20 10 60$C$2 Horas semanales Molino 2 25 0 40 1E+30 13.33333333
RestriccionesValor Sombra Restricción Aumento Aumento
Celda Nombre Igual precio lado derecho permisible permisible$D$7 Horas disponibles molino 1 25 0 40 1E+30 15$D$8 Horas disponibles molino 1 25 0 60 1E+30 35$D$9 Requerimientos del cliente (toneladas) 175 8.571428571 175 105 175$D$10 Política de requerimiento 0 5.714285714 0 43.75 26.25
13
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 2 ANALISIS INICIAL DE DATOS
I. Documento introducción :Análisis Inicial de los datos1 Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).
Representaciones gráficas para el análisis de datos La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la incorporación de módulos específicamente diseñados para la inspección gráfica de los datos. El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q. Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de relación se podrá constatar si la nube de puntos es aleatoria y dispersa. (Mediante correlaciones bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos variables de escala es significativa). Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la mediana se aproxima al final de la caja. El tamaño de la caja
TP
1PT Análisis Estadístico Multivariable de Manuel Vivanco
14
dependerá de la distancia entre las observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categoría o variable. Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen definidos por una variable de definición distinta.
OtraNegraBlanca
Raza del encuestado
20
15
10
5
0
Núm
ero
de a
ños
de e
scol
ariz
ació
n
693
688
765
960
961
1.404
804
634
718
1.448
695
244
620
596
621
821
735
MujerHombre
Sexo del encue
Años de escolarización por raza agrupados por sexo
OtraNegraBlanca
Raza del encuestado
20
15
10
5
0
Núm
ero
de a
ños
de e
scol
ariz
ació
n
1.476
634
718
691
702
693
688
899
1.366
244
620
596 765
735
Años de escolarización por raza
15
Detección de variables con categorías mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las categorías de la variable un código numérico y luego con recodificar en distinta variable asignar correctamente los códigos.
Análisis de datos ausentes En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista debe ser consciente de que se enfrenta a una información que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas. Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación respecto al porcentaje de missing que produce dificultades en una muestra determinada. Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede generar distorsión en los resultados. La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta
16
97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos códigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un menú especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.
Detección de outliers Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atípicos. El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la población de la cual se extrae la muestra. Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del análisis. Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante, habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests estadísticos dados los problemas que presentan. La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional respecto del centro medio de las observaciones. Cuando se descubren errores Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirán de los análisis. Es importante mencionar que la función Valores Perdidos de SPSS puede realizar esta tarea.
17
Otras herramientas muy útiles para limpiar los datos Recodificar automáticamente:
El cuadro de diálogo Recodificación automática le permite convertir los valores numéricos y de cadena en valores enteros consecutivos. Si los códigos de la categoría no son secuenciales, las casillas vacías resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Además, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores.
• La nueva variable, o variables, creadas por la recodificación automática conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. • Los valores de cadena se recodifican por orden alfabético, con las mayúsculas antes que las minúsculas. • Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mínimo se recodificará como 11, y el valor 11 será un valor perdido para la nueva variable.
Recodificar en la misma variable /distinta variable
El cuadro de diálogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podría agrupar los salarios en categorías que sean rangos de salarios.
El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva.
Puede recodificar variables numéricas en variables de cadena y viceversa.
• Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numéricas y de cadena.
Una vez que se han limpiado los datos podemos pasar a la parte más interesante del proceso, el análisis de datos.
18
II. Análisis inicial de datos: Agua Potable2 Considere el archivo “archivo APotable (errores).sav” correspondiente a una muestra aleatoria de hogares de la región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Realice un análisis inicial de los datos.
Solución: Análisis inicial de datos
a) Realizar una tabla para verificar información ( para esto se debe tener la información original)
Analizar/Informes/resúmenes de casos. Limitar los casos a los primeros 15. Todas las variables.
Resúmenes de casosa
1 10807 13101 233,80 618086 5 SANTIAGO 74,54 49,92 4,992 15565 13101 207,40 348340 5 SANTIAGO 63,41 54,22 5,423 11416 13101 183,00 335000 5 SANTIAGO 54,24 61,59 6,164 11358 13101 198,80 389295 5 SANTIAGO 63,79 67,67 6,775 4626 13101 233,00 182600 5 SANTIAGO 85,99 85,42 8,546 11492 13101 199,00 481151 5 SANTIAGO 70,91 88,74 8,87
7 16134 13102 208,40 150750 5 INDEPENDENCIA 58,93 39,36 3,94
8 9456 13102 141,36 242961 3 INDEPENDENCIA 57,00 68,08 6,81
9 10964 13102 170,88 182970 4 INDEPENDENCIA 61,58 70,28 7,03
10 11461 13102 186,20 452108 5 INDEPENDENCIA 62,11 80,61 8,06
11 3352 13102 288,72 384921 6 INDEPENDENCIA 105,82 95,94 9,59
12 6357 13102 249,84 263990 9 INDEPENDENCIA 60,97 108,81 10,88
13 11788 13103 210,40 266167 5 CONCHALI 62,02 45,79 4,58
14 13035 13103 220,80 215000 5 CONCHALI 71,26 58,64 5,86
15 14675 13103 194,00 428000 5 CONCHALI 60,92 65,89 6,59
15 15 15 15 15 15 15 15 15
1234567
8
9
10
11
12
13
14
15
NTotal
Númerode caso
Identificadordel Hogar
Identificadorde la
comunadonde se
encuentra elhogar
Consumode AguaPotable
Ingresodel
Hogar
N° deHabitantesdel Hogar
Comunadonde seencuentrael hogar
m3 libres(no
construidos)
m3edificados
Longituddel
frentedel
terreno
Limitado a los primeros 15 casos.a.
ii) Realizar tablas de frecuencia para las variables nominales y ordinales que Ud desea analizar
2 Ejercicio elaborado por Sara Arancibia
19
Comuna donde se encuentra el hogar
20 5,2 5,2 5,28 2,1 2,1 7,36 1,6 1,6 8,8
17 4,4 4,4 13,24 1,0 1,0 14,3
16 4,2 4,2 18,46 1,6 1,6 20,0
17 4,4 4,4 24,49 2,3 2,3 26,86 1,6 1,6 28,33 ,8 ,8 29,1
10 2,6 2,6 31,71 ,3 ,3 31,9
17 4,4 4,4 36,412 3,1 3,1 39,513 3,4 3,4 42,911 2,9 2,9 45,7
6 1,6 1,6 47,31 ,3 ,3 47,5
23 6,0 6,0 53,55 1,3 1,3 54,8
15 3,9 3,9 58,7
1 ,3 ,3 59,016 4,2 4,2 63,1
8 2,1 2,1 65,222 5,7 5,7 70,915 3,9 3,9 74,814 3,6 3,6 78,412 3,1 3,1 81,618 4,7 4,7 86,213 3,4 3,4 89,6
7 1,8 1,8 91,48 2,1 2,1 93,56 1,6 1,6 95,1
19 4,9 4,9 100,0385 100,0 100,0
CERRILLOSCERRO NAVIACONCHALIEL BOSQUEESTACION CENTRALHUECHURABAINDEPENDENCIALA CISTERNALA FLORIDALA GRANJALA PINTANALA REINALas CONDESLAS CONDESLO BARNECHEALO ESPEJOLO PRADOMACULMaipuMAIPUÑUÑOAPEDRO AGUIRRECERDAPENALOLENPEÑALOLENPROVIDENCIAPUDAHUELQUILICURAQUINTA NORMALRECOLETARENCASAN JOAQUINSAN MIGUELSAN RAMONSANTIAGOVITACURATotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
De la tabla se observan dos errores con las comunas Maipú y las Condes. Este error se debe a que no se digitó con un código identificador. Es aconsejable asignar un código numérico. Para solucionar este problema se debe recodificar automáticamente y luego recodificar en la misma variable. Transformar/recodificación automática/ Variable: comuna Variable nueva : comurec
20
Añadir nuevo nombre Recodificar empezando por primer valor Aceptar Se crea una nueva variable comurec con código numérico. En utilidades variables se identifican los códigos de cada etiqueta correspondiendo 13 Las Condes 14 LAS CONDES 19 Maipu 20 MAIPU Transformar/recodificar /en la misma variable Considere la variable comurec Valores antiguos y nuevos Valor antiguo:13 Valor nuevo: 14 Añadir Valor antiguo:19 Valor nuevo: 20 Añadir Continuar aceptar Vuelva a realizar tablas de frecuencias de comurec
iii) Realizar tablas con valores extremos y diagramas de caja. Esto nos permitirá verificar si los casos los valores atípicos existen o han sido mal ingresados.
Comuna donde se encuentra el hogar
20 5,2 5,2 5,28 2,1 2,1 7,36 1,6 1,6 8,8
17 4,4 4,4 13,24 1,0 1,0 14,3
16 4,2 4,2 18,46 1,6 1,6 20,0
17 4,4 4,4 24,49 2,3 2,3 26,86 1,6 1,6 28,33 ,8 ,8 29,1
10 2,6 2,6 31,718 4,7 4,7 36,412 3,1 3,1 39,513 3,4 3,4 42,911 2,9 2,9 45,7
6 1,6 1,6 47,324 6,2 6,2 53,5
5 1,3 1,3 54,8
15 3,9 3,9 58,7
1 ,3 ,3 59,016 4,2 4,2 63,1
8 2,1 2,1 65,222 5,7 5,7 70,915 3,9 3,9 74,814 3,6 3,6 78,412 3,1 3,1 81,618 4,7 4,7 86,213 3,4 3,4 89,6
7 1,8 1,8 91,48 2,1 2,1 93,56 1,6 1,6 95,1
19 4,9 4,9 100,0385 100,0 100,0
CERRILLOSCERRO NAVIACONCHALIEL BOSQUEESTACION CENTRALHUECHURABAINDEPENDENCIALA CISTERNALA FLORIDALA GRANJALA PINTANALA REINALAS CONDESLO BARNECHEALO ESPEJOLO PRADOMACULMAIPUÑUÑOAPEDRO AGUIRRECERDAPENALOLENPEÑALOLENPROVIDENCIAPUDAHUELQUILICURAQUINTA NORMALRECOLETARENCASAN JOAQUINSAN MIGUELSAN RAMONSANTIAGOVITACURATotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
21
Valores extremos
378 901,60370 571,68385 560,64
46 513,48375 505,60238 125,04205 129,48330 129,76314 129,84290 135,52
1234512345
Mayores
Menores
Consumo deAgua Potable
Númerodel caso Valor
Valores extremos
207 114160040 1602365
146 1512608342 1126072372 1060366
72 18260104 20000210 22825
45 22825341 33044
1234512345
Mayores
Menores
Ingreso del Hoga
Númerodel caso Valor
Valores extremos
385 22370 12
46 11376 11378 11338 3332 3314 3303 3282 3a
1234512345
Mayores
Menores
N° de Habitantesdel Hogar
Númerodel caso Valor
En la tabla de valores extremos menores sólo sea.
22
Menu Analizar /Explorar/
Variables: Consumo agua potable, Ingreso del hogar, y No habitantes del hogar
Estadísticos/ Valores atípicos
Gráficos Diagrama de caja para cada una de las variables mencionadas.
Para cada variable se debería verificar si la información de los valores atípicos está bien registrada. Corregir en el caso que sea posible o filtrar los casos muy extremos para no sesgar los análisis.
iv) Cuando existen columnas (variables como identificador de otra variable) como el caso de la variable identificador de comuna y comurec, se debe verificar si se corresponden. Para esto puede ordenar id-comuna en forma ascendente y ver si se corresponde visualmente con la comurec. Otra forma es crear una variable de cadena donde concatene los dos codigos (correspondiente a id-comuna y comurec). Esto le permitirá ver en una tabla de frecuencia si las variables se corresponden. En el ejemplo hay dos códigos que se corresponden con 13107 lo cual acusa error. 13107 y 23 13107 y 24 Se debe corregir.
Sintaxis del procedimiento
STRING concat (A13). COMPUTE concat = CONCAT(STRING(id_comun,F11.0),STRING(comurec,F2.0)) . EXECUTE .
23
concat
6 1,6 1,6 1,66 1,6 1,6 3,16 1,6 1,6 4,74 1,0 1,0 5,7
12 3,1 3,1 8,88 2,1 2,1 10,91 ,3 ,3 11,2
16 4,2 4,2 15,312 3,1 3,1 18,48 2,1 2,1 20,55 1,3 1,3 21,8
10 2,6 2,6 24,46 1,6 1,6 26,0
17 4,4 4,4 30,49 2,3 2,3 32,7
14 3,6 3,6 36,45 1,3 1,3 37,73 ,8 ,8 38,48 2,1 2,1 40,57 1,8 1,8 42,3
19 4,9 4,9 47,317 4,4 4,4 51,715 3,9 3,9 55,613 3,4 3,4 59,016 4,2 4,2 63,120 5,2 5,2 68,324 6,2 6,2 74,514 3,6 3,6 78,211 2,9 2,9 81,022 5,7 5,7 86,818 4,7 4,7 91,418 4,7 4,7 96,115 3,9 3,9 100,0
385 100,0 100,0
1310134 13102 7 13103 3 13104 5 1310529 1310625 1310723 1310724 1310815 13109 2 1311021 1311112 1311218 13113 8 13114 9 1311531 1311610 1311711 1311833 1311932 1312035 13121 4 1312222 1312316 13124 6 13125 1 1312620 1312728 1312817 1312926 1313014 1313130 1313227Total
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
24
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 3 Estudio de Caso: Qué opinan los jóvenes3 En septiembre del 2009 se realizó una encuesta telefónica de opinión pública a jóvenes entre 18 y 29 años de las regiones V, VIII y RM con el fin de conocer la opinión sobre las cosas que hacen y piensan en la actualidad. Fuente (Feedback y UDP). Se diseñó un cuestionario con 51 preguntas que se puede ver en detalle en el anexo. El archivo de datos del que usted dispone se llama “caso Datos jóvenes 1.sav” que contiene 1000 filas (casos) y 277 columnas (variables) El objetivo del caso es explorar el archivo de datos y depurarlo, realizar distintos tipos de gráficos, aplicar distintas tablas que permitan obtener porcentajes y estadísticos descriptivos e interpretar los resultados. 1.- Explore las variables que a continuación se mencionan y defina correctamente según corresponda. Considere el archivo “caso Datos jóvenes 1.sav” Nombre de la variable Etiqueta Valores
REGION REGION5=V 8=VIII 13=RM
SEXO SEXO1=Hombre 2=Mujer
EDAD EDADModificar 18="188" 18="8" 29="299"
P02ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN
LOS REGISTROS ELECTORALES?
1= ESTÁ INSCRITO 2= NO ESTÁ INSCRITO 99=NS‐NR
P11_04
EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIÓN? ‐PORTALES DE INTERNET
DISTINTOS A LOS DIARIOS
99,00 = "NS‐NR"
NSE GRUPOS SOCIOECONÓMICOS (BASE ESOMAR)
1 = "ABC1" 2 = "C2" 3 = "C3" 4 = "D"
3 Caso elaborado por Sara Arancibia C
25
2.- Considere el archivo “caso Datos jóvenes 2.sav” (ya corregido de acuerdo a lo anterior) y realice los siguientes gráficos. 2-1) Realice un gráfico que muestre la frecuencia y porcentaje de encuestados por REGION 2-2) Realice un gráfico que muestre la frecuencia de jóvenes que están inscritos o no en los registros electorales agrupados por SEXO 2-3) Realice un gráfico que muestre la media de edad por sexo. 2-4) Realice un gráfico que permita visualizar la forma de la distribución de la edad de los encuestados. 2-5) Realice un gráfico que permita visualizar para la variable “Edad” los descriptivos; cuartiles, Rango intercuartil, valores atípicos y extremos. Luego repita el gráfico pero para Edad por REGION agrupados por SEXO y compare. 3) Realice las siguientes tablas: 3-1) Una tabla con los siguientes descriptivos para Edad: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. 3-2) Una tabla con los siguientes descriptivos tanto para hombres como para mujeres y por región: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos 3-4) Una tabla de frecuencia de SEXO segmentada por REGION 3-5) Una tabla que muestre número de observaciones por REGION y SEXO 3-6) Una tabla por región, identificando por folio los cinco valores mayores y cinco valores menores de la variable P11_04: EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIÓN? -PORTALES DE INTERNET DISTINTOS A LOS DIARIOS 3-7) Exportar todas las tablas anteriores del visor de resultados a Excel 4) Cálculo de porcentajes Nota Previa: Porcentajes: parecen inofensivos pero son peligrosos Los porcentajes se pueden prestar a confusiones y malentendidos, por lo que no estará de más revisar algunos ejemplos. Siempre se debe tener en cuenta respecto a qué se calcula el porcentaje. Veamos un ejemplo: un gel suele venderse en botellas de 750 cc y ahora, por el mismo precio, la botella es de 1000 cc. ¿Qué porcentaje de gel están regalando? Depende de sobre qué valor se calcule el porcentaje: sobre el contenido inicial se regala el 33%, y sobre el final, el 25%. También se debe distinguir entre porcentajes y puntos porcentuales. Así, si se dice que los beneficios de una empresa han pasado de un 2 a un 4% han aumentado 2 puntos porcentuales (pero no un 2%!) Igualmente se debe distinguir entre porcentajes basados en niveles y porcentajes basados en cambios de nivel. El siguiente ejemplo aclara esta cuestión. Un vendedor vendió el año pasado por valor de 10 millones de euros. Su objetivo para este año era aumentar su facturación en un 6%. El vendedor ha logrado vender sólo por valor de 10,3 millones. ¿Qué porcentaje de objetivo ha logrado?
26
Si el objetivo es el incremento, sólo consigue el 50 %, pero si se interpreta que el objetivo era vender 10,6 y ha vendido 10,3, ha logrado el 97,2%. Por último, también hay que tener cuidado cuando se realizan operaciones con porcentajes:
1. Si el precio de un producto se aumenta el 20 % y después disminuye también el 20 %, ¿cómo queda el precio final respecto al inicial? No se queda como estaba, disminuye un 4%. Si el precio inicial era X, el final será (X+0,2X)-0,2(X+0,2X)=X-0,04X.
2. Un producto está formado por 10 componentes y cada componente aumenta su coste un 2%, ¿cuánto aumenta el coste del producto? Aumenta un 2%. No importa que haya unos componentes muy caros y otros muy baratos. Si no lo ve claro haga las cuentas y se convencerá.
3. Si Juan gana un 1000% más que Pedro, gana 11 veces más (no 10). Si gana un 100% más gana el doble, si gana un 200% más, el triple, etc.
No es lo que parece: la paradoja de Simpson
Cuando se dan porcentajes globales comparando grupos que a su vez contienen varias partes, puede parecer que ocurre una cosa cuando en realidad está ocurriendo otra. Este fenómeno se conoce con el nombre de paradoja de Simpson. Veamos un ejemplo. Una gran compañía abre una nueva fábrica creando 250 puestos de trabajo en los departamentos de compras, montaje y almacén. En total se presentan 355 hombres y 325 mujeres, de los cuales son admitidos 190 hombre (el 53%) y 60 mujeres (el 18,5%). Se comprueba que el nivel de preparación de hombres y mujeres es similar entre los aspirantes a cada departamento. ¿Podemos asegurar que se ha discriminado a las mujeres? La respuesta es no. Los datos son los siguientes:
Departamento Plazas Hombres Mujeres Hombres Mujeres Hombres MujeresCompras 30 25 100 5 25 20 25Montaje 200 250 25 180 20 72 80Almacén 20 80 200 5 15 6,25 7,5Total 250 355 325 190 60 53,5 18,5
Aspirantes Admitidos % Admitidos
En realidad, en todos los departamentos la proporción de admitidos ha sido mayor entre las mujeres. La clave está en que al departamento que ofrece más plazas se han presentado muchos hombres y pocas mujeres, mientras que en los que ofrecen menos plazas ocurre lo contrario. Y una curiosidad para terminar este apartado de porcentajes: Analice la noticia obtenida desde un periódico “el 65% de los jóvenes de 10 a 17 años admite que accede a videojuegos para mayores de edad”. El texto de la noticia aclara de dónde sale el 65%: ¡del 50% de los chicos y del 15% de las chicas! (¿qué porcentaje hubiera dado si se tratara del 50 % de chicos y del 60% de las chicas?) Referencia: La certeza absoluta y otras ficciones de Pere Grima. 2010 RBA Coleccionables. Ejercicios 4-1) ¿Qué porcentaje respecto al total de la muestra representan los jóvenes que están inscritos en los registros electorales?. ¿ Qué porcentaje de los inscritos en los registros electorales son hombres?. ¿Qué porcentaje de las mujeres no están inscritas en los registros electorales? ¿Qué porcentaje respecto al total de la muestra representan los jóvenes que no están inscritos en los registros electorales y son mujeres?.
27
4-2) ¿Respecto al total de hombres qué porcentaje está inscrito en los registros electorales y pertenece al grupo socioeconómico ABC1?. ¿Respecto al total de hombres del grupo D, qué porcentaje no está inscrito en los registros electorales?. ¿Respecto al total de mujeres qué porcentaje no está inscrito en los registros electorales y pertenece al grupo socioeconómico C2?. ¿Respecto al total de mujeres que no están inscritas en los registros electorales , qué porcentaje pertenece al grupos C3?. SOLUCION En primer lugar para hacer más eficiente el análisis se recomienda crear un conjunto con sólo las variables que interesa analizar. Para esto ir a Utilidades/definir conjuntos de variables/ Nombre del conjunto: CONJUNTO 1/ variables FOLIO, REGION, SEXO, EDAD, P02, P11_04, NSE/Añadir conjunto/Cerrar. Luego para utilizar el conjunto ir a Utilidades/ Utilizar conjuntos de variables/ activar NEWVARIABLES y CONJUNTO 1/Aceptar. Ahora para explorar y depurar el archivo de datos es recomendable explorar las variables en Datos / Definir propiedades de variables /seleccionar las variables REGION, SEXO, EDAD, P02, P11_04, NSE/ se observa para cada variable la frecuencia, valores, etiquetas y otras propiedades. Se observa que se debe depurar cada variable excepto NSE Para depurar la variable REGION que está definida como cadena ir a Transformar/ Recodificación automáticamente/seleccionar la variable REGION / nuevo nombre regionrec/ menor valor/ aceptar GET FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=REGION /INTO regionrec /PRINT. REGION into regionrec (Región) Old Value New Value Value Label RM 1 RM V 2 V VIII 3 VIII Ahora la variable es numérica y cada región tiene un código asignado. Para cambiar el código ir a Transformar/ recodificar en la misma variable/valores antiguos y nuevos/ Valor antiguo: 1 asignar valor nuevo 13 Añadir Valor antiguo: 2 asignar valor nuevo 5 Añadir Valor antiguo: 3 asignar valor nuevo 8 Añadir
28
Ir a Datos/Definir propiedades de variables/regionrec/ poner etiquetas/ RM-V y VIII respectivamente/ Aceptar Para depurar la variable SEXO que está definida como cadena ir a Transformar/ Recodificación automática/seleccionar la variable SEXO/ nuevo nombre sexor/ menor valor/ aceptar Ir a Datos/Definir propiedades de variables/sexor/ cambiar etiquetas/ h por HOMBRE y m por MUJER/Aceptar GET FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=SEXO /INTO sexor /PRINT. SEXO into sexor (SEXO) Old Value New Value Value Label h 1 h m 2 m * Definir propiedades de variables. *sexor. VALUE LABELS sexor 1 'HOMBRE' 2 'MUJER'. EXECUTE. Para depurar la variable P02 que está definida como cadena y con etiquetas mal asignados ir a Transformar/ Recodificación automática/seleccionar la variable P02/ nuevo nombre P02r/ menor valor/ aceptar Ir a Transformar/ Recodificar en la misma variable/seleccionar la variable P02r/ valor antiguo 1 asigne valor nuevo 2 y al valor antiguo 3 asigne el valor nuevo 4. Esto depura los datos obteniendo una nueva tabla de frecuencia como sigue. Ir a Vista de variable y eliminar las etiquetas 1 y 3
AUTORECODE VARIABLES=P02 /INTO PO2r /PRINT. P02 into PO2r (ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN LOS REGISTROS
29
ELECTORALES?) Old Value New Value Value Label Está Inscrito 1 Está Inscrito ESTÁ INSCRITO 2 ESTÁ INSCRITO No está inscrito 3 No está inscrito NO ESTÄ INSCRITO 4 NO ESTÄ INSCRITO RECODE PO2r (1=2) (3=4). EXECUTE. FREQUENCIES VARIABLES=PO2r /ORDER=ANALYSIS. Para depurar la variable P11_04 Se observa en Datos/Definir propiedades de variables/ que hay tres valores fuera de rango. Para cambiarlos se debe ir a editor de datos y al odenar ascendentemente se selecciona el valor 8 y se cambia por 18, luego se ordena descendentemente y los valores 188 por 18 y 299 por 29. 2) Gráficos 2-1) Gráficos/Generador de gráficos/sectores/REGION
2-2) Gráficos /Generador de gráficos/Barras/ agrupados/P02/ SEXO
30
2-3) Gráficos/ Cuadros de diálogo antiguos/Barras / Simple/Resúmenes para grupos de casos/Definir/Las barras representan Mean(EDAD)/ Eje de categorías : SEXO
2-4) Gráficos /Generador de gráficos/Histograma/ EDAD
31
2-5) Gráficos/ Generador de gráficos/ Diagrama de cajas/ Seleccionar Simple/ Eje Y: EDAD
Gráficos/ Generador de gráficos/ Diagrama de cajas/seleccionar Agrupados/ Eje Y: EDAD/EjeX: REGION/ Agrupados por SEXO
32
3) Tablas 3-1) Analizar/estadísticos descriptivos/ Frecuencias/ Edad / Estadisticos; Media, Mediana, Minimo, máximo, DEsv Estándar, asimetría, curtosis
3-2) Analizar/Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis.
33
Nota Si además se quieren calcular los cuartiles se puede segmentar el archivo por SEXO y REGION y luego ir al menú de frecuencias y solicitar los descriptivos anteriores y los cuartiles. ( Ayuda Ir a Datos/Segmentar archivos/ Comparar los grupos/ Seleccionar las variables SEXO y REGION 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos Utilidades/Panel de control de SGR ( Sistema de gestión de resultados) Seleccionar Tablas/ OLAP Cubles / Layered Reports/ Nuevo conjunto de datos/: ArchivoOLAP y luego añadir/ Aceptar
34
Luego ir a Menú: Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. Aceptar Volver a Utilidades Utilidades/Panel de control de SGR ( Sistema de gestión de resultados) activar Terminar todo. Aceptar. Aparecerá el archivo
35
3-4) Datos/ Segmentar archivo/ Comparar los grupos/ variable de segmentación REGION /Aceptar Analizar/Estadísticos Descriptivos/frecuencias / SEXO/ activar la tabla de frecuencia
3-5) Sacar la segmentación: Datos/segmentar archivo/Restablecer Analizar/Estadísticos Descriptivos/ tablas de contingencia/ Casillas: Recuentos Observado
36
3-6) Previamente se debe verificar si en la variable P11_04 el valor 99 está definido como perdido. Analizar/ Explorar/ Lista de dependientes: P11_04/ Lista de Factores: Región/Etiquetar los casos mediante: Folio/ Estadísticos: valores atípicos (nota: Muestra los cinco valores mayores y menores y parecen como valores extremos pero en rigor no necesariamente son valores atípicos ni extremos)
37
3-7) Primero se debe limpiar el visor de resultados dejando exclusivamente lo que se quiere exportar. Luego ir a Archivo/ exportar resultados / seleccionar tipo Excel/ Examinar guardar en Escritorio / VISOR/ Aceptar. Abrir desde Escritorio los resultados exportados
4) Tablas 4-1) Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: Sexo/ Casillas: Porcentajes Filas, columnas y Total. El 20,7% de la muestra representan los jóvenes que están inscritos en los registros electorales. El 53,6% de los inscritos en los registros electorales son hombres. El 77,9% de las mujeres no están inscritas en los registros electorales El 39,1% de la muestra representan los jóvenes que no están inscritos en los registros electorales y son mujeres.
38
4-2) Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: NSE/ Capa: SEXO/Casillas: Porcentajes Filas, columnas y Total. Respecto al total de hombres el 3,2 % está inscrito en los registros electorales y pertenece al grupo socioeconómico ABC1. Respecto al total de hombres del grupo D, el 88% no está inscrito en los registros electorales. Respecto al total de mujeres el 12,4% no está inscrito en los registros electorales y pertenece al grupo socioeconómico C2. Respecto al total de mujeres que no están inscritas en los registros electorales, el 39,9% pertenece al grupos C3.
39
40
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 4
Estudio de Caso: Caracterización de países
Considere el archivo Mundo 95, que contiene variables con características de los países del Mundo en el año 1995. Usted debe realizar un informe donde compare los países en por lo menos los siguientes aspectos: Población, densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región, Religión mayoritaria y clima predominante.
Variable Etiqueta PAÍS País POBLAC Población x 1000 DENSIDAD Habitantes x Km2 URBANA Habitantes en ciudades (%) RELIG Religión mayoritaria ESPVIDAF Esperanza de vida Femenina ESPVIDAM Esperanza de vida Masculina ALFABET Alfabetización (%) INC_POB Aumento de población (% anual) MORTINF Mortalidad infantil (Muertes por 1000 nacimientos vivos) PIB_CAP Producto interno bruto per cápita REGIÓN Región Económica
1 = OCDE 2 = Europa Oriental 3 = Asia / Pacífico 4 = Africa 5 = Oriente Medio 6 = América Latina
CALORÍAS Ingesta diaria de calorías SIDA Casos de SIDA TASA_NAT Tasa de natalidad (por 1.000 habitantes) TASA_MOR Tasa de mortalidad (por 1.000 habitantes) TASASIDA Casos de SIDA por 100.000 habitantes LOG_PIB Log(10) de PIB_CAP LOGTSIDA Log(10) de TASASIDA NAC_DEF Tasa nacimentos/defunciones FERTILID Número promedio de hijos LOG_POB Log(10) de POBLAC CREGRANO --
41
ALFABMAS Hombres alfabetizados (%) ALFABFEM Mujeres alfabetizadas (%) CLIMA Clima predominante
1 = Desierto 2 = Arido / Desierto 3 = Arido 5 = Tropical 6 = Mediterráneo 7 = Marítimo 8 = Templado 9 = Artico / Templado 10 = Artico
Para su informe debe considerar por lo menos los siguientes puntos: a) Tres gráficos distintos con su interpretación. b) Tablas de frecuencia c) Tablas de contingencia d) Valores Outliers ( Valores extremos) e) Medidas de tendencia central f) Medidas de dispersión g) Cubos OLAP h) Puntuaciones z
Solución Caso Mundo 95 Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión Predominante y Clima Predominante de los países
La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La menor frecuencia se observa en Europa del este con 14 países de un total de 109 países. El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.
Region or economic group
21 19,3 19,314 12,8 12,817 15,6 15,619 17,4 17,417 15,6 15,621 19,3 19,3
109 100,0 100,0
OECDEast EuropePacific/AsiaAfricaMiddle EastLatn AmericaTotal
ValidFrequency Percent Valid Percent
42
Frecuencia y porcentaje de países
por Religión Predominante
10,00 / 9,2%
16,00 / 14,7%
8,00 / 7,3%
27,00 / 24,8%
41,00 / 37,6%
7,00 / 6,4%
Other
Protstnt
Orthodox
Muslim
Catholic
Buddhist
Se observa que 41 países que representan el 37,6% del total de países considerados son predominantemente de la Religión Católica y 27 países son predominantemente de la religión Musulmana representando el 24,8% del total de países considerados. (Nota: Graficar/sectores (pie)/ Resumen para grupos de casos/Nº de casos/Religión Predominante/ En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a mayores del 5%.) La tabla de frecuencia para Religión Predominante muestra complementariamente al gráfico anterior que las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal
Al cruzar las variables Región y Religión podemos observar en la tabla de contingencia que la Religión Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en todas las regiones excepto en la Región de Oriente donde la religión predominante es la
Predominant religion
4 3,7 3,77 6,4 6,5
41 37,6 38,01 ,9 ,91 ,9 ,9
27 24,8 25,08 7,3 7,4
16 14,7 14,82 1,8 1,91 ,9 ,9
108 99,1 100,01 ,9
109 100,0
AnimistBuddhistCatholicHinduJewishMuslimOrthodoxProtstntTaoistTribalTotal
Valid
MissingTotal
Frequency Percent Valid Percent
43
Musulmana con 15 países de un total de 17 países de la región
Predominant religion * Region or economic group Crosstabulation
Count
4 47 7
10 5 1 5 20 411 1
1 11 5 6 15 27
1 6 1 810 2 1 2 1 16
2 21 1
21 14 17 18 17 21 108
AnimistBuddhistCatholicHinduJewishMuslimOrthodoxProtstntTaoistTribal
Predominantreligion
Total
OECDEast
EuropePacific/
Asia AfricaMiddleEast
LatnAmerica
Region or economic group
Total
En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente respecto al total de datos válidos.
Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del gráfico correspondiente a la mediana de población por región económica que el 50% de los países de Asia / Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes
Predominant climate
7 6,4 6,55 4,6 4,76 5,5 5,65 4,6 4,7
32 29,4 29,910 9,2 9,34 3,7 3,7
34 31,2 31,84 3,7 3,7
107 98,2 100,02 1,8
109 100,0
desertarid / desertaridotrotropicalmediterraneanmaritimetemperatearctic / tempTotal
Valid
SystemMissingTotal
Frequency Percent Valid Percent
44
Mediana de Población por Región Económica
Region or economic group
Latn AmericaMiddle East
AfricaPacific/Asia
East EuropeOECD
Med
Pop
ulat
ion
in th
ousa
nds
70000
60000
50000
40000
30000
20000
10000
07900
55009100
59400
960010400
Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la Región Asia/Pacífico con un valor promedio de 802 habitantes por Km2, la que es considerablemente superior a la densidad promedio del resto de regiones las que oscilan entre 127 y 62 habitantes por km2 correspondiendo esta última a la región de África
Media de densidad por Región Económica
Region or economic group
Latn AmericaMiddle East
AfricaPacific/Asia
East EuropeOECD
Mea
n N
umbe
r of p
eopl
e / s
q. k
ilom
eter
1000
800
600
400
200
0 88127
62
802
77108
(Nota: Graficar/Barras/simples. Resumen para grupos de casos/N de casos/ Región Económica)
45
Media de porcentaje de población
que vive en ciudades
Reg
ion
or e
cono
mic
gro
up
OECD
East Europe
Pacific/Asia
Africa
Middle East
Latn America
Mean People living in cities (%)
80706050403020
61
66
29
45
62
75
En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor porcentaje promedio corresponde a la Región OECD con un 75% en promedio. Es considerable la diferencia con la Región de Africa donde el promedio de población urbana es del 29%, seguido de Asia/pacífico con un promedio del 45%. Podemos complementar la información anterior con Cubos Olap, los que muestran por grupos, los estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para la Región OECD y Africa , el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían los datos, en promedio respecto a la media. Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es sorprendente observar que existen países con una densidad de 2,3 habitantes por km2 y de 366 personas por km2. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de 263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de población urbana corresponde al 96% y el nor corresponde al 34%.
OLAP Cubes
Region or economic group: OECDPredominant climate: TotalPredominant religion: Total
21 21 2133085,10 107,981 74,7157148,25 107,936 14,89
263 2,3 34260800 366,0 96
10400,00 80,000 77,00
NMeanStd. DeviationMinimumMaximumMedian
Population in thousandsNumber of people
/ sq. kilometer People living in cities (%)
46
OLAP Cubes
Region or economic group: AfricaPredominant climate: TotalPredominant religion: Total
18 18 1818415,83 63,700 28,1724331,33 79,823 14,70
959 2,4 598100 311,0 47
8900,00 39,500 24,50
NMeanStd. DeviationMinimumMaximumMedian
Population in thousandsNumber of people
/ sq. kilometer People living in cities (%)
Al considerar el cubo correspondiente a la región de África se observa una media de población considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del 172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa un valor mínimo de densidad de 2,4 habitantes por km2, en oposición al máximo cuya densidad es de 311 habitantes por km2. Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores extremos (outliers) que muestra los cinco valores mayores y menores.
Extreme Values
Region or economic group: OECDNumber of people / sq. kilometer
70 Netherlands 366,0
11 Belgium 329,0101 UK 237,042 Germany 227,056 Italy 188,0
4 Australia 2,349 Iceland 2,521 Canada 2,874 Norway 11,0
71 NewZealand 13,0
1
234512345
Highest
Lowest
Case Number COUNTRY Value
Extreme Values
Region or economic group: AfricaNumber of people / sq. kilometer
85 Rwanda 311,018 Burundi 216,073 Nigeria 102,040 Gambia 86,0
103 Uganda 76,014 Botswana 2,439 Gabon 4,2
22 Cent.Afri.R 5,0
90 Somalia 10,0109 Zambia 11,0
12345123
45
Highest
Lowest
CaseNumber COUNTRY Value
Nota: Analizar /Explore/ variables /Factor Región económica/etiquetar por país/Estadísticos/ Outliers
Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres respectivamente. Es notable la diferencia con África donde se observa
47
que el promedio de esperanza de vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.
Media de las variables Esperanza de Vida
Femenina y Masculina por Región Económica
Región Económica
Latn AmericaMiddle East
AfricaPacific/Asia
East EuropeOECD
Med
ia
90
80
70
60
50
40
Media esper de Vida
Femenina
Masculina
6667
51
63
68
747272
54
67
76
80
(Nota: Graficar/Barras/agrupados. Resumen para variables individuales/Media de las variables Esperanza de vida fem y masculina/ eje de categorías Región Económica) La tabla siguiente identifica los países con mayor y menor esperanza de vida
Valores Extremos ( Outliers considerando todos los países)
94 Switzerland 8257 Japan 8238 France 8221 Canada 8156 Italy ,a
103 Uganda 431 Afghanistan 44
22 Cent. Afri.R 44109 Zambia 45
97 Tanzania 4555 Israel 7657 Japan 7626 Costa Rica 7649 Iceland 7647 Hong Kong ,b
103 Uganda 4197 Tanzania 4122 Cent. Afri.R 4185 Rwanda 4345 Haiti 43
12345123451234512345
Highest
Lowest
Highest
Lowest
Average femalelife expectancy
Average malelife expectancy
Case Number COUNTRY Value
Only a partial list of cases with the value 81 are shown in the table of upperextremes.
a.
Only a partial list of cases with the value 75 are shown in the table of upperextremes.
b.
El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que las mayores tasas corresponden a la región de Africa, las que indican que en promedio nacen 42 por cada 1000 habitantes y mueren en promedio 15 por cada 1000 habitantes. La menor tasa de natalidad en promedio corresponde a la Región del OECD
48
Tasa de natalidad y mortalidad
por región económica
Region or economic group
Latn AmericaMiddle East
AfricaPacific/Asia
East EuropeOECD
Mea
n
60
50
40
30
20
10
0
Death rate per 1000
people
Birth rate per 1000
people
76
15
9
111027
33
42
27
1313
Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por familia. El diagrama de caja muestra por Región Económica que las mayores tasas de fertilidad se concentran en la Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región confirma la información entregada por el diagrama de caja
211719161321N =
Diagrama de caja
Fertilidad por región económica
Region or economic group
Latn AmericaMiddle East
AfricaPacific/Asia
East EuropeOECD
Ferti
lity:
ave
rage
num
ber o
f kid
s
10
8
6
4
2
0
49
Descriptives
Fertility: average number of kids
1,746 1,889 3,383 6,081 4,724 3,3361,751 1,886 3,298 6,088 4,721 3,2801,800 1,840 3,065 6,290 4,000 3,080
6,150E-02 1,772E-02 3,226 1,285 2,356 1,115,248 ,133 1,796 1,134 1,535 1,056
1,3 1,7 1,4 3,8 2,8 1,82,1 2,2 6,9 8,2 6,7 5,9
,8 ,5 5,5 4,4 3,9 4,2,495 ,190 2,795 1,380 3,165 1,655
-,081 ,530 ,791 -,586 ,231 ,827-1,192 ,932 -,563 ,119 -1,812 ,332
Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
Statistic Statistic Statistic Statistic Statistic Statistic
OECD East Pacific/As Africa Middle LatnRegion or economic group
Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central y de dispersión para todas las variables consideradas en este apartado.
Descriptives
69,89 64,71 26,154 9,64 24,8271 3,558 77,9570,67 65,37 25,754 9,31 16,8072 3,475 79,7474,00 67,00 25,500 9,00 5,5512 3,065 87,50
115,241 88,926 154,112 18,400 2482,6 3,605 532,86210,74 9,43 12,414 4,29 49,8252 1,899 23,08
43 41 10,0 2 ,00 1,3 1882 76 53,0 24 326,75 8,2 10039 35 43,0 22 326,75 6,9 82
12,75 12,75 21,000 4,00 23,2434 3,170 36,75-1,048 -1,020 ,416 1,283 3,498 ,665 -,955
,054 ,171 -1,163 1,754 15,008 -,933 -,250
Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Averagefemale
life
Averagemalelife
Birthrate per
1000
Deathrate per
1000
Number of aidscases /
Fertility:averagenumber
Peoplewhoread
Si consideramos sólo los países de la Región OECD y Africa observamos cómo cambian las medidas de tendencia central y dispersión observando en todas las variables que los países de la Región de África están con índice muy por debajo de los de la Región OECD. Si queremos reconocer qué países en esas regiones tienen los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.
50
Descriptives
Region or economic group: OECD
80,10 73,71 12,952 9,63 29,1052 1,746 97,6780,11 73,74 12,944 9,65 23,6322 1,751 98,2280,00 74,00 13,000 10,00 15,8713 1,800 99,001,390 1,314 2,748 1,633 1131,049 6,150E-02 11,333
1,18 1,15 1,658 1,28 33,6311 ,248 3,3778 71 10,0 7 3,10 1,3 8582 76 16,0 12 157,94 2,1 100
4 5 6,0 5 154,84 ,8 152,00 1,50 2,000 2,00 24,2397 ,495 2,00
-,201 -,256 ,302 -,169 3,090 -,081 -3,027-,827 ,519 -,512 -,492 11,201 -1,192 10,370
Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Averagefemale
Averagemale life
Birth rateper 1000
Deathrate per
Numberof aids
Fertility:average
Peoplewho read
Nota; Analizar/ explore/esperanza de vida femenina y masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc/ Factor Región /etiquetar por país/ estadísticos-outliers. Al editar la gráfica se borra lo que no se quiere mostrar
Descriptives
Region or economic group: Africa
54,26 50,79 42,000 14,74 75,7491 6,081 47,2654,01 50,49 42,389 14,71 66,0056 6,088 47,2955,00 51,00 44,000 14,00 36,3077 6,290 50,00
63,649 52,731 41,111 25,538 7641,570 1,285 319,0947,98 7,26 6,412 5,05 87,4161 1,134 17,86
43 41 28,0 6 ,13 3,8 1870 66 49,0 24 326,75 8,2 7627 25 21,0 18 326,61 4,4 58
12,00 11,00 5,000 7,00 112,6254 1,380 34,00,425 ,352 -1,256 ,126 1,562 -,586 ,012
-,434 -,458 ,452 -,847 2,587 ,119 -,964
Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis
Statistic Statistic Statistic Statistic Statistic Statistic Statistic
Averagefemale
Averagemale life
Birth rateper 1000
Deathrate per
Numberof aids
Fertility:average
Peoplewho read
Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos consideramos las puntuaciones z, las que nos muestran que Chile en;
a) esperanza de vida femenina está sobre la media en 0,74 desviaciones estándares b) esperanza de vida masculina está sobre la media en 0,65 desviaciones estándares c) tasa de natalidad está bajo la media en 0,23 desviaciones estándares. d) tasa de mortalidad está bajo la media en 0,83 desviaciones estándares e) fertilidad ( promedio de hijos por familia) está bajo la media en 0,55 desviaciones
estándares f) tasa sida está bajo la media en 0,37 desviaciones estándares g) alfabetización ( % de personas que saben leer) está sobre la media en 0,64 desviaciones
estándares
51
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 5
Estudio de caso: Premio Colegios 4 Enunciado Suponga que usted es un asesor del Ministerio de Educación y debe preparar un informe en relación a los rendimientos de los estudiantes de enseñanza media del año 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qué colegios premiar con un estímulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medición de resultados de aprendizaje del Ministerio de Educación de Chile. Su propósito principal es construir al mejoramiento de la calidad y equidad de la educación, informando sobre el desempeño de los alumnos y alumnas en algunas áreas del curriculum nacional y relacionándolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalúan el logro de los Objetivos Fundamentales y Contenidos Mínimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a través de una prueba común que se aplica a nivel nacional, una vez al año, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicación de las pruebas se alternaron entre 4° Básico, 8° Básico y 2° Medio. Desde el 2006, las pruebas evalúan todos los años el nivel del 4° Básico y se alternan los niveles de 8° Básico y 2° Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2° Medio del 2006. Algunas de las variables de interés son: VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR Idest Identificador del establecimiento Región Nombre de la Región Comuna Nombre de la comuna ddca Dependencia CP: Corporación Privada
MC; Corporación Municipal MD; DAEM (Departamento de Administración de Educación Municipal) PP: Particular Pagado PS: Particular Subvencionado
ruralida Caracterización del establecimiento 1= Rural 2=Urbano
prom_len Promedio puntaje de lenguaje prom_mat Promedio puntaje de matemáticas
TP
4PCaso elaborado por Sara Arancibia
52
Después de múltiples reuniones con expertos en educación, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogéneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estará distinguiendo a los colegios que se destacan entre colegios con similares características. El premio se otorgará a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogéneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterización del establecimiento Rural y Urbano
Los grupos homogéneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano
Usted como asesor del Ministerio de Educación debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogéneos e identificar cuáles son los establecimientos premiados realizando distintas comparaciones por dependencia, caracterización y zona (Norte, Central y Sur). Además debe determinar si existen diferencias significativas para los puntajes promedios de la SIMCE por caracterización y por dependencia Para realizar su análisis deberá lograr los siguientes objetivos específicos desglosados en tareas elementales 1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías: Municipalizado, Privado y Subvencionado b) Crear la variable zona considerando Zona Norte, Centro y Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. e) Determinar para cada grupo el percentil 75. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio
mencionado 1=SI recibe premio y 0=NO recibe premio. 2. Realizar un análisis descriptivo de los datos a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia?. b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos?. c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales? d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados son Subvencionados? ¿Qué porcentaje de los premiados son de la zona
53
Norte,Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur?. e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo? f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar? g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo. i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE. SOLUCION:
1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías:
Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia “ddcia” de la base de datos viene con formato cadena o string. Recodificaremos automáticamente y luego llevaremos las cinco categorías sólo a tres categorías. Para esto ir al menú Transformar/ recodificación automática/ AUTORECODE VARIABLES=ddcia /INTO depend /PRINT. Old Value New Value Value Label CP 1 Corporación Privada MC 2 Corporación Municipal MD 3 DAEM PP 4 Particular Pagado PS 5 Particular Subencionado Para crear tres categorías juntaremos las categorías Corporación Municipal y DAEM en Municipalizado y las categorías Corporación Privada y Particular pagado en Privado Para esto ir al menú Transformar/Recodificar en distinta variable RECODE
54
depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE . En definición de la variable Asignar etiquetas de valor a los códigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur En primer lugar se observa que la variable Región viene en formato de cadena. Se recodificará automáticamente. AUTORECODE VARIABLES=region /INTO reg /PRINT En el visor de resultados se puede observar los códigos de cada categoría Old Value New Value Value Label Región de Aisén del General 1 Región de Aisén del General Carlos Ibañez del Campo 1 Carlos Ibañez del Campo Región de Antofagasta 2 Región de Antofagasta Región de Atacama 3 Región de Atacama Región de Coquimbo 4 Región de Coquimbo Región de la Araucanía 5 Región de la Araucanía Región de Los Lagos 6 Región de Los Lagos Región de Magallanes y de la 7 Región de Magallanes y de la Antártica Chilena 7 Antártica Chilena Región de Tarapacá 8 Región de Tarapacá Región de Valparaíso 9 Región de Valparaíso Región del Biobío 10 Región del Biobío Región del Libertador General 11 Región del Libertador General Bernardo O' Higgins 11 Bernardo O' Higgins Región del Maule 12 Región del Maule Región Metropolitana 13 Región Metropolitana Para crear las categorías de zona se recodificará en distintas variables RECODE reg (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definición de variables 1= Norte 2= Centro
55
3= Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numérico. Para crear la variable puntprom seleccione Transformar/Calcular Variable destino: puntprom Tipo: numérico Etiqueta: Promedio de Matemáticas y Lenguaje Expresión: MEAN(prom_len,prom_mat) Sintaxis de puntprom COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemáticas’. EXECUTE . d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. Para crear la variable de grupo primero recodificaremos automáticamente la variables ruralida a código numérico con nombre caract Donde caract=1 Rural caract=2 Urbano Sintaxis AUTORECODE VARIABLES=ruralida /INTO caract /PRINT. Ahora formamos los seis grupos según criterio dado Creación de la variable grupo *** Sintaxis Grupo ***. IF (dependencia = 1 & caract = 1) grupo = 1 . IF (dependencia = 1 & caract = 2) grupo = 2 . IF (dependencia = 2 & caract = 1) grupo = 3 . IF (dependencia = 2 & caract = 2) grupo = 4 . IF (dependencia = 3 & caract = 1) grupo = 5 . IF (dependencia = 3 & caract = 2) grupo = 6 . EXECUTE . Luego en la definición de variables en valores se define:
1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural
56
6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el cálculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Analizar/Frecuencias [Estadísticos]: Percentil 75 Sintaxis SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS . No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio
mencionado 1=SI recibe premio y 0=NO recibe premio. Se consideró el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO) *** Sintaxis Premio ***. IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . VARIABLE LABELS premio 'premio (SI=1, NO=0)' .
Estadísticos
puntaje promedio entre lenguaje y matemáticas68
0225,6250
5870
246,000019
0322,0000
3880
324,000086
0246,3750
11710
286,0000
VálidosPerdidos
N
75PercentilesVálidosPerdidos
N
75PercentilesVálidosPerdidos
N
75PercentilesVálidosPerdidos
N
75PercentilesVálidosPerdidos
N
75PercentilesVálidosPerdidos
N
75Percentiles
Municipalizado y Rural
Municipalizado y Urbano
Privado y Rural
Privado y Urbano
Subvencionado y Rural
Subvencionado y Urbano
57
EXECUTE .
En definición de variables se agrega la etiqueta de valor 1=SI 0=NO 2. Realizar un análisis descriptivo de los datos a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia? Se debe realizar una tabla de frecuencias de la variable caract, dependencia y grupo. Analizar/ frecuencias. Sintaxis del procedimiento: FREQUENCIES VARIABLES=dependencia tipo grupo /ORDER= ANALYSIS .
Caracterización del establecimiento
173 7,5 7,5 7,52146 92,5 92,5 100,02319 100,0 100,0
RuralUrbanoTotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
Tipo de dependencia
655 28,2 28,2 28,2407 17,6 17,6 45,8
1257 54,2 54,2 100,02319 100,0 100,0
MunicipalizadoPrivadoSubvencionadoTotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
grupo
68 2,9 2,9 2,9587 25,3 25,3 28,2
19 ,8 ,8 29,1388 16,7 16,7 45,8
86 3,7 3,7 49,51171 50,5 50,5 100,02319 100,0 100,0
Municipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
De la tabla de frecuencia, se observa que existen 2146 colegios de tipo urbano y 173 colegios de tipo Rural representando el 92,5% y 7,5 % respectivamente sobre el total de colegios considerados en la base de datos. Por otra parte de la tabla de frecuencia de dependencia se tiene que la mayor frecuencia se presenta en los establecimientos subvencionados representando el 54,2% del total y la menor frecuencia en los establecimientos Privados representando el 17,6% del total.
58
Respecto a los grupos homogéneos el de mayor frecuencia es el grupo de Subvencionado y Urbano representando aproximadamente la mitad de los colegios considerados en estudio, le sigue el grupo de Municipalizados y Urbanos representando un cuarto de los colegios en estudio. b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos? Para responder esta pregunta se debe crear rangos de puntajes en base al puntaje de Matemáticas. Transformar/Recodificar/en distinta variable Ingresar la variable prom_mat y definir variable nueva rangmat (notar que la variable prom_mat es una variable de números enteros) Sintaxis del procedimiento: RECODE prom_mat (Lowest thru 250=1) (251 thru 300=2) (301 thru Highest=3) INTO rangmat. VARIABLE LABELS rangmat 'rangos de puntajes en matematicas'. EXECUTE . . En la ventana de definición de variables considerar la variable rangmat y en valores definir cada rango como: 1 =Hasta 250 2 = 251-300 3= superior a 300
Luego realizar una tabla de frecuencias de la variable rangmat
rangos de puntajes en matematicas
1169 50,4 50,4 50,4658 28,4 28,4 78,8492 21,2 21,2 100,0
2319 100,0 100,0
Hasta 250251-300Superior a 300Total
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
En la tabla de frecuencia se puede apreciar la cantidad de colegios por rangos de puntajes en matemáticas Se puede observar que aproximadamente la mitad de los colegios en estudio obtuvieron un puntaje promedio en matemáticas menor o igual a 250 puntos. Un poco más de la quinta parte de los colegios obtiene un puntaje superior a 300 puntos. c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales? En primer lugar se debe crear dos rangos para la variable prom_len; Hasta 300 puntos y Superior a 300 puntos. Transformar/Recodificar/en distinta variable
59
Ingresar la variable prom_len y definir variable nueva rangleng (notar que la variable prom_len es una variable de números enteros) Sintaxis del procedimiento RECODE prom_len (Lowest thru 300=1) (301 thru Highest=2) INTO rangleng . VARIABLE LABELS rangleng 'rangos de puntajes en lenguaje'. EXECUTE . En la ventana de definición de variables considerar la variable rangleng y en valores definir cada rango como: 1 =Hasta 300 2 = superior a 300
Luego realizar una tabla de frecuencias de la variable rangleng
De la tabla de frecuencias se puede observar que el 13,8% de los colegios obtuvieron un puntaje superior a 300 puntos.
rangos de puntajes en lenguaje
1999 86,2 86,2 86,2320 13,8 13,8 100,0
2319 100,0 100,0
Hasta 300Superior a 300Total
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
Para responder cuántos de estos colegios son Municipalizados y Urbanos, se puede seleccionar a rangleng igual a 2 que corresponde a los puntajes superiores a 300 puntos y luego pedir una tabla de contingencia para las variables dependencia y tipo. Datos/Seleccionar casos Sintaxis del procedimiento USE ALL. COMPUTE filter_$=(rangleng = 2). VARIABLE LABEL filter_$ 'rangleng = 2 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
CROSSTABS /TABLES=dependencia BY caract /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .
60
Tabla de contingencia Tipo de dependencia * Caracterización delestablecimiento
Recuento
0 10 107 193 2002 108 1109 311 320
MunicipalizadoPrivadoSubvencionado
Tipo dedependencia
Total
Rural Urbano
Caracterización delestablecimiento
Total
Se ha considerado los puntajes superiores a 300 puntos
De la tabla de contingencia se puede apreciar que de los colegios con puntajes superiores a 300 puntos, sólo 10 corresponden a Municipalizado y Urbano y ninguno a Municipalizado y Rural Otra forma de responder a esta pregunta podría ser solicitando una tabla de contingencia para dependencia y tipo con una capa dada por la variable rangleng (para esto seleccionar todos los casos) Sintaxis del procedimiento CROSSTABS /TABLES=dependencia BY tipo BY rangleng /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .
Tabla de contingencia Tipo de dependencia * Caracterización del establecimiento * rangosde puntajes en lenguaje
Recuento
68 577 64512 195 20784 1063 1147
164 1835 19990 10 107 193 2002 108 1109 311 320
MunicipalizadoPrivadoSubvencionado
Tipo dedependencia
TotalMunicipalizadoPrivadoSubvencionado
Tipo dedependencia
Total
rangos de puntajesen lenguajeHasta 300
Superior a 300
Rural Urbano
Caracterización delestablecimiento
Total
De esta forma se obtiene el mismo resultado. Si se quiere mostrar una tabla focalizada a la respuesta, se puede pivotar editando la tabla y moviendo al pivote de rangos de puntajes al extremo superior izquierdo. De esta forma se puede obtener la siguiente tabla.
61
Tabla de contingencia Tipo de dependencia * Caracterización delestablecimiento * rangos de puntajes en lenguaje
Recuentorangos de puntajes en lenguaje: Superior a 300
0 10 107 193 2002 108 1109 311 320
MunicipalizadoPrivadoSubvencionado
Tipo dedependencia
Total
Rural Urbano
Caracterización delestablecimiento
Total
d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados son Subvencionados? ¿Qué porcentaje de los premiados son de la zona Norte, Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur? Para responder a estas preguntas se puede considerar tablas de frecuencia y de contingencia. En primer lugar solicitaremos una tabla de frecuencia de premio
premio (SI=1, NO=0)
1730 74,6 74,6 74,6589 25,4 25,4 100,0
2319 100,0 100,0
NOSITotal
VálidosFrecuencia Porcentaje
Porcentajeválido
Porcentajeacumulado
De la tabla de frecuencias se obtiene que el 25,4% del total de colegios resulta premiado. Para saber qué porcentaje de los colegios Municipalizados resultaron premiados, y qué porcentaje de los colegios premiados son Subvencionados podemos realizar una tabla de contingencia de la variable dependencia versus premio solicitando el porcentaje fila y columna. CROSSTABS /TABLES=dependencia BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
De la tabla se observa que de los colegios Municipalizados el 25, 3% resultaron premiados y que del total de premiados el 54% corresponde a Subvencionados
62
Tabla de contingencia Tipo de dependencia * premio (SI=1, NO=0)
489 166 655
74,7% 25,3% 100,0%
28,3% 28,2% 28,2%
302 105 407
74,2% 25,8% 100,0%
17,5% 17,8% 17,6%
939 318 1257
74,7% 25,3% 100,0%
54,3% 54,0% 54,2%
1730 589 2319
74,6% 25,4% 100,0%
100,0% 100,0% 100,0%
Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)
Municipalizado
Privado
Subvencionado
Tipo dedependencia
Total
NO SIpremio (SI=1, NO=0)
Total
De la misma forma para saber los porcentajes en relación a la zona podemos realizar una tabla de contingencia de zona versus premio solicitando los porcentajes fila, columna y total CROSSTABS /TABLES=zona BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
63
Tabla de contingencia zona * premio (SI=1, NO=0)
209 72 28174,4% 25,6% 100,0%
12,1% 12,2% 12,1%
9,0% 3,1% 12,1%1076 341 1417
75,9% 24,1% 100,0%
62,2% 57,9% 61,1%
46,4% 14,7% 61,1%445 176 621
71,7% 28,3% 100,0%
25,7% 29,9% 26,8%
19,2% 7,6% 26,8%1730 589 2319
74,6% 25,4% 100,0%
100,0% 100,0% 100,0%
74,6% 25,4% 100,0%
Recuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del total
Norte
Centro
Sur
zona
Total
NO SIpremio (SI=1, NO=0)
Total
Se obtiene que de los colegios premiados el 12,2% corresponde a la zona Norte, el 57,9% corresponde a la zona Centro y el 29,9% corresponde a la zona Sur. Ahora respecto a los colegios de la zona Centro el 24,1% resulta premiado y respecto al total de colegios el 7,6% son premiados y de la zona Sur.
e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo? En forma análoga a la pregunta anterior se puede resolver con una tabla de contingencia de premio versus tipo y premio versus grupo Sintaxis del procedimiento CROSSTABS /TABLES=tipo grupo BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .
Tabla de contingencia Caracterización del establecimiento * premio (SI=1, NO=0)
131 42 173
75,7% 24,3% 100,0%
7,6% 7,1% 7,5%
5,6% 1,8% 7,5%1599 547 2146
74,5% 25,5% 100,0%
92,4% 92,9% 92,5%
69,0% 23,6% 92,5%1730 589 2319
74,6% 25,4% 100,0%
100,0% 100,0% 100,0%
74,6% 25,4% 100,0%
Recuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del totalRecuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del totalRecuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del total
Rural
Urbano
Caracterización delestablecimiento
Total
NO SIpremio (SI=1, NO=0)
Total
64
De la tabla se obtiene que de los colegios premiados, el 92,9% son urbanos y del total de colegios rurales el 24,3 % son premiados De la tabla de contingencia de grupo versus premio se puede ver que el criterio utilizado para premiar a los mejores colegios según su rendimiento SIMCE otorgó casi equitativamente el 25% de colegios premiados por grupo.
Tabla de contingencia grupo * premio (SI=1, NO=0)
51 17 6875,0% 25,0% 100,0%
2,9% 2,9% 2,9%
2,2% ,7% 2,9%438 149 587
74,6% 25,4% 100,0%
25,3% 25,3% 25,3%
18,9% 6,4% 25,3%15 4 19
78,9% 21,1% 100,0%
,9% ,7% ,8%
,6% ,2% ,8%287 101 388
74,0% 26,0% 100,0%
16,6% 17,1% 16,7%
12,4% 4,4% 16,7%65 21 86
75,6% 24,4% 100,0%
3,8% 3,6% 3,7%
2,8% ,9% 3,7%874 297 1171
74,6% 25,4% 100,0%
50,5% 50,4% 50,5%
37,7% 12,8% 50,5%1730 589 2319
74,6% 25,4% 100,0%
100,0% 100,0% 100,0%
74,6% 25,4% 100,0%
Recuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del total
Municipalizado y Rural
Municipalizado y Urbano
Privado y Rural
Privado y Urbano
Subvencionado y Rural
Subvencionado y Urbano
grupo
Total
NO SIpremio (SI=1, NO=0)
Total
f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana? Realice un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar? Para responder a la pregunta se puede solicitar en explorar una tabla de valores extremos de puntaje promedio por tipo, identificando por zona, y en gráficos pedir el histograma y diagrama de cajas.
65
EXAMINE VARIABLES=puntprom BY caract /ID= zona /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Valores extremos
Mayores
2011 Centro 351,502016 Centro 334,502010 Centro 330,502015 Centro 324,502012 Sur 322,00a
2090 Centro 357,502052 Centro 352,502170 Centro 352,502203 Centro 350,502093 Centro 348,50
1234512345
Caracterización delestablecimientoRural
Urbano
puntaje promedio entrelenguaje y matemáticas
Númerodel caso zona Valor
En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casoscon el valor 322,00.
a.
De esta forma se obtiene que los colegios de mayor puntaje promedio tanto en los colegios de tipo rural como de tipo urbano se encuentran en la zona Centro, excepto el colegio con el quinto mejor puntaje de tipo rural que recae en la zona Sur (aunque existen otros puntajes con 322 puntos en promedio) En los histogramas se puede observar la forma de la distribución de los puntajes promedios para los colegios de tipo rural y los de tipo rrbano En el histograma correspondiente a los colegios de tipo rural se puede apreciar una asimetría positiva con puntajes mas sesgados hacia puntajes bajos y con varios colegios con puntajes en el extremo superior ( casos extremos y atípicos). Claramente no es una distribución simétrica, y además algo levantada denotando que es leptocurtica, por tanto no se asemeja a una distribución normal.
360,00330,00300,00270,00240,00210,00180,00
puntaje promedio entre lenguaje y matemáticas
40
30
20
10
0
Frec
uenc
ia
Mean = 229,6272Std. Dev. = 32,69127N = 173
para tipo= Rural
Histograma
66
En cambio la distribución de los puntajes de los colegios de tipo urbano se observa bastante simétrica sin puntajes claramente extremos y/o atípicos, pero no es clara la forma de una curva normal.
350,00325,00300,00275,00250,00225,00200,00175,00
puntaje promedio entre lenguaje y matemáticas
120
100
80
60
40
20
0
Frec
uenc
ia
Mean = 259,9103Std. Dev. = 39,09525N = 2.146
para tipo= Urbano
Histograma
UrbanoRural
Caracterización del establecimiento
350,00
300,00
250,00
200,00
punt
aje
prom
edio
ent
re le
ngua
je y
mat
emát
icas
Centro
SurCentro
Centro
Centro
Diagrama de caja para puntaje promedio por tipo de colegio Rural y Urbano
El diagrama de cajas por tipo rural y urbano nos muestra claramente las diferencias en ambas distribuciones. Se observa que la mediana de puntajes de los colegios rurales (línea horizontal negra) está cerca de los 220 puntos lo que indica que la mitad de este tipo de colegios tiene un puntaje promedio inferior o igual al valor de la mediana que en este caso es 221 puntos. Se observan varios valores atípicos y un valor extremo en la parte superior de puntajes. Los puntajes de los colegios
67
rurales en general están más abajo que si comparamos con los puntajes de colegios urbanos. Se observa que la mediana de los colegios urbanos está sobre los 250 puntos. Específicamente la mediana es 255 puntos lo que indica que el 50% de los colegios urbanos tienen puntajes inferiores o iguales a 255 puntos. No se observan valores extremos ni atípicos. g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano Para realizar esta gráfica se selecciona Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE . Del gráfico se observa que tanto para lenguaje como para matemáticas los colegios privados tiene mejores resultados observándose sin embargo diferencias en casi 15 puntos a favor del promedio de matemáticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemáticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje.
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
200
100
0
Med
ia
256,9
306,1
226,6
259,5
291,3
235,5
prom_matprom_len
Media de puntajes de lenguaje y matemáticas por dependencia
68
Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un gráfico de barras agrupados seleccionando resúmenes para grupos de casos GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract Se observa una clara diferencia entre los grupos con caracterización rural y urbana, notándose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relación a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterización de Rural y Urbano es conveniente hacer un gráfico en dos paneles. Para esto vamos a gráficos de barras agrupados y seleccionar resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE .
300
250
200
150
100
50
Med
ia p
rom
_len
261,4
292,2
237,1 234
272,9
221,3
Caracesta
Media de puntajes promedios en lenguaje por dependencia agrupcaracterización Rural y Urbano
69
El gráfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios más altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes más bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo. Interprete los estadísticos para el grupo de municipalizados y rurales. Para responder a esta pregunta hay varios posibles procedimientos. Una forma posible es realizar un cubo OLAP para la variable puntprom con variable de agrupación grupo. Analizar/ Reporte/ Cubo OLAP Sintaxis del procedimiento
OLAP CUBES puntprom BY grupo /CELLS=COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT /TITLE='OLAP Cubes'.
Urbano
Rural
Caracterización del establecim
iento
SubvencionadoPrivadoMunicipalizado
Tipo de dependencia
300
200
100
0
Med
ia
300
200
100
0
Med
ia
224,7
286,8
210,6234
272,9221,3
259,3307
228,5261,4
292,2237,1
prom_matprom_len
Media de puntajes de lenguaje y matemáticas por dependencia para colegiosurbanos y rurales
70
Para dejar la forma de la tabla siguiente se puede editar el cubo, mover el pivote de grupo, al lado superior derecho, el pivote de estadísticos, al lado inferior izquierdo y el pivote variable al lado superior izquierdo.
• Una segunda forma de lograr esta tabla de forma inmediata es utilizando el menú Medias. Analizar/ Comparar medias/ medias Sintaxis del procedimiento MEANS TABLES=puntprom BY grupo /CELLS COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT Para dejar la misma forma de la tabla anterior se puede transponer filas y columnas desde el menú Pivotar una vez editada la tabla. Una tercera forma sería segmentar el archivo previamente por la variable grupo y luego pedir en el menú frecuencias los estadísticos solicitados. Sintaxis procedimiento 3 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEW KURT /ORDER= ANALYSIS .
Informe
puntaje promedio entre lenguaje y matemáticas
68 215,9265 215,7500 181,00 257,00 15,49103 ,216 -,111 2,9%587 232,8169 228,0000 185,00 348,00 27,32073 1,156 1,845 25,3%
19 279,8947 277,5000 213,00 351,50 43,41933 ,129 -1,616 ,8%388 299,6224 311,0000 187,50 357,50 34,06601 -,892 ,017 16,7%
86 229,3547 225,2500 181,00 322,00 29,31110 ,971 1,015 3,7%1171 260,3335 260,0000 179,00 337,00 33,95561 ,026 -,856 50,5%2319 257,6511 252,0000 179,00 357,50 39,45891 ,320 -,920 100,0%
grupoMunicipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal
N Media Mediana Mínimo Máximo Desv. típ. Asimetría Curtosis% del
total de N
Estadísticos descriptivos para el puntaje promedio entre matemáticas y lenguaje de la prueba SIMCE por grupo
puntaje promedio entre lenguaje y matemáticas
68 215,9265 215,7500 181,00 257,00 15,49103 ,216 -,111 2,9%587 232,8169 228,0000 185,00 348,00 27,32073 1,156 1,845 25,3%
19 279,8947 277,5000 213,00 351,50 43,41933 ,129 -1,616 ,8%388 299,6224 311,0000 187,50 357,50 34,06601 -,892 ,017 16,7%
86 229,3547 225,2500 181,00 322,00 29,31110 ,971 1,015 3,7%1171 260,3335 260,0000 179,00 337,00 33,95561 ,026 -,856 50,5%2319 257,6511 252,0000 179,00 357,50 39,45891 ,320 -,920 100,0%
grupoMunicipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal
N Media Mediana Mínimo Máximo Desv. típ. Asimetría Curtosis% del
total de N
71
De la tabla de estadísticos realizada en el punto anterior se puede observar que en promedio los puntajes de los colegios del grupo de municipalizados y rurales alcanzan un valor de 215,92 puntos, con una variabilidad relativamente baja de 15,49 puntos, es decir los puntajes se desvían en promedio respecto a la media en 15,49 puntos, calculado en base a 68 colegios, los que representan un 2,9% del total de colegios considerados en el estudio. Se observa que la mediana está cercana a la media de los datos (característica de distribuciones cercanas a distribuciones simétricas), e indica que el 50% de los colegios obtiene un puntaje menor o igual a 215,75 puntos, con puntajes que oscilan entre 181 puntos y 257 puntos, puntajes muy bajos si se compara con los demás grupos de colegios. Se observa la curtosis negativa y muy cercana a cero, esto significa que la curva es muy similar a la normal en cuanto a que se asemeja mucho a una curva mesocurtica (característica de la curva normal). La asimetría es positiva muy cercana a cero por tanto se asemeja bastante a una curva simétrica. En síntesis se puede apreciar una distribución con un buen ajuste a una normal. Esto se puede apreciar en el histograma correspondiente. (Para verificar el ajuste a una normal se puede ver el estadístico de Kolmogorov- Smirnov). i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE
260,00240,00220,00200,00180,00
puntaje promedio entre lenguaje y matemáticas
25
20
15
10
5
0
Frec
uenc
ia
Mean = 215,9265Std. Dev. = 15,49103N = 68
para grupo= Municipalizado y Rural
Histograma
72
/NOTOTAL. Del gráfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes más bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogéneos en cuanto al resultado promedio SIMCE, mostrando sólo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayoría de los colegios concentrados en puntajes bajos es el único grupo que presenta varios colegios con puntajes atípicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes más bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la gráfica. USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Es claro que la posición de cada grupo en general se mantiene en relación a la gráfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados,
Subvencionadoy Urbano
Subvencionadoy Rural
Privado yUrbano
Privado y RuralMunicipalizadoy Urbano
Municipalizadoy Rural
grupo
350,00
300,00
250,00
200,00
punt
aje
prom
edio
ent
re le
ngua
je y
mat
emát
icas
2.211
711
776
2.0042.006
2.0092.007
514
19
2.008
Diagramas de cajas para los puntajes promedios SIMCE por grupo de colegios
73
observándose muy concentrados, bastante homogéneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atípicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa mas notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos. Si consideramos la base de datos como si fuera la población de colegios que rinde la SIMCE, podríamos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE considerando todos los colegios en estudio. Para comparar dispersión o variabilidad entre distribuciones diferentes se calcula el coeficiente de variación que se calcula en base a la desviación estándar y la media. Indica la magnitud relativa de la desviación estándar en comparación con la media de la distribución, expresada como porcentaje.
Subvencionadoy Urbano
Subvencionadoy Rural
Privado yUrbano
Privado y RuralMunicipalizadoy Urbano
Municipalizadoy Rural
grupo
360,00
340,00
320,00
300,00
280,00
260,00
240,00
220,00
punt
aje
prom
edio
ent
re le
ngua
je y
mat
emát
icas
2.211
2.0902.011
2.008
2.004
2.0062.0002.003
19
Diagrama de cajas para los puntajes promedios de los colegios premiados porgrupo
74
Se calcula como.
100..µσ
=VC
Para esto se puede pedir una tabla con los estadísticos básicos media y desviación estándar y luego en otra columna se puede calcular el coeficiente de variación en base a la fórmula anterior. De la tabla podemos observar que el grupo de colegios municipalizados y rurales es el que tiene menor variabilidad relativa, concepto que se pudo apreciar en los diagramas de caja. El grupo de los colegios que presentan mayor variabilidad en puntajes son los grupos “Privado y Rural” y el grupo “Subvencionado y Urbano”.
Informe
puntaje promedio entre lenguaje y matemáticas
68 215,9265 15,49103 7,17587 232,8169 27,32073 11,73
19 279,8947 43,41933 15,51388 299,6224 34,06601 11,37
86 229,3547 29,31110 12,781171 260,3335 33,95561 13,042319 257,6511 39,45891 15,31
grupoMunicipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal
N Media Desv. típ.
Coeficientede
Variación
75
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 6
Caso de Estudio: Personas con Licencias Médicas5 Suponga que Ud es Director de Recursos Humanos de una empresa y entre sus múltiples tareas debe realizar un informe respecto a las licencias médicas otorgadas durante el año. En su documento debe contemplar por lo menos la siguiente información. Considere los archivos de datos: Personas con licencia médica (arch1).sav y Diagnóstico-licencia médica (arch2).sav que contienen una muestra de 653 personas que han tenido licencia en el último año. Primera Parte: Fundición de archivos Nota previa. Consideraciones acerca de los archivos a Fundir Fundición de variables SPSS ofrece dos formas básicas de fundir archivos agregando variables, aunque se pueden realizar con múltiples pasos una combinación de estas formas básicas. Las formas de fundir pueden ser “uno a uno” o a través de un “archivo de claves” (también llamado “tabla de claves” o “uno a muchos”). Esta es una distinción importante entre los dos tipos diferentes de archivos a fundir que producirá resultados distintos. En “uno a uno” cada caso en un archivo solo puede ser vinculado con un solo caso en el otro archivo viceversa. El fundir los archivos está determinado por los valores de una variable que los vincula. Se espera que cada caso en cada archivo aparezca una única vez, si no es así, sólo el primer caso de los casos duplicados será vinculado con un único caso del otro archivo. Se muestra un diagrama para cada opción
Identificador var1 Identificador var1 var2 Identificador var2w D s . L s Lx A t . F t Fy B w D . x Hz C x A H y J
y B J z Kz C K
Arch 1 Archivo fundido Arch2
Tabla1: Vincular archivos uno a uno…*Ambos archivos proporcionan casos* Note que en cada aparición de la variable que vincula (aquí identificador) da como resultado un caso en el archivo final. Si un país tiene un caso en un archivo y perdido en el otro archivo (s,t,w), el identificador se retiene en el archivo combinado y se le asigna valores perdidos por el sistema a las variables numéricas que no contienen información.
TP
5Caso elaborado por Sara Arancibia
76
Identificador var1 Identificador var1 var2 Identificador var2w D w D . s Lx A x A H t Fy B y B J x Hz C z C K y J
z K
Arch 1 Archivo fundido Arch2
Tabla2. El que no es un conjunto de datos activo es una tabla de claves El procedimiento a través de una tabla de claves (o uno a muchos, o archivo de claves) permite vincular un único caso de un archivo de tabla de claves a más de un caso en el segundo archivo. Se muestra un diagrama de este procedimiento en la tabla 2.
Identificador var1 Identificador var1 var2 Identificador var2w D s . L s Lx A t . F t Fy B x A H x Hz C y B J y J
z C K z K
Arch 1 Archivo fundido Arch2
Tabla2. El conjunto de datos activo es una tabla de claves. Importancia de ordenar Para cualquier tipo de procedimiento para fundir los archivos deben estar ordenados por la variable clave. Si los archivos no están ordenados la vinculación falla. Importancia del tipo de archivo. Para fundir los archivos agregando variables, ambos archivos deben estar definidos en SPSS. Esto significa que cada archivo debe estar guardado como archivo de datos de SPSS en el Editor de Datos. Advertencia acerca de los nombres de las variables Es importante usar nombres únicos de nombres de variables para ambos archivos. Si se utiliza el mismo nombre de variable en ambos archivos, SPSS retendrá sólo un conjunto de valores de datos. Aunque en el cuadro de diálogo de Fundir archivo… Añadir variables se puede renombrar variables, es conveniente chequear antes que los nombres de las variables no coincidan. Antes de fundir los archivos Personas con licencia médica (arch1).sav y Diagnóstico-licencia médica (arch2).sav debemos dejar la variable clave para la fundici[on en este caso rutpac definidas en el mismo formato y forma. 1) Utilice la función CONCAT para concatenar (unir) el rut y el guión rut en una sola variable llamada rutpac ( rut paciente)
77
CONCAT(expr_cadena,expr_cadena[,..]). Cadena. Devuelve una cadena que es la concatenación de todos los argumentos, que deben ser cadenas. Esta función requiere dos o más argumentos. En modo de página de código, si expr_cadena es una variable de cadena, utilice RTRIM si sólo desea el valor de cadena real sin el relleno por la derecha de la anchura de la variable definida. Por ejemplo, CONCAT(RTRIM(var_cadena1), RTRIM(var_cadena2)).
Solución: Transformar/Calcular variable/ Variable de destino: rutpac/Tipo y etiqueta: Tipo cadena ,anchura 15, etiqueta: rut paciente
Sintaxis STRING rutpac (A15). COMPUTE rutpac=CONCAT(RTRIM(rut),"-",RTRIM(guionrut)). VARIABLE LABELS rutpac 'rut paciente'. EXECUTE. Fundición DATOS&FUNDIR ARCHIVO A;ADIR VARIABLES SELECCIONAR OPCION Ambos archivos proporcionan casos. Guardar como Archivo fundido Licencias medicas Ejercicios
a) Determine el diagnóstico que con mayor frecuencia se presenta en hombres y en mujeres.
Analizar/ Estadísticos descriptivos/Tablas de contingencia: Fila Diagnostico, columna Sexo
78
b) Muestre un gráfico que permita visualizar número de licencias por ocupación agrupado por sexo. Comente. Gráficos generador de gráficos barras agrupadas
79
Se observa tanto para hombres como para mujeres una bajísima cantidad de licencias en la categoría “Ejecutivos” Se puede apreciar un bajo número de licencias en la categorías en las categorías Ejecutivo, Profesional como Oficinista presentándose en ambas categorías mayor número de licencias en mujeres. La categoría de ocupación “operarios, artesanos” presenta mayor cantidad de licencias, observándose 43 licencias en hombres y 26 licencias en mujeres. Con una gran diferencia se presenta la categoría “Otros” que agrupa todo el resto de ocupaciones no mencionadas anteriormente mostrando mayor cantidad en mujeres que en hombres.
c) Calcular una variable que muestre los días de licencia médica del empleado (Explique el procedimiento o muestre la sintaxis). Calcule los estadísticos descriptivos básicos de la variable creada considerando los cuartiles. La variable “dias” Dias de licencia se calculó según la sintaxis COMPUTE dias=CTIME.DAYS(fecha_t2 - fecha_i2)+1 . VARIABLE LABELS dias 'dias de licencia medica'. EXECUTE.
80
d) Determine para hombres y mujeres los estadísticos; número de casos (N), media, mediana, desviación estándar, mínimo, máximo de las variables edad. Grafique un histograma de edad para hombres y mujeres. Comente los resultados ¿Qué puede decir de la variabilidad de las edades para el grupo de hombres en comparación con el grupo de las mujeres?
i) Cálculo de la edad Transformar/Asistente para fechas y horas/Realizar cálculos con fechas y horas/Calcular el número de unidades de tiempo entre dos fechas/Fecha 1: $TIME Fecha 2: fechnac/ Unidad: años/ truncar a entero/ variable de resultado: edad , etiqueta de variable: edad del paciente/pegar la sintaxis en la ventana de sintaxis.
* Asistente de fecha y hora: edad. COMPUTE edad=DATEDIF($TIME, fechnac, "years"). VARIABLE LABEL edad "edad del paciente". VARIABLE LEVEL edad (SCALE). FORMATS edad (F5.0). VARIABLE WIDTH edad(5).
EXECUTE.
Nota: Otra forma es usar funciones Primero cambiar el formato de fecha en la definición de la variable en formato dd.mm.yyyy
Para SPSS las fechas se contabilizan por una serie en la cual cada día esta valorado en 86400 (son los segundos por día). En menú transformar / Calcular: Variable destino: edad2
81
Expresión numérica: (DATE.DMY(18,2,2011)-fechanac)/(365.25*86400)6 Use función DATE.DMY(DD,MM,YY) Observe que se insertó una nueva columna con la variable “edad2”
Se debe truncar la variable edad2 Variable destino: edadent Expresión numérica: TRUNC(edad2)
Sintaxis COMPUTE edad2=(DATE.DMY(18,2,2011)-fechnac) / (365.25*86400). EXECUTE. COMPUTE edadent=TRUNC (edad2). EXECUTE.
Observación: Otra forma de calcular la edad Crear una nueva variable llamada TODAY (que guardará la fecha de hoy día). La variable $TIME es una variable del sistema en SPSS que guarda el dato fecha de hoy como un valor. La función XDATE.DATE convierte el valor de $TIME en un formato que SPSS puede reconocer como una fecha. Calcular TODAY=XDATE:DATE($TIME) (este valor representa el número de segundos desde que comienza el calendario Gregoriano Transformar Calcular Edad=(CTIME:DAYS(TODAY-fechanacimiento))/365.25 CTIME.DAYS(valortiempo) Numérico. Devuelve el número de días, incluyendo fracciones de día, que hay en valortiempo, el cual debe ser un número o una expresión en formato de tiempo de SPSS, tal como el resultado de las funciones TIME.xxx.
ii) Considerando la variable edad realizamos un cubo OLAP
ANALIZAR Informes Cubos Olap
Para Hombres: La base considera 319 licencias de hombres cuya edad promedio es aprox 54 años con una desviación promedio respecto a la media de casi 12 años. La edades oscilan entre 40 y 81 años correspondiendo el 50% de licencias a hombres menores o iguales a 49 años. Para Mujeres: La base considera 333 licencias de mujeres cuya edad promedio es 54 años con una desviación promedio respecto a la media de casi 12 años. La edades oscilan en un rango similar al de hombres entre 40 y 82 años correspondiendo el 50% de licencias a mujeres menores o iguales a 48 años. En los histogramas se pueden observar las formas de la distribución de edad.
6 Pero tiene decimales
82
Ambos histogramas muestran asimetría positiva. Respecto la variabilidad de la edad consideraremos el coeficiente de variación .Para hombres:
%97,212,54
91,11100* ===µσCV
Para mujeres:
%69,2108,54
735,11100* ===µσCV
Del cálculo anterior se aprecia mayor variación relativa ( pero leve) en la distribución de edades de los hombres respecto al de las mujeres. Segunda Parte: Trabajo con otras funciones
1) Utilice las siguientes funciones de CONVERSION para las variables rutpers y rut NUMBER(expr_cadena, formato). Numérico. Devuelve el valor de la expresión de cadena expr_cadena como un número. El segundo argumento, formato, es el formato numérico utilizado para leer expr_cadena. Por ejemplo, NUMBER(cadena_Fecha, FECHA11) convierte las cadenas que contienen fechas del formato general dd-mmm-aaaa a un valor numérico de segundos que representa esa fecha. (Para mostrar el valor como fecha, utilice el comando FORMATS o PRINT FORMATS.) Si la cadena no se puede leer con el formato, esta función devuelve los valores perdidos por el sistema. STRING(expr_num, formato) Cadena. Devuelve la cadena que resulta de convertir expr_num en una cadena, de acuerdo con el formato especificado. STRING(-1,5,F5.2) devuelve el valor de cadena "-1,5". El segundo argumento debe ser un formato para la escritura de un valor numérico. Solución: Transformar/Calcular variable/ Variable de destino: rtperscad/Tipo y etiqueta: Tipo Cadena, etiqueta: rut persona en cadena; anchura 15
83
Sintaxis: DATASET ACTIVATE Conjunto_de_datos1. STRING rutperscad (A15). COMPUTE rutperscad=STRING(rut_pers,F10.0). VARIABLE LABELS rutperscad 'rut persona en cadena'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutnum/Tipo y etiqueta: Tipo Numéricos, etiqueta: rut en formato numérico Sintaxis COMPUTE rutnum=NUMBER(rut,F10). VARIABLE LABELS rutnum 'rut en formato numerico'. EXECUTE. 2) Considere la variable rutpac y utilice las funciones LTRIM, CHAR.INDEX y CHAR.SUBSTR para calcular la variable rutpac2 sin el guion rut
LTRIM(expr_cadena[, carácter]). Cadena. Devuelve expr_cadena de la que se elimina cualquier instancia inicial de carácter. Si no se especifica char, se eliminan los blancos iniciales. El carácter debe evaluarse como un único carácter. CHAR.INDEX(cadena, subcadena[, divisor]). Numérico. Devuelve un número que indica la posición del carácter de la primera ocurrencia de la subcadena dentro de la cadena. El tercer argumento opcional, divisor, es un número de caracteres usado para dividir subcadena en cadenas distintas. Cada subcadena se usa para realizar búsquedas y la función devuelve la primera aparición de cualquier subcadena. Por ejemplo, CHAR.INDEX(var1, 'abcd') devolverá el valor de la posición inicial de la cadena completa "abcd" en la variable de cadena var1; CHAR.INDEX(var1, 'abcd', 1) devolverá el valor de la posición de la primera aparición de cualquier valor de la cadena; y CHAR.INDEX(var1, 'abcd', 2) devolverá el valor de la primera aparición de "ab" o "cd". El divisor debe ser un entero positivo y debe dividir exactamente la longitud de la subcadena. Devuelve 0 si la subcadena no aparece dentro de la cadena. CHAR.SUBSTR(expr_cadena,pos[,longitud]). Cadena. Devuelve una subcadena que empieza en la posición del carácter pos de expr_cadena. El tercer argumento opcional representa el número de caracteres de la subcadena. Si se omite el argumento opcional longitud, devuelve la subcadena que comienza en la posición del carácter pos de expr_cadena hasta el final de expr_cadena. Por ejemplo CHAR.SUBSTR('abcd', 2) devuelve 'bcd' y CHAR.SUBSTR('abcd', 2, 2) devuelve 'bc'. Solución Transformar/Calcular variable/ Variable de destino: rutpacl/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente con LTRIM
84
STRING rutpacl (A12). COMPUTE rutpacl=LTRIM(rutpac). VARIABLE LABELS rutpacl “rut paciente con LTRIM”. EXECUTE. Transformar/Calcular variable/ Variable de destino: rut2/Tipo y etiqueta: Tipo numérico, etiqueta: numero de caracteres de rut
Sintaxis COMPUTE rut2=CHAR.INDEX(rutpacl,"-"). VARIABLE LABELS rut2 'numero de caracteres de rut'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutpac2/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente2
STRING rutpac2 (A10). COMPUTE rutpac2=CHAR.SUBSTR(rutpacl,1,rut2-1). VARIABLE LABELS rutpac2 'rut paciente 2'. EXECUTE.
3) Considere la variable edad calculada en la sección anterior. Calcule la edad el año, mes y dia de la semana.
XDATE.YEAR(valorfecha). Numérico. Devuelve el año (un entero de cuatro dígitos) a partir de un valor numérico que represente una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha. XDATE.MONTH(valorfecha). Numérico. Devuelve el mes (un entero entre 1 y 12) a partir de un valor numérico que representa una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha. XDATE.WKDAY(valorfecha). Numérico. Devuelve el número del día de la semana (un entero entre 1, domingo, y 7, sábado) a partir de un valor numérico que represente una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha.
85
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 7
Estudio de caso: Reos en Gendarmería (Uso de Agregar y Sintaxis)7 Considere el archivo “Gendarmería.sav” correspondiente a datos de una muestra de internos del país. Se le pide realice un informe que describa información básica de esta muestra de internos, donde por lo menos debe responder las preguntas siguientes. 1. Identifique qué delito es el más frecuente en las mujeres y cuál en los hombres. Comente qué
problema aprecia con los datos y explique cómo lo solucionaría. 2. Muestre una tabla y una sintaxis del procedimiento que le permite obtener la respuesta. 3. Crear un archivo que permita obtener por código de unidad penal y sexo; el promedio de edad de
internos al iniciar la condena, región a la que pertenece la unidad penal, nombre de la unidad penal y número de internos. Muestre la sintaxis correspondiente.
4. Muestre una tabla que permita identificar por sexo las cinco unidades penales que más internos registran en la base de datos. Muestre la sintaxis
5. Crear un archivo que muestre sólo las unidades penales (por código de unidad penal) que registran hombres y mujeres. Muestre la sintaxis.
6. Crear un archivo que permita visualizar por nacionalidad y sexo; número de internos, pena máxima, pena mínima, y el promedio de pena en años. Mostrar la sintaxis.
7. Determine los estadísticos descriptivos para las variables edad al iniciar la condena y pena en años. ¿Cuál es el promedio de edad de internos hombres al iniciar la condena? ¿Cuál es el promedio de edad de internos mujeres de la Región Metropolitana al iniciar la condena? ¿Cuál es el mínimo y máximo de pena en años para hombres, y para mujeres? Muestre una tabla de donde se desprenda la respuesta.
Solución: Si se realiza una tabla de contingencia de delito versus sexo o una tabla de frecuencia segmentada por sexo, se puede apreciar la falta de código por delito. Al digitar el delito en formato cadena (texto) se produce el problema de digitar de maneras distintas el mismo delito y al calcular las frecuencias no aparece correctamente el valor, dado que el SPSS los toma como delitos distintos. Lo que se debe realizar es una recodificación automática y luego limpiar los datos de la variable con recodificar en la misma variable (o en distinta variable) quedando la nueva variable con código numérico e identificando este a un único delito Dada la gran cantidad de categorías de delito no es adecuado mostrar la tabla de contingencia o de frecuencias para responder a la pregunta. Una forma más eficiente es considerar Agregar por delito y sexo y luego pedir una tabla de valores extremos AGGREGATE /OUTFILE='D:\SPSS-MGPP 2004\GUIAS 2004\AGRdelito sexo.sav' /BREAK=delito_1 sexo
TP
7Caso elaborado por Sara Arancibia
86
/N_BREAK=N. EXAMINE VARIABLES=n_break BY sexo /ID= delito_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
Extreme Valuesb
N_BREAKHighest
69 TRAFICO ILEGAL DEESTUPEFACIENTES 24
58 ROBO CON VIOLENCIA 5
55 ROBO CONINTIMIDACION 4
56 ROBO CONINTIMIDACION 200
70 TRAFICO ILEGAL DEESTUPEFACIENTES 133
53 ROBO CON FUERZA 11459 ROBO CON VIOLENCIA 6451 ROBO 55
1
23
1
2
345
Sexo del internoF
M
Case NumberPrimera mención de
delito Value
The requested number of extreme values exceeds the number of datapoints. A smaller number of extremes is displayed.
b.
AUTORECODE VARIABLES=u_.penal /INTO upenal /PRINT. AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR1.sav' /BREAK=cod._uni sexo /edad_c_1 = MEAN(edad_cum) /region_1 = FIRST(region) /upenal_1 = FIRST(upenal) /casos=N. SORT CASES BY sexo . SPLIT FILE LAYERED BY sexo . EXAMINE VARIABLES=casos /ID= upenal_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.
87
Valores extremos
17 CPF. SANTIAGO 111 CP. ARICA 52 CCP. IQUIQUE 5
11 CCP. CONCEPCION 36 CDP. OVALLE .a
14 CDP. CASTRO 17 CDP. ILLAPEL 15 CCP. COPIAPO 13 CDP. CALAMA 1
10 CDP. LOS ANGELES .b
94 CDP. SANTIAGO SUR 13018 CP. ARICA 6397 CCP. COLINA I 6339 CP. VALPARAISO 54
101 CCP. COLINA II 4992 CDP. PORVENIR 167 CET. CONCEPCION 189 CDP. PUERTO AYSEN 1
102 CET. METROPOLITANO 146 CCP. SAN FERNANDO .b
12345123451234512345
Mayores
Menores
Mayores
Menores
CASOS
CASOS
Sexo del internoF
M
Númerodel caso Nombre de la unidad Valor
En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casos con elvalor 1.
a.
En la tabla de valores extremos menores sólo se muestra una lista parcial de los casos con elvalor 1.
b.
AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR2 .sav' /BREAK=cod._uni /N_BREAK=N. USE ALL. COMPUTE filter_$=(n_break = 2). VARIABLE LABEL filter_$ 'n_break = 2 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . AGGREGATE /OUTFILE='D:\MGPP 2004\SPSS\AGR3 .sav' /BREAK=pais sexo /a_os_1 = MIN(a_os) /a_os_2 = MAX(a_os) /a_os_3 = MEAN(a_os) /N_BREAK=N.
88
*** Generación de Cubos OLAP *** . OLAP CUBES edad_cum a_os BY region BY sexo BY pais /CELLS=COUNT MEAN STDDEV MEDIAN MIN MAX NPCT /TITLE='OLAP Cubes'.
OLAP Cubes
Región de la unidad: TotalSexo del interno: TotalNOmbre del país: Total
973 64921,79 8,9116,22 45,1524,00 5,00
0 270 1154
100,0% 100,0%
NMeanStd. DeviationMedianMinimumMaximum% of Total N
Edad al iniciar condena Pena en años
OLAP Cubes
Región de la unidad: TotalSexo del interno: MNOmbre del país: Total
936 61521,51 9,0916,09 46,3824,00 5,00
0 267 1154
96,2% 94,8%
NMeanStd. DeviationMedianMinimumMaximum% of Total N
Edad al iniciar condena Pena en años
89
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 8
Caso: Producción minera 2009-20108 Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción agregada. Considere el archivo en Excel llamado Producción minera 2009-2010. El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para calcular variables y generar nuevos archivos con agregar.
1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual, la variabilidad, la mínima y máxima producción.
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo.
5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y máxima producción mensual y la variabilidad de producción de cobre
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.
8 Caso elaborado por Sara Arancibia
90
SOLUCION 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. Solución: Archivo /abrir/datos
Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010 mensual
91
2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.
Para calcular el mes Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena: CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar. DATASET ACTIVATE Conjunto_de_datos1. STRING mes (A10). COMPUTE mes=CHAR.SUBSTR(AñoyMes,6). VARIABLE LABELS mes 'mes'. EXECUTE. Para calcular el año Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena: CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar STRING año (A4). COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4). VARIABLE LABELS año 'año'. EXECUTE. Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar además en medida de nominal a escala
3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual , la variabilidad, la mínimo y máxima producción
Datos/ Agregar/variable de segmentación : año/Resúmenes de variables /Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino) /Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino) /Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino) /Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino) /Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino) /Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino) /Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino) /Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino) /Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino) /Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino) Activar número de casos: casos Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD
92
4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo.
Datos/ transponer DATASET ACTIVATE Conjunto_de_datos10. FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd Orokgdefino_sum Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd /NEWNAME=año. Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/ informes Resúmenes de casos./limitar a los primeros 11 casos.
93
5) Genere un gráfico que muestre para cada año la producción mensual de cobre
Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año
Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categorías : año
94
6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la
mínima y máxima producción mensual y la variabilidad de producción de cobre Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino), eje de categorías : año. Aceptar
7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la producción de oro. Para esto considere la media de producción mensual, la mínima
95
y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.
Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el nombre AGRPRODMES.sav Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100 El resultado se puede ver en el archivo agregado
96
97
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 9
Estudio de caso: Encuesta laboral (Aplicación IPC) Se realizó una encuesta dirigida a personas activas en el ámbito laboral, con el objeto de conocer algunas características de ésta y conocer qué ha sucedido con la evolución de los sueldos. Para tal efecto, se tomó una muestra de 470 personas activas. Los datos entregados por los entrevistados se depositaron en el archivo caso encuesta laboral (aplicación IPC). Usando los antecedentes que residen en la base de datos antes señalada y los datos de IPC anual ( base Dic 1998=100) responda las siguientes preguntas. Considere
Año IPC 1993 71,68 1994 78,09 1995 84,49 1996 90,10 1997 95,54 1998 100,00 1999 102,31 2000 106,94 2001 109,76 2002 112,86 2003 114,07 2004 116,84
a) Elaborar un cuadro que muestre los siguientes estadísticos descriptivos: Mínimo, Máximo, Media, Mediana y desviación estándar, del sueldo promedio inicial, del sueldo promedio inicial expresado en pesos del año 2004 y sueldo promedio actual por categoría laboral
***Sintaxis IPC***. IF (contrato = 93) IPC = 71.68 . IF (contrato = 94) IPC = 78.09 . IF (contrato = 95) IPC = 84.49 . IF (contrato = 96) IPC = 90.10 . IF (contrato = 97) IPC = 95.54 . IF (contrato = 98) IPC = 100 . IF (contrato = 99) IPC = 102.31 . IF (contrato = 2000) IPC = 106.94 . IF (contrato = 2001) IPC = 109,76 . IF (contrato = 2002) IPC = 112.86 .
98
IF (contrato = 2003) IPC = 114.07 . IF (contrato = 2004) IPC = 116.84 . EXECUTE . Sintaxis Utilizada para Actualización del sueldo Inicial en moneda de dic del 2004 COMPUTE suel2004 = (sueldini / IPC) * 116.84 . EXECUTE . MEANS TABLES=sueldini sueld suel2004 BY catlab /CELLS COUNT MIN MAX MEAN MEDIAN STDDEV .
Informe
142 142 142166500 227146,40 229440,81570000 846719,98 855272,71
287285,56 380863,4484 384609,4015268000,00 366611,8709 370315,021178070,001 120759,16120 121893,4700
285 285 285135000 136965,55 139760,77300000 467245,90 476781,53
201469,74 272755,6075 278291,0066202500,00 263933,6151 269320,015434432,401 61964,72683 63258,53212
43 43 43236250 336507,91 326706,71
1199700 1386998,08 1346600,08535590,70 765540,9758 743243,6659495000,00 751059,4599 729183,9416
163393,602 237648,82763 230727,0171470 470 470
135000 136965,55 139760,771199700 1386998,08 1346600,08
257965,59 350502,5952 352950,9564225000,00 304926,2635 311149,2484
119195,691 177517,26027 171214,0115
NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.
Categoría laboralAdministrativo
Técnico
Directivo
Total
Sueldo inicial
Sueldo actual( en pesos del
2004)
sueldo inicialen pesos del
2004
99
B) Considere por separado cada categoría laboral . Realice un gráfico para la media de los sueldos iniciales (moneda nominal) por año de contrato. Luego realice un gráfico para la media de los sueldos actuales . IF (contrato < 2000) contrat = contrato + 1900 . VARIABLE LABELS contrat 'año de contrato' . EXECUTE . IF (contrato >= 2000) contrat = contrato . VARIABLE LABELS contrat 'año de contrato' . EXECUTE .
200420032002200120001999199819971996199519941993
año de contrato
500000
400000
300000
200000
100000
0
Med
ia S
ueld
o in
icia
l
474000
303750315750
252450285253
236250263325
282825
323438284400
308566
266417
Categoría laboral: Administrativo
100
200420032002200120001999199819971996199519941993
año de contrato
250000
200000
150000
100000
50000
0
Med
ia S
ueld
o in
icia
l
216750236200
179208
206321186221193145
206074201600195450210424
197932
219164
Categoría laboral: Técnico
200420032002200120001999199819971996199519941993
año de contrato
500000,00
400000,00
300000,00
200000,00
100000,00
0,00
Med
ia S
ueld
o ac
tual
( en
pes
os d
el 2
004)
474000,00
308014,80323616,05
273062,42308543,91
267104,05304592,24
342420,14
415233,44389359,72
457066,08429922,46
Categoría laboral: Administrativo
101
200420032002200120001999199819971996199519941993
año de contrato
400000,00
300000,00
200000,00
100000,00
0,00
Med
ia S
ueld
o ac
tual
( en
pes
os d
el 2
004)
216.750,00
237.097,01
181.817,54
220.913,26
199.390,81
216.163,53
235.960,79
241.614,46
248.386,80
285.172,34
290.227,40
350.097,47
Categoría laboral: Técnico
2002200120001999199819971996199519941993
año de contrato
1000000,00
800000,00
600000,00
400000,00
200000,00
0,00
Med
ia S
ueld
o ac
tual
( en
pes
os d
el 2
004)
693109,87756630,78
495520,85484862,59523501,62
614164,86
951475,06
788603,62829656,02
867436,55
Categoría laboral: Directivo
102
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 10
Análisis de correlación y regresión lineal Gráficos de dispersión y coeficiente de correlación 1.-Considere el archivo Mundo 95.sav Muestre un gráfico de dispersión para las variables “tasasida” y “alfabetización”. ¿Están correlacionadas?. En el gráfico muestre 8 países con tasa de sida superior a 100. Determine el coeficiente de correlación y el coeficiente de determinación. Explique la diferencia entre estos dos coeficientes.
Gráfico de dispersión
Alfabetización (%)
120100806040200
Cas
os d
e S
IDA
por
100
.000
hab
itant
es
400
300
200
100
0
-100 R² = 0,0257
Zambia
Uganda
RuandaRep. C. Africana Kenia
Estados UnidosBarbados
2.-Considere el archivo “Estudio Morfología.sav”. a) Determine si las variables estatura, peso y coeficiente intelectual están correlacionadas significativamente e interprete. Para esto seleccione Analizar/Correlaciones/Divariadas Variables:ci, estatura y peso Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones significativas].
103
Correlaciones
1 ,081 ,001. ,325 ,988
149 149 148,081 1 ,600**,325 . ,000149 150 149
,001 ,600** 1,988 ,000 .148 149 149
Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N
Cociente intelectual
ESTATURA
PESO
Cocienteintelectual ESTATURA PESO
La correlación es significativa al nivel 0,01 (bilateral).**.
Diagrama de Dispersión La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el Gráfico de Dispersión: b) Realice un gráfico de dispersión entre peso y estatura Seleccione Gráficos/Dispersión/Dispersión Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R2 e interprete.
Gráfico de dispersión simple
ESTATURA
280260240220200180160140120
PE
SO
110
100
90
80
70
60
50
40
SEXO
Mujer
Hombre
Total Population
R² = 0,3606
93
31
27
c) Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.
104
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE .
Gráfico de dispersión simple
Se han filtrado los casos 27, 31 y 93
ESTATURA
200190180170160150140
PESO
110
100
90
80
70
60
50
40
SEXO
Mujer
Hombre
Total Population
R² = 0,7182
d) Realice un gráfico de dispersión superpuesto. Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. Seleccione el par estatura - peso y el par ci - peso
gráfico de dispersión superpuesto
110100908070605040
300
200
100
0
Cociente intelectualPESO
ESTATURA
PESO
31
31
105
e) Realice un gráfico de dispersión matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).
Cociente intelectual
ESTATURA
PESO
Gráfico de dispersión matricial
SEXO
Mujer
Hombre
f) Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error típico de estimación
Resumen del modelo
Modelo R R cuadrado R cuadrado corregida
Error típ. de la estimación
1 ,847(a) ,718 ,716 6,4593a Variables predictoras: (Constante), ESTATURA
El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura. Una forma de estimar el error estándar del estimador es basándose en los residuos;
2
2
, −= ∑
ne
SXY
El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la dispersión con respecto a una recta promedio, denominada recta de regresión.
106
ANOVAb
15309,683 1 15309,683 366,941 ,000a
6008,032 144 41,72221317,715 145
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), ESTATURAa.
Variable dependiente: PESOb.
Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: β1 = 0 g) Estime la ecuación de regresión
Coeficientesa
-92,138 8,816 -10,451 ,000,999 ,052 ,847 19,156 ,000
(Constante)ESTATURA
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: PESOa.
Y = -92,13 + 0,999•X donde Y = Peso X = Estatura h) Pruebe la hipótesis nula H0: β1 = 0 para la estatura y el peso. ¿Existe una relación significativa entre la estatura y el peso? En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hipótesis nula H0: β1 = 0. Concluimos entonces que existe una relación significativa entre la estatura y el peso. i) Interprete la pendiente de la ecuación de regresión. La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero debemos determinar si en la población parece existir una relación entre las dos variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población, por definición la pendiente de la línea de regresión de la población sería de cero β1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H0: β1=0. La hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa o inversa). Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:
107
1
11 )(
bsobt β−
=
donde 22
,1
XnX
Ss XY
b
−=∑
Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la fórmula se simplifica y enuncia como
1
1
bsbt =
El intervalo de confianza para la pendiente de la población β1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:
11 btsb +−
Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de variar” en la muestra que sirve de base al intervalo de confianza. j) Determine el intervalo de confianza del 95% para β1. Para esto seleccione Regresión lineal/ Estadísticos/Intervalos de confianza. En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de confianza para b1 al 95%.
Coeficientesa
-92,138 8,816 -10,451 ,000 -109,564 -74,712,999 ,052 ,847 19,156 ,000 ,896 1,102
(Constante)ESTATURA
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig. Límite inferiorLímite
superior
Intervalo de confianza paraB al 95%
Variable dependiente: PESOa.
Se tiene que el intervalo de confianza de 95% para β1 es 0,896 a 1,102
Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%.
Coeficientesa
2,129 7,164 ,297 ,772 -13,834 18,092,861 ,049 ,984 17,596 ,000 ,752 ,970
(Constante)INGRESO
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientes
estandarizados
t Sig. Límite inferiorLímite
superior
Intervalo de confianza paraB al 95%
Variable dependiente: CONSUMOa.
k) Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo “Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no
108
tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.
Observación: Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: • Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. • Independencia de las observaciones • Linealidad en la relación entre las variables. l) Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los siguientes gráficos: Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede igualmente servirnos para contrastar hasta qué punto el principio de igualdad de
109
varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. Los residuos tipificados-gráfico de prob. normal. Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una línea recta diagonal
Gráfico P-P normal de regresión Residuo tipificado
Variable dependiente: PESO
Prob acum observada
1,0,8,5,30,0
Pro
b ac
um e
sper
ada
1,0
,8
,5
,3
0,0
Gráfico de dispersión
Variable dependiente: PESO
Regresión Valor pronosticado tipificado
3210-1-2-3
Reg
resi
ón R
esid
uo ti
pific
ado
3
2
1
0
-1
-2
-3
Pruebas de normalidad
,044 146 ,200* ,992 146 ,601Standardized ResidualEstadístico gl Sig. Estadístico gl Sig.
Kolmogorov-Smirnova Shapiro-Wilk
Este es un límite inferior de la significación verdadera.*.
Corrección de la significación de Lillieforsa.
Regresión Lineal Simple Comenzaremos el análisis de las regresiones partiendo por el modelo de regresión lineal simple (simple = una variable independiente). Este modelo es sólo un punto de partida en el estudio del análisis de regresión puesto que generalmente interesará estudiar simultáneamente más de una variable predictora,. Utilizando el archivo “Datos de empleados.sav” buscaremos determinar la existencia de una relación entre la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Para esto desde el menú se debe seleccionar Analizar/Regresión/Lineal. Variable Dependiente: salario Variable Independiente: salani De esta forma se obtienen los siguientes resultados: Tabla 1
110
Resumen del modelo
.880a .775 .774 $8,115.356Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Salario iniciala.
Tabla 2
ANOVAb
1.068E+11 1 1.07E+11 1622.118 .000a
3.109E+10 472 658589971.379E+11 473
RegresiónResidualTotal
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Salario iniciala.
Variable dependiente: Salario actualb.
Tabla3
Coeficientesa
1928.206 888.680 2.170 .0311.909 .047 .880 40.276 .000
(Constante)Salario inicial
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
ost Sig.
Variable dependiente: Salario actuala.
Bondad de ajuste La primera información que se obtiene se refiere al coeficiente de correlación múltiple (R) y a su cuadrado. Puesto que el modelo de regresión sólo incluye dos variables, el coeficiente de correlación múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre esas dos variables. Su cuadrado (R2) es el coeficiente de determinación:
2 Suma de cuadrados de los residuos1Suma de cuadrados total
R = −
(Los residuos son las diferencias existentes entre las puntuaciones observadas y los pronósticos obtenidos con la recta). Además del porcentaje de mejora en los pronósticos, R2 expresa la proporción de varianza de la variable dependiente que está explicada por la variable independiente. En el ejemplo (ver Tabla 1), R toma un valor muy alto (su máximo es 1); y R2 indica que el 77,5% de la variabilidad del salario actual está explicada por, depende de, o está asociada al salario inicial. Es importante señalar en este momento que el análisis de regresión no permite afirmar que las relaciones detectadas sean de tipo causal: únicamente es posible hablar de relación y de grado de relación. Debe quedar muy claro desde el principio que una relación, por sí sola, nunca implica causalidad. R cuadrado corregida es una corrección a la baja de R2 que se basa en el número de casos y de variables independientes:
( ) ( )2 2 2corregida 1 / 1R R p R n p⎡ ⎤= − − − −⎣ ⎦
(p se refiere al número de variables independiente). En una situación con pocos casos y mucha variables independiente, R2 es un estimador algo optimista (artificialmente alto) del verdadero coeficiente de correlación poblacional. En tal caso, el valor de R2 corregida será sensiblemente más bajo que el de R2. En el ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R2 (el corregido y el no corregido) son prácticamente iguales.
111
El error típico de la estimación (Se) es la desviación típica de los residuos, es decir, la desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los pronósticos efectuados con la recta de regresión (Ŷi), aunque no exactamente, pues la suma de las distancias al cuadrado están divididas por n-2
Error típico de estimación = ( ) ( )2ˆ / 2e i iS Y Y n= − −∑
En realidad, este error típico es la raíz cuadrada de la media cuadrática residual de la Tabla. Representa una medida de la parte de variabilidad de la variable dependiente que no está explicada por la recta de regresión. En general, cuanto mejor es el ajuste, más pequeño es este error típico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relación significativa entre la variable independiente y la dependiente. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero (que en el modelo de regresión simple equivale a contrastar la hipótesis de que la pendiente de la recta de regresión vale cero). El nivel crítico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables están linealmente relacionadas. Ecuación de Regresión La Tabla 3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresión (B0). Recibe el nombre de constante porque, según se verá es la constante del modelo de regresión:
0 1B Y B X= − y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresión (B1):
( )1 22
i i i i
i i
X Y X YB
n X X
−=
−∑ ∑ ∑∑ ∑
B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de cambio de la variable independiente (salini). Según esto, la ecuación de regresión queda de la siguiente manera:
Pronóstico en salario = 1928,206 + 1,909 salini Es decir, a cada valor de salini le corresponde un pronóstico en salario basado en un incremento constante (1928,206) más 1,909 veces el valor de salini. Coeficientes de Regresión Estandarizados Los coeficientes Beta (coeficiente de regresión parcial estandarizados) son los coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la siguiente manera:
( )1 1 /x yB S Sβ = .
En el análisis de regresión simple, el coeficiente de regresión estandarizado correspondiente a la única variable independiente presente en la ecuación coincide exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según se verá enseguida, los coeficientes de regresión estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuación.
112
Prueba de Significación Finalmente, los estadísticos t y sus niveles críticos (Sig.) permiten contrastar las hipótesis nulas de que los coeficientes de regresión valen cero en la población. Estos estadísticos t se obtienen dividendo los coeficientes de regresión B0 y B1 entre sus correspondientes errores típicos:
0
0
0B
B
BtS
= y 1
1
1B
B
BtS
=
siendo:
( )0
2
21
B e
i
XS Sn X X
= +−∑
y ( )
1 2e
B
i
SSX X
=−∑
Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student con n-2 grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresión es significativamente distinto de cero y, en consecuencia, en el caso de B1, si la variable independiente está significativamente relacionada con la dependiente. Puesto que en regresión simple se trabaja con una única variable independiente, el resultado del estadístico t (Tabla 3) es equivalente al del estadístico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresión simple, t2 = F. A partir de los resultados de análisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: El origen poblacional de la recta de regresión (β0) es significativamente distinto de cero (generalmente, contrastar la hipótesis “β0 = 0” carece de utilidad, pues no contiene información sobre la relación entre Xi e Yi). La pendiente poblacional de la recta de regresión (el coeficiente de regresión β1 correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relación lineal significativa. Peligros y limitaciones relacionados con el análisis de regresión y correlación: En el análisis de regresión un valor de Y no puede estimarse legítimamente si el valor de X está fuera del rango de valores que sirvió de base para la ecuación de regresión Si la estimación de Y implica la predicción de un resultado que aún no ha ocurrido, los datos históricos que sirvieron de base para la ecuación de regresión quizá no sean pertinentes para eventos futuros. El uso de un intervalo de predicción o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales Un coeficiente de correlación significativo no indica necesariamente causalidad, sino que más bien puede indicar una vinculación común con otros eventos. Una correlación significativa no es necesariamente una correlación importante. Dada una muestra grande una correlación de, digamos, R = 0,1 puede ser significativamente diferente de cero con α=0,05. Sin embargo, el coeficiente de determinación de R cuadrado igual a 0,01 para este ejemplo indica que sólo un 1% de la varianza en Y es estadísticamente explicado por el conocimiento de X. Tanto en los análisis de regresión como de correlación se parte del supuesto de un modelo lineal. Conceptos definidos en el SPSS R Múltiple: Coeficiente de correlación entre los valores observados y pronosticados en la variable dependiente. Su valor tiene un rango de 0 a 1. Un valor pequeño indica que hay poca o ninguna relación lineal entre la variable dependiente y las variables independientes. R cuadrado: Medida de la bondad de ajuste de un modelo lineal. En ocasiones recibe el nombre de coeficiente de determinación. Es la proporción de la variación de la variable dependiente explicada
113
por el modelo de regresión. Sus valores van desde 0 a 1. Los valores pequeños indican que el modelo no se ajusta bien a los datos. R cuadrado corregida: La R cuadrado muestral tiende a estimar de manera demasiado optimista cuánto de bien se ajusta el modelo en la población. Habitualmente el modelo no se ajusta a la población tan bien como se ajusta a la muestra de la que se ha derivado. La R cuadrado corregida intenta corregir la R cuadrado para reflejar más estrechamente la bondad de ajuste en la población. Error típico: Medida de cuánto puede variar el valor de un estadístico de contraste de muestra en muestra. Es la desviación típica de la distribución muestral de un estadístico. Por ejemplo, el error típico de la media es la desviación típica de las medias muestrales. Coeficiente de correlación cero: Coef de correlaciones ordinarias, sin variables de control. Los valores del coeficiente de correlación van de –1 a 1. El signo del coef indica la dirección de la relación y su valor absoluto indica la fuerza Coeficiente de Correlación Parcial: La correlación parcial que permanece entre dos variables después de eliminar la correlación que es debida a su relación mutua con las otras variables. La correlación entre la variable dependiente y una variable indep cuando se han eliminado de ambos los efectos lineales de las otras variables independientes presentes en el modelo. La correlación parcial se emplea para controlar el efecto de una o más variables sobre el coeficiente de correlacion de Pearson. En la correlación parcial se estudia la relación entre dos variables eliminando el influjo de una o más variables de control. En un cierto estudio realizado en un parque de atracciones se halló una correlación significativa y muy alta entre la temperatura y el número de tazas de chocolate caliente servidas , r= 0,923 p<=0,000. Lo cual es un resultado muy extraño, pues implica que cuanto mayor es la temperatura más tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable número de visitantes el resultado es muy diferente. Para hallar el coeficiente de correlación parcial entre temperatura y número de tazas de chocolate caliente controlando el número de visitantes, elegir Estadísticos / correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la sección “ variables”, se selecciona y transfiere la variable visitant a la sección “controlando para”, finalmente se pulsa el botón aceptar. La correlación ahora es no significativa, rp=0,42 p<=0,198. Cuando hace frío, mucha gente, (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno. Nota: Peligros y limitaciones relacionados con el análisis de regresión y correlación 1) En el análisis de regresión un valor de Y no puede estimarse legítimamente si el valor de X está fuera del rango de valores que sirvió de base para la ecuación de regresión
114
2) Si la estimación de Y implica la predicción de un resultado que aún no ha ocurrido, los datos históricos que sirvieron de base para la ecuación de regresión quizá no sean pertinentes para eventos futuros. 3) El uso de un intervalo de predicción o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales 4) Un coeficiente de correlación significativo no indica necesariamente causalidad, sino que más bien puede indicar una vinculación común con otros eventos. 5) Una correlación significativa no es necesariamente una correlación importante. Dada una muestra grande una correlación de, digamos, r=0,1 puede ser significativamente diferente de cero con α=0,05. Sin embargo, el coeficiente de determinación de R cuadrado igual a 0,01 para este ejemplo indica que sólo un 1% de la varianza en Y es estadísticamente explicado por el conocimiento de X. 6) En los análisis tanto de regresión como de correlación se parte del supuesto de un modelo lineal.
115
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 11
Regresión lineal con variable dami Estudio de caso: Desempleados Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es “Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes:
Variable Etiqueta edad Edad del trabajador antig Antigüedad en el último empleo (en
años) profesional 1 = Sí
0 = No El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos. Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente. ¿Qué puede observar del gráfico?
Diagrama de Dispersión entre Semanas Desempleado
y Edad de la persona
edad
605040302010
SEM
ANAS
90
80
70
60
50
40
30
20
10 Rsq = 0,7216
Diagrama de Dispersión entre Semanas Desempleado
y Antiguedad en último Empleo
ANTIG
403020100
SE
MA
NA
S
90
80
70
60
50
40
30
20
10 Rsq = 0,2164
116
En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de la antigüedad vs. semanas, no se observa tan claro la linealidad. b) Determine la matriz de correlaciones. ¿Qué puede observar?
Correlations
1,000 ,849** ,465**, ,000 ,001
50 50 50,849** 1,000 ,490**,000 , ,000
50 50 50,465** ,490** 1,000,001 ,000 ,
50 50 50
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
SEMANAS
edad
ANTIG
SEMANAS edad ANTIG
Correlation is significant at the 0.01 level (2-tailed).**.
En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada respectivamente) c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.
ANOVAb
10999,684 2 5499,842 61,892 ,000a
4176,496 47 88,86215176,180 49
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), ANTIG, edada.
Dependent Variable: SEMANASb.
Coefficientsa
-17,428 5,983 -2,913 ,0051,794 ,192 ,818 9,318 ,000
,195 ,264 ,065 ,739 ,464
(Constant)edadANTIG
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: SEMANASa.
El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto existe relación lineal significativa.
117
Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero. d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado.
Model Summary
,849a ,722 ,716 9,38Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), edada.
ANOVAb
10951,194 1 10951,194 124,416 ,000a
4224,986 48 88,02115176,180 49
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), edada.
Dependent Variable: SEMANASb.
Coefficientsa
-18,179 5,868 -3,098 ,0031,863 ,167 ,849 11,154 ,000
(Constant)edad
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: SEMANASa.
En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2% por la variable EDAD.
e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del último modelo.
Model Summary
,891a ,794 ,785 8,16Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), Es profesional ( 1=SI, 0=NO),edad
a.
118
ANOVAb
12048,898 2 6024,449 90,542 ,000a
3127,282 47 66,53815176,180 49
RegressionResidualTotal
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edada.
Dependent Variable: SEMANASb.
Coefficientsa
-19,465 5,112 -3,808 ,0001,975 ,148 ,900 13,361 ,000
-11,512 2,834 -,274 -4,062 ,000
(Constant)edadEs profesional( 1=SI, 0=NO)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: SEMANASa.
Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas. Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante.. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera profesional. Las ecuaciones son: • para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD • para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.
Tests of Normality
,088 50 ,200* ,970 50 ,407Standardized ResidualStatistic df Sig. Statistic df Sig.
Kolmogorov-Smirnova Shapiro-Wilk
This is a lower bound of the true significance.*.
Lilliefors Significance Correctiona.
La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hipótesis de normalidad. (La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov).
119
Scatterplot
Dependent Variable: SEMANAS
Regression Standardized Predicted Value
3210-1-2
Reg
ress
ion
Sta
ndar
dize
d R
esid
ual
2
1
0
-1
-2
-3
Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningún patrón.
120
UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C
GUIA 12
Líneas de espera I) Estudio de caso: Quick Food Quick Food es un restaurant de comida rápida que vende hamburguesas, papas fritas, y refrescos, así como un limitado número de productos especiales y postres. Aunque Quick Food desearía poder servir a cada uno de los clientes de manera inmediata, hay veces que llegan más clientes de los que puede manejar el personal de servicio de alimentos de Quick Food, por lo que los clientes esperan en fila, para colocar y recibir su pedido. Quick Food está preocupado pues los métodos que utiliza para atender a los clientes están dando como resultado tiempos de espera excesivos. La administración ha pedido que se haga un estudio de línea de espera para ayudar a determinar cuál es el mejor procedimiento de reducir los tiempos de espera y mejorar el servicio. En la operación actual de Quick Food, un empleado toma el pedido al cliente, determina el costo total, acepta el dinero del cliente y entonces surte el pedido. Una vez surtido el pedido del primer cliente, el empleado toma el pedido siguiente, que ha estado esperando que lo atiendan. Cuando llegan más clientes de los que pueden atenderse de manera inmediata, forman una línea de espera y aguardan que la estación de toma y surtido de pedidos quede disponible. a) Suponga que Quick Food ha analizado los datos referentes a la llegada de clientes y ha concluido que siguen una distribución de Poisson con una tasa media de llegadas de 45 clientes por hora. Determine la probabilidad de que no ocurra ninguna llegada es un periodo de un minuto, la probabilidad de una llegada en un periodo de un minuto y la probabilidad de dos llegadas en un periodo de un minuto. b) En Quick Food, el tiempo de servicio se inicia cuando un cliente empieza a colocar su pedido con el empleado y continúa hasta que dicho cliente ha recibido su pedido. Quick Food ha estudiado el proceso de toma y surtido de pedidos y ha llegado a la conclusión que el tiempo de servicio sigue una distribución exponencial y que el único empleado de alimentos puede procesar un promedio de 60 pedidos por hora. Determine la probabilidad de que se procese un pedido en medio minuto o menos, en un minuto o menos, o en dos minutos o menos. Ayuda: t-e-1t)servicio de tiempoP( µ=≤ c) Suponiendo un estado estable en la línea de espera, determine las características de operación para Quick Food, es decir estime;
La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos)
121
d) Después de revisar las características de operación obtenidas con el modelo de la línea de espera, la administración de Quick Food concluyó que era deseable hacer mejoras diseñadas para reducir los tiempos de espera. Generalmente, las mejoras de servicio se hacen mediante lo siguiente: 1.- Incrementar la tasa media de servicio µ mediante algún cambio creativo en el diseño o utilizando nueva tecnología. 2.- Agregar canales de servicio, de manera que se puedan servir más unidades de manera simultánea di) Suponga que al considerar la alternativa 1, la administración de Quick Food decide ocupar un empleado surtidor de pedidos, que ayudará a quien toma los pedidos en la caja. El cliente empieza el proceso de servicio colocando el pedido con el empleado tomador de pedidos. Al recibir el pedido, el tomador de pedidos anuncia la orden por un sistema de intercomunicación y el empleado surtidor de pedidos empieza a surtirlo. Una vez completado el pedido, quien toma los pedidos recibe el dinero, en tanto que quien surte los pedidos sigue ocupándose de la orden. Con este diseño, la administración de Quick Food estima que la tasa media de servicio puede incrementarse de la cifra actual de 60 clientes por hora a 75 clientes por hora. Determine nuevamente las características de operación
La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos
e) Suponga que la administración desea evaluar la conveniencia de abrir una segunda estación de procesamiento de pedidos (alternativa 2), de manera de atender simultáneamente a dos clientes. Suponga que sólo habrá una línea de espera y el siguiente cliente en la cola pasando al primer servidor disponible. Evalué las características de operación de este sistema de dos canales considerando la tasa de servicio 60 clientes por hora.
La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos
La decisión final, con relación a la política de personal en Quick Food, queda en manos de la administración. El estudio de la línea de espera ha puesto de manifiesto las características de operación que pueden preverse en tres configuraciones. Un sistema de un canal, con un solo empleado; un sistema de un solo canal, con dos empleados, y un sistema de dos canales, con un empleado en cada uno de ellos. Después de considerar estos resultados, ¿qué acción recomendaría usted? Argumente su respuesta.
122
II) Caso Willow Brook National Bank
Willow Brook National Bank opera una ventanilla de cajero para automovilistas que permite a los clientes efectuar transacciones bancarias completas sin tener que salir de su auto. En las mañanas, las llegadas a la ventanilla del cajero automotriz ocurren de manera aleatoria, con una tasa media de llegadas de 24 clientes por hora, es decir 0.4 clientes por minuto.
a. ¿Cuál es el número medio o esperado de clientes que llegarán en un periodo de 5 minutos? b. Suponga que se puede utilizar una distribución de probabilidad Poisson para describir el
proceso de llegadas. Utilice la tasa media de llegadas del inciso (a) y calcule las probabilidades de que exactamente 0, 1, 2 y 3 clientes lleguen durante un periodo de 5 minutos.
c. Se espera que haya atrasos, si llegan más de 3 clientes durante cualquier periodo de 5 minutos. ¿Cuál es la probabilidad de que ocurran estos atrasos?. En el sistema de líneas de espera de Willow Brook National Bank , suponga que los tiempos de servicio para el cajero destinado a automovilistas siguen una distribución de probabilidad exponencial, con una tasa media de servicio de 36 clientes por hora, es decir de 0.6 clientes por minuto. Utilice una distribución de probabilidad exponencial para responder las preguntas que siguen.
a. ¿Cuál es la probabilidad de que el tiempo de servicio sea de 1 minuto o menos? b. ¿Cuál es la probabilidad de que el tiempo de servicio sea de 2 minutos o menos? c. ¿Cuál es la probabilidad de que el tiempo de servicio sea más de 2 minutos?
Utilice la operación del cajero automotriz de un solo canal para determinar las siguientes características de operación del sistema.
a. La probabilidad de que no haya ningún cliente en el sistema. b. El número promedio de clientes esperando. c. El número promedio de clientes en el sistema. d. El tiempo promedio que ocupa un cliente esperando. e. El tiempo promedio que ocupa un cliente en el sistema. f. La probabilidad de que clientes que llegan tengan que esperar el servicio.
SOLUCION 1 a)
2)4,0(5 ==λ clientes en un periodo de 5 minutos b).
!2
!)(
2
xe
xexP
xx −−
==λλ
x P(x)0 0,13531 0,27072 0,27073 0,1804
Suma 0,8571
123
c) 1429,08571,01)3(1)3( =−=≤−=> xPxP 2)
3012,06988,01)2 (6988,01)2 (
4512,01)1 (2)6,0(
1)6,0(
=−=>=−=≤
=−=≤−
−
serviciodetiempoPeserviciodetiempoPeserviciodetiempoP
3)
a) .333,06,04,0110 =−=−=
µλP
b) ( ) 333,12
=−
=λµµ
λqL clientes.
c) ( )( )
( ) 222
=−
=−−+
=+−
=+=λµ
λλµµλµλλ
µλ
λµµλ
µλ
qLL clientes.
d) ( ) .min33,3=−
=λµµ
λqW
e) .min51=
−=
λµW
f) ( ) 6667,01 0 =−== PPw µλ
.
124
III) Estudio de caso: Reservaciones de avión Regional Airlines está estableciendo un nuevo sistema telefónico para manejar las reservaciones de vuelos. De las 10:00 a.m. a las 11:00 a.m. las llamadas al agente de reservaciones ocurren de manera aleatoria, con un promedio de una llamada cada 3.75 minutos. Los datos históricos de tiempos de servicio muestran que un agente de reservaciones utiliza un promedio de 3 minutos con cada cliente. Las hipótesis del modelo de línea de espera con llegadas tipo Poisson y tiempo de servicio exponenciales parecen ser razonables para el sistema de reservación telefónico. La administración de Regional Airlines cree que poder ofrecer un eficiente sistema de reservaciones por teléfono es importante para presentar una imagen de una aerolínea orientada al servicio. Si el sistema se implementa correctamente, Regional Airlines tendrá buenas relaciones con los clientes, lo que a la larga incrementará su volumen de negocios. Sin embargo, si con frecuencia se sobrecarga el sistema de reservaciones telefónicas y los clientes tienen dificultades para entrar en contacto con un agente, una reacción negativa por parte de los clientes puede llevar a disminuciones en los volúmenes de venta. El costo de un agente de reservaciones es de 20 dólares la hora. Por lo tanto, aunque la administración desea dar un buen servicio, no desea incurrir en el costo de aumentar demasiado el personal de operación de reservaciones telefónicas con más agentes de los necesarios. En una reunión de planeación, el equipo de administración de Regional estuvo de acuerdo en que una meta aceptable de servicio a clientes es contestar de inmediato por lo menos 85% de las llamadas que se reciban. Durante la reunión de planeación, el vicepresidente de administración de Regional dijo que los datos muestran que la tasa promedio de servicio para un agente es mayor que la tasa promedio de llegadas de llamadas telefónicas. La conclusión del vicepresidente es que los costos de personal podrían minimizarse con un solo agente y que éste debería ser capaz de manejar las reservaciones telefónicas y. además, tener algo de tiempo ocioso. El vicepresidente de marketing volvió a insistir en la importancia del servicio a clientes y expresó su apoyo para mantener por lo menos dos agentes de reservaciones.
El actual sistema de reservaciones telefónicas no permite que quienes llaman puedan esperar. Los que llamen cuando todos los agente de reservaciones estén ocupados, recibirán una señal de ocupado y serán bloqueados, dejándolos fuera del sistema. Un representante de la empresa telefónica sugirió que Regional Airlines evaluara un sistema más grande, capaz de aceptar esperas. En el sistema ampliado, cuando un cliente llame y todos los agentes estén ocupados, recibirá un mensaje grabado que le indicará que su llamada está en espera en el orden de llegada y que pronto habrá un agente disponible. El cliente puede quedarse en la línea oyendo música de fondo mientras llega el momento que lo atienda un agente. La administración de Regional necesitará más información antes de cambiar al sistema ampliado.
Informe a la administración Prepare un informe a la administración de Regional Airlines analizando el sistema de reservaciones telefónicas. Incluya en su informe la siguiente información.
1.- Un análisis detallado de las características de operación del sistema de reservaciones con un agente, tal y como fue propuesto por el vicepresidente de administración. ¿Cuál es su recomendación, con relación a un sistema de un solo agente?
2.- Un análisis detallado de las características de operación del sistema de reservaciones, basado en su recomendación con relación al número de agentes que debería utilizar Regional y si el sistema debería permitir que los clientes esperen.