Material Metodos Cuantitativos 2011 Marzo

1

UNIVERSIDAD DE CHILE DEPARTAMENTO DE INGENIERIA INDUSTRIAL METODOS CUANTITATIVOS PROFESORA: SARA ARANCIBIA C

GUIA 1

Solución a problemas de Programación lineal usando Excel

I) Problema: Maximizar la utilidad Una fábrica elabora dos productos A y B. Ambos requieren tiempo en dos máquinas. La primera máquina está disponible las 24 horas, mientras que la segunda tiene una disponibilidad de 16. Cada unidad del producto A requiere dos horas en cada máquina. Cada unidad del producto B requiere tres horas de tiempo en la primera máquina y una en la segunda. La utilidad incremental es de US$6 por unidad de A y US$7 por unidad de B. Suponga que el mercado limita a seis la cantidad de unidades del producto B que pueden venderse. Si el objetivo es maximizar la utilidad, ¿cuántas unidades del producto A y cuántas del producto B podrían elaborarse?

0X0,X

6 162X

2432X s.a 76

21

2

22

21

21

≥≥

≤≤+≤+

+=

XX

XXXMaxU

• EL PROBLEMA QUE RESUELVE EL COMPUTADOR. Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades.

Este caso se lleva a cabo mediante el uso de variables de holgura y excedente.

Regla: Cualquier restricción ≤ puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restricción ≥ se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo.

En nuestro problema,: la forma estándar con restricciones de igualdad del modelo es:

0H,0H, 0,0X0,X

6 H X 162X

2432X s.a 76

22121

32

222

121

21

≥≥≥≥≥

=+=++=++

+=

H

HXHX

XXMaxU

La formulación de este problema se presenta en una hoja de cálculo. Abrir el archivo planilla problema 1 PL de Excel. La parte superior de la figura muestra los números, mientras que la parte media muestra las fórmulas utilizadas en la hoja de cálculo. Los valores para las dos variables de decisión, número de unidades de los productos A y B, están en las celdas B2 y C2 respectivamente. Se da una solución que

2

muestra un programa de producción de una unidad de cada producto que claramente no es la óptima. Los coeficientes para la función objetivo están en las celdas B4 y C4, y la función objetivo se encuentra en la celda F4. Los coeficientes para las restricciones de tiempo de la máquina y del límite de mercado del producto B, están desde la celda B7 hasta la celda C9, y el uso total se halla en la columna D. Por ejemplo, la celda D7 contiene la cantidad total de tiempo de la máquina 1, utilizada para este plan de producción (5 horas). La capacidad ficticia o no utilizada se muestra en la columna G.

3

Un primer paso para resolver el problema es ingresar al programa Solver que se encuentra en el menú de herramientas de Excel. Es decir hacer clic en el encabezado Herramientas y luego en la opción Solver. En la pantalla aparecerá la caja de diálogo que se muestra en la figura. La celda objetivo es la que contiene la función objetivo; en este caso F4, que se agrega a la celda de la caja de diálogo digitando en ella o haciendo clic en la celda correspondiente de la hoja de cálculo. Puede maximizarse o minimizarse si se elige la categoría apropiada para marcar. Las celdas de cambio están en la terminología de Excel para las variable de decisión. Hacer clic en la celda de esa caja de diálogo y escribir B2:C2 o destacar las celdas de las variables de decisión en las hojas de cálculo. A continuación se agregan las restricciones. Al hacer clic en las casilla que dice Add...(Agregar) aparece la caja de diálogo Add Constraint (Agregar restricción). La primer restricción que se incorpora es la de que todas las variables de decisión deben ser mayores que cero. Es importante hacerlo, ya que de otro modo Solver, no asume valores no negativos. Digitar en las celdas B2:C2 o destacar las celdas de las variables de decisión en las hojas de cálculo, y seleccionar > = 0 Luego hacer clic en Add. Aparece ahora una segunda caja de diálogo, Add Constraint. En la casilla Cell Referente resaltar o digitar en las celdas D7:D9. Estas celdas contienen la cantidad total del tiempo usado de la máquina y la cantidad total del producto B, los factores que están restringidos. En la caja del lado derecho, resaltar o digitar las celdas F7:F9, estos son los valores al lado derecho que dan los valores de restricción. A continuación, hacer clic en el botón OK para indicar que se han ingresado todas las restricciones. Debe aparecer la caja de diálogo Parámetros de Solver como se muestra en la figura.

4

Sigue un paso final, decirle a Solver que éste es un problema de programación lineal. Para ello hay que hacer clic en Opciones. Activar botón de Asumir Modelo Lineal OK. Se regresa a la caja de diálogo Parámetros de Solver. Activar botón de Solver. (Resolver)

6

Microsoft Excel 9.0 Informe de respuestasHoja de cálculo: [Problema 1 de producción P Lineal version 3.xls]Hoja2Informe creado: 21/02/03 19:59:45

Celda objetivo (Máximo)Celda Nombre Valor original Valor final$F$4 Función objetivo Utilidad total 13 64

Celdas cambiantesCelda Nombre Valor original Valor final$B$2 Variables de decisión Producto A 1 6$C$2 Variables de decisión Producto B 1 4

RestriccionesCelda Nombre Valor de la celda fórmula Estado Divergencia$D$7 Tiempo máquina 1 (horas) 24 $D$7<=$F$7 Obligatorio 0$D$8 Tiempo máquina 2 (horas) 16 $D$8<=$F$8 Obligatorio 0$D$9 Límite de mercado del producto B 4 $D$9<=$F$9 Opcional 2$B$2 Variables de decisión Producto A 6 $B$2>=0 Opcional 6$C$2 Variables de decisión Producto B 4 $C$2>=0 Opcional 4

Microsoft Excel 9.0 Informe de sensibilidadHoja de cálculo: [Problema 1 de producción P Lineal version 3.xls]Hoja2Informe creado: 21/02/03 19:59:45

Celdas cambiantesValor Gradiente Coeficiente Aumento Aumento

Celda Nombre Igual reducido objetivo permisible permisible$B$2 Variables de decisión Producto A 6 0 6 8 1,333333333$C$2 Variables de decisión Producto B 4 0 7 2 4

RestriccionesValor Sombra Restricción Aumento Aumento

Celda Nombre Igual precio lado derecho permisible permisible$D$7 Tiempo máquina 1 (horas) 24 2 24 4 8$D$8 Tiempo máquina 2 (horas) 16 1 16 8 4$D$9 Límite de mercado del producto B 4 0 6 1E+30 2

7

II) Problema de los molinos (Minimizar costo) Una fábrica tiene dos molinos . Las variables de decisión son el número de horas por semana que cada uno opera. El primer molino puede operar un máximo de 40 horas y el segundo, un máximo de 60 horas por semana. Cada hora de operación del primer molino produce 3 toneladas de producto terminado; cada hora del segundo molino produce 4 toneladas de producto. La fábrica tiene compromisos con clientes para producir por lo menos 1,75 toneladas de producto terminado. La hora de operación del primer molino cuesta US$20000 y la del segundo, cuesta US$40000 por hora, la fábrica desea mantener los costos tan bajos como sea posible.Por razones de su política interna, la empresa debe operar, por lo menos, igual número de horas en el segundo molino que en el primero. Formular el problema y resolver La formulación de PL es: Sea X1=horas semanales en el primer molino X2= horas semanales en el segundo molino

d)negativida no de ones(restricci 0X0,X interna) política la de entos(requerimi 0X-

as)en tonelad cliente del entos(requerimi 17543Xmolino) del (máximo 60X molino) del (máximo 40X s.a

dólares) de (miles 4020

21

21

21

2

1

21

≥≥≥+≥+≤≤+=

XX

XXMinC

• EL PROBLEMA QUE RESUELVE EL COMPUTADOR. Un problema de PL se puede transformar en un problema equivalente, en el que todas las restricciones sean igualdades. Este caso se lleva a cabo mediante el uso de variables de holgura y excedente. Regla: Cualquier restricción ≤ puede ser convertida en igualdad sumando una variable de holgura no negativa al lado izquierdo. Cualquier restricción ≥ se puede convertir en igualdad restando una variable de excedente no negativa al lado izquierdo. En nuestro problema,: la forma estándar con restricciones de igualdad del modelo es:

d)negativida no de ones(restricci 0S 0,S , 0H 0,H , 0X0,X 0X- 17543X 60X 40X s.a

dólares) de (miles 4020

212121

221

121

22

11

21

≥≥≥≥≥≥=−+

=−+=+=+

+=

SXSXHH

XXMinC

8

Molino 1 Molino 2Horas semanales 1 1

TotalCosto 20 40 60

Restricciones No utilizada ExcedenteHoras disponibles molino 1 1 1 <= 40 39Horas disponibles molino 1 1 1 <= 60 59Requerimientos del cliente (tone 3 4 7 >= 175 -168Política de requerimiento -1 1 0 >= 0 0

12

Microsoft Excel 9.0 Informe de respuestasHoja de cálculo: [Problema molinos.xls]Hoja2

Celda objetivo (Mínimo)Celda Nombre Valor original Valor final$F$4 Costo Total 60 1500

Celdas cambiantesCelda Nombre Valor original Valor final$B$2 Horas semanales Molino 1 1 25$C$2 Horas semanales Molino 2 1 25

RestriccionesCelda Nombre Valor de la celda fórmula Estado Divergencia$D$7 Horas disponibles molino 1 25 $D$7<=$F$7 Opcional 15$D$8 Horas disponibles molino 1 25 $D$8<=$F$8 Opcional 35$D$9 Requerimientos del cliente (toneladas) 175 $D$9>=$F$9 Obligatorio 0$D$10 Política de requerimiento 0 $D$10>=$F$10 Obligatorio 0$B$2 Horas semanales Molino 1 25 $B$2>=0 Opcional 25$C$2 Horas semanales Molino 2 25 $C$2>=0 Opcional 25

Microsoft Excel 9.0 Informe de sensibilidadHoja de cálculo: [Problema molinos.xls]Hoja2

Celdas cambiantesValor Gradiente Coeficiente Aumento Aumento

Celda Nombre Igual reducido objetivo permisible permisible$B$2 Horas semanales Molino 1 25 0 20 10 60$C$2 Horas semanales Molino 2 25 0 40 1E+30 13.33333333

RestriccionesValor Sombra Restricción Aumento Aumento

Celda Nombre Igual precio lado derecho permisible permisible$D$7 Horas disponibles molino 1 25 0 40 1E+30 15$D$8 Horas disponibles molino 1 25 0 60 1E+30 35$D$9 Requerimientos del cliente (toneladas) 175 8.571428571 175 105 175$D$10 Política de requerimiento 0 5.714285714 0 43.75 26.25

13


GUIA 2 ANALISIS INICIAL DE DATOS

I. Documento introducción :Análisis Inicial de los datos1 Cuando nos enfrentamos por primera vez a la realización de un análisis estadístico la máxima preocupación es profundizar en la técnica estadística seleccionada, sin .embargo, existe una etapa previa incluso más compleja y esencial que consiste en realizar un examen exhaustivo de los datos recabados. La depuración de los datos o detección de problemas ocultos en los datos supondrá un gran avance en la consecución de resultados lógicos consistentes. Dichos problemas se pueden subsanar comenzando por una inspección visual de las representaciones gráficas de los datos, completándose con un análisis de datos ausentes o perdidos y de los casos atípicos (conocidos bajo la denominación de outliers).

Representaciones gráficas para el análisis de datos La difusión experimentada en los últimos años por los programas estadísticos ha facilitando la incorporación de módulos específicamente diseñados para la inspección gráfica de los datos. El estudio de cada variable es fundamental para conocer sus características y comprobar si es oportuna y relevante su inclusión en el análisis. Para ello se aconseja observar la forma de su distribución. Esto se consigue mediante el histograma, que representa gráficamente los datos mostrando en barras la frecuencia de los casos en cada variable. Si a su vez se pretende evaluar la normalidad de la variable, se efectuará superponiendo la curva normal sobre la distribución o realizando gráficos P-P o Q-Q. Mediante el gráfico de dispersión se podrá examinar la relación entre dos o más variables. Se trata de un gráfico de puntos de datos basados en dos variables, representadas una en el eje horizontal y la otra en el vertical. El posicionamiento de los puntos a lo largo de una línea recta se debe a la existencia de correlación lineal. Si los puntos siguen distintas formas la relación no podrá calificarse de lineal. La inexistencia de relación se podrá constatar si la nube de puntos es aleatoria y dispersa. (Mediante correlaciones bivariadas Pearson se podrá determinar mediante una prueba de hipótesis si la correlación entre dos variables de escala es significativa). Mediante el gráfico de cajas o boxplot se puede llevar a cabo un análisis de las diferencias entre grupos, si lo que se pretende es apreciar la existencia de dos o más grupos en una variable métrica, como ocurre en el análisis discriminante o en el análisis de la varianza. Este gráfico distribuye los datos de tal forma que los límites superior e inferior de la caja marcan los cuartiles superior e inferior. La longitud de la caja es la distancia entre el primer y tercer cuartil; así, la caja contiene el 50 por ciento de los datos centrales de la distribución. La mediana se representa mediante una línea dentro de la caja. Existirá asimetría si la mediana se aproxima al final de la caja. El tamaño de la caja

TP

1PT Análisis Estadístico Multivariable de Manuel Vivanco

14

dependerá de la distancia entre las observaciones. También se representa la distancia entre la mayor y la menor de las observaciones mediante unas líneas que salen de la caja denominadas bigotes. En este tipo de gráfico los casos atípicos se pueden detectar por estar situados entre 1,0 Y 1,5 cuartiles fuera de la caja. Diagrama de caja simple: Contiene un único diagrama de caja para cada categoría o variable del eje de categorías. Los diagramas de caja muestran la mediana, los cuartiles y los valores extremos para la categoría o variable. Diagrama de caja agrupado: Tipo de gráfico en el que un grupo de diagramas de caja representa cada categoría o variable del eje de categorías. Los diagramas de caja dentro de cada agrupación vienen definidos por una variable de definición distinta.

OtraNegraBlanca

Raza del encuestado

20

15

10

5

0

Núm

ero

de a

ños

de e

scol

ariz

ació

n

693

688

765

960

961

1.404

804

634

718

1.448

695

244

620

596

621

821

735

MujerHombre

Sexo del encue

Años de escolarización por raza agrupados por sexo

OtraNegraBlanca

Raza del encuestado

20

15

10

5

0

Núm

ero

de a

ños

de e

scol

ariz

ació

n

1.476

634

718

691

702

693

688

899

1.366

244

620

596 765

735

Años de escolarización por raza

15

Detección de variables con categorías mal codificadas En muchos archivos de datos se detectan problemas en variables nominales con categorías en formato cadena sin un código asociado. Para detectar este problema es aconsejable realizar tablas de frecuencia de las variables y observar si las categorías presentan errores de digitación, como por ejemplo la variable sexo podría presentar problemas si las categorías están mal digitadas; Hombre, HOMBRE, hombre representan a la misma categoría, sin embargo en una tabla de frecuencia aparecerán como categorías diferentes. Para solucionar este problema se recomienda recodificar automáticamente asignándole a las categorías de la variable un código numérico y luego con recodificar en distinta variable asignar correctamente los códigos.

Análisis de datos ausentes En este proceso de depuración de datos (anterior a la utilización de los métodos multivariables) el analista debe ser consciente de que se enfrenta a una información que puede no existir en determinadas observaciones y variables. Esto es lo que conocemos por datos ausentes o missing values. El porqué de la existencia de datos ausentes puede deberse a distintas razones como errores al codificar los datos e introducirlos en el computador, fallas del encuestador al completar el cuestionario, negación del encuestado a responder ciertas preguntas calificadas de controvertidas… Razones comunes y muy habituales en todo proceso investigador. El problema de estos errores es el gran perjuicio que la inexistencia de datos ocasiona en los resultados y sus efectos en el tamaño de la muestra disponible para el análisis, dado que esta ausencia puede convertir lo que era una muestra adecuada en inadecuada. Por ello es necesario depurar esos casos y buscar soluciones. Si se puede suponer que los fundamentos teóricos de la investigación no se alteran sustancialmente, una opción sería suprimir aquellas variables y/o casos que peor se comportan respecto a los datos ausentes. En este caso el investigador deberá sopesar lo que gana con la exclusión de esta información y lo que pierde al no contar posteriormente en el análisis multivariante con la misma. Mediante este proceder se asegura de que su matriz de datos está completa y posee observaciones válidas. Otra posibilidad sería la estimación de valores ausentes empleando relaciones conocidas entre valores válidos de otras variables y/o casos de la muestra. Por tanto, se trataría de imputar o sustituir los datos ausentes por valores estimados (bien sea la media o un valor constante) en base a otra información existente en la muestra. Un porcentaje bajo de valores missing no es un problema que influya decisivamente en los resultados. Por el contrario, la falta reiterada de respuesta puede alterar seriamente el análisis. No existe una estimación respecto al porcentaje de missing que produce dificultades en una muestra determinada. Según Tabachnik y Fidell (1983) más importante que el número de valores missing es la existencia de un patrón de comportamiento en éstos. En efecto, la presencia de missing que se distribuyen aleatoriamente no produce sesgos, sin embargo, la falta de respuesta sistemática asociada a ciertas variables puede generar distorsión en los resultados. La existencia de datos ausentes nunca debe impedir la aplicación del análisis multivariable o limitar la posibilidad de generalizar los resultados de una investigación. La principal tarea del analista consistirá en identificar su presencia, y desempeñar las acciones necesarias para minimizar sus efectos. En datos correspondientes a encuestas es habitual encontrar códigos como los siguientes. 7= No procede, 8= No sabe , 9= No contesta

16

97= No procede, 98= No sabe, 99= No contesta 997= No procede, 998= No sabe, 999= No contesta Se utilizan estos códigos cuando no son parte de los posibles datos de la variable. El SPSS tiene un menú especial para tratar los valores perdidos. El SPSS hace diferencia para los valores perdidos por el usuario y valores perdidos por el sistema.

Detección de outliers Al examinar los datos recabados después de un proceso muestral el investigador puede detectar la existencia de ciertas observaciones que no siguen el mismo comportamiento del resto, enfrentándose de este modo a ciertos casos que, por ser claramente diferentes de otras observaciones de la muestra, son calificados como outliers o atípicos. El objetivo ante esta situación es identificar esa diferencia sustancial entre el valor real de la variable criterio y su valor previsto, puesto que da lugar a observaciones que no son representaciones apropiadas de la población de la cual se extrae la muestra. Los casos atípicos se deben a errores en el procedimiento, o lo que es lo mismo, a falta al introducir los datos o al codificar. Pero también pueden ser consecuencia de un evento extraordinario que hace destacar esa observación. Este acontecimiento anormal puede tener o no una explicación. En cualquiera de estas situaciones, una vez que: los outliers el analista debe juzgar qué es lo más apropiado: si evaluar toda la incluyendo estas perturbaciones o eliminadas del análisis. Estas decisiones han de justificarse, dado que determinados casos atípicos: aunque diferentes a la mayor parte de la muestra, pueden contener información representativa de un segmento dominante. No obstante, habrá situaciones donde lo más acertado sea su supresión porque pueden distorsionar seriamente los tests estadísticos dados los problemas que presentan. La detección de los casos atípicos desde una perspectiva univariable pasa por la observación de aquellos casos que caigan fuera de los rangos de la distribución. Si lo que se pretende es evaluar conjuntamente pares de variables se utilizará el gráfico de dispersión. Este método bivariable permite identificar los casos atípicos al venir representado como puntos aislados. Por su parte, la detección multivariable supone evaluar cada observación a lo largo de un conjunto de variables. Esto se consigue mediante el uso de la Mahalanobis, puesto que es una medida de la distancia de cada observación en un espacio multidimensional respecto del centro medio de las observaciones. Cuando se descubren errores Si se encuentran errores, el primer paso es regresar a la hoja de registro de datos o a los cuestionarios. Los errores sencillos se pueden corregir; en algunos casos se pueden corregir errores de un sujeto con base en sus respuestas a otras preguntas. Si no se puede hacer esto, entonces se pueden codificar esos reactivos como valores perdidos y se excluirán de los análisis. Es importante mencionar que la función Valores Perdidos de SPSS puede realizar esta tarea.

17

Otras herramientas muy útiles para limpiar los datos Recodificar automáticamente:

El cuadro de diálogo Recodificación automática le permite convertir los valores numéricos y de cadena en valores enteros consecutivos. Si los códigos de la categoría no son secuenciales, las casillas vacías resultantes reducen el rendimiento e incrementan los requisitos de memoria de muchos procedimientos. Además, algunos procedimientos no pueden utilizar variables de cadena y otros requieren valores enteros consecutivos para los niveles de los factores.

• La nueva variable, o variables, creadas por la recodificación automática conservan todas las etiquetas de variable y de valor definidas de la variable antigua. Para los valores que no tienen una etiqueta de valor ya definida se utiliza el valor original como etiqueta del valor recodificado. Una tabla muestra los valores antiguos, los nuevos y las etiquetas de valor. • Los valores de cadena se recodifican por orden alfabético, con las mayúsculas antes que las minúsculas. • Los valores perdidos se recodifican como valores perdidos mayores que cualquier valor no perdido y conservando el orden. Por ejemplo, si la variable original posee 10 valores no perdidos, el valor perdido mínimo se recodificará como 11, y el valor 11 será un valor perdido para la nueva variable.

Recodificar en la misma variable /distinta variable

El cuadro de diálogo Recodificar en las mismas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores. Por ejemplo, podría agrupar los salarios en categorías que sean rangos de salarios.

El cuadro de diálogo Recodificar en distintas variables le permite reasignar los valores de las variables existentes o agrupar rangos de valores existentes en nuevos valores para una variable nueva.

Puede recodificar variables numéricas en variables de cadena y viceversa.

• Si selecciona múltiples variables, todas deben ser del mismo tipo. No se pueden recodificar juntas las variables numéricas y de cadena.

Una vez que se han limpiado los datos podemos pasar a la parte más interesante del proceso, el análisis de datos.

18

II. Análisis inicial de datos: Agua Potable2 Considere el archivo “archivo APotable (errores).sav” correspondiente a una muestra aleatoria de hogares de la región Metropolitana que contiene el consumo de agua potable del mes de Enero del 2005. Realice un análisis inicial de los datos.

Solución: Análisis inicial de datos

a) Realizar una tabla para verificar información ( para esto se debe tener la información original)

Analizar/Informes/resúmenes de casos. Limitar los casos a los primeros 15. Todas las variables.

Resúmenes de casosa

1 10807 13101 233,80 618086 5 SANTIAGO 74,54 49,92 4,992 15565 13101 207,40 348340 5 SANTIAGO 63,41 54,22 5,423 11416 13101 183,00 335000 5 SANTIAGO 54,24 61,59 6,164 11358 13101 198,80 389295 5 SANTIAGO 63,79 67,67 6,775 4626 13101 233,00 182600 5 SANTIAGO 85,99 85,42 8,546 11492 13101 199,00 481151 5 SANTIAGO 70,91 88,74 8,87

7 16134 13102 208,40 150750 5 INDEPENDENCIA 58,93 39,36 3,94

8 9456 13102 141,36 242961 3 INDEPENDENCIA 57,00 68,08 6,81

9 10964 13102 170,88 182970 4 INDEPENDENCIA 61,58 70,28 7,03

10 11461 13102 186,20 452108 5 INDEPENDENCIA 62,11 80,61 8,06

11 3352 13102 288,72 384921 6 INDEPENDENCIA 105,82 95,94 9,59

12 6357 13102 249,84 263990 9 INDEPENDENCIA 60,97 108,81 10,88

13 11788 13103 210,40 266167 5 CONCHALI 62,02 45,79 4,58

14 13035 13103 220,80 215000 5 CONCHALI 71,26 58,64 5,86

15 14675 13103 194,00 428000 5 CONCHALI 60,92 65,89 6,59

15 15 15 15 15 15 15 15 15

1234567

8

9

10

11

12

13

14

15

NTotal

Númerode caso

Identificadordel Hogar

Identificadorde la

comunadonde se

encuentra elhogar

Consumode AguaPotable

Ingresodel

Hogar

N° deHabitantesdel Hogar

Comunadonde seencuentrael hogar

m3 libres(no

construidos)

m3edificados

Longituddel

frentedel

terreno

Limitado a los primeros 15 casos.a.

ii) Realizar tablas de frecuencia para las variables nominales y ordinales que Ud desea analizar

2 Ejercicio elaborado por Sara Arancibia

19

Comuna donde se encuentra el hogar

20 5,2 5,2 5,28 2,1 2,1 7,36 1,6 1,6 8,8

17 4,4 4,4 13,24 1,0 1,0 14,3

16 4,2 4,2 18,46 1,6 1,6 20,0

17 4,4 4,4 24,49 2,3 2,3 26,86 1,6 1,6 28,33 ,8 ,8 29,1

10 2,6 2,6 31,71 ,3 ,3 31,9

17 4,4 4,4 36,412 3,1 3,1 39,513 3,4 3,4 42,911 2,9 2,9 45,7

6 1,6 1,6 47,31 ,3 ,3 47,5

23 6,0 6,0 53,55 1,3 1,3 54,8

15 3,9 3,9 58,7

1 ,3 ,3 59,016 4,2 4,2 63,1

8 2,1 2,1 65,222 5,7 5,7 70,915 3,9 3,9 74,814 3,6 3,6 78,412 3,1 3,1 81,618 4,7 4,7 86,213 3,4 3,4 89,6

7 1,8 1,8 91,48 2,1 2,1 93,56 1,6 1,6 95,1

19 4,9 4,9 100,0385 100,0 100,0

CERRILLOSCERRO NAVIACONCHALIEL BOSQUEESTACION CENTRALHUECHURABAINDEPENDENCIALA CISTERNALA FLORIDALA GRANJALA PINTANALA REINALas CONDESLAS CONDESLO BARNECHEALO ESPEJOLO PRADOMACULMaipuMAIPUÑUÑOAPEDRO AGUIRRECERDAPENALOLENPEÑALOLENPROVIDENCIAPUDAHUELQUILICURAQUINTA NORMALRECOLETARENCASAN JOAQUINSAN MIGUELSAN RAMONSANTIAGOVITACURATotal

VálidosFrecuencia Porcentaje

Porcentajeválido

Porcentajeacumulado

De la tabla se observan dos errores con las comunas Maipú y las Condes. Este error se debe a que no se digitó con un código identificador. Es aconsejable asignar un código numérico. Para solucionar este problema se debe recodificar automáticamente y luego recodificar en la misma variable. Transformar/recodificación automática/ Variable: comuna Variable nueva : comurec

20

Añadir nuevo nombre Recodificar empezando por primer valor Aceptar Se crea una nueva variable comurec con código numérico. En utilidades variables se identifican los códigos de cada etiqueta correspondiendo 13 Las Condes 14 LAS CONDES 19 Maipu 20 MAIPU Transformar/recodificar /en la misma variable Considere la variable comurec Valores antiguos y nuevos Valor antiguo:13 Valor nuevo: 14 Añadir Valor antiguo:19 Valor nuevo: 20 Añadir Continuar aceptar Vuelva a realizar tablas de frecuencias de comurec

iii) Realizar tablas con valores extremos y diagramas de caja. Esto nos permitirá verificar si los casos los valores atípicos existen o han sido mal ingresados.

Comuna donde se encuentra el hogar

20 5,2 5,2 5,28 2,1 2,1 7,36 1,6 1,6 8,8

17 4,4 4,4 13,24 1,0 1,0 14,3

16 4,2 4,2 18,46 1,6 1,6 20,0

17 4,4 4,4 24,49 2,3 2,3 26,86 1,6 1,6 28,33 ,8 ,8 29,1

10 2,6 2,6 31,718 4,7 4,7 36,412 3,1 3,1 39,513 3,4 3,4 42,911 2,9 2,9 45,7

6 1,6 1,6 47,324 6,2 6,2 53,5

5 1,3 1,3 54,8

15 3,9 3,9 58,7

1 ,3 ,3 59,016 4,2 4,2 63,1

8 2,1 2,1 65,222 5,7 5,7 70,915 3,9 3,9 74,814 3,6 3,6 78,412 3,1 3,1 81,618 4,7 4,7 86,213 3,4 3,4 89,6

7 1,8 1,8 91,48 2,1 2,1 93,56 1,6 1,6 95,1

19 4,9 4,9 100,0385 100,0 100,0

CERRILLOSCERRO NAVIACONCHALIEL BOSQUEESTACION CENTRALHUECHURABAINDEPENDENCIALA CISTERNALA FLORIDALA GRANJALA PINTANALA REINALAS CONDESLO BARNECHEALO ESPEJOLO PRADOMACULMAIPUÑUÑOAPEDRO AGUIRRECERDAPENALOLENPEÑALOLENPROVIDENCIAPUDAHUELQUILICURAQUINTA NORMALRECOLETARENCASAN JOAQUINSAN MIGUELSAN RAMONSANTIAGOVITACURATotal


Porcentajeválido

Porcentajeacumulado

21

Valores extremos

378 901,60370 571,68385 560,64

46 513,48375 505,60238 125,04205 129,48330 129,76314 129,84290 135,52

1234512345

Mayores

Menores

Consumo deAgua Potable

Númerodel caso Valor

Valores extremos

207 114160040 1602365

146 1512608342 1126072372 1060366

72 18260104 20000210 22825

45 22825341 33044

1234512345

Mayores

Menores

Ingreso del Hoga


Valores extremos

385 22370 12

46 11376 11378 11338 3332 3314 3303 3282 3a

1234512345

Mayores

Menores

N° de Habitantesdel Hogar


En la tabla de valores extremos menores sólo sea.

22

Menu Analizar /Explorar/

Variables: Consumo agua potable, Ingreso del hogar, y No habitantes del hogar

Estadísticos/ Valores atípicos

Gráficos Diagrama de caja para cada una de las variables mencionadas.

Para cada variable se debería verificar si la información de los valores atípicos está bien registrada. Corregir en el caso que sea posible o filtrar los casos muy extremos para no sesgar los análisis.

iv) Cuando existen columnas (variables como identificador de otra variable) como el caso de la variable identificador de comuna y comurec, se debe verificar si se corresponden. Para esto puede ordenar id-comuna en forma ascendente y ver si se corresponde visualmente con la comurec. Otra forma es crear una variable de cadena donde concatene los dos codigos (correspondiente a id-comuna y comurec). Esto le permitirá ver en una tabla de frecuencia si las variables se corresponden. En el ejemplo hay dos códigos que se corresponden con 13107 lo cual acusa error. 13107 y 23 13107 y 24 Se debe corregir.

Sintaxis del procedimiento

STRING concat (A13). COMPUTE concat = CONCAT(STRING(id_comun,F11.0),STRING(comurec,F2.0)) . EXECUTE .

23

concat

6 1,6 1,6 1,66 1,6 1,6 3,16 1,6 1,6 4,74 1,0 1,0 5,7

12 3,1 3,1 8,88 2,1 2,1 10,91 ,3 ,3 11,2

16 4,2 4,2 15,312 3,1 3,1 18,48 2,1 2,1 20,55 1,3 1,3 21,8

10 2,6 2,6 24,46 1,6 1,6 26,0

17 4,4 4,4 30,49 2,3 2,3 32,7

14 3,6 3,6 36,45 1,3 1,3 37,73 ,8 ,8 38,48 2,1 2,1 40,57 1,8 1,8 42,3

19 4,9 4,9 47,317 4,4 4,4 51,715 3,9 3,9 55,613 3,4 3,4 59,016 4,2 4,2 63,120 5,2 5,2 68,324 6,2 6,2 74,514 3,6 3,6 78,211 2,9 2,9 81,022 5,7 5,7 86,818 4,7 4,7 91,418 4,7 4,7 96,115 3,9 3,9 100,0

385 100,0 100,0

1310134 13102 7 13103 3 13104 5 1310529 1310625 1310723 1310724 1310815 13109 2 1311021 1311112 1311218 13113 8 13114 9 1311531 1311610 1311711 1311833 1311932 1312035 13121 4 1312222 1312316 13124 6 13125 1 1312620 1312728 1312817 1312926 1313014 1313130 1313227Total


Porcentajeválido

Porcentajeacumulado

24


GUIA 3 Estudio de Caso: Qué opinan los jóvenes3 En septiembre del 2009 se realizó una encuesta telefónica de opinión pública a jóvenes entre 18 y 29 años de las regiones V, VIII y RM con el fin de conocer la opinión sobre las cosas que hacen y piensan en la actualidad. Fuente (Feedback y UDP). Se diseñó un cuestionario con 51 preguntas que se puede ver en detalle en el anexo. El archivo de datos del que usted dispone se llama “caso Datos jóvenes 1.sav” que contiene 1000 filas (casos) y 277 columnas (variables) El objetivo del caso es explorar el archivo de datos y depurarlo, realizar distintos tipos de gráficos, aplicar distintas tablas que permitan obtener porcentajes y estadísticos descriptivos e interpretar los resultados. 1.- Explore las variables que a continuación se mencionan y defina correctamente según corresponda. Considere el archivo “caso Datos jóvenes 1.sav” Nombre de la variable Etiqueta Valores

REGION REGION5=V 8=VIII 13=RM

SEXO SEXO1=Hombre 2=Mujer

EDAD EDADModificar 18="188" 18="8" 29="299"

P02ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN

LOS REGISTROS ELECTORALES?

1= ESTÁ INSCRITO 2= NO ESTÁ INSCRITO 99=NS‐NR

P11_04

EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIÓN? ‐PORTALES DE INTERNET

DISTINTOS A LOS DIARIOS

99,00 = "NS‐NR"

NSE GRUPOS SOCIOECONÓMICOS (BASE ESOMAR)

1 = "ABC1" 2 = "C2" 3 = "C3" 4 = "D"

3 Caso elaborado por Sara Arancibia C

25

2.- Considere el archivo “caso Datos jóvenes 2.sav” (ya corregido de acuerdo a lo anterior) y realice los siguientes gráficos. 2-1) Realice un gráfico que muestre la frecuencia y porcentaje de encuestados por REGION 2-2) Realice un gráfico que muestre la frecuencia de jóvenes que están inscritos o no en los registros electorales agrupados por SEXO 2-3) Realice un gráfico que muestre la media de edad por sexo. 2-4) Realice un gráfico que permita visualizar la forma de la distribución de la edad de los encuestados. 2-5) Realice un gráfico que permita visualizar para la variable “Edad” los descriptivos; cuartiles, Rango intercuartil, valores atípicos y extremos. Luego repita el gráfico pero para Edad por REGION agrupados por SEXO y compare. 3) Realice las siguientes tablas: 3-1) Una tabla con los siguientes descriptivos para Edad: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. 3-2) Una tabla con los siguientes descriptivos tanto para hombres como para mujeres y por región: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos 3-4) Una tabla de frecuencia de SEXO segmentada por REGION 3-5) Una tabla que muestre número de observaciones por REGION y SEXO 3-6) Una tabla por región, identificando por folio los cinco valores mayores y cinco valores menores de la variable P11_04: EN UN DÍA NORMAL ¿CUÁNTAS HORAS, EN PROMEDIO, DEDICAS A LOS SIGUIENTES MEDIOS DE COMUNICACIÓN? -PORTALES DE INTERNET DISTINTOS A LOS DIARIOS 3-7) Exportar todas las tablas anteriores del visor de resultados a Excel 4) Cálculo de porcentajes Nota Previa: Porcentajes: parecen inofensivos pero son peligrosos Los porcentajes se pueden prestar a confusiones y malentendidos, por lo que no estará de más revisar algunos ejemplos. Siempre se debe tener en cuenta respecto a qué se calcula el porcentaje. Veamos un ejemplo: un gel suele venderse en botellas de 750 cc y ahora, por el mismo precio, la botella es de 1000 cc. ¿Qué porcentaje de gel están regalando? Depende de sobre qué valor se calcule el porcentaje: sobre el contenido inicial se regala el 33%, y sobre el final, el 25%. También se debe distinguir entre porcentajes y puntos porcentuales. Así, si se dice que los beneficios de una empresa han pasado de un 2 a un 4% han aumentado 2 puntos porcentuales (pero no un 2%!) Igualmente se debe distinguir entre porcentajes basados en niveles y porcentajes basados en cambios de nivel. El siguiente ejemplo aclara esta cuestión. Un vendedor vendió el año pasado por valor de 10 millones de euros. Su objetivo para este año era aumentar su facturación en un 6%. El vendedor ha logrado vender sólo por valor de 10,3 millones. ¿Qué porcentaje de objetivo ha logrado?

26

Si el objetivo es el incremento, sólo consigue el 50 %, pero si se interpreta que el objetivo era vender 10,6 y ha vendido 10,3, ha logrado el 97,2%. Por último, también hay que tener cuidado cuando se realizan operaciones con porcentajes:

1. Si el precio de un producto se aumenta el 20 % y después disminuye también el 20 %, ¿cómo queda el precio final respecto al inicial? No se queda como estaba, disminuye un 4%. Si el precio inicial era X, el final será (X+0,2X)-0,2(X+0,2X)=X-0,04X.

2. Un producto está formado por 10 componentes y cada componente aumenta su coste un 2%, ¿cuánto aumenta el coste del producto? Aumenta un 2%. No importa que haya unos componentes muy caros y otros muy baratos. Si no lo ve claro haga las cuentas y se convencerá.

3. Si Juan gana un 1000% más que Pedro, gana 11 veces más (no 10). Si gana un 100% más gana el doble, si gana un 200% más, el triple, etc.

No es lo que parece: la paradoja de Simpson

Cuando se dan porcentajes globales comparando grupos que a su vez contienen varias partes, puede parecer que ocurre una cosa cuando en realidad está ocurriendo otra. Este fenómeno se conoce con el nombre de paradoja de Simpson. Veamos un ejemplo. Una gran compañía abre una nueva fábrica creando 250 puestos de trabajo en los departamentos de compras, montaje y almacén. En total se presentan 355 hombres y 325 mujeres, de los cuales son admitidos 190 hombre (el 53%) y 60 mujeres (el 18,5%). Se comprueba que el nivel de preparación de hombres y mujeres es similar entre los aspirantes a cada departamento. ¿Podemos asegurar que se ha discriminado a las mujeres? La respuesta es no. Los datos son los siguientes:

Departamento Plazas Hombres Mujeres Hombres Mujeres Hombres MujeresCompras 30 25 100 5 25 20 25Montaje 200 250 25 180 20 72 80Almacén 20 80 200 5 15 6,25 7,5Total 250 355 325 190 60 53,5 18,5

Aspirantes Admitidos % Admitidos

En realidad, en todos los departamentos la proporción de admitidos ha sido mayor entre las mujeres. La clave está en que al departamento que ofrece más plazas se han presentado muchos hombres y pocas mujeres, mientras que en los que ofrecen menos plazas ocurre lo contrario. Y una curiosidad para terminar este apartado de porcentajes: Analice la noticia obtenida desde un periódico “el 65% de los jóvenes de 10 a 17 años admite que accede a videojuegos para mayores de edad”. El texto de la noticia aclara de dónde sale el 65%: ¡del 50% de los chicos y del 15% de las chicas! (¿qué porcentaje hubiera dado si se tratara del 50 % de chicos y del 60% de las chicas?) Referencia: La certeza absoluta y otras ficciones de Pere Grima. 2010 RBA Coleccionables. Ejercicios 4-1) ¿Qué porcentaje respecto al total de la muestra representan los jóvenes que están inscritos en los registros electorales?. ¿ Qué porcentaje de los inscritos en los registros electorales son hombres?. ¿Qué porcentaje de las mujeres no están inscritas en los registros electorales? ¿Qué porcentaje respecto al total de la muestra representan los jóvenes que no están inscritos en los registros electorales y son mujeres?.

27

4-2) ¿Respecto al total de hombres qué porcentaje está inscrito en los registros electorales y pertenece al grupo socioeconómico ABC1?. ¿Respecto al total de hombres del grupo D, qué porcentaje no está inscrito en los registros electorales?. ¿Respecto al total de mujeres qué porcentaje no está inscrito en los registros electorales y pertenece al grupo socioeconómico C2?. ¿Respecto al total de mujeres que no están inscritas en los registros electorales , qué porcentaje pertenece al grupos C3?. SOLUCION En primer lugar para hacer más eficiente el análisis se recomienda crear un conjunto con sólo las variables que interesa analizar. Para esto ir a Utilidades/definir conjuntos de variables/ Nombre del conjunto: CONJUNTO 1/ variables FOLIO, REGION, SEXO, EDAD, P02, P11_04, NSE/Añadir conjunto/Cerrar. Luego para utilizar el conjunto ir a Utilidades/ Utilizar conjuntos de variables/ activar NEWVARIABLES y CONJUNTO 1/Aceptar. Ahora para explorar y depurar el archivo de datos es recomendable explorar las variables en Datos / Definir propiedades de variables /seleccionar las variables REGION, SEXO, EDAD, P02, P11_04, NSE/ se observa para cada variable la frecuencia, valores, etiquetas y otras propiedades. Se observa que se debe depurar cada variable excepto NSE Para depurar la variable REGION que está definida como cadena ir a Transformar/ Recodificación automáticamente/seleccionar la variable REGION / nuevo nombre regionrec/ menor valor/ aceptar GET FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=REGION /INTO regionrec /PRINT. REGION into regionrec (Región) Old Value New Value Value Label RM 1 RM V 2 V VIII 3 VIII Ahora la variable es numérica y cada región tiene un código asignado. Para cambiar el código ir a Transformar/ recodificar en la misma variable/valores antiguos y nuevos/ Valor antiguo: 1 asignar valor nuevo 13 Añadir Valor antiguo: 2 asignar valor nuevo 5 Añadir Valor antiguo: 3 asignar valor nuevo 8 Añadir

28

Ir a Datos/Definir propiedades de variables/regionrec/ poner etiquetas/ RM-V y VIII respectivamente/ Aceptar Para depurar la variable SEXO que está definida como cadena ir a Transformar/ Recodificación automática/seleccionar la variable SEXO/ nuevo nombre sexor/ menor valor/ aceptar Ir a Datos/Definir propiedades de variables/sexor/ cambiar etiquetas/ h por HOMBRE y m por MUJER/Aceptar GET FILE='F:\Año 2011\AIE 2011\CASO JOVENES\caso Datos Jovenes 1.sav'. AUTORECODE VARIABLES=SEXO /INTO sexor /PRINT. SEXO into sexor (SEXO) Old Value New Value Value Label h 1 h m 2 m * Definir propiedades de variables. *sexor. VALUE LABELS sexor 1 'HOMBRE' 2 'MUJER'. EXECUTE. Para depurar la variable P02 que está definida como cadena y con etiquetas mal asignados ir a Transformar/ Recodificación automática/seleccionar la variable P02/ nuevo nombre P02r/ menor valor/ aceptar Ir a Transformar/ Recodificar en la misma variable/seleccionar la variable P02r/ valor antiguo 1 asigne valor nuevo 2 y al valor antiguo 3 asigne el valor nuevo 4. Esto depura los datos obteniendo una nueva tabla de frecuencia como sigue. Ir a Vista de variable y eliminar las etiquetas 1 y 3

AUTORECODE VARIABLES=P02 /INTO PO2r /PRINT. P02 into PO2r (ACTUALMENTE, ¿ESTÁS O NO ESTÁS INSCRITO EN LOS REGISTROS

29

ELECTORALES?) Old Value New Value Value Label Está Inscrito 1 Está Inscrito ESTÁ INSCRITO 2 ESTÁ INSCRITO No está inscrito 3 No está inscrito NO ESTÄ INSCRITO 4 NO ESTÄ INSCRITO RECODE PO2r (1=2) (3=4). EXECUTE. FREQUENCIES VARIABLES=PO2r /ORDER=ANALYSIS. Para depurar la variable P11_04 Se observa en Datos/Definir propiedades de variables/ que hay tres valores fuera de rango. Para cambiarlos se debe ir a editor de datos y al odenar ascendentemente se selecciona el valor 8 y se cambia por 18, luego se ordena descendentemente y los valores 188 por 18 y 299 por 29. 2) Gráficos 2-1) Gráficos/Generador de gráficos/sectores/REGION

2-2) Gráficos /Generador de gráficos/Barras/ agrupados/P02/ SEXO

30

2-3) Gráficos/ Cuadros de diálogo antiguos/Barras / Simple/Resúmenes para grupos de casos/Definir/Las barras representan Mean(EDAD)/ Eje de categorías : SEXO

2-4) Gráficos /Generador de gráficos/Histograma/ EDAD

31

2-5) Gráficos/ Generador de gráficos/ Diagrama de cajas/ Seleccionar Simple/ Eje Y: EDAD

Gráficos/ Generador de gráficos/ Diagrama de cajas/seleccionar Agrupados/ Eje Y: EDAD/EjeX: REGION/ Agrupados por SEXO

32

3) Tablas 3-1) Analizar/estadísticos descriptivos/ Frecuencias/ Edad / Estadisticos; Media, Mediana, Minimo, máximo, DEsv Estándar, asimetría, curtosis

3-2) Analizar/Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis.

33

Nota Si además se quieren calcular los cuartiles se puede segmentar el archivo por SEXO y REGION y luego ir al menú de frecuencias y solicitar los descriptivos anteriores y los cuartiles. ( Ayuda Ir a Datos/Segmentar archivos/ Comparar los grupos/ Seleccionar las variables SEXO y REGION 3-3) Dejar los resultados de la tabla anterior (Cubo OLAP) como un archivo de datos Utilidades/Panel de control de SGR ( Sistema de gestión de resultados) Seleccionar Tablas/ OLAP Cubles / Layered Reports/ Nuevo conjunto de datos/: ArchivoOLAP y luego añadir/ Aceptar

34

Luego ir a Menú: Informes/Cubos OLAP/Variables de resumen: Edad/variables de agrupación SEXO y REGION/Estadísticos: N, Media, mediana, Mínimo, máximo, Desv estándar, asimetría y curtosis. Aceptar Volver a Utilidades Utilidades/Panel de control de SGR ( Sistema de gestión de resultados) activar Terminar todo. Aceptar. Aparecerá el archivo

35

3-4) Datos/ Segmentar archivo/ Comparar los grupos/ variable de segmentación REGION /Aceptar Analizar/Estadísticos Descriptivos/frecuencias / SEXO/ activar la tabla de frecuencia

3-5) Sacar la segmentación: Datos/segmentar archivo/Restablecer Analizar/Estadísticos Descriptivos/ tablas de contingencia/ Casillas: Recuentos Observado

36

3-6) Previamente se debe verificar si en la variable P11_04 el valor 99 está definido como perdido. Analizar/ Explorar/ Lista de dependientes: P11_04/ Lista de Factores: Región/Etiquetar los casos mediante: Folio/ Estadísticos: valores atípicos (nota: Muestra los cinco valores mayores y menores y parecen como valores extremos pero en rigor no necesariamente son valores atípicos ni extremos)

37

3-7) Primero se debe limpiar el visor de resultados dejando exclusivamente lo que se quiere exportar. Luego ir a Archivo/ exportar resultados / seleccionar tipo Excel/ Examinar guardar en Escritorio / VISOR/ Aceptar. Abrir desde Escritorio los resultados exportados

4) Tablas 4-1) Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: Sexo/ Casillas: Porcentajes Filas, columnas y Total. El 20,7% de la muestra representan los jóvenes que están inscritos en los registros electorales. El 53,6% de los inscritos en los registros electorales son hombres. El 77,9% de las mujeres no están inscritas en los registros electorales El 39,1% de la muestra representan los jóvenes que no están inscritos en los registros electorales y son mujeres.

38

4-2) Analizar/ Estadísticos Descriptivos/ tablas de contingencia/ Filas: P02/ Columnas: NSE/ Capa: SEXO/Casillas: Porcentajes Filas, columnas y Total. Respecto al total de hombres el 3,2 % está inscrito en los registros electorales y pertenece al grupo socioeconómico ABC1. Respecto al total de hombres del grupo D, el 88% no está inscrito en los registros electorales. Respecto al total de mujeres el 12,4% no está inscrito en los registros electorales y pertenece al grupo socioeconómico C2. Respecto al total de mujeres que no están inscritas en los registros electorales, el 39,9% pertenece al grupos C3.

40


GUIA 4

Estudio de Caso: Caracterización de países

Considere el archivo Mundo 95, que contiene variables con características de los países del Mundo en el año 1995. Usted debe realizar un informe donde compare los países en por lo menos los siguientes aspectos: Población, densidad, % de habitantes en ciudades, esperanza de vida, alfabetización (%), tasas de natalidad y mortalidad, número promedio de hijos por familia, tasa sida, considerando las variables nominales Región, Religión mayoritaria y clima predominante.

Variable Etiqueta PAÍS País POBLAC Población x 1000 DENSIDAD Habitantes x Km2 URBANA Habitantes en ciudades (%) RELIG Religión mayoritaria ESPVIDAF Esperanza de vida Femenina ESPVIDAM Esperanza de vida Masculina ALFABET Alfabetización (%) INC_POB Aumento de población (% anual) MORTINF Mortalidad infantil (Muertes por 1000 nacimientos vivos) PIB_CAP Producto interno bruto per cápita REGIÓN Región Económica

1 = OCDE 2 = Europa Oriental 3 = Asia / Pacífico 4 = Africa 5 = Oriente Medio 6 = América Latina

CALORÍAS Ingesta diaria de calorías SIDA Casos de SIDA TASA_NAT Tasa de natalidad (por 1.000 habitantes) TASA_MOR Tasa de mortalidad (por 1.000 habitantes) TASASIDA Casos de SIDA por 100.000 habitantes LOG_PIB Log(10) de PIB_CAP LOGTSIDA Log(10) de TASASIDA NAC_DEF Tasa nacimentos/defunciones FERTILID Número promedio de hijos LOG_POB Log(10) de POBLAC CREGRANO --

41

ALFABMAS Hombres alfabetizados (%) ALFABFEM Mujeres alfabetizadas (%) CLIMA Clima predominante

1 = Desierto 2 = Arido / Desierto 3 = Arido 5 = Tropical 6 = Mediterráneo 7 = Marítimo 8 = Templado 9 = Artico / Templado 10 = Artico

Para su informe debe considerar por lo menos los siguientes puntos: a) Tres gráficos distintos con su interpretación. b) Tablas de frecuencia c) Tablas de contingencia d) Valores Outliers ( Valores extremos) e) Medidas de tendencia central f) Medidas de dispersión g) Cubos OLAP h) Puntuaciones z

Solución Caso Mundo 95 Comenzaremos el estudio determinando la frecuencia de las variables nominales; Región Económica, Religión Predominante y Clima Predominante de los países

La tabla de frecuencia muestra el número de países por Región económica. Se observan dos regiones con la mayor frecuencia, (21 países) las que corresponden a la Región OECD (Organización para la Cooperación y el Desarrollo Económico) y a la Región de Latino América, correspondiendo al 19,3% del total de países. La menor frecuencia se observa en Europa del este con 14 países de un total de 109 países. El gráfico siguiente muestra la frecuencia y porcentaje de países por Religión predominante.

Region or economic group

21 19,3 19,314 12,8 12,817 15,6 15,619 17,4 17,417 15,6 15,621 19,3 19,3

109 100,0 100,0

OECDEast EuropePacific/AsiaAfricaMiddle EastLatn AmericaTotal

ValidFrequency Percent Valid Percent

42

Frecuencia y porcentaje de países

por Religión Predominante

10,00 / 9,2%

16,00 / 14,7%

8,00 / 7,3%

27,00 / 24,8%

41,00 / 37,6%

7,00 / 6,4%

Other

Protstnt

Orthodox

Muslim

Catholic

Buddhist

Se observa que 41 países que representan el 37,6% del total de países considerados son predominantemente de la Religión Católica y 27 países son predominantemente de la religión Musulmana representando el 24,8% del total de países considerados. (Nota: Graficar/sectores (pie)/ Resumen para grupos de casos/Nº de casos/Religión Predominante/ En el editor de gráficos se pide texto, valor y porcentaje y se colapsa los sectores a mayores del 5%.) La tabla de frecuencia para Religión Predominante muestra complementariamente al gráfico anterior que las religiones con menor frecuencia son las religiones Hindú, Judía, Taoísta y Tribal

Al cruzar las variables Región y Religión podemos observar en la tabla de contingencia que la Religión Predominante Animista pertenece a países de África. La religión predominante Católica se encuentra en todas las regiones excepto en la Región de Oriente donde la religión predominante es la

Predominant religion

4 3,7 3,77 6,4 6,5

41 37,6 38,01 ,9 ,91 ,9 ,9

27 24,8 25,08 7,3 7,4

16 14,7 14,82 1,8 1,91 ,9 ,9

108 99,1 100,01 ,9

109 100,0

AnimistBuddhistCatholicHinduJewishMuslimOrthodoxProtstntTaoistTribalTotal

Valid

MissingTotal

Frequency Percent Valid Percent

43

Musulmana con 15 países de un total de 17 países de la región

Predominant religion * Region or economic group Crosstabulation

Count

4 47 7

10 5 1 5 20 411 1

1 11 5 6 15 27

1 6 1 810 2 1 2 1 16

2 21 1

21 14 17 18 17 21 108

AnimistBuddhistCatholicHinduJewishMuslimOrthodoxProtstntTaoistTribal

Predominantreligion

Total

OECDEast

EuropePacific/

Asia AfricaMiddleEast

LatnAmerica


Total

En relación al Clima Predominante se observa que las mayores frecuencias corresponden a los climas Temperado y Tropical los que representan un 31,8% y 29,9% respectivamente respecto al total de datos válidos.

Ahora consideremos la población, densidad y habitantes que viven en ciudades. Podemos observar del gráfico correspondiente a la mediana de población por región económica que el 50% de los países de Asia / Pacífico tienen una población mayor o igual a 59.400.000 habitantes, valor notablemente alto en relación a las medianas del resto de las regiones las que oscilan entre 10.400.000 y 5.500.000 habitantes

Predominant climate

7 6,4 6,55 4,6 4,76 5,5 5,65 4,6 4,7

32 29,4 29,910 9,2 9,34 3,7 3,7

34 31,2 31,84 3,7 3,7

107 98,2 100,02 1,8

109 100,0

desertarid / desertaridotrotropicalmediterraneanmaritimetemperatearctic / tempTotal

Valid

SystemMissingTotal

Frequency Percent Valid Percent

44

Mediana de Población por Región Económica


Latn AmericaMiddle East

AfricaPacific/Asia

East EuropeOECD

Med

Pop

ulat

ion

in th

ousa

nds

70000

60000

50000

40000

30000

20000

10000

07900

55009100

59400

960010400

Coherente con lo anterior se observa que la mayor densidad por región económica corresponde a la Región Asia/Pacífico con un valor promedio de 802 habitantes por Km2, la que es considerablemente superior a la densidad promedio del resto de regiones las que oscilan entre 127 y 62 habitantes por km2 correspondiendo esta última a la región de África

Media de densidad por Región Económica



AfricaPacific/Asia

East EuropeOECD

Mea

n N

umbe

r of p

eopl

e / s

q. k

ilom

eter

1000

800

600

400

200

0 88127

62

802

77108

(Nota: Graficar/Barras/simples. Resumen para grupos de casos/N de casos/ Región Económica)

45

Media de porcentaje de población

que vive en ciudades

Reg

ion

or e

cono

mic

gro

up

OECD

East Europe

Pacific/Asia

Africa

Middle East

Latn America

Mean People living in cities (%)

80706050403020

61

66

29

45

62

75

En relación al porcentaje de personas que viven en ciudades, se observa del gráfico que el mayor porcentaje promedio corresponde a la Región OECD con un 75% en promedio. Es considerable la diferencia con la Región de Africa donde el promedio de población urbana es del 29%, seguido de Asia/pacífico con un promedio del 45%. Podemos complementar la información anterior con Cubos Olap, los que muestran por grupos, los estadísticos que se necesiten conocer. Específicamente los Cubos siguientes muestran para la Región OECD y Africa , el número de países el que corresponde a 21 y 18 países respectivamente. Se observa la media para cada una de las variables consideradas y la desviación estándar que muestra cuánto se desvían los datos, en promedio respecto a la media. Al considerar el cubo correspondiente a la región OECD se observan los valores mínimo y máximo, es sorprendente observar que existen países con una densidad de 2,3 habitantes por km2 y de 366 personas por km2. Al considerar la población, dentro de los países del OECD se puede apreciar un valor mínimo de 263.000 habitantes en oposición al valor máximo de 260.800.000 habitantes. El mayor porcentaje de población urbana corresponde al 96% y el nor corresponde al 34%.

OLAP Cubes

Region or economic group: OECDPredominant climate: TotalPredominant religion: Total

21 21 2133085,10 107,981 74,7157148,25 107,936 14,89

263 2,3 34260800 366,0 96

10400,00 80,000 77,00

NMeanStd. DeviationMinimumMaximumMedian

Population in thousandsNumber of people

/ sq. kilometer People living in cities (%)

46

OLAP Cubes

Region or economic group: AfricaPredominant climate: TotalPredominant religion: Total

18 18 1818415,83 63,700 28,1724331,33 79,823 14,70

959 2,4 598100 311,0 47

8900,00 39,500 24,50

NMeanStd. DeviationMinimumMaximumMedian

Population in thousandsNumber of people

/ sq. kilometer People living in cities (%)

Al considerar el cubo correspondiente a la región de África se observa una media de población considerablemente más baja que la media de la Región OECD y que la variabilidad en la variable población del 132% es más baja que si se compara con la región del OECD cuyo coeficiente de variabilidad es del 172,7%. Por otra parte se observa para la población urbana un mínimo de 5% siendo el porcentaje máximo del 47%, valores muy bajos si se compara con la región del OECD. Al igual que la región OECD se observa un valor mínimo de densidad de 2,4 habitantes por km2, en oposición al máximo cuya densidad es de 311 habitantes por km2. Para identificar a qué países corresponden estos valores máximos y mínimos se puede solicitar los valores extremos (outliers) que muestra los cinco valores mayores y menores.

Extreme Values

Region or economic group: OECDNumber of people / sq. kilometer

70 Netherlands 366,0

11 Belgium 329,0101 UK 237,042 Germany 227,056 Italy 188,0

4 Australia 2,349 Iceland 2,521 Canada 2,874 Norway 11,0

71 NewZealand 13,0

1

234512345

Highest

Lowest

Case Number COUNTRY Value

Extreme Values

Region or economic group: AfricaNumber of people / sq. kilometer

85 Rwanda 311,018 Burundi 216,073 Nigeria 102,040 Gambia 86,0

103 Uganda 76,014 Botswana 2,439 Gabon 4,2

22 Cent.Afri.R 5,0

90 Somalia 10,0109 Zambia 11,0

12345123

45

Highest

Lowest

CaseNumber COUNTRY Value

Nota: Analizar /Explore/ variables /Factor Región económica/etiquetar por país/Estadísticos/ Outliers

Ahora consideraremos las variables; Esperanza de vida femenina, esperanza de vida masculina, tasa de natalidad, tasa de mortalidad, tasa sida, fertilidad y alfabetización El gráfico siguiente muestra la media de esperanza de vida femenina y masculina por Región Económica. Se observa que en todas las regiones es mayor la media de esperanza de vida femenina que masculina siendo la región del OECD, la de mayor esperanza de vida, con un promedio de 80 y 74 años para mujeres y hombres respectivamente. Es notable la diferencia con África donde se observa

47

que el promedio de esperanza de vida es muy baja siendo la media de 54 y 51 años para mujeres y hombres respectivamente.

Media de las variables Esperanza de Vida

Femenina y Masculina por Región Económica

Región Económica


AfricaPacific/Asia

East EuropeOECD

Med

ia

90

80

70

60

50

40

Media esper de Vida

Femenina

Masculina

6667

51

63

68

747272

54

67

76

80

(Nota: Graficar/Barras/agrupados. Resumen para variables individuales/Media de las variables Esperanza de vida fem y masculina/ eje de categorías Región Económica) La tabla siguiente identifica los países con mayor y menor esperanza de vida

Valores Extremos ( Outliers considerando todos los países)

94 Switzerland 8257 Japan 8238 France 8221 Canada 8156 Italy ,a

103 Uganda 431 Afghanistan 44

22 Cent. Afri.R 44109 Zambia 45

97 Tanzania 4555 Israel 7657 Japan 7626 Costa Rica 7649 Iceland 7647 Hong Kong ,b

103 Uganda 4197 Tanzania 4122 Cent. Afri.R 4185 Rwanda 4345 Haiti 43

12345123451234512345

Highest

Lowest

Highest

Lowest

Average femalelife expectancy

Average malelife expectancy

Case Number COUNTRY Value

Only a partial list of cases with the value 81 are shown in the table of upperextremes.

a.

Only a partial list of cases with the value 75 are shown in the table of upperextremes.

b.

El siguiente gráfico apilado compara la tasa de natalidad y mortalidad por región económica, mostrando que las mayores tasas corresponden a la región de Africa, las que indican que en promedio nacen 42 por cada 1000 habitantes y mueren en promedio 15 por cada 1000 habitantes. La menor tasa de natalidad en promedio corresponde a la Región del OECD

48

Tasa de natalidad y mortalidad

por región económica



AfricaPacific/Asia

East EuropeOECD

Mea

n

60

50

40

30

20

10

0

Death rate per 1000

people

Birth rate per 1000

people

76

15

9

111027

33

42

27

1313

Esta información está muy de acuerdo con la variable fertilidad, la que indica el promedio de hijos por familia. El diagrama de caja muestra por Región Económica que las mayores tasas de fertilidad se concentran en la Región de África mostrando que la mediana representada por la línea horizontal en las cajas se aproxima al valor 6 hijos por familia en promedio. El 50% de los datos de fertilidad de los países se encuentra en la caja la que va desde el primer cuartil al tercer cuartil. La tabla de descriptivos para fertilidad por región confirma la información entregada por el diagrama de caja

211719161321N =

Diagrama de caja

Fertilidad por región económica



AfricaPacific/Asia

East EuropeOECD

Ferti

lity:

ave

rage

num

ber o

f kid

s

10

8

6

4

2

0

49

Descriptives

Fertility: average number of kids

1,746 1,889 3,383 6,081 4,724 3,3361,751 1,886 3,298 6,088 4,721 3,2801,800 1,840 3,065 6,290 4,000 3,080

6,150E-02 1,772E-02 3,226 1,285 2,356 1,115,248 ,133 1,796 1,134 1,535 1,056

1,3 1,7 1,4 3,8 2,8 1,82,1 2,2 6,9 8,2 6,7 5,9

,8 ,5 5,5 4,4 3,9 4,2,495 ,190 2,795 1,380 3,165 1,655

-,081 ,530 ,791 -,586 ,231 ,827-1,192 ,932 -,563 ,119 -1,812 ,332

Mean5% Trimmed MeanMedianVarianceStd. DeviationMinimumMaximumRangeInterquartile RangeSkewnessKurtosis

Statistic Statistic Statistic Statistic Statistic Statistic

OECD East Pacific/As Africa Middle LatnRegion or economic group

Como complemento de la información vemos que la tabla siguiente muestra las medidas de tendencia central y de dispersión para todas las variables consideradas en este apartado.

Descriptives

69,89 64,71 26,154 9,64 24,8271 3,558 77,9570,67 65,37 25,754 9,31 16,8072 3,475 79,7474,00 67,00 25,500 9,00 5,5512 3,065 87,50

115,241 88,926 154,112 18,400 2482,6 3,605 532,86210,74 9,43 12,414 4,29 49,8252 1,899 23,08

43 41 10,0 2 ,00 1,3 1882 76 53,0 24 326,75 8,2 10039 35 43,0 22 326,75 6,9 82

12,75 12,75 21,000 4,00 23,2434 3,170 36,75-1,048 -1,020 ,416 1,283 3,498 ,665 -,955

,054 ,171 -1,163 1,754 15,008 -,933 -,250


Statistic Statistic Statistic Statistic Statistic Statistic Statistic

Averagefemale

life

Averagemalelife

Birthrate per

1000

Deathrate per

1000

Number of aidscases /

Fertility:averagenumber

Peoplewhoread

Si consideramos sólo los países de la Región OECD y Africa observamos cómo cambian las medidas de tendencia central y dispersión observando en todas las variables que los países de la Región de África están con índice muy por debajo de los de la Región OECD. Si queremos reconocer qué países en esas regiones tienen los cinco valores máximos y mínimos los podemos apreciar de la tabla de valores extremos.

50

Descriptives

Region or economic group: OECD

80,10 73,71 12,952 9,63 29,1052 1,746 97,6780,11 73,74 12,944 9,65 23,6322 1,751 98,2280,00 74,00 13,000 10,00 15,8713 1,800 99,001,390 1,314 2,748 1,633 1131,049 6,150E-02 11,333

1,18 1,15 1,658 1,28 33,6311 ,248 3,3778 71 10,0 7 3,10 1,3 8582 76 16,0 12 157,94 2,1 100

4 5 6,0 5 154,84 ,8 152,00 1,50 2,000 2,00 24,2397 ,495 2,00

-,201 -,256 ,302 -,169 3,090 -,081 -3,027-,827 ,519 -,512 -,492 11,201 -1,192 10,370



Averagefemale

Averagemale life

Birth rateper 1000

Deathrate per

Numberof aids

Fertility:average

Peoplewho read

Nota; Analizar/ explore/esperanza de vida femenina y masculina, tasa de natalidad y mortalidad, promedio de hijos por familia etc/ Factor Región /etiquetar por país/ estadísticos-outliers. Al editar la gráfica se borra lo que no se quiere mostrar

Descriptives

Region or economic group: Africa

54,26 50,79 42,000 14,74 75,7491 6,081 47,2654,01 50,49 42,389 14,71 66,0056 6,088 47,2955,00 51,00 44,000 14,00 36,3077 6,290 50,00

63,649 52,731 41,111 25,538 7641,570 1,285 319,0947,98 7,26 6,412 5,05 87,4161 1,134 17,86

43 41 28,0 6 ,13 3,8 1870 66 49,0 24 326,75 8,2 7627 25 21,0 18 326,61 4,4 58

12,00 11,00 5,000 7,00 112,6254 1,380 34,00,425 ,352 -1,256 ,126 1,562 -,586 ,012

-,434 -,458 ,452 -,847 2,587 ,119 -,964



Averagefemale

Averagemale life

Birth rateper 1000

Deathrate per

Numberof aids

Fertility:average

Peoplewho read

Si queremos comparar Chile en esperanza de vida femenina y masculina, tasa de natalidad, tasa de mortalidad, fertilidad, tasa sida y alfabetización respecto al resto de países de la base de datos consideramos las puntuaciones z, las que nos muestran que Chile en;

a) esperanza de vida femenina está sobre la media en 0,74 desviaciones estándares b) esperanza de vida masculina está sobre la media en 0,65 desviaciones estándares c) tasa de natalidad está bajo la media en 0,23 desviaciones estándares. d) tasa de mortalidad está bajo la media en 0,83 desviaciones estándares e) fertilidad ( promedio de hijos por familia) está bajo la media en 0,55 desviaciones

estándares f) tasa sida está bajo la media en 0,37 desviaciones estándares g) alfabetización ( % de personas que saben leer) está sobre la media en 0,64 desviaciones

estándares

51


GUIA 5

Estudio de caso: Premio Colegios 4 Enunciado Suponga que usted es un asesor del Ministerio de Educación y debe preparar un informe en relación a los rendimientos de los estudiantes de enseñanza media del año 2006. Entre los diversos informes que debe realizar se le ha pedido que sugiera qué colegios premiar con un estímulo por los resultados de la prueba SIMCE de los segundos medios. El SIMCE es el sistema nacional de medición de resultados de aprendizaje del Ministerio de Educación de Chile. Su propósito principal es construir al mejoramiento de la calidad y equidad de la educación, informando sobre el desempeño de los alumnos y alumnas en algunas áreas del curriculum nacional y relacionándolos con el contexto escolar y social en el que ellos aprenden. Las pruebas SIMCE evalúan el logro de los Objetivos Fundamentales y Contenidos Mínimos Obligatorios del Marco Curricular en diferentes subsectores de aprendizaje, a través de una prueba común que se aplica a nivel nacional, una vez al año, a los estudiantes que cursan un determinado nivel educacional. Hasta el 2005 la aplicación de las pruebas se alternaron entre 4° Básico, 8° Básico y 2° Medio. Desde el 2006, las pruebas evalúan todos los años el nivel del 4° Básico y se alternan los niveles de 8° Básico y 2° Medio. (Fuente: Resultados nacionales SIMCE 2006. MINEDUC) Se dispone de un archivo con los datos de los 2319 colegios evaluados en la prueba SIMCE 2° Medio del 2006. Algunas de las variables de interés son: VARIABLE ETIQUETA DE VARIABLE ETIQUETA DEVALOR Idest Identificador del establecimiento Región Nombre de la Región Comuna Nombre de la comuna ddca Dependencia CP: Corporación Privada

MC; Corporación Municipal MD; DAEM (Departamento de Administración de Educación Municipal) PP: Particular Pagado PS: Particular Subvencionado

ruralida Caracterización del establecimiento 1= Rural 2=Urbano

prom_len Promedio puntaje de lenguaje prom_mat Promedio puntaje de matemáticas

TP

4PCaso elaborado por Sara Arancibia

52

Después de múltiples reuniones con expertos en educación, usted ha llegado a definir junto con los expertos un criterio para premiar a las escuelas; crear grupos homogéneos de escuelas y definir puntajes de corte para cada grupo. De esta forma se estará distinguiendo a los colegios que se destacan entre colegios con similares características. El premio se otorgará a los colegios con puntajes promedios mayores o iguales al percentil 75 (para cada grupo). Los grupos homogéneos se definieron en base a dos criterios: la dependencia del establecimiento definido como Municipal, Privado y Subvencionado y la caracterización del establecimiento Rural y Urbano

Los grupos homogéneos definidos por el grupo experto son, 1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural 6: Subvencionado y Urbano

Usted como asesor del Ministerio de Educación debe aplicar los criterios definidos con los expertos para crear los grupos de colegios homogéneos e identificar cuáles son los establecimientos premiados realizando distintas comparaciones por dependencia, caracterización y zona (Norte, Central y Sur). Además debe determinar si existen diferencias significativas para los puntajes promedios de la SIMCE por caracterización y por dependencia Para realizar su análisis deberá lograr los siguientes objetivos específicos desglosados en tareas elementales 1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías: Municipalizado, Privado y Subvencionado b) Crear la variable zona considerando Zona Norte, Centro y Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. e) Determinar para cada grupo el percentil 75. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio

mencionado 1=SI recibe premio y 0=NO recibe premio. 2. Realizar un análisis descriptivo de los datos a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia?. b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos?. c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales? d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados son Subvencionados? ¿Qué porcentaje de los premiados son de la zona

53

Norte,Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur?. e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo? f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana?. Realice un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar? g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo. i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE. SOLUCION:

1. Limpiar y ordenar la base de interés para el análisis a) Crear la variable “Dependencia” considerando sólo tres categorías:

Municipalizado, Privado y Subvencionado En primer lugar observamos que la variable de dependencia “ddcia” de la base de datos viene con formato cadena o string. Recodificaremos automáticamente y luego llevaremos las cinco categorías sólo a tres categorías. Para esto ir al menú Transformar/ recodificación automática/ AUTORECODE VARIABLES=ddcia /INTO depend /PRINT. Old Value New Value Value Label CP 1 Corporación Privada MC 2 Corporación Municipal MD 3 DAEM PP 4 Particular Pagado PS 5 Particular Subencionado Para crear tres categorías juntaremos las categorías Corporación Municipal y DAEM en Municipalizado y las categorías Corporación Privada y Particular pagado en Privado Para esto ir al menú Transformar/Recodificar en distinta variable RECODE

54

depend (4=2) (5=3) (1=2) (2 thru 3=1) INTO dependencia . VARIABLE LABELS dependencia 'Tipo de dependencia'. EXECUTE . En definición de la variable Asignar etiquetas de valor a los códigos 1 al 3 1= Municipalizado 2=Privado 3=Subvencionado b) Crear la variable zona considerando Zona; Norte, Centro y Sur En primer lugar se observa que la variable Región viene en formato de cadena. Se recodificará automáticamente. AUTORECODE VARIABLES=region /INTO reg /PRINT En el visor de resultados se puede observar los códigos de cada categoría Old Value New Value Value Label Región de Aisén del General 1 Región de Aisén del General Carlos Ibañez del Campo 1 Carlos Ibañez del Campo Región de Antofagasta 2 Región de Antofagasta Región de Atacama 3 Región de Atacama Región de Coquimbo 4 Región de Coquimbo Región de la Araucanía 5 Región de la Araucanía Región de Los Lagos 6 Región de Los Lagos Región de Magallanes y de la 7 Región de Magallanes y de la Antártica Chilena 7 Antártica Chilena Región de Tarapacá 8 Región de Tarapacá Región de Valparaíso 9 Región de Valparaíso Región del Biobío 10 Región del Biobío Región del Libertador General 11 Región del Libertador General Bernardo O' Higgins 11 Bernardo O' Higgins Región del Maule 12 Región del Maule Región Metropolitana 13 Región Metropolitana Para crear las categorías de zona se recodificará en distintas variables RECODE reg (1=3) (8=1) (9=2) (10=3) (2 thru 4=1) (5 thru 7=3) (11 thru 13=2) INTO zona . VARIABLE LABELS zona 'zona'. EXECUTE . En definición de variables 1= Norte 2= Centro

55

3= Sur c) Crear la variable “puntprom” correspondiente al puntaje promedio entre matemática y lenguaje Al ver el formato de las variables prom_len y prom_mat se observa que viene con tipo: String o cadena y medida nominal. Lo primero que debemos hacer antes de sacar el promedio es cambiar en vista de variables el tipo String a numérico. Para crear la variable puntprom seleccione Transformar/Calcular Variable destino: puntprom Tipo: numérico Etiqueta: Promedio de Matemáticas y Lenguaje Expresión: MEAN(prom_len,prom_mat) Sintaxis de puntprom COMPUTE puntprom = MEAN(prom_len,prom_mat) . VARIABLE LABELS puntprom 'puntaje promedio entre lenguaje y matemáticas’. EXECUTE . d) Crear la variable “grupo” correspondiente a cada grupo homogéneo. Para esto deberá crear con sintaxis (sintaxisgrupo) la variable solicitada asignando los códigos 1 al 6 según corresponda. Para crear la variable de grupo primero recodificaremos automáticamente la variables ruralida a código numérico con nombre caract Donde caract=1 Rural caract=2 Urbano Sintaxis AUTORECODE VARIABLES=ruralida /INTO caract /PRINT. Ahora formamos los seis grupos según criterio dado Creación de la variable grupo *** Sintaxis Grupo ***. IF (dependencia = 1 & caract = 1) grupo = 1 . IF (dependencia = 1 & caract = 2) grupo = 2 . IF (dependencia = 2 & caract = 1) grupo = 3 . IF (dependencia = 2 & caract = 2) grupo = 4 . IF (dependencia = 3 & caract = 1) grupo = 5 . IF (dependencia = 3 & caract = 2) grupo = 6 . EXECUTE . Luego en la definición de variables en valores se define:

1: Municipal y Rural 2: Municipal y Urbano 3: Privado y Rural 4: Privado y Urbano 5: Subvencionado y Rural

56

6: Subvencionado y Urbano e) Determinar para cada grupo el percentil 75. Para el cálculo de los percentiles por grupo: Datos/Segmentar, variable: grupo. Luego Analizar/Frecuencias [Estadísticos]: Percentil 75 Sintaxis SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /FORMAT=NOTABLE /PERCENTILES= 75 /ORDER= ANALYSIS . No olvide volver a Datos/ Segmentar archivo/ Analizar todos los casos. f) Con otra sintaxis (sintaxispremio) crear la variable “premio” donde según el criterio

mencionado 1=SI recibe premio y 0=NO recibe premio. Se consideró el siguiente criterio para premiar a los colegios (donde 1=SI, 0=NO) *** Sintaxis Premio ***. IF (grupo = 1 & puntprom >= 225.625) premio = 1 . IF (grupo = 1 & puntprom < 225.625) premio = 0 . IF (grupo = 2 & puntprom >= 246) premio = 1 . IF (grupo = 2 & puntprom < 246) premio = 0 . IF (grupo = 3 & puntprom >= 322.5) premio = 1 . IF (grupo = 3 & puntprom < 322.5) premio = 0 . IF (grupo = 4 & puntprom >= 324) premio = 1 . IF (grupo = 4 & puntprom < 324) premio = 0 . IF (grupo = 5 & puntprom >= 246.375) premio = 1 . IF (grupo = 5 & puntprom < 246.375) premio = 0 . IF (grupo = 6 & puntprom >= 286) premio = 1 . IF (grupo = 6 & puntprom < 286) premio = 0 . VARIABLE LABELS premio 'premio (SI=1, NO=0)' .

Estadísticos

puntaje promedio entre lenguaje y matemáticas68

0225,6250

5870

246,000019

0322,0000

3880

324,000086

0246,3750

11710

286,0000

VálidosPerdidos

N

75PercentilesVálidosPerdidos

N


N


N


N


N

75Percentiles

Municipalizado y Rural

Municipalizado y Urbano

Privado y Rural

Privado y Urbano

Subvencionado y Rural

Subvencionado y Urbano

57

EXECUTE .

En definición de variables se agrega la etiqueta de valor 1=SI 0=NO 2. Realizar un análisis descriptivo de los datos a) ¿Cuántos establecimientos rurales y urbanos existen en el archivo de datos y qué porcentaje representan del total? ¿Qué tipo de dependencia se observa con mayor y menor frecuencia? ¿Qué grupo homogéneo de establecimientos presenta mayor frecuencia? Se debe realizar una tabla de frecuencias de la variable caract, dependencia y grupo. Analizar/ frecuencias. Sintaxis del procedimiento: FREQUENCIES VARIABLES=dependencia tipo grupo /ORDER= ANALYSIS .

Caracterización del establecimiento

173 7,5 7,5 7,52146 92,5 92,5 100,02319 100,0 100,0

RuralUrbanoTotal


Porcentajeválido

Porcentajeacumulado

Tipo de dependencia

655 28,2 28,2 28,2407 17,6 17,6 45,8

1257 54,2 54,2 100,02319 100,0 100,0

MunicipalizadoPrivadoSubvencionadoTotal


Porcentajeválido

Porcentajeacumulado

grupo

68 2,9 2,9 2,9587 25,3 25,3 28,2

19 ,8 ,8 29,1388 16,7 16,7 45,8

86 3,7 3,7 49,51171 50,5 50,5 100,02319 100,0 100,0

Municipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal


Porcentajeválido

Porcentajeacumulado

De la tabla de frecuencia, se observa que existen 2146 colegios de tipo urbano y 173 colegios de tipo Rural representando el 92,5% y 7,5 % respectivamente sobre el total de colegios considerados en la base de datos. Por otra parte de la tabla de frecuencia de dependencia se tiene que la mayor frecuencia se presenta en los establecimientos subvencionados representando el 54,2% del total y la menor frecuencia en los establecimientos Privados representando el 17,6% del total.

58

Respecto a los grupos homogéneos el de mayor frecuencia es el grupo de Subvencionado y Urbano representando aproximadamente la mitad de los colegios considerados en estudio, le sigue el grupo de Municipalizados y Urbanos representando un cuarto de los colegios en estudio. b) ¿Cuántos colegios obtuvieron puntajes promedio en Matemáticas inferior o igual a 250 puntos; entre 251 y 300 puntos y superior a 300 puntos? Para responder esta pregunta se debe crear rangos de puntajes en base al puntaje de Matemáticas. Transformar/Recodificar/en distinta variable Ingresar la variable prom_mat y definir variable nueva rangmat (notar que la variable prom_mat es una variable de números enteros) Sintaxis del procedimiento: RECODE prom_mat (Lowest thru 250=1) (251 thru 300=2) (301 thru Highest=3) INTO rangmat. VARIABLE LABELS rangmat 'rangos de puntajes en matematicas'. EXECUTE . . En la ventana de definición de variables considerar la variable rangmat y en valores definir cada rango como: 1 =Hasta 250 2 = 251-300 3= superior a 300

Luego realizar una tabla de frecuencias de la variable rangmat

rangos de puntajes en matematicas

1169 50,4 50,4 50,4658 28,4 28,4 78,8492 21,2 21,2 100,0

2319 100,0 100,0

Hasta 250251-300Superior a 300Total


Porcentajeválido

Porcentajeacumulado

En la tabla de frecuencia se puede apreciar la cantidad de colegios por rangos de puntajes en matemáticas Se puede observar que aproximadamente la mitad de los colegios en estudio obtuvieron un puntaje promedio en matemáticas menor o igual a 250 puntos. Un poco más de la quinta parte de los colegios obtiene un puntaje superior a 300 puntos. c) ¿Qué porcentaje de colegios obtuvieron puntajes promedio en Lenguaje superior a 300 puntos? ¿Cuántos de ellos son Municipalizados y Urbanos? ¿Qué puede decir de los Municipalizados y Rurales? En primer lugar se debe crear dos rangos para la variable prom_len; Hasta 300 puntos y Superior a 300 puntos. Transformar/Recodificar/en distinta variable

59

Ingresar la variable prom_len y definir variable nueva rangleng (notar que la variable prom_len es una variable de números enteros) Sintaxis del procedimiento RECODE prom_len (Lowest thru 300=1) (301 thru Highest=2) INTO rangleng . VARIABLE LABELS rangleng 'rangos de puntajes en lenguaje'. EXECUTE . En la ventana de definición de variables considerar la variable rangleng y en valores definir cada rango como: 1 =Hasta 300 2 = superior a 300

Luego realizar una tabla de frecuencias de la variable rangleng

De la tabla de frecuencias se puede observar que el 13,8% de los colegios obtuvieron un puntaje superior a 300 puntos.

rangos de puntajes en lenguaje

1999 86,2 86,2 86,2320 13,8 13,8 100,0

2319 100,0 100,0

Hasta 300Superior a 300Total


Porcentajeválido

Porcentajeacumulado

Para responder cuántos de estos colegios son Municipalizados y Urbanos, se puede seleccionar a rangleng igual a 2 que corresponde a los puntajes superiores a 300 puntos y luego pedir una tabla de contingencia para las variables dependencia y tipo. Datos/Seleccionar casos Sintaxis del procedimiento USE ALL. COMPUTE filter_$=(rangleng = 2). VARIABLE LABEL filter_$ 'rangleng = 2 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .

CROSSTABS /TABLES=dependencia BY caract /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .

60

Tabla de contingencia Tipo de dependencia * Caracterización delestablecimiento

Recuento

0 10 107 193 2002 108 1109 311 320

MunicipalizadoPrivadoSubvencionado

Tipo dedependencia

Total

Rural Urbano

Caracterización delestablecimiento

Total

Se ha considerado los puntajes superiores a 300 puntos

De la tabla de contingencia se puede apreciar que de los colegios con puntajes superiores a 300 puntos, sólo 10 corresponden a Municipalizado y Urbano y ninguno a Municipalizado y Rural Otra forma de responder a esta pregunta podría ser solicitando una tabla de contingencia para dependencia y tipo con una capa dada por la variable rangleng (para esto seleccionar todos los casos) Sintaxis del procedimiento CROSSTABS /TABLES=dependencia BY tipo BY rangleng /FORMAT= AVALUE TABLES /CELLS= COUNT /COUNT ROUND CELL .

Tabla de contingencia Tipo de dependencia * Caracterización del establecimiento * rangosde puntajes en lenguaje

Recuento

68 577 64512 195 20784 1063 1147

164 1835 19990 10 107 193 2002 108 1109 311 320


Tipo dedependencia

TotalMunicipalizadoPrivadoSubvencionado

Tipo dedependencia

Total

rangos de puntajesen lenguajeHasta 300

Superior a 300

Rural Urbano


Total

De esta forma se obtiene el mismo resultado. Si se quiere mostrar una tabla focalizada a la respuesta, se puede pivotar editando la tabla y moviendo al pivote de rangos de puntajes al extremo superior izquierdo. De esta forma se puede obtener la siguiente tabla.

61

Tabla de contingencia Tipo de dependencia * Caracterización delestablecimiento * rangos de puntajes en lenguaje

Recuentorangos de puntajes en lenguaje: Superior a 300

0 10 107 193 2002 108 1109 311 320


Tipo dedependencia

Total

Rural Urbano


Total

d) ¿Qué porcentaje representa el total de colegios premiados respecto al total de colegios? ¿Qué porcentaje de los colegios Municipalizados resultaron premiados? ¿Qué porcentaje de los colegios premiados son Subvencionados? ¿Qué porcentaje de los premiados son de la zona Norte, Centro y Sur? ¿Qué porcentaje de la zona Centro son premiados? ¿Qué porcentaje del total son premiados y del Sur? Para responder a estas preguntas se puede considerar tablas de frecuencia y de contingencia. En primer lugar solicitaremos una tabla de frecuencia de premio

premio (SI=1, NO=0)

1730 74,6 74,6 74,6589 25,4 25,4 100,0

2319 100,0 100,0

NOSITotal


Porcentajeválido

Porcentajeacumulado

De la tabla de frecuencias se obtiene que el 25,4% del total de colegios resulta premiado. Para saber qué porcentaje de los colegios Municipalizados resultaron premiados, y qué porcentaje de los colegios premiados son Subvencionados podemos realizar una tabla de contingencia de la variable dependencia versus premio solicitando el porcentaje fila y columna. CROSSTABS /TABLES=dependencia BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .

De la tabla se observa que de los colegios Municipalizados el 25, 3% resultaron premiados y que del total de premiados el 54% corresponde a Subvencionados

62

Tabla de contingencia Tipo de dependencia * premio (SI=1, NO=0)

489 166 655

74,7% 25,3% 100,0%

28,3% 28,2% 28,2%

302 105 407

74,2% 25,8% 100,0%

17,5% 17,8% 17,6%

939 318 1257

74,7% 25,3% 100,0%

54,3% 54,0% 54,2%

1730 589 2319

74,6% 25,4% 100,0%

100,0% 100,0% 100,0%

Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)Recuento% de Tipo dedependencia% de premio(SI=1, NO=0)

Municipalizado

Privado

Subvencionado

Tipo dedependencia

Total

NO SIpremio (SI=1, NO=0)

Total

De la misma forma para saber los porcentajes en relación a la zona podemos realizar una tabla de contingencia de zona versus premio solicitando los porcentajes fila, columna y total CROSSTABS /TABLES=zona BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .

63

Tabla de contingencia zona * premio (SI=1, NO=0)

209 72 28174,4% 25,6% 100,0%

12,1% 12,2% 12,1%

9,0% 3,1% 12,1%1076 341 1417

75,9% 24,1% 100,0%

62,2% 57,9% 61,1%

46,4% 14,7% 61,1%445 176 621

71,7% 28,3% 100,0%

25,7% 29,9% 26,8%

19,2% 7,6% 26,8%1730 589 2319

74,6% 25,4% 100,0%

100,0% 100,0% 100,0%

74,6% 25,4% 100,0%

Recuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del totalRecuento% de zona% de premio(SI=1, NO=0)% del total

Norte

Centro

Sur

zona

Total


Total

Se obtiene que de los colegios premiados el 12,2% corresponde a la zona Norte, el 57,9% corresponde a la zona Centro y el 29,9% corresponde a la zona Sur. Ahora respecto a los colegios de la zona Centro el 24,1% resulta premiado y respecto al total de colegios el 7,6% son premiados y de la zona Sur.

e) ¿Qué porcentaje de los colegios premiados son urbanos? ¿Qué porcentaje de los colegios rurales son premiados? ¿Qué porcentaje de colegios resultaron premiados por grupo? En forma análoga a la pregunta anterior se puede resolver con una tabla de contingencia de premio versus tipo y premio versus grupo Sintaxis del procedimiento CROSSTABS /TABLES=tipo grupo BY premio /FORMAT= AVALUE TABLES /CELLS= COUNT ROW COLUMN TOTAL /COUNT ROUND CELL .

Tabla de contingencia Caracterización del establecimiento * premio (SI=1, NO=0)

131 42 173

75,7% 24,3% 100,0%

7,6% 7,1% 7,5%

5,6% 1,8% 7,5%1599 547 2146

74,5% 25,5% 100,0%

92,4% 92,9% 92,5%

69,0% 23,6% 92,5%1730 589 2319

74,6% 25,4% 100,0%

100,0% 100,0% 100,0%

74,6% 25,4% 100,0%

Recuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del totalRecuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del totalRecuento% de Caracterizacióndel establecimiento% de premio (SI=1,NO=0)% del total

Rural

Urbano


Total


Total

64

De la tabla se obtiene que de los colegios premiados, el 92,9% son urbanos y del total de colegios rurales el 24,3 % son premiados De la tabla de contingencia de grupo versus premio se puede ver que el criterio utilizado para premiar a los mejores colegios según su rendimiento SIMCE otorgó casi equitativamente el 25% de colegios premiados por grupo.

Tabla de contingencia grupo * premio (SI=1, NO=0)

51 17 6875,0% 25,0% 100,0%

2,9% 2,9% 2,9%

2,2% ,7% 2,9%438 149 587

74,6% 25,4% 100,0%

25,3% 25,3% 25,3%

18,9% 6,4% 25,3%15 4 19

78,9% 21,1% 100,0%

,9% ,7% ,8%

,6% ,2% ,8%287 101 388

74,0% 26,0% 100,0%

16,6% 17,1% 16,7%

12,4% 4,4% 16,7%65 21 86

75,6% 24,4% 100,0%

3,8% 3,6% 3,7%

2,8% ,9% 3,7%874 297 1171

74,6% 25,4% 100,0%

50,5% 50,4% 50,5%

37,7% 12,8% 50,5%1730 589 2319

74,6% 25,4% 100,0%

100,0% 100,0% 100,0%

74,6% 25,4% 100,0%

Recuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del totalRecuento% de grupo% de premio(SI=1, NO=0)% del total

Municipalizado y Rural

Municipalizado y Urbano

Privado y Rural

Privado y Urbano

Subvencionado y Rural

Subvencionado y Urbano

grupo

Total


Total

f) ¿A qué zona pertenecen los cinco mayores puntajes promedios SIMCE por tipo rural y urbana? Realice un gráfico que permita observar la forma de la distribución de los puntajes promedio SIMCE para los colegios rurales y los urbanos y muestre además un diagrama de caja (boxplot) por tipo para el puntaje promedio ¿Qué puede observar? Para responder a la pregunta se puede solicitar en explorar una tabla de valores extremos de puntaje promedio por tipo, identificando por zona, y en gráficos pedir el histograma y diagrama de cajas.

65

EXAMINE VARIABLES=puntprom BY caract /ID= zona /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.

Valores extremos

Mayores

2011 Centro 351,502016 Centro 334,502010 Centro 330,502015 Centro 324,502012 Sur 322,00a

2090 Centro 357,502052 Centro 352,502170 Centro 352,502203 Centro 350,502093 Centro 348,50

1234512345

Caracterización delestablecimientoRural

Urbano

puntaje promedio entrelenguaje y matemáticas

Númerodel caso zona Valor

En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casoscon el valor 322,00.

a.

De esta forma se obtiene que los colegios de mayor puntaje promedio tanto en los colegios de tipo rural como de tipo urbano se encuentran en la zona Centro, excepto el colegio con el quinto mejor puntaje de tipo rural que recae en la zona Sur (aunque existen otros puntajes con 322 puntos en promedio) En los histogramas se puede observar la forma de la distribución de los puntajes promedios para los colegios de tipo rural y los de tipo rrbano En el histograma correspondiente a los colegios de tipo rural se puede apreciar una asimetría positiva con puntajes mas sesgados hacia puntajes bajos y con varios colegios con puntajes en el extremo superior ( casos extremos y atípicos). Claramente no es una distribución simétrica, y además algo levantada denotando que es leptocurtica, por tanto no se asemeja a una distribución normal.

360,00330,00300,00270,00240,00210,00180,00

puntaje promedio entre lenguaje y matemáticas

40

30

20

10

0

Frec

uenc

ia

Mean = 229,6272Std. Dev. = 32,69127N = 173

para tipo= Rural

Histograma

66

En cambio la distribución de los puntajes de los colegios de tipo urbano se observa bastante simétrica sin puntajes claramente extremos y/o atípicos, pero no es clara la forma de una curva normal.

350,00325,00300,00275,00250,00225,00200,00175,00


120

100

80

60

40

20

0

Frec

uenc

ia

Mean = 259,9103Std. Dev. = 39,09525N = 2.146

para tipo= Urbano

Histograma

UrbanoRural

Caracterización del establecimiento

350,00

300,00

250,00

200,00

punt

aje

prom

edio

ent

re le

ngua

je y

mat

emát

icas

Centro

SurCentro

Centro

Centro

Diagrama de caja para puntaje promedio por tipo de colegio Rural y Urbano

El diagrama de cajas por tipo rural y urbano nos muestra claramente las diferencias en ambas distribuciones. Se observa que la mediana de puntajes de los colegios rurales (línea horizontal negra) está cerca de los 220 puntos lo que indica que la mitad de este tipo de colegios tiene un puntaje promedio inferior o igual al valor de la mediana que en este caso es 221 puntos. Se observan varios valores atípicos y un valor extremo en la parte superior de puntajes. Los puntajes de los colegios

67

rurales en general están más abajo que si comparamos con los puntajes de colegios urbanos. Se observa que la mediana de los colegios urbanos está sobre los 250 puntos. Específicamente la mediana es 255 puntos lo que indica que el 50% de los colegios urbanos tienen puntajes inferiores o iguales a 255 puntos. No se observan valores extremos ni atípicos. g) Determine mediante una gráfica si hay diferencias entre las medias de los puntajes en lenguaje y en matemáticas por dependencia para el grupo de colegios en estudio. ¿Existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano? Determine si el comportamiento de los resultados de puntajes de lenguaje y matemáticas es similar si se compara los segmentos rural y urbano Para realizar esta gráfica se selecciona Grafico/barras/Para distintas variables/Agrupado GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /MISSING=LISTWISE . Del gráfico se observa que tanto para lenguaje como para matemáticas los colegios privados tiene mejores resultados observándose sin embargo diferencias en casi 15 puntos a favor del promedio de matemáticas. Los colegios subvencionados presentan puntajes intermedios si comparamos los privados y los municipalizados con puntajes en torno a 257 puntos en matemáticas y con una diferencia de solo 2 puntos a favor del puntaje promedio en lenguaje. Los colegios municipalizados presentan los puntajes promedios mas bajos en ambas pruebas con una diferencia de cerca de 9 puntos a favor de lenguaje.

SubvencionadoPrivadoMunicipalizado

Tipo de dependencia

300

200

100

0

Med

ia

256,9

306,1

226,6

259,5

291,3

235,5

prom_matprom_len

Media de puntajes de lenguaje y matemáticas por dependencia

68

Para responder a la pregunta si existen diferencias en los puntajes de lenguaje por dependencia, agrupados por tipo rural y urbano hacemos un gráfico de barras agrupados seleccionando resúmenes para grupos de casos GRAPH /BAR(GROUPED)=MEAN(prom_len) BY dependencia BY caract Se observa una clara diferencia entre los grupos con caracterización rural y urbana, notándose en los tres grupos de dependencia un promedio en lenguaje bastante mas bajo en los colegios rurales en relación a los colegios urbanos. Para comparar el comportamiento en los resultados de ambas pruebas por dependencia entre la caracterización de Rural y Urbano es conveniente hacer un gráfico en dos paneles. Para esto vamos a gráficos de barras agrupados y seleccionar resumen para distintas variables GRAPH /BAR(GROUPED)=MEAN(prom_len) MEAN(prom_mat) BY dependencia /PANEL ROWVAR=caract ROWOP=CROSS /MISSING=LISTWISE .

300

250

200

150

100

50

Med

ia p

rom

_len

261,4

292,2

237,1 234

272,9

221,3

Caracesta

Media de puntajes promedios en lenguaje por dependencia agrupcaracterización Rural y Urbano

69

El gráfico nos muestra un comportamiento muy similar por dependencia entre los urbanos y rurales en cuanto a que los puntajes promedios más altos se observan en los colegios privados, los puntajes intermedios en los subvencionados y los puntajes más bajos en los municipalizados. En todos los casos los urbanos presentan mayor puntaje promedio si se compara con los puntajes de los colegios rurales. h) Determine los estadísticos básicos de tendencia central, de dispersión y de forma de la distribución de los puntajes promedios SIMCE para los distintos grupos homogéneos, y muestre gráficamente la media de los puntajes promedios SIMCE por grupo homogéneo. Interprete los estadísticos para el grupo de municipalizados y rurales. Para responder a esta pregunta hay varios posibles procedimientos. Una forma posible es realizar un cubo OLAP para la variable puntprom con variable de agrupación grupo. Analizar/ Reporte/ Cubo OLAP Sintaxis del procedimiento

OLAP CUBES puntprom BY grupo /CELLS=COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT /TITLE='OLAP Cubes'.

Urbano

Rural

Caracterización del establecim

iento

SubvencionadoPrivadoMunicipalizado

Tipo de dependencia

300

200

100

0

Med

ia

300

200

100

0

Med

ia

224,7

286,8

210,6234

272,9221,3

259,3307

228,5261,4

292,2237,1

prom_matprom_len

Media de puntajes de lenguaje y matemáticas por dependencia para colegiosurbanos y rurales

70

Para dejar la forma de la tabla siguiente se puede editar el cubo, mover el pivote de grupo, al lado superior derecho, el pivote de estadísticos, al lado inferior izquierdo y el pivote variable al lado superior izquierdo.

• Una segunda forma de lograr esta tabla de forma inmediata es utilizando el menú Medias. Analizar/ Comparar medias/ medias Sintaxis del procedimiento MEANS TABLES=puntprom BY grupo /CELLS COUNT MEAN MEDIAN MIN MAX STDDEV SKEW KURT NPCT Para dejar la misma forma de la tabla anterior se puede transponer filas y columnas desde el menú Pivotar una vez editada la tabla. Una tercera forma sería segmentar el archivo previamente por la variable grupo y luego pedir en el menú frecuencias los estadísticos solicitados. Sintaxis procedimiento 3 SORT CASES BY grupo . SPLIT FILE LAYERED BY grupo . SPLIT FILE LAYERED BY grupo . FREQUENCIES VARIABLES=puntprom /STATISTICS=STDDEV MINIMUM MAXIMUM MEAN MEDIAN SKEW KURT /ORDER= ANALYSIS .

Informe


68 215,9265 215,7500 181,00 257,00 15,49103 ,216 -,111 2,9%587 232,8169 228,0000 185,00 348,00 27,32073 1,156 1,845 25,3%

19 279,8947 277,5000 213,00 351,50 43,41933 ,129 -1,616 ,8%388 299,6224 311,0000 187,50 357,50 34,06601 -,892 ,017 16,7%

86 229,3547 225,2500 181,00 322,00 29,31110 ,971 1,015 3,7%1171 260,3335 260,0000 179,00 337,00 33,95561 ,026 -,856 50,5%2319 257,6511 252,0000 179,00 357,50 39,45891 ,320 -,920 100,0%

grupoMunicipalizado y RuralMunicipalizado y UrbanoPrivado y RuralPrivado y UrbanoSubvencionado y RuralSubvencionado y UrbanoTotal

N Media Mediana Mínimo Máximo Desv. típ. Asimetría Curtosis% del

total de N

Estadísticos descriptivos para el puntaje promedio entre matemáticas y lenguaje de la prueba SIMCE por grupo


68 215,9265 215,7500 181,00 257,00 15,49103 ,216 -,111 2,9%587 232,8169 228,0000 185,00 348,00 27,32073 1,156 1,845 25,3%

19 279,8947 277,5000 213,00 351,50 43,41933 ,129 -1,616 ,8%388 299,6224 311,0000 187,50 357,50 34,06601 -,892 ,017 16,7%

86 229,3547 225,2500 181,00 322,00 29,31110 ,971 1,015 3,7%1171 260,3335 260,0000 179,00 337,00 33,95561 ,026 -,856 50,5%2319 257,6511 252,0000 179,00 357,50 39,45891 ,320 -,920 100,0%


N Media Mediana Mínimo Máximo Desv. típ. Asimetría Curtosis% del

total de N

71

De la tabla de estadísticos realizada en el punto anterior se puede observar que en promedio los puntajes de los colegios del grupo de municipalizados y rurales alcanzan un valor de 215,92 puntos, con una variabilidad relativamente baja de 15,49 puntos, es decir los puntajes se desvían en promedio respecto a la media en 15,49 puntos, calculado en base a 68 colegios, los que representan un 2,9% del total de colegios considerados en el estudio. Se observa que la mediana está cercana a la media de los datos (característica de distribuciones cercanas a distribuciones simétricas), e indica que el 50% de los colegios obtiene un puntaje menor o igual a 215,75 puntos, con puntajes que oscilan entre 181 puntos y 257 puntos, puntajes muy bajos si se compara con los demás grupos de colegios. Se observa la curtosis negativa y muy cercana a cero, esto significa que la curva es muy similar a la normal en cuanto a que se asemeja mucho a una curva mesocurtica (característica de la curva normal). La asimetría es positiva muy cercana a cero por tanto se asemeja bastante a una curva simétrica. En síntesis se puede apreciar una distribución con un buen ajuste a una normal. Esto se puede apreciar en el histograma correspondiente. (Para verificar el ajuste a una normal se puede ver el estadístico de Kolmogorov- Smirnov). i) Realice un gráfico considerando a todos los colegios en estudio y otro gráfico considerando sólo el segmento de premiados, que permitan observar la posición del grupo en relación al resto de los grupos en cuanto a los descriptivos básicos. Interprete. Para esto realizaremos un diagrama de cajas por grupo. EXAMINE VARIABLES=puntprom BY grupo /PLOT BOXPLOT HISTOGRAM /COMPARE GROUP /STATISTICS NONE /CINTERVAL 95 /MISSING LISTWISE

260,00240,00220,00200,00180,00


25

20

15

10

5

0

Frec

uenc

ia

Mean = 215,9265Std. Dev. = 15,49103N = 68

para grupo= Municipalizado y Rural

Histograma

72

/NOTOTAL. Del gráfico se puede apreciar que los mayores puntajes se concentran en los colegios privados, alcanzando la mayor mediana los colegios privados urbanos, aunque se observa que existen algunos colegios con puntajes extremos muy bajos. Por otra parte se puede ver que los puntajes más bajos se concentran en los colegios municipalizados y rurales presentando la menor de las medianas y es el grupo que presenta la menor variabilidad en los puntajes, es decir son bastante homogéneos en cuanto al resultado promedio SIMCE, mostrando sólo un caso sobre los 250 puntos en promedio. Se observa que el grupo de municipalizados urbanos a pesar de tener la mayoría de los colegios concentrados en puntajes bajos es el único grupo que presenta varios colegios con puntajes atípicos y un extremo en la parte alta de puntajes. Respecto a los subvencionados se ve clara diferencia entre los urbanos y rurales donde hay una marcada diferencia a puntajes más bajos en los colegios rurales. Para obtener el diagrama de cajas para los premiados, primero se selecciona a los colegios que obtuvieron premio y una vez filtrada la base se procede a realizar la gráfica. USE ALL. COMPUTE filter_$=(premio = 1). VARIABLE LABEL filter_$ 'premio = 1 (FILTER)'. VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . Es claro que la posición de cada grupo en general se mantiene en relación a la gráfica analizada anteriormente. Los puntajes de los premiados con mayor puntaje se concentran en los privados,

Subvencionadoy Urbano

Subvencionadoy Rural

Privado yUrbano

Privado y RuralMunicipalizadoy Urbano

Municipalizadoy Rural

grupo

350,00

300,00

250,00

200,00

punt

aje

prom

edio

ent

re le

ngua

je y

mat

emát

icas

2.211

711

776

2.0042.006

2.0092.007

514

19

2.008

Diagramas de cajas para los puntajes promedios SIMCE por grupo de colegios

73

observándose muy concentrados, bastante homogéneos entre si. Sin embargo los puntajes de los premiados con menor puntaje se concentran en los municipalizados rurales con un puntaje extremo pero que no pasa a la mediana del grupo de municipalizados urbanos. El grupo de los municipalizados urbanos premiados es el que presenta mas variabilidad en los puntajes, mostrando seis colegios con puntajes atípicos superiores en el rango de puntajes del grupo de los privados. El 50% de los colegios que cae en la caja del rango intercuartil (entre el percentil 25 y el percentil 75) del grupo de municipalizados urbanos se comporta de una manera muy similar a los colegios que se encuentran en la caja del rango intercuartil del grupo de subvencionados rurales. Se observa mas notoriamente la diferencia en los puntajes de los colegios premiados que pertenecen al grupo de los subvencionados rurales y los que pertenecen a los subvencionados urbanos. Si consideramos la base de datos como si fuera la población de colegios que rinde la SIMCE, podríamos decir que claramente se observa diferencias significativas entre las medias de puntajes entre los diferentes grupos de colegios. j) Compare la variabilidad entre los distintos grupos para el puntaje promedio SIMCE considerando todos los colegios en estudio. Para comparar dispersión o variabilidad entre distribuciones diferentes se calcula el coeficiente de variación que se calcula en base a la desviación estándar y la media. Indica la magnitud relativa de la desviación estándar en comparación con la media de la distribución, expresada como porcentaje.

Subvencionadoy Urbano

Subvencionadoy Rural

Privado yUrbano

Privado y RuralMunicipalizadoy Urbano

Municipalizadoy Rural

grupo

360,00

340,00

320,00

300,00

280,00

260,00

240,00

220,00

punt

aje

prom

edio

ent

re le

ngua

je y

mat

emát

icas

2.211

2.0902.011

2.008

2.004

2.0062.0002.003

19

Diagrama de cajas para los puntajes promedios de los colegios premiados porgrupo

74

Se calcula como.

100..µσ

=VC

Para esto se puede pedir una tabla con los estadísticos básicos media y desviación estándar y luego en otra columna se puede calcular el coeficiente de variación en base a la fórmula anterior. De la tabla podemos observar que el grupo de colegios municipalizados y rurales es el que tiene menor variabilidad relativa, concepto que se pudo apreciar en los diagramas de caja. El grupo de los colegios que presentan mayor variabilidad en puntajes son los grupos “Privado y Rural” y el grupo “Subvencionado y Urbano”.

Informe


68 215,9265 15,49103 7,17587 232,8169 27,32073 11,73

19 279,8947 43,41933 15,51388 299,6224 34,06601 11,37

86 229,3547 29,31110 12,781171 260,3335 33,95561 13,042319 257,6511 39,45891 15,31


N Media Desv. típ.

Coeficientede

Variación

75


GUIA 6

Caso de Estudio: Personas con Licencias Médicas5 Suponga que Ud es Director de Recursos Humanos de una empresa y entre sus múltiples tareas debe realizar un informe respecto a las licencias médicas otorgadas durante el año. En su documento debe contemplar por lo menos la siguiente información. Considere los archivos de datos: Personas con licencia médica (arch1).sav y Diagnóstico-licencia médica (arch2).sav que contienen una muestra de 653 personas que han tenido licencia en el último año. Primera Parte: Fundición de archivos Nota previa. Consideraciones acerca de los archivos a Fundir Fundición de variables SPSS ofrece dos formas básicas de fundir archivos agregando variables, aunque se pueden realizar con múltiples pasos una combinación de estas formas básicas. Las formas de fundir pueden ser “uno a uno” o a través de un “archivo de claves” (también llamado “tabla de claves” o “uno a muchos”). Esta es una distinción importante entre los dos tipos diferentes de archivos a fundir que producirá resultados distintos. En “uno a uno” cada caso en un archivo solo puede ser vinculado con un solo caso en el otro archivo viceversa. El fundir los archivos está determinado por los valores de una variable que los vincula. Se espera que cada caso en cada archivo aparezca una única vez, si no es así, sólo el primer caso de los casos duplicados será vinculado con un único caso del otro archivo. Se muestra un diagrama para cada opción

Identificador var1 Identificador var1 var2 Identificador var2w D s . L s Lx A t . F t Fy B w D . x Hz C x A H y J

y B J z Kz C K

Arch 1 Archivo fundido Arch2

Tabla1: Vincular archivos uno a uno…*Ambos archivos proporcionan casos* Note que en cada aparición de la variable que vincula (aquí identificador) da como resultado un caso en el archivo final. Si un país tiene un caso en un archivo y perdido en el otro archivo (s,t,w), el identificador se retiene en el archivo combinado y se le asigna valores perdidos por el sistema a las variables numéricas que no contienen información.

TP

5Caso elaborado por Sara Arancibia

76

Identificador var1 Identificador var1 var2 Identificador var2w D w D . s Lx A x A H t Fy B y B J x Hz C z C K y J

z K


Tabla2. El que no es un conjunto de datos activo es una tabla de claves El procedimiento a través de una tabla de claves (o uno a muchos, o archivo de claves) permite vincular un único caso de un archivo de tabla de claves a más de un caso en el segundo archivo. Se muestra un diagrama de este procedimiento en la tabla 2.

Identificador var1 Identificador var1 var2 Identificador var2w D s . L s Lx A t . F t Fy B x A H x Hz C y B J y J

z C K z K


Tabla2. El conjunto de datos activo es una tabla de claves. Importancia de ordenar Para cualquier tipo de procedimiento para fundir los archivos deben estar ordenados por la variable clave. Si los archivos no están ordenados la vinculación falla. Importancia del tipo de archivo. Para fundir los archivos agregando variables, ambos archivos deben estar definidos en SPSS. Esto significa que cada archivo debe estar guardado como archivo de datos de SPSS en el Editor de Datos. Advertencia acerca de los nombres de las variables Es importante usar nombres únicos de nombres de variables para ambos archivos. Si se utiliza el mismo nombre de variable en ambos archivos, SPSS retendrá sólo un conjunto de valores de datos. Aunque en el cuadro de diálogo de Fundir archivo… Añadir variables se puede renombrar variables, es conveniente chequear antes que los nombres de las variables no coincidan. Antes de fundir los archivos Personas con licencia médica (arch1).sav y Diagnóstico-licencia médica (arch2).sav debemos dejar la variable clave para la fundici[on en este caso rutpac definidas en el mismo formato y forma. 1) Utilice la función CONCAT para concatenar (unir) el rut y el guión rut en una sola variable llamada rutpac ( rut paciente)

77

CONCAT(expr_cadena,expr_cadena[,..]). Cadena. Devuelve una cadena que es la concatenación de todos los argumentos, que deben ser cadenas. Esta función requiere dos o más argumentos. En modo de página de código, si expr_cadena es una variable de cadena, utilice RTRIM si sólo desea el valor de cadena real sin el relleno por la derecha de la anchura de la variable definida. Por ejemplo, CONCAT(RTRIM(var_cadena1), RTRIM(var_cadena2)).

Solución: Transformar/Calcular variable/ Variable de destino: rutpac/Tipo y etiqueta: Tipo cadena ,anchura 15, etiqueta: rut paciente

Sintaxis STRING rutpac (A15). COMPUTE rutpac=CONCAT(RTRIM(rut),"-",RTRIM(guionrut)). VARIABLE LABELS rutpac 'rut paciente'. EXECUTE. Fundición DATOS&FUNDIR ARCHIVO A;ADIR VARIABLES SELECCIONAR OPCION Ambos archivos proporcionan casos. Guardar como Archivo fundido Licencias medicas Ejercicios

a) Determine el diagnóstico que con mayor frecuencia se presenta en hombres y en mujeres.

Analizar/ Estadísticos descriptivos/Tablas de contingencia: Fila Diagnostico, columna Sexo

78

b) Muestre un gráfico que permita visualizar número de licencias por ocupación agrupado por sexo. Comente. Gráficos generador de gráficos barras agrupadas

79

Se observa tanto para hombres como para mujeres una bajísima cantidad de licencias en la categoría “Ejecutivos” Se puede apreciar un bajo número de licencias en la categorías en las categorías Ejecutivo, Profesional como Oficinista presentándose en ambas categorías mayor número de licencias en mujeres. La categoría de ocupación “operarios, artesanos” presenta mayor cantidad de licencias, observándose 43 licencias en hombres y 26 licencias en mujeres. Con una gran diferencia se presenta la categoría “Otros” que agrupa todo el resto de ocupaciones no mencionadas anteriormente mostrando mayor cantidad en mujeres que en hombres.

c) Calcular una variable que muestre los días de licencia médica del empleado (Explique el procedimiento o muestre la sintaxis). Calcule los estadísticos descriptivos básicos de la variable creada considerando los cuartiles. La variable “dias” Dias de licencia se calculó según la sintaxis COMPUTE dias=CTIME.DAYS(fecha_t2 - fecha_i2)+1 . VARIABLE LABELS dias 'dias de licencia medica'. EXECUTE.

80

d) Determine para hombres y mujeres los estadísticos; número de casos (N), media, mediana, desviación estándar, mínimo, máximo de las variables edad. Grafique un histograma de edad para hombres y mujeres. Comente los resultados ¿Qué puede decir de la variabilidad de las edades para el grupo de hombres en comparación con el grupo de las mujeres?

i) Cálculo de la edad Transformar/Asistente para fechas y horas/Realizar cálculos con fechas y horas/Calcular el número de unidades de tiempo entre dos fechas/Fecha 1: $TIME Fecha 2: fechnac/ Unidad: años/ truncar a entero/ variable de resultado: edad , etiqueta de variable: edad del paciente/pegar la sintaxis en la ventana de sintaxis.

* Asistente de fecha y hora: edad. COMPUTE edad=DATEDIF($TIME, fechnac, "years"). VARIABLE LABEL edad "edad del paciente". VARIABLE LEVEL edad (SCALE). FORMATS edad (F5.0). VARIABLE WIDTH edad(5).

EXECUTE.

Nota: Otra forma es usar funciones Primero cambiar el formato de fecha en la definición de la variable en formato dd.mm.yyyy

Para SPSS las fechas se contabilizan por una serie en la cual cada día esta valorado en 86400 (son los segundos por día). En menú transformar / Calcular: Variable destino: edad2

81

Expresión numérica: (DATE.DMY(18,2,2011)-fechanac)/(365.25*86400)6 Use función DATE.DMY(DD,MM,YY) Observe que se insertó una nueva columna con la variable “edad2”

Se debe truncar la variable edad2 Variable destino: edadent Expresión numérica: TRUNC(edad2)

Sintaxis COMPUTE edad2=(DATE.DMY(18,2,2011)-fechnac) / (365.25*86400). EXECUTE. COMPUTE edadent=TRUNC (edad2). EXECUTE.

Observación: Otra forma de calcular la edad Crear una nueva variable llamada TODAY (que guardará la fecha de hoy día). La variable $TIME es una variable del sistema en SPSS que guarda el dato fecha de hoy como un valor. La función XDATE.DATE convierte el valor de $TIME en un formato que SPSS puede reconocer como una fecha. Calcular TODAY=XDATE:DATE($TIME) (este valor representa el número de segundos desde que comienza el calendario Gregoriano Transformar Calcular Edad=(CTIME:DAYS(TODAY-fechanacimiento))/365.25 CTIME.DAYS(valortiempo) Numérico. Devuelve el número de días, incluyendo fracciones de día, que hay en valortiempo, el cual debe ser un número o una expresión en formato de tiempo de SPSS, tal como el resultado de las funciones TIME.xxx.

ii) Considerando la variable edad realizamos un cubo OLAP

ANALIZAR Informes Cubos Olap

Para Hombres: La base considera 319 licencias de hombres cuya edad promedio es aprox 54 años con una desviación promedio respecto a la media de casi 12 años. La edades oscilan entre 40 y 81 años correspondiendo el 50% de licencias a hombres menores o iguales a 49 años. Para Mujeres: La base considera 333 licencias de mujeres cuya edad promedio es 54 años con una desviación promedio respecto a la media de casi 12 años. La edades oscilan en un rango similar al de hombres entre 40 y 82 años correspondiendo el 50% de licencias a mujeres menores o iguales a 48 años. En los histogramas se pueden observar las formas de la distribución de edad.

6 Pero tiene decimales

82

Ambos histogramas muestran asimetría positiva. Respecto la variabilidad de la edad consideraremos el coeficiente de variación .Para hombres:

%97,212,54

91,11100* ===µσCV

Para mujeres:

%69,2108,54

735,11100* ===µσCV

Del cálculo anterior se aprecia mayor variación relativa ( pero leve) en la distribución de edades de los hombres respecto al de las mujeres. Segunda Parte: Trabajo con otras funciones

1) Utilice las siguientes funciones de CONVERSION para las variables rutpers y rut NUMBER(expr_cadena, formato). Numérico. Devuelve el valor de la expresión de cadena expr_cadena como un número. El segundo argumento, formato, es el formato numérico utilizado para leer expr_cadena. Por ejemplo, NUMBER(cadena_Fecha, FECHA11) convierte las cadenas que contienen fechas del formato general dd-mmm-aaaa a un valor numérico de segundos que representa esa fecha. (Para mostrar el valor como fecha, utilice el comando FORMATS o PRINT FORMATS.) Si la cadena no se puede leer con el formato, esta función devuelve los valores perdidos por el sistema. STRING(expr_num, formato) Cadena. Devuelve la cadena que resulta de convertir expr_num en una cadena, de acuerdo con el formato especificado. STRING(-1,5,F5.2) devuelve el valor de cadena "-1,5". El segundo argumento debe ser un formato para la escritura de un valor numérico. Solución: Transformar/Calcular variable/ Variable de destino: rtperscad/Tipo y etiqueta: Tipo Cadena, etiqueta: rut persona en cadena; anchura 15

83

Sintaxis: DATASET ACTIVATE Conjunto_de_datos1. STRING rutperscad (A15). COMPUTE rutperscad=STRING(rut_pers,F10.0). VARIABLE LABELS rutperscad 'rut persona en cadena'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutnum/Tipo y etiqueta: Tipo Numéricos, etiqueta: rut en formato numérico Sintaxis COMPUTE rutnum=NUMBER(rut,F10). VARIABLE LABELS rutnum 'rut en formato numerico'. EXECUTE. 2) Considere la variable rutpac y utilice las funciones LTRIM, CHAR.INDEX y CHAR.SUBSTR para calcular la variable rutpac2 sin el guion rut

LTRIM(expr_cadena[, carácter]). Cadena. Devuelve expr_cadena de la que se elimina cualquier instancia inicial de carácter. Si no se especifica char, se eliminan los blancos iniciales. El carácter debe evaluarse como un único carácter. CHAR.INDEX(cadena, subcadena[, divisor]). Numérico. Devuelve un número que indica la posición del carácter de la primera ocurrencia de la subcadena dentro de la cadena. El tercer argumento opcional, divisor, es un número de caracteres usado para dividir subcadena en cadenas distintas. Cada subcadena se usa para realizar búsquedas y la función devuelve la primera aparición de cualquier subcadena. Por ejemplo, CHAR.INDEX(var1, 'abcd') devolverá el valor de la posición inicial de la cadena completa "abcd" en la variable de cadena var1; CHAR.INDEX(var1, 'abcd', 1) devolverá el valor de la posición de la primera aparición de cualquier valor de la cadena; y CHAR.INDEX(var1, 'abcd', 2) devolverá el valor de la primera aparición de "ab" o "cd". El divisor debe ser un entero positivo y debe dividir exactamente la longitud de la subcadena. Devuelve 0 si la subcadena no aparece dentro de la cadena. CHAR.SUBSTR(expr_cadena,pos[,longitud]). Cadena. Devuelve una subcadena que empieza en la posición del carácter pos de expr_cadena. El tercer argumento opcional representa el número de caracteres de la subcadena. Si se omite el argumento opcional longitud, devuelve la subcadena que comienza en la posición del carácter pos de expr_cadena hasta el final de expr_cadena. Por ejemplo CHAR.SUBSTR('abcd', 2) devuelve 'bcd' y CHAR.SUBSTR('abcd', 2, 2) devuelve 'bc'. Solución Transformar/Calcular variable/ Variable de destino: rutpacl/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente con LTRIM

84

STRING rutpacl (A12). COMPUTE rutpacl=LTRIM(rutpac). VARIABLE LABELS rutpacl “rut paciente con LTRIM”. EXECUTE. Transformar/Calcular variable/ Variable de destino: rut2/Tipo y etiqueta: Tipo numérico, etiqueta: numero de caracteres de rut

Sintaxis COMPUTE rut2=CHAR.INDEX(rutpacl,"-"). VARIABLE LABELS rut2 'numero de caracteres de rut'. EXECUTE. Transformar/Calcular variable/ Variable de destino: rutpac2/Tipo y etiqueta: Tipo cadena ,anchura 12, etiqueta: rut paciente2

STRING rutpac2 (A10). COMPUTE rutpac2=CHAR.SUBSTR(rutpacl,1,rut2-1). VARIABLE LABELS rutpac2 'rut paciente 2'. EXECUTE.

3) Considere la variable edad calculada en la sección anterior. Calcule la edad el año, mes y dia de la semana.

XDATE.YEAR(valorfecha). Numérico. Devuelve el año (un entero de cuatro dígitos) a partir de un valor numérico que represente una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha. XDATE.MONTH(valorfecha). Numérico. Devuelve el mes (un entero entre 1 y 12) a partir de un valor numérico que representa una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha. XDATE.WKDAY(valorfecha). Numérico. Devuelve el número del día de la semana (un entero entre 1, domingo, y 7, sábado) a partir de un valor numérico que represente una fecha. El argumento puede ser un número, una variable con formato de fecha o una expresión evaluable a una fecha.

85


GUIA 7

Estudio de caso: Reos en Gendarmería (Uso de Agregar y Sintaxis)7 Considere el archivo “Gendarmería.sav” correspondiente a datos de una muestra de internos del país. Se le pide realice un informe que describa información básica de esta muestra de internos, donde por lo menos debe responder las preguntas siguientes. 1. Identifique qué delito es el más frecuente en las mujeres y cuál en los hombres. Comente qué

problema aprecia con los datos y explique cómo lo solucionaría. 2. Muestre una tabla y una sintaxis del procedimiento que le permite obtener la respuesta. 3. Crear un archivo que permita obtener por código de unidad penal y sexo; el promedio de edad de

internos al iniciar la condena, región a la que pertenece la unidad penal, nombre de la unidad penal y número de internos. Muestre la sintaxis correspondiente.

4. Muestre una tabla que permita identificar por sexo las cinco unidades penales que más internos registran en la base de datos. Muestre la sintaxis

5. Crear un archivo que muestre sólo las unidades penales (por código de unidad penal) que registran hombres y mujeres. Muestre la sintaxis.

6. Crear un archivo que permita visualizar por nacionalidad y sexo; número de internos, pena máxima, pena mínima, y el promedio de pena en años. Mostrar la sintaxis.

7. Determine los estadísticos descriptivos para las variables edad al iniciar la condena y pena en años. ¿Cuál es el promedio de edad de internos hombres al iniciar la condena? ¿Cuál es el promedio de edad de internos mujeres de la Región Metropolitana al iniciar la condena? ¿Cuál es el mínimo y máximo de pena en años para hombres, y para mujeres? Muestre una tabla de donde se desprenda la respuesta.

Solución: Si se realiza una tabla de contingencia de delito versus sexo o una tabla de frecuencia segmentada por sexo, se puede apreciar la falta de código por delito. Al digitar el delito en formato cadena (texto) se produce el problema de digitar de maneras distintas el mismo delito y al calcular las frecuencias no aparece correctamente el valor, dado que el SPSS los toma como delitos distintos. Lo que se debe realizar es una recodificación automática y luego limpiar los datos de la variable con recodificar en la misma variable (o en distinta variable) quedando la nueva variable con código numérico e identificando este a un único delito Dada la gran cantidad de categorías de delito no es adecuado mostrar la tabla de contingencia o de frecuencias para responder a la pregunta. Una forma más eficiente es considerar Agregar por delito y sexo y luego pedir una tabla de valores extremos AGGREGATE /OUTFILE='D:\SPSS-MGPP 2004\GUIAS 2004\AGRdelito sexo.sav' /BREAK=delito_1 sexo

TP

7Caso elaborado por Sara Arancibia

86

/N_BREAK=N. EXAMINE VARIABLES=n_break BY sexo /ID= delito_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.

Extreme Valuesb

N_BREAKHighest

69 TRAFICO ILEGAL DEESTUPEFACIENTES 24

58 ROBO CON VIOLENCIA 5

55 ROBO CONINTIMIDACION 4

56 ROBO CONINTIMIDACION 200

70 TRAFICO ILEGAL DEESTUPEFACIENTES 133

53 ROBO CON FUERZA 11459 ROBO CON VIOLENCIA 6451 ROBO 55

1

23

1

2

345

Sexo del internoF

M

Case NumberPrimera mención de

delito Value

The requested number of extreme values exceeds the number of datapoints. A smaller number of extremes is displayed.

b.

AUTORECODE VARIABLES=u_.penal /INTO upenal /PRINT. AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR1.sav' /BREAK=cod._uni sexo /edad_c_1 = MEAN(edad_cum) /region_1 = FIRST(region) /upenal_1 = FIRST(upenal) /casos=N. SORT CASES BY sexo . SPLIT FILE LAYERED BY sexo . EXAMINE VARIABLES=casos /ID= upenal_1 /PLOT BOXPLOT STEMLEAF /COMPARE GROUP /STATISTICS EXTREME /MISSING LISTWISE /NOTOTAL.

87

Valores extremos

17 CPF. SANTIAGO 111 CP. ARICA 52 CCP. IQUIQUE 5

11 CCP. CONCEPCION 36 CDP. OVALLE .a

14 CDP. CASTRO 17 CDP. ILLAPEL 15 CCP. COPIAPO 13 CDP. CALAMA 1

10 CDP. LOS ANGELES .b

94 CDP. SANTIAGO SUR 13018 CP. ARICA 6397 CCP. COLINA I 6339 CP. VALPARAISO 54

101 CCP. COLINA II 4992 CDP. PORVENIR 167 CET. CONCEPCION 189 CDP. PUERTO AYSEN 1

102 CET. METROPOLITANO 146 CCP. SAN FERNANDO .b

12345123451234512345

Mayores

Menores

Mayores

Menores

CASOS

CASOS

Sexo del internoF

M

Númerodel caso Nombre de la unidad Valor

En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casos con elvalor 1.

a.

En la tabla de valores extremos menores sólo se muestra una lista parcial de los casos con elvalor 1.

b.

AGGREGATE /OUTFILE='D:\MGPP2004\SPSS\AGR2 .sav' /BREAK=cod._uni /N_BREAK=N. USE ALL. COMPUTE filter_$=(n_break = 2). VARIABLE LABEL filter_$ 'n_break = 2 (FILTER)'. VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE . AGGREGATE /OUTFILE='D:\MGPP 2004\SPSS\AGR3 .sav' /BREAK=pais sexo /a_os_1 = MIN(a_os) /a_os_2 = MAX(a_os) /a_os_3 = MEAN(a_os) /N_BREAK=N.

88

*** Generación de Cubos OLAP *** . OLAP CUBES edad_cum a_os BY region BY sexo BY pais /CELLS=COUNT MEAN STDDEV MEDIAN MIN MAX NPCT /TITLE='OLAP Cubes'.

OLAP Cubes

Región de la unidad: TotalSexo del interno: TotalNOmbre del país: Total

973 64921,79 8,9116,22 45,1524,00 5,00

0 270 1154

100,0% 100,0%

NMeanStd. DeviationMedianMinimumMaximum% of Total N

Edad al iniciar condena Pena en años

OLAP Cubes

Región de la unidad: TotalSexo del interno: MNOmbre del país: Total

936 61521,51 9,0916,09 46,3824,00 5,00

0 267 1154

96,2% 94,8%

NMeanStd. DeviationMedianMinimumMaximum% of Total N

Edad al iniciar condena Pena en años

89


GUIA 8

Caso: Producción minera 2009-20108 Suponga que usted es un asesor de una empresa minera y debe entregar algunas estadísticas de producción agregada. Considere el archivo en Excel llamado Producción minera 2009-2010. El objetivo de este caso es importar un archivo desde Excel a SPSS, utilizar algunas funciones para calcular variables y generar nuevos archivos con agregar.

1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual.

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual, la variabilidad, la mínima y máxima producción.

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo.

5) Genere un gráfico que muestre para cada año la producción promedio mensual de cobre

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la mínima y máxima producción mensual y la variabilidad de producción de cobre

7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la producción de oro. Para esto considere la media de producción mensual , la mínima y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.

8 Caso elaborado por Sara Arancibia

90

SOLUCION 1) Desde SPSS importar el archivo considerando la hoja prod minera 2009-2010 mensual. Solución: Archivo /abrir/datos

Ajuste en vista de variables los decimales a 2 y guardar con el nombre producción minera 2009-2010 mensual

91

2) Calcule una variable que muestre solo el año y otra que muestre solo el mes.

Para calcular el mes Transformar /calcular variable/ variable de destino: mes, tipo; cadena, anchura 10/expresión de cadena: CHAR.SUBSTR(AñoyMes,6). Pegar/ ejecutar/Aceptar. DATASET ACTIVATE Conjunto_de_datos1. STRING mes (A10). COMPUTE mes=CHAR.SUBSTR(AñoyMes,6). VARIABLE LABELS mes 'mes'. EXECUTE. Para calcular el año Transformar /calcular variable/ variable de destino: año, tipo; cadena, anchura 4/expresión de cadena: CHAR.SUBSTR(AñoyMes,1,4). Pegar/ ejecutar/Aceptar STRING año (A4). COMPUTE año=CHAR.SUBSTR(AñoyMes,1,4). VARIABLE LABELS año 'año'. EXECUTE. Para pasar a formato numérico ir a vista de variables y cambiar formato de cadena a numérico, cambiar además en medida de nominal a escala

3) Genere un archivo con estadísticas agregadas de producción para el año 2009 y 2010 considerando la producción de cobre y oro. Para esto considere para cada año la producción total, la media de producción mensual , la variabilidad, la mínimo y máxima producción

Datos/ Agregar/variable de segmentación : año/Resúmenes de variables /Cobretdefino_sum 'prod total de cobre'=SUM(Cobretdefino) /Cobretdefino_mean 'prod media de cobre'=MEAN(Cobretdefino) /Cobretdefino_min 'Mínima prod de cobre'=MIN(Cobretdefino) /Cobretdefino_max 'Máxima prod de cobre'=MAX(Cobretdefino) /Cobretdefino_sd 'variabilidad en la prod de cobre'=SD(Cobretdefino) /Orokgdefino_sum 'prod total de oro'=SUM(Orokgdefino) /Orokgdefino_mean_1 'prod media de oro'=MEAN(Orokgdefino) /Orokgdefino_min 'minima prod de oro'=MIN(Orokgdefino) /Orokgdefino_max 'maxima prod de oro'=MAX(Orokgdefino) /Orokgdefino_sd 'variabilidad en la prod de oro'=SD(Orokgdefino) Activar número de casos: casos Crear un nuevo conjunto de datos : Nombre del conjunto de datos: AGRPROD

92

4) Transponer el archivo creado y guarde como Producc agregada 2009-2010 y realice una tabla con los datos del archivo.

Datos/ transponer DATASET ACTIVATE Conjunto_de_datos10. FLIP VARIABLES=Cobretdefino_sum Cobretdefino_min Cobretdefino_max Cobretdefino_sd Orokgdefino_sum Orokgdefino_mean_1 Cobretdefino_mean Orokgdefino_min Orokgdefino_max Orokgdefino_sd /NEWNAME=año. Se genera un nuevo archivo sin título. Guardar como: Producc agregada 2009-2010, luego ir a Analizar/ informes Resúmenes de casos./limitar a los primeros 11 casos.

93

5) Genere un gráfico que muestre para cada año la producción mensual de cobre

Considere el archivo AGRPROD.sav /ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ valores individuales de casos/ las barras representan: Cobretdefino_mean, varaible:año

Otra forma Considere el archivo prod minera 2009-2010. Ir a gráficos /cuadros de diálogo antiguos/ barras/ simple/ resúmenes para grupos de casos/ las barras representan: MEAN(Cobretdefino), eje de categorías : año

94

6) Genere un gráfico que muestre para cada año la producción media mensual de cobre, la

mínima y máxima producción mensual y la variabilidad de producción de cobre Ir a gráficos /cuadros de diálogo antiguos/ barras/ agrupados/ resúmenes para distintas variables/ las barras representan: MEAN(Cobretdefino), MIN(Cobretdefino), MAX(Cobretdefino), STD(Cobretdefino), eje de categorías : año. Aceptar

7) Considerando los años 2009 y 2010 genere un archivo con estadísticas agregadas por mes para la producción de oro. Para esto considere la media de producción mensual, la mínima

95

y máxima producción, la desviación estándar y el coeficiente de variabilidad de la producción de oro.

Ir a Datos Agregar/ Considere las variables como en la imagen y escriba un nuevo archivo de datos con el nombre AGRPRODMES.sav Luego abrir el archivo creado y generar la variables CV (Coeficiente de variabilidad). Para esto ir a Transformar/calcular/ (Orokgdefino_sd / Orokgdefino_mean_1)*100 El resultado se puede ver en el archivo agregado

97


GUIA 9

Estudio de caso: Encuesta laboral (Aplicación IPC) Se realizó una encuesta dirigida a personas activas en el ámbito laboral, con el objeto de conocer algunas características de ésta y conocer qué ha sucedido con la evolución de los sueldos. Para tal efecto, se tomó una muestra de 470 personas activas. Los datos entregados por los entrevistados se depositaron en el archivo caso encuesta laboral (aplicación IPC). Usando los antecedentes que residen en la base de datos antes señalada y los datos de IPC anual ( base Dic 1998=100) responda las siguientes preguntas. Considere

Año IPC 1993 71,68 1994 78,09 1995 84,49 1996 90,10 1997 95,54 1998 100,00 1999 102,31 2000 106,94 2001 109,76 2002 112,86 2003 114,07 2004 116,84

a) Elaborar un cuadro que muestre los siguientes estadísticos descriptivos: Mínimo, Máximo, Media, Mediana y desviación estándar, del sueldo promedio inicial, del sueldo promedio inicial expresado en pesos del año 2004 y sueldo promedio actual por categoría laboral

***Sintaxis IPC***. IF (contrato = 93) IPC = 71.68 . IF (contrato = 94) IPC = 78.09 . IF (contrato = 95) IPC = 84.49 . IF (contrato = 96) IPC = 90.10 . IF (contrato = 97) IPC = 95.54 . IF (contrato = 98) IPC = 100 . IF (contrato = 99) IPC = 102.31 . IF (contrato = 2000) IPC = 106.94 . IF (contrato = 2001) IPC = 109,76 . IF (contrato = 2002) IPC = 112.86 .

98

IF (contrato = 2003) IPC = 114.07 . IF (contrato = 2004) IPC = 116.84 . EXECUTE . Sintaxis Utilizada para Actualización del sueldo Inicial en moneda de dic del 2004 COMPUTE suel2004 = (sueldini / IPC) * 116.84 . EXECUTE . MEANS TABLES=sueldini sueld suel2004 BY catlab /CELLS COUNT MIN MAX MEAN MEDIAN STDDEV .

Informe

142 142 142166500 227146,40 229440,81570000 846719,98 855272,71

287285,56 380863,4484 384609,4015268000,00 366611,8709 370315,021178070,001 120759,16120 121893,4700

285 285 285135000 136965,55 139760,77300000 467245,90 476781,53

201469,74 272755,6075 278291,0066202500,00 263933,6151 269320,015434432,401 61964,72683 63258,53212

43 43 43236250 336507,91 326706,71

1199700 1386998,08 1346600,08535590,70 765540,9758 743243,6659495000,00 751059,4599 729183,9416

163393,602 237648,82763 230727,0171470 470 470

135000 136965,55 139760,771199700 1386998,08 1346600,08

257965,59 350502,5952 352950,9564225000,00 304926,2635 311149,2484

119195,691 177517,26027 171214,0115

NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.NMínimoMáximoMediaMedianaDesv. típ.

Categoría laboralAdministrativo

Técnico

Directivo

Total

Sueldo inicial

Sueldo actual( en pesos del

2004)

sueldo inicialen pesos del

2004

99

B) Considere por separado cada categoría laboral . Realice un gráfico para la media de los sueldos iniciales (moneda nominal) por año de contrato. Luego realice un gráfico para la media de los sueldos actuales . IF (contrato < 2000) contrat = contrato + 1900 . VARIABLE LABELS contrat 'año de contrato' . EXECUTE . IF (contrato >= 2000) contrat = contrato . VARIABLE LABELS contrat 'año de contrato' . EXECUTE .

200420032002200120001999199819971996199519941993

año de contrato

500000

400000

300000

200000

100000

0

Med

ia S

ueld

o in

icia

l

474000

303750315750

252450285253

236250263325

282825

323438284400

308566

266417

Categoría laboral: Administrativo

100

200420032002200120001999199819971996199519941993

año de contrato

250000

200000

150000

100000

50000

0

Med

ia S

ueld

o in

icia

l

216750236200

179208

206321186221193145

206074201600195450210424

197932

219164

Categoría laboral: Técnico

200420032002200120001999199819971996199519941993

año de contrato

500000,00

400000,00

300000,00

200000,00

100000,00

0,00

Med

ia S

ueld

o ac

tual

( en

pes

os d

el 2

004)

474000,00

308014,80323616,05

273062,42308543,91

267104,05304592,24

342420,14

415233,44389359,72

457066,08429922,46

Categoría laboral: Administrativo

101

200420032002200120001999199819971996199519941993

año de contrato

400000,00

300000,00

200000,00

100000,00

0,00

Med

ia S

ueld

o ac

tual

( en

pes

os d

el 2

004)

216.750,00

237.097,01

181.817,54

220.913,26

199.390,81

216.163,53

235.960,79

241.614,46

248.386,80

285.172,34

290.227,40

350.097,47

Categoría laboral: Técnico

2002200120001999199819971996199519941993

año de contrato

1000000,00

800000,00

600000,00

400000,00

200000,00

0,00

Med

ia S

ueld

o ac

tual

( en

pes

os d

el 2

004)

693109,87756630,78

495520,85484862,59523501,62

614164,86

951475,06

788603,62829656,02

867436,55

Categoría laboral: Directivo

102


GUIA 10

Análisis de correlación y regresión lineal Gráficos de dispersión y coeficiente de correlación 1.-Considere el archivo Mundo 95.sav Muestre un gráfico de dispersión para las variables “tasasida” y “alfabetización”. ¿Están correlacionadas?. En el gráfico muestre 8 países con tasa de sida superior a 100. Determine el coeficiente de correlación y el coeficiente de determinación. Explique la diferencia entre estos dos coeficientes.

Gráfico de dispersión

Alfabetización (%)

120100806040200

Cas

os d

e S

IDA

por

100

.000

hab

itant

es

400

300

200

100

0

-100 R² = 0,0257

Zambia

Uganda

RuandaRep. C. Africana Kenia

Estados UnidosBarbados

2.-Considere el archivo “Estudio Morfología.sav”. a) Determine si las variables estatura, peso y coeficiente intelectual están correlacionadas significativamente e interprete. Para esto seleccione Analizar/Correlaciones/Divariadas Variables:ci, estatura y peso Seleccionar [Correlación de Pearson], [Prueba de significación bilateral], [Marcar las correlaciones significativas].

103

Correlaciones

1 ,081 ,001. ,325 ,988

149 149 148,081 1 ,600**,325 . ,000149 150 149

,001 ,600** 1,988 ,000 .148 149 149

Correlación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)NCorrelación de PearsonSig. (bilateral)N

Cociente intelectual

ESTATURA

PESO

Cocienteintelectual ESTATURA PESO

La correlación es significativa al nivel 0,01 (bilateral).**.

Diagrama de Dispersión La forma de una relación se puede estudiar visualmente a partir de la nube de puntos generada en el Gráfico de Dispersión: b) Realice un gráfico de dispersión entre peso y estatura Seleccione Gráficos/Dispersión/Dispersión Simple Eje Y: peso Eje X: estatura Establecer marcas por: sexo Etiquetar mediante: iden Edite la gráfica y ajuste la nube por una recta de regresión, muestre el R2 e interprete.

Gráfico de dispersión simple

ESTATURA

280260240220200180160140120

PE

SO

110

100

90

80

70

60

50

40

SEXO

Mujer

Hombre

Total Population

R² = 0,3606

93

31

27

c) Descubra qué puntos están alejados de la nube y fíltrelos para volver a hacer el gráfico de dispersión, compare ahora el R2 e interprete. USE ALL. COMPUTE filter_$=(iden ~= 27 & iden ~= 93 & iden ~= 31). VARIABLE LABEL filter_$ 'iden ~= 27 & iden ~= 93 & iden ~= 31 (FILTER)'.

104

VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'. FILTER BY filter_$. EXECUTE .

Gráfico de dispersión simple

Se han filtrado los casos 27, 31 y 93

ESTATURA

200190180170160150140

PESO

110

100

90

80

70

60

50

40

SEXO

Mujer

Hombre

Total Population

R² = 0,7182

d) Realice un gráfico de dispersión superpuesto. Con el tipo Superpuesto se pueden representar varias relaciones en una sola nubes de puntos. Seleccione el par estatura - peso y el par ci - peso

gráfico de dispersión superpuesto

110100908070605040

300

200

100

0

Cociente intelectualPESO

ESTATURA

PESO

31

31

105

e) Realice un gráfico de dispersión matricial. El tipo matricial halla nubes de puntos separadas para todas las parejas de variables que se pueden obtener con las variables que se especifiquen. Elegir el tipo matricial como tipo de gráfica de dispersión y seleccionar y transferir las variables a relacionar a variables en la matriz. Por ejemplo seleccionar y transferir ci, estatura y peso. Pulsar aceptar. Como hay tres variables habrá tres parejas de relaciones (con cuatro variables habrá seis parejas).

Cociente intelectual

ESTATURA

PESO

Gráfico de dispersión matricial

SEXO

Mujer

Hombre

f) Determine el modelo que relaciona la estatura (X) y el peso (Y) e interprete R, R2 y Error típico de estimación

Resumen del modelo

Modelo R R cuadrado R cuadrado corregida

Error típ. de la estimación

1 ,847(a) ,718 ,716 6,4593a Variables predictoras: (Constante), ESTATURA

El coeficiente R mide la fuerza de asociación lineal entre estatura y peso, la cual es considerable. El R2 0,718 indica que la variación en el peso se explica en un 71,8% por la variable estatura. Una forma de estimar el error estándar del estimador es basándose en los residuos;

2

2

, −= ∑

ne

SXY

El error estándar de la estimación es una medida de cuán inexacto podría ser la predicción y mide la dispersión con respecto a una recta promedio, denominada recta de regresión.

106

ANOVAb

15309,683 1 15309,683 366,941 ,000a

6008,032 144 41,72221317,715 145

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), ESTATURAa.

Variable dependiente: PESOb.

Cuando se trata de una regresión simple la prueba ANOVA se reduce a la prueba individual Test T donde H0: β1 = 0 g) Estime la ecuación de regresión

Coeficientesa

-92,138 8,816 -10,451 ,000,999 ,052 ,847 19,156 ,000

(Constante)ESTATURA

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

ost Sig.

Variable dependiente: PESOa.

Y = -92,13 + 0,999•X donde Y = Peso X = Estatura h) Pruebe la hipótesis nula H0: β1 = 0 para la estatura y el peso. ¿Existe una relación significativa entre la estatura y el peso? En el SPSS ver la tabla “coeficientes“ que resultó en el ejercicio b) y observar el valor del estadígrafo t (asociado a la pendiente de la regresión) y su nivel de significancia. Dado que la sig < 0,01 se rechaza la hipótesis nula H0: β1 = 0. Concluimos entonces que existe una relación significativa entre la estatura y el peso. i) Interprete la pendiente de la ecuación de regresión. La pendiente de la recta b1 es el cambio que se produce en la variable dependiente (en promedio) por cada unidad de cambio en la variable independiente, es decir, por cada unidad de aumento en la estatura, en promedio el peso aumenta en 0,999 unidades. Nota: Inferencias sobre la Pendiente. A fin de poder utilizar una ecuación de regresión para efectos de estimación o predicción, primero debemos determinar si en la población parece existir una relación entre las dos variables o si la relación observada en la muestra pudo ocurrir por azar. En ausencia de toda relación en la población, por definición la pendiente de la línea de regresión de la población sería de cero β1=0. En consecuencia, la hipótesis nula que se prueba usualmente es H0: β1=0. La hipótesis nula también puede formularse como una prueba de una cola, en cuyo caso la hipótesis alternativa no es simplemente que existe relación entre las dos variables, sino además que esta relación es de un tipo específico (directa o inversa). Un valor hipotético de la pendiente se prueba calculando una estadística t y usando n-2 grados de libertad. Es el proceso de inferencia se pierden dos grados de libertad porque en la ecuación de regresión se incluyen dos estimaciones paramétricas, b0 y b1. La fórmula estándar es:

107

1

11 )(

bsobt β−

=

donde 22

,1

XnX

Ss XY

b

−=∑

Sin embargo, cuando, como ocurre por lo general, la hipótesis nula es que la pendiente es cero, la fórmula se simplifica y enuncia como

1

1

bsbt =

El intervalo de confianza para la pendiente de la población β1, en el que los grados de libertad asociados con t son n-2, se elabora de la siguiente manera:

11 btsb +−

Definición de grados de libertad: Los grados de libertad indican el número de valores “libres de variar” en la muestra que sirve de base al intervalo de confianza. j) Determine el intervalo de confianza del 95% para β1. Para esto seleccione Regresión lineal/ Estadísticos/Intervalos de confianza. En la tabla de resultados “coeficientes” del SPSS observe los límites inferior y superior del intervalo de confianza para b1 al 95%.

Coeficientesa

-92,138 8,816 -10,451 ,000 -109,564 -74,712,999 ,052 ,847 19,156 ,000 ,896 1,102

(Constante)ESTATURA

Modelo1

B Error típ.


Beta


os

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: PESOa.

Se tiene que el intervalo de confianza de 95% para β1 es 0,896 a 1,102

Así con cada unidad adicional de estatura, la cantidad de aumento promedio en el peso es de entre 0,896 y 1,102 con una confianza de 95%.

Coeficientesa

2,129 7,164 ,297 ,772 -13,834 18,092,861 ,049 ,984 17,596 ,000 ,752 ,970

(Constante)INGRESO

Modelo1

B Error típ.


Beta

Coeficientes

estandarizados

t Sig. Límite inferiorLímite

superior

Intervalo de confianza paraB al 95%

Variable dependiente: CONSUMOa.

k) Determine los valores pronosticados y los residuos usando la ecuación de regresión desarrollada. Compare los residuos obtenidos del SPSS. Para esto seleccione “Guardar” en el cuadro de diálogo “Regresión lineal” y en el cuadro de diálogo siguiente considere valores pronosticados no

108

tipificados (es decir el valor que predice el modelo para la variable dependiente) y valores tipificados (transformación de cada valor pronosticado a su forma tipificada). Además considere residuos no tipificados (es decir, la diferencia entre un valor observado y el valor pronosticado del modelo) y los residuos tipificados.

Observación: Si en la regresión lineal queremos llevar a cabo inferencias y partimos de los estadísticos obtenidos en la muestra, deberemos tener en cuenta una serie de requisitos: • Normalidad e igualdad de las varianzas en la variable dependiente (Y) del modelo para valores fijos de la independiente o independientes del mismo X. • Independencia de las observaciones • Linealidad en la relación entre las variables. l) Considere “Gráficos” del cuadro de diálogo ”Regresión lineal” para realizar los siguientes gráficos: Los residuos tipificados ZRESID frente a los valores pronosticados tipificados ZPRED para contrastar la igualdad de las varianzas. Nota: Si no hay ningún patrón sistemático claramente definido en los datos y los residuales fluctúan aleatoriamente alrededor de la recta que corresponde a la media de los mismos y de valor cero, podemos concluir que se cumple el requisito de linealidad en la relación entre las variables. Este gráfico puede igualmente servirnos para contrastar hasta qué punto el principio de igualdad de

109

varianzas puede o no ser violado por los datos. Si la variabilidad de los residuales a lo largo de los valores predichos es más o menos constante, podemos concluir que se cumple la igualdad de varianzas. No en caso contrario. Los residuos tipificados-gráfico de prob. normal. Nota: El gráfico de residuos tipificados de prob. normal se usa para comprobar la normalidad. Si la variable se distribuye normalmente los puntos representados forman una línea recta diagonal

Gráfico P-P normal de regresión Residuo tipificado

Variable dependiente: PESO

Prob acum observada

1,0,8,5,30,0

Pro

b ac

um e

sper

ada

1,0

,8

,5

,3

0,0

Gráfico de dispersión

Variable dependiente: PESO

Regresión Valor pronosticado tipificado

3210-1-2-3

Reg

resi

ón R

esid

uo ti

pific

ado

3

2

1

0

-1

-2

-3

Pruebas de normalidad

,044 146 ,200* ,992 146 ,601Standardized ResidualEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova Shapiro-Wilk

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

Regresión Lineal Simple Comenzaremos el análisis de las regresiones partiendo por el modelo de regresión lineal simple (simple = una variable independiente). Este modelo es sólo un punto de partida en el estudio del análisis de regresión puesto que generalmente interesará estudiar simultáneamente más de una variable predictora,. Utilizando el archivo “Datos de empleados.sav” buscaremos determinar la existencia de una relación entre la variable salario (salario actual) como variable dependiente y la variable salini (salario inicial) como variable independiente o predictora. Para esto desde el menú se debe seleccionar Analizar/Regresión/Lineal. Variable Dependiente: salario Variable Independiente: salani De esta forma se obtienen los siguientes resultados: Tabla 1

110

Resumen del modelo

.880a .775 .774 $8,115.356Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Salario iniciala.

Tabla 2

ANOVAb

1.068E+11 1 1.07E+11 1622.118 .000a

3.109E+10 472 658589971.379E+11 473

RegresiónResidualTotal

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Salario iniciala.

Variable dependiente: Salario actualb.

Tabla3

Coeficientesa

1928.206 888.680 2.170 .0311.909 .047 .880 40.276 .000

(Constante)Salario inicial

Modelo1

B Error típ.


Beta


ost Sig.

Variable dependiente: Salario actuala.

Bondad de ajuste La primera información que se obtiene se refiere al coeficiente de correlación múltiple (R) y a su cuadrado. Puesto que el modelo de regresión sólo incluye dos variables, el coeficiente de correlación múltiple no es otra cosa que el valor absoluto del coeficiente de correlación de Pearson entre esas dos variables. Su cuadrado (R2) es el coeficiente de determinación:

2 Suma de cuadrados de los residuos1Suma de cuadrados total

R = −

(Los residuos son las diferencias existentes entre las puntuaciones observadas y los pronósticos obtenidos con la recta). Además del porcentaje de mejora en los pronósticos, R2 expresa la proporción de varianza de la variable dependiente que está explicada por la variable independiente. En el ejemplo (ver Tabla 1), R toma un valor muy alto (su máximo es 1); y R2 indica que el 77,5% de la variabilidad del salario actual está explicada por, depende de, o está asociada al salario inicial. Es importante señalar en este momento que el análisis de regresión no permite afirmar que las relaciones detectadas sean de tipo causal: únicamente es posible hablar de relación y de grado de relación. Debe quedar muy claro desde el principio que una relación, por sí sola, nunca implica causalidad. R cuadrado corregida es una corrección a la baja de R2 que se basa en el número de casos y de variables independientes:

( ) ( )2 2 2corregida 1 / 1R R p R n p⎡ ⎤= − − − −⎣ ⎦

(p se refiere al número de variables independiente). En una situación con pocos casos y mucha variables independiente, R2 es un estimador algo optimista (artificialmente alto) del verdadero coeficiente de correlación poblacional. En tal caso, el valor de R2 corregida será sensiblemente más bajo que el de R2. En el ejemplo, como hay 474 casos y una sola variable independiente, los dos valores de R2 (el corregido y el no corregido) son prácticamente iguales.

111

El error típico de la estimación (Se) es la desviación típica de los residuos, es decir, la desviación típica de las distancias existentes entre las puntuaciones en la variable dependiente (Yi) y los pronósticos efectuados con la recta de regresión (Ŷi), aunque no exactamente, pues la suma de las distancias al cuadrado están divididas por n-2

Error típico de estimación = ( ) ( )2ˆ / 2e i iS Y Y n= − −∑

En realidad, este error típico es la raíz cuadrada de la media cuadrática residual de la Tabla. Representa una medida de la parte de variabilidad de la variable dependiente que no está explicada por la recta de regresión. En general, cuanto mejor es el ajuste, más pequeño es este error típico. La tabla resumen del ANOVA (Tabla 2) informa sobre si existe o no relación significativa entre la variable independiente y la dependiente. El estadístico F permite contrastar la hipótesis nula de que el valor poblacional de R es cero (que en el modelo de regresión simple equivale a contrastar la hipótesis de que la pendiente de la recta de regresión vale cero). El nivel crítico (Sig.) indica que, si se supone que el valor poblacional de R es cero, es improbable (probabilidad = 0,000) que R, en esta muestra, tome el valor 0,88. Lo cual implica que el valor poblacional de R es mayor que cero y que, en consecuencia, puede afirmarse que ambas variables están linealmente relacionadas. Ecuación de Regresión La Tabla 3 muestra los coeficientes de la recta de regresión. La columna etiquetada Coeficientes no estandarizados contiene los coeficientes de regresión parcial que definen la ecuación de regresión en puntuaciones directas. El coeficiente no estandarizado correspondiente a la constante es el origen de la recta de regresión (B0). Recibe el nombre de constante porque, según se verá es la constante del modelo de regresión:

0 1B Y B X= − y el coeficiente no estandarizado correspondiente a salario inicial es la pendiente de la recta de regresión (B1):

( )1 22

i i i i

i i

X Y X YB

n X X

−=

−∑ ∑ ∑∑ ∑

B1 indica el cambio medio que corresponde a la variable dependiente (salario) por cada unidad de cambio de la variable independiente (salini). Según esto, la ecuación de regresión queda de la siguiente manera:

Pronóstico en salario = 1928,206 + 1,909 salini Es decir, a cada valor de salini le corresponde un pronóstico en salario basado en un incremento constante (1928,206) más 1,909 veces el valor de salini. Coeficientes de Regresión Estandarizados Los coeficientes Beta (coeficiente de regresión parcial estandarizados) son los coeficientes que definen la ecuación de regresión cuando ésta se obtiene tras estandarizar las variables originales, es decir, tras convertir las puntuaciones directas en típicas. Se obtiene de la siguiente manera:

( )1 1 /x yB S Sβ = .

En el análisis de regresión simple, el coeficiente de regresión estandarizado correspondiente a la única variable independiente presente en la ecuación coincide exactamente con el coeficiente de correlación de Pearson. En regresión múltiple, según se verá enseguida, los coeficientes de regresión estandarizados permiten valorar la importancia relativa de cada variable independiente dentro de la ecuación.

112

Prueba de Significación Finalmente, los estadísticos t y sus niveles críticos (Sig.) permiten contrastar las hipótesis nulas de que los coeficientes de regresión valen cero en la población. Estos estadísticos t se obtienen dividendo los coeficientes de regresión B0 y B1 entre sus correspondientes errores típicos:

0

0

0B

B

BtS

= y 1

1

1B

B

BtS

=

siendo:

( )0

2

21

B e

i

XS Sn X X

= +−∑

y ( )

1 2e

B

i

SSX X

=−∑

Estos estadísticos t se distribuyen según el modelo de probabilidad t de Student con n-2 grados de libertad. Por tanto, pueden utilizarse para decidir si un determinado coeficiente de regresión es significativamente distinto de cero y, en consecuencia, en el caso de B1, si la variable independiente está significativamente relacionada con la dependiente. Puesto que en regresión simple se trabaja con una única variable independiente, el resultado del estadístico t (Tabla 3) es equivalente al del estadístico F de la tabla resumen del ANOVA (Tabla 2). De hecho, en regresión simple, t2 = F. A partir de los resultados de análisis (ver Tabla 3), pueden establecerse las siguientes conclusiones: El origen poblacional de la recta de regresión (β0) es significativamente distinto de cero (generalmente, contrastar la hipótesis “β0 = 0” carece de utilidad, pues no contiene información sobre la relación entre Xi e Yi). La pendiente poblacional de la recta de regresión (el coeficiente de regresión β1 correspondiente a salini) es significativamente distinta a cero, lo cual permite afirmar que entre salario y salini existe relación lineal significativa. Peligros y limitaciones relacionados con el análisis de regresión y correlación: En el análisis de regresión un valor de Y no puede estimarse legítimamente si el valor de X está fuera del rango de valores que sirvió de base para la ecuación de regresión Si la estimación de Y implica la predicción de un resultado que aún no ha ocurrido, los datos históricos que sirvieron de base para la ecuación de regresión quizá no sean pertinentes para eventos futuros. El uso de un intervalo de predicción o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales Un coeficiente de correlación significativo no indica necesariamente causalidad, sino que más bien puede indicar una vinculación común con otros eventos. Una correlación significativa no es necesariamente una correlación importante. Dada una muestra grande una correlación de, digamos, R = 0,1 puede ser significativamente diferente de cero con α=0,05. Sin embargo, el coeficiente de determinación de R cuadrado igual a 0,01 para este ejemplo indica que sólo un 1% de la varianza en Y es estadísticamente explicado por el conocimiento de X. Tanto en los análisis de regresión como de correlación se parte del supuesto de un modelo lineal. Conceptos definidos en el SPSS R Múltiple: Coeficiente de correlación entre los valores observados y pronosticados en la variable dependiente. Su valor tiene un rango de 0 a 1. Un valor pequeño indica que hay poca o ninguna relación lineal entre la variable dependiente y las variables independientes. R cuadrado: Medida de la bondad de ajuste de un modelo lineal. En ocasiones recibe el nombre de coeficiente de determinación. Es la proporción de la variación de la variable dependiente explicada

113

por el modelo de regresión. Sus valores van desde 0 a 1. Los valores pequeños indican que el modelo no se ajusta bien a los datos. R cuadrado corregida: La R cuadrado muestral tiende a estimar de manera demasiado optimista cuánto de bien se ajusta el modelo en la población. Habitualmente el modelo no se ajusta a la población tan bien como se ajusta a la muestra de la que se ha derivado. La R cuadrado corregida intenta corregir la R cuadrado para reflejar más estrechamente la bondad de ajuste en la población. Error típico: Medida de cuánto puede variar el valor de un estadístico de contraste de muestra en muestra. Es la desviación típica de la distribución muestral de un estadístico. Por ejemplo, el error típico de la media es la desviación típica de las medias muestrales. Coeficiente de correlación cero: Coef de correlaciones ordinarias, sin variables de control. Los valores del coeficiente de correlación van de –1 a 1. El signo del coef indica la dirección de la relación y su valor absoluto indica la fuerza Coeficiente de Correlación Parcial: La correlación parcial que permanece entre dos variables después de eliminar la correlación que es debida a su relación mutua con las otras variables. La correlación entre la variable dependiente y una variable indep cuando se han eliminado de ambos los efectos lineales de las otras variables independientes presentes en el modelo. La correlación parcial se emplea para controlar el efecto de una o más variables sobre el coeficiente de correlacion de Pearson. En la correlación parcial se estudia la relación entre dos variables eliminando el influjo de una o más variables de control. En un cierto estudio realizado en un parque de atracciones se halló una correlación significativa y muy alta entre la temperatura y el número de tazas de chocolate caliente servidas , r= 0,923 p<=0,000. Lo cual es un resultado muy extraño, pues implica que cuanto mayor es la temperatura más tazas de chocolate caliente se consumen. Sin embargo, si se controla la variable número de visitantes el resultado es muy diferente. Para hallar el coeficiente de correlación parcial entre temperatura y número de tazas de chocolate caliente controlando el número de visitantes, elegir Estadísticos / correlaciones/parciales. Se seleccionan y transfieren las variables tazas y temperatura a la sección “ variables”, se selecciona y transfiere la variable visitant a la sección “controlando para”, finalmente se pulsa el botón aceptar. La correlación ahora es no significativa, rp=0,42 p<=0,198. Cuando hace frío, mucha gente, (de la poca gente que va) toma chocolate, pero cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente. Es decir, como en verano va mucha gente, por poca gente que tome chocolate caliente ya es mayor la cantidad que en invierno. Nota: Peligros y limitaciones relacionados con el análisis de regresión y correlación 1) En el análisis de regresión un valor de Y no puede estimarse legítimamente si el valor de X está fuera del rango de valores que sirvió de base para la ecuación de regresión

114

2) Si la estimación de Y implica la predicción de un resultado que aún no ha ocurrido, los datos históricos que sirvieron de base para la ecuación de regresión quizá no sean pertinentes para eventos futuros. 3) El uso de un intervalo de predicción o de confianza se basa en el supuesto de que las distribuciones condicionales de Y, y por lo tanto de los residuales, son normales y tienen varianzas iguales 4) Un coeficiente de correlación significativo no indica necesariamente causalidad, sino que más bien puede indicar una vinculación común con otros eventos. 5) Una correlación significativa no es necesariamente una correlación importante. Dada una muestra grande una correlación de, digamos, r=0,1 puede ser significativamente diferente de cero con α=0,05. Sin embargo, el coeficiente de determinación de R cuadrado igual a 0,01 para este ejemplo indica que sólo un 1% de la varianza en Y es estadísticamente explicado por el conocimiento de X. 6) En los análisis tanto de regresión como de correlación se parte del supuesto de un modelo lineal.

115


GUIA 11

Regresión lineal con variable dami Estudio de caso: Desempleados Los despidos y el desempleo han afectado a muchos trabajadores en los últimos años. En un estudio publicado en la Revista de Relaciones Laborales se muestran datos de variables que pueden tener relación con la cantidad de semanas que un empleado está desempleado. La variable dependiente en el estudio es “Semanas” y se define como la cantidad de semanas que ha estado desempleado un trabajador a causa de su despido. En el estudio se emplearon las siguientes variables independientes:

Variable Etiqueta edad Edad del trabajador antig Antigüedad en el último empleo (en

años) profesional 1 = Sí

0 = No El archivo “Desempleados2.sav” contiene los datos de 50 trabajadores despedidos. Desde la pregunta a) hasta la d) no considere la variable dami profesional a) Realice un diagrama de dispersión para cada variable independiente con la variable dependiente. ¿Qué puede observar del gráfico?

Diagrama de Dispersión entre Semanas Desempleado

y Edad de la persona

edad

605040302010

SEM

ANAS

90

80

70

60

50

40

30

20

10 Rsq = 0,7216

Diagrama de Dispersión entre Semanas Desempleado

y Antiguedad en último Empleo

ANTIG

403020100

SE

MA

NA

S

90

80

70

60

50

40

30

20

10 Rsq = 0,2164

116

En los diagramas de dispersión se puede observar que existe una correlación lineal positiva entre las variables. En el caso de la edad vs. semanas, la correlación es lineal positiva alta mientras que en el caso de la antigüedad vs. semanas, no se observa tan claro la linealidad. b) Determine la matriz de correlaciones. ¿Qué puede observar?

Correlations

1,000 ,849** ,465**, ,000 ,001

50 50 50,849** 1,000 ,490**,000 , ,000

50 50 50,465** ,490** 1,000,001 ,000 ,

50 50 50

Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N

SEMANAS

edad

ANTIG

SEMANAS edad ANTIG

Correlation is significant at the 0.01 level (2-tailed).**.

En la matriz de correlaciones se puede observar que tanto la correlación entre la edad y las semanas de desempleo, como la correlación entre la antigüedad y las semanas de desempleo son significativas con un nivel de significancia del 0.01 ( Se trata de correlaciones lineales positivas fuerte y moderada respectivamente) c) Ejecute la regresión lineal múltiple para obtener las tablas con las estimaciones del modelo e interprete la tabla ANOVA. ¿Son estadísticamente significativas las variables independientes? Argumente.

ANOVAb

10999,684 2 5499,842 61,892 ,000a

4176,496 47 88,86215176,180 49

RegressionResidualTotal

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), ANTIG, edada.

Dependent Variable: SEMANASb.

Coefficientsa

-17,428 5,983 -2,913 ,0051,794 ,192 ,818 9,318 ,000

,195 ,264 ,065 ,739 ,464

(Constant)edadANTIG

Model1

B Std. Error

UnstandardizedCoefficients

Beta

Standardized

Coefficients

t Sig.

Dependent Variable: SEMANASa.

El estadístico F contrasta la hipótesis nula de que el valor poblacional de R es cero y, por tanto, permite decidir si existe relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas. El valor del nivel crítico (Sig. = 0,000), es menor que 0,05, por tanto existe relación lineal significativa.

117

Puede afirmarse, por tanto, que el hiperplano definido por la ecuación de regresión ofrece un buen ajuste a la nube de puntos. Por otra parte, para la variable edad se obtiene una significancia menor a 0,05 lo que significa que el coeficiente es estadísticamente significativo al nivel 0,05. Sin embargo, la significancia de la variable antigüedad es mayor a 0,05 por lo que no se rechaza la hipótesis nula de que su valor es igual a cero. d) Determine la ecuación de un modelo donde todas las variables sean significativas. Interprete el coeficiente R y el R cuadrado.

Model Summary

,849a ,722 ,716 9,38Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), edada.

ANOVAb

10951,194 1 10951,194 124,416 ,000a

4224,986 48 88,02115176,180 49


Model1


Predictors: (Constant), edada.


Coefficientsa

-18,179 5,868 -3,098 ,0031,863 ,167 ,849 11,154 ,000

(Constant)edad

Model1

B Std. Error


Beta

Standardized

Coefficients

t Sig.


En la tabla de Resumen del Modelo se puede observar el valor R = 0,849. Esto significa que para los desempleados existe una alta correlación lineal entre las variables SEMANAS y EDAD. Por otra parte, el valor R2 = 0,722 indica que la variabilidad en las semanas de desempleo puede ser explicada en un 72,2% por la variable EDAD.

e) ¿Qué ocurre si al último modelo le agrega la variable dami profesional? Interprete los coeficientes de las variables independientes del último modelo.

Model Summary

,891a ,794 ,785 8,16Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Es profesional ( 1=SI, 0=NO),edad

a.

118

ANOVAb

12048,898 2 6024,449 90,542 ,000a

3127,282 47 66,53815176,180 49


Model1


Predictors: (Constant), Es profesional ( 1=SI, 0=NO), edada.


Coefficientsa

-19,465 5,112 -3,808 ,0001,975 ,148 ,900 13,361 ,000

-11,512 2,834 -,274 -4,062 ,000

(Constant)edadEs profesional( 1=SI, 0=NO)

Model1

B Std. Error


Beta

Standardized

Coefficients

t Sig.


Para este nuevo modelo se cumple que existe una relación lineal significativa entre la variable dependiente y el conjunto de variables independientes tomadas juntas, lo que se observa en el valor del nivel crítico del estadístico F, puesto que es menor que 0,05. Además, todas las variables independientes son significativas. Ante el aumento de un año en la edad en promedio las semanas que un empleado permanece desempleado aumentan en casi 1,98 semanas, manteniéndose el resto de variables constante.. Por otra parte, el coeficiente asociado a la variable dummy PROFESIONAL indica que para una misma edad, una persona profesional, en promedio estará desempleada 11,512 semanas menos de lo que estaría si no fuera profesional. Las ecuaciones son: • para los profesionales: SEMANAS = (-19,465-11,512) + 1,975 x EDAD • para no profesionales: SEMANAS = -19,465 + 1,975 x EDAD f) Para el último modelo seleccionado, determine si se satisfacen las hipótesis de normalidad de los residuos y homocedasticidad.

Tests of Normality

,088 50 ,200* ,970 50 ,407Standardized ResidualStatistic df Sig. Statistic df Sig.

Kolmogorov-Smirnova Shapiro-Wilk

This is a lower bound of the true significance.*.

Lilliefors Significance Correctiona.

La prueba de normalidad de Kolmogorov-Smirnov indica que se cumple la hipótesis de normalidad. (La prueba de Shapiro-Wilk es usada cuando hay menos de 50 casos. Dado que son 50 los casos analizados, se usa el valor de Kolmogorov-Smirnov).

119

Scatterplot

Dependent Variable: SEMANAS

Regression Standardized Predicted Value

3210-1-2

Reg

ress

ion

Sta

ndar

dize

d R

esid

ual

2

1

0

-1

-2

-3

Este gráfico muestra que se cumple la hipótesis de homocedasticidad pues los puntos se encuentran distribuidos en forma aleatoria sin seguir ningún patrón.

120


GUIA 12

Líneas de espera I) Estudio de caso: Quick Food Quick Food es un restaurant de comida rápida que vende hamburguesas, papas fritas, y refrescos, así como un limitado número de productos especiales y postres. Aunque Quick Food desearía poder servir a cada uno de los clientes de manera inmediata, hay veces que llegan más clientes de los que puede manejar el personal de servicio de alimentos de Quick Food, por lo que los clientes esperan en fila, para colocar y recibir su pedido. Quick Food está preocupado pues los métodos que utiliza para atender a los clientes están dando como resultado tiempos de espera excesivos. La administración ha pedido que se haga un estudio de línea de espera para ayudar a determinar cuál es el mejor procedimiento de reducir los tiempos de espera y mejorar el servicio. En la operación actual de Quick Food, un empleado toma el pedido al cliente, determina el costo total, acepta el dinero del cliente y entonces surte el pedido. Una vez surtido el pedido del primer cliente, el empleado toma el pedido siguiente, que ha estado esperando que lo atiendan. Cuando llegan más clientes de los que pueden atenderse de manera inmediata, forman una línea de espera y aguardan que la estación de toma y surtido de pedidos quede disponible. a) Suponga que Quick Food ha analizado los datos referentes a la llegada de clientes y ha concluido que siguen una distribución de Poisson con una tasa media de llegadas de 45 clientes por hora. Determine la probabilidad de que no ocurra ninguna llegada es un periodo de un minuto, la probabilidad de una llegada en un periodo de un minuto y la probabilidad de dos llegadas en un periodo de un minuto. b) En Quick Food, el tiempo de servicio se inicia cuando un cliente empieza a colocar su pedido con el empleado y continúa hasta que dicho cliente ha recibido su pedido. Quick Food ha estudiado el proceso de toma y surtido de pedidos y ha llegado a la conclusión que el tiempo de servicio sigue una distribución exponencial y que el único empleado de alimentos puede procesar un promedio de 60 pedidos por hora. Determine la probabilidad de que se procese un pedido en medio minuto o menos, en un minuto o menos, o en dos minutos o menos. Ayuda: t-e-1t)servicio de tiempoP( µ=≤ c) Suponiendo un estado estable en la línea de espera, determine las características de operación para Quick Food, es decir estime;

La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos)

121

d) Después de revisar las características de operación obtenidas con el modelo de la línea de espera, la administración de Quick Food concluyó que era deseable hacer mejoras diseñadas para reducir los tiempos de espera. Generalmente, las mejoras de servicio se hacen mediante lo siguiente: 1.- Incrementar la tasa media de servicio µ mediante algún cambio creativo en el diseño o utilizando nueva tecnología. 2.- Agregar canales de servicio, de manera que se puedan servir más unidades de manera simultánea di) Suponga que al considerar la alternativa 1, la administración de Quick Food decide ocupar un empleado surtidor de pedidos, que ayudará a quien toma los pedidos en la caja. El cliente empieza el proceso de servicio colocando el pedido con el empleado tomador de pedidos. Al recibir el pedido, el tomador de pedidos anuncia la orden por un sistema de intercomunicación y el empleado surtidor de pedidos empieza a surtirlo. Una vez completado el pedido, quien toma los pedidos recibe el dinero, en tanto que quien surte los pedidos sigue ocupándose de la orden. Con este diseño, la administración de Quick Food estima que la tasa media de servicio puede incrementarse de la cifra actual de 60 clientes por hora a 75 clientes por hora. Determine nuevamente las características de operación

La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos

e) Suponga que la administración desea evaluar la conveniencia de abrir una segunda estación de procesamiento de pedidos (alternativa 2), de manera de atender simultáneamente a dos clientes. Suponga que sólo habrá una línea de espera y el siguiente cliente en la cola pasando al primer servidor disponible. Evalué las características de operación de este sistema de dos canales considerando la tasa de servicio 60 clientes por hora.

La probabilidad de que no existan unidades en el sistema Número promedio de clientes en la línea de espera Número promedio de clientes en el sistema Tiempo promedio que utiliza el cliente en la línea de espera (en minutos) Tiempo promedio que ocupa el cliente en el sistema (en minutos

La decisión final, con relación a la política de personal en Quick Food, queda en manos de la administración. El estudio de la línea de espera ha puesto de manifiesto las características de operación que pueden preverse en tres configuraciones. Un sistema de un canal, con un solo empleado; un sistema de un solo canal, con dos empleados, y un sistema de dos canales, con un empleado en cada uno de ellos. Después de considerar estos resultados, ¿qué acción recomendaría usted? Argumente su respuesta.

122

II) Caso Willow Brook National Bank

Willow Brook National Bank opera una ventanilla de cajero para automovilistas que permite a los clientes efectuar transacciones bancarias completas sin tener que salir de su auto. En las mañanas, las llegadas a la ventanilla del cajero automotriz ocurren de manera aleatoria, con una tasa media de llegadas de 24 clientes por hora, es decir 0.4 clientes por minuto.

a. ¿Cuál es el número medio o esperado de clientes que llegarán en un periodo de 5 minutos? b. Suponga que se puede utilizar una distribución de probabilidad Poisson para describir el

proceso de llegadas. Utilice la tasa media de llegadas del inciso (a) y calcule las probabilidades de que exactamente 0, 1, 2 y 3 clientes lleguen durante un periodo de 5 minutos.

c. Se espera que haya atrasos, si llegan más de 3 clientes durante cualquier periodo de 5 minutos. ¿Cuál es la probabilidad de que ocurran estos atrasos?. En el sistema de líneas de espera de Willow Brook National Bank , suponga que los tiempos de servicio para el cajero destinado a automovilistas siguen una distribución de probabilidad exponencial, con una tasa media de servicio de 36 clientes por hora, es decir de 0.6 clientes por minuto. Utilice una distribución de probabilidad exponencial para responder las preguntas que siguen.

a. ¿Cuál es la probabilidad de que el tiempo de servicio sea de 1 minuto o menos? b. ¿Cuál es la probabilidad de que el tiempo de servicio sea de 2 minutos o menos? c. ¿Cuál es la probabilidad de que el tiempo de servicio sea más de 2 minutos?

Utilice la operación del cajero automotriz de un solo canal para determinar las siguientes características de operación del sistema.

a. La probabilidad de que no haya ningún cliente en el sistema. b. El número promedio de clientes esperando. c. El número promedio de clientes en el sistema. d. El tiempo promedio que ocupa un cliente esperando. e. El tiempo promedio que ocupa un cliente en el sistema. f. La probabilidad de que clientes que llegan tengan que esperar el servicio.

SOLUCION 1 a)

2)4,0(5 ==λ clientes en un periodo de 5 minutos b).

!2

!)(

2

xe

xexP

xx −−

==λλ

x P(x)0 0,13531 0,27072 0,27073 0,1804

Suma 0,8571

123

c) 1429,08571,01)3(1)3( =−=≤−=> xPxP 2)

3012,06988,01)2 (6988,01)2 (

4512,01)1 (2)6,0(

1)6,0(

=−=>=−=≤

=−=≤−

−

serviciodetiempoPeserviciodetiempoPeserviciodetiempoP

3)

a) .333,06,04,0110 =−=−=

µλP

b) ( ) 333,12

=−

=λµµ

λqL clientes.

c) ( )( )

( ) 222

=−

=−−+

=+−

=+=λµ

λλµµλµλλ

µλ

λµµλ

µλ

qLL clientes.

d) ( ) .min33,3=−

=λµµ

λqW

e) .min51=

−=

λµW

f) ( ) 6667,01 0 =−== PPw µλ

.

124

III) Estudio de caso: Reservaciones de avión Regional Airlines está estableciendo un nuevo sistema telefónico para manejar las reservaciones de vuelos. De las 10:00 a.m. a las 11:00 a.m. las llamadas al agente de reservaciones ocurren de manera aleatoria, con un promedio de una llamada cada 3.75 minutos. Los datos históricos de tiempos de servicio muestran que un agente de reservaciones utiliza un promedio de 3 minutos con cada cliente. Las hipótesis del modelo de línea de espera con llegadas tipo Poisson y tiempo de servicio exponenciales parecen ser razonables para el sistema de reservación telefónico. La administración de Regional Airlines cree que poder ofrecer un eficiente sistema de reservaciones por teléfono es importante para presentar una imagen de una aerolínea orientada al servicio. Si el sistema se implementa correctamente, Regional Airlines tendrá buenas relaciones con los clientes, lo que a la larga incrementará su volumen de negocios. Sin embargo, si con frecuencia se sobrecarga el sistema de reservaciones telefónicas y los clientes tienen dificultades para entrar en contacto con un agente, una reacción negativa por parte de los clientes puede llevar a disminuciones en los volúmenes de venta. El costo de un agente de reservaciones es de 20 dólares la hora. Por lo tanto, aunque la administración desea dar un buen servicio, no desea incurrir en el costo de aumentar demasiado el personal de operación de reservaciones telefónicas con más agentes de los necesarios. En una reunión de planeación, el equipo de administración de Regional estuvo de acuerdo en que una meta aceptable de servicio a clientes es contestar de inmediato por lo menos 85% de las llamadas que se reciban. Durante la reunión de planeación, el vicepresidente de administración de Regional dijo que los datos muestran que la tasa promedio de servicio para un agente es mayor que la tasa promedio de llegadas de llamadas telefónicas. La conclusión del vicepresidente es que los costos de personal podrían minimizarse con un solo agente y que éste debería ser capaz de manejar las reservaciones telefónicas y. además, tener algo de tiempo ocioso. El vicepresidente de marketing volvió a insistir en la importancia del servicio a clientes y expresó su apoyo para mantener por lo menos dos agentes de reservaciones.

El actual sistema de reservaciones telefónicas no permite que quienes llaman puedan esperar. Los que llamen cuando todos los agente de reservaciones estén ocupados, recibirán una señal de ocupado y serán bloqueados, dejándolos fuera del sistema. Un representante de la empresa telefónica sugirió que Regional Airlines evaluara un sistema más grande, capaz de aceptar esperas. En el sistema ampliado, cuando un cliente llame y todos los agentes estén ocupados, recibirá un mensaje grabado que le indicará que su llamada está en espera en el orden de llegada y que pronto habrá un agente disponible. El cliente puede quedarse en la línea oyendo música de fondo mientras llega el momento que lo atienda un agente. La administración de Regional necesitará más información antes de cambiar al sistema ampliado.

Informe a la administración Prepare un informe a la administración de Regional Airlines analizando el sistema de reservaciones telefónicas. Incluya en su informe la siguiente información.

1.- Un análisis detallado de las características de operación del sistema de reservaciones con un agente, tal y como fue propuesto por el vicepresidente de administración. ¿Cuál es su recomendación, con relación a un sistema de un solo agente?

2.- Un análisis detallado de las características de operación del sistema de reservaciones, basado en su recomendación con relación al número de agentes que debería utilizar Regional y si el sistema debería permitir que los clientes esperen.

Material Metodos Cuantitativos 2011 Marzo

Documents

Transcript of Material Metodos Cuantitativos 2011 Marzo