C UU RR SSOO DD EE IINN TT RR OO DD UU CC … · explicativos dos o más factores hablamos de una...

33
C C U U R R S S O O D D E E I I N N T T R R O O D D U U C C C C I I Ó Ó N N y y M M A A N N E E J J O O B B Á Á S S I I C C O O D D E E L L S S P P S S S S

Transcript of C UU RR SSOO DD EE IINN TT RR OO DD UU CC … · explicativos dos o más factores hablamos de una...

CCCUUURRRSSSOOO DDDEEE IIINNNTTTRRROOODDDUUUCCCCCCIIIÓÓÓNNN yyy MMMAAANNNEEEJJJOOOBBBÁÁÁSSSIIICCCOOO DDDEEELLL SSSPPPSSSSSS

SSSEEESSSIIIÓÓÓNNN III:::

TTTééécccnnniiicccaaasss dddeee AAAnnnááállliiisssiiisss MMMuuullltttiiivvvaaarrriiiaaannnttteee... CCClllaaasssiiifffiiicccaaaccciiióóónnn,,,dddeeessscccrrriiipppccciiióóónnn yyy dddiiissspppooonnniiibbbiiillliiidddaaaddd eeennn SSSPPPSSSSSS

DETERMINACIÓNDEL PROBLEMA

OBTENCIÓN DE INFORMACIÓN

ANÁLISIS

INFORME

F.SECUNDARIAS

F.PRIMARIAS

- SOPORTE IMPRESO

- SOPORTE MAGNÉTICO

- UNIVERSO

- PRETEST Y TRABAJO DE CAMPO

- CODIFICACIÓN Y TABULACIÓN

- CONTROL

- MUESTREO

- CUESTIONARIO

MULTIVARIANTE

SIMPLE

- ESTADÍSTICA DESCRIPTIVA

- ANÁLISIS DE CORRELACIÓN: Numérica, ordinal o categórica

- NÚMEROS ÍNDICES

- GRÁFICOS Y TABLAS

- ANÁLISIS DE INTERDEPENDENCIA:

- ANÁLISIS DE DEPENDENCIA: Anova, Ancova, Manova y Mancova. Análisis de Regresión. Análisis Discriminante. Correlación Canóvnica

- Entre variables: Análisis Factorial. Componentes principales

- Entre sujetos: Análisis Cluster. Análisis Multidimensional No-Métrico. Análisis Conjunto

ESQUEMA DE OBTENCIÓN Y ANÁLISIS DE DATOS

DE DIRECCIÓN

TÉCNICO

ESQUEMA DE CLASIFICACIÓN DETÉCNICAS DE ANÁLISIS MULTIVARIANTE

Ø ANÁLISIS DE DEPENDENCIA:

ü TABLAS DE CONTINEGENCIA.

ü ANOVA, ANCOVA, MANOVA, MANCOVA.

ü ANÁLISIS DE REGRESIÓN.

ü ANÁLISIS DISCRIMINANTE – LOGIT - PROBIT.

ü CORRELACIÓN CANÓNICA.

Ø ANÁLISIS DE INTERDEPENDENCIA.

Ø ENTRE VARIABLES:

ü COMPONENTES PRINCIPALES.

ü ANÁLISIS FACTORIAL.

ü ANÁLISIS CONJUNTO.

Ø ENTRE SUJETOS:

ü CLUSTER O ANÁLISIS DE GRUPOS.

ü ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO.

EXTENSIÓN DE TÉCNICAS DE ANÁLISISMULTIVARIANTE

VICENS OTERO, J. “Estudios de mercado en la empresaespañola”. Instituto de Predicción Económica L. R. Klein.

Documento 96/4. Julio 1996.

Resultados para 300 empresas con cifras de ventas superiores a 250 mill. Pts.

UTILIZACIÓN DE LOS DISTINTOS TIPOS DE ANÁLISIS

SI(Porcentaje)

NO(Porcentaje)

TOTAL(Porcentaje)

ANÁLISIS ESTADÍSTICOSIMPLE 20.8% 79.2% 100%

ANÁLISIS ESTADÍSTICO MULTIVARIANTE 8.2% 91.8% 100%UTILIZACIÓN DE PROGRAMAS DEORDENADOR PARA EL ANÁLISIS 29.8% 70.2% 100%

MÉTODOS DE ANÁLISIS REALIZADOS EN 1994(Porcentaje)

SI HA REALIZADOANÁLISIS ESTADÍSTICO

MULTIVARIANTENO HA

REALIZADO PERSONALPROPIO

CONSUL-TORÍA

EXTERNA

PERSONALINTERNO YEXTERNO

TOTAL

ANÁLISIS DE LAVARIANZA 88.6% 4.2% 4.8% 2.4% 100%

ANÁLISIS DE LACOVARIANZA 94.5% 1.8% 3.7% 0.0% 100%

ANÁLISIS DISCRIMIANTE93.3% 1.2% 4.9% 0.6% 100%

CORRELACIÓNCANÓNICA 98.8% 0.0% 1.2% 0.0% 100%

ANÁLISISFACTORIAL 85.4% 2.5% 9.1% 3.0% 100%

ANÁLISIS DE REGRESIÓN89.1% 5.5% 4.2% 1.2% 100%

CLUSTER OANÁLISIS DE GRUPO 87.2% 4.2% 7.4% 1.2% 100%

ESCALAS MULTI-DIMENSIONALES 95.1% 2.5% 1.2% 1.2% 100%

ANÁLISISCONJUNTO 93.9% 3.0% 2.5% 0.6% 100%

FACTORES, VARIABLES YESCALAS DE MEDIDA

ØØ TIPOLOGÍA:

ü Variables Continuas y Discretas

ü Variable Temporal, Transversal y Panel Data

ü ......etc

ü ESCALAS DE MEDIDA:

Nominal (Factor) Identifica la pertenencia de un elementosujeto u objeto a un grupo u otro, aniveles generalmente mutuamenteexcluyentes. Permite la distinción entreelementos pero no su ordenación.

Ordinal Identifica a cada elemento en unaposición de escala respecto a los otros.

Intervalo Identifica la posición ordinal de cadaelemento y permite además medir lasdistancias entre unos y otros utilizandouna escala de medida subjetiva.

Razón Permite medir las distancias entreelementos utilizando una escala deobjetiva y, por lo tanto, posibilita lautilización de razones o ratioscomparativos.

ØØ CONDICIONA LA HERRAMIENTA DE ANÁLISIS Y, PORTANTO, LA CALIDAD DE LOS RESULTADOS

ØØ ES CONDICIONADA POR LOS OBJETIVOSEXPERIMENTALES, LOS RECURSOS DISPONIBLES, YLA DIFICULTAD DE PERCEPCIÓN EXPERIMENTAL.

TABLAS DE CONTINGENCIA

C APROPIADAS CUANDO......Se desea organizar información relativa a más de un factor, explorar larelación de dependencia o independencia entre los factores y eventualmentemedir el grado de asociación entre los mismos. Así mismo, apropiadascuando se desea medir el grado de concordancia entre clasificacionesfactoriales de objetos o sujetos.

1 EJEMPLO 1 (Organización bifactorial): Cómputo sencillo devalidez de Test Diagnósticos.

Punto de partida: Se ordenan en una tabla de dos dimensiones losresultados de un test diagnóstico para 100 pacientes (50enfermos - 50 sanos) según los resultados positivos ynegativos. La información contenida en las distintasceldas, debidamente relativizada, nos permitirádeterminar la sensibilidad del Test (Prob. Diagnósticocorrecto para un enfermo), su especificidad Prob.Diagnóstico correcto para un NO enfermo) y sus valorespredictivos positivo (Prob. Enfermedad ante testPositivo) y negativo (Prob. NO Enfermedad ante testNegativo)

1 EJEMPLO 2 (Relación entre dos factores): Relación entre elriesgo de infección por virus la hepatitis B del personal sanitarioy la manipulación de sangre o material biológico.

Punto de partida: Se realiza un estudio serológico en 50 voluntarios delgrupo de mayor riesgo y 100 del grupo de menor riesgo.Suponiendo que la muestra es suficientementerepresentativa se observará la dependencia entre elpuesto de trabajo y el riesgo de infección hepática.

1 EJEMPLO 3 (Factores multinivel): Relación entre el intervalode edad infantil y el padecimiento del sarampión, rubéola yparotiditis como paso previo al estudio de la escolarización comofactor de riesgo en la transmisión de estas enfermedadesinfeccionas.

Punto de partida: Se toman los datos de la edad de 265 niñosclasificándolos por intervalos en cuatro grupos (Menoresde cuatro años, entre 4 y 5 años, entre 6 y 7 años ymayores de siete años). Así mismo, se estudia susituación inmunológica detectándose la presencia oausencia de anticuerpos frente a cada uno de esos virus.

1 EJEMPLO 4 (Análisis de concordancia): Homogeneidad decriterios en la hospitalización entre dos centros diferentes

Punto de partida: Se selecciona una muestra experimental de 50 pacientesque serán atendidos, con los mismos síntomas, porfacultativos de dos centros diferentes. Para cada pacientese anota la decisión de hospitalización SI - NO en cadauno de los dos centros.

: PROCEDIMIENTO SPPSMENÚ: ESTADÍSTICA - RESUMIR - TABLAS DE CONTINGENCIA

FACTOR 1

FACTOR 2

Medidas para el estudio de lacorrelación, dependencia yasociación entre factores

Control de la información amostrar en las casillas interioresde la tabla y marginales de filasy columnas.

ANÁLISIS DE LA VARIANZA

C APROPIADO CUANDO......Se desea analizar si los distintos niveles de un determinado factor incidenen los valores de una variable cuantitativa. Si se emplean comoexplicativos dos o más factores hablamos de una ANOVA multifactorial y,en ese caso, cobrarán interés los efectos de los niveles de cada uno de losfactores y los efectos de las interacciones entre los niveles de los factores.Algunas variantes de esta técnica son especialmente atractivas para casosexperimentales concretos, en especial el ANCOVA.

1 EJEMPLO 1 (Anova Unifactorial - Experimento dehomogeneidad de datos pareados): Eficacia de un tratamientoantitaquicárdico

Punto de partida: Se realiza un experimento con 50 pacientes tomando laspulsaciones por minuto antes y después de laadministración del medicamento.

1 EJEMPLO 2 (Anova Unifactorial sobre grupos diferentes):Relación entre la localización del Cáncer Gástrico en el númerode monocitos del enfermo.

Punto de partida: Se toman 50 enfermos de cáncer gástrico dividios en tresgrupos: 15 con carcinoma en fundus, 15 con carcinomaen curvatura y 20 con carcinoma en píloro. Al efectuarun hemograma se realiza un recuento monocitario.

1 EJEMPLO 3 (Anova con dos factores): Independencia,sinergismo o antagonismo del consumo de Haschis y la Cocaína.

Punto de partida: Se dispone de una muestra de 100 individuos de loscuales, un 25% no son consumidores de ninguna de lasdos drogas, otro 25% son consumidores exclusivos decocaína, un 25% exclusivos de Haschis y un 25% deambas drogas simultáneamente. En condicionesexperimentales de homogeneidad adecuada se toman laspulsaciones por minuto a estos 100 individuos. Elanálisis no sólo permitirá diferenciar la variabilidad"biológica" de la debida al consumo individual de cadadroga sino también de la debida a la interacción deambas drogas.

: PROCEDIMIENTO SPPSMENÚ (Anova Unifactorial):

ESTADÍSTICA - COMPARAR MEDIAS - ANOVA DE UN FACTORMENÚ (ANOVA Multifactorial):

ESTADÍSTICA - MODELO LINEAL GENERAL - COMPONENTES DE LA VARIANZA

VARIABLES AEXPLICAR

FACTOR EXPLICATIVO

Contrastes de existencia detendencia en la endógena ycontrastes "t" de significaciónpara los niveles del factor.

Pruebas a posteriori paradeterminar qué medias difierenen el caso en que el ANOVAresulte significativo.

Test de homogeneidad devarianzas, presencia de estadísticosdescriptivos y tratamiento de losvalores perdidos.

ANÁLISIS DE REGRESIÓN

C APROPIADO CUANDO......SIEMPRE que la calidad de los datos lo permita para el análisis dedependencia univariante o multivariante. Su precisión, refinamiento ypotencia de análisis es muy superior a las de otras técnicas de análisis dedependencia, permitiendo la realización de ejercicios de simulación ypredicción. Como contrapartida, sus virtudes sólo pueden explotarseasumiendo una complejidad que puede llegar a ser muy acusada, de modoque su aplicación exige un importante compromiso de recursos técnicos.

4 VARIANTES BÁSICAS (Recogidas en SPSS)Modelo Básico de Regresión Lineal por MCO

Aproximación clásica adecuada para relaciones lineales entre variablesexógenas y endógena en las que cabe asumir un único sentido de lacausalidad y el estricto cumplimiento de las Hipótesis Básicas tantoestructurales como referidas a la perturbación aleatoria (especialmente lahomocedasticidad y ausencia de autocorrelación residual).

Regresión no lineal (RNL - NLR)Aproximación genérica para aquellos casos en los que no puede suponerselinealidad en la relación entre exógenas y endógena. Orientado en el SPSSa la predicción simple de series temporales.

Estimación ponderada (MCP - WLS)Estimación específica para ajustar relaciones de dependencia en las que seviole la condición de varianza constante para la variable endógena en lapoblación objeto de estudio. El método afina el resultado de una estimaciónclásica ponderando en mayor medida las observaciones más precisas.

Estimación en dos etapas (MC2E - 2SLS)Una de las muchas aproximación específicas para aquellos casos en los quelos errores del modelo aparecen correlacionados con alguna exógena, porejemplo, cuando la relación de causalidad no se da exclusivamente desdelas exógenas a la endógena, sospechándose la existencia de un efecto deretroalimentación en sentido inverso.

1 EJEMPLO 1 (Regresión lineal básica multivariante): presiónarterial en la población fumadora.

Punto de partida: Sobre una muestra de 500 fumadores habituales mayoresde 50 años se desea establecer la relación entre la presiónarterial y algunas de sus características básicas yhábitos: edad, peso, número de años con el hábito defumar y número de cigarrillos diarios promedio en losúltimos 5 años. Todas las variables pueden medirse enescalas de razón.

1 EJEMPLO 2 (Regresión univariante no lineal): Predicción dela extensión de la infección por VIH.

Punto de partida: Utilizando el censo español de casos de infección VIH sedetermina el número de casos por mil habitantesocurridos desde 1980. La evolución de la enfermedadserá, con seguridad, no lineal, lo que impedirá el ajustede un modelo básico de regresión. Un ajuste de tipologístico permitirá realizar una mejor predicción para elperíodo 2001 – 2005.

1 EJEMPLO 3 (Regresión univariante por estimaciónponderada): Relación entre la edad de los trabajadores y laduración de las bajas por enfermedad.

Punto de partida: Utilizando estadísticas de una mutualidad laboral, sedesea establecer la relación entre la edad de lostrabajadores y el total de días de anuales que solicitanpor baja de enfermedad. La relación positiva esprevisible, pero para estimar de forma precisa el valordel parámetro debe observarse el hecho de que, a mayoredad, la varianza de la endógena crece comoconsecuencia de la aparición progresiva de un mayorespectro de enfermedades de distinta gravedad y, por lotanto, de distinto período de baja.

1 EJEMPLO 4 (Regresión por estimación con variablesinstrumentales): Demanda de un determinado productofarmacéutico .

Punto de partida: Una empresa farmacéutica está interesada en medir losfactores que han impulsado los cambios en las ventas deun novedoso producto sin competencia a lo largo de losúltimos tres años. Para ello dispone de datos mensualesde ventas, precio medio, promoción y publicidad entrefacultativos e incidencia de la enfermedad en elsegmento poblacional de interés. La estimación simplede los parámetros estaría sesgada, especialmente para elparámetro de la incidencia, en cuanto que las ventas delproducto farmaceútico pueden funcionar comoexplicativa para la incidencia de la misma.

: PROCEDIMIENTO SPPSMENÚ (Regresión Lineal MCO y Regresión MCP - WLS):

ESTADÍSTICA - REGRESIÓN - LINEAL

Método para lainclusión selectivade las variablesexógenas

VARIABLESEXPLICATIVAS

VARIABLE AEXPLICAR

Posibilidad delimitar el análisis aun conjunto de casossegún el valor deuna variable

Selección métodode MínimosCuadradosPonderados (WLS)

Intervalos de confianza para los coeficientes,matriz de varianzas y covarianzas,correlaciones parciales y semiparciales, testmulticolinealidad, Durbin Watson.

: PROCEDIMIENTO SPPSMENÚ (Regresión Curvilínea):

ESTADÍSTICA - REGRESIÓN - ESTIMACIÓN CURVILÍNEA

: PROCEDIMIENTO SPPSMENÚ (Regresión genérica NO Lineal):

ESTADÍSTICA - REGRESIÓN - NO LINEAL

VARIABLES APREDECIR

VARIABLESPREDICTORA ó

TIEMPO

Tipo de modelo deajuste curvilíneo.

Variable paraetiquetar cadapunto.

VARIABLES AEXPLICAR

EXPRESIÓNNO LINEAL

DEL MODELO

La sintaxis de la expresión no lineal del seescribirá utilizando variables dependientes(cuadro superior), el cuadro operativobásico y las funciones prediseñadas.

ANÁLISIS DISCRIMINANTE - ANÁLISIS LOGIT -ANÁLISIS PROBIT

C APROPIADOS CUANDO......En términos generales, todas estas técnicas permiten explicar el valor de unfactor utilizando la información de variables explicativas cuantitativas. Enel campo de la medicina, resulta especialmente atractivo para la diagnosis ypara la determinación del nivel de estímulo efectivo en los tratamientos.

4 VARIANTES BÁSICAS (Recogidas en SPSS)Análisis DISCRIMINANTE

Aunque todos estos análisis son en realidad análisis discriminantes, elSPSS denomina específicamente A. Discriminante al caso en el que seutiliza una aproximación no probabilística apoyada en cálculos sobre lavariación intragrupal y entregrupal observada. El factor a explicarrepresenta generalmente el grupo de pertenencia de una serie deindividuos. El análisis discriminante utilizará la información de unconjunto de variables observadas para esos sujetos u objetos a fin deconstruir unas funciones discriminantes (basadas en simplescombinaciones lineales de las variables predictoras), capaces de explicaresa pertenencia a uno u otro grupo (ADD) y de construir un modelopredictivo (ADP) para pronosticar el grupo de pertenencia de un caso apartir de las características observadas de cada caso. Si bien no se reducesólo al caso dicotómico para la endógena requiere que las variablesexplicativas sean continuas.

Modelos LOGIT - PROBIT

El modelo LOGIT es en realidad un tipo específico de regresión en el quela variable endógena es dicotómica mientras que las explicativas puedenser continuas o categóricas. El contexto es similar al descrito en el cuadroanterior para el análisis discriminante, pero ahora el análisis suele enfocarsea aquellos casos en los que la variable endógena puede interpretarse entérminos de probabilidad y el objetivo es cuantificar la relación entre lascaracterísticas individuales de los individuos y esa probabilidad. Loscoeficientes de regresión logística, aunque difíciles de interpretar, puedenutilizarse para estimar la razón de las ventajas relativas de cada variableindependiente del modelo. La regresión logística es aplicable a un rangomás amplio de situaciones de investigación que el análisis discriminante.

La regresión PROBIT, muy similar a la empleada en el LOGIT, sueleutilizarse en aquellos casos en los que se sospecha que una respuestadicotómica está influida por el nivel de alguna o algunas variablesexplicativas. El procedimiento, permitirá estimar muy fácilmente laintensidad necesaria para que un estímulo llegue a inducir una determinadaproporción de respuestas.

1 EJEMPLO 1 (Análisis Discriminante): Selección de la carterade clientes solventes de una Aseguradora Médica.

Punto de partida: Una aseguradora analiza su cartera de 2500 clientesdistinguiendo a aquellos que han hecho frente a suscuotas con regularidad de aquellos que no lo han hecho.Adicionalmente, revisa para cada uno de los 2500clientes algunas variables que se sospecha pueden estaren relación directa con la solvencia: edad, renta mensual,antigüedad del contrato, número de hijos.Estas cinco variables permitirán elaborar un máximo decuatro funciones discriminantes que ayuden acaracterizar a cada uno de los grupos. Además, si el valorpredictivo de las mismas es elevado podrán utilizarsepara elaborar la conveniencia de admitir a un nuevosolicitante o rechazar su solicitud como asegurado.

1 EJEMPLO 2 (Análisis LOGIT): Factores de riesgo para eldesarrollo de aterosclerosis.

Punto de partida: Apoyándonos en el diseño de una amplia muestra dehistoriales médicos se desea establecer la importancia decada uno de los factores de riesgo en el desarrollo de laaterosclerosis. Para cada uno de los individuos queconstituyen la muestra, se dispone de información paraun período determinado acerca de variables referidas a:tabaquismo, dieta (en especial niveles séricos medios decolesterol), edad, sexo, tensión arterial, consumo dealcohol, sedentarismo y antecedentes genéticos. El ajustede una función LOGIT permitirá determinar cómo incidecada uno de estos factores en la probabilidad dedesarrollo de la enfermedad a fin de orientar la políticapreventiva, elaborándose además un instrumentomedidor del riesgo de padecimiento.

1 EJEMPLO 3 (Análisis PROBIT): Determinación de la dosisde respuesta adecuada a un fármaco.

Punto de partida: Apoyándonos en un diseño experimental se administraun determinado medicamento a 60 individuos divididosen 20 grupos de 3 personas. A cada grupo se leadministra una cantidad en mmg diferente desde 11(primer grupo) a 30 (último grupo) y se anota sureacción después de un tiempo de 1 hora calificándose elresultado en cada individuo como POSITIVO oNEGATIVO. El ajuste de una función PROBITpermitirá determinar la dosis más adecuada paraprovocar una reacción positiva al medicamento.

: PROCEDIMIENTO SPPSMENÚ (DISCRIMINANTE):

ESTADÍSTICA - CLASIFICAR – DISCRIMINANTE

: PROCEDIMIENTO SPPSMENÚ (ANÁLISIS PROBIT):

ESTADÍSTICA - REGRESIÓN - PROBIT

FACTOR DEAGRUPACIÓN A

EXPLICAR

VARIABLESDISCRIMINANTES

Estadísticos descriptivos de las variables independientessegún los diferentes grupos. Coeficientes de la función declasificación de Fisher y descomposición de Matrices deVarianzas y Covarianzas.

Controla cómousar para laclasificación deindividuos elresultado obtenidoen las funcionesdiscriminantes, enespecial para finespredictivos.

Variable que contiene,para cada nivel deexposición (casos) el% de reaccionespositivas a ese nivelde estimulación.

Variable que contiene,para cada nivel deexposición (casos) elnúmero de sujetosexpuestos a ese nivelde estimulación.

Variable ovariablespredictoras, estoes, variables deestímulos.

Permite obtener una prueba deparalelismo (todos los niveles delfactor tiene pendiente común ) ycontrolar algunos aspectos de laestimación de los parámetros.

CORRELACIÓN CANÓNICA

C APROPIADA CUANDO......Se desea abordar el estudio de un fenómeno de causalidad entre dosfenómenos que vienen representadas, tanto el causado como el explicativo,por un conjunto de variables, y no se desea restringir el modo en que cadauna de las variables explicativas incide en cada una de las explicadas.

1 EJEMPLO 1 (Análisis Correlación Canónica): Determinaciónde la relación entre el nivel de desarrollo económico y el nivel dedesarrollo sanitario de un conjunto de países.

Punto de partida: Un estudio planteado a nivel internacional deseaestablecer la relación entre el nivel de renta y nivel dedesarrollo sanitario en un conjunto de países. El analistadispone de 25 variables homogéneas del nivel dedesarrollo sanitario de cada país (gasto farmacéutico dedistintos tipos, instalaciones hospitalarias por 1000 hb dedistintos tipos, médicos por 1000 hb de distintasespecialidades, ....). Así mismo dispone de otras 25variables relativas al desarrollo económico (PIB real porHb, tasa de actividad, tasa de paro, capacidad deeneudamiento.....). Mediante un análisis de correlacióncanónica el analista puede construir un modelo decausalidad entre ambos conjuntos de variables sinnecesidad de especificar el detalle del modelo decasualidad para cada par de variables.

ANÁLISIS DE COMPONENTES PRINCIPALES

C APROPIADO CUANDO......Se desea reducir las dimensiones de un conjunto de variables sin pérdidaexcesiva de información. El método de componentes principales permitirágenerar combinaciones lineales de las variables originales de modo que lasnuevas variables contengan gran parte de la información original. Su costedebe valorarse en términos de interpretabilidad de esos componentes.Aunque no es infrecuente su confusión con el análisis factorial existenimportantes diferencias conceptuales; en todo caso, la relación provendríadel hecho de que la técnica de componentes principales es uno de losmétodos de extracción factorial más utilizados.

1 EJEMPLO 1 (Análisis de Componentes Principales):Determinación de la relación entre la esperanza de vida media yel nivel de desarrollo económico y sanitario de un conjunto depaíses.

Punto de partida: Un estudio planteado a nivel internacional deseaestablecer la relación entre la esperanza de vida media deun conjunto de países y su nivel de renta y desarrollosanitario. El analista dispone de 25 variableshomogéneas del nivel de desarrollo sanitario de cada país(gasto farmacéutico de distintos tipos, instalacioneshospitalarias por 1000 hb de distintos tipos, médicos por1000 hb de distintas especialidades, ....). Así mismodispone de otras 25 variables relativas al desarrolloeconómico (PIB real por Hb, tasa de actividad, tasa deparo, capacidad de eneudamiento.....). Mediante unanálisis de componentes principales el analista puedereducir el conjunto inicial de 50 variables a unos cuantosComponentes Principales, aprovechando las posiblesredundancias existentes en datos referidos a cuestionessimilares.

ANÁLISIS FACTORIAL

C APROPIADO CUANDO......Se desea obtener una medición de una serie de factores de naturalezainobservables, aprovechando para ello la dependencia o relación común deun conjunto de variables en torno a estos factores. El análisis requiere datosexpresados en variables de intervalo.

1 EJEMPLO 1 (Análisis Factorial): Aproximación de lacapacidad de abstracción, la capacidad de cálculo y la memoriade los alumnos universitarios.

Punto de partida: Partiendo de los expedientes de más de 10.000 alumnosde se extraen las notas correspondientes a 15 materias enlas que las proporciones de capacidad de cálculo,capacidad de abstracción y memoria intervienen de endistintas proporciones. Observando las presencia oausencia de correlaciones entre las distintas notas(comunalidad) pueden identificarse los mecanismos decausalidad en las calificaciones. Un análisis detallado dela composición factorial revelará que los mimos secorresponden con la capacidad de abstracción, capacidadde cálculo y memoria. Las denominadas "puntuacionesfactoriales" permitirán medir, a partir de las notasiniciales, las tres capacidades comentadas tanto en loselementos que componen la muestra como en nuevoselementos.

1 EJEMPLO 2 (Ayuda SPSS) (Análisis Factorial): ¿Quéactitudes subyacentes hacen que las personas respondan a laspreguntas de una encuesta política de la manera en que lohacen?

Punto de partida: Examinando las correlaciones entre los elementos de laencuesta se deduce que hay una superposiciónsignificativa entre los diversos subgrupos de elementos(las preguntas sobre los impuestos tienden a estarcorrelacionadas entre sí, las preguntas sobre temasmilitares también están correlacionadas entre sí...., y asísucesivamente). Con el análisis factorial, se puedeinvestigar el número de factores subyacentes y, enmuchos casos, se puede identificar lo que los factoresrepresentan conceptualmente. Adicionalmente, se puedencalcular las puntuaciones factoriales para cadaencuestado, que pueden utilizarse en análisissubsiguientes. Por ejemplo, es posible construir unmodelo de regresión logística para predecir elcomportamiento de voto basándose en las puntuacionesfactoriales.

: PROCEDIMIENTO SPPSMENÚ:

ESTADÍSTICA - REDUCCIÓN DE DATOS - FACTORIALEl análisis factorial implica, generalmente el desarrollo de tres etapas: AnálisisPreliminar de viabilidad, Extracción Factorial y Rotación factorial. El SPSS ofreceuna gran flexibilidad para afrontar cada una de estas tres etapas.

Ofrece varios métodosde rotación tantoortogonales comooblicuos.Facilitan el análisis

preliminar de lasvariables y suscorrelaciones decara a anticipar laviabilidad delanálisis.

Conjunto devariablesfundamental, apartir para las que sedesea encontrarfactores subyacentescomunes.

Posibilidad de limitarel análisis a unnúmero limitado decasos según unavariable de selección.

Permite obtener yguardar el valor de losfactores a partir de lasvariables originales

Permite especificar elmétodo de extracción,el número de factoresa extraer así como lasiteraciones máximas aconsiderar en laextracción.

ANÁLISIS CONJUNTO

C APROPIADO CUANDO......Se desea establecer en que medida los distintos atributos de un objetoinciden en su selección preferente por parte de un conjunto de individuos.El análisis conjunto intentará aproximarse a la estructura subyacente deselección determinando la importancia relativa de cada atributo así como lacombinación de los mismos que resulte más atractiva.

1 EJEMPLO 1 (Análisis Conjunto): Diseño de un nuevoproducto farmacéutico.

Punto de partida: Un laboratorio farmacéutico desea lanzar al mercado unnuevo analgésico de tipo genérico. Su experiencia en elmercado le ha permitido identificar una serie de variablesque condicionan la preferencia por una u otra marcacomo: precio, formato de presentación (grageas, sobres,...), sabor del preparado, rapidez de acción, cantidad decontenido, tipo de publicidad asociada (facultativo,medios comunicación,..). El análisis conjunto permitiráordenar de modo relativo cada uno de esos atributos,para ponderar su importancia relativa en la selección delproducto y establecer la combinación óptima para elnuevo producto.

ANÁLISIS CLUSTER

C APROPIADO CUANDO......Se desea aprovechar la información relativa a un conjunto de variables paraclasificar a un grupo amplio de sujetos y objetos en subgrupos de máximahomogeneidad intergrupal y mayor heterogeneidad entregrupal. El análisiscluster no debe confundirse con el discriminante, ya que ese último tienepor objeto explicar una clasificación establecida a priori mientras que elanálisis cluster intenta, precisamente, generar esa clasificación a partir deun único grupo global.

1 EJEMPLO 1 (Análisis Cluster): Análisis geográfico de losperfiles de sanitarios de la población.

Punto de partida: A fin de planificar convenientemente la políticapreventiva, desde el Ministerio de Sanidad de undeterminado país se plantea la necesidad de dibujar el"mapa sanitario", dividiendo el total del territorio enzonas de características sanitarias homogéneas, nonecesariamente similares a las divisiones políticoadministrativas. Se sospecha que una diferenciación deeste tipo puede tener sentido en la medida en que algunosde los factores de riesgo más importantes tienen relacióncon la distribución geográfica: factores demográficos,factores ambientales (clima, calidad del agua,...),dietéticos ó culturales entre otros. Así pues, se recopilainformación relativa a la incidencia de un conjunto deenfermedades frecuentes como: enfermedadescardiovasculares (cardiopatías coronarias y accidentescerebro - vasculares), distintos tipos de cáncer (mama,colon y recto, pulmón, cervix y endometrio..),enfermedades de transmisión aérea (gripe, legionelosis,tuberculosis...), enfermedades de transmisión entérica(botulismo, diarreas víricas, salmonelosis, shigelosis,colera., poliomielitis, hepatitis A...), enfermedadestransmitidas por contacto (tétanos, brucelosis,toxoplasmosis...) y enfermedades de transmisión sexual(sida, sífilis, ...) La utilización de todos estos indicadoresdividirá a la población total en grupos homogéneos desdeel punto de vista sanitario. Determinar la viabilidadgeográfica de esta agrupación será un paso posterior enel análisis.

: PROCEDIMIENTO SPPSMENÚ:

ESTADÍSTICA - CLASIFICAR - CONGLOMERADOS JERÁRQUICOS

El SPSS ofrece laposibilidad de aplicarla metodologíaCLUSTER avariables, en lugar deobjetos o sujetos.

Conjunto devariables utilizadaspara la segmentación

Variable queetiquetará cadaindividuo u objeto aclasificar.

El análisis Cluster viene condicionado sensiblementepor el método de aglomeración utilizado, la medida dedistancia empleada. El SPSS ofrece una ampliavariedad de métodos.

Permite elaborar elclásico Dendograma ográfico de agrupaciónsecuencial de losobjetos analizados.

Guarda el grupo depertenencia de objetos

ANÁLISIS MULTIDIMENSIONAL NO MÉTRICO

C APROPIADO CUANDO......Se desea comprender la estructura subyacente a de un conjunto de medidasde similitud o distancia entre objetos o sujetos. Para ello se asignan lasobservaciones disponibles de esos sujetos u objetos a posiciones específicasen un espacio conceptual (normalmente de dos o tres dimensiones) demodo que las distancias entre los puntos en el espacio concuerden almáximo con las disimilaridades observadas. En muchos casos, lasdimensiones de este espacio conceptual son interpretables y se puedenutilizar para comprender mejor los datos. El escalamiento multidimensionalpuede también aplicarse a valoraciones subjetivas de disimilaridad entreobjetos o conceptos.

: PROCEDIMIENTO SPPSMENÚ:

ESTADÍSTICA - ESCALAS - ESCALAMIENTO MULTIDIMENSIONAL

Permite controlar elnivel de media, lacondicionalidad, lasdimensiones y elmétodo deescalamiento.

Conjunto dematrices de variablesa partir de las cualesse calcularán lasdistancias entreobjetos o sujetospara explicar sussimilaridades

Normalmente, los datos de partida son matrices que reflejan la similitud odiferencia percibida entre los objetos o sujetos que ocupan cada fila y columna(los datos son distancias). No obstante, si no se han creado las matrices a partirde las variables en bruto, el SPSS las crea conforme a una medida de distanciaelegida por el usuario (crear distancias a partir de datos).

BIBLIOGRAFÍA

I. BIBLIOGRAFÍA GENERAL

• BERSTEIN, I. (1998): “Applied Multivariate Analysis Aplications” Academic Press.

Inc. New York.

• BISQUERA ALZINA, R. (1989): “Introducción conceptual al análisis multivariable:

un enfoque informático con los paquetes SPSS-X, BMDP, LISREL y SPAD”. Vol. 1,

PPU, S.A.

• COOLEY, W. y LOHNES, P. (1971): “Multivariate Data Analysis”. New York: John

Wiley Cop.

• CUADRAS, C.M. (1991): “Métodos de Análisis Multivariante”. Barcelona: PPU (2ª

edición).

• DANIEL PEÑA SANCHES DE RIVERA. (1989): “Estadística modelos y métodos, 1.

Fundamentos”. Alianza Editorial.

• DILLON y GOLDSTEIN. (1984): “Multivariate Analysis. Methods and applications”.

John Wiley & Sons.

• FERRÁN ARANAZ, M. (1996): “SPSS para Windows, Programación y Análisis

Estadístico”. McGraw-Hill Interamericana, Madrid.

• FLURY, B., RIEDWYL, H. (1988): “Multivariate statistics: a practical approach”.

Chapman and Hall.

• HAIR, ANDERSON, TATHAM Y BLACK (1998): “Multivariate Data Analysis”.

Fifth Edition, Prentice-Hall, New Jersey.

• HAIR, J.F.et al (1999): “Análisis Multivariante”. 5ª edición, Prentice-Hall Iberia,

Madrid.

• JOHNSON R. (1994): “Applied multivariate statistical analysis”. Madison, thurd. de.

pp. 459-491.

• RICHARD A. JOHNSON, DEAN W. WICHERN. (1981): “Applied multivariate

statistical analysis”. Pretince-Hall.

• RICHARD A. JOHNSON, DEAN W. WICHERN. (1992): “Applied Multivariate

statistical anlysis”. Third edition, Prentice-Hall International, Inc.

• SÁNCHEZ CARRIÓN, J.J. (1995): “Manual de Análisis de Datos”. Alianza Editorial.

• URIEL, E. (1985): “Análisis de datos: Series temporales y análisis multivariante”.

Editorial AC, Colección plan nuevo, Madrid.

• URIEL, E. (1995): “Análisis de datos: Series temporales y análisis multivariante”.

Editorial AC.

• VICÉNS OTERO, J. (1997): “Obtención y Análisis de datos”. Facultad de Económicas

UAM.

• WILLIAM, R. DILLON and MATTHEW GOLDSTEIN. (1984): “Multivariate

Analysis. Methodos and Applications”.

II. BIBLIOGRAFÍA ESPECÍFICA POR TEMAS

II.1.- TABULACIÓN CRUZADA

• BISHOP, Y.M.M.; FIENBERG, S.E. Y HOLLAND, P.W. (1977): “Discrete

Multivariante Analysis. Theory and Practice”. MIT PRESS, Cambridge,

Massachusetts.

• EVERITT, B. (1977): “The analysis of Contingency Tables”. London Chapman and

Hall.

• FIENBERG, S.E. (1987): “The analysis of cross-classified categorical data”.

Cambridge, Mass.: M.I.T. Press.

• GOKHALE, D.V. (1978): “The information in contingency tables”. New York: M.

Dekker.

• GOKHALE, D.V. y KULLBACK, S. (1978): “The information in contingency tables”

Statistics: Textbooks and monographs. Vol 3. De. Owen. Minton y Pratt, Nueva York.

• HABERMAN, S.J. (1978): “Analysis of qualitative data”. Introductors topics and New

developments. New York. Academic Press.

• MAXWELL, A.E. (1971): “Analysing qualitative data”. Harmondsworth: Penguin

Books, 1970.

• O’BRIEN, L.G. (1989): “The statistical anlysis of contingency table designs”.

Newcastle Upon Tyne: Newcastle University.

• RUÍZ-MAYA, L. (1990): “Metodología Estadística para el Análisis de Datos

Cualitativos”. Centro de estudios Sociológicos. Madrid.

• SÁNCHEZ CARRIÓN, J.J. (1984): “Análisis de tablas de contingencia”. Colección

monografías nº 105. CIS.

• SPSS. “Crosstabulation and measures of association, Cap. 10, Statistics Guide”.

• UPTON, GRAHAM, J.G. (1978): “The analysis of cross-tabulated data”. John Wiley

Cop.

II.2.- ANÁLISIS DE LA VARIANZA. ANÁLISIS DE LA COVARIANZA.

• COCHRAN, W.G. (1976): “Analysis of Covariance: Its nature and uses”. Biometrics,

Vol. 13.

• ELLEN R. GIRDEN. (1992): “ANOVA. Repeated Measures”. SAGE University

Paper.

• GIRDEN, E. (1992): Anova: repeated measures”. Newbury Park, 1992-VI.

• INVERSEN, G.R. y NORPORTH, H. “Analysis of Variance”. Quantitative

Applications in the Social Sciences Nº 1. A Sage University Paper Series.

• RUÍZ-MAYA. (1986): “Métodos Estadísticos de Investigación”. I.N.E.

• RUPERT G. MILLER, JR. (1985): “Beyond ANOVA, basics of applied statistics”.

John Wiley & Sons.

• WILDT, A.R. y ATHOLA, O. (1978) “Analysis of Covariance”. Quantitative

Applications in the Social Sciences. A Sage University Paper Series.

II.3.- ANÁLISIS DISCRIMINANTE.

• CUADRAS, ABELLANO. (1973): “Análisis Estadístico Multivariante.

Representación Canónica de Funciones”. Resumen de tésis. V.A. Barcelona.

• PETER A. LACHEMBRUCH. (1975): “Discriminant analysis”. Hoguer Press.

• VISAUTA VINACUA, B. (1997): “SPSS para Windows”. McGraw-Hill.

• WILLIAM R. KLECKA. (1976): “Discriminant analysis”. Series: Quantitative

Applications in the Social Sciencies.

II.4.- MODELOS DE ELECCIÓN DISCRETA: LOGIT Y PROBIT.

• ANDERSON, SIMON P.; ANDRE; THISSE, JACQUES FRANCOIS. (1992):

“Discrete choice theory of product differentiation”. Cambridge and London: MIT Press,

pag. XVIII, 423.

• BESANKO D., PERRY M.K. and SPADY R.H. (1990): “The logical model of

monopolistic competition: brand diversity”. The Journal of Industrial Econmics, Vol.

38, nº 4 June.

• GRACIA DIEZ, M. (1988): “Modelos con variable dependiente cualitativa y de

variación limitada”. Cuadernos económicos, ICE, número 39, 1988/2.

• GRACIA DÍEZ, M. (1991): “A Qualitative Analysis of Unemployment in Spain”.

Universidad Complutense de Madrid, pag. 159-73.

• JOHNSTON, J. (1989): “Métodos de econometría”. Ed. Vicens Vives, Barcelona.

• JUDGE G. (1980): “The theory and practice of econometrics”. Jhon Wiley and sons,

New York.

• LEHRER, EVELYN L. (1992): “The impact of Children on Married Women´s Labor

Supply: Black-White Differentials Revisited”. Journal of Human Resources; 27 (3),

pag. 422-44.

• Micro TSP, User´s Manual. (1986) Mc Graw Hill.

• MILLÁN J.A., RUIZ P. (1987): “Modelos logit de adopción de innovaciones en

invernaderos de Almería”. Investigación agraria, 2 (2).

• NOREEN, E. (1988): “An empirical comparison of probit and OLS Regression

hypothesis tests”. Journal of accounting research. Vol. 26, Nº 1 Spring, USA.

• NOVALES, A. (1988): “Econometría”. McGraw Hill, Madrid.

• RODRÍGUEZ GUTIERREZ, CÉSAR. (1992): “La adquisición de capital humano: Un

modelo teórico y su contrastación”. Investigaciones Económicas. 16 (2). Pág. 305-16.

• TIM FUTING LIAO. (1988): “Interpreting probability model. Logit, Probit and other

generalizad Linear Models”. Series: Cuantitative Applications in the Social Sciences. A

Sage University papers series.

• VICÉNS, J. (1995): “Modelos con variables cualitativas dicotómicas”. (Nov. 1995).

Instituto L.R.Klein.

II.5.- CORRELACIÓN CANÓNICA.

• LEVINE. (1977): “Canonical Analysis and Factor Composition”. Beverly Hills: Sage

Publications. Sage University Papers.

II.6.- COMPONENTES PRINCIPALES Y ANÁLISIS FACTORIAL.

• APARICIO PÉREZ F. (1988): “La difícil realización de un análisis de componentes

principales mediante los programas estadísticos más difundidos en el mercado”.

Estadística española, Vol. 30, nº 117, Madrid.

• BATISTA FOQUET Y MARTÍNEZ ARIAS. (1989): “Análisis multivariante. Análisis

en componentes principales”. Colección ESADE. Editorial Hispano Europea, S.A.

pp.49-54.

• HARMAN, HARRY. (1976): “Modern factor analysis”. Chicago University Press.

• HARMAN, HARRY. (1980): “Análisis Factorial Moderno”. Editorial Saltés.

• HOTTELING, H. (1993): “Analysis of a Complex of Statistical Variables into

Principal Components”. J. Educ. Psycology, nº 24.

• JÖRESKOG, K.G., KLOVAN, J.E., REYMENT, R.A. (1976): “Geological Factor

Analysis”. Elsevier Scient. Pub. Co.

• KIM JAE-ON y MUELLER, CHARLES. (1978): “Factor analysis, Statistical Methods

and Practical Issues. Sage University Paper.

• KIM JAE-ON y MUELLER, CHARLES. (1978): “Introduction to factor analysis”.

Sage University Paper.

• MARTÍN REYES, G. (1978): “Algunos métodos multivariantes y sus apllicaciones en

economía”. Cuadernos de CC. Económicas y Empresariales, nº 2, Universidad de

Málaga.

• NARVAIZA SOLÍS, J.L. (1981): “El análisis Factorial: Exposición Gráfica e

Intuitiva”. Boletín de Estudios Económicos, nº 36 (113), Deusto, 1981, 259-285.

• PEARSON, K. (1901): “On Lines and Planes of Closest Fit to Systems of Points in

Space”. Phil. Magasine, Ser. 6, 2.

• SPEARMAN, C. (1904): “General Intelligence Objetively Determined and Measured”.

American Journal of Psycology, nº 15.

• THURSTONE, L.L. (1931): “Multiple Factor Analysis”. Psychol. Rev., nº 38, 1931,

406.

II.7.- ANÁLISIS CLUSTER.

• ALDENDERFER, M.S. Y R.K. BLASHFIELD. (1984): “Cluster Analysis”. A Sage

University Paper, Series: Quantitative Aplications in the Social Sciences. Nº 07-044.

• ANDERBERG, M.R. (1973): “Cluster Analysis for Applications”. Academic Press,

New York.

• BOGGIS, J.G. y J. HELD. (1971): “Cluster Analysis. A New Tool in Electricity”.

Journal of the Market Research Society (England), 13. Abril, 1971, pp. 49-68.

• DAY, N.E. y R.M. HEELER. (1971): “Using Cluster Analysis to Improve Marketing

Experiments”. Journal of Marketing Research, 8. Agosto, 1971, pp. 340-47.

• EVERITT, B.S. (1978): “Graphical Techniques for Multivariate Data”. London:

Heineman Educational.

• EVERITT, B.S. (1993): “Cluster Analysis”. Tercera Edición. Edward Arnold. A

division of Hodder & Stoughton.

• JAIN, A.K. y R.C. DUBES. (1988): “Algorithms for Clustering Data” Prentice Hall,

Englewood Clidd, N.J. USA.

• JAMBU, M. (1983): “Cluster Anlysis and Date Analysis”. Amsterdam: North-Holland.

• JARDINE, N. y R. SIBSON. (1971): “Mathematical Taxonomy”, John Wiley & Sons,

Chichester.

• RAO, C.R. (1952): “Advanced Statistical Methods in Biometrics Research”. John

Wiley & Sons, New York.

• ROMESBURG, H.CH. (1984): “Cluster Analysis for Research”. Belmont, Calif:

Lifetime Learning Publications.

• TRYON, R.C.- DANIEL, E.B. (1970): “Cluster Analysis”. MC. Graw Book

Company. N.Y.

• SOKAL, R.R. y P.H.A. SNEATH. (1973): “Numerical Taxonomy”. W.H. Freeman &

Co. San Francisco.

• WARD, Jr. J.H.; HOOK, M.R. (1963): “Aplication of Hierachical Grouping Procedure

to a Problem of Grouping Profiles”. Educ and Psychology Measurement 23, nº 1 Págs.

69-82.

II.8.- ANÁLISIS CONJUNTO.

• GIL LUEZAS,C. (1985): “Una aplicación del análisis conjunto a la segmentación de

mercado: la segmentación componencial”. Investigación y Marketing.

• GREEN, P.E. and YORAM WIND. (1975): “New away to measure consumers

judgements”. Harward Business Review (Julu-August 1975).

• GREEN, P.E. and V. SRINIVASAN. (1978): “Conjoint analysis in consumer research:

issues and outlook”. Journal of consumer research. (September 1978).

• GREEN, P.E. (1990): “Conjoint Analysis in Marketing: new development With

Implications for Research an Practice”. Journal of Marketing, Octubre 1990.

• HELSEN, K., SHANDLER, B. Y GREEN, P. (1988): “Conjoint Internal Validity

Under Alternative Profile Presentations”. Journal of Consumer Research, Vol. 5.

• KRIEGER A. Y GREEN, P. (1990): “Segmenying Markets With Conjoint Analysis”.

Journal of Marketing. Vol. 55.

• MARTÍN DÁVILA, M. (1987): “Como diagnosticar lo que los consumidores desean

realmente: El análisis conjunto”. (Marzo 1987).

• MÚGICA GRIJALBA, J.A. (1989): “Los modelos multiatributo en marketing. El

análisis conjunto”. IPMARK (nº 324/16-28 Febrero 1989).

• MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto”. IPMARK. nº 324.

• MÚGICA GRIJALBA, J.M. (1989): “El análisis conjunto (y II). Alternativas,

problemas y limitaciones”. IPMARK (nº 326/16-31 Febrero 1989).

• RIVERO, P. Y FERNÁNDEZ, R. (1993): “Análisis de variables cualitativas: Modelos

LOGIT y PROBIT”, Universidad Autónoma de Madrid.

• VARELA GONZÁLEZ, J.A. (1985): “El análisis conjunto, una técnica al servicio de

la investigación comercial”. Economía y Empresa.

• WITTINK, D. Y CATTIN, P. (1981): “Alternative Estimation Methods for Conjoint

Analysis: A Monte Carlo Study”. Journal of Marketing Research, Vol XVIII.