TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y...
Transcript of TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y...
![Page 1: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/1.jpg)
TÉCNICAS MULTIVARIANTES
1. Introducción
2. Clasificación de las técnicas
3. Etapas de análisis
4. Supuestos básicos
5. Valores perdidos y anómalos
![Page 2: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/2.jpg)
Definición.
- Conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de datos multivariantes: hay varias variables medidas para cada caso.
- Permiten un mejor entendimiento del fenómeno objeto de estudio, obteniendo información que los métodos univariantesy bivariantes son incapaces de conseguir.
Objetivos.
- Proporcionar métodos para estudiar datos multivariantesque el análisis estadístico uni y bidimensional es incapaz de conseguir.
- Ayudar al investigador a tomar decisiones óptimas en el contexto en el que se encuentre teniendo en cuenta la información disponible por el conjunto de datos analizado.
introducción
![Page 3: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/3.jpg)
3 grupos:
- Métodos de dependencia
- Métodos de interdependencia
- Métodos estructurales
Métodos de dependencia:
- Suponen que las variables analizadas están divididas en dos grupos: las variables dependientes y las variables independientes.
- El objetivo consiste en determinar si el conjunto de variables independientes afecta al conjunto de variables dependientes y de qué forma.
clasificación
![Page 4: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/4.jpg)
Métodos de interdependencia:
- No distinguen entre variables dependientes e independientes y su objetivo consiste en identificar qué variables están relacionadas, cómo lo están y por qué.
Métodos estructurales:
- Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes.
- El objetivo es analizar como las variables independientes afectan a las variables dependientes y las relaciones de las variables de los dos grupos entre sí.
clasificación
![Page 5: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/5.jpg)
Regresión
Supervivencia
MANOVA
Correlación canónica
Discriminante
Regresión logística
Conjoint
Componentes principales
Factorial
Cluster
Escalas multidimensionales
Correspondencias
Modelos log-lineales
Cluster
Escalas multidimensionales
clasificación
Métrica
No métrica
Métrica
No métrica
Dependencia
Interdependencia
Modelos estructurales
![Page 6: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/6.jpg)
¿La investigación responde a un problema de dependencia entre variables o de interdependencia de las mismas?
¿Cómo están medidas las variables: métricas o no métricas?
Si es un problema de dependencias,
¿cuántas variables dependientes existen?
clasificación
![Page 7: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/7.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 8: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/8.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 9: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/9.jpg)
Regresión lineal múltiple:
- Relación entre 1 variable dependiente métrica y varias variables independientes métricas o no métricas.
Y1 (X1, X2, X3, .... Xm)
- Por ejemplo: Determinar si existe o no relación entre el resultado neto y la superficie, dimensión e inversión inicial.
¿Y si el resultado neto está codificado en Pérdidas=1, Equilibrio=2 y Ganancias=3?
clasificación
![Page 10: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/10.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 11: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/11.jpg)
- Análisis discriminante. Proporciona reglas de clasificación óptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la información proporcionada los valores que en ella toman las variables independientes.
- Modelos de regresión logística. Se utilizan como una alternativa al análisis discriminante cuando no hay normalidad.
clasificación
![Page 12: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/12.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 13: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/13.jpg)
Análisis de correlación canónica:Y1 (X1, X2, X3, .... Xm) regresión, discriminante y log
(Y1, Y2, Y3, .... Ym) (X1, X2, X3, .... Xm) correlación canónica
- Asociación lineal entre un conjunto de variables dependientes y otro de variables independientes.
- Si la dependencia es no métrica
- Si la dependencia es métrica sólo si la independencia también lo es
- Por ejemplo:
- Determinar si existe o no relación entre el resultado neto y la producción de contaminantes de una explotación con la superficie, dimensión e inversión inicial. Corr. canónica
- Determinar la misma relación pero con el género del ganadero y el tipo de explotación (intensivo, extensivo) MANOVA
clasificación
![Page 14: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/14.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 15: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/15.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 16: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/16.jpg)
clasificación
Ecuaciones estructurales:
- Varias relaciones: estructuras de la covarianza y análisis factorial confirmatorio
Y1 (X11, X12, X13, .... X1m)
Y2 (X21, X22, X23, .... X2m)
Y3 (X31, X32, X33, .... X3m)
![Page 17: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/17.jpg)
Análisis de dependenciasclasificación
ecuacionesestructurales
regresiónmúltiple
análisisdiscriminante
Regresiónlogística MANOVA correlación
canónica
variasrelaciones
unarelación
1 variable dependiente
> 1 variabledependiente
dependenciamétrica
dependenciano métrica
dependenciamétrica
dependenciano métrica
independenciano métrica
independenciamétrica
![Page 18: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/18.jpg)
Análisis de interdependencia.
- Las variables no se pueden separar en dependientes e independientes.
- Objetivo: determinar cómo y por qué las variables están correlacionadas.
clasificación
![Page 19: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/19.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 20: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/20.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 21: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/21.jpg)
Análisis de componentes principales.
- Técnica de reducción de datos.
- Objetivo: construir combinaciones lineales de las variables iniciales que expliquen la mayor parte de la información contenida en esas variables.
- Esas combinaciones se denominan Componentes Principales, están incorrelacionados y cada componente sucesivo explica menos varianza.
- Por ejemplo: para comparar 10 explotaciones, es mejor utilizar 5 Componentes Principales que 150 variables
clasificación
![Page 22: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/22.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 23: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/23.jpg)
Análisis factorial.
- Técnica de reducción de datos.
- Objetivo: establecer qué causas latentes (factores) causan la correlación entre las variables observadas.
- Por ejemplo: el desarrollo de un animal no se puede medir directamente, pero sí es posible medir algunos de sus indicadores:
- El peso y su incremento
- La alzada y sus incrementos (cruz, palomillas, etc.)
- Las dimensiones de algunas regiones corporales y su relación respecto a otras
- El análisis factorial establecería que el factor “desarrollo” explica todas estas variables y cómo se relaciona cada variable con el factor
clasificación
![Page 24: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/24.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 25: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/25.jpg)
Análisis de correspondencias.
- Permite visualizar gráficamente tablas de contingencia.
- Por ejemplo: Si existe relación entre la formación del ganadero y el tipo de gestión
- Formación: sin formación, primaria, bachillerato, universidad, formación profesional, módulos, escuela de capataces o sus combinaciones
- Tipo de gestión: ninguna, asesor fiscal, veterinario clínico, agrónomo, veterinario asesor o sus combinaciones
clasificación
![Page 26: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/26.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 27: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/27.jpg)
Análisis de escalamiento multidimensional.
- Permite aflorar los criterios que utilizan los individuos para considerar que distintos objetos son parecidos o distintos.
- Por ejemplo: Estudios de preferencia del jamón curado
clasificación
![Page 28: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/28.jpg)
Análisis de interdependenciasclasificación
componentesprincipales
análisisfactorial
análisiscorrespondencias
análisiscluster
escalamientomultidimensional
Relaciónentre
variables
Métricas No métricas
Relaciónentrecasos
Relaciónentre
objetos
![Page 29: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/29.jpg)
Análisis de conglomerados (cluster).
- A diferencia del factorial que agrupa variables, pretende agrupar observaciones.
- De tal modo que las observaciones dentro de los grupos sean parecidas respecto a las variables utilizadas para agrupar.
- Y que las observaciones entre los grupos sean lo más diferentes posibles respecto a las mismas variables.
- Por ejemplo, para hacer grupos de animales en un programa de mejora genética, o de explotaciones de cara a optimizar su gestión.
clasificación
![Page 30: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/30.jpg)
Proceso de aplicación de la técnica multivariante.
1. Definir el problema que se está investigando (modelo conceptual)
- Análisis conceptual de su objeto de estudio
- Identificar las relaciones fundamentales que se van a abordar
- Elección de la técnica a aplicar
etapas del análisis
![Page 31: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/31.jpg)
Proceso de aplicación de la técnica multivariante.
Por ejemplo:
Analizar la gestión de los sectores ecológicos
- Variables y sectores
- Relaciones entre las variables y los casos:
- Comparar unos sectores con otros: AF/ACP + ANOVA
- Nos da igual el sector: AF/ACP + CLUSTER
- Correlación canónica
etapas del análisis
![Page 32: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/32.jpg)
2. Desarrollo del plan de análisis
- Tamaño muestral mínimo para la técnica concreta
- Las escalas de las variables a analizar son correctas
3. Condiciones de aplicabilidad de la técnica elegida
4. Desarrollo de la técnica, incorporando o eliminando variables según la bondad de ajuste
etapas del análisis
![Page 33: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/33.jpg)
5. Interpretación de los resultados
- Interpretar el modelo global
- Analizar las variables individuales: cargas factoriales, coeficientes, varianzas, etc.
- La interpretación retroalimenta al paso 4
6. Validación del modelo. Técnicas de diagnóstico que permitan generalizar los resultados a la población.
etapas del análisis
![Page 34: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/34.jpg)
Supuestos básicos.
- Normalidad
- Homocedasticidad
- Linealidad
- Independencia
supuestos básicos
![Page 35: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/35.jpg)
Normalidad (uni y multivariante).
- Cuando se pretende comprobar una hipótesis se pueden cometer 2 errores:
- Error tipo 1 (α): probabilidad de equivocarnos al rechazar la hipótesis (normalmente se elige 0,05)
- Error tipo 2 (β): probabilidad de equivocarnos al aceptar la hipótesis (1- β: potencia del contraste)
- El investigador quiere pruebas potentes y valores αpequeños.
Si las variables no son normales multivariantes el error tipo 1 se incrementa.
supuestos básicos
![Page 36: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/36.jpg)
Normalidad univariante.
- La normalidad univariante de todas las variables no implica normalidad multivariante, aunque es difícil que no lo sea.
- Si no se detecta normalidad multivariante habría que estudiar cada variable y detectar cuál es la problemática.
- Análisis de la normalidad univariante:
supuestos básicos
![Page 37: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/37.jpg)
- Estudiar la asimetría y curtosis de la variable (si la variable está tipificada, la asimetría es cero y la curtosis 3)
- Exploración gráfica con gráficos Q-Q
- Contrastes de normalidad
supuestos básicos
0
3
![Page 38: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/38.jpg)
Contrastes de normalidad:
- Todos tienen como hipótesis nula la normalidad de la distribución
- Cada uno tiene su utilidad
- Shapiro –Wilk funciona bien con muestras pequeñas
- El más habitual es Kolmogorov-Smirnov
- En muestras pequeñas es mejor ser conservador con el nivel de significación
supuestos básicos
![Page 39: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/39.jpg)
Con Statgraphics:
supuestos básicos
Computed Chi-Square goodness-of-fit statistic = 116,48P-Value = 1,92957E-12
Shapiro-Wilks W statistic = 0,937943P-Value = 5,58428E-10
Z score for skewness = 1,91137P-Value = 0,0559571
Z score for kurtosis = 0,326301P-Value = 0,744192
![Page 40: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/40.jpg)
Exploración gráfica Q-Q: (sólo para más de 20 casos)
supuestos básicos
Quantile-Quantile Plot
0 30 60 90 120 150
Normal distribution
0
30
60
90
120
150
NH
T
![Page 41: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/41.jpg)
Exploración gráfica Q-Q: (sólo para más de 20 casos)
supuestos básicos
Quantile-Quantile Plot
-1 -0,6 -0,2 0,2 0,6 1(X 100000)Normal distribution
-1
-0,6
-0,2
0,2
0,6
1(X 100000)
RN
![Page 42: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/42.jpg)
Análisis multivariante de la normalidad.
- Existen pocos contrastes (Mardia-curtosis y Mardia-apuntalamiento) y no se conoce bien su distribución
- También el gráfico chi-cuadrado:
- Se calculan las distancias de Mahanalobis (D)
- Su cuadrado se ordenan de menor a mayor (D2)
- En cada distancia se calcula su percentil (j-0,5)/n
- Se calculan los valores X2 de los percentiles de una distribución X2 con p grados de libertad (p=número de variables estudiadas)
- Se representan D2 y X2
- Con Statgraphics se utiliza “Multivariate Control Chart”
- La variable o variables problemáticas se pueden transformar o eliminar
supuestos básicos
![Page 43: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/43.jpg)
Homoscedasticidad (univariante):
- En datos agrupados, la homoscedasticidad significa que la varianza de la variable continua es estadísticamente la misma en todos los grupos que la variable no métrica delimita los grupos.
- El contraste es si la varianza es la misma
- Por ejemplo:
- Variable continua: superficie (ha)
- Variable no métrica: especie (0=ovino, 1=caprino)
- Dentro de los grupos 0 y 1, la varianza de la superficie debe ser estadísticamente la misma
Homoscedasticidad (multivariante):
- Se contrasta si la matriz varianzas-covarianzas es la misma
supuestos básicos
![Page 44: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/44.jpg)
Homoscedasticidad (univariante):
- Contraste de Levene (hipótesis nula: la varianza de la variable X es igual en todos los niveles que forma la variable Z)
Homoscedasticidad (multivariante):
- Contraste M de Box
- Es muy sensible (se recomienda que p<0,001)
- Es necesaria normalidad multivariante para el contraste
supuestos básicos
![Page 45: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/45.jpg)
Por ejemplo:
- Estudiar si los ganaderos son conscientes de que la producción intensiva perjudica el medio ambiente
- O por el contrario, los ganaderos intensivos lo son porque no son conscientes de esto
- Si esto es así, los ganaderos intensivos estarían significativamente más en desacuerdo con la afirmación que los extensivos
supuestos básicos
![Page 46: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/46.jpg)
Por ejemplo:
- Esto es un problema de análisis discriminante:
- Una variable dependiente no métrica (intensivo o extensivo)
- Varias variables independientes métricas:
- Y1: Opinión (1 a 5): la g.intensiva perjudica el m. ambiente
- Y2: Opinión (1 a 5): no permitir g.intensiva en espacios protegidos y naturales
- Y3: Opinión (1 a 5): reducir ayudas a g.intensiva U.E.
- Y4: Opinión (1 a 5): debe informarse más sobre los efectos de la g. Intensiva a la opinión pública
supuestos básicos
![Page 47: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/47.jpg)
Por ejemplo:
- Debe comprobarse la hipótesis nula, que la matriz de varianzas-covarianzas de las variables Y es a misma para los niveles de X (intensivo-extensivo).
- Contraste M de Box.
supuestos básicos
![Page 48: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/48.jpg)
Linealidad:
- Fundamental en todas las técnicas que se centren en el análisis de las matrices de correlaciones o de covarianzas
- Porque el coeficiente de correlación de Pearson sólo puede captar relaciones lineales
- Para la regresión lineal múltiple se analizan los residuos
- Para el resto de los casos: gráficos de dispersión bivariante
- Por ejemplo:
consumo inc. Peso inc. Diám. Digest
Consumo MS (kg/animal) 1 0,87 0,91 -0,66
Incremento de Peso 0,87 1 0,79 0,81
Incremento de Diámetro 0,91 0,79 1 0,92
Digestibilidad MS (%) -0,66 0,81 0,92 1
supuestos básicos
![Page 49: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/49.jpg)
supuestos básicos
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 600
20
40
60
80
100
0 20 40 60
consumo inc. Peso inc. Diám. Digestibilidad
Consumo
Inc Peso
Inc Diam
Diges
0
10
20
30
40
0 20 40 60 0
10
20
30
40
0 20 40 600
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
20
40
60
80
100
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 600
20
40
60
80
100
0 20 40 60
![Page 50: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/50.jpg)
Independencia:
- Los valores que toman las variables en un caso no están influidos por los valores que toman en otro caso
- Si no se está seguro de esto, habría que incrementar el nivel de significación de los contrastes 10 veces (de p<0,05 a p<0,005)
- La independencia se asegura en el diseño experimental
supuestos básicos
![Page 51: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/51.jpg)
Valores perdidos y anómalos:
fiabilidad de los datos de partida
valores perdidos y outliers
![Page 52: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/52.jpg)
Valores perdidos:
- La existencia de valores perdidos es inevitable si se trabaja con encuestas.
- El ganadero no quiere declarar si tiene préstamo
- Se anota una cantidad en una casilla equivocada
- La cuantía de las ayudas aún no se conoce para el ejercicio en concreto, etc.
- La consecuencia depende de su patrón de distribución, de la cantidad de valores y de la causa de pérdida.
- Lo más importante es su distribución: si es aleatoria no causará muchos daños, si tiene un patrón será muy dañino.
valores perdidos y outliers
![Page 53: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/53.jpg)
Por ejemplo:
Opinión de los ganaderos sobre las políticas sectoriales:
V1 = las ayudas perjudican el libre comercio
V2 = no deben aplicarse aranceles europeos
V3 = a la UE le interesa poco el medio ambiente
V4 = deben disminuir las ayudas
V5 = ganadero ecológico (1) o convencional (2)
valores perdidos y outliers
![Page 54: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/54.jpg)
valores perdidos y outliersCaso V1 V2 V3 V4 V4* V5 V61 5 5 4 5 5 22 5 5 4 4 4 5 23 5 5 4 2 2 5 24 5 4 3 3 4 25 5 5 2 5 5 5 26 5 5 5 5 5 5 17 5 5 1 4 18 5 4 3 3 3 5 29 4 4 4 1 1 5 2
10 5 2 3 3 111 5 5 3 3 3 5 212 5 4 2 4 4 5 213 5 3 4 2 2 4 214 5 4 5 1 1 3 115 5 5 5 3 3 4 216 5 3 2 5 117 5 5 1 3 118 5 4 4 3 119 5 4 2 4 4 4 220 1 5 3 4 4 5 221 5 4 3 4 4 5 222 5 5 3 4 4 5 223 5 4 5 4 4 5 124 5 3 1 5 5 5 125 5 3 5 1 1 3 126 4 5 1 5 227 2 3 5 1 3 228 4 4 5 2 5 229 5 4 4 5 5 130 5 5 5 5 5 5 2
![Page 55: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/55.jpg)
valores perdidos y outliers
V4 = deben disminuir las ayudas
N Min Max Med D.E.
V4 24 1 5 2,92 1,53
V4* 23 1 5 3,43 1,37
![Page 56: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/56.jpg)
Diagnóstico de aleatoriedad de los valores perdidos:
- Procedimiento basado en la lógica de la investigación:
- Si el patrón es sistemático (no aleatorio), el comportamiento de la variable con valores perdidos debe ser diferente respecto a otras variables sin valores perdidos.
- El investigador deberá comprobar qué variables se comportan de manera distinta a posteriori.
- Si no existen variables distintas a posteriori, hay que asumir la aleatoriedad de los valores perdidos.
valores perdidos y outliers
![Page 57: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/57.jpg)
- Se realiza una prueba t para muestras independientes:
- A partir de la variable a analizar se crea otra ficticia, codificada con 0=hay dato; 1=dato faltante
- Se desarrolla la prueba t con otra variable sin datos faltantes según la variable ficticia
- Si las medias son significativamente diferentes, la distribución sigue un patrón sistemático
valores perdidos y outliers
![Page 58: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/58.jpg)
En el ejemplo: Prueba t con V2
valores perdidos y outliers
Caso V1 V2 V3 V4 V4* V5 V61 5 5 4 5 5 22 5 5 4 4 4 5 23 5 5 4 2 2 5 24 5 4 3 3 4 25 5 5 2 5 5 5 26 5 5 5 5 5 5 17 5 5 1 4 18 5 4 3 3 3 5 29 4 4 4 1 1 5 210 5 2 3 3 111 5 5 3 3 3 5 212 5 4 2 4 4 5 213 5 3 4 2 2 4 214 5 4 5 1 1 3 115 5 5 5 3 3 4 216 5 3 2 5 117 5 5 1 3 118 5 4 4 3 119 5 4 2 4 4 4 220 1 5 3 4 4 5 221 5 4 3 4 4 5 222 5 5 3 4 4 5 223 5 4 5 4 4 5 124 5 3 1 5 5 5 125 5 3 5 1 1 3 126 4 5 1 5 227 2 3 5 1 3 228 4 4 5 2 5 229 5 4 4 5 5 130 5 5 5 5 5 5 2
V4(COD) V4*(COD)0 11 11 10 11 11 11 01 11 10 01 11 11 11 11 11 01 00 01 11 11 11 11 11 11 11 01 00 10 11 1
![Page 59: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/59.jpg)
En el ejemplo: Prueba t con V2
V4(COD) V4*(COD)
1 0 t 1 0 t
V2(media) 3,96 3,83 0,23 4,30 2,71 -3,95*
Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático
valores perdidos y outliers
![Page 60: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/60.jpg)
Diagnóstico de aleatoriedad de los valores perdidos:
- Prueba de las “correlaciones dicotomizadas”:
- Procedimiento basado en la coincidencia significativa entre los casos concretos en que las variables toman un valor perdido.
- Las variables con casos perdidos se transforman en variables ficticias codificadas: 0=valor perdido, 1=hay dato
- Se calcula la matriz de correlaciones
- Si hay correlación significativa entre las variables ficticias estamos ante un posible patrón significativo
valores perdidos y outliers
![Page 61: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/61.jpg)
En el ejemplo:
V4(COD) V4*(COD) V2(COD)
V4(COD) 1 0,118 (0,53) -0,19 (0,29)
V4*(COD) 0,18 (0,53) 1 0,71 (0,00)*
V2(COD) -0,19 (0,29) 0,71 (0,00)* 1
Luego, la distribución de los valores perdidos de V4 es aleatoria, mientras que V4* sigue un patrón sistemático
valores perdidos y outliers
![Page 62: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/62.jpg)
Tratamiento de los valores perdidos:
- Si los valores siguen un patrón:
- Grave problema
- No hay medios estadísticos conocidos para reducir el número de valores perdidos
- No es posible generalizar los resultados
- Si los valores son aleatorios:
- Problema menor con dos opciones:
- Eliminar todos los casos con un valor perdido
- Imputar un valor estimado
valores perdidos y outliers
![Page 63: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/63.jpg)
- Eliminar todos los casos con un valor perdido:
- Procedimiento por defecto en los programas estadísticos
- Se corre el riesgo de perder mucha información
- Especial cuidado en los análisis basados en análisis de varianzas-covarianzas, correlaciones
- Se puede eliminar selectivamente en cada análisis sólo los casos con datos faltantes en una de las variables implicadas
- Aunque esto genera problemas por el continuo cambio de tamaño muestral
valores perdidos y outliers
![Page 64: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/64.jpg)
- Imputar valores en los datos perdidos:
- Lo más utilizado es imputar la media:
- Procedimiento conservador
- La media no cambia pero la varianza se reduce
valores perdidos y outliers
![Page 65: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/65.jpg)
- Imputar valores en los datos perdidos:
- Como método alternativo, la regresión:
- Como variable dependiente se usa la variable con datos perdidos y como variables independientes se usan el resto de las variables con todos los datos
- Deben ser todas variables métricas
- Método más razonable que la media, aunque:
- Las estimaciones serán más coherentes con las variables independientes que los valores “reales”
- La varianza también se reduce
- Sólo si las estimaciones pertenecen al rango de la variable (por ejemplo, V4 no puede ser 7)
valores perdidos y outliers
![Page 66: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/66.jpg)
Valores atípicos (outliers):
- Aquellos casos que una, dos o más variables toman valores extremos que difieren del comportamiento del resto de la muestra y hacen sospechar de que han sido generados por mecanismos distintos.
- Consecuencias:
- Distorsionan los resultados
- Suelen afectar a la normalidad
valores perdidos y outliers
![Page 67: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/67.jpg)
Valores atípicos (outliers):
- Causas:
- Errores en los datos (recogida e introducción)
- Errores intencionados por parte del encuestado
- Errores de muestreo (introducir en la muestra un individuo que no pertenece a la población)
- Outliers verdaderos: casos que pertenecen a la población objeto de estudio y que realmente difieren del resto por la variabilidad inherente
valores perdidos y outliers
![Page 68: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/68.jpg)
Detección de valores atípicos
- Univariante
- Bivariante
- Multivariante
valores perdidos y outliers
![Page 69: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/69.jpg)
Detección univariante de valores atípicos
- Considerar atípicos aquellos casos cuyos valores estandarizados (media = 0 y desviación típica = 1) superen el siguiente umbral (k):
- N < 80 2,5
- N > 80 3 o 4
- Si la variable sigue una distribución normal 3
(x’) = (xi – x)/Sx
x’ < x + kSx
- Test de Grubbs
valores perdidos y outliers
![Page 70: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/70.jpg)
valores perdidos y outliers
-2-1,5
-1-0,5
00,5
11,5
22,5
33,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
Si el mismo caso es atípico en varias variables, habría que pensar en que es un outlier multivariante
![Page 71: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/71.jpg)
Detección bivariante de valores atípicos
- Tiene utilidad cuando se va a utilizar como dependientealguna de las variables
- Se regresa la posible variable dependiente con las demás independientes:
- Se analiza la dispersión de los datos con los intervalos de confianza (95%)
- Si los valores que quedan fuera son sistemáticamente los mismos, habría que pensar en outlier
valores perdidos y outliers
![Page 72: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/72.jpg)
Por ejemplo: resultado neto, producción leche, UTH y antigüedad de la actividad
valores perdidos y outliers
Plot of Fitted Model
Produccion leche
RN
0 2 4 6 8 10(X 1000)
0
2
4
6
8(X 10000)
Plot of Fitted Model
Antiguedad
RN
0 10 20 30 40 50 600
2
4
6
8(X 10000)
Plot of Fitted Model
UTH
RN
0 1 2 3 4 5 60
2
4
6
8(X 10000)
![Page 73: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/73.jpg)
Detección multivariante de valores atípicos
- Tiene utilidad cuando se van a utilizar técnicas multivariantes
- Se utiliza la distancia de Mahalanobis (D) como la medida entre el centroide de cada caso al conjunto de los datos
valores perdidos y outliers
![Page 74: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/74.jpg)
¿Qué hacer con los valores atípicos?
- Si es un error evidente es conveniente corregirlo o eliminarlo
- Error en la introducción de los datos: buscar el original y corregirlo
- Error en el registro:
- Volver a encuestar el caso en cuestión
- Si no se puede (p.e. la encuesta es anónima) cambiarlo por el valor medio
valores perdidos y outliers
![Page 75: TÉCNICAS MULTIVARIANTES - Universidad de Córdoba€¦ · que el análisis estadístico uni y bidimensional es incapaz de conseguir.-Ayudar al investigador a tomar decisiones óptimas](https://reader030.fdocument.pub/reader030/viewer/2022021803/5b93479109d3f2d9098cff6a/html5/thumbnails/75.jpg)
¿Qué hacer con los valores atípicos?
- Si es un outlier verdadero o no se puede descartar que no lo sea:
- Algunos autores consideran correcto su eliminación para que los análisis reflejen la tendencia mayoritaria de la población
- Otros consideran que la eliminación no se debe hacer:
- Suavizar su influencia con transformaciones (aunque dificulta la interpretación de los resultados)
- Utilizar contrastes no paramétricos (son más robustos)
valores perdidos y outliers