Post on 13-Feb-2015
Regresión LinealVerificación de Supuestos
Análisis de residuales
Modelos de la regresión de p variables
β0 - Intercepto
β1 βp- Coeficientes de pendiente parciales de la regresión
ei - Término residual asociado con Ia ‘i’ observación
Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei
Supuestos del modelo de la regresión
NormalidadLinealidadHomoscedasticidadLa no multicolinealidad o tolerancia entre
las variables independientes
Representación del modelo en forma compacta
Y1 = b0 + b1X11 + e1
Y2 = b0 + b1X21 + e2
...............................
Yn = b0 + b1Xn1 + en
y = Xβ + ε (forma matricial
compacta)
Modelo de la regresión simple(en términos de estimadores)
Y = b0 + b1X1 + e
Observación
Parte fija Parte aleatoria (determinista) (error)
Normalidad
En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.
En otras palabras…
Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.
Distribución normal de la variable edad.
Linealidad
Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.
sigue…
En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.
Definición de modelo lineal
Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales.
Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.
Homoscedasticidad
Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.
Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.
Multicolinealidad
Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//..
Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.
Regresión múltiple
Modelos de la
Regresión múltiple
Lineal No Lineal
Lineal V. Dummy
Polinó-mica.
Interac.
Raíz Cuadrada
Log-lineal
Recípro-ca
Expo-nencial
SUPUESTOS EN LA REGRESIÓN MÚLTIPLE
NORMALIDAD
El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos,
dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F.
La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales.
¿cómo evaluarla?
1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados
LINEALIDAD
Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la
correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial
HOMOSCEDASTICIDAD
Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables
independientes. ¿cómo evaluarla?
1. Examen visual de los residuos 2. Test de Levene
ANALISIS GRAFICO DE LOS RESIDUALES
No Correlación Heterocedasticidad
Dependencia de evento
HeterocedasticidadDependencia temporal
Preparado por León Darío Bello P.
No linealidad
0
0
EVALUACIÓN DE LA MULTICOLINEALIDAD
Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí
Multicolinealidad: correlación entre tres o más variables independientes
La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes
A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta
¿Cómo detectar la existencia de multicolinealidad?
1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad)
2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad)
Efecto
IDENTIFICACION DE LA MULTICOLINEALIDA
Preparado por León Darío Bello P.
•Matriz de correlación•Valor de la tolerancia•Factor de Inflación de la varianza (VIF)•Indice de condición (30 o más).
Miden el grado en el que cada variable Xi se explica por otras variables independientes.
Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero).
REMEDIOS PARA LA MULTICOLINEALIDAD
1. Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación)
2. Utilizar el modelo sólo para predecir. (No interpretar coeficientes).
3. Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y.
4. Métodos más sofisticados (Regresión Bayesiana, Componentes principales)
VALIDACION DE RESULTADOSPreparado por León Darío Bello P.
Columna 1 Columna 2 Columna 3Columna 1 1Columna 2 0.89079913 1Columna 3 0.81364675 0.62506587 1
Columna 1 Columna 2 Columna 3
Variables DummySon aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente:
I1 I2 I3
Nunca fumó 0 0 0
Ex- fumador 1 0 0
Menos de 10 cigarrillos diarios 0 1 0
10 o más cigarrillos diarios 0 0 1
Preparado por León Darío Bello P.