Controle multivariado de processos em batelada com duração ...
TECNICAS AVANZADAS DE INVESTIGACIÓN Y ANÁLISIS MULTIVARIADO DE DATOS NIVEL II AVANZADO
description
Transcript of TECNICAS AVANZADAS DE INVESTIGACIÓN Y ANÁLISIS MULTIVARIADO DE DATOS NIVEL II AVANZADO
TECNICAS AVANZADAS DE INVESTIGACIÓN Y ANÁLISIS MULTIVARIADO DE DATOS
NIVEL II AVANZADO
Titular: Agustín Salvia
MÓDULO 3 B
ANÁLISIS DE MODELOS DE REGRESION LINEAL
SEMINARIO DE INVESTIGACION
Problemas de Causalidad
El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas.
Si hay suficientes observaciones empíricas sobre estas variables, el análisis de regresión es un método apropiado para describir la estructura, fuerza y sentido exacto de esta asociación.
Modelos de Regresión Lineal
Problemas de Causalidad
El modelo permite diferenciar variables explicativas o independientes (métricas o variables dummy) y variables a explicar o dependientes (métricas).
La distinción entre variables dependientes e independientes debe efectuarse con arreglo a fundamentos teóricos, por conocimiento o experiencia y estudios anteriores.
Método de tipo: Y : f (X) en donde se busca determinar una relación del tipo y = bx + U
Modelos de Regresión Lineal
Modelos de Regresión Lineal
Una pregunta importante que se plantea en el análisis de regresión es la siguiente: ¿Qué porcentaje de la variación total en Y se debe a la variación en X? ¿Cuánto de la variación de Y no explica X?
El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación (R2). Si por ejemplo, al hacer los cálculos respectivos se obtiene un valor de 0.846. Esto significa que el modelo explica el 84.6 % de la variación de la variable dependiente.
Función Lineal de Regresión
Modelos de Regresión Lineal
El objetivo de la técnica de regresión es establecer la relación estadística que existe entre la variable dependiente (Y) y una o más variables independientes (X1, X2,… Xn). Para poder realizar esto, se postula una relación funcional entre las variables. Debido a su simplicidad analítica, la forma que más se utiliza en la práctica es la relación lineal:
ŷ= b0 + b1x1 +… bnxn
donde los coeficientes b0 y b1, … bn, son los parámetros que definen la variación promedio de y, para cada valor de x. Estimada esta función teórica a partir de los datos, cabe preguntarse qué tan bien se ajusta a la distribución real.
Función Lineal de Regresión
Modelos de Regresión Lineal
- El parámetro b0, conocido como la “ordenada en el origen,” nos indica cuánto es Y cuando X = 0. El parámetro b1, conocido como la “pendiente,” nos indica cuánto aumenta Y por cada aumento en X.
- La técnica consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X.
- En el análisis de regresión, estas estimaciones se obtienen por medio del método de mínimos cuadrados. Logradas estas se evalúa la bondad de ajuste y significancia estadística de los resultados.
Función Lineal de Regresión
Modelos de Regresión Lineal
Estima la fuerza o bondad explicativa del modelo teórico no importando la fuerza, sentido u calidad de las variables independientes introducidas en el modelo.
Predice el valor medio que puede asumir la variable Y dado un valor de X (regresión a la media) para un intervalo de confianza.
Estima el sentido y la fuerza del efecto de cada una de las variables intervinientes sobre la variable dependiente (control sobre los demás efectos).
Respuestas Metodológicas
Se supone que la forma funcional que relaciona la variable DEPENDIENTE con la/las variables explicativas es de tipo LINEAL.
Las variables explicativas deben ser entre sí INDEPENDIENTES, la varianza de los errores constante, con distribución normal y los errores no deben estar correlacionados.
La CONSTANTE (b0) no sólo expresa el valor estimado de y en la ordenada al origen, sino también el conjunto de los errores no lineales y desconocidos del modelo.
Modelos de Regresión LinealRequisitos Estadísticos del Método
La variable aleatoria є (error) es estadísticamente independiente de los valores de X y tiene distribución normal (supuestos 1 y 2).
La variable aleatoria є (error) tiene una media igual a cero (supuesto 3)
Cualquier par de errores, єi y єj son estadísticamente independientes entre sí, es decir que su covarianza es igual a 0 (supuesto 4)
Las variables aleatorias єj tiene una varianza finita σ2 que es constante para todos los valores de xj . (Supuesto 5 o de homocedasticidad)
Modelos de Regresión LinealSupuestos del Método de Regresión
Se evalúa la bondad de ajuste del modelo teórico a a través del coeficiente de determinación R2 (% de la variación de X que explica el modelo).
La capacidad explicativa del modelo también se evalúa a partir del ANOVA, cuyo resultado es sometido al estadístico de prueba F de Fisher
Mide la fuerza, sentido y significancia estadística de las variables del modelo sobre la variable dependiente a través de coeficiente de regresión (B), el coeficiente de regresión parcial estandarizado (BETA) y la prueba t de Student que considera el error estándar del coeficiente b.
Modelos de Regresión LinealSalidas Estadísticas del Método
El ingreso horario de los ocupados (entre 25 y 45 años) no se ve afectados por el sexo sino que depende de la cantidad de años de instrucción
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Años de estudio (aprox.)
20100
Ing
reso
ho
rari
o d
e la
ocu
pa
ció
n p
pa
l
80
60
40
20
0
Sexo
Mujer
Varón
BONDAD DE AJUSTE DEL MODELO (R2)
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Variables Entered/Removedb
Sexo (dummy: 0=Varón)a , Enter
Años de estudio (aprox.)a , Enter
Model1
2
Variables EnteredVariablesRemoved Method
All requested variables entered.a.
Dependent Variable: Ingreso horario de la ocupación ppalb. Model Summary
,014a ,000 ,000 3,3032
,359b ,129 ,129 3,0832
Model1
2
R R SquareAdjustedR Square
Std. Errorof the
Estimate
Predictors: (Constant), Sexo (dummy: 0=Varón)a.
Predictors: (Constant), Sexo (dummy: 0=Varón),Años de estudio (aprox.)
b.
ANÁLISIS DE VARIANZA DE LOS MODELOS
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
ANOVAc
22,486 1 22,486 2,061 ,151a
112779,9 10336 10,911
112802,4 10337
14557,248 2 7278,624 765,683 ,000b
98245,112 10335 9,506
112802,4 10337
Regression
Residual
Total
Regression
Residual
Total
Model1
2
Sum ofSquares df
MeanSquare F Sig.
Predictors: (Constant), Sexo (dummy: 0=Varón)a.
Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio (aprox.)b.
Dependent Variable: Ingreso horario de la ocupación ppalc.
COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Coefficientsa
3,476 ,043 80,455 ,000
-,0941 ,066 -,014 -1,436 ,151
,271 ,091 2,964 ,003
-,426 ,062 -,064 -6,898 ,000
,306 ,008 ,362 39,102 ,000
(Constant)
Sexo (dummy: 0=Varón)
(Constant)
Sexo (dummy: 0=Varón)
Años de estudio (aprox.)
Model1
2
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: Ingreso horario de la ocupación ppala.
MULTICOLINEALIDAD: a través de matrices de correlación simple entre las variables independientes. Solución: Seleccionar variables independiente con baja correlación entre sí y/o transformar en variables dummy no colineales.
NORMALIDAD DE LOS RESIDUOS: a través de un gráfico de de distribución de los residuos. Solución: eliminación de datos outliers.
HETEROSCEDASTICIDAD: a través de gráficos de residuos є para cada valor de ŷ. Solución: Eliminación de casos outliers, tranformación de las variables independientes y/o estandarización de la variable dependiente Y.
AUTOCORRELACIÓN DE ERRORES: a través de la prueba Durbin-Watson / el valor 2 indica no autocorrelación. Solución: Corrección de observaciones o eliminación de datos.
Modelos de Regresión LinealControl de Supuestos
CORRELACIÓN SIMPLE
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Correlations
1,000 -,014 ,354**
, ,149 ,000
10339 10339 10338
-,014 1,000 ,137**
,149 , ,000
10339 10339 10338
,354** ,137** 1,000
,000 ,000 ,
10338 10338 10338
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Ingreso horario de laocupación ppal
Sexo (dummy: 0=Varón)
Años de estudio (aprox.)
Ingresohorario de
laocupación
ppal
Sexo(dummy:0=Varón)
Años deestudio(aprox.)
Correlation is significant at the 0.01 level (2-tailed).**.
GRAFICAS DE DISPERSIÓN DE RESIDUOS
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Regression Standardized Residual
Histogram
Dep. Var.: Ingreso horario de la ocupación ppal
Fre
qu
en
cy
7000
6000
5000
4000
3000
2000
1000
0
Std. Dev = 1,00
Mean = 0,0
N = 10338,00
PRUEBAS DE HETEROSCEDASTICIDAD
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Normal P-P Plot of Regression Standardized Res.
Dep. Var.: Ingreso horario de la ocupación ppal
Observed Cum Prob
1,00,75,50,250,00
Exp
ect
ed
Cu
m P
rob
1,00
,75
,50
,25
0,00
Scatterplot
Dependent Variable: Ingreso horario de la ocupación ppal
Regression Standardized Predicted Value
3210-1-2-3-4
Re
gre
ssio
n S
tan
da
rdiz
ed
Re
sid
ua
l
30
20
10
0
-10
DURBIN WATSON: EVALUACIÓN DE AUTOCORRELACIÓN
Modelos de Regresión LinealANÁLISIS DE UN EJEMPLO
Model Summaryb
,359a ,129 ,129 3,0832 1,707Model1
R R SquareAdjustedR Square
Std. Errorof the
EstimateDurbin-W
atson
Predictors: (Constant), Sexo (dummy: 0=Varón), Años de estudio(aprox.)
a.
Dependent Variable: Ingreso horario de la ocupación ppalb.
Modelos de Regresión Lineal
Eliminar los residuos OUTLIERS que afectan la distribución.
Recodificación de las variables independientes y/o transformación LOGÍSTICA de la variable dependiente.
Estratificación del análisis a partir de usar un factor independiente como CRITERIO PARA DIVIDIR a la población en grupos comparables (p.e. población con ingresos ><.
¿QUÉ HACER FRENTE A LOS SESGOS DE ESTIMACIÓN?
Modelos de Regresión No LinealAjustes Estadísticos del Método
La regresión lineal no siempre da buenos resultados, porque a veces la relación entre Y y X no es lineal sino que exhibe algún grado de curvatura. La estimación directa de los parámetros de funciones no-lineales es un proceso complicado. No obstante, a veces se pueden aplicar las técnicas de regresión lineal por medio de transformaciones de las variables originales.
¿Cómo ajustar modelos de regresión lineal cuando la función no es lineal?
Modelos de Regresión No LinealAjustes Estadísticos del Método
Si aplicamos logaritmos, esta función también puede ser expresada como: log(Y) = b.log(X). En lugar de calcular la regresión de Y contra X, calculamos la regresión del logaritmo de Y contra el logaritmo de X. Este modelo es interesante, porque el exponente b en una función exponencial que mide la elasticidad de Y respecto de X.
Una función no-lineal que tiene muchas aplicaciones es la función exponencial:
Y = Xb
Distribución F de Fisher-Snedecor
Modelos de Regresión Lineal
- Nunca adopta valores menores de 0 y es asimétrica positiva. En el modelo de regresión mide la relación entre el total de la varianza de la variable dependiente y la parte explicada de dicha varianza.
- Es una familia de curvas, en función de los llamados “grados de libertad” del numerador y del denominador. Se puede demostrar que la distribución F equivale a una razón entre dos chi-cuadrados (de ahí que se hable en el caso de F de grados de libertad en el numerador y en el denominador)
Modelos de Regresión LinealDistribución t de Student
- Es simétrica y unimodal, con media en 0. Es una familia de curvas, en función de los llamados “grados de libertad”. Es decir, hay una distribución t de Student con 1 gl, una distribución t de Student con 2 gl, etc.
-A medida que aumentan los grados de libertad, la distribución tiende más y más a una distribución normal estandarizada.