Lectura 1 Regresion Lineal y Correlacion Aplicada en Fabricacion
CAPITULO 1 Regresion y correlacion
-
Upload
javi-sotomayor-graber -
Category
Documents
-
view
255 -
download
0
description
Transcript of CAPITULO 1 Regresion y correlacion
-
1UDP - Facultad de Ciencias Sociales e HistoriaEscuela de Sociologa
Prof: Berta Teitelboim G.
Capitulo 1:
Correlacin bivariada y anlisis de regresin simple
Agosto 2014
1
Introduccin
El objetivo de este captulo es determinar si hay relacin entre dos variables cuantitativas:
si hay la describiremos con una ecuacin.
Se emplea para determinar si existe una relacin estadsticamente significativa entre dos variables (datos bivariados).
Se considerarn solamente relaciones lineales.
2
-
21.1 COEFICIENTE DE CORRELACIN LNEAL
El coeficiente de correlacin lineal mide el grado de intensidad de la relacin entre las variables.
Este coeficiente se aplica cuando la relacin que puede existir entre las variables es lineal.
Si representramos en un grfico los pares de valores de las dos variables la nube de puntos se aproximara a una recta.
3
4
Def: Es un grfico en donde aparecen los datos muestrales apareados (x,y). Cada par individual es un punto.
DIAGRAMA DE DISPERSION
-
31.1 COEFICIENTE DE Correlacin Lneal
Tambin se conoce como coeficiente de Pearson.
Como se calcula con datos muestrales se basa en los siguientes supuestos:
La muestra de datos apareados (x,y) es una muestra aleatoria (m.a.) y ambas variables son cuantitativas.
Los pares de datos (x,y) tienen una distribucin normal.
5
Ejemplo 1: Se tiene la siguiente informacin sobre 10 pases de Amrica Latina
Evida: Esperanza de vida aosIngreso: ING Per cpita en US$
6
Grfique los datos, eje x el ingresoeje y la Esperanza de Vida
Orden Pais
Ingreso
PP en
miles de
US$ 2012
Esperanza de
vida (aos)40 Chile 15,0 79,3
45 Argentina 15,3 76,1
51 Uruguay 13,3 77,2
71 Venezuela 11,5 74,6
77 Peru 9,3 74,2
85 Brazil 10,2 73,8
89 Ecuador 7,5 75,8
91 Colombia 8,7 73,9
111 Paraguay 4,5 72,7
72,0
73,0
74,0
75,0
76,0
77,0
78,0
79,0
80,0
0,0 5,0 10,0 15,0 20,0
-
41.1 Formula COEFICIENTE DE Correlacin Lineal
yx
xy
SnS
Sr =
Mide el grado de asociacin lineal entre X e Y
7
En el ejemplo r= 0.771
=
=
222222 )()*)()(
)*(*
)((*)(
)(*)(
iiii
iiii
ii
ii
yynxxn
yxyxn
yyxx
yyxxr
Los clculos los realizaremos en el computador
Pero no sufran
-
51.1.2 Caractersticas
Se denomina (rho) a la correlacin poblacional yr a la correlacin muestral
nmero sin dimensiones entre -1 y 1. si las variables son independientes r=0. si las variables estuvieran perfectamente
relacionadas linealmente r=1 A mayor valor de r mayor relacin entre las
variables. Cuando la correlacin es 0, el grfico muestra una
lnea plana.
9
En resumen
Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1
Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1.
Si "r" < 0, la correlacin lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlacin negativa es tanto ms fuerte cuanto ms se aproxime a -1.Por ejemplo: En una dieta para bajar de peso y su relacin con el tiempo: A medida que aumentan los das, disminuye el peso.
Si "r" = 0, no existe correlacin lineal entre las variables. Aunque podra existir otro tipo de correlacin (parablica, exponencial, etc.)
10
-
6Algunos autores sugieren la siguiente tabla:
11
Correlacin Negativo Positiva
Ninguno -0,09 a 0,0 0,0 a 0,09
Pequeo -0,3 a -0,1 0,1 a 0,3
Medio -0,5 a -0,3 0,3 a 0,5
Grande (fuerte) -1,0 a -0,5 0,5 a 1,0
12
Fuente: http://upload.wikimedia.org/wikipedia/commons/d/d4/Correlation_examples2.svg
Grficos de relaciones entre variables
-
7Retomando el problema: Correlacin entre el ingreso per cpita y la esperanza de vida en 9 pases de Amrica Latina
Si se concluye que hay una correlacin lineal significativa entre las dos variables ( x e y), se puede obtener una ecuacin lineal que exprese la variable y en trminos de x del tipo:
13
exbby ++= 10 exy ++= 10
Ecuacin datos muestrales Ecuacin datos poblacionales
72,0
73,0
74,0
75,0
76,0
77,0
78,0
79,0
80,0
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0
Esp
era
nza
de
vid
a (
a
os)
s
INGRESO EN MILES DE US$
1.2 Modelo de Regresin Lneal
Se puede describir la relacin entre dos variables por medio del clculo de la ecuacin de la recta que representa la relacin de stas.
Esta recta se conoce como la recta de regresin y su ecuacin como la ecuacin de regresin. En el ejemplo: la relacin entre la esperanza de vida y el ingreso per cpita del pas.
14xbby 10 +=)
72,0
73,0
74,0
75,0
76,0
77,0
78,0
79,0
80,0
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Esp
era
nza
de
vid
a (
a
os)
s
INGRESO EN MILES DE US$
xbby 10 +=)
-
81.2 Modelo de Regresin Lneal
Una ecuacin de regresin lineal intenta emplear informacin proporcionada por una variable independiente, X, para explicar el comportamiento de la variable dependiente Y (tambin llamada variable respuesta).
15
iii exbby ++= 10
Donde Yi es la variable dependiente o explicada por X
Xi es la variable independiente.
La recta de regresin es la que minimiza los errores (ei=0).
ii xbby 10 +=
iii
iii
yye
eyy)
)
=
+=Si se reemplaza Y estimado,
1.2 Modelo de Regresin Lneal
Se estima la ecuacin anterior por:
xx
xy
i
ii
S
S
xx
yyxxb
xbyb
=
=
=
21
10
)(
)(*)(
16
0)( 210 = ii xbbyA travs del mtodo de los mnimos cuadrados se calculan b0 y b1
Donde:
02 = ie 0)(2 = ii yy
)
iiiii yyxbbye)
=+= )( 10
-
9 bo es el intercepto
b1 es la pendiente de la recta
Una vez calculada bo y b1, se identifica la ecuacin estimada de regresin, esta es la que se ajusta mejor a los puntos muestrales.
17
xbby 10 +=)
Recordemos que:
Retomando Ejemplo
18
Ejemplo 1: Se tiene la siguiente informacin sobre 10 pases de Amrica Latina
Evida: Esperanza de vida aosIngreso: ING Per cpita en US$
Encontrar la recta de regresin, determine cual es la variable dependiente y la independiente
Orden Pais
Ingreso PP
en US$
Esperanza de
vida (aos)40 Chile 14.987 79,3
45 Argentina 15.347 76,1
51 Uruguay 13.333 77,2
71 Venezuela 11.475 74,6
77 Peru 9.306 74,2
85 Brazil 10.152 73,8
89 Ecuador 7.471 75,8
91 Colombia 8.711 73,9
111 Paraguay 4.497 72,7
IngresoPPx
xy
=
+= 439,06.70
:Ecuacin
Modelo ObtenidoB
(Constante) 70,644INGRESO_MILES 0,439
-
10
19Fuente: Estadistica Aplicada a los Negocios y la Economia Allen Webster; cap. Cap.11, 3 edicin, pag. 359
1.3 La Capacidad Explicativa de una Ecuacin de Regresin Lineal o Bondad de Ajuste
Ahora veremos la capacidad de ese ajuste, esto va a depender de la proporcin de la variabilidad que puede explicarse por la dependencia lineal de Y sobre X.
Yi = 0 + 1xi
Los trminos del error ei son variables aleatorias con media cero, es decir E(ei) =o para i=1,----n
Como ya se mencion para los valores muestrales, la recta de regresin estimada puede escribirse como:
0)( == iii yye
20
ii xbby 10 +=
-
11
El valor ^yi es el valor predicho por la recta de regresin
ei es el residuo, diferencia entre el valor observado y el predicho.
ei corresponde a la parte del comportamiento de la variable dependiente que no puede ser explicada por su relacin lneal con la variable independiente.
Podemos escribir:
yi = ^yi + ei
Si sumamos y restamos la media de y tenemos:
Desviacin observada Desviacin Predicha ResiduoRespecto de la media Respecto de la mediamuestral muestral
( ) ( ) ( )i i i iy Y y Y y y = +
21
Si se eleva al cuadrado la ecuacin anterior y se suma respecto a i, se obtiene:
Variabilidad total Variabilidad Explicada + Variabilidad no de la muestra explicada
A mayor proporcin de variabilidad explicada , mayor capacidad explicativa tiene la regresin.
2
2 2
1 1 1
( ) ( ) ( )n n n
i i i iy Y y Y y y = +
22
-
12
Volvemos al ejemplo de la relacin entre la Esperanza de
Vida y el Ingreso
23
72,0
73,0
74,0
75,0
76,0
77,0
78,0
79,0
80,0
4,0 6,0 8,0 10,0 12,0 14,0 16,0
Esp
era
nza
de
vid
a (
a
os)
Ingreso PP en miles de US$ 2012
Ingreso PP en miles de US$ 2012
Valores observados y pronosticados
Esperanza de vida (aos)
Pronstico Esperanza de vida(aos)
xy 439,06.70 +=
Desviacin
no
explicada
Desviacin explicada Media de y = 75.3 aos
ii yylicadanoD =)
exp__ii yyExplicadaD =
).
En resmen
Si se ajusta una ecuacin de reg. Lneal,
(i=1,2,.,n)
estimando:
Donde b0 y b1 son las estimaciones y ei los residuos, y se definen las siguientes expresiones
Suma de Cuadrados Total: SCT
Suma de Cuadrados de la Regresin: SCR
Suma de Cuadrados Residual (o del error) SCE
Donde SCT = SCR + SCE
24
iiiii eyexbby +=++= 10
ii xbby 10 +=
2
2 2
1 1 1
( ) ( )n n n
i i iy Y y Y e = +
-
13
Variabilidad total = Variabilidad Explicada + Variabilidad no de la muestra explicada
SCT = SCR + SCESuma de Cuadrados Suma de Cuadrados Suma de Total de la Regresin Cuadrados Residual (o
del error)
Donde SCT = SCR + SCE
25
1.4 Coeficiente de Determinacin
2
1
2
1
2
1
( )
( )
n
i
n
i
n
i
SCT y Y
SCR y Y
SCE e
=
=
=
)
2 1SCR SCE
RSCT SCT
= =
El coeficiente de Determinacin, R2 de la regresin ajustada es:
= Variacin Explicada----------------------Variacin Total
Est es la proporcin de la variabilidad dependiente explicada por su relacin lineal con la variable independiente. 26
-
14
Corresponde al coeficiente de correlacin lineal al cuadrado, donde:
0
-
15
b1 representa el cambio marginal que ocurre en y cuando x cambia en una unidad, por lo tanto de la ecuacin se desprende que si se incrementa en mil dlares el ingreso per cpita, la esperanza de vida
predicha, aumentar en 0,439 aos. .
29
En el ejemplo
)(439,06.70: INGxEviday =+=
1.5 Prueba de hiptesis Coeficiente B
vidadeEsperanzadeaoslosenpasdelingresoElH
vidadeEsperanzadeaoslosenincidenopasdelingresoElH
H
H
___________:
____________:
0:
0:
1
0
11
10
incide
incide
incide
incide
=
Se debe realizar la prueba de Hiptesis
30
1.5 Prueba de hiptesis Coeficiente B
vidadeEsperanzadeaoslosenincidepasdelingresoElH
vidadeEsperanzadeaoslosenincidepasdelingresoElH
H
H
___________:
____________:
0:
0:
1
0
11
10
nono
nono
=
Sig de B1, es menor que 0,05, por lo tanto se rechaza H0
-
16
1.5 Prediccin
Las ecuaciones de regresin sern tiles cuando se emplean para predecir el valor de una variable, a partir de algn valor particular de otra slo cuando existe correlacin lineal entre ellas.
Hay que tener presente que:
Una ecuacin de regresin que est basada en datos antiguos no necesariamente es vlida hoy.
No se deben hacer predicciones acerca de una poblacin distinta de la cual se obtuvieron los datos.
31
Prediccin
En el ejemplo de la esperanza de vida y el Ingreso,
S un pas tiene un INGPP de US$ 10.000 diarios Cul ser su esperanza de vida estimada?
La ecuacin era:
Supongamos que la variable independiente toma el valor Xk y que la relacin entre las variables es lineal. El valor de la variable dependiente ser:
Si Xi=10 reemplazando
7510*439.06.70
:Ecuacin
=+=iy 32
kk xy 439.06.70 +=
kk xbby * 10 +=
-
17
Ejemplo 2
En el archivo estaturas.sav, construir un modelo de regresin lineal que explique la variable estatura del hijo(y)
a. Utilice como variable independiente la estatura promedio del padre y la madre.
b. Ahora la var. Independiente es estatura de la madre.
c. Seleccione solo a los hombre la var independiente: altura del padre.
d. Seleccione solo a las mujeres, la var independiente: altura del padre.
En cada uno de los casos grafique.
33
Ejemplo 3
En el archivo maraton.sav, estn los datos de la edad y el tiempo en segundos de los corredores de la Maratn de N.Y..
Ajustar una recta de regresin que explique el tiempo en funcin de la edad de los corredores.
Realizar los test de hiptesis para probar si el ajuste es adecuado.
Interprete el coeficiente b1.
Estime cuanto se demorara en seg. Una persona de 50 aos.
34
-
18
Ejemplo 4En el archivo empleados.sav, construir un modelo de regresin lineal que explique la variable salario actual(y), como variable independiente utilice la educacin (x).
ANOVAb
6,018E+10 1 6,02E+10 365,381 ,000a
7,774E+10 472 1,65E+08
1,379E+11 473
Regresin
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrtica F Sig.
Variables predictoras: (Constante), nivel educacionala.
Variable dependiente: Salario Actualb.
Resumen del modelo
,661a ,436 ,435 $12,833.540
Modelo1
R R cuadradoR cuadradocorregida
Error tp. de laestimacin
Variables predictoras: (Constante), nivel educacionala.
Coeficientes a
-18331,2 2821,912 -6,496 ,000
3909,907 204,547 ,661 19,115 ,000
(Constante)
nivel educacional
Modelo1
B Error tp.
Coeficientes no
estandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Salario Actuala.
35
Notas a Considerar
1. Si no existe correlacin lineal entre las variables , no utilice la ecuacin de regresin.
2. Una ecuacin de regresin esta basada en datos antiguos, no sirven necesariamente para los actuales.
3. No haga predicciones acerca de una poblacin distinta de la poblacin donde se obtuvieron los datos muestrales.
36
-
19
1.6 Anlisis de Residuos
Los residuos de un modelo estadstico son la diferencia entre losvalores observados y pronosticados o predichos (yi- i).
Informan sobre el grado de exactitud de los pronsticos, cuantoms pequeos, mayor es la precisin.
Estos pueden obtenerse en el SPSS a travs del comandoRegresin grabar y la opcin diagnsticos por casos, entregaun listado de los residuos ms grandes.
El inters por los residuos reside en que pueden ser usadas paraprobar la mayora de los supuestos del modelo.
37
1.6.1 Obtencin de los valores estimados y los residuos con SPSS
Retomando el archivo salarios y satisfaccin en el empleo
38
-
20
39
1.6.2 Casos Atpicos - Outliers
Los casos atpicos son observaciones con caractersticas diferentes de los dems datos.
No pueden ser caracterizados como problemticos, slo deben ser contemplados en el anlisis.
Su principal problema es que pueden constituir elementos no representativos de la poblacin.
Tambin pueden mostrar una caracterstica de la poblacin.
40
-
21
Casos Atpicos - Identificacin
Pueden identificarse a travs del anlisis univariante, considerando que corresponden a casos atpicos aquellos cuyos valores caigan fuera de la distribucin.
Estos datos pueden ser observados, a travs del histograma, grfico de cajas. Tambin pueden calcularse nmericamente.
41
Ejemplo
Utilice la base de datos IDH 2012 Mundial, construya un modelo de regresin,
Variable dependiente : la Esperanza de Vida Variable independiente: Escolaridad.
42
-
22
Casos Atpicos - Identificacin
Se sugiere lo siguiente:
Si n < 30 los datos que estn fuera del intervalo de la media ms menos 2,5 desviaciones estndar
Si n > 30 los datos que estn fuera del intervalo de la media ms menos 3 desviaciones estndar
43
Observacin Atpica e Influyente
1. Es una observacin que tiene alto impacto sobre los valores de prediccin a travs de los parmetros estimados del modelo de regresin.
2. Se puede detectar a travs del anlisis de residuos, revisando que valores se alejan de la media en ms de 2,5 o 3 desviaciones estndar.
3. Una vez detectado se debe excluir del modelo y analizar los cambios producidos en los coeficientes y en R2.
44
-
23
Ejemplo : Se mide la satisfaccin en el trabajo a 8 sujetos. Los datos representan los puntajes de satisfaccin(y) y el salariodiario en miles de pesos(x) de cada encuestado.
Encuentre el coeficiente de correlacin lneal.
x 31 33 22 24 35 29 23 37 Salario
y 17 20 13 15 18 17 12 21 Satisfaccin
45
Grfico
r = 0,94
Puntajes de satisfaccin en el trabajo (x) y salario diario(y)
46
15
20
25
30
35
40
10 12 14 16 18 20 22
Tt
ulo
de
l eje
Ttulo del eje
y=miles de $
Lineal (y=miles de $)
Ahora calcularemos el coeficiente de correlacin: en excel: COEF.DE.CORREL
-
24
47
Bibliografa utilizada:
Berenson, Mark L., Levine, David M. , coaut., Krehbiel, Timothy C. , coaut. Ed 2, Mxico Pearson, Educacin, 2006 (cap. 12)
PARDO MERINO Antonio, RUIZ DIAZ Miguel A. (2002): SPSS 11. Gua para el anlisis de datos. Editorial Mac Graw Hill. 1a edicin.
SANCHEZ CARRION Juan J. (1999): Manual de anlisis estadstico de los datos.Editorial Alianza. 2a edicin. Cap.8
TRIOLA Mario (2004): Estadsticas. Editorial Pearson. 9a edicin.
Webster, A. Estadistica Aplicada a los Negocios y la Economia, Editorial Mac GrawHill 3 edicicin.
En la web:http://www.cienciaytrabajo.cl/V2/index.htmlAO 8, NMERO 22, OCTUBRE-DICIEMBRE 2006 | Pags. 185/189.AO 10, NMERO 27, ENERO-MARZO 2008
http://www.ine.es/Importancia de Darwin en el desarrollo de la estadstica modernaToni Monlen Getino; Estadstica espaola,, Vol. 52, N 175, 2010, pgs. 371-392.
UDP - Facultad de Ciencias Sociales e HistoriaEscuela de Sociologa
Prof: Berta Teitelboim G.
Capitulo 1:
Correlacin bivariada y anlisis de regresin simple
Agosto 2013
48