Análisis de Correlación y de Regresión Simple
Transcript of Análisis de Correlación y de Regresión Simple
Análisis de Correlación y de Regresión Simple
POR:
ELISA MENDOZA G.
12/04/2021 DRA. ELISA MENDOZA G. 1
Análisis de correlación de Pearson
4/12/2021 DRA. ELISA MENDOZA G. 2
Análisis de correlación y de regresión
Estos son dos tipos de análisis que se realizan sobre dos variables (X, Y)o entre más de dos variables (X, Y, Z, …). En el primer caso, se conocencomo análisis simples, y en el segundo, como análisis multivariado.
El propósito del análisis de correlación, es determinar el grado o fuerzade asociación de las variables analizadas. Esta fuerza puede ser inversa(negativa) o directamente proporcional (positiva).
El análisis de regresión, además de evaluar la fuerza de asociación de lasvariables, determina un modelo matemático f(x) con fines depronosticar la variable dependiente en función de la(s)independiente(s).
Estos análisis se realizan sobre variables cuantitativas y con distribuciónNormal, preferiblemente.
12/04/2021 DRA. ELISA MENDOZA G. 3
Coeficiente de Correlación de Pearson: R
12/04/2021 DRA. ELISA MENDOZA G. 4
En 1900, Karl Pearson, desarrolló el coeficiente de correlación, el
cual describe la magnitud entre dos conjuntos de variables de
intervalo o de razón. Éste coeficiente se designa como “r” y con
frecuencia se le llama r de Pearson. El coeficiente de correlación
toma valores de –1 hasta 1. Entre más se aproxima a los extremos,
más fuerte será la correlación. Un valor de r cercano a cero,
indicará un nivel bajo o nulo en la correlación de las variables
estudiadas.
Tipo de relaciones entre variables
Las correlaciones puedenser lineales o No lineales. Elanálisis de correlación linealsimple es el más común yaque sienta las bases para losanálisis no lineales.
Cuando los datos no se ajustan a un análisis lineal, se deben ajustar los datos (transformar) a fin que mediante la fórmula se pueda calcular este indicador r.
DRA. ELISA MENDOZA G. 12/04/2021 5
Esta foto de Autor desconocido está bajo licencia CC BY-SA
La correlación entre variables pueden ser: lineales o no
lineales: exponencial, logarítmicas, potenciales, etc.
Correlación
12/04/2021 DRA. ELISA MENDOZA G. 6
La Correlación entre variables se mide a través del Coeficiente de Correlación de
Pearson y se denota por la letra ere: r
La correlación además de medir el grado de asociación indica el sentido en que se
da dicha asociación entre las variables. Por ejemplo, si X aumenta y Y decrece, la
correlación es negativa. Si X crece y Y crece también, entonces esta correlación es
positiva.
Fuerte correlación negativa Correlación débil o nula Fuerte correlación positiva
-1 -0.5 0 +0.5 +1
X, crece;
Y, decrece
X, crece;
Y, crece
Cálculo del Coeficiente de correlación
12/04/2021 DRA. ELISA MENDOZA G. 7
−−
−=
2222 )()()()(
))(()(
YYnXXn
YXXYnr
Fórmula:
El coeficiente de correlación, es la relación entre la covarianza de X
y Y, sobre las desviaciones estándares de X y de Y, respectivamente.
GRÁFICA DE CORRELACIÓNLa gráfica para observar posiblecorrelación entre las variables Xy Y, se denomina: Gráfica dedispersión o Nube de puntos.
Esta se elabora mediante lospares coordenadas (X,Y).
En la gráfica se mostrarán lospuntos X,Y de la muestraanalizada. Si son 10 pares X,Y,entonces habrán 10 puntos enla gráfica.
12/04/2021 DRA. ELISA MENDOZA G. 8
Entre más alineados se
encuentren los puntos, mayor
será la correlación.
EjemploSuponga que tenemos las siguientes variables X:Área de construcción dela vivienda, Y:Precio de la vivienda; sobre el cual se desea calcular lacorrelación entre ellas.
12/04/2021 DRA. ELISA MENDOZA G. 9
i X Y
1 125 150
2 138 155
3 145 200
4 122 130
5 150 180
6 80 100
7 75 90
−−
−=
2222 )()()()(
))(()(
YYnXXn
YXXYnr
Se necesita calcular las siguientes sumatorias:
• Suma de XyY
• Suma de X
• Suma de Y
• Suma de X2
• Suma de Y2
EjemploResultados:
12/04/2021 DRA. ELISA MENDOZA G. 10
−−
−=
2222 )()()()(
))(()(
YYnXXn
YXXYnr
i X Y XY X2 Y2
1 125 150 18750 15625 22500
2 138 155 21390 19044 24025
3 145 200 29000 21025 40000
4 122 130 15860 14884 16900
5 150 180 27000 22500 32400
6 80 100 8000 6400 10000
7 75 90 6750 5625 8100
835 1005 126750 105103 153925
Luego se reemplazan los datos en
la fórmula, n = 7, ya que son 7
pares coordenadas.
El coeficiente de correlación se
puede obtener en Excel, con la
función:
coef.de.correl(matriz1;matriz2),
o Utilizando Análisis de datos.
𝑟 =7(126750 −(835)(1005)
7(105103)− 835 2 7 153925 − 1005 2= 0.9434
El r = 0.9434, indica que el tamaño del área y el precio de la vivienda están
correlacionados en un 94.34% en sentido positivo (o directamente proporcional)
Ejemplo
12/04/2021 DRA. ELISA MENDOZA G. 11
CorregimientosVivienda
individualNúmero de
edificacionesPoblación
Alcalde Díaz 20 23 63,690
Ancón 17 20 50,567
Bella Vista 1 4 34,571
Betania 2 3 52,928
Chilibre 42 48 81,798
Ernesto Córdoba Campos 9 12 84,359
Juan Díaz 4 17 115,373
Las Cumbres 39 42 50,047
Las Mañanitas 18 25 63,090
Pacora 322 518 73,408
Parque Lefevre 1 2 41,911
Pedregal 31 38 57,753
Río Abajo - 3 29,734
San Felipe - 4 3,379
San Francisco - 2 50,899
San Martín 4 8 6,755
Tocumen 7 12 119,521
24 de Diciembre 118 124 103,253
Arnulfo Arias Madrid 7 8 36,502
Belisario Frías 2 2 50,812
José Domingo Espinar 1 3 55,811
Omar Torrijos 2 4 42,157
Rufina Alfaro 11 11 58,588
Un ejecutivo de mercadeo tiene la idea
que el número de viviendas individuales y
el número de edificaciones en general
nuevas que se construyen en los
corregimientos está relacionado con el
total de la población en dicho
corregimiento.
• Calcular el coeficiente de correlación
de Vivienda individual y Población.
• Calcular el coeficiente de correlación
de Número de edificaciones y
Población.
Fuente: Datos del INEC. Panamá, 2019.
Veamos con Excel el ejemplo
12/04/2021 DRA. ELISA MENDOZA G. 12
En el ejemplo, se utiliza la función coef.de.correl para calcular r, sin embargo,
también se puede utilizar análisis de datos. Para ello hay que colocar las dos
columnas de análisis juntas, una al lado de la otra.
Pruebas de hipótesisLa inferencia estadística, sobre el coeficiente de correlación de Pearson, plantea la hipótesis:
1. Ho. ρ = 0. La correlación es igual a cero “0”- “No hay correlación”
2. Ha. ρ ≠ 0. La correlación es diferente de cero “0”- “No hay correlación”
El estadístico de correlación ρ, tiene como error estándar:
12/04/2021 DRA. ELISA MENDOZA G. 13
ෞ𝑠𝑒 𝑟 =1 − 𝑟2
𝑛 − 2
El Estadístico t, se usa para contrastar la hipótesis nula:
𝑡 =𝑟 − 0
(1 − 𝑟2)/(𝑛 − 2)= 𝑟
𝑛 − 2
1 − 𝑟2
Ejemplo
X Y
2001 23
2002 25
2003 35
2004 48
2005 56
2006 54
2007 60
2008 62
2009 58
2010 49
2011 65
2012 68
2013 75
2014 85
2015 78
2016 90
12/04/2021 DRA. ELISA MENDOZA G. 14
𝑡 =𝑟 − 0
(1 − 𝑟2)/(𝑛 − 2)= 𝑟
𝑛 − 2
1 − 𝑟2
Correlación: r= 0.93361515
r2 0.87163726
t= 9.75017504
sign.t
0.00000013 0.05
En el ejemplo, los datos representa una serie temporal de las ventas en
miles de dólares mensual de un producto determinado. Se realiza una
análisis de correlación para observar si existe correlación del valor de
venta y el tiempo y si es así, observar también la tendencia.
El r = 0.9336, el coeficiente de determinación: R2 = 0.87 y el n=
16
Al calcular el estadístico t, éste resultó en 9.75. El valor de la
significancia estadística para 9.75 es de 0.00000013 (valor p), al
comparar con el nivel de significancia: alfa = 0.05, se observa que
el valor p es menor que alfa. Por lo tanto, se rechaza Ho, y se
concluye que hay correlación fuerte y positiva entre las ventas y el
tiempo. Que además la tendencia es positiva.
Análisis de Regresión Simple
DRA. ELISA MENDOZA G. 15
Análisis de Regresión
12/04/2021 DRA. ELISA MENDOZA G. 16
Las aplicaciones del Análisis de Regresión, son varias, por ejemplo,
en los negocios, en las ciencias naturales en la planificación de los
recursos humanos y del gasto, en todas las ciencias, generalmente, se
pueden expresar las relaciones funcionales entre dos o más variables.
Ejemplos de aplicación:
• Puede ser de interés, saber cuánto debe ser el precio de una vivienda
para un determinado área o tamaño de la vivienda.
• También cuánto puede ser el salario de una persona en función de
los años de experiencia laboral.
En estos ejemplos, se desea realizar un pronóstico.
Análisis de Regresión
El análisis de regresión, es una herramienta estadística poderosa yversátil, que permite expresar, a través de una función matemática,la relación entre dos o más variables.
En la relación de variables se considera la presencia de una variabledependiente en función de una (regresión simple) o más variablesindependientes (regresión múltiple).
Una función matemática de Y con respecto a X, es representada por:Y=f(x),
es decir, la ecuación matemática que representa en el planocartesiano la relación de dos variables.
12/04/2021 DRA. ELISA MENDOZA G. 17
Función matemáticaEjemplos de dos funciones matemáticas
12/04/2021 DRA. ELISA MENDOZA G. 18
xeY =bXaY +=
Función No Lineal Función Lineal
)(xfY =)(xfY =
Mediante las funciones matemáticas, se establece la relación matemática, de
una variable con respecto a otra(s)
Pueden ser de tipo
Objetivos de la Regresión
Los dos objetivos fundamentales que se realizan sobre variables
que están asociadas o correlacionadas, son:
1. Determinar el modelo matemático que permitirá pronosticar
el valor de la variable dependiente en función de la variable
independiente.
2. Evaluar la bondad de ajuste del modelo, en cuanto a su
coeficiente de determinación y la prueba de significación del
modelo.
12/04/2021 DRA. ELISA MENDOZA G. 19
Pasos para el análisis de Regresión
Para realizar el análisis, también se debe tener claro que el análisis relacionavariables cuantitativas, en al menos escala de intervalo.
1. Elaborar una gráfica de relación entre las variables o Diagrama de Dispersión,para determinar el tipo de relación (lineal o no lineal).
2. Calcular los valores de los coeficientes del modelo.
3. Validar el modelo mediante la obtención de los coeficientes de bondad deajustes: Coeficiente de correlación de Pearson (R), y Coeficiente deDeterminación (R2).
4. Realizar el Análisis de Varianza y contrastes de hipótesis sobre loscoeficientes del modelo, y sobre el coeficiente de correlación de Pearson.
12/04/2021 DRA. ELISA MENDOZA G. 20
12/04/2021 DRA. ELISA MENDOZA G. 21
Diagrama de Dispersión
El Diagrama de Dispersión,
también es llamada Nube de Puntos.
El Diagrama de Dispersión, es la
representación gráfica de los puntos
o pares ordenados (x,y) en el plano
cartesiano.
El par (X, Y), es el punto coordenada
de dos variables de estudio. Un
punto coordenada, será por ejemplo,
dos mediciones (X y Y). Supóngase
que un punto coordenada es 125 lbs
(peso) y 1.60 mt. (estatura) el punto
coordenada, se representa por:
(1.60, 125 lbs).
Aplicaciones con Excel
12/04/2021 DRA. ELISA MENDOZA G. 22
El diagrama de dispersión se puede elaborar fácilmente utilizando Gráficas de Excel.
Seleccione la opción XY dispersión. Antes debe haber seleccionado sus datos en el mismo
orden. Observe la ilustración.
Tiempo de
estudio (hr)
Tiempo de
Tarea (min)
2,1 33,00
2,1 35
2,15 30
3,1 23
3,6 21
4 17
2,6 25
2,5 27
3,2 22
Un método gráfico es muy útil
para elaborar el diagrama de
dispersión.
Diagrama de DispersiónEn el análisis de regresión, mediante Excel, se pueden obtener rápidamenteel Coeficiente de Determinación R2 y la Ecuación de Regresión.
12/04/2021 DRA. ELISA MENDOZA G. 23
Una vez completado el cuadro de diálogo, aparecerá en la gráfica la ecuación y el
R2 que se explicará más adelante.
1. Activar herramienta de gráficos.
2. Seleccionar Diseño rápido.
3. Seleccionar el Diseño 9.
Modelo de RegresiónLa ecuación de una gráfica o modelo de regresión para la “Regresión Lineal Simple”, es:
12/04/2021 DRA. ELISA MENDOZA G. 24
𝑌 = መ𝛽0 + መ𝛽1𝑋 + 𝜀
Donde:
Y = variable dependiente
X= variable independiente (regresora o explicativa)
መ𝛽0 = coeficiente de intersección. Es el valor donde la recta corta el eje de Y.
መ𝛽1 = coeficiente de pendiente. Es la pendiente de la recta.
ε = error
Cálculo de los Coeficientes
La ecuación de regresión es estimada a partir de los datos de unamuestra.
Para determinar la ecuación de regresión lineal, hay que despejarlos coeficientes estimados a y b.
La fórmula de estos coeficientes son obtenidas por métodosmatemáticos y estadísticos denominados “Mínimos Cuadrados”.
12/04/2021 DRA. ELISA MENDOZA G. 25
መ𝛽1 =𝑛σ𝑋𝑌 − σ𝑋 . σ𝑌
𝑛σ𝑋2 − σ𝑋 2=
σ𝑋𝑌 − 𝑛 ሜ𝑋 ሜ𝑌
σ𝑋2 − 𝑛 ሜ𝑋2
መ𝛽0 =σ𝑌
𝑛− መ𝛽1
σ𝑋
𝑛= ሜ𝑌 − መ𝛽1 ሜ𝑋
Ejemplo
12/04/2021 DRA. ELISA MENDOZA G. 26
መ𝛽1 =σ𝑋𝑌 − 𝑛 ሜ𝑋 ሜ𝑌
σ𝑋2 − 𝑛 ሜ𝑋2
=481 − 5(4)(20.8)
90 − 5(4)2
=65
10= 6.5
X Y XY x2
2 6 12 4
3 15 45 9
4 23 92 16
5 28 140 25
6 32 192 36
Suma 20 104 481 90
Media 4 20.8
Cálculos
Considere los siguientes datos:
መ𝛽0 = ሜ𝑌 − 𝑏 ሜ𝑋
መ𝛽0 = 20.8 − 6.5 ∗ 4= −5.2
Dado que la media de Y es 20.8 y la
media de X es 4 y el coeficiente
pendiente es positivo (6.5). Se
reemplazan los valores en la ecuación.
La ecuación de regresión o Modelo de
Regresión, se expresa así:
Y = -5,2 + 6,5 X + error
Ecuación de regresión
12/04/2021 DRA. ELISA MENDOZA G. 27
++−= XY 5.62.5ˆLos coeficientes de regresión indican que:
Coeficiente “ መ𝛽0”
•Para un X = 0, Y será igual a –5.2 (pérdida o decrecimiento de Y).
Coeficiente “ መ𝛽1”
•Si X crece en una unidad, entonces Y aumentará 6.5 veces más.
Utilizando Gráfica de Excel, recuerde que puede incluir la ecuación
correspondiente a sus datos.
Coeficiente de determinación: R2
12/04/2021 DRA. ELISA MENDOZA G. 28
El coeficiente de determinación, indica la proporción de la
variación de Y que es explicada por X. En términos porcentuales,
entre más se acerca la proporción de explicación a 100%, mejor es
la explicación que le da X a la variación de Y. Esto permitirá una
ajuste perfecto y mejores predicciones estadísticas.
Coeficiente de determinación: R2
12/04/2021 DRA. ELISA MENDOZA G. 29
Fórmula: 22 )(rR =El coeficiente de determinación se expresa como R2, y se interpreta como:
R2 tiende a Cero (0), indica poca o ninguna explicación de la variabilidad de X
sobre Y, o lo que es lo mismo,
R2 tiende a Uno (1), indica buena proporción de explicación de X sobre Y.
Estos valores se pueden expresar en términos porcentuales multiplicándolos por
100.
Igualmente que en el coeficiente de correlación, se espera que R2 sea de moderado
a alto.
A los coeficientes: r y R2, se les conoce como coeficientes de Bondad de Ajuste.
Representación gráfica de la Regresión
12/04/2021 DRA. ELISA MENDOZA G. 30
𝑌 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎 𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠 𝑎 𝑝𝑎𝑟𝑡𝑖𝑟 𝑑𝑒𝑙𝑚𝑜𝑑𝑒𝑙𝑜 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑐𝑜𝑛𝑙𝑜𝑠 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜𝑠
𝑑𝑒 𝑌.
Pruebas de hipótesis, ...
Para verificar si en el modelo la variable independiente X, estáasociada en buena medida con Y, se realiza la siguiente prueba dehipótesis:
◦ Ho: መ𝛽1 = 0 “La pendiente de la recta es igual a Cero”
◦ Ha: መ𝛽1 ≠ 0 “La pendiente de la recta es distinta de Cero”
Para verificar esto se utiliza generalmente, un nivel designificancia del 5%, o lo que es lo mismo un nivel de confianzadel 95%, aunque el investigador puede usar otros niveles.
12/04/2021 DRA. ELISA MENDOZA G. 31
Pruebas de hipótesis, ...
Los programas de computadoras, presentan entre susresultados finales, el valor p. Para tomar la decisión secompara con el nivel de significancia establecido en elanálisis:◦ Si p > 0.05 no se puede rechazar Ho, es decir, el modelo tiene
pendiente igual a cero, por lo tanto el modelo de regresión noes adecuado para pronóstico, esto quiere decir, además queno hay correlación entre las variables.
◦ Si p <= 0.05, No se puede aceptar Ho, es decir el modelo deregresión es adecuado para pronóstico, ya que la pendientees distinta de cero, existe asociación entre X, Y.
12/04/2021 DRA. ELISA MENDOZA G. 32
Aplicación utilizando Excel
Excel, cuenta con otra herramienta útil para realizar el Análisis deRegresión, se trata de: Análisis de Datos. Esta herramienta, además deldiagrama de dispersión proporciona otros datos que permiten evaluar labondad de ajuste del modelo de regresión.
12/04/2021 DRA. ELISA MENDOZA G. 33
Utilizando Análisis de datos en Excel, se selecciona Regresión. Luego se debe completar
los rangos de entrada. Marque la casilla de “Curva de regresión ajustada”.
Esta opción
aparece en el Menú Datos.
Aplicación utilizando Excel
En Regresión, se despliega el cuadro de diálogo para completar con losdatos de X y de Y.
12/04/2021 DRA. ELISA MENDOZA G. 34
La casilla de Rótulo, se marca si al elegir el Rango de X y el Rango de datos de Y, incluyó el título de
la variable. Las opciones de salida – para los resultados- son tres; se elige la que más guste.
Ejemplo
Datos: Utilizando la HerramientaRegresión de Análisis de Datos
12/04/2021 DRA. ELISA MENDOZA G. 35
Datos: Utilizando la Herramienta Regresión de Análisis de Datos
12/04/2021 DRA. ELISA MENDOZA G. 36
Datos de:
Coeficiente de Correlación y de
Determinación, además del
error típico para estos datos.
Estos datos permite determinar si el
modelo de regresión es bueno utilizarlo
para pronosticar. ¿Cómo decido esto?.
Observe la última columna, “Valor crítico
de F”. Si este valor es menor que 0.05,
puede aceptar la hipótesis de que el
modelo es útil o bueno (Existe una buena
relación lineal entre X y Y”.
Estos datos nos dan los coeficientes de
la ecuación: Observe que –5.2 es el
valor de “a”, y 6.5 el valor de “b”.
Reemplazando estos datos en la
ecuación general, se obtiene el modelo
para estos datos: Así Y=-5.2+6.5 X.
Estos, muestran el pronóstico para cada valor de
X (2, 3, 4, 5 y 6) Haga los cálculos manuales para
verificar esto. Reemplace en la ecuación cada
valor en X.
Correlación y Regresión Múltiple
12/04/2021 DRA. ELISA MENDOZA G. 37
Modelo lineal múltipleEl modelo de regresión múltiple estudian la relación entre:
◦ Una variable de interés Y (variable respuesta o dependiente) y
◦ Un conjunto de variables explicativas o regresores X1, X2, …, Xp
La ecuación del modelo lineal múltiple se expresa de la siguiente manera:
𝑌 = 𝛽0 + 𝛽1𝑋1 + 𝛽2𝑋2+…+ 𝛽𝑝𝑋𝑝 + 𝜀
Los supuestos en el modelo lineal múltiple, son:
◦ Las variables explicativas son linealmente independientes entre sí.
◦ Los errores tienen distribución normal de media cero y varianza 𝜎2, y sonlinealmente independientes.
◦ Indicadores de Bondad de ajuste:
◦ El coeficiente de determinación R2, siempre aumenta si aumenta el número devariables regresoras, por ello, es conveniente, analizar el R2 ajustado.
12/04/2021 DRA. ELISA MENDOZA G. 38
Coeficiente de Correlación de SpearmanVARIABLES ALEATORIAS CUANTITATIVAS DISCRETAS
4/12/2021 DRA. ELISA MENDOZA G. 39
Correlación de Spearman
El coeficiente de correlación de Spearman es una medida no paramétrica que correlaciona dos variables cuantitativas al menos discretas o de rangos (de intervalo o de escalas numéricas).
La correlación rho () se calcula como:
12/04/2021 DRA. ELISA MENDOZA G. 40
Donde: D, representa la diferencia entre los rangos de las variables en el par (X, Y), y n es el
número de pares en la muestra.
El coeficiente de correlación de Spearman se interpreta de la misma manera que el coeficiente de
la correlación de Pearson, ya que toma valores entre -1 y +1. Entre más cercano esté el valor de
rho a 1 ó a -1, más fuerte será la correlación; por el contrario si se acerca a cero, la correlación es
débil o nula.
Para los datos de peso y talla de 9individuos, calcule el coeficiente decorrelación de Spearman.
12/04/2021 DRA. ELISA MENDOZA G. 41
Peso Talla
142.0 175.6
112.2 158.3
210.0 172.4
120.0 152.9
136.0 161.0
134.0 166.5
106.0 162.5
192.0 182.6
166.0 166.5
RANGOS D: DiferenciasPESO TALLA D D2
6 8 -2 42 2 0 09 7 2 43 1 2 45 3 2 44 5.5 -1.5 2.251 4 -3 98 9 -1 17 5.5 1.5 2.25
Suma 30.5
𝜌 = 1 −6 ∗ 30.5
9 92 − 1𝜌 = 1 −0.254
𝜌 = 0.745
La correlación entre peso
y talla es de moderada a
fuerte, con un valor de
74.5%.
EJEMPLO:
Si n<30 se utiliza la distribución específica de rs para la comprobación de hipótesis, al
contrario si n 30, se aproxima a la distribución Z, mediante la estadística 𝑍 = 𝑠 𝑛 − 1