INTRODUCCIÓN
Regresión es una palabra un tanto rara. La utilizan los
biólogos, los médicos, los psicólogos... y suena como "ir
hacia atrás", "volver al pasado", y realmente este es
verdadero significado del vocablo.
Fue un biólogo y estadístico inglés, SIR FRANCIS GALTON,
quien introdujo en1889 el término regresión en Estadística.
Empleó este concepto para indicar la relación que existía
entre la estatura de los niños de una muestra y la estatura
de su padre.
Observó, que si los padres son altos, los hijos
generalmente también lo son, y si los padres son bajos los
hijos son también de menor estatura. Pero ocurría un
hecho curioso: cuando el padre es muy alto o muy bajo,
aparece una perceptible "regresión" hacia la estatura
media de la población, de modo que sus hijos retroceden
hacia la media de la que sus padres, por cierto, están muy
alejados. Hoy día, el término no se utiliza en ese sentido.
En muchas ocasiones, se desea conocer algo acerca de la
relación o dependencia entre dos características
cuantitativas, o másde una, consideradas sobre la misma
población objeto de estudio (por ejemplo la talla y el peso).
Hay muchos casos en los que ya de antemano se
"sospecha" que puede existir algún tipo de relación, y por
consiguiente, se pretende saber por ejemplo, en el caso de
que tengamos únicamente dos variables:
1.- Si ambas variables están realmente relacionadas entre
sí o si, por el contrario, pueden considerarse
independientes.
2.- Si existe dependencia, es necesario conocer el "grado
de relación", así como el "tipo" de relación entre ambas.
3.- Si puede predecirse la variable que es considerada
como dependiente a partir de los valores de la otra, que es
considerada independiente, y si es así, con qué precisión.
De modo general, diremos que existe regresión de los valores de una variable con respecto a los de otra, cuando hay alguna línea, llamada línea de regresión que se ajusta más o menos claramente a la nube de puntos. Si existe regresión, a la ecuación que nos describe la relación entre las dos variables la denominamos ecuación de regresión.
Por ejemplo: Y=a+bX
Y=a+bX+cX2
En general, la variable X se conoce como variable independiente, y la Y como variable dependiente.
Evidentemente puede ser arbitrario el determinar la existencia de regresión así como el tipo de la misma, ya que depende del autor o del estado de ánimo de la persona en un momento determinado.
Por lo tanto, se hacen necesarios métodos estadísticos objetivos, independientes del investigador, para determinar la existencia o no de relación y el tipo de la misma.
Si las dos variables X e Y se relacionan según un modelo de
línea recta, hablaremos de Regresión Lineal Simple: Y=a+bx.
Cuando las variables X e Y se relacionan según una línea curva,
hablaremos de Regresión no lineal o curvilínea. Aquí podemos
distinguir entre Regresión parabólica, Exponencial, Potencial, etc.
Cuando tenemos más de una variable independiente (X1, X2,...,
Xp), y una sola variable dependiente Y, hablaremos de Regresión
múltiple.
FUNCIÓN EXPONENCIAL, POTENCIAL Y LOGARÍTMICA
El problema de ajustar un modelo potencial, de la forma Y=AXb y
uno exponencial Y=ABX se reduce al de la función lineal, con solo
tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresión de la función potencial,
obtendremos:
logY = logA +b logX
Como vemos es la ecuación de una recta: Y=a+bX, donde ahora
a = logA. De modo que el problema es sencillo, basta con
transformar Y en logY y X en logX y ajustar una recta a los
valores transformados. El parámetro b del modelo potencial
coincide con el coeficiente de regresión de la recta ajustada a los
datos transformados, y a lo obtenemos mediante el antilog(a).
Modelo exponencial:
Tomando logaritmos en la expresión de la función exponencial,
obtendremos:
logY = logA + logB X
También se trata de la ecuación de una recta Y=a+bX, pero ahora
ajustándola a logY y a X; de modo que, para obtener el parámetro
A del modelo exponencial, basta con hacer antilog(a), y el
parámetro B se obtiene tomando antilog(b).
Modelo logarítmico:
La curva logarítmica Y = a + b logX es también una recta, pero en
lugar de estar referida a las variables originales X e Y, está referida
a logX y a Y. Hemos visto, cómo, a pesar de ser inicialmente
modelos mucho más complejos que el de una recta, estos tres
últimos se reducen al modelo lineal sin más que transformar
adecuadamente los datos de partida.
Coeficiente de correlación de Pearson
En estadística, el coeficiente de correlación de Pearson es un
índice que mide la relación lineal entre dos variables
aleatorias cuantitativas . A diferencia de la covarianza, la
correlación de Pearson es independiente de la escala de medida de
las variables.
De manera menos formal, podemos definir el coeficiente de
correlación de Pearson como un índice que puede utilizarse para
medir el grado de relación de dos variables siempre y cuando
ambas sean cuantitativas.
Definición
En el caso de que se esté estudiando dos variables
aleatorias x e y sobre una población estadística; el coeficiente de
correlación de Pearson se simboliza con la letra , siendo la
expresión que nos permite calcularlo:
Donde:
es la covarianza de
es la desviación típica de la variable
es la desviación típica de la variable
De manera análoga podemos calcular este coeficiente sobre
un estadístico muestral, denotado como a:
Interpretación
El valor del índice de correlación varía en el intervalo [-1,1]:
Si r = 1, existe una correlación positiva perfecta. El índice
indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción
constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no
necesariamente implica que las variables
son independientes: pueden existir todavía relaciones no
lineales entre las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El
índice indica una dependencia total entre las dos variables
llamada relación inversa: cuando una de ellas aumenta, la
otra disminuye en proporción constante.
EJEMPLO DEL CALCULO DELCOEFICIENTE
DECORRELACIÓN DE PEARSON PARA
DATOS AGRUPADOS.
Con los siguientes datos sobre los Coeficientes Intelectuales (X) y de las calificaciones en una prueba de conocimiento (Y) de 50 estudiantes:
N° de estudiant
eX Y
N° de estudiant
eX Y
1 76 28 26 88 40
2 77 24 27 88 31
3 78 18 28 88 35
4 79 41 29 88 26
5 79 43 30 89 30
6 80 45 31 89 24
7 80 34 32 90 18
8 80 18 33 90 11
9 82 40 34 90 15
10 82 35 35 91 38
11 83 30 36 92 34
12 83 21 37 92 31
13 83 22 38 93 33
14 83 23 39 93 35
15 84 25 40 93 24
16 84 11 41 94 40
17 84 15 42 96 35
18 85 31 43 97 36
19 85 35 44 98 40
20 86 26 45 99 33
21 86 30 46 100 51
22 86 24 47 101 54
23 86 16 48 101 55
24 87 20 49 102 41
25 88 36 50 102 45
1) Elaborar una tabla de dos variables
2) Calcular el coeficiente de correlación
Solución:
1) En la tabla de frecuencias de dos variables, cada recuadro de
esta tabla se llama una celda y corresponde a un par de intervalos,
y el número indicado en cada celda se llama frecuencia de celda.
Todos los totales indicados en la última fila y en la última columna
se llaman totales marginales o frecuencias marginales, y
corresponden, respectivamente, a las frecuencias de intervalo de
las distribuciones de frecuencia separadas de la variable X y Y.
Para elaborar la tabla se recomienda:
- Agrupar las variables X y Y en un igual número de intervalos.
- Los intervalos de la variable X se ubican en la parte superior de
manera horizontal (fila) y en orden ascendente.
- Los intervalos de la variable Y se ubican en la parte izquierda de
manera vertical (columna) y en orden descendente.
Para elaborar los intervalos se procede a realizar los cálculos
respectivos:
En la variable X:
Calculando el Rango se obtiene:
Calculando el número de intervalos se obtiene:
Calculando el ancho se obtiene:
En la variable Y:
Calculando el Rango se obtiene:
Calculando el número de intervalos se obtiene:
Calculando el ancho se obtiene:
Nota: Para la variable X se tomará un ancho de intervalo igual a 5
y para la variable Y un ancho de intervalo igual a 8 para obtener un
número de intervalos igual a 6 para cada variable.
Contando las frecuencias de celda para cada par de intervalos de
las variables X y Y se obtiene la siguiente tabla de frecuencias de
dos variables:
Interpretación:
- El número 5 es la frecuencia de la celda correspondiente al par
de intervalos 86-90 en Coeficiente Intelectual y 19-26 en
Calificación obtenida en la prueba de conocimiento.
- El número 8 en la fila de fx es el total marginal o frecuencia
marginal del intervalo 76-80 en Coeficiente Intelectual.
- El número 14 en la columna de fy es el total marginal o
frecuencia marginal del intervalo 35-42 en Calificación obtenida
en la prueba de conocimiento.
- El número 50 es total de frecuencias marginales y representa
al número total de estudiantes.
2) Realizando los cálculos respectivos se obtiene la siguiente
tabla:
Nota:
Los números de las esquinas de cada celda en la anterior tabla
representan el producto f·dx·dy, así por ejemplo, para obtener
el número el número -8 de los intervalos 76-80 en X y 43-50 en Y
se obtiene multiplicando 2·(-2)·(2) = -8. Para obtener el número
6 de los intervalos 96-100 en X y 51-58 en Y se obtiene
multiplicando 1·2·3 = 6.
Los números de la última columna (24, -2, 7, 0, 5 y 12) se
obtienen sumando los números de las esquinas en cada fila, así
por ejemplo, para obtener el número 24 se suma 6 + 18 = 24.
Los números de la última fila (0, 5, 0, 2, 12 y 27) se obtienen
sumando los números de las esquinas en cada columna, así por
ejemplo, para obtener el número 27 se suma 18 + 6 + 3 = 27.
Para obtener el número 2 de la antepenúlmina columna se
obtiene sumando los resultados de fy·dy, es decir, representa
la ? fy·dy
Para obtener el número 2 de la antepenúlmina fila se obtiene
sumando los resultados de fx·dx, es decir, representa la ? fy·dy
Para obtener el número 96 de la penúltima columna se obtiene
sumando los resultados de fy·dy2, es decir, representa ? fy·dy2
Para obtener el número 106 de la penúltima fila se obtiene
sumando los resultados de fx·dx2, es decir, representa ? fx·dx2
Para obtener último número de la última columna se obtiene
sumando los resultados de la última columna (46=24-
2+7+0+5+12), es decir, representa ?f·dx·dy.
Para obtener último número de la última fila se obtiene
sumando los resultados de la última fila (46=0+5+0+2+12+27),
y tiene que ser igual al último número de la última columna
como comprobación que los cálculos de la tabla han sido
correctos.
Observando los datos en la tabla anterior se reemplaza los
valores en la ecuación del Coeficiente de Correlación de Pearson
para datos agrupados se obtiene:
Existe una correlación positiva moderada R//
1. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.
A) Hallar la ecuación de la recta de regresión de la edad sobre el peso.
B) ¿Cuál sería el peso aproximado de un niño de seis años?
2. Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en la tabla:
Nº de clientes (X) 8 7 6 4 2 1
Distancia (Y) 15 19 25 23 34 40
A) Calcular el coeficiente de correlación lineal .
B) Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?
C) Si desea recibir a 500 clientes, ¿a qué distancia del núcleo de población debe situarse?
3. Las notas obtenidas por cinco alumnos en Matemáticas y Química son:
Matemáticas 6 4 8 5 3. 5
Química 6. 5 4. 5 7 5 4
Determinar las rectas de regresión y calcular la nota esperada en Química para un alumno que tiene 7.5 en Matemáticas.
4. Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de correlación r = −0.9, siendo las
medias de las distribuciones marginales = 1, = 2. Se sabe que una de las cuatro ecuaciones siguientes corresponde a la recta de regresión de Y sobre X:
y = -x + 2 3x - y = 1 2x + y = 4 y = x + 1
Seleccionar razonadamente esta recta.
5. Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Calcular:
A) La recta de regresión de Y sobre X.
B) El coeficiente de correlación .
C) El peso estimado de un jugador que mide 208 cm.
6. A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y),
Estatura (X) 186 189 190 192 193 193 198 201 203 205
Pesos (Y) 85 85 86 90 87 91 93 103 100 101
determinar la recta de regresión de Y sobre X, el coeficiente de correlación lineal e interpretarlo.
Horas (X) 80 79 83 84 78 60 82 85 79 84 80 62
Producción (Y)
300 302 315 330 300 250 300 340 315 330 310 240
7. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la siente tabla:
Nº de horas dormidas (X) 6 7 8 9 10
Nº de horas de televisión (Y) 4 3 3 2 1
Frecuencias absolutas (f i) 3 16 20 10 1
Se pide:
A) Calcular el coeficiente de correlación .
B) Determinar la ecuación de la recta de regresión de Y sobre X.
C) Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que vea la televisión?
8. La tabla siguiente nos da las notas del test de aptitud (X) dadas a seis dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de euros.
X 25 42 33 54 29 36
Y 42 72 50 90 45 48
A) Hallar el coeficiente de correlación e interpretar el resultado obtenido.
B) Calcular la recta de regresión de Y sobre X. Predecir las ventas de un vendedor que obtenga 47 en el test.
GRAFICAS DE REGRESIÓN Y CORRELACIÓN
http://recursostic.educacion.es
COEFICIENTE DE CORRELACIÓN
http://youtu.be/YV1Yp5tlLvo
http://youtu.be/sNprK2Zj4Uo
REGRESIÓN EXPONENCIAL
http://youtu.be/nGLFUX09dcI
ECUACIÓN DE REGRESIÓN
http://youtu.be/QOOweKPykEw
Top Related