Download - REGRESIÓN Y CORRELACIÓN REBE

Transcript

INTRODUCCIÓN

Regresión es una palabra un tanto rara. La utilizan los

biólogos, los médicos, los psicólogos... y suena como "ir

hacia atrás", "volver al pasado", y realmente este es

verdadero significado del vocablo.

Fue un biólogo y estadístico inglés, SIR FRANCIS GALTON,

quien introdujo en1889 el término regresión en Estadística.

Empleó este concepto para indicar la relación que existía

entre la estatura de los niños de una muestra y la estatura

de su padre.

Observó, que si los padres son altos, los hijos

generalmente también lo son, y si los padres son bajos los

hijos son también de menor estatura. Pero ocurría un

hecho curioso: cuando el padre es muy alto o muy bajo,

aparece una perceptible "regresión" hacia la estatura

media de la población, de modo que sus hijos retroceden

hacia la media de la que sus padres, por cierto, están muy

alejados. Hoy día, el término no se utiliza en ese sentido.

En muchas ocasiones, se desea conocer algo acerca de la

relación o dependencia entre dos características

cuantitativas, o másde una, consideradas sobre la misma

población objeto de estudio (por ejemplo la talla y el peso).

Hay muchos casos en los que ya de antemano se

"sospecha" que puede existir algún tipo de relación, y por

consiguiente, se pretende saber por ejemplo, en el caso de

que tengamos únicamente dos variables:

1.- Si ambas variables están realmente relacionadas entre

sí o si, por el contrario, pueden considerarse

independientes.

2.- Si existe dependencia, es necesario conocer el "grado

de relación", así como el "tipo" de relación entre ambas.

3.- Si puede predecirse la variable que es considerada

como dependiente a partir de los valores de la otra, que es

considerada independiente, y si es así, con qué precisión.

De modo general, diremos que existe regresión de los valores de una variable con respecto a los de otra, cuando hay alguna línea, llamada línea de regresión que se ajusta más o menos claramente a la nube de puntos. Si existe regresión, a la ecuación que nos describe la relación entre las dos variables la denominamos ecuación de regresión.

Por ejemplo: Y=a+bX

Y=a+bX+cX2

En general, la variable X se conoce como variable independiente, y la Y como variable dependiente.

Evidentemente puede ser arbitrario el determinar la existencia de regresión así como el tipo de la misma, ya que depende del autor o del estado de ánimo de la persona en un momento determinado.

Por lo tanto, se hacen necesarios métodos estadísticos objetivos, independientes del investigador, para determinar la existencia o no de relación y el tipo de la misma.

Si las dos variables X e Y se relacionan según un modelo de

línea recta, hablaremos de Regresión Lineal Simple: Y=a+bx.

Cuando las variables X e Y se relacionan según una línea curva,

hablaremos de Regresión no lineal o curvilínea. Aquí podemos

distinguir entre Regresión parabólica, Exponencial, Potencial, etc.

Cuando tenemos más de una variable independiente (X1, X2,...,

Xp), y una sola variable dependiente Y, hablaremos de Regresión

múltiple.

FUNCIÓN EXPONENCIAL, POTENCIAL Y LOGARÍTMICA

El problema de ajustar un modelo potencial, de la forma Y=AXb y

uno exponencial Y=ABX se reduce al de la función lineal, con solo

tomar logaritmos.

Modelo potencial:

Si tomamos logaritmos en la expresión de la función potencial,

obtendremos:

logY = logA +b logX

Como vemos es la ecuación de una recta: Y=a+bX, donde ahora

a = logA. De modo que el problema es sencillo, basta con

transformar Y en logY y X en logX y ajustar una recta a los

valores transformados. El parámetro b del modelo potencial

coincide con el coeficiente de regresión de la recta ajustada a los

datos transformados, y a lo obtenemos mediante el antilog(a).

Modelo exponencial:

Tomando logaritmos en la expresión de la función exponencial,

obtendremos:

logY = logA + logB X

También se trata de la ecuación de una recta Y=a+bX, pero ahora

ajustándola a logY y a X; de modo que, para obtener el parámetro

A del modelo exponencial, basta con hacer antilog(a), y el

parámetro B se obtiene tomando antilog(b).

Modelo logarítmico:

La curva logarítmica Y = a + b logX es también una recta, pero en

lugar de estar referida a las variables originales X e Y, está referida

a logX y a Y. Hemos visto, cómo, a pesar de ser inicialmente

modelos mucho más complejos que el de una recta, estos tres

últimos se reducen al modelo lineal sin más que transformar

adecuadamente los datos de partida.

Coeficiente de correlación de Pearson

En estadística, el coeficiente de correlación de Pearson es un

índice que mide la relación lineal entre dos variables

aleatorias cuantitativas . A diferencia de la covarianza, la

correlación de Pearson es independiente de la escala de medida de

las variables.

De manera menos formal, podemos definir el coeficiente de

correlación de Pearson como un índice que puede utilizarse para

medir el grado de relación de dos variables siempre y cuando

ambas sean cuantitativas.

Definición

En el caso de que se esté estudiando dos variables

aleatorias x e y sobre una población estadística; el coeficiente de

correlación de Pearson se simboliza con la letra , siendo la

expresión que nos permite calcularlo:

Donde:

es la covarianza de

es la desviación típica de la variable

De manera análoga podemos calcular este coeficiente sobre

un estadístico muestral, denotado como a:

Interpretación

El valor del índice de correlación varía en el intervalo [-1,1]:

Si r = 1, existe una correlación positiva perfecta. El índice

indica una dependencia total entre las dos variables

denominada relación directa: cuando una de ellas

aumenta, la otra también lo hace en proporción

constante.

Si 0 < r < 1, existe una correlación positiva.

Si r = 0, no existe relación lineal. Pero esto no

necesariamente implica que las variables

son independientes: pueden existir todavía relaciones no

lineales entre las dos variables.

Si -1 < r < 0, existe una correlación negativa.

Si r = -1, existe una correlación negativa perfecta. El

índice indica una dependencia total entre las dos variables

llamada relación inversa: cuando una de ellas aumenta, la

otra disminuye en proporción constante.

EJEMPLO DEL CALCULO DELCOEFICIENTE

DECORRELACIÓN DE PEARSON PARA

DATOS AGRUPADOS.

Con los siguientes datos sobre los Coeficientes Intelectuales (X) y de las calificaciones en una prueba de conocimiento (Y) de 50 estudiantes:

N° de estudiant

eX Y

N° de estudiant

eX Y

1 76 28 26 88 40

2 77 24 27 88 31

3 78 18 28 88 35

4 79 41 29 88 26

5 79 43 30 89 30

6 80 45 31 89 24

7 80 34 32 90 18

8 80 18 33 90 11

9 82 40 34 90 15

10 82 35 35 91 38

11 83 30 36 92 34

12 83 21 37 92 31

13 83 22 38 93 33

14 83 23 39 93 35

15 84 25 40 93 24

16 84 11 41 94 40

17 84 15 42 96 35

18 85 31 43 97 36

19 85 35 44 98 40

20 86 26 45 99 33

21 86 30 46 100 51

22 86 24 47 101 54

23 86 16 48 101 55

24 87 20 49 102 41

25 88 36 50 102 45

1) Elaborar una tabla de dos variables

2) Calcular el coeficiente de correlación

Solución:

1) En la tabla de frecuencias de dos variables, cada recuadro de

esta tabla se llama una celda y corresponde a un par de intervalos,

y el número indicado en cada celda se llama frecuencia de celda.

Todos los totales indicados en la última fila y en la última columna

se llaman totales marginales o frecuencias marginales, y

corresponden, respectivamente, a las frecuencias de intervalo de

las distribuciones de frecuencia separadas de la variable X y Y.

Para elaborar la tabla se recomienda:

- Agrupar las variables X y Y en un igual número de intervalos.

- Los intervalos de la variable X se ubican en la parte superior de

manera horizontal (fila) y en orden ascendente.

- Los intervalos de la variable Y se ubican en la parte izquierda de

manera vertical (columna) y en orden descendente.

Para elaborar los intervalos se procede a realizar los cálculos

respectivos:

En la variable X:

Calculando el Rango se obtiene:

Calculando el número de intervalos se obtiene:

Calculando el ancho se obtiene:

En la variable Y:

Calculando el Rango se obtiene:

Calculando el número de intervalos se obtiene:

Calculando el ancho se obtiene:

Nota: Para la variable X se tomará un ancho de intervalo igual a 5

y para la variable Y un ancho de intervalo igual a 8 para obtener un

número de intervalos igual a 6 para cada variable.

Contando las frecuencias de celda para cada par de intervalos de

las variables X y Y se obtiene la siguiente tabla de frecuencias de

dos variables:

Interpretación:

- El número 5 es la frecuencia de la celda correspondiente al par

de intervalos 86-90 en Coeficiente Intelectual y 19-26 en

Calificación obtenida en la prueba de conocimiento.

- El número 8 en la fila de fx es el total marginal o frecuencia

marginal del intervalo 76-80 en Coeficiente Intelectual.

- El número 14 en la columna de fy es el total marginal o

frecuencia marginal del intervalo 35-42 en Calificación obtenida

en la prueba de conocimiento.

- El número 50 es total de frecuencias marginales y representa

al número total de estudiantes.

2) Realizando los cálculos respectivos se obtiene la siguiente

tabla:

Nota:

Los números de las esquinas de cada celda en la anterior tabla

representan el producto f·dx·dy, así por ejemplo, para obtener

el número el número -8 de los intervalos 76-80 en X y 43-50 en Y

se obtiene multiplicando 2·(-2)·(2) = -8. Para obtener el número

6 de los intervalos 96-100 en X y 51-58 en Y se obtiene

multiplicando 1·2·3 = 6.

Los números de la última columna (24, -2, 7, 0, 5 y 12) se

obtienen sumando los números de las esquinas en cada fila, así

por ejemplo, para obtener el número 24 se suma 6 + 18 = 24.

Los números de la última fila (0, 5, 0, 2, 12 y 27) se obtienen

sumando los números de las esquinas en cada columna, así por

ejemplo, para obtener el número 27 se suma 18 + 6 + 3 = 27.

http://www.monografias.com/trabajos12/elproduc/elproduc.shtml

Para obtener el número 2 de la antepenúlmina columna se

obtiene sumando los resultados de fy·dy, es decir, representa

la ? fy·dy

Para obtener el número 2 de la antepenúlmina fila se obtiene

sumando los resultados de fx·dx, es decir, representa la ? fy·dy

Para obtener el número 96 de la penúltima columna se obtiene

sumando los resultados de fy·dy2, es decir, representa ? fy·dy2

Para obtener el número 106 de la penúltima fila se obtiene

sumando los resultados de fx·dx2, es decir, representa ? fx·dx2

Para obtener último número de la última columna se obtiene

sumando los resultados de la última columna (46=24-

2+7+0+5+12), es decir, representa ?f·dx·dy.

Para obtener último número de la última fila se obtiene

sumando los resultados de la última fila (46=0+5+0+2+12+27),

y tiene que ser igual al último número de la última columna

como comprobación que los cálculos de la tabla han sido

correctos.

Observando los datos en la tabla anterior se reemplaza los

valores en la ecuación del Coeficiente de Correlación de Pearson

para datos agrupados se obtiene:

http://www.monografias.com/trabajos14/nuevmicro/nuevmicro.shtml

Existe una correlación positiva moderada R//

1. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos.

A) Hallar la ecuación de la recta de regresión de la edad sobre el peso.

B) ¿Cuál sería el peso aproximado de un niño de seis años?

2. Un centro comercial sabe en función de la distancia, en kilómetros, a la que se sitúe de un núcleo de población, acuden los clientes, en cientos, que figuran en la tabla:

Nº de clientes (X) 8 7 6 4 2 1

Distancia (Y) 15 19 25 23 34 40

A) Calcular el coeficiente de correlación lineal .

B) Si el centro comercial se sitúa a 2 km, ¿cuántos clientes puede esperar?

C) Si desea recibir a 500 clientes, ¿a qué distancia del núcleo de población debe situarse?

3. Las notas obtenidas por cinco alumnos en Matemáticas y Química son:

Matemáticas 6 4 8 5 3. 5

Química 6. 5 4. 5 7 5 4

Determinar las rectas de regresión y calcular la nota esperada en Química para un alumno que tiene 7.5 en Matemáticas.

4. Un conjunto de datos bidimensionales (X, Y) tiene coeficiente de correlación r = −0.9, siendo las

medias de las distribuciones marginales = 1, = 2. Se sabe que una de las cuatro ecuaciones siguientes corresponde a la recta de regresión de Y sobre X:

y = -x + 2 3x - y = 1 2x + y = 4 y = x + 1

Seleccionar razonadamente esta recta.

5. Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Calcular:

A) La recta de regresión de Y sobre X.

B) El coeficiente de correlación .

C) El peso estimado de un jugador que mide 208 cm.

6. A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y a unidades producidas (Y),

Estatura (X) 186 189 190 192 193 193 198 201 203 205

Pesos (Y) 85 85 86 90 87 91 93 103 100 101

determinar la recta de regresión de Y sobre X, el coeficiente de correlación lineal e interpretarlo.

Horas (X) 80 79 83 84 78 60 82 85 79 84 80 62

Producción (Y)

300 302 315 330 300 250 300 340 315 330 310 240

7. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la siente tabla:

Nº de horas dormidas (X) 6 7 8 9 10

Nº de horas de televisión (Y) 4 3 3 2 1

Frecuencias absolutas (f i) 3 16 20 10 1

Se pide:

A) Calcular el coeficiente de correlación .

B) Determinar la ecuación de la recta de regresión de Y sobre X.

C) Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que vea la televisión?

8. La tabla siguiente nos da las notas del test de aptitud (X) dadas a seis dependientes a prueba y ventas del primer mes de prueba (Y) en cientos de euros.

X 25 42 33 54 29 36