Estadística II

25
Orlando Paredes Administración de Empresas UTPL | Estadística II | I Bim 1 UNIDAD 1 Responda correctamente a las siguientes preguntas a. ¿Qué indica el coeficiente de correlación?: Nos indica el grado de relación lineal que existe entre las variables que están siendo objeto de estudio, es un número que se encuentra entre -1 y 1. b. ¿Qué nos permite observar el análisis residual?: Nos permite observar que se cumplan los supuestos bajo los cuales hemos construido el modelo de regresión, es este caso del supuesto general de que la varianza del error es la misma para todos los valores x c. ¿Qué significa que el coeficiente de correlación tenga un valor cercano a 1?: Indica que las dos variables x y y están perfectamente relacionadas, en una relación lineal positiva, es decir, los puntos de todos los datos se encuentran en una línea recta que tiene pendiente positiva. ¿Un valor cercano a -1?:Indica que x y y están perfectamente relacionadas, en una relación lineal negativa, todos los datos se encuentran en una línea recta que tiene pendiente negativa. ¿Qué sea cercano a cero?: Indican que x y y no están relacionadas linealmente. Resuelva los siguientes ejercicios 1. En una agencia bancaria se registró el número de depósitos realizados y elmonto total de estas transacciones en una hora de trabajo, dando lossiguientes resultados. y Monto total (en miles de dólares) 10 5 7 19 11 8 X Número de depósitos 16 9 3 25 7 13 a. Obtenga la ecuación de regresión lineal simple que relaciona el monto total yel número de depósitos. b. Realice el gráfico de los datos junto con la recta estimada en literal a, y deuna interpretación al mismo.

description

Ensayo de Estadística

Transcript of Estadística II

Page 1: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 1

UNIDAD 1

Responda correctamente a las siguientes preguntas

a. ¿Qué indica el coeficiente de correlación?: Nos indica el grado de relación lineal

que existe entre las variables que están siendo objeto de estudio, es un número

que se encuentra entre -1 y 1.

b. ¿Qué nos permite observar el análisis residual?: Nos permite observar que se

cumplan los supuestos bajo los cuales hemos construido el modelo de regresión, es

este caso del supuesto general de que la varianza del error es la misma para todos

los valores x

c. ¿Qué significa que el coeficiente de correlación tenga un valor cercano a 1?:

Indica que las dos variables x y y están perfectamente relacionadas, en una

relación lineal positiva, es decir, los puntos de todos los datos se encuentran en

una línea recta que tiene pendiente positiva.

¿Un valor cercano a -1?:Indica que x y y están perfectamente relacionadas, en una

relación lineal negativa, todos los datos se encuentran en una línea recta que tiene

pendiente negativa.

¿Qué sea cercano a cero?: Indican que x y y no están relacionadas linealmente.

Resuelva los siguientes ejercicios

1. En una agencia bancaria se registró el número de depósitos realizados y elmonto

total de estas transacciones en una hora de trabajo, dando lossiguientes

resultados.

y Monto total (en miles de dólares) 10 5 7 19 11 8

X Número de depósitos 16 9 3 25 7 13

a. Obtenga la ecuación de regresión lineal simple que relaciona el monto total yel

número de depósitos.

b. Realice el gráfico de los datos junto con la recta estimada en literal a, y deuna

interpretación al mismo.

Page 2: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 2

DESARROLLO:

ŷ = b₀+ b₁x

Ecuación de regresión lineal simpleŷ = 3.85 + 0.51 X

(Xi-X) (Yi-Y)

(Xi-X)2

152.00

300.83

b1= 0.51

b1 =

b1 =

Obsevaciones Xi Yi Xi - X Yi - Y (Xi-X) (Yi-Y) (Xi-X)2

1 16 10 3.83 0.00 0.00 14.69

2 9 5 -3.17 -5.00 15.83 10.03

3 3 7 -9.17 -3.00 27.50 84.03

4 25 19 12.83 9.00 115.50 164.69

5 7 11 -5.17 1.00 -5.17 26.69

6 13 8 0.83 -2.00 -1.67 0.69

∑ 152.00 300.83

Media de X 12.17

Media de Y 10.00

bo = Y - b1 X

bo = 10.00 - b1 ( 12.17 )

bo = 10.00 - 0.51 ( 12.17 )

bo = 3.85

Page 3: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 3

R2 = SCR/SCT = 0.64

EXPLICACIÓN: La pendiente es positiva, lo que nos indica que a medida que aumenta el número de

depósitos aumenta el monto total, además, al obtener un coeficiente de determinación 0.64

podemos concluir que el 64% del Monto de ventas se explica por la relación lineal que existe entre

el número de depósitos.

2. Se realizó un experimento para indicar la velocidad del sonido en el aire a

diferentes temperaturas, obteniéndose los siguientes resultados.

y Velocidad del sonido m/s 322 335 337 346 352 365

X Temperatura en Co -13 0 9 20 33 50

a. Estime la ecuación de regresión que explica la relación de la velocidad del

sonido en términos de temperatura.

b. Realice el gráfico de los datos junto con la recta estimada en literal a, y dé una

interpretación al mismo.

c. Estime cual sería la velocidad del sonido cuya temperatura en Co es 30,

interprete el resultado

0

5

10

15

20

0 5 10 15 20 25 30

Mo

nto

To

tal

Número de Depósitos

Número de Depósitos vs Monto Total

Page 4: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 4

DESARROLLO:

ŷ = b₀+ b₁x

Ecuación de regresión lineal simpleŷ = 332.12 + 0.65X

Obsevaciones Xi Yi Xi - X Yi - Y (Xi-X) (Yi-Y) (Xi-X)2

1 -13 322 -29.50 -20.83 614.58 870.25

2 0 335 -16.50 -7.83 129.25 272.25

3 9 337 -7.50 -5.83 43.75 56.25

4 20 346 3.50 3.17 11.08 12.25

5 33 352 16.50 9.17 151.25 272.25

6 50 365 33.50 22.17 742.58 1122.25

∑ 1692.50 2605.50

Media de X 16.50

Media de Y 342.83

(Xi-X) (Yi-Y)

(Xi-X)2

1692.50

2605.50

b1= 0.65

b1 =

b1 =

bo = Y - b1 X

bo = 342.83 - b1 ( 16.50 )

bo = 342.83 - 0.65(16.50 )

bo = 332.12

310

320

330

340

350

360

370

-20 -10 0 10 20 30 40 50 60

Ve

loci

dad

de

l so

nid

o

Temperatura

Número de Depósitos vs Monto Total

Page 5: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 5

EXPLICACIÓN: La pendiente es positiva, lo que nos indica que a medida que aumenta la

temperatura, aumenta la velocidad del sonido, además, al obtener un coeficiente de

determinación 0.98 podemos concluir que el 98% de la velocidad se explica por la relación lineal

que existe entre la temperatura.

Estimación de la velocidad del sonido cuya temperatura en Co es 30.

ŷ = 332.12 + 0.65(30) = 351.60 m/s

Se puede observar en el experimento que a una temperatura de 33 grados C, la velocidad

del sonido es de 352, al estimar la velocidad a una temperatura de 30 grados C, existe una

disminución de la velocidad del sonido en 0.40m/s. debido a la baja de 3 grados C.

3. En un estudio sobre la relación entre dos variables se obtuvieron los siguientes

resultados.

Halle la ecuación de regresión lineal que ajusta los datos.

Page 6: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 6

Usaremos otra fórmula para calcular b1:

DESARROLLO.

=

b1 = = -7.053

b0 = Ῡ- b1 x

= Ῡ=

b0 = 2120 – (-7.053*108)

b0 = 2120 – (-761.724)

b0 = 763.844

ŷ = b₀+ b₁x1

ŷ = 763.844+ (-7.053x1)

ŷ = 763.844- 7.053x1

Page 7: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 7

4. Con los datos del ejercicio 2, calcule:

a. Las sumas cuadráticas de Regresión, Error y Total

SCE=SCT-SCR

SCE= 1114.83 – 1099.43

SCE= 15.41

b. Las Medias cuadráticas Regresión y Error

MCR =

= 1099.43

MCE =

= 3.85

c. El coeficiente de determinación R2 = SCR/ SCT

= 1099.43/1114.83

= 0.986

SCT= SCR= SCE=

Obsevaciones Xi Yi (Yi - Y)2 ŷi (ŷi-Y)2 (Yi-ŷi)2

1 -13 322 434.03 323.67 367.21 2.79

2 0 335 61.36 332.12 114.88 8.32

3 9 337 34.03 337.96 23.74 0.92

4 20 346 10.03 345.11 5.17 0.80

5 33 352 84.03 353.55 114.88 2.41

6 50 365 491.36 364.59 473.55 0.16

SCT= SCR= SCE=

∑ 1114.83 1099.43 15.41

15.41Media de X 16.50

Media de Y 342.83

Page 8: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 8

5. Con los datos del ejercicio 2, construya la tabla de Análisis de VarianzaANOVA

Fuentes de

Variación

Grados de libertad

Suma de cuadrados

Medias Cuadráticas

Estadístico de Prueba F

Valor p

Regresión 1 1099.43 1099.43 285.44 0.00 Error 4 15.41 3.85 Total 5 1114.83

6. Utilice la tabla ANOVA del ejercicio anterior utilícelo para construir un contraste

de hipótesis que postule que el valor de la pendiente de la RectaRegresión es

cero, utilice α= 0.01.

H0: β1 = 0

H1: β1 ≠ 0

Se rechaza la hipótesis nula si , en la tabla de distribución F

(tabla 4 del apéndice B) se observa que con un grado de libertad en el numerador

(p-1) y 4 grados de libertad en el denominador (n-p), F=21.20 proporciona un área

de 0.01 en la cola superior, debido a que el estadístico de prueba es mayor que el

percentil (1-α)*100 de la distribución F de Fisher, entonces existe evidencia

estadística para rechazar H0que postula que β1 =0, a favor de H1 que postula que ≠

0, usando Excel el valor-p = 0.0000719513370688822

Page 9: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 9

7. Los datos que se presentan a continuación corresponden a la medición dela

frecuencia cardiaca en reposo de varios individuos y su peso en kg.

yFrecuencia 62 45 40 55 64 53

X Peso (Kg) 90 86 67 98 81 75

a. Estime la ecuación de regresión que explica la frecuencia cardiaca en términos del peso.

b. Si una persona pesará 60 Kg, ¿Cuál es la frecuencia cardiaca de estapersona?

DESARROLLO:

ŷ = b₀+ b₁x

ŷ = 18.34 + 0.42(60) = 43.57

Si una persona pesara 60Kg, su frecuencia cardíaca sería 43.57

Obsevaciones Xi Yi Xi - X Yi - Y (Xi-X) (Yi-Y) (Xi-X)2

1 90 62 7.17 8.83 63.31 51.36

2 86 45 3.17 -8.17 -25.86 10.03

3 67 40 -15.83 -13.17 208.47 250.69

4 98 55 15.17 1.83 27.81 230.03

5 81 64 -1.83 10.83 -19.86 3.36

6 75 53 -7.83 -0.17 1.31 61.36

∑ 255.17 606.83

Media de X 82.83

Media de Y 53.17

(Xi-X) (Yi-Y)

(Xi-X)2

255.17

606.83

b1= 0.42

b1 =

b1 =

bo = Y - b1 X

bo = 53.17 - b1 ( 82.83 )

bo = 53.17 - 0.42(82.83)

bo = 18.34

Page 10: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 10

8. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con

cementos de distintas características. El ajuste por mínimos cuadrados dela

ecuación de regresión entre el tiempo de secado y una variable x es:

ŷ = 17.1+ 2.9x

Y además la siguiente tabla ANOVA

a. Se pide completar la tabla de análisis de varianza ANOVA y construir un

contraste de hipótesis para saber si el valor b1es distinto de cero, utilice α=

0.01.

H0: β1 = 0

H1: β1 ≠ 0

Se rechaza la hipótesis nula si , en la tabla de distribución F

(tabla 4 del apéndice B) se observa que con un grado de libertad en el numerador

(p-1) y 18 grados de libertad en el denominador (n-p), F=8.29 proporciona un área

de 0.01 en la cola superior, debido a que el estadístico de prueba es mayor que el

percentil (1-α)*100 de la distribución F de Fisher, entonces existe evidencia

Fuentes de

Variación

Grados de libertad

Suma de cuadrados

Medias Cuadráticas

Estadístico de Prueba F

Valor p

Regresión 1 1732.02 1732.02 10.57 Valor-p < 0.05 Error 18 2949.12 163.84 Total 19 4681.14

Page 11: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 11

estadística para rechazar H0 que postula que β1 =0, a favor de H1 que postula que ≠

0, por lo tanto el valor p < 0.05 pues se toma en consideración:

Si el “valor p > 0.1”, entonces no existe evidencia estadística para rechazar la hipótesis nula (h0);

Si el “valor p < 0.05”, entonces existe evidencia estadística para rechazar la hipótesis nula (h0); y;

Si el valor p está “0.05 < p < 0.1”, entonces en este caso no podemos concluir nada,

UNIDAD 2

Responda correctamente a las siguientes preguntas

a. ¿Cuál es la diferencia entre los modelos de regresión lineal simple con los modelos de

regresión múltiple? :El modelo de regresión múltiple busca la explicación de la variable

dependiente y; en términos de dos o más variables independientes x; en vez de solo una

variable x como lo hace laregresión lineal simple.

a. ¿Por qué se utiliza el coeficiente de determinación múltiple ajustado?: Se utiliza el

coeficiente de determinación ajustado para comparar dos o más modelos que tengan en

común la misma variable a ser explicada y, para determinar cuál modelo ajusta mejor. Este

número siempre será menor que el Coeficiente de Determinación, además, penaliza al

modelo que contengamás variables explicativas. Su fórmula es:

b. Si consideramos el modelo de regresión múltiple: y = βo+β1 xi1+β2 xi2+…..+βp xip + єi ,en el

cual, el coeficiente de determinación es 1. ¿Qué podemos decir de la SCE, SCR, SCT

justifícalo.

Como hemos visto, el coeficiente de determinación, nos ayuda a obtener una medida de la

bondad de ajuste de la ecuación de regresión estimada, siendo su fórmula .

Si éste coeficiente es 1, nos indicaría que la ecuación de regresión se ajusta perfectamente

a los datos si cada uno de los valores de la variable independiente yise encontraran sobre

la recta de regresión, de ser así, el SCE = 0 lo que implica que para cada una de las

observaciones se tendría que yi – ŷ sería igual a cero.

Page 12: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 12

Resuelva los siguientes ejercicios

1. De una población normal trivariante se tomó una muestra de tamaño 10,

teniendo como resultado lo siguiente:

a. Hallar el modelo de regresión e interpretar los coeficientes obtenidos para las

variables x1 y x2.

Ŷ = 1.114 + 0.597x1 + 0.19x2

- b1representa la estimación del cambio en y debido a un cambio en una

unidad de muestra de tamaño 10 (x1 y x2), por lo tanto b1= 0.597, es el

aumento por cada cambio en la muestra de tamaño 10.

- De igual manera sucede con b2 = 0.19, es la proporción de aumento en la

variable x2.

- B0 = 1.114 es la intersección de la recta de regresión con el eje y

- En la columna de E. Típico se puede observar la desviación estándar

estimada para cada una de las bs. , por lo tanto nos proporciona una

estimación del error estándar de las bs. =

Donde el error estándar de estimación s , y

La Desviación estándar estimada de

Coeficiente E. Típico Estadístico t

Constante 1.114 0.77 1.43

X1 0.597 0.71 0.83

X2 0.19 0.36 0.52

Page 13: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 13

- Con (1 - α)*100% de confianza se rechaza la H0 en favor de H1 si el valor

del estadístico de pruebaT es mayor que el percentil (1- α/2)*100 de la

Distribución T de Student con (n-p) grados de libertad.

b. ¿Qué valor se predice en el modelo con las variables x1 y x2? ¿Tiene sentido realizar

esta predicción?

El valor que se predice es Ŷ en relación a la variación de las variables

independientes x1 y x2.

EL modelo de regresión estimada se usa justamente para predecir, por tal

razón tiene mucho sentido ésta predicción.

2. Un economista está interesado en conocer la relación que existe entre la

demanda de viviendas, su precio y el ingreso medio anual de los hogares. Sea

y la demanda de las viviendas, x1 el precio promedio de las viviendas; y x2

elingreso promedio familiar, los datos se presentan en la tabla a

continuación:

Y 8 9 12 9 12 15

X1 12 13 13 14 14 15

X2 6.8 7.2 7.4 7.1 7 7.4

Page 14: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 14

a. Estime los coeficientes β0,β1 y β2del modelo de regresión lineal múltiple.

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.833777299

Coeficiente de determinación R^2 0.695184584

R^2 ajustado 0.491974306

Error típico 1.8812883

Observaciones 6

Coeficientes Error típico Estadístico t

Intercepción -40.4189602446 25.86228727 -1.56285327

Variable X 1 1.3669724771 0.94494918 1.44660952

Variable X 2 4.5871559633 4.225941204 1.08547558

Ŷ = -40.419 + 1.367x1 + 4.587x2

3. De una encuesta de presupuestos familiares se han obtenido la

siguienteinformación;

Gasto en teléfono 20 30 50 80 120

Ingreso familiar ($) 100 800 1600 2400 3000

Tamaño de la familia 2 4 3 6 10

a. Construya el modelo de regresión lineal múltiple para explicar el gasto en

teléfono en función de la renta familiar y el tamaño de la familia.

Coeficientes Error típico Estadístico t

Intercepción -0.120642872 7.487206569 -0.016113202

Variable X 1 0.019640994 0.007519421 2.612035324

Variable X 2 5.817574619 2.785232553 2.088721322

Ŷ = -0.120 + 0.0196x1 + 5.817x2

Page 15: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 15

b. Calcule el coeficiente de determinación y el coeficiente de determinación

ajustado.

El coeficiente de determinación es:

El coeficiente de determinación ajustado es:

RESUMEN:

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.989685776

Coeficiente de determinación R2 0.979477935

R2 ajustado 0.958955871

Error típico 8.229387195

Observaciones 5

4. Se dispone de la siguiente información:

Ŷ = -50.995 + 0.043x1 + 0.165x2 + 08.841 x3

n= 20 p= 4

Page 16: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 16

a. Complete la tabla ANOVA.

ANÁLISIS DE VARIANZA

Grados de libertad

Suma de cuadrados

Promedio de los cuadrados

F Valor crítico de F

Regresión 3 10194.85 3398.28 16.08

Error 16 3381.38 211.34

Total 19 13576.23

b. ¿Cuál es el tamaño de la muestra? n = 20

c. Calcule el coeficiente de determinación R2y la potencia de explicación delmodelo

einterprételo.

La potencia de Explicación del Modelo es R2* 100%, que explicará que tan bueno

es el modelo. Por lo tanto, el 75.09%de la variabilidad en el tiempo de recorrido

yes explicada por la ecuación de regresión estimada en las variables

independientes.

5. Con la tabla ANOVA del ejercicio 3, determine si los coeficientes β’sson

cero.Utilice α = 0.01

H0: β1 = 0 n = 20 p= 4

H1: β1 ≠ 0

Se rechaza la hipótesis nula si F , en la tabla de

distribución F (tabla 4 del apéndice B) se observa que con 3 grados de libertad

en el numerador (p-1) y 16 grados de libertad en el denominador (n-p),

F=5.29proporciona un área de 0.01 en la cola superior, debido a que el

estadístico de prueba16.08es mayor que el percentil (1-α)*100 de la

distribución F de Fisher, entonces existe evidencia estadística para rechazar H0

que postula que β1 =0, a favor de H1 que postula que ≠ 0

Page 17: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 17

6. De acuerdo con la siguiente información

L A T

33.4 122 13.9

33.2 145 14.9

31.3 195 16.4

29.5 124 17.2

26.8 107 18

26.5 130 18

a. Explique a la variable T en función de las variables L y A.

b. Construya la tabla ANOVA para estos datos, determine si los coeficientes β’sson cero.

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.97373771

Coeficiente de determinación R^2 0.94816514

R^2 ajustado 0.91360856

Error típico 0.49637525

Observaciones 6

ANALISIS DE LA VARIANZA

Grados de

libertad

Suma de cuadrados

Promedio de los cuadrados

F

Regresión P-1= 2 13.521 6.760 27.4380522

Residuos n-p= 3 0.739 0.246

Total n-1= 5 14.26

F

= 27.43 <30.82, con un nivel de significancia de α=0.01NO SE RECHAZA LA HIPOTESIS

NULA

Page 18: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 18

7. A continuación se presentan los resultados, incompletos, obtenidos con

unpaquete de software para un análisis de regresión:

Ŷ = 8.103 + 7.602x1 + 3.11x2

ANÁLISIS DE VARIANZA

Grados de libertad

Suma de cuadrados

Promedio de los

cuadrados

F

Regresión 2 1612.000 806.000 72.47

Error 12 133.4667 11.122

Total 14

8. Con la tabla del ejercicio 7 pruebe la significancia de β1y β2, use α = 0.01

Usaremos la prueba de significancia global (Prueba F) para determinar si existe

una relación significativa entre la variable dependiente y el conjunto de todas

las variables independientes.

H0: β1 =β2 = 0 n = 15 p= 3

H1: β1o β2 ≠ 0

F

= 72.47 6.93, con un nivel de significancia de α=0.01 SE RECHAZA LA HIPOTESIS NULA

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.961

Coeficiente de determinación R2 92.30%

R2 ajustado 90.20%

Error típico 3.335

Observaciones 15

Coeficientes Error típico

Estadístico t

Intercepción 8.103 2.667 3.03824522

Variable X 1 7.602 2.105 3.61140143

Variable X 2 3.11 0.613 5.07340946

Page 19: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 19

UNIDAD 3

Resuelva los siguientes ejercicios

1. El departamento de autopistas estudia la relación entre el flujo de tráfico

yvelocidad. Se considera el modelo siguiente es el adecuado:

y = β0+β1x + є

Dónde:

y es el flujo de tráfico en vehículos por hora.

x es la velocidad de los vehículos en millas por hora.

Los siguientes datos fueron recolectados durante “horas pico” en

lasseisprincipales autopistas que salen de la ciudad.

Flujo de

tráfico (y)

Velocidad de

los vehículos (x)

1256 35

1329 40

1226 30

1335 45

1349 50

1124 25

a. Obtenga con estos datos una ecuación estimada de regresión.

Ŷ = 943.04 + 8.714x1

b. Use α= 0.01 para probar la significancia de la relación.

F

= 31.856 21.20, con un nivel de significancia de α=0.01 SE RECHAZA LA HIPOTESIS NULA

Page 20: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 20

2. A los datos del ejercicio anterior se ha añadido una nueva variable X2, y

setiene la siguiente salida en Excel:

Coeficientes Error típico Estadístico t Probabilidad

Intercepción 432.57 141.18 3.06 0.05

Variable X 1 37.43 7.81 4.79 0.02

Variable X 2 -0.38 0.10 -3.70 0.03

a. Obtenga la ecuación estimada de la recta regresión

Ŷ = 432.57 + 37.43x1-0.38

b. Con α= 0.01 pruebe la significancia de la relación

En una ecuación de regresión lineal simple o múltiple, la media o valor esperado

de y es una función lineal de x: E(y) = β0+β1x. Pero si el valor β1es cero,

E(y) = β0+(0)x = β0. En este caso, el valor medio de y no depende del valor de x y

por lo tanto se puede concluir que x y y no están relacionadas linealmente.

Para probar si existe una relación significativa realizaremos una prueba de

hipótesis. Usaremos los valores de la tabla ANOVA.

F

= 73.15 30.82, con un nivel de significancia de α=0.01SE RECHAZA LA HIPOTESIS NULA

Grados de libertad

Suma de cuadrados

Promedio de los cuadrados

F Valor crítico

de F

Regresión 2 36643.40 18321.70 73.15 0.0028485

Residuos 3 751.43 250.48 Total 5 37394.83

Page 21: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 21

3. Considere los siguientes datos.

a. Obtenga la ecuación estimada de la recta regresión

Ŷ = -6.77 + 1.23 x1

b. Use los resultados del literal a para probar si existe relación significativa entre

las variables x y y. Use α= 0.05

Grados de

libertad Suma de

cuadrados Promedio de

los cuadrados F

Regresión 1 362.13 362.13 6.85

Residuos 4 211.37 52.84 Total 5 573.50

F

= 6.85 7.71, con un nivel de significancia de α=0.05 NO SE RECHAZA LA HIPOTESIS NULA

Y X

12 22

21 24

33 26

35 30

40 35

36 40

Page 22: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 22

4. A los datos del ejercicio 3 se ha añadido una nueva variable x2, y se tiene lasiguiente salida en Excel:

a. Expresar la ecuación estimada de regresión.

Ŷ = -168.88 + 12.19x1-0.18

b. Con α = 0.01 pruebe la significancia de la relación.

F

= 25.68 30.82, con un nivel de significancia de α=0.01NO SE RECHAZA LA HIPOTESIS NULA

5. En un análisis de regresión en el que se emplearon 30 observaciones, se

obtuvo la siguiente ecuación estimada de regresión:

Ŷ = 17.6 + 3.8x1 – 2.3x2 +7.6 x3 + 2.7 x4

Para esta ecuación estimada de regresión la SCT=1805 y SCR=1760

Y suponga que de este modelo se eliminan las variables X1 y X4, quedando

Ŷ = 11.1- 3.6x2+8.1x3

Las sumas cuadráticas de este modelo son: SCT=1805 y SCR=1705

Coeficientes Error típico Estadístico t Probabilidad

Intercepción -168.88 39.79 -4.24 0.02

Variable X 1 12.19 2.66 4.58 0.02

Variable X 2 -0.18 0.04 -4.13 0.03

Grados de

libertad Suma de

cuadrados Promedio de

los cuadrados F

Regresión 2 541.85 270.92 25.68

Residuos 3 31.65 10.55 Total 5 573.50

Page 23: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 23

a. Calcule SCE(x1, x2, x3, x4)

SCE = SCT-SCR

SCE= 1805-1760

SCE= 45

b. Calcule SCE(x2, x3)

SCE = SCT-SCR

SCE= 1805-1705

SCE= 100

c. Use una prueba F y 0,05 como nivel de significancia para determinar si x2 y

x3contribuyen significativamente al modelo.

Para esto tendremos el siguiente contraste de hipótesis:

H₀: La variable x2 y x3 no es estadísticamente significativo.

Vs.

H₁: no es verdad H₀

p= el número de variables independientes presentes en el modelo completo;

q= el número de variables independientes presentes en el modelo reducido;

n= número de observaciones

Page 24: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 24

Se rechaza H0 a favor de H1 si el estadístico de prueba F es mayor que

elpercentil (1 - α)*100 de laDistribución F de Fisher con p-q grados de libertad

en el numerador y n-p-1 grados de libertad en eldenominador.

Es decir se rechaza H0 si:

F = 15.28 > 3.39 Se rechaza H0 a favor de H1con α =0,05 como nivel

designificancia

6. En un análisis de regresión en el que se emplearon 27 observaciones, se

obtuvo la siguiente ecuación de regresión:

Ŷ = 25.2 + 5.5x1

Para esta ecuación estimada de regresión la SCT=1550 y SCE=520

Y suponga que de este modelo se eliminan las variables X2 y X3, quedando

Ŷ = 16.3+2.3x1+ 12.1x2 – 5.8x3

Para esta nueva ecuación estimada de regresión la SCT=1550 y SCE=100

Use una prueba F y 0,05 como nivel de significancia para determinar si X2 y X3

contribuyen significativamente al modelo.

Para esto tendremos el siguiente contraste de hipótesis:

H₀: La variable x2 y x3 no es estadísticamente significativo.

Vs.

H₁: no es verdad H₀

p= el número de variables independientes presentes en el modelo completo;

q= el número de variables independientes presentes en el modelo reducido;

n= número de observaciones

Page 25: Estadística II

Orlando Paredes Administración de Empresas

UTPL | Estadística II | I Bim 25

F = 15.28 > 3.42 Se rechaza H0 a favor de H1con α =0,05 como nivel

designificancia