Introduccion al Tema 7 Tema 5. Intervalos de...
Transcript of Introduccion al Tema 7 Tema 5. Intervalos de...
1
Introduccion al Tema 7
Tema 5. Intervalos de confianzaDefinicion.
Ejemplos de intervalos de confianza.
Tema 6. Contraste de hipotesisConceptos fundamentales.
Ejemplos de contrastes de hipotesis.
Su validez dependede las hipotesis asumidas
Tema 7. Diagnosis del modeloContrastes de bondad de ajuste.
Transformaciones para conseguir normalidad.
Contraste χ2 de independencia y de homogeneidad.
Estadıstica I Andres M. Alonso
2
Distribucion temporal del temario
1 2 3 4 5 6 7 8 9Tema 1 T T T PTema 2 T T T P T T T P PTema 3 T T T P T T T P PTema 4 T T T P T T T P PTema 5 T T T P T T T P PTema 6 T T T P T T T P PTema 7 T T T P T T T P P
7 7 7 7 6 6 6 6 6 580 0 0 7 0 0 0 6 6 19T denota una hora de clase de teorıa
P denota una hora de clase practica
Estadıstica I Andres M. Alonso
3
Tema 7. Diagnosis del modelo
Los contenidos a desarrollar en este tema son los siguientes:
Contrastes de bondad de ajuste:• χ cuadrado.• Kolmogorov-Smirnov.
Contrastes de normalidad.
Transformaciones para conseguir normalidad.
Contraste χ2 de independencia.
Contraste χ2 de homogeneidad.
Lecturas recomendadas: Secciones 12.1, 12.2 y 12.4 del libro de Pena (2005)y los capıtulos 10 y 11 de Newbold (2001).
Estadıstica I Andres M. Alonso
4
Introduccion
I En los temas anteriores estudiamos intervalos de confianza y contrastes dehipotesis bajo ciertos supuestos, por ejemplo, independencia y/o normalidad.
¿Que pasarıa si alguno de estos supuestos no se verifica?
Ejemplo 1. No normalidad en intervalos normales.
Estadıstica I Andres M. Alonso
5
Ejemplo 2. Contraste de medias suponiendo (incorrectamente) que las mues-tras son independientes.
Comparison of Means-------------------
95.0% confidence bound for mean of Ingresos 1989: 0.208419 + 0.0488054 [0.257224]95.0% confidence bound for mean of Ingresos 1988: 0.26814 + 0.0503121 [0.318452]95.0% confidence bound for the difference between the means assuming equal variances: -0.0597209 + 0.0699427 [0.0102218]
t test to compare means
Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 < mean2 assuming equal variances: t = -1.40752 P-value = 0.0800002
¿Que conclusion obtenemos para µ1 − µ2?
Estadıstica I Andres M. Alonso
6
Ejemplo 2. Contraste de medias considerando la dependencia de lasmuestras.
Hypothesis Tests for Ingresos 1989-Ingresos 1988
Sample mean = -0.0597209Sample median = 0.01
t-test------Null hypothesis: mean = 0.0Alternative: less than
Computed t statistic = -2.1952P-Value = 0.0146122
Reject the null hypothesis for alpha = 0.05.
I Se obtiene una conclusion distinta a cuando se suponıa (incorrectamente)que las muestras eran independientes
Estadıstica I Andres M. Alonso
7
Contrastes de bondad de ajuste
Contraste χ2χ2χ2 de bondad de ajuste con parametros conocidos:{H0 : X ∼ P0
H0 : X � P0, donde P0 es una distribucion perfectamente definida.
1. Hacemos una particion arbitraria del espacio muestral, X , en k clasesdisjuntas, A1, A2, . . . , Ak y calculamos:
Oi ≡ frecuencias absolutas observadas en la clase Ai.Ei ≡ frecuencias absolutas esperadas en la clase Ai dada P0.
2. Calculamos el estadıstico de contraste: χ2c =
∑ki=1
(Oi−Ei)2
Ei.
3. La region de rechazo es: R ={
χ2c > χ2
k−1,α
}.
Estadıstica I Andres M. Alonso
8
Ejemplo 3. Encuestados 100 hogares acerca del numero de veces semanalesque acuden a comprar a un supermercado, X, se obtuvo la siguiente distribucionde frecuencias:
X 0 1 2 3 TotalO 22 42 28 8 100
(a) Se quiere contrastar si X sigue una distribucion binomial, Binomial(3, 0,5).
1. Definimos como clases disjuntas a: A1 = {0}, A2 = {1}, A3 = {2} yA3 = {3}. Bajo el modelo Binomial(3, 0,5) obtenemos:
X 0 1 2 3 TotalE 12.5 37.5 37.5 12.5 100
2. El estadıstico del contraste es: χ2c =
∑4i=1
(Oi−Ei)2
Ei≈ 11,8.
3. En la tabla de la χ2 obtenemos que χ23,0,05 = 7,81, por lo tanto puede
rechazarse la hipotesis nula.
Estadıstica I Andres M. Alonso
9
Contrastes de bondad de ajuste
Contraste χ2χ2χ2 de bondad de ajuste con parametros desconocidos:{H0 : X ∼ PH0 : X � P
, donde P tiene r parametros desconocidos.
El procedimiento anterior se modifica a:
0. Estimamos los r parametros por maxima verosimilitud.
1. Las frecuencias absolutas esperadas Ei en la clase Ai se calculan bajo Pcon los parametros estimados.
2. Calculamos el estadıstico de contraste: χ2c =
∑ki=1
(Oi−Ei)2
Ei.
3. La region de rechazo es: R ={
χ2c > χ2
k−r−1,α
}.
Estadıstica I Andres M. Alonso
10
Ejemplo 3.
(b) Se quiere contrastar si X sigue una distribucion binomial, Binomial(3, p).
En primer lugar tenemos que estimar la probabilidad, p. El estimador de
maxima verosimilitud es: p =∑N
i=1 xiNn , donde N es el tamano de la muestra.
En este caso, p = 0,4067.
1. Bajo el modelo Binomial(3, 0,4067) obtenemos:
X 0 1 2 3 TotalE 20.88 42.95 29.44 6.73 100
2. El estadıstico del contraste es: χ2c =
∑4i=1
(Oi−Ei)2
Ei≈ 0,4.
3. En la tabla de la χ2 obtenemos que χ22,0,05 = 5,99, por lo tanto no puede
rechazarse la hipotesis nula.
Estadıstica I Andres M. Alonso
11
Contrastes de bondad de ajuste
Contraste de Kolmogorov–Smirnov:
Se basa en la comparacion de la funcion de distribucion empırica, Fn, y lafuncion de distribucion teorica, F0.
−3 −2 −1 0 1 2 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1 Fn
F0
El estadıstico de contraste es: ∆n = supx∈R |Fn(x)− F0(x)|.
La region de rechazo es: R = {∆n > ∆n,α}.
Estadıstica I Andres M. Alonso
12
Ejemplo 4. Un gerente de un supermercado afirma que el tiempo X de esperaen una caja cualquiera se distribuye como una exponencial de parametro 3. Serealiza un experimento con 10 clientes elegidos al azar. Contraste la hipotesis:X ∼ Exponencial(3).
x(i) Fn(x(i)) Fn(x(i)−) F0(x(i))0.620 0.100 0.000 0.1861.513 0.200 0.100 0.3963.125 0.300 0.200 0.6473.903 0.400 0.300 0.7274.787 0.500 0.400 0.7974.846 0.600 0.500 0.8014.847 0.700 0.600 0.8015.922 0.800 0.700 0.8618.547 0.900 0.800 0.942
13.857 1.000 0.900 0.990
Estadıstica I Andres M. Alonso
13
Ejemplo 4.
x(i) |Fn(x(i))− F0(x(i))| |F0(x(i))− Fn(x(i)−)|0.620 0.086 0.1861.513 0.196 0.2963.125 0.347 0.4473.903 0.327 0.4274.787 0.297 0.3974.846 0.201 0.3014.847 0.101 0.2015.922 0.061 0.1618.547 0.042 0.142
13.857 0.009 0.090
∆n = max(|Fn(x(i))− F0(x(i))|, |F0(x(i))− Fn(x(i)−)|) = 0,447.
∆10,0,05 = 0,410, por lo tanto rechazamos la hipotesis nula.
¿Y si en lugar de F0 tenemos Fθ?
Estadıstica I Andres M. Alonso
14
Tema 7. Diagnosis del modelo
Contrastes de bondad de ajuste: X• χ cuadrado.• Kolmogorov-Smirnov.
Contrastes de normalidad.
Transformaciones para conseguir normalidad.
Contraste χ2 de independencia.
Contraste χ2 de homogeneidad.
Estadıstica I Andres M. Alonso
15
Contrastes de normalidad
Dado que la hipotesis de normalidad es muy utilizada existen muchas prop-uestas para contrastar: {
H0 : X ∼ N (µ, σ2)H0 : X � N (µ, σ2) .
Hemos estudiado dos contrastes que pueden utilizarse para contrastarnormalidad:
Contraste χ2 de bondad de ajuste.
Contraste de Kolmogorov–Smirnov–Lilliefors.
Existen otras alternativas:
Contraste de Shapiro–Wilks. Adecuado para muestras pequenas
Contrastes basados en la simetrıa y kurtosis de la distribucion normal.
Contrastes basados en transformaciones para aproximarse a la distribucionnormal.
Estadıstica I Andres M. Alonso
16
Contrastes de normalidad
Graficos de probabilidad normal:
Se obtiene la muestra orde-nada: x(1), x(2), . . . , x(n).
Se representa x(i) frente a(i− 0,5)/n.
El eje de las ordenadasse representa en la escaladefinida por la distribucionN (0, 1).
Si los datos son normales,entonces los puntos de-berıan estar cercanos a unarecta.
Estadıstica I Andres M. Alonso
17
Contrastes de normalidad
Contraste de Shapiro–Wilks:
Se basa en evaluar el ajuste a una recta de los puntos representados en ungrafico de probabilidad normal.
El estadıstico de contraste se basa en el cuadrado del coeficiente decorrelacion lineal entre (x(1), x(2), . . . , x(n)) y (c1,n, c2,n, . . . , cn,n):
r2 =
(∑x(i)ci,n
)2
ns2∑
c2i,n
, donde ci,n = EN[
X(i)−µ
σ
]y s2 es la varianza muestral.
Utilizando propiedades de simetrıa de los ci,n, el estadıstico de contraste es:
W =1
ns2
( h∑j=1
aj,n(x(n−j+1 − x(j)))2
,
donde aj,n = |cj,n|/∑
i c2i,n, y h es n/2 si n es par y (n − 1)/2 si n es
impar.
Estadıstica I Andres M. Alonso
18
Contrastes de normalidad - Ejemplo
Ejemplo 5. Obtenga el grafico de probabilidad normal de la variableINNOVAPC que define el gasto en innovacion por empleado de 126 empre-sas espanolas de produccion y distribucion de electricidad, gas y agua.
Archivo: INNOVACION2000EGA.sf3
Normal Probability Plot
INNOVAPC
cumu
lative
perce
nt
0 1 2 3 4 5(X 10000)
0.1
1
5
20
50
80
95
99
99.9
Estadıstica I Andres M. Alonso
19
Ejemplo 5. Contraste la normalidad de la variable INNOVAPC.
Tests for Normality for INNOVAPC
Computed Chi-Square goodness-of-fit statistic = 44.5263P-Value = 0.0000250962
Shapiro-Wilks W statistic = 0.685156P-Value = 1.57444E-9
Z score for skewness = 3.36512P-Value = 0.00076521
Z score for kurtosis = 3.77482P-Value = 0.000160177
I Se rechaza la normalidad, utilizando el contraste de Shapiro–Wilks y el χ2
de bondad de ajuste.
Estadıstica I Andres M. Alonso
20
Tema 7. Diagnosis del modelo
Contrastes de bondad de ajuste: X• χ cuadrado.• Kolmogorov-Smirnov.
Contrastes de normalidad. X
Transformaciones para conseguir normalidad.
Contraste χ2 de independencia.
Contraste χ2 de homogeneidad.
Estadıstica I Andres M. Alonso
21
Transformaciones para conseguir normalidad
Transformaciones de Box–Cox:
x(λ) =
{(x+m)λ−1
λ si λ 6= 0ln(x + m) si λ = 0
,
donde suponemos que x + m > 0.
Si λ > 1, la transformaciontiende a una mayor separacionde los valores grandes de x.
Si λ < 1, la transformaciontiende a concentrar los valoresgrandes de x mientras que losvalores pequenos (x < 1) tien-den a dispersarse.
0 0.5 1 1.5 2 2.5 3-5
-4
-3
-2
-1
0
1
2
3
4
λ = -1
λ = 0
λ = 1/2
λ = 2
Estadıstica I Andres M. Alonso
22
Transformaciones para conseguir normalidad - Ejemplo
Ejemplo 6. Obtenga una transformacion de Box-Cox de la variable INNOVAPCestudiada en el ejemplo 5.
Normal Probability Plot for transformed INNOVAPC
lambda1 = 0.194207, lambda2 = 0.0
0 4 8 12 16 20 24(X 1000)
transformed INNOVAPC
0.1
1
5
20
50
80
95
99
99.9
per
cen
tag
e
Tests for Normality-------------------Power (lambda1): 0.194207Shift (lambda2): 0.0
Computed Chi-Square goodness-of-fit statistic = 13.3684P-Value = 0.419773
Shapiro-Wilks W statistic = 0.979794P-Value = 0.791558
Z score for skewness = -0.0459666P-Value = 0.963331
Z score for kurtosis = 0.299339P-Value = 0.764677
Estadıstica I Andres M. Alonso
23
Ejemplo 6. Contraste la normalidad de la transformacion Box–Cox con λ = 0de la variable INNOVAPC.
Normal Probability Plot
3.4 5.4 7.4 9.4 11.4
log(INNOVAPC)
0.1
1
5
20
50
80
95
99
99.9
cum
ula
tiv
e p
erce
nt
Tests for Normality for log(INNOVAPC)
Computed Chi-Square goodness-of-fit statistic = 9.15789P-Value = 0.760917
Shapiro-Wilks W statistic = 0.929432P-Value = 0.0241424
Z score for skewness = 1.71482P-Value = 0.0863772
Z score for kurtosis = 1.46923P-Value = 0.141769
Estadıstica I Andres M. Alonso
24
Tema 7. Diagnosis del modelo
Contrastes de bondad de ajuste: X• χ cuadrado.• Kolmogorov-Smirnov.
Contrastes de normalidad. X
Transformaciones para conseguir normalidad. X
Contraste χ2 de independencia.
Contraste χ2 de homogeneidad.
Estadıstica I Andres M. Alonso
25
Contrastes de independencia{H0 : X e Y son independientesH0 : X e Y no son independientes
1. Definimos k categorıas disjuntas en el rango de definicion de X:{A1, A2, . . . , Ak}, y p categorıas en el rango de definicion de Y :{B1, B2, . . . , Bp}.
2. Obtenemos la tabla de contingencia:
A1 A2 · · · Ak TotalB1 O11 O21 · · · Ok1 O•1B2 O12 O22 · · · Ok2 O•2... ... ... . . . ... ...
Bp O1p O2p · · · Okp O•pTotal O1• O2• · · · Ok• O••
Oi• =∑p
j=1 Oij, O•j =∑k
i=1 Oij, y O•• = n.
Estadıstica I Andres M. Alonso
26
Contrastes de independencia
3. Obtenemos la tabla de contingencia esperada bajo independencia, es decir,suponiendo que Pr{X ∈ Ai ∩ Y ∈ Bj} = Pr{X ∈ Ai}Pr{Y ∈ Bj}:
A1 A2 · · · Ak TotalB1 E11 E21 · · · Ek1 E•1B2 E12 E22 · · · Ek2 E•2... ... ... . . . ... ...
Bp E1p E2p · · · Ekp E•pTotal E1• E2• · · · Ek• E••
Oi• = Ei•, O•j = E•j, y Eij =Ei•×E•j
n .
4. Calculamos el estadıstico de contraste: χ2c =
∑ki=1
∑pj=1
(Oij−Eij)2
Eij.
5. La region de rechazo es: R ={
χ2c > χ2
(k−1)(p−1),α
}.
Estadıstica I Andres M. Alonso
27
Ejemplo 7. Se desea evaluar la efectividad de una nueva vacuna antigripal.Para ello se suministra de manera voluntaria y gratuita, en una pequenacomunidad. La vacuna se administra en dos dosis, separadas por un perıodode dos semanas, de forma que algunas personas han recibido una sola dosis,otras han recibido las dos, y otras personas no han recibido ninguna.
No vacunados Vacunados Vacunados(0 dosis) (1 dosis) (2 dosis)
Gripe 24 9 13No Gripe 289 100 565
(a) ¿Proporcionan estos datos suficiente evidencia estadıstica (al nivel 0.05)para indicar dependencia entre el numero de dosis recibidas y la proteccionfrente a la gripe?
(b) Si consideramos vacunados a los que han recibido una o dos dosis, ¿hayevidencia estadıstica para afirmar (al nivel 0.05) que la vacuna es efectivafrente a la gripe?
Estadıstica I Andres M. Alonso
28
(a) Nos piden el siguiente contraste:{H0 : El numero de dosis es independiente de contraer gripeH1 : El numero de dosis es dependiente de contraer gripe
Por tanto realizaremos un contraste χ2 de independencia.
Tenemos en la siguiente tabla los valores observados, Oi,j:
No vacunados Vacunados Vacunados(0 dosis) (1 dosis) (2 dosis) TOTAL
Gripe 24 9 13 46No Gripe 289 100 565 954TOTAL 313 109 578 1000
Estadıstica I Andres M. Alonso
29
A partir de ella obtenemos los valores esperados:
Ei,j = n∑k
i=1 Oi,j
n
∑pj=1 Oi,j
n = Oi•O•jn .
No vacunados Vacunados Vacunados(0 dosis) (1 dosis) (2 dosis) TOTAL
Gripe 14.40 5.01 26.59 46No Gripe 298.60 103.99 551.41 954TOTAL 313 109 578 1000
Calculamos el estadıstico de contrastes, Tc:
Tc =k∑
i=1
p∑j=1
O2i,j
Ei,j− n =
242
14,4+ · · ·+ 5652
551,4− 1000 = 17,31,
que comparamos con el valor de χ22,0,05 = 5,991.
Estadıstica I Andres M. Alonso
30
(b) Nos piden el siguiente contraste:{H0 : pNV ≤ pV
H1 : pNV > pV
Para ello utilizaremos el contraste cuya region de rechazo es:
R =
x− y > zα
√p(1− p)
(1n1
+1n2
) ,
donde p =∑
xi+∑
yin1+n2
. Tenemos que x = 24313, y = 22
687, p = 24+221000 y z0,05 =
1,645.
24313
− 22687
> 1,645
√46
10009541000
(1
313+
1687
),
Puesto que 0,0446 > 0,0235, rechazamos H0.
Estadıstica I Andres M. Alonso
31
Tema 7. Diagnosis del modelo
Contrastes de bondad de ajuste: X• χ cuadrado.• Kolmogorov-Smirnov.
Contrastes de normalidad. X
Transformaciones para conseguir normalidad. X
Contraste χ2 de independencia. X
Contraste χ2 de homogeneidad.
Estadıstica I Andres M. Alonso
32
Contrastes de homogeneidad
Supongamos que medimos en una variable X en p poblaciones y queremossaber si las poblaciones son homogeneas respecto a X:
1. Definimos k categorıas disjuntas en el rango de definicion de X:{A1, A2, . . . , Ak} y obtenemos la tabla de contingencia:
A1 A2 · · · Ak TotalB1 O11 O21 · · · Ok1 O•1 = n1
B2 O12 O22 · · · Ok2 O•2 = n2... ... ... . . . ... ...
Bp O1p O2p · · · Okp O•p = np
Total O1• O2• · · · Ok• O••{H0 : pi1 = pi2 = · · · = pip para i = 1, 2, . . . , k.
Donde pij denota la proporcion de la categorıa j en la poblacion i.
Estadıstica I Andres M. Alonso
33
Contrastes de homogeneidad
3. Obtenemos la tabla de contingencia esperada bajo homogeneidad, es decir,suponiendo que pij = pj para i = 1, 2, . . . , k:
A1 A2 · · · Ak TotalB1 E11 E21 · · · Ek1 n1
B2 E12 E22 · · · Ek2 n2... ... ... . . . ... ...
Bp E1p E2p · · · Ekp np
Total E1• E2• · · · Ek• n
Oi• = Ei•, y Eij =Ei•×nj
n .
4. Calculamos el estadıstico de contraste: χ2c =
∑ki=1
∑pj=1
(Oij−Eij)2
Eij.
5. La region de rechazo es: R ={
χ2c > χ2
(k−1)(p−1),α
}.
Estadıstica I Andres M. Alonso
34
Ejemplo 8. Un estudio sobre tabaquismo en tres comunidades, mediante tresmuestras aleatorias de tamano 100, proporciona los siguientes resultados:
Comunidad fumadores no fumadoresA 13 87B 17 83C 18 82
¿Pueden considerarse homogeneas las tres poblaciones en cuanto a sus habitosfumadores, al nivel 0.05?
Estadıstica I Andres M. Alonso
35
Valores observados
Fumadores No Fumadores TotalA 13 87 100B 17 83 100C 18 82 100
Total 48 252 300
Valores esperados
Fumadores No Fumadores TotalA 16 84 100B 16 84 100C 16 84 100
Total 48 252 300
Calculamos el estadıstico de contraste Tc =∑2
i=1
∑3j=1
O2i,j
Ei,j−n = 132
16 + · · ·+822
84 −300 = 1,0417 que compararemos con χ2(k−1)(p−1),0,05 = χ2
2,0,05 = 5,9915.
Estadıstica I Andres M. Alonso
36
Recapitulacion
Tema 7. Diagnosis del modelo
Contrastes de bondad de ajuste:• χ cuadrado.• Kolmogorov-Smirnov.
W Verificar la distribucionasumida.
Contrastes de normalidad.
Transformaciones para conseguirnormalidad.
W Caso de interespractico.
Contraste χ2 de independencia.W Verificar la independencia
entre variables.
Contraste χ2 de homogeneidad.W Verificar la homogeneidad
entre poblaciones.
Estadıstica I Andres M. Alonso