Post on 15-Apr-2017
CHIHUAHUA-CHIH ENERO, 2016
DISEÑO DE EXPERIMENTO Y ESTADISTICA
|
2015-2
CENTRO DE INVESTIGACIÓN EN MATERIALES AVANZADOS, S.C.
DEPARTAMENTO DE ESTUDIOS DE POSGRADO
MAESTRÍA EN CIENCIA Y TECNOLOGÍA AMBIENTAL
Presenta:
Seuri S. Kilakoi
Asesor:
Dr. Jorge Alfonso Jimenez
1
REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS
INTRODUCCIÓN
A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una
variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya
altura coincida con la frecuencia absoluta o relativa de dicha clase.
Ejemplo: Nivel de estudios (Continuación ejemplo 1)
Frecuencias relativas fi
B) Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de
mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele
trazarse una línea que representa la suma de la frecuencia de cada clase y las que la
preceden, esto se usa para identificar la minoría de las características que representan
la mayoría de casos.
A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano,
realizó un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las
personas controlaba el 80% de la riqueza en Italia.
La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar
visualmente en una sola revisión las minorías de características vitales a las que es importante
prestar atención.
Algunos ejemplos de tales minorías vitales son:
La minoría de clientes que representan la mayoría de las ventas.
La minoría de productos, procesos, o características de la calidad causantes del grueso
de desperdicio de los costos de retrabajos.
Ejemplo: Nivel educativo (Continuación ejemplo 1)
0.10
0.15
0.20
0.25
0.30
0.35
0.40
1 2 3 4
2
Frecuencias relativas fi (Gráfico de Pareto)
f2=0,35
f2+ f3=0,35+0,3=0,65
f2+ f3+ f4=0,35+0,3+0,2=0,85
f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1
Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento
de la población tiene un nivel educativo primario o media.
Diagrama de Pareto
En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel
educativo primaria o media.
C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de
dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse
por sí mismas.
Ejemplo: Nivel de educativo (Continuación).
a) Distribución de frecuencias:
0.10
0.15
0.20
0.25
0.30
0.35
0.40
2 3 4 1
0.0
0.2
0.4
0.6
0.8
1.0
2 3 4 1
3
Categorías ni fi
1. Sin estudios 3 0,15
2. Primario 7 0,35
3. Medio 6 0,3
4. Superior 4 0,2
N=20 1
b) Elaboración del Pictograma (Ejercicio para el estudiante)
Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría
socioeconómica:
1
2
3
4
5
6
7
trabajadores agrarios
empresarios agrarios
obreros
SOC autonomos
clase media
clase alta
retirados
Los datos de 75 hogares (o unidades de gasto) son:
3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3
3 6 6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3
(a) Obtener las frecuencias absolutas de cada una de las
categorías.
n1=8 n2=9 n3=25 n4=3 n5=16
n6=3 n7=11
(b) Calcular las frecuencias relativas y mostrar la distribución de
frecuencias
fn
N1
1 8
750 11 , f
n
N2
2 9
750 12 ,
fn
N3
3 25
750 33 , f
n
N4
4 3
750 04 ,
fn
N5
516
750 21 , f
n
N6
6 3
750 04 ,
4
fn
N7
7 11
750 15 ,
Nótese que:
f f f f f f f fi
i
1 2 3 4 5 6 7
1
7
1
Distribución de frecuencias:
Categoría ni fi
1. Trabajadores agrarios 8 0,11
2. Empresarios agrarios 9 0,12
3. Obreros 25 0,33
4. Autónomos 3 0,04
5. Clase media 16 0,21
6. Clase alta 3 0,04
7. Retirados 11 0,15
N=75 1
(c) Construir el diagrama de Pareto
f3=0,33; f3+f5=0,33+0,21=0,54
f3+f5+f7=0,33+0,21+0,15=0,69
f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81
f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92
f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9
F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1
0.0
0.2
0.4
0.6
0.8
1.0
3 5 7 2 1 4 6
5
El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o
clase media, y así sucesivamente.
Gráfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia.
Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular
de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se
calcula multiplicando por 360º la frecuencia relativa.
Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide
un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número
de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no
es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro
categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
Ejemplo.
La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el
siguiente cuadro:
Elaborar un gráfico de sectores.
Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla
anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a
fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo,
para la categoría de educación básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha
multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).
Parvularia
Primaria
o básica
Educación
media
Superior no
universitaria
Técnico
universitario
Superior
universitaria Maestría Doctorado Total
1168 15895 6842 499 363 4556 70 7 29400
6
Figura. Nivel educativo de la población de Ayutuxtepeque, por ciento.
Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el
54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel
educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.
VARIABLES CUANTITATIVAS DISCRETAS.
Diagrama de Barras:
Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de
barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación
de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene
barras verticales que representan valores numéricos. Las frecuencias están asociadas con
categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El
objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de
barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o
de intensidad de la característica numérica de interés. Si en vez de frecuencias simples
utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.
Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador,
2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de
hijos varones, resultando los siguientes datos.
7
Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas.
Ejemplo.
La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en
el siguiente cuadro:
OCUPADOS DESOCUPADOS INACTIVOS Total
ÁREA URBANA 10966 2832 8531 22329
EL ZAPOTE 329 42 477 848
LOS LLANITOS 2410 227 2550 5187
Total 13705 3101 11558 28364
Fuente: Censo de Población y V de Vivienda, El Salvador, 2007.
N° Hijos
Varones Madres
0 278290
1 509469
2 339180
3 177050
4 92233
5 50916
6 27791
7 15004
8 7328
9+ 7366
8
Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de
ocupación.
Distribución de frecuencias agrupadas.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda,
aún a costa de perder información, agrupar los datos en clases, en lo que se denomina
distribución de frecuencias agrupada en intervalos.
Clase Marca Frecuencias Absolutas Frecuencias Relativas
Clase Simples Acumuladas Simples Acumuladas
0 1
1 2
1
.
.
.
k k
L L
L L
L L
1
2
.
.
.
k
x
x
x
1
2
.
.
.
k
n
n
n
1 1
2 1 2
1
.
.
.
k
k i
i
N n
N n n
N n
1 1
2 2
/
/
.
.
.
/k k
f n n
f n n
f n n
1 1
2 2
/
/
.
.
.
/k k
F N n
F N n
F N n
Total
1
k
i
i
n n
1
1k
i
i
f
A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A
efectos de cálculo la marca de clase se elige como representante del intervalo. El número de
clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de
clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges:
3 log( )
2 log(2)
nnúmero de clases (Tomar la parte entera)
48.3%
10.9%
40.8%
Condición de ocupación
9
PROBLEMA 1.
¿Cómo varía la velocidad de un corredor en el recorrido del curso de un maratón (una
distancia de 42.195 km)? Considere determinar tanto el tiempo de recorrido de los primeros
km y el tiempo de recorrido entre los 35 y 40 km, y luego reste el primer tiempo del segundo.
Un valor positivo de esta diferencia corresponde a un corredor que corre más lento hacia el
final de la carrera. El histograma adjunto está basado en tiempos de corredores que
participaron en varios maratones japoneses (“Factors Affecting Runners’ Maratón
Performance”, Chance, otoño de 1993: 24-30).
¿Cuáles son algunas características interesantes de este histograma? La gran mayoría de los
competidores en realidad corren más lento en la distancia final del recorrido que al inicio
de la carrera.
¿Cuál es un valor de diferencia típico? De 50 a 150
¿Aproximadamente qué proporción de los competidores corren la última distancia más rápido
que la primera? Son pocos, es aproximadamente 15
10
QUESTION #2
La siguiente tabla muestra el número de restaurants americanos de comidas Rápidas en Puert
o Rico a julio de 1997 (Nuevo Día, 31 de Agosto de 1997).
Nombre
Número
Burger King
113
McDonald’s
97
Taco Maker
63
Kentucky Fried Chicken 58
Pizza Hut
51
Church’s
46
Domino’s
30
Wendys
24
Taco Bell
22
Ponderosa
21
Little Ceasers
20
Otros
45
Method
Categorical predictor coding (1, 0)
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Regression 11 10045.7 913.2 * *
Nombre 11 10045.7 913.2 * *
Error 0 0.0 *
Total 11 10045.7
Ponderosa
Little Ceasers
Otros
Burger King
McDonald’s
Taco Maker
Fried Chicken
Pizza Hut
Church’s
Domino’s
Wendys
Taco Bell
CategoryOtros
7.6%Little Ceasers
3.4%Ponderosa
3.6%Taco Bell
3.7%
Wendys
4.1%
Domino’s
5.1%
Church’s
7.8%
Pizza Hut
8.6%Fried Chicken
9.8%
Taco Maker
10.7%
McDonald’s
16.4%
Burger King
19.2%
Pie Chart of Nombre
11
Model Summary
S R-sq R-sq(adj) R-sq(pred)
* 100.00% * *
Coefficients
SE
Term Coef Coef T-Value P-Value VIF
Constant 113.0 * * *
Nombre
Church’s -67.00 * * * 1.83
Domino’s -83.00 * * * 1.83
Kentucky Fried Chicken -55.00 * * * 1.83
Little Ceasers -93.00 * * * 1.83
McDonald’s -16.00 * * * 1.83
Otros -68.00 * * * 1.83
Pizza Hut -62.00 * * * 1.83
Ponderosa -92.00 * * * 1.83
Taco Bell -91.00 * * * 1.83
Taco Maker -50.00 * * * 1.83
Wendys -89.00 * * * 1.83
Regression Equation
Número = 113.0 + 0.0 Nombre_Burger King - 67.00 Nombre_Church’s -
83.00 Nombre_Domino’s
- 55.00 Nombre_Kentucky Fried Chicken - 93.00 Nombre_Little Ceasers
- 16.00 Nombre_McDonald’s - 68.00 Nombre_Otros - 62.00 Nombre_Pizza Hut
- 92.00 Nombre_Ponderosa - 91.00 Nombre_Taco Bell - 50.00 Nombre_Taco Maker
- 89.00 Nombre_Wendys
PROBLEMA#3
Transductores de temperatura de cierto tipo se envían en lotes de 50. Se seleccionó una
muestra de 60 lotes y se determinó el número de transductores en cada lote que no cumplen
con las especificaciones de diseño y se obtuvieron los datos siguientes:
2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3
a. Determine las frecuencias y las frecuencias relativas de los valores observados de x=
número de transductores en un lote que no cumple con las especificaciones.
12
b. ¿Qué proporción de lotes muestreados tienen a lo sumo cinco transductores que no
cumplen con las especificaciones? 3
c. ¿Qué proporción tiene menos de cinco? 49
d. ¿Qué proporción tienen por lo menos cinco unidades que no cumplen con las
especificaciones? 8
e. Trace un histograma de los datos que utilizan la frecuencia relativa en la escala
vertical y comente sus características.
PROBLEMA #4
El artículo (“Determination of Most Representative Subdivision”, J. of Energy Engr., 1993:
43-55) dio datos sobre varias características de subdivisiones que podrían ser utilizados para
decidir si se suministra energía eléctrica con líneas elevadas o líneas subterráneas. He aquí
los valores de la variable x _ longitud total de calles dentro de una subdivisión:
13
1280 5320 4390 2100 1240 3060 4770
1050 360 3330 3380 340 1000 960
1320 530 3350 540 3870 1250 2400
960 1120 2120 450 2250 2320 2400
3150 5700 5220 500 1850 2460 5850
2700 2730 1670 100 5770 3150 1890
510 240 396 1419 2109
a) Construya un histograma con los límites de clase, 0, 1000, 2000, 3000, 4000, 5000 y
6000. ¿Qué proporción de subdivisiones tienen una longitud total menor que 2000? 23
¿Entre 2000 y 4000? 15 ¿Cómo describiría la forma del histograma?
PROBLEMA 5.
En un estudio de productividad de autores (“Lotka’s Test”, Collection Mgmt., 1982: 111-
118), se clasificó a un gran número de autores de artículos de acuerdo con el número de
artículos que publicaron durante cierto periodo. Los resultados se presentaron en la
distribución de frecuencia adjunta:
6000500040003000200010000
12
10
8
6
4
2
0
Longitud
Fre
qu
en
cy
Histogram of Longitud
14
Número
de
artículos
1 2 3 4 5 6 7 8 9 1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
Frecuenci
a
78
4
20
4
12
7
5
0 33
2
8
1
9 19 6 7 6 7 4 4 5 3 3
a) Construya un histograma correspondiente a esta distribución de frecuencia. ¿Cuál es
la característica más interesante de la forma de la distribución? Que mientras se va
haciendo más grande el número de artículos escritos, menor cantidad de autores.
15
a. ¿Qué proporción de estos autores publicó por lo menos cinco artículos? 144
b. ¿Por lo menos diez artículos? 39
c. ¿Más de diez artículos? 32
d. Suponga que los cinco 15, los tres 6 y los tres 17 se agruparon en una sola categoría
mostrada como “15”.
e. ¿Podría trazar un histograma? Explique.
No se podría trazar el histograma porque cada no. De artículos tiene diferente
frecuencia y no tiene ninguna relación entre ellas
f. Suponga que los valores 15, 16 y 17 se enlistan por separado y se combinan en la
categoría 15-17 con frecuencia 11. ¿Sería capaz de trazar un histograma? Explique.
Aquí sí es posible porque en un intervalo se están englobando las tres frecuencias.
PROBLEMA 6
1) Los siguientes datos corresponden al sueldo (en miles de pesos) de trabajadores de una
Empresa
119 135 138 144 146 150 156 164
125 135 140 144 147 150 157 165
126 135 140 145 147 152 158 168
16
128 136 142 142 148 153 161 173
132 138 142 146 149 154 163 176
a) Construya la tabla de frecuencia con todos sus elementos.
b) ¿En qué clase se encuentra el mayor número de trabajadores?.
c) ¿Qué porcentaje de trabajadores gana entre $ 139.000 y $ 168.000 ?.
d) ¿Cuántos trabajadores ganan a lo menos $ 159.000 ?.
e) ¿Cuántos trabajadores ganan a lo más $ 148.000 ?.
SOLUTION
a) R = 176- 119= 57
N= 40
m=1+3.3log (N) =
m = (1+3.3log (40) = 6.28 approx. 6.
A= 57/6 =9.5 = 10
Sueldo limites reales xi fi hi Fi Hi
119-128 118.5-128.5 123.5 4 0.1 4 0.1
129-138 128.5-138.5 133.5 7 0.175 11 0.275
139-148 138.5-148.5 143.5 13 0.325 24 0.6
149-158 148.5-158.5 153.5 9 0.225 33 0.825
159-168 158.5-168.5 163.5 5 0.125 38 0.95
169-178 168.5-178.5 173.5 2 0.05 40 1
40
RESPUESTAS
b) En la tercera clase se encuentra el mayor número de trabajadores.
c) 67,5 % de los trabajadores gana entre $139.000 y $ 168.000
d) 7 trabajadores ganan a lo menos $ 159.000
e) 24 trabajadores ganan a lo más $ 148.000
17
PROBLEMA 7
En una industria es necesario realizar un estudio respecto al peso de engranajes de gran
tamaño. Los siguientes datos corresponden al peso, en kilógramos, de estas piezas, que
poseen las mismas dimensiones, pero distinta aleación.
58 52 50 52 40 50 38 52 50 45
168156144132120
9
8
7
6
5
4
3
2
1
0
sueldo
Fre
qu
en
cy
Histogram of sueldo
168156144132120
9/40
8/40
7/40
6/40
5/40
4/40
3/40
2/40
1/40
0
sueldo
Rel
ativ
e Fr
equ
ency
Histogram of sueldo
18
36 45 55 42 42 52 50 45 42 38
42 38 40 46 45 45 55 42 45 40
SOLUTION
a) R = 58- 36= 22
N= 30
m=1+3.3log (N) =
m = (1+3.3log (30) = 5.87 approx. 6.
A= 22/6 =9.5 = 3.7 === 4
Peso limites
reales Xi fi hi Fi Hi
36-40 35.5-40.5 38 7 0.23 7 0.23
41-45 40.5-45.5 43 11 0.37 18 0.6
46-50 45.5-50.5 48 5 0.17 23 0.77
51-55 50.5-55.5 53 6 0.2 29 0.97
56-60 55.5-60.5 58 1 0.3 30 1
TOTAL 30
a) Construir una tabla de frecuencias de amplitud comenzando desde
b) ¿Cuántos engranajes pesan entre y Kg?
c) ¿Qué porcentaje representa a aquellos engranajes cuyo peso es inferior a 1 Kg?
d) ¿Cuál es la frecuencia relativa para aquel intervalo cuya marca de clase es?
e) ¿Qué porcentaje representa a aquellas piezas que pesan más de Kg?
19
b) 11 engranajes pesan entre 46 y 55 kilos.
c) El 77 % de las piezas pesan menos de 51 kilos.
d) La frecuencia relativa es 0,17yh
e) El 23 % de las piezas pesa más de 50 kilos
5550454035
7
6
5
4
3
2
1
0
PESO
Fre
qu
en
cy
Histogram of PESO
5550454035
7/30
6/30
5/30
4/30
3/30
2/30
1/30
0
peso
Fre
qu
en
cy
Histogram of peso
20
PROBLEMA 8
En una industria automotriz es necesario realizar un estudio debido a una partida defectuosa
de discos de embrague. Para ello se ha recopilado la siguiente información referente a la
duración en horas de ellos.
285 300 286 302 313 314 289 292 321 327
293 289 292 289 308 326 303 287 293 322
304 329 2895 307 297 302 294 3011 285 313
308 307 304 291 288 297 3116 322 3117 308
321 324 323 316 292 286 299 2294 328 296
a) Construir una tabla de frecuencia de amplitud cinco comenzando desde
b) ¿Cuántos discos duraron entre y horas?
c) ¿Cuántos discos no alcanzaron a durar horas?
d) ¿Qué porcentaje representan los discos que duraron entre y horas?
e) ¿Qué porcentaje representan los discos que duraron menos de horas?
f) ¿Cuántos discos duraron más de horas?
g) ¿Cuántos discos duraron menos de horas?
h) ¿Qué porcentaje representan los discos que duraron entre y horas?
SOLUTION
DURACION LIMITES REALES Xi Fi hi Fi Hi
285-289 284.5-289.5 287 9 0.18 9 0.18
290-294 289.5-294.5 292 8 0.16 17 0.34
295-299 294.5-299.5 297 5 0.10 22 0.44
300-304 299.5-304.5 302 7 0.14 29 0.58
305-309 304.5-309.5 307 5 0.10 34 0.68
310-314 309.5-314.5 312 3 0.06 37 0.74
315-319 314.5-419.5 317 3 0.06 40 0.80
320-324 319.5-324.5 322 6 0.12 46 0.92
325-329 324.5-329.5 327 4 0.08 50 1
TOTAL 50
b) 13 discos duraron entre 290 y 299 horas.
c) 22 discos no alcanzaron a durar 300 horas.
d) El 6 % de los engranajes duraron entre 300 y 314 horas.
e) El 58 % de los engranajes duraron menos de 305 horas.
f) 16 engranajes duraron más de 309 horas.
g) 29 engranajes duraron menos de 305 horas.
h) El 16 % de los engranajes duraron entre 285 y 294 horas
21
PROBLEMA 9
Dada la información referente a la ubicación de personas dentro de cuatro departamentos de
una empresa, se pide
a) Tabular la información.
b) Realizar gráfico circular.
c) Indique frecuencias relativas porcentuales en cada grupo.
M A P CC A CC M P P M P CC M A M CC P P M P
A P A M M A M A P M M A CC A A M P M M P
3000240018001200600
50/50
40/50
30/50
20/50
10/50
0
DISCOS
Rela
tive F
req
uen
cy
Histogram of DISCOS
3000240018001200600
50
40
30
20
10
0
DISCOS
Fre
qu
en
cy
Histogram of DISCOS
22
Donde
A abastecimiento; CC control de calidad; M mantención; P producción.
SOLUTION
(a)
DEPARTAMENTO fi
A 10
CC 5
M 14
P 11
TOTAL 40
(B)
c)
DEPART fi Hi %
A 10 0.25 25
CC 5 0.125 13
M 14 0.35 35
P 11 0.275 28
TOTAL 40 1 100
A
CC
M
P
Category
P
27.5%
M
35.0%
CC
12.5%
A
25.0%
Pie Chart of PERSONA POR DEPARTAMENTO
23
DISTRIBUCION BINOMIAL Y NORMAL
Introducción
La distribución binomial es unas de las distribuciones de probabilidad discreta más
importantes. Recordemos que en una distribución de probabilidad discreta, la variable
aleatoria asigna un valor numérico a cada resultado en el espacio muestral del experimento.
La distribución binomial tiene que ver con una clase especial de experimento llamado
experimento binomial.
A. EXPERIMENTO BINOMIAL
Un experimento que tiene exactamente dos posibles resultados o dos categorías de resultados
conocidos como "éxito" o "fracaso".
Ejemplos 1
1. Experimento: Lanzar una moneda.
El experimento tiene solamente dos resultados (H, T), por lo tanto es un
experimento binomial.
2. Experimento: Probando una nueva droga contra una enfermedad.
La droga cura (éxito) o no cura (fracaso) la enfermedad. Por lo tanto es un
experimento binomial.
3. Experimento: Un jugador gana si obtiene un número mayor que 4 y pierde si obtiene
cualquier otro número en el lanzamiento de un dado.
Los resultados del experimento (lanzar un dado) se puede poner en una de
dos categorías:
5, 6 1, 2, 3, 4
Los resultados en la primera categoría se definen como "éxito" y los
resultados en la segunda categoría se definen como "fracaso".
24
B. PROCESO BERNOULLI
Digamos que la variable aleatoria (x) es la cantidad de éxitos. Contar la cantidad de
éxitos en un intento de un experimento binomial no es muy interesante debido a que
la variable aleatoria (x) puede asumir solamente dos (1, 0) posibles valores.
Supongamos que repetimos un experimento binomial siguiendo un procedimiento
especial llamado proceso Bernoulli.
Proceso Bernoulli Un experimento binomial se repite tal que:
1. La probabilidad de éxito es igual para cada intento del
experimento.
2. Los resultados de los intentos son independientes entre sí.
Si un experimento binomial se repite n veces según un proceso Bernoulli, entonces la
variable aleatoria (x) puede asumir los valores 0, 1, 2,…, n.
La distribución de probabilidad de la variable aleatoria (número de éxitos) (x) se
llama distribución binomial. Para definir completamente esta distribución
deberíamos, ya sea completar una tabla, o describir la distribución con una fórmula.
Preferimos la fórmula, debido a su simplicidad. La fórmula utiliza una notación,
llamada factorial, para calcular el producto de números enteros consecutivos.
Factorial
El producto n(n – 1) (n – 2)... 2.1 se representa como n! y se lee como el factorial de n.
Ejemplo 1. 3! = 3 · 2 · 1 = 6
2. 8! = 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 40320
3. 1! = 1
* 4. 0! = 1
Coeficiente Binomial
Si n y x son números enteros donde x n, la expresión
)!(!
!
xnx
n
Se llama el coeficiente binomial.
25
C. DISTRIBUCIÓN BINOMIAL
La probabilidad de obtener x número de éxitos en n intentos independientes de un
experimento binomial está dado por: xnx ppxnx
nxP
)1(
)!(!
!)(
Para x = 0, 1, 2,…, n, donde p es la probabilidad de éxito en cada intento.
Ejemplo 2: Si una moneda se lanza 15 veces, encuentre la probabilidad de obtener
exactamente 10 caras.
Solución: El lanzar una moneda es un experimento binomial. Dado que nos interesa
contar el número de caras, así reclamamos como éxito cuando salen éstas.
Dejemos que el número de éxitos sea la variable aleatoria (x).
Substituyendo
n = número de intentos = 15,
x = número de éxitos = 10, y
p = probabilidad de éxito (cara) en cada intento
=, obtenemos
101510 )5.01(5.0)!1015(!10
!15)10(
P
0916.0)5.0(5.0)!5(!10
!15)10( 510 P ó aproximadamente un 9% de
oportunidad.
LA DISTRIBUCION NORMAL
La distribución normal es una de las distribuciones más usadas e importantes. Se ha
desenvuelto como una herramienta indispensable en cualquier rama de la ciencia , la industria
y el comercio. Muchos eventos reales y naturales tienen una distribución de frecuencias cuya
forma es muy parecida a la distribución normal.
La distribución normal es llamada también campana de Gauss por su forma acampanada.
Y
X
26
Propiedades de la distribución normal
La distribución normal tiene forma de campana.
La distribución normal es una distribución de probabilidad que tiene media = 0 y
desviación estándar = 1.
El área bajo la curva o la probabilidad desde menos infinito a más infinito vale 1.
La distribución normal es simétrica, es decir cada mitad de curva tiene un área de 0.5.
La escala horizontal de la curva se mide en desviaciones estándar.
La forma y la posición de una distribución normal dependen de los parámetros y , en
consecuencia hay un número infinito de distribuciones normales.
Existe una relación del porcentaje de población a la desviación estándar. En la figura
observamos por ejemplo que el área bajo la curva para 1 tiene un porcentaje de 68.26%,
2 = 95.46% y %73.993
La población incluye todos los datos, la muestra es una porción de la población.
Población
x x+s x+2s x+3s x - s x - 2s x - 3s x x+s x+2s x+3s x - s x - 2s x - 3s
X
Muestra
+1s +2s +3s -1s -2s -3s
68.26%
95.46%
99.73%
27
La distribución normal estándar
El valor de z
Determina el número de desviaciones estándar entre algún valor X y la media de la
población . Para calcular el valor de Z usamos la siguiente fórmula.
XZ
La distribución de probabilidad f (Z) es una distribución normal con media 0 y desviación
estándar 1; esto es Z se distribuye normalmente con media cero y desviación estándar = 1
Z~N(0,1): La gráfica de densidad de probabilidad se muestra en la figura.
La distribución f (Z) se encuentra tabulada en la tabla de distribución normal estándar. En
esta tabla podemos determinar los valores de Z o la probabilidad de determinado valor Z.
Ejemplo 3: El gerente de personal de una gran compañía requiere que los solicitantes a un
puesto efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la
prueba se distribuyen normalmente con media 485 y desviación estándar 30 ¿Qué
porcentaje de los solicitantes pasará la prueba?
z0 1 2 3-1-2-3
z0 1 2 3-1-2-3 0 1 2 3-1-2-3
x x+ x+2 x+3x-x-2x-3 x x+ x+2 x+3x-x-2x-3
XX
La desviación estándar
sigma representa la
distancia de la media al
punto de inflexión de la
curva normal
1
0
Z
F(z)
28
Calculando el valor de Z obtenemos:
XZ = 5.0
30
485500
Buscamos el valor correspondiente Z en las tabla de distribución normal. Z0.5 = .69146 =
69.146%. siendo esta la probabilidad de que la calificación sea menor a 500 P (X<500). Dado
que el porcentaje pedido es )500( XP la solución es 1-.69146 =.3085 , 30.85% de los
participantes pasarán la prueba.
Ejemplo 4
Encuentre las probabilidades siguientes usando la tabla Z.
a) P(-1.23 < Z > 0)
Solución: Buscamos el valor Z1..23 en las tablas siendo este = .89065. restando .89065-.05
= .3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de –1.23 a
0 por simetría. Por lo tanto la probabilidad es .3905
Uso de la distribución normal en Excel
Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:
485
Z.05
30.85%
0
Z-1.23
29
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand. OK
Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic en
aceptar y aparecerá la probabilidad buscada f(z)= .903199
Para calcular Z dada una probabilidad f(z)
En la barra de herramientas seleccione el icono de funciones
fx>Estadísticas>Distr.Norm.Estand.inv OK
30
PROBLEMA 1
Si X es una variable aleatoria normal con media 80 y desviación estándar 10, calcule las
siguientes probabilidades mediante estandarización:
a) P(X ≤100)= 0.9772
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
100
0.9772
80
Distribution PlotNormal, Mean=80, StDev=10
b) P(X ≤ 80)= 0.5
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
80
0.5
Distribution PlotNormal, Mean=80, StDev=10
c) P(65 ≤ X ≤ 100) =0.9104
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
65
0.9104
80 100
Distribution PlotNormal, Mean=80, StDev=10
d) P(70 ≤ X)= 0.1587
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
70
0.1587
80
Distribution PlotNormal, Mean=80, StDev=10
e) P(85 ≤ X ≤ 95) = 0.2417
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
85
0.2417
80 95
Distribution PlotNormal, Mean=80, StDev=10
31
PROBLEMA#2
La cantidad de refresco envasada por una empresa esta normalmente distribuido con una
media de un litro (1000 ml) y tiene desviación estándar de 30ml. Calcule las probabilidades
de que una botellas aleatoriamente seleccionada tenga una cantidad de refresco.
a) De menos de 1010mil
b) Entre 980 y 1040mil
c) ¿cuál es valor máximo del 20% de las botellas con menor cantidad de líquido?
Solución
a) P(< 1010)=
Media=1000
Desd. Estándar = 30
Cumulative Distribution Function
Normal with mean = 1000 and standard deviation = 30
X P(X <= x)
1010 0.630559
a) P(< 1010) = 0.630559
b) P (98<X<1040), Media=1000, Desd. Estándar = 30
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
X
De
nsi
ty
980
0.6563
10401000
Distribution PlotNormal, Mean=1000, StDev=30
P (98<X<1040) = 0.6563
32
c) Cual es valor máximo del 20% de ls botellas con menor cantidad de líquido?
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
X
De
nsi
ty
974.8
0.2
1000
Distribution PlotNormal, Mean=1000, StDev=30
Horizontal cuando nos dice 974.8, es Cantidad máxima de este 20% de las botellas con
menor cantidad de líquido
PROBLEMA 3
Hay dos máquinas disponibles para cortar corchos para usarse en botellas de vino. La primera
produce corchos con diámetros que están normalmente distribuidos con media de 3 cm y
desviación estándar de 0.1 cm. La segunda máquina produce corchos con diámetros que
tienen una distribución normal con media de 3.04 cm y desviación estándar de 0.02 cm. Los
corchos aceptables tienen diámetros entre 2.9 y 3.1 cm. ¿Cuál máquina es más probable que
produzca un corcho aceptable?
Máquina 1
4
3
2
1
0
X
De
nsit
y
2.9
0.6827
3 3.1
Distribution PlotNormal, Mean=3, StDev=0.1
33
Máquina 2
20
15
10
5
0
XD
en
sit
y
2.9
0.9987
3.04 3.1
Distribution PlotNormal, Mean=3.04, StDev=0.02
Desde que observamos los datos proporcionados podemos determinar que la máquina dos es
la que tiene mayor probabilidad de que nos fabrique un corcho con las medidas estándares
requeridas, ya que tiene una desviación estándar muy pequeña. Pero determinando tanto
gráfica como la probabilidad de cada máquina tenemos que la máquina 1 nos proporciona una
p=0.6827 y la máquina 2 una p=0.9987, siendo la máquina 2 la que nos dará el mayor
porcentaje de corchos con las medidas que se requieren.
PROBLEMA 4
El dispositivo de apertura automática de un paracaídas de carga militar se diseñó para que
abriera el paracaídas a 200 m sobre el suelo. Suponga que la altitud de abertura en realidad
tiene una distribución normal con valor medio de 200 m y desviación estándar de 30 m. La
carga útil se dañará si el paracaídas se abre a menos de 100 m. ¿Cuál es la probabilidad de
que se dañe la carga útil de cuando menos uno de cinco paracaídas lanzados en forma
independiente?
0.014
0.012
0.010
0.008
0.006
0.004
0.002
0.000
X
De
nsit
y
100
0.0004291
200
Distribution PlotNormal, Mean=200, StDev=30
Su probabilidad a menos de 100m es de
0.0004291. Para 5 paracaídas que se
lanzaron, la probabilidad de que falle en
uno solo es de 0.0008582
34
PROBLEMA 5
a. Si una distribución normal tiene μ=30 y σ=5, ¿cuál es el 91o percentil de la
distribución? Es para una x=36.7
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
36.70
0.91
30
Distribution PlotNormal, Mean=30, StDev=5
b. ¿Cuál es el 6o percentil de la distribución? Para x=22.23
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
22.23
0.06
30
Distribution PlotNormal, Mean=30, StDev=5
c. El ancho de una línea grabada en un “chip” de circuito integrado normalmente está
distribuida con media de 3.000 μm y desviación estándar de 0.140. ¿Qué valor de
ancho separa 10% de las líneas más anchas del 90% restante?
3.0
2.5
2.0
1.5
1.0
0.5
0.0
X
De
nsit
y
2.821
0.1
3
Distribution PlotNormal, Mean=3, StDev=0.14
35
PROBLEMA 6
El artículo “Monte Carlo Simulation-Tool for Better Understanding of LRFD” (J. Structural
Engr., 1993: 1586- 1599) sugiere que la resistencia a ceder (lb/pulg2) de un acero grado A36
está normalmente distribuida con μ= 43 y σ= 4.5.
a. ¿Cuál es la probabilidad de que la resistencia a ceder sea cuando mucho de 40?
25.25% ¿De más de 60? 74.75
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
40
0.2525
43
Distribution PlotNormal, Mean=43, StDev=4.5
b. ¿Qué valor de resistencia a ceder separa al 75% más resistente del resto? 46.04
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
X
De
nsit
y
46.04
0.75
43
Distribution PlotNormal, Mean=43, StDev=4.5
PROBLEMA#7
Considere que un estudiante se presenta a su examen sin haberse preparado completamente y
no tener idea absoluta del tema visto. El examen consiste de 10 preguntas con 4 respuestas de
opción múltiple. Suponga que el estudiante adivina la respuesta de cada pregunta, considere
un experimento binomial. ¿Cuál es la probabilidad de que el examen, si ocupa 6 preguntas
correctas?
36
SOLUCION
0.30
0.25
0.20
0.15
0.10
0.05
0.00
X
Pro
ba
bili
ty
6
0.01973
0
Distribution PlotBinomial, n=10, p=0.25
P (Y 6) = 0.o1973 = 1.97% ese probabilidad para aprobar dicho examen sin prepararse
completamente
0.30
0.25
0.20
0.15
0.10
0.05
0.00
X
Pro
ba
bili
ty
5
0.9803
7
Distribution PlotBinomial, n=10, p=0.25
El grafica quiere decir que hay probabilidad de 98.03% de probar el examen sin
preparación.
37
PROBLEMA# 8
Calcular las probabilidades de obtener el trabajo si la solicitaran 10 personas y anteriormente
se observe que el 80% de las personas son aceptados
SOLUCIÓN
Welcome to Minitab, press F1 for help.
Probability Density Function
Binomial with n = 10 and p = 0.8
x P( X = x )
1 0.000004
2 0.000074
3 0.000786
4 0.005505
5 0.026424
6 0.088080
7 0.201327
8 0.301990
9 0.268435
10 0.107374
PROBLEMA#9
Calcule las siguientes probabilidades binomiales directamente con la fórmula para b(x; n, p):
a. b(3; 8, 0.35):
b. b(5; 8, 0.6):
c. P(3 ≤ X ≤ 5) cuando n = 7 y p = 0.6
P=P(X=6)-P(X=2)=0.87575
d. P(1 ≤ X) cuando n = 9 y p = 0.1
P=1-P(X=1) =0.22516
38
PROBLEMA#10
Un banco emprendió hace poco un nuevo programa de crédito. Los clientes que
reúnen ciertos requisitos obtienen una tarjeta de crédito que es aceptada por los comerciantes
del área y que recibe un descuento. Las cifras de los registros anteriores, muestran que 25 %
de las solicitudes son rechazadas.
Si la aceptación o rechazo de la solicitud de crédito es un proceso Bernoulli, Cual es
la probabilidad entre 14 solicitudes de que
a).- Exactamente 4 sean rechazadas.
b).- Exactamente 8 sean rechazadas.
c).- Menos de 3 sean rechazadas.
d).- Más de 5 sean rechazadas.
SOLUTION
1a) 1b)
n= 14
p 0.75
x p(x)
0 3.73E-09
1 1.56E-07
2 3.05E-06
3 3.66E-05
4 0.000302
5 0.001812
6 0.008155
7 0.027961
8 0.073398
9 0.146796
10 0.220195
11 0.240212
12 0.180159
13 0.08315
14 0.017818
probl 1b
n 14
p 0.75
x p(x)
0 3.72529E-09
1 1.56462E-07
2 3.05101E-06
3 3.66122E-05
4 0.00030205
5 0.001812302
6 0.008155357
7 0.027961224
8 0.073398214
9 0.146796428
10 0.220194642
11 0.240212336
12 0.180159252
13 0.083150424
14 0.017817948
(1a)
P(x=10)= 0.220195
(1b)
P(x=6) =0.008155357
39
c).- Menos de 3 sean rechazadas.
P(x>11)=1 - P(x
X P(x) acum P(x)
1- acum
P(x)
0 3.72529E-09 3.72529E-09 0.999999996
1 1.56462E-07 1.60187E-07 0.99999984
2 3.05101E-06 3.2112E-06 0.999996789
3 3.66122E-05 3.98234E-05 0.999960177
4 0.00030205 0.000341874 0.999658126
5 0.001812302 0.002154175 0.997845825
6 0.008155357 0.010309532 0.989690468
7 0.027961224 0.038270757 0.961729243
8 0.073398214 0.11166897 0.88833103
9 0.146796428 0.258465398 0.741534602
10 0.220194642 0.47866004 0.52133996
11 0.240212336 0.718872376 0.281127624
12 0.180159252 0.899031628 0.100968372
13 0.083150424 0.982182052 0.017817948
14 0.017817948 1 0
c) P(X>11) = 1- P (
P(X>11) = 1- 0.718872376 = 0.281127624
, d) x < 9
P(x<9) = P(X = 0.11166897
PROBLEMA 11
En la ciudad de Chihuahua la probabilidad de que una persona desarrolle alergia a algún
factor del medio ambiente es de 0.6 en colonias cercanas a las áreas industriales. Se
investigaran 15 gentes de colonias aledañas a los parques industriales, y se desea saber cuál
es la probabilidad de que:
a). Más de 8 hayan desarrollado alergias.
b). Menos de 10 hayan desarrollado alergias.
c). Al menos 12 hayan desarrollado alergias.
d). A lo más 8 hayan desarrollado alergias.
40
7a
x P(X)
0 1.07374E-06
1 2.52329E-05
2 0.000278904
3 0.001927769
4 0.009347661
5 0.033833303
6 0.095047408
7 0.213103183
8 0.390186844
9 0.59678445
10 0.782722294
11 0.909498098
12 0.972885999
13 0.994827965
14 0.999529815
15 1
P( X > 8 )
0.609813156
7b
x P(X)
0 1.07E-06
1 2.52E-05
2 0.000279
3 0.001928
4 0.009348
5 0.033833
6 0.095047
7 0.213103
8 0.390187
9 0.596784
10 0.782722
11 0.909498
12 0.972886
13 0.994828
14 0.99953
15 1
P(X˂10) = P(X 9)
P(X˂10)
= 0.596784
7c
0 1.07E-06
1 2.52E-05
2 0.000279
3 0.001928
4 0.009348
5 0.033833
6 0.095047
7 0.213103
8 0.390187
9 0.59 784
10 0.782722
11 0.909498
12 0.972886
13 0.994828
14 0.99953
15 1
P(X>=12)= 1 -P(X
11)
P(X
12)= 0.0905019
7d
0 1.074E-06
1 2.523E-05
2 2.789E-04
3 1.928E-03
4 9.348E-03
5 3.383E-02
6 9.505E-02
7 2.131E-01
8 3.902E-01
9 5.968E- 1
10 7.827E-01
11 9.095E-01
12 9.729E-01
13 9.948E-01
14 9.995E-01
15 1.000E+00
P(X˂ =8)
=0.390187
QUESTION #12
Un club nacional de automovilistas comienza una campaña telefónica con el propósito de
aumentar el número de miembros. Con base en experiencia previa se sabe que una de cada 20
personas que reciben la llamada se une al club. Si en un día 20 personas reciben la llamada
telefónica, Cual es la probabilidad de que por lo menos dos de ellas se inscriban al club.
SOLUTION
P = 1/20 = 0.05, q =0.95, n=20
X p(x) acum p(x) 1- acum p(x)
0 0.358485922 0.358485922 0.641514
1 0.377353603 0.735839525 0.26416
2 0.188676801 0.924516326 0.075484
3 0.059582148 0.984098474 0.015902
4 0.013327586 0.99742606 0.002574
5 0.002244646 0.999670706 0.000329
6 0.000295348 0.999966054 3.39E-05
7 3.10893E-05 0.999997143 2.86E-06
8 2.65895E-06 0.999999802 1.98E-07
9 1.86593E-07 0.999999989 1.13E-08
41
10 1.08028E-08 0.999999999 5.38E-10
11 5.16878E-10 1 2.11E-11
12 2.04031E-11 1 6.79E-13
13 6.60829E-13 1 1.79E-14
14 1.73902E-14 1 0
15 3.6611E-16 1 0
16 6.02155E-18 1 0
17 7.45703E-20 1 0
18 6.54125E-22 1 0
19 3.62396E-24 1 0
20 9.53674E-27 1 0
La probabilidad de que por lo menos dos de ellas se inscriban al club seria 0.26416
QUESTION #13
El encargado de la sección de electrónica de una tienda de departamentos se ha percatado de
que la probabilidad de que un cliente curioseando compre algún artículo es de 0.3.
Suponga que 15 clientes están curioseando en la sección de electrónica.
a).- Cual es la probabilidad de que por lo menos 1 adquiera algo.
b).- Por lo menos 4 compren algo.
c).- Ningún cliente compre algo.
d).- No más de 4 clientes compren algo.
SOLUTION
P=0.3, q = 0.7, n= 15
P(x 1) = P(x=1) + P(x=2) +……+P(x=15)
P(x 1) = 1 – P(x=0) P(x=0) = nCx * p^x*q^(n-1)
P(x=0) =
* ( *( = 4.747
*
P(x 1) = 1- ( = 0.99525
a) P(x 4) = 1 - P(X 3)
P(x 4) = 1 – 0.266867
P(x 4) = 0.734
b) P(x=0) = 0.00474
c) P( 4 ) =1- P(x P ( 4)= 0.5155
x p(x)
acum
p(x) 1 - p(x)
0 0.004747562 0.004748 0.995252
1 0.030520038 0.035268 0.964732
2 0.091560115 0.126828 0.873172
3 0.170040213 0.296868 0.703132
4 0.218623131 0.515491 0.484509
5 0.206130381 0.721621 0.278379
6 0.147235986 0.868857 0.131143
7 0.081130033 0.949987 0.050013
8 0.034770014 0.984757 0.015243
9 0.011590005 0.996347 0.003653
10 0.002980287 0.999328 0.000672
11 0.000580575 0.999908 9.17E-05
12 8.29393E-05 0.999991 8.72E-06
13 8.20279E-06 0.999999 5.17E-07
14 5.02212E-07 1 1.43E-08
15 1.43489E-08 1 0
42
QUESTION # 14
Un fabricante de cera para pisos ha desarrollado dos nuevas marcas, A y B, y desea
evaluarlas para determinar cuál de las dos es superior. Para esto se aplican las ceras A y B a
superficies de piso en 15 casas. Si realmente no hay diferencia en la calidad de las marcas,
Cual es la probabilidad de que 10 o más amas de casa prefieran la marca A.
SOLUTION
n=15 P= 0.50 q = 0.50 x 10
P (x 10) = 1 - x
X p(x) acum P(x)
1-acum
P(x)
0 3.05176E-05 3.05176E-05 0.99996948
1 0.000457764 0.000488281 0.99951172
2 0.003204346 0.003692627 0.99630737
3 0.013885498 0.017578125 0.98242188
4 0.041656494 0.059234619 0.94076538
5 0.091644287 0.150878906 0.84912109
6 0.152740479 0.303619385 0.69638062
7 0.196380615 0.5 0.5
8 0.196380615 0.696380615 0.30361938
9 0.152740479 0.849121094 0.15087891
10 0.091644287 0.940765381 0.05923462
11 0.041656494 0.982421875 0.01757812
12 0.013885498 0.996307373 0.00369263
13 0.003204346 0.999511719 0.00048828
14 0.000457764 0.999969482 3.0518E-05
15 3.05176E-05 1 0
P (x 10) = 1 - x = 0.15087891
QUESTION #15
La última encuesta política indica una probabilidad de 0.3 para el partido verde, 0.55 para el
colorado y 0.15 para otras tendencias. Suponga que se seleccionan 10 individuos al azar:
a).- Cual es la probabilidad de que 4 sean del verde.
b).- Probabilidad de que ninguno sea del colorado.
c).- Probabilidad de que dos tengan otras tendencias.
d).- Probabilidad de que al menos 8 sean del verde.
SOLUTION
P (v) = 0.3, n = 10
43
b) X=0 P = 0.55, q =0.45
a) P(x=4) = 0.200120949 P(x=0) = 0.000340506
x P(x)
0 0.028247525
1 0.121060821
2 0.233474441
3 0.266827932
4 0.200120949
5 0.102919345
6 0.036756909
7 0.009001692
8 0.001446701
9 0.000137781
10 5.9049E-06
8, P = c) X = 2 d) x
0.3, q = 0.7
P= 0.15, q = 0.85
P(x=2) = 0.275897
8) = 1 - P(x
P(x ) = 1 – 0.99841
P(x 8) =0.001590386
PROBLEMA 16
En una planta maquiladora se está recibiendo un material defectuoso, que llega a alcanzar
hasta el 40 % de defectuosos. Si se toma una muestra de 13 unidades, cual es la probabilidad
de que:
a). No haya defectuosos.
b). Encontrar a lo más 2 unidades defectuosas.
c). Encontrar más de 6 unidades defectuosas.
d). Encontrar al menos 8 unidades defectuosas.
x p(x)
0 0.000340506
1 0.004161744
2 0.022889589
3 0.074603106
4 0.159567755
5 0.234032708
6 0.238366647
7 0.166478293
8 0.076302551
9 0.02072415
10 0.002532952
x p(x)
0 0.196874
1 0.347425
2 0.275897
3 0.129834
4 0.040096
5 0.008491
6 0.001249
7 0.000126
8 8.33E-06
9 3.27E-07
10 5.77E-09
44
SOLUTION
a) q = 0.4, p = 0.6 n = 13
P(X = 13) = 1.3061E-03
Tabla para resolver b, c y d
b) P(x 11) = 1- P(x ) = 5.7902E
c) P(x< 7) = 1 - P(x 7) =
P(x ) = P(x ) = 2.2884E-01
d) x 5
P(x ) = 9.7671E-02
PROBLEMA 17
Cuando se utilizan tarjetas de circuito en la fabricación de reproductores de discos compactos
se prueban; el porcentaje de defectuosas es de 5%. Sea X = el número de tarjetas defectuosas
en una muestra aleatoria de tamaño n = 25, así que ( .
a. Determine P(X ≤2). 0.87289
b. Determine P(X ≥5). P=1-P(4)= 0.00716
c. Determine P(1 ≤X ≤ 4). P=P(5)-P(0)= 0.7214
d. ¿Cuál es la probabilidad que ninguna de estas 25 tarjetas esté defectuosa? 0.27739
x P(x)
0 6.7109E-06
1 1.3086E-04
2 1.1778E-03
3 6.4777E-03
4 2.4291E-02
5 6.5587E-02
6 1.3117E-01
7 1.9676E-01
8 2.2135E-01
9 1.8446E-01
10 1.1068E-01
11 4.5277E-02
12 1.1319E-02
13 1.3061E-03
x P(x) acum P(x) 1- acum P(x)
0 6.7109E-06 6.7109E-06 9.9999E-01
1 1.3086E-04 1.3757E-04 9.9986E-01
2 1.1778E-03 1.3153E-03 9.9868E-01
3 6.4777E-03 7.7930E-03 9.9221E-01
4 2.4291E-02 3.2084E-02 9.6792E-01
5 6.5587E-02 9.7671E-02 9.0233E-01
6 1.3117E-01 2.2884E-01 7.7116E-01
7 1.9676E-01 4.2560E-01 5.7440E-01
8 2.2135E-01 6.4696E-01 3.5304E-01
9 1.8446E-01 8.3142E-01 1.6858E-01
10 1.1068E-01 9.4210E-01 5.7902E-02
11 4.5277E-02 9.8737E-01 1.2625E-02
12 1.1319E-02 9.9869E-01 1.3061E-03
13 1.3061E-03
45
PROBLEMA 18
Se utiliza un número telefónico particular para recibir tanto llamadas de voz como faxes.
Suponga que 25% de las llamadas entrantes son faxes y considere una muestra de 25
llamadas entrantes. ¿Cuál es la probabilidad de que
a. Cuando mucho 6 de las llamadas sean un fax? 0.56110
b. Exactamente 6 de las llamadas sean un fax? 0.34823
c. Por lo menos 6 de las llamadas sean un fax? 0.62172
d. Más de 6 de las llamadas sean un fax? 0.4389
Continúa →
46
PROBLEMAS SOBRE ELEMENTOS DE PROBABILIDAD:
INTRODUCCIÓN
Se dice que un experimento es aleatorio, estocástico o estadístico, sí, pudiéndose repetir
indefinidamente en análogas condiciones, es imposible predecir el resultado, aun
conociendo las condiciones iniciales. En un experimento aleatorio no conocemos el resultado
hasta que se ha realizado la prueba.
Ejemplos
- Sacar una carta de la baraja
- Lanzar un dado
- Lanzar una moneda
- Sacar una bola de un bombo de la lotería
NO SON EXPERIMENTOS ALEATORIOS:
- El resultado de una reacción química
- La velocidad de llegada de un cuerpo a tierra al dejarlo caer desde una torre
Nota
Llamaremos prueba a cada realización de un experimento.
Definición
El conjunto de todos los resultados posibles a que puede dar lugar un experimento
aleatorio se llama espacio muestral. Suele representarse por E ó ; y diremos que es
finito si el número de resultados posibles es finito.
Definición
Dado un experimento aleatorio cuyo espacio muestral es E, se llama suceso a cada uno de
los subconjuntos de E.
Distinguimos los siguientes tipos de sucesos:
- Suceso simple o elemental: sólo consta de un elemento
- Suceso compuesto: consta de dos o más elementos
- Suceso imposible: es el que nunca puede realizarse (viene
determinado por el conjunto vacío, )
- Suceso seguro: es el que siempre se cumple (viene determinado por
el conjunto total, E )
- Sucesos disjuntos o mutuamente excluyentes: aquellos sucesos A
y B que no pueden realizarse a la vez, A B =
47
Ejemplo
Clarifiquemos estos conceptos con unos ejemplos: Realizamos el experimento aleatorio
“Lanzar un dado”
- Espacio muestral: E = {1, 2, 3, 4, 5, 6}
- Suceso simple: Sacar un 2 = {2}
- Suceso compuesto: Sacar un número impar = {1, 3, 5}
- Suceso imposible: Sacar un 7 = { }
- Suceso seguro: Sacar un nº menor que 7 = {1, 2, 3, 4, 5, 6} = E
- Sucesos disjuntos: A = Sacar un nº par = {2, 4, 6}
B = Sacar un nº impar = {1, 3, 5}
Nota
Teniendo en cuenta que los sucesos son subconjuntos de E (de ), podemos aplicarles la
teoría general de conjuntos. Nos interesarán las uniones, intersecciones, diferencias y
complementarios entre conjuntos.
Propiedades de la teoría de conjuntos
- Conmutativa:
A B = B A A B = B A
- Asociativa:
A (B C) = (A B) C A (B C) = (A B) C
- Leyes de Morgan:
AB = A B A B = A B
- Distributivas:
A (B C) = (A B) (A C)
A (B C) = (A B) (A C)
Además:
A A = A A = A – B = A B
Ejemplo
Sea el experimento aleatorio “Lanzar un dado”, y sean: Suceso A = “sacar un número par” =
{2, 4, 6}
Suceso B = “sacar un número mayor o igual a 4” = {4, 5, 6}
48
Se tiene:
A = {1, 3, 5 B = {1, 2, 3
A B = {2, 4, 5, 6 A B = {4, 6
A – B = {2 B – A = {5
FRECUENCIAS
Se llama frecuencia de un suceso aleatorio al número de veces que ocurre dicho suceso al
realizar un experimento. Se denota F. Se llama frecuencia relativa de un suceso aleatorio al
cociente entre la frecuencia y el número de veces que se ha realizado el experimento. Se
denota f.
Acotaciones de las frecuencias:
Consideremos un resultado elemental del experimento aleatorio y observemos en n
realizaciones la frecuencia con que se ha presentado este suceso, que llamaremos r.
Evidentemente: 0 Fn (x = r) n
Si dividimos entre n: 0 [ Fn ( x = r ) / n ] 1
Por lo tanto, 0 fn (x = r) 1
PROBABILIDAD
CONCEPTO DE PROBABILIDAD
El concepto de probabilidad se aplica a los elementos de una población homogénea.
Supongamos una población finita con N elementos, k de los cuales tienen la característica
A. Llamaremos “probabilidad de la característica A en la población” a la frecuencia relativa
k / N. Se escribe:
P (A) = k / N
AXIOMÁTICA DE LA PROBABILIDAD
AXIOMA 1: La probabilidad del suceso seguro vale 1. P ( ) = 1.
AXIOMA 2: La probabilidad de cualquier otro suceso S es no
Negativa. P (S) 0.
AXIOMA 3 : La probabilidad de la unión de dos sucesos, A y B,
Mutuamente excluyentes, es la suma de sus probabilidades. Si A B =, entonces
P(AB) = P(A) + P (B)
49
Generalizando este último axioma:
La probabilidad de la unión de un conjunto infinito numerable de sucesos mutuamente
excluyentes es igual a la suma de sus probabilidades.
P (Ai) = P (Ai) = P (A1) + P (A2) + ...........
PROPIEDADES DE LA PROBABILIDAD
De estos axiomas podemos deducir una serie de propiedades:
Propiedad 1
Si A1, A2,......., An son sucesos disjuntos dos a dos con n 2 (o sea, Ai Aj = con i j,
entonces:
P ( A1 A2 ....... An ) = P ( A1 ) + P ( A2 ) + ....... + P ( An )
Demostración
Es inmediata por el Axioma 3, ya que el número de sucesos que hemos tomado es n (un
nº finito ), y ya teníamos que se cumple para dos sucesos y para una cantidad infinita
numerable se cumple para una cantidad finita.
Propiedad 2
P (A) = 1 – P (A), siendo A un suceso cualquiera.
(Nota: A es el complementario de A).
Demostración
A A = P (A A) = P ( ) = 1
Y como A A = AXIOMA
3 P (A A) = P (A) + P (A)
De ambas consecuencias, P(A) + P(A) = 1 P(A) = 1 – P (A)
Propiedad 3
P ( ) = 0
Demostración
= P () = P ( )
Por la Propiedad 2, P ( ) = 1 – P ( ) = 1 – 1 = 0
Por lo tanto, P ( ) = 0.
Propiedad 4
50
P (S) 1, siendo S un suceso cualquiera.
Demostración
Por reducción al absurdo, supongamos que P (S) > 1. Como por la Propiedad 2 se tiene que
P (S)+P(S) = 1, deberá ser P(S) < 0, pero esto no puede ser, ya que por el AXIOMA 2,
La probabilidad de cualquier suceso siempre es 0
Nota
Del AXIOMA 2 y de la Propiedad 4 deducimos:
0 P (S) 1, siendo S un suceso cualquiera.
Propiedad 5
Dados dos sucesos A y B tales que A B P ( A ) P ( B )
Demostración
Luego B = A (B A)
Además, A (B A) = A y (B A) son disjuntos
Por lo tanto, por el AXIOMA 3: P (B) = P (A) + P (B A)
Como, por el AXIOMA 1 , P ( B A ) 0 P ( B ) P ( A )
Propiedad 6
A, B , P (A B) = P (A) + P (B) – P (A B
Al hacer A + B, tomamos dos veces A B, luego para calcular lo que queremos hemos
de restar una vez A B.
Definición
Llamaremos espacios muéstrales finitos a los espacios muéstrales que provengan de
experimentos para los cuales sólo existe un número finito de resultados posibles, así = {
w1, w2, ... , wn }
En un experimento aleatorio con un espacio muestral finito, una distribución de
probabilidad se especifica asignando una probabilidad pi a cada resultado wi , pi = P ( {
wi } ) . Debe cumplirse:
a) pi 0
b) P ( ) = 1 pi = 1
En estas condiciones, si A = {wi1, wi2,..., wir }, se tiene P(A) = pij
Definición
51
Llamaremos espacios muéstrales simples a los espacios muéstrales finitos en los que todos
los resultados son equiprobables (tienen la misma probabilidad). Si = {w1, w2,..., wn } ,
entonces P({wi}) = 1 / n ,
i = 1,..., n
En estos espacios muestrales simples, dado un suceso
A = {w1, w2,...., wk } con k < n se tiene:
P (A) = casos favorables = k
Casos posibles n
Esto está estrechamente relacionado con la Fórmula de Laplace:
P (S) = nº de elementos de S = casos favorables
nº de elementos de casos posibles (siendo S un suceso cualquiera)
Ejemplo
Si lanzamos una moneda dos veces, ¿cuál es la probabilidad de obtener al menos una
cara?
El espacio muestral correspondiente es = { (C,C), (C,), (,C), (,) } , siendo
C = cara y = cruz
Sea el suceso A = “al menos una cara” = {(C, C), (C,), (, C)}
Así, la probabilidad pedida es:
P (A) = casos favorables = 3
Casos posibles 4
CONTEO DE ELEMENTOS
A veces, contar el número de elementos puede ser difícil. Para ello utilizaremos lo que se
conoce con el nombre de combinatoria. Llamaremos “n factorial” (o “factorial de n”),
designándolo por n! , al producto de los n primeros números naturales. Es decir, n! =
1·2·3·4·...
....·(n-1) ·n
Nota: Se define 0! = 1
Se deducen las siguientes relaciones:
n! · (n+1) = (n+1)!
n! = (r+1) ·(r+2) ·(r+3) ·....· (n-1) ·n r!
Suponiendo todos los elementos distintos, tenemos:
52
a) Variaciones: Dados n elementos, llamaremos variaciones de orden k a todos los conjuntos
distintos que podamos formar con esa n elementos, tomados de k en k teniendo en cuenta
el orden. El número de tales variaciones es Vn,k = _n!___
(n-k)!
b ) Permutaciones: Dados k elementos, llamaremos permutaciones de orden k a todos
los conjuntos distintos que podamos formar con esos k elementos, tomados de k en
k. El número de tales permu- taciones es Pk = k!
c ) Combinaciones: Dados n elementos, llamaremos combinaciones de orden k a todos
los conjuntos distintos que podamos formar con esos n elementos, tomados de k en k
sin tener en cuenta el or-den. Su número es igual a Cn,k = n!___ = n
k! (n-k)! k
Se cumple la siguiente propiedad: Vn,k = Cn,k · Pk Suponiendo que los elementos se pueden
repetir, tenemos:
d ) Variaciones con repetición: A partir de n elementos distintos formamos variaciones de
orden k tales que 2, 3, ...., los k elementos Pueden ser uno mismo. El número de tales
variaciones, que designa- Remos por VRn,k , es VRn,k= nk
e ) Permutaciones con repetición: Sean k elementos, de los que k1 son Iguales entre sí, k2
son iguales entre sí,......, kr son iguales entre sí, con k1 + k2 + ....... + kr = k . El número de
tales permutaciones es igual a
PRk ,k , .....,k
= k!____
k1!·k2!·.....·kr!
f) Combinaciones con repetición: A partir de n elementos distintos,formamos
combinaciones de orden k tales que 2 de sus element tos, 3,...., k elementos pueden ser
uno mismo. El número de tales combinaciones es
CRn,k = n + k – 1 = (n + k – 1)!
k k! (n – 1)!
Si suponemos que ha ocurrido B, tendremos un nuevo espacio muestral,
B = B = B, y así:
P (A / B) = nº de casos favorables en AB =
nº de casos posibles en B
Por lo tanto:
P (A / B) = P (A B)
P (B)
53
Ejemplo:
En un juego de dados, hemos apostado por el 2. Se tira el dado, y antes de ver el resultado,
nos dicen que ha salido par. Hallar la probabilidad de ganar.
Sea A = {obtener un 2 al lanzar un dado}
Sea B = {obtener un nº par al lanzar un dado}
P (A) = 1 y P (B) = 3
6 6
Por la expresión de la probabilidad condicionada, P(A/B) = P(AB)
P (B)
Notar que A B = {obtener un 2} {obtener un nº par} =
= {obtener un 2}, por lo que P (A B) = 1
6
Así, P (A / B) = P (A B) = 1 / 6 = 1
P (B) 3 / 6 3
PROBABILIDAD COMPUESTA (TEOREMA DEL PRODUCTO)
Sea un espacio muestral , dados dos sucesos A y B () tal
Que P (A) > 0 y P (B) > 0, se cumple:
P (A B) = P (A / B) · P (B)
P (B A) = P (B / A) · P (A)
Esto es así porque por la definición de la probabilidad condicional,
P ( A / B ) = P ( B A ) P ( B A ) = P ( A / B ) · P ( B )
P (B)
Análogamente, P (B/A) = P (BA) P (BA) = P (B/A) · P(A)
P(A)
Si en vez de 2 sucesos tenemos n sucesos:
Sean A1, A2, A3, A4 ..., An ( ):
P[ Ai ] = P(A1)·P(A2/A1)·P(A3/A1A2)·P(A4/A1A2A3)·...·P(An/ Ai)
Ejemplo
Supongamos que se extraen 4 bolas sin reemplazamiento de una urna que contiene 8
rojas y 10 azules. Calcular la probabilidad de obtener “azul, rojo, rojo, azul “
P (A1R2R3A4) = P (A1)·P(R2/A1)·P(R3/A1R2)·P(A4/A1R2R3) =
= 10. _8_. _7_. _9_ = 0,0686
18 17 16 15
54
1.1 PROBABILIDAD TOTAL
Dado un espacio muestral , y siendo {Ai} () / Ai = y
Ai Aj = i j , y siendo B un suceso del que se conoce P(B/Ai),
i, se tiene que:
P(B) = P(B/Ai) · P(Ai)
Demostración
B = (BA1)(BA2)(BA3)....(BAi)....(BAn)
Como son todos disjuntos:
P (B) = P (BA1) + P (BA2) + P (BA3) +..... + P (BAn)
Y aplicando el Teorema del Producto:
P (B) = P (B/A1) · P (A1) + P (B/A2) · P (A2) +.... + P (B/An) · P (An) =
= P (B/Ai) · P (Ai) P (B) = P (B/Ai) · P (Ai)
Ejemplo
Dos cajas contienen cerrojos grandes y pequeños. Supongamos que una caja contiene 30
grandes y 10 pequeños, y que la otra contiene 30 grandes y 20 pequeños. Seleccionamos
una caja al azar y extraemos un cerrojo. ¿Cuál es la probabilidad de que el cerrojo sea
pequeño?
Sean A1 = “seleccionar caja 1”
A2 = “seleccionar caja 2”
B = “seleccionar cerrojo pequeño”
P (B) = P (A1) · P (B/A1) + P (A2) · P (B/A2) = 1/2 · 10/40 + 1/2 · 20/50 =
= 0,125 + 0,2 = 0,325
TEOREMA DE BAYES
Sea un espacio muestral.
Sean {Ai} () / Ai = , Ai Aj = i j, conociéndose
P (Ai) i, P (Ai) > 0
Sea B un suceso tal que P (B) > 0 y del que se conocen P (B/Ai) i
E ntonces :
P (Ai/B) = ________ P (B/Ai) · P(Ai) ____________________
P (B/A1) ·P (A1) + P (B/A2) ·P (A2) + .......+ P (B/An) ·P (An)
55
Es decir:
P (Ai/B) = __P (B/Ai) · P (Ai) __
P (B/Ak) · P (Ak)
Demostración:
P (Ai/B) = P (Ai B) por la probabilidad condicionada.
P (B)
Si en el numerador aplicamos el Teorema del Producto, y en el
Denominador la Probabilidad Total, queda:
P (Ai/B) = P (AiB) = P (B/Ai) · P (Ai) ___
P (B) P (B/Ak) · P (Ak)
Ejemplo
Para la fabricación de un gran lote de artículos similares se utilizan 3 máquinas: M1, M2 y
M3. La máquina 1 fabrica el 20%, la máquina 2 el 30%, y la máquina 3 el 50% restante. La
máquina 1 produce un 1% de defectuosos, la máquina 2 un 2% de defectuosos y la máquina
3 un 3%. Se selecciona un artículo al azar y resulta ser defectuoso. Calcular la
probabilidad de que haya sido producido por la máquina 3.
Sean: D = “ser defectuoso”
Mi = “ser fabricado por Mi”
Así: P (M1) = 0,2 P (M2) = 0,3 P (M3) = 0,5
P (D/M1) = 0,01 P (D/M2) = 0,02 P (D/M3) = 0,03
Nos piden la probabilidad del suceso M3/D. Se cumple que M1, M2 y M3 forman una
partición, por lo que:
P (M3/D) = P (D/M3) · P (M3) = 0,03 · 0,5= P (D/Mi) · P (Mi)
0,01·0,2 + 0,02·0,3 + 0, 0330,5 = 0,015_ = 0,6522
0,023
INDEPENDENCIA DE SUCESOS
Dos sucesos A y B son estocásticamente independientes cuando P(A/B) = P(A) , o sea,
que el hecho de que ocurra el suceso B no influye para nada en la probabilidad del suceso A
Teorema de Caracterización :
Dos sucesos A y B son independientes si P(AB) = P(A) · P (B)
56
Veámoslo: () P(AB) = P(A/B) · P (B)
Si son independientes , se tiene que P(A/B) = P(B) Uniendo ambas cosas, P(AB) = P(A)
· P(B) () Ahora se tiene que P(AB) = P(A) · P(B) Como P(AB) = P(A/B) · P(B) ,
sustituyendo :
P(A) · P (B) = P(A/B) · P (B)
Por lo tanto, P(A) = P(A/B), y así los sucesos A y B son independientes.
Consecuencia:
P(A/B) = P(A) P (B/A) = P (B).
Propiedades de la independencia estocástica:
1.- Si A y B son independientes A y B también lo son
2.- Si A y B son independientes A y B también lo son
3.- Si A y B son independientes A y B también lo son
4.- Si existe implicación entre A y B No existe independencia
(Salvo que A = ó B =)
5.- Si dos sucesos son incompatibles No existe independencia
(Salvo que P(A) = 0 ó P (B) =0)
Nota:
Diremos que tres sucesos A1, A2 y A3 son independientes si, y sólo si, verifican las
relaciones:
P (A1A2) = P (A1) · P (A2)
P (A1A3) = P (A1) · P (A3)
P (A2A3) = P (A2) · P (A3) y
P (A1A2A3) = P (A1) · P (A2) · P (A3)
57
PROBLEMA #1
El departamento de personal en una empresa ha descubierto que solo el 60 % de los
candidatos entrevistados están realmente calificados para ocupar un cargo en la Compañía.
Una revisión de los registros muestra que quienes estaban calificados, el 67 % tuvo un
entrenamiento previo mientras que el 20 % de quienes no estaban calificados habían recibido
la instrucción. En el departamento de selección de personal se está considerando conceder
entrevistas solo a aquellos que tengan la capacitación. Bajo esta
SOLUTION
V.D:…( (
( )
V.I:…….( (
( )
DATOS
P(C/E)=0. P(C/N)=0.20 P (E)= 0.60 P(N)=0.40 P(C)=?
DIAGRAM DEL ARBOL
RESULTS
C 0.7 P(EnC)= P(E ) *P(C/E) = 0.402
E 0.6
P 0.3 P(EnP)= P(E ) *P(P/E) = 0.198
C 0.2 P(NnC)=P(N)*P(C/N)= 0.08
N 0.4
P 0.8 P(NnP)=P(N)*P(P/N)= 0.32
C P TOTAL
E 0.402 0.198 0600
N 0.080 0.320 0.400
TOTAL 0.482 0.518 1
Entonces,
P(C) = 0.482
PROBLEMA #2
Para ir a su trabajo un individuo puede hacerlo en autobus o en tranvía, y eso lo hace con
probabilidades de 0.3 y 0.7 respectivamente. Cuando viaja en el autobus, llega tarde en 30 %
de las veces, y cuando viaja en tranvía llega tarde el 20 % de las veces. Dado que en un día
determinado, el individuo llegó tarde, cual es la probabilidad de que haya viajado en autobus.
58
SOLUTION
V.D…( (
( )
V.I:…….( ( (
)
DATOS
P(R/A)=0.3 P(R/T)=0.7 P(A)= 0.3 P (T)=0.7 P (E/A)=0.7 P (E/T)= 0.8
DIAGRAM DEL ARBOL
RESULTS conjuntas
E 0.7 P(AnE)= P(A ) *P(E/A) = 0.21
A 0.3
R 0.3 P(AnR)= P(A ) *P(R/A) = 0.09
E 0.8 P(TnE)=P(T)*P(E/T)= 0.56
T 0.7
R 0.2 P(TnR)=P(T)*P(R/T)= 0.14
Tabla de doble entrada
E R TOTAL
A 0.21 0.09 0.30
T 0.56 0.14 0.70
TOTAL 0.77 0.23 1
Entonces,
P (A/E) =) = (
( = 0.21/0.77 = 0.272
P(A/R) = (
( = 0.09/0.23 = 0.391
P(A/R) = 0.391
59
PROBLEMA #3
Se dispone de dos métodos, el A y el B, para enseñar determinada destreza en manufactura.
El índice de reprobados es de 20 % para el método A y 10 % para el B. Sin embargo, el
método B es más caro y, por lo tanto, solo se usa el 30 % del tiempo, y el A, el otro 70 %. A
un trabajador se le adiestra con uno de los métodos, pero no puede aprender en forma
correcta. Cuál es la probabilidad de que se le haya adiestrado con el método A.
SOLUTION
V.I...( (
( )
V.D…( ( (
)
Datos
P(N/A)=0.20 P(N/B)=0.10 P (B)= 0.30 P(A)=0.70 P(A/N)=?
DIAGRAM DEL ARBOL
RESULTS
conjuntas
D 0.8 P(AnD)=0.56
A 0.7
N 0.2 P(AnN)=0.14
D 0.9 P(BnD)=0.27
B 0.3
N 0.1 P(BnN)=0.03
P(A/B) = (
( =0.56/0.83 = 0.675
P(A/N) = (
( =0.14/0.17 = 0.824
P(A/N) = 0.824
Tabla de doble entrada
D N TOTAL
A 0.56 0.14 0.7
B 0.27 0.03 0.3
TOTAL 0.83 0.17 1
60
PROBLEMA #4
Una compañía compra neumáticos de 2 proveedores, 1 y 2. El proveedor 1 tiene un
antecedente de suministrar llantas con 10 % de defectuosas, en tanto que el proveedor 2 tiene
una tasa de solo el 5 % de defectuosas. Supongase que el 40 % de las existencias actuales
vinieron del proveedor 1. Si se toma una llanta de esa existencia y se ve que esta defectuosa,
calcular la probabilidad de que la haya suministrado el proveedor
SOLUTION
V.I:------ Es defectuosa (D) ------ No es defectuosa (N)
V.D:------------sumistrada por el provedor 1 (A)
-------------sumistrada por el provedor 2 (B)
DATOS:
P (D/A) =0.1 P (N/A) =0.9
P (D/B) =0.05 P (N/B) =0.95
P (A) =0.40 P (B) =0.60
DIAGRAM DEL ARBOL
Tabla de doble entrada
A B TOTAL
D 0.04 0.03 0.07
N 0.36 0.57 0.93
TOTAL 0.40 0.60 1
P(A/D)= (
( =0.04/0.07= 0.571
Entonces, P (B/D)= 1- 0.571 = 0.429
RESULTS
conjuntas
D 0.1 P(AnD)=0.04
A 040
N 0.9 P(AnN)=0.36
D 0.05 P(BnD)=0.03
B 0.60
N 0.95 P(BnN)=0.57
61
PROBLEMA #5
Un inversionista está pensando en comprar un número grande de acciones de una compañía.
La cotización de las acciones en la bolsa, durante los 6 meses anteriores es de gran interés
para el inversionista. Con base en ésta información se observa que la cotización se relaciona
con el PNB. Si el PNB aumenta, la probabilidad de que las acciones aumenten su valor es de
0.8. Si el PNB es el mismo, la probabilidad de que las acciones aumenten su valor es de 0.2.
Si el PNB disminuye, la probabilidad de que el valor de las acciones aumente es solo 0.1. Si
para los siguientes 6 meses se asignan probabilidades de 0.4, 0.3 y 0.3 a los eventos el PNB
aumentan, es el mismo y disminuye, respectivamente, determinar la probabilidad de que las
acciones aumenten su valor en los próximos 6 meses.
SOLUTION
V.I...( ( (
( (
( ))
V.D…(( ( (
( ))
Datos
P(X/A) =0.8 P(X/B) =0.2 P(X/C) =0.1
DIAGRAM DEL ARBOL
RESULTS CONJUNTAS
X 0.8 P(AnX) = P(A) *P(X/A) =
0.32
A 0.4
Y 0.2 P(AnY) = P(A) * P(Y/A)=
0.08
X 0.2 P(BnX) = P(B) * P(X/B) =
0.06
B 0.3
Y 0.8 P(BnY) = P(B) * P(Y/B) =
0.24
X 0.1 P(CnX) = P(C) * P(X/C) =
0.03
C 0.3
Y 0.9 P(CnY) = P(C) * P(Y/C) =
0.27
62
Tabla de doble entrada
ACCIÓN A B C TOTAL
X 0.32 0.06 0.03 0.41
Y 0.08 0.24 0.27 0.59
TOTAL 0.4 0.3 0.3 1
A 0.78 P(A/X)= P(AnX)/P(X) = 0.32/0.41 =
0.78
X 0.41 B 0.95
C
A 0.05
Y 0.59 B 0.95
C
Entonces, P(X) = 0.41
PROBLEMA #6
El gerente del departamento de crédito de una compañía sabe que se utilizan 3 métodos para
cobrar cuentas morosas. De los datos que se tienen registrados se sabe que 70 % de los
deudores son visitados personalmente, 20 % se les sugiere por vía telefónica que paguen y 10
% se les cobra por medio de una carta. Las probabilidades de recibir alguna cantidad de
dinero debido a los pagos de una cuenta cobrada con estos métodos son 0.75, 0.60 y 0.65
respectivamente.
El gerente acaba de recibir el pago de una de las cuentas vencidas; cual es la probabilidad de
que la petición de pago se haya hecho
Personalmente.
Por teléfono.
Por correo.
63
SOLUTION
METODOS:-
--- 1: visista
persona (V) 1: visita persona (V)
(variable independence) 2: telefono (T)
3: correo ( c )
PAGO:
1: Éxito-se recibo el
pago €
2: Fracaso- Nose recibe pago (F)
DATOS:
P{V} 0.7 Probability of V
P{T} 0.2 probability of T
P{C} 0.1 probability of C
P{E/V} 0.75 P{F/V} 0.25
P{E/T} 0.6 P{F/T} 0.4
P{E/C} 0.65 P{F/C} 0.35
CONJUNTA
P{VnE} P{V}*P{E/V}
P{VnF} P{V}*P{F/V}
P{TnE} P{T}*P{E/T}
P{TnF} P{T}*P{F/T}
P{CnE} P{C}*P{E/C}
P{CnF} P{C}*P{F/C}
TABLA DE LOS RESULTADOS;
V T C TOTAL
E 0.525 0.12 0.065 0.71
F 0.175 0.08 0.035 0.29
TOTAL 0.7 0.2 0.1 1
Entonces,
P{E}=
0.71
P{F} =
0.29
64
DIAGRAM DEL ARBOL
RECIBO EL PAGO
P{V/E} =
P{VnE}/P{E} = 0.73943662
P{T/E} = P{TnE}/P{E}
= 0.169014085
P{C/E}= P{CnE}/P{E}
= 0.091549296
1
NO SE RECIBE EL
PAGO (FRACASO)
P{V/F} =
P{FnV}/P{F} = 0.60344828
P{T/F} =
P{FnT}/P{F} = 0.27586207
P{C/F} =
P{FnC}/P{F} = 0.12068966
1
65
INTERVALO DE CONFIANZA PARA µ1 - µ2 PARA OBSERVACIONES
PAREADAS
PROBLEMA 1
El administrador de un lote de automóviles prueba dos marcas de llantas radiales. Para ello
asigna al azar una llanta de cada marca a las dos ruedas posteriores de ocho automóviles, y
luego corre los automóviles hasta que las llantas se desgastan. Los datos obtenidos (en
kilómetros) aparecen en la siguiente tabla. Encuentre un intervalo de confianza del 99% para
la diferencia en el tiempo promedio de duración. Con base en estos cálculos, ¿qué llanta es la
que usted preferiría?
AUTOMOVIL MARCA 1 MARCA 2
1 36 925 34 318
2 45 300 42 280
3 36 240 35 500
4 32 100 31 950
5 37 210 38 015
6 48 360 47 800
7 38 200 37 810
8 33 500 33 215
PROBLEMA 2
La oficina de nacional unidas en el salvador ha montado una seria de conferencias sobre
¨control de nacionalidad´ para ambos sexo. Esta oficina desea que la asistencia a las
conferencias se distribuya en igual proporción entre ambos sexo. 325 eran mujeres. A la luz
de estos datos, ¿cree que la proporción de los asistentes, por sexo, a dicha conferencia no es
la deseada por la oficina? Utilizar un error alfa del 1% (Zp = 1.00; v-p = 0.317).
Solución
H0: P = 50% = 0.50La proporción de los asistentes, por sexo a la conferencia es de igual
proporción entre ambos sexos
H1: P ≠ 50%= 0.50
La proporción de los asistentes, por sexo a la conferencia no se distribuye en igual
proporción entre ambos sexos
Se establece el nivel de significación
= 1% = 0.01
66
Se establece la distribución de muestro a ser utilizada
Datos:
N=625 personas
X1 = 325 mujeres
P =
=
= 0.52
En este caso n 30 por lo cual se usa Z
=
=; = √
Q = 1
Q = 1
Q = 0.50
=
√
= 1
En tabla α = 1% = 0.01
Nivel de confianza = 1 = 1 0.01 = 0.99 = 99%
Como prueba de dos colas H1: P ≠ 50% ≠ 0.50
= 0.495
Por lo tanto Zc = ± 2.58 y será una prueba a la izquierda y una a la derecha
Test and CI for One Proportion
Test of p = 0.5 vs p not = 0.5
Sample X N Sample p 99% CI Z-Value P-Value
1 325 625 0.520000 (0.468525, 0.571475) 1.00 0.317
Using the normal approximation
Conclusión
P > , entonces el hipótesis nula no podrá rechazar
SOLUTION.
En Minitab calculación
67
3000200010000-1000
4
3
2
1
0X_
Ho
Differences
Fre
qu
en
cy
Histogram of Differences(with Ho and 99% t-confidence interval for the mean)
3000200010000-1000
X_
Ho
Differences
Boxplot of Differences(with Ho and 99% t-confidence interval for the mean)
68
3000200010000-1000
X_
Ho
Differences
Individual Value Plot of Differences(with Ho and 99% t-confidence interval for the mean)
69
INTERVALOS DE CONFIANZA
Introducción
Estimación puntual y por intervalo
Las medias o desviaciones estándar calculadas de una muestra se denominan
ESTADÍSTICOS, podrían ser consideradas como un punto estimado de la media y
desviación estándar real de población o de los PARAMETROS.
¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué
otra cosa podríamos obtener como margen, algún tipo de error?
“Un Intervalo de Confianza”
ESTIMADOR PUNTUAL: Utiliza un número único o valor para localizar una estimación del
parámetro.
ESTIMADOR POR INTERVALO DE CONFIANZA: Denota un rango dentro del cual se
puede encontrar el parámetro y el nivel de confianza que el intervalo contiene al parámetro.
LIMITES DE CONFIANZA: Son los límites del intervalo de confianza inferior (LIC) y
superior (LSC), se determinan sumando y restando a la media de la muestra X un cierto
número Z (dependiendo del nivel o coeficiente de confianza) de errores estándar de la media
X .
P(Z>= + Zexcel ) = alfa/2P(Z<= - Zexcel ) = alfa/2
Intervalo de confianza donde
se encuentra el parámetro con
un NC =1-a
70
INTERPRETACIÓN DEL INTERVALO DE CONFIANZA: Tener un 95% de confianza en
que la media poblacional real y desconocida se encuentra entre los valores LIC y LSC.
NIVEL DE SIGNIFICANCIA = 1- INTERVALO DE CONFIANZA = ERROR TIPO 1 =
ALFA
¿Cómo obtenemos un intervalo de confianza?
Estimación puntual + error de estimación
¿De dónde viene el error de estimación?
Desv. estándar X multiplicador de nivel de confianza deseado Za/2
Por Ejemplo:
Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al
95% donde se encuentra la media para una distribución normal es:
100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025
El 95% de Nivel de Confianza significa que sólo tenemos un 5% de oportunidad de obtener
un punto fuera de ese intervalo.
Esto es el 5% total, o 2.5% mayor o menor. Si vamos a la tabla Z veremos que para un área
de 0.025, corresponde a una Z de 1.960.
C. I. Multiplicador Za/2
99 2.576
95 1.960
90 1.645
85 1.439
80 1.282
Para tamaños de muestra >30, o conocida usar la distribución Normal Para muestras de
menor tamaño, o desconocida usar la distribución t
El ancho del intervalo de confianza decrece con la raiz cuadrada del tamaño de la muestra.
71
Ejemplo:
Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi
Estimar la media puntual
X media = 28.08 con S = 1.02
Estimar el intervalo de confianza para un nivel de confianza del 95% (t = 3.182 con n-1=3
grados de libertad)
Xmedia±3.182*S/√n = 28.08±3.182*1.02/2=(26.46, 29.70)
Ejercicios con Z y t:
1. El peso promedio de una muestra de 50 bultos de productos Xmedia = 652.58 Kgs., con S
= 217.43 Kgs. Determinar el intervalo de confianza al NC del 95% y al 99% donde se
encuentra la media del proceso (poblacional). Alfa = 1 - NC
2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones
de laboratorio oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de Z?.
3. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con una
S = 0.96 onzas. ¿A un nivel de confianza del 95%, las latas parecen estar llenas con 16
onzas?.
4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se
rechaza la solución si el peso promedio de todo el lote no excede las 18 onzas. ¿Cuál es la
decisión a un 90% de nivel de confianza?.
5. Las 20 cajas de producto pesaron 102 grs. Con S = 8.5 grs. ¿Cuál es el intervalo donde se
encuentra la media y varianza del lote para un 90% de nivel de confianza?. Grados
libertad=20 -1 =19
6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56.
¿Cuál es la estimación del intervalo de confianza para la media y varianza a un nivel de
confianza del 95 y del 98% del peso de productos del lote completo?.
72
7. Los pesos de 25 paquetes enviados a través de UPS tuvieron una media de 3.7 libras y una
desviación estándar de 1.2 libras. Hallar el intervalo de confianza del 95% para estimar el
peso promedio y la varianza de todos los paquetes. Los pesos de los paquetes se distribuyen
normalmente.
Ejercicios con proporciones:
8. De 814 encuestados 562 contestaron en forma afirmativa. ¿Cuál es el intervalo de
confianza para un 90% de nivel de confianza?
9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados ¿Se
puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de
confianza. ?
Uso de Minitab para Intervalos de confianza:
a. Para la media Stat > Basic Statistics > 1-Sample Z, t Variable -- Indicar la columna de los
datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato
En Options: Indicar el Confidence level -- 90, 95 o 99% OK
b. Para una proporción Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data
Number of trials = n tamaño de la muestra Number of events = D éxitos encontrados en la
muestra
En Options: Indicar el Confidence Interval -- 90, 95 o 99% Seleccionar Use test and
interval based in normal distribution
73
FORMULAS PARA ESTIMAR LOS INTERVALOS DE CONFIANZA:
Descripción Intervalo de confianza
Estimación de con sigma conocida, muestra
grande n>30
nZX /2/ a
Estimación de con sigma desconocida, muestra
grande n>30, se toma la desv. Est. de la muestra S
nsZX /2/a
Estimación de con muestras pequeñas, n < 30 y
sigma desconocida
nstX /2/a
Estimación de la
1,2
1
22
1,2
2 )1()1(
nn
snsn
aa
Estimación de la proporción
n
ppsp
)1(
psZp 2/a
Tamaño de muestra
Para estimar n en base a un error máximo )( X 222
2/ )/( a XZn
Para estimar n en base a un error máximo
Si se especifica un intervalo total de error, el error
)( p máximo es la mitad del intervalo
22
2/ )/()1( a pZn
Utilizar 5.0 que es peor caso
INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL
DE VARIANZA CONOCIDA
Supongamos que disponemos de una población en la que tenemos una v.a. con distribución
N( ,) con conocida (de estudios previos, por ejemplo). Obtenemos una muestra de
tamaño n y deseamos estimar la media de la población.
El estimador puntual de la misma es la media muestral cuya distribución muestral es
conocida
74
La cantidad
Tendrá distribución normal estándar.
Sobre la distribución N (0, 1) podremos seleccionar dos puntos simétricos -z y z ,
tales que
Figura 1: Selección de los puntos críticos para el cáculo del intervalo de confianza.
Sustituyendo Z por su valor en este caso particular
Despejando la media muestral y la varianza
Que verifica las condiciones de la definición.
Así, el intervalo de confianza para la media puede escribirse como
En la práctica, de todos los posibles valores de tenemos uno sólo y por tanto un único
intervalo de todos los posibles para distintas muestras
La importancia del intervalo de confianza para la estimación está en el hecho de que el
intervalo contiene información sobre el estimador puntual (valor central del intervalo) y sobre
el posible error en la estimación a través de la dispersión y de la distribución muestral del
estimador. Observese que el error en la estimación está directamente relacionado con la
75
distribución muestral del estimador y con la varianza poblacional, e inversamente relacionado
con el tamaño muestral.
El gráfico siguiente ilustra la interpretación del nivel de confianza para el intervalo de
confianza para la media de una distribución normal con varianza conocida. Para los distintos
posibles valores de la media, representados mediante su distribución muestral, obtenemos
distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parámetro,
pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del
95%.
En la práctica disponemos de una única repetición del experimento, y por tanto de un único
intervalo de confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que
nuestro intervalo sea de la mayoría que con tiene al verdadero valor objetivo aunque no
tenemos la seguridad de que sea así, tenemos concretamente un riesgo del 5% de
equivocamos.
Interpretación del nivel de confianza en el intervalo para la media de una distribución normal.
PROBLEMA 1
Durante una semana se toma una muestra aleatoria de 50 empleados de una empresa, y se
obtiene una salario promedio de $206.se conoce que la desviación estándar poblacional de
$40. Determine los intervalos de confianza del 90% para la media de los salarios de esta
empresa
SOLUCIÓN
N=50
Media muestra = 206
Desviación estándar poblacional = 40
76
Nivel confianza = 95%
Utilizar cvalor z- normal:n > 30 y desv estándar poblacion
One-Sample Z The assumed standard deviation = 40
N Mean SE Mean 95% CI
50 206.00 5.66 (194.91, 217.09)
Entonces, Intervalo de confianza esta entre 194.91 y 217.09
PROBLEMA 2
El ciclo medio de vida de una muestra aleatoria de 12 focos es de 2000 horas, con una
desviación estándar muestral de 200horas. Se supone que la vida media de los focos se
distribuye normalmente. Determine los intervalos de confianza de 95% para la vida media de
los focos
SOLUCION
N=12
Media = 2000
Desd. Estándar = 200
Nivel confianza = 95% n
N < 30 y desv. estándar poblacional desconocida----- usar distribución T
One-Sample T
N Mean StDev SE Mean 95% CI
12 2000.0 200.0 57.7 (1872.9, 2127.1)
Intervalo de confianza va a (1872.9, 2127.1)
PROBLEMA 3
En un proceso químico se fabrica cierto polímero. Normalmente, se hacen mediciones de
viscosidad después de cada corrida, y la experiencia acumulada indica que la variabilidad en
el proceso es muy estable, con a= 20. Las siguientes son 15 mediciones de viscosidad por
corri da: 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
Encuentreun intervalo de confianza bilateral del 90% para la viscosidad media del polímero.
SOLUTION
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3
C1 15 0 750.20 4.94 19.13 718.00 740.00 747.00 760.00
Variable Maximum
C1 795.00
77
800
790
780
770
760
750
740
730
720
710
C1
Boxplot of C1
78
800790780770760750740730720710
C1
Individual Value Plot of C1
800780760740720
4
3
2
1
0
Mean 750.2
StDev 19.13
N 15
C1
Fre
qu
en
cy
Histogram (with Normal Curve) of C1
79
PROBLEM 4
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es
afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la
desviación estándar de la concentración activa es de 3 gil, sin importar el tipo de catalizador
utilizado. Se realizan 10 observaciones con cada catalizador, y se obtienen los datos
siguientes:
Catalizador1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67. 2, 71.0
Catalizador2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8
a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de
Las concentraciones activas para los dos catalizadores.
b) ¿Existe alguna evidencia que indique que las concentraciones activas medias de
Penden del catalizador utilizado?
SOLUCIÓN
Two-sample T for Cata1 vs Cata2
N Mean StDev SE Mean
Cata1 10 65.22 3.44 1.1
Cata2 10 68.42 2.22 0.70
Difference = mu (Cata1) - mu (Cata2)
Estimate for difference: -3.20
95% CI for difference: (-5.96, -0.44)
T-Test of difference = 0 (vs not =): T-Value = -2.47 P-Value = 0.026 DF = 15
800780760740720
4
3
2
1
0
C1
Fre
qu
en
cy
Histogram of C1
80
One-Sample T: Cata1 Test of mu = 68.42 vs not = 68.42
Variable N Mean StDev SE Mean 95% CI T P
Cata1 10 65.22 3.44 1.09 (62.76, 67.68) -2.94 0.017
One-Sample T: Cata2
Test of mu = 65.22 vs not = 65.22
Variable N Mean StDev SE Mean 95% CI T P
Cata2 10 68.420 2.224 0.703 (66.829, 70.011) 4.55 0.001
One-Sample T: Cata2
Test of mu = 65.22 vs not = 65.22
Variable N Mean StDev SE Mean 99% CI T P
Cata2 10 68.420 2.224 0.703 (66.134, 70.706) 4.55 0.001
Boxplot of Cata2
7269666360
X_
Ho
Cata1
Boxplot of Cata1(with Ho and 95% t-confidence interval for the mean)
81
727170696867666564
X_
Ho
Cata2
Boxplot of Cata2(with Ho and 95% t-confidence interval for the mean)
7269666360
X_
Ho
Cata1
Individual Value Plot of Cata1(with Ho and 95% t-confidence interval for the mean)
82
727170696867666564
X_
Ho
Cata2
Individual Value Plot of Cata2(with Ho and 95% t-confidence interval for the mean)
70686664626058
4
3
2
1
0X_
Ho
Cata1
Fre
qu
en
cy
Histogram of Cata1(with Ho and 95% t-confidence interval for the mean)
83
7271706968676665
4
3
2
1
0X_
Ho
Cata2
Fre
qu
en
cy
Histogram of Cata2(with Ho and 95% t-confidence interval for the mean)
1st Q uartile 63.425
Median 65.400
3rd Q uartile 67.300
Maximum 71.000
62.756 67.684
63.323 67.337
2.369 6.288
A -Squared 0.36
P-V alue 0.367
Mean 65.220
StDev 3.444
V ariance 11.864
Skewness -0.67439
Kurtosis 1.99962
N 10
Minimum 57.900
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
70686664626058
Median
Mean
686766656463
95% Confidence Intervals
Summary for Cata1
84
PROBLEM 5
Un artículo publicado en el Journal of Aircraft (Vol. 23, 1986, págs. 859-864) describe la
formulación de un método nuevo para el análisis de placas que es capaz de modelar estruc
turas de aeroplanos, tales como el armazón del ala, y que produce resultados similares a los
obtenidos con el método del elemento finito, el cual emplea muchos más cálculos. Se cal
culan las frecuencias de vibración naturales para el armazón de un ala utilizando para ello
ambos métodos. Los resultados obtenidos para las siete primeras frecuencias naturales son los
siguientes:
NO
Elementos
finito,ciclos/s
Placa
equivalente,
ciclos/s
1 14.58 14.76
2 48.52 49.10
3 97.22 99.99
4 113.99 117.53
5 174.73 181.22
6 212.72 220.14
7 277.38 294.80
Encuentre un intervalo de confianza del 95% para la diferencia promedio entre los dos
métodos
1st Q uartile 66.125
Median 69.050
3rd Q uartile 69.775
Maximum 71.700
66.829 70.011
66.023 69.840
1.530 4.060
A -Squared 0.43
P-V alue 0.243
Mean 68.420
StDev 2.224
V ariance 4.946
Skewness -0.515043
Kurtosis -0.638385
N 10
Minimum 64.800
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
72706866
Median
Mean
7069686766
95% Confidence Intervals
Summary for Cata2
85
SOLUTION
Paired T-Test and CI: Elem finito ciclos, Placa equiv ciclos
Paired T for Elem finito ciclos - Placa equiv ciclos
N Mean StDev SE Mean
Elem finito cicl 7 134.163 92.857 35.097
Placa equiv cicl 7 139.649 98.435 37.205
Difference 7 -5.48571 5.92389 2.23902
95% CI for mean difference: (-10.96440, -0.00703)
T-Test of mean difference = 0 (vs not = 0): T-Value = -2.45 P-Value = 0.050
Histogram of Differences
Individual Value Plot of Differences
Boxplot of Differences
Correlations: Elem finito ciclos, Placa equiv ciclos
Pearson correlation of Elem finito ciclos and Placa equiv ciclos = 1.000
P-Value = 0.000
Two-Sample T-Test and CI: Elem finito ciclos, Placa equiv ciclos
Two-sample T for Elem finito ciclos vs Placa equiv ciclos
SE
N Mean StDev Mean
Elem finito cicl 7 134.2 92.9 35
Placa equiv cicl 7 139.6 98.4 37
Difference = mu (Elem finito ciclos) - mu (Placa equiv ciclos)
Estimate for difference: -5.48571
99% CI for difference: (-164.33778, 153.36635)
T-Test of difference = 0 (vs not =): T-Value = -0.11 P-Value = 0.917 DF = 11
Individual Value Plot of Elem finito ciclos, Placa equiv ciclos
Boxplot of Elem finito ciclos, Placa equiv ciclos
Welcome to Minitab, press F1 for help.
95% upper bound for mean difference: -1.13490
T-Test of mean difference = 0 (vs < 0): T-Value = -2.45 P-Value = 0.025
86
0-5-10-15-20
X_
Ho
Differences
Boxplot of Differences(with Ho and 95% t-confidence interval for the mean)
Placa equiv ciclosElem finito ciclos
300
250
200
150
100
50
0
Da
ta
Boxplot of Elem finito ciclos, Placa equiv ciclos
87
PROBLEMA 6
La pintura para autopista se surte en dos colores: blanco y amarillo. El interés se centra en
El tiempo de secado de la pintura; se sospecha que la pintura de color amarillo se seca más
Rápidamente que la blanca. Se obtienen mediciones de ambos tipos de pintura. Los tiempos
de secado (en minutos) son los siguientes :
Blanca: 120, 132, 123, 122, 140, 110, 120, 107
Amarilla: 126, 124, 116, 125, 109, 130, 125, 117, 129, 120
SOLUTION
Two-sample T for Blanca vs Amarilla
N Mean StDev SE Mean
Blanca 8 121.8 10.7 3.8
Amarilla 10 122.10 6.54 2.1
Difference = mu (Blanca) - mu (Amarilla)
Estimate for difference: -0.350000
95% CI for difference: (-9.839582, 9.139582)
T-Test of difference = 0 (vs not =): T-Value = -0.08 P-Value = 0.937 DF = 11
AmarillaBlanca
140
135
130
125
120
115
110
105
Da
ta
Boxplot of Blanca, Amarilla
88
PROBLEMA 7
Un producto dietético líquido afirma en su publicidad que el empleo del mismo durante un
Mes produce una pérdida promedio de 3 libras de peso. Ocho sujetos utilizan el producto
Por un mes, y los datos sobre pérdida de peso son los siguientes:
SUJETO
1 2 3 4 5 6 7 8
peso inicial (lb) 163 201 195 198 155 143 150 187
peso final (lb) 161 195 192 197 150 141 146 183
Encuentre un intervalo de confianza del 95% para la pérdida de peso promedio. ¿Los datos
Apoyan la afirmación hecha en la publicidad?
SOLUTION
Paired T-Test and CI: Peso inicial (lb), Peso final (lb)
Paired T for Peso inicial (lb) - Peso final (lb)
N Mean StDev SE Mean
Peso inicial (lb 8 174.000 23.707 8.382
Peso final (lb) 8 170.625 23.610 8.347
Difference 8 3.37500 1.68502 0.59574
95% CI for mean difference: (1.96629, 4.78371)
AmarillaBlanca
140
135
130
125
120
115
110
105
Da
ta
Individual Value Plot of Blanca, Amarilla
89
T-Test of mean difference = 0 (vs not = 0): T-Value = 5.67 P-Value = 0.001
PRUEBA DE HIPÓTESIS
Introducción
CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO
Etapas básicas en pruebas de hipótesis. Al realizar pruebas de hipótesis, se parte de un
valor supuesto (Hipotético) en parámetro poblacional. Después de recolectar una muestra
aleatoria, se compara la estadística muestral, así como la media, con el parámetro hipotético,
se compara con una supuesta media poblacional. Después se acepta o se rechaza el valor
hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta
muy poco probable cuando la hipótesis es cierta.
- Etapa 1. Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el
valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco
probable cuando la hipótesis es cierta.
- Etapa 2. Especificar el nivel de significancia que se va a utilizar. El nivel de significancia
del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan
diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir
aleatoria mente con una probabilidad de 1.05 o menos.
6543210
X_
Ho
Differences
Individual Value Plot of Differences(with Ho and 95% t-confidence interval for the mean)
90
- Etapa 3. Elegir la estadística de prueba. La estadística de prueba puede ser la estadística
muestral (el estimador no segado del parámetro que se prueba) o una versión transformada
de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media
poblacional, se toma la media de una muestra aleatoria de esa distribución normal,
entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como
estadística de prueba.
Consecuencias de las Decisiones en Pruebas de Hipótesis.
DECISIONES POSIBLES SITUACIONES POSIBLES
La hipótesis nula es verdadera La hipótesis nula es falsa
Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II o Beta
Rechazar la Hipótesis
Nula
Error tipo I o Alfa Se rechaza correctamente
- Etapa 4. Establecer el valor o valores críticos de la estadística de prueba. Habiendo
especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se
van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba.
Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de
uno o dos extremos.
- Etapa 5. Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un
valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el
valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se
transforma la media muestral en un valor de z.
- Etapa 6. Tomar la decisión. Se compara el valor observado de la estadística muestral con
el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la
hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá
efecto sobre otras decisiones de los administradores operativos, como por ejemplo,
mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia
utilizar.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región de
rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede
rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.
91
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la
distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se
puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la
región de rechazo.
Pasos de la Prueba de Hipótesis
- Expresar la hipótesis nula
- Expresar la hipótesis alternativa
- Especificar el nivel de significancia
- Determinar el tamaño de la muestra
- Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.
- Determinar la prueba estadística.
- Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.
- Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.
- Determinar la decisión estadística.
- Expresar la decisión estadística en términos del problema.
Hipótesis Estadística. Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas)
sobre la población aplicada. Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis
estadísticas. Son, en general, enunciados acerca de las distribuciones de probabilidad de las
poblaciones.
Hipótesis Nula. En muchos casos formulamos una hipótesis estadística con el único
propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,
formulamos la hipótesis de que la moneda es buena (o sea p=0,5, donde p es la probabilidad
de cara). Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,
formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia
observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales
hipótesis se suelen llamar hipótesis nula y se denotan por Ho.
Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una
hipótesis nula. La hipótesis nula es aquella que nos dice que no existen diferencias
significativas entre los grupos. Por ejemplo, supongamos que un investigador cree que si un
grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores
nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al
azar una muestra de jóvenes, y también al azar los distribuye en dos grupos: uno que
92
llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibirá
entrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay
diferencia en el desempeño de la natación entre el grupo de jóvenes que recibió el
entrenamiento y el que no lo recibió.
Una hipótesis nula es importante por varias razones:
- Es una hipótesis que se acepta o se rechaza según el resultado de la investigación.
- El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre
los grupos, si esta diferencia es significativa, y si no se debió al azar.
- No toda investigación precisa de formular hipótesis nula. Se recomienda que la hipótesis
nula es aquella por la cual indicamos que la información a obtener es contraria a la
hipótesis de trabajo.
Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia
que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como
tal.
Hipótesis Alternativa: Toda hipótesis que difiere de una dada se llamará una hipótesis
alternativa. Una hipótesis alternativa a la hipótesis nula se denotará por H1.
Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan
variables independientes distintas de las primeras que formulamos. Por tanto, para no perder
tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas como
respuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su
comprobación.
Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté
realizando. En los estudios exploratorios, a veces, el objetivo de la investigación podrá ser
simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis.
También es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que
"existe algún tipo de problema social en tal grupo", o que los planetas poseen algún tipo de
atmósfera, sin especificar de qué elementos está compuesto.
Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo "todos los X
poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las
93
naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las
relaciones comerciales entre ellas. También podemos hacer afirmaciones del tipo "X
pertenece al tipo Y", como cuando decimos que una tecnología es capital - intensiva. En estos
casos, describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo ideal
complejo de orden superior.
Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde estaremos
en presencia de una relación entre variables.
Errores de tipo I y de tipo II. Si rechazamos una hipótesis cuando debiera ser aceptada,
diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hipótesis que
debiera ser rechazada, diremos que se cometió un error de tipo II.
En ambos casos, se ha producido un juicio erróneo. Para que las reglas de decisión (o no
contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de la
decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un
intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En
la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un
compromiso que disminuya el error más grave. La única forma de disminuir ambos a la vez
es aumentar el tamaño de la muestra que no siempre es posible.
Niveles de Significación. Al contrastar una cierta hipótesis, la máxima probabilidad con la
que estamos dispuesto a correr el riesgo de cometerán error de tipo I, se llama nivel de
significación. Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la
muestra, de manera que los resultados obtenidos no influyan en nuestra elección.
En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros
valores. Si por ejemplo se escoge el nivel de significación 0,05 (ó 5%) al diseñar una regla de
decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesis
cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos
adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel
de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser
falsa.
Prueba de 1 o 2 Extremos. Cuando estudiamos ambos valores estadísticos es decir, ambos
lados de la media lo llamamos prueba de uno y dos extremos o contraste de una y dos colas.
94
Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de
la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se
contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que
contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o
de un extremo. En tales situaciones, la región crítica es una región situada a un lado de la
distribución, con área igual al nivel de significación.
Curva Característica Operativa y Curva de Potencia. Podemos limitar un error de tipo I
eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el
error tipo II simplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones
prácticas esto es inviable. En tales casos, se suele recurrir a curvas características de
operación o curvas de potencia que son gráficos que muestran las probabilidades de error de
tipo II bajo diversas hipótesis. Proporcionan indicaciones de hasta qué punto un test dado nos
permitirá evitar un error de tipo II; es decir, nos indicarán la potencia de un test a la hora de
prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre
otras cosas el tamaño de muestra a manejar.
Inferencias acerca de la Media Poblacional (varianza conocida). Supongamos que de una
población normal con media desconocida . y varianza conocida 2
se extrae una muestra de
tamaño n, entonces de la distribución de la media muestral x se obtiene que:
n/
xZ o
Se distribuye como una normal estándar. Luego, a aa 1ZZZP 2/2/
Donde Za/2 es un valor de la normal estándar tal que el área a la derecha de dicho valor es
a/2, como se muestra en la figura
Sustituyendo la fórmula de z se obtiene:
ασ
μαα
1Z
n/
xZP 2/2/
95
Haciendo un despeje algebraico, se obtiene
a
aa 1
n
Zx
n
ZP 2/2/
De lo anterior se puede concluir que un Intervalo de Confianza del 100(1-a) % para la media
poblacional, es de la forma:
aa
n
Zx,
n
Zx 2/2/
Usualmente a=0.1, 0.05 ó 0.01, que corresponden a intervalos de confianza del 90, 95 y 99
por ciento respectivamente. La siguiente tabla muestra los Za/2 más usados.
Nivel de Confianza Za/2
90 1.645
95 1.96
99 2.58
En la práctica si la media poblacional es desconocida entonces, es bien probable que la
varianza también lo sea puesto que en el cálculo de 2
interviene. Si ésta es la situación, y
si el tamaño de muestra es grande (n>30, parece ser lo más usado), entonces 2
es estimada
por la varianza muestral s2 y se puede usar la siguiente fórmula para el intervalo de confianza
de la media poblacional:
n
sZx,
n
sZx 2/2/ αα
Por otro lado, también se pueden hacer pruebas de hipótesis con respecto a la media
poblacional. Por conveniencia, en la hipótesis nula siempre se asume que la media es igual a
un valor dado. La hipótesis alterna en cambio, puede ser de un sólo lado: menor ó mayor que
el número dado, o de dos lados: distinto a un número dado.
Existen dos métodos de hacer la prueba de hipótesis: el método clásico y el método del P-
Value.
a. En el método clásico, se evalúa la prueba estadística de Z y al valor obtenido se le llama
Z calculado (Zcalc). Por otro lado el nivel de significación a dado determina una región de
rechazo y una de aceptación. Si Zcalc cae en la región de rechazo, entonces se concluye
96
que hay suficiente evidencia estadística para rechazar la hipótesis nula con base en los
resultados de la muestra tomada. Las fórmulas están resumidas en la siguiente tabla:
Caso I Caso II Caso III
Ho: =0 Ho : =0 Ho : =0
Ha: <0 Ha : 0 Ha : >0
Prueba Estadística: n/
xZ o
Aquí Za es el valor de la normal estándar tal que el área a la derecha de dicho valor es
a. Recordar también que puede ser sustituido por s, cuando la muestra es relativamente
grande (n>30). Los valores de a más usados son 0.01 y 0.05. Si se rechaza la hipótesis
nula al .01 se dice que la hipótesis alterna es altamente significativa y al .05 que es
significativa.
b. Trabajar sólo con esos dos valores de a simplificaba mucho el aspecto computacional,
pero por otro lado creaba restricciones. En la manera moderna de probar hipótesis se usa
una cantidad llamada P-Value. El P-Value llamado el nivel de significación observado,
es el valor de a al cual se rechazaría la hipótesis nula si se usa el valor calculado de la
prueba estadística. En la práctica un P-Value cercano a 0 indica un rechazo de la
hipótesis nula. Así un P-Value menor que .05 indicará que se rechaza la prueba
estadística.
Fórmulas para calcular P-Value:
Si Ho: >o, entonces P-value = 1*Prob(Z>Zcalc).
Si Ho: <o, entonces P-value = 1*Prob(Z<Zcalc).
Si Ho: o, entonces P-value = 2*Prob(Z>|Zcalc ).
Los principales programas estadísticos dan los P-Value para la mayoría de las pruebas
estadísticas. A través de todo el texto usamos el método del P-Value para probar
hipótesis.
Concepto. Afirmación acerca de los parámetros de la población.
PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIONES
Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en
una fábrica de llantas. En este problema la fábrica de llantas tiene dos turnos de operarios,
turno de día y turno mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por
97
cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes
preguntas
- ¿Es la duración promedio de las llantas producidas en el turno de día igual a 25 000
millas?
- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000
millas?
- ¿Se revienta más de un 8% de las llantas producidas por el turno de día antes de las
10 000 millas?
Prueba de Hipótesis para la media. En la fábrica de llantas la hipótesis nula y alternativa para
el problema se plantearon como,
Ho: μ = 25 000 H1: μ ≠ 25 000
Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces,
con base en el teorema de limite central, la distribución en el muestreo de la media seguiría la
distribución normal, y la prueba estadística que está basada en la diferencia entre la media X
de la muestra y la media μ hipotética se encontrara como
n/
xZ o
Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar
los valores críticos de la distribución. Dado que la región de rechazo está dividida en las dos
colas de la distribución, el 5% se divide en dos partes iguales de 2.5%.
Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en
unidades de desviación. Una región de rechazo de 0.25 en cada cola de la distribución
normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se
busca está área en la distribución normal, se encuentra que los valores críticos que dividen las
regiones de rechazo y no rechazo son + 1.96 y - 1.96
Por tanto, la regla para decisión sería rechazar Ho si Z > +1.96 o sí z < -1.96, de lo contrario,
no rechazar Ho. No obstante, en la mayor parte de los casos se desconoce la desviación
estándar σ de la población. La desviación estándar se estima al calcular S, la desviación
98
estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo
de la media seguiría una distribución t con n-1 grados de libertad.
En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muy
pequeño y la población no esté muy sesgada, la distribución t da una buena aproximación a la
distribución de muestra de la media. La prueba estadística para determinar la diferencia entre
la media x de la muestra y la media de la población cuando se utiliza la desviación
estándar S de la muestra, se expresa
n/s
Xt 1n
Para una muestra de 100, si se selecciona un nivel de significancia de 0.05, los valores
críticos de la distribución t con 100-1= 99 grados de libertad se puede obtener como se indica
en la siguiente tabla tenemos el valor de 1.9842. Como esta prueba de dos colas, la región de
rechazo de 0.05 se vuelve a dividir en dos partes iguales de 0.025 cada una. Con el uso de las
tablas para t, los valores críticos son –1.984 y +1.984. La regla para la decisión es,
Rechazar Ho si 9842.1to9842.1t 9999 de lo contrario, no rechazar Ho
Los resultados de la muestra para el turno de día (en millas) fueron
100ny000.4S,430.25X díadìadìa millas. Puesto que se está probando si la
media es diferente a 25 000 millas, se tiene con la ecuación
075.1100/000.4
00.25430.25t
n/S
Xt 11001n
Dado que t100-1=1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la decisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración
promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error de
tipo II, este enunciado se puede redactar como no hay pruebas de que la duración promedio
de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de día.
PROBLEMA 1
El director académico del centro preuniversitario de la UNMSM tiene la percepción que el
rendimiento académico, durante el primer año de estudios en la universidad, de los alumnos
ingresantes a través de la instrucción mejora año a año. Sabe que históricamente los alumnos
han tenido un rendimiento académico de 12 puntos con desviación estándar de 2.para
confirmar su percepción llevo a cabo un estudio, para el cual escogió una muestra aleatoria de
20 alumnos. Los datos de la muestra se dan en el cuadro siguiente. Veamos si existe
suficiente evidencia muestral para decir si es cierta percepción del director académico
99
= 0.05
alumno Nota
(Xi)
(
1 14 2.560
2 15 6.760
3 13 0.360
4 10 5.760
5 14 2.560
6 14 2.560
7 13 0.360
8 14 2.560
9 12 0.160
10 13 0.360
11 12 0.160
12 10 5.760
13 12 0.160
14 10 5.760
15 11 1.960
16 13 0.360
17 13 0.360
18 10 5760
19 10 5760
20 15 6.760
SOLUCIÓN
H0:u =u0
H1: CASO Estadístico de contraste Rechazar Ho sí;
𝛔 es conocida y X tiene distribución
normal o el tamaño de muestra n es
suficientemente grande
Z =
√ = 0.89
Z > Z1-α
Z < Zα = - Z1-α
|Z|> Z1-α/2
One-Sample Z: C1
Test of mu = 12 vs > 12
The assumed standard deviation = 2
95% Lower
Variable N Mean StDev SE Mean Bound Z P
100
C1 20 12.400 1.729 0.447 11.664 0.89 0.186
P-valor es mayor que valor 0.05 entonces aceptamos hipótesis nula y rechazar hipótesis
alternativa
PROBLEMA 2
En un sistema educativo se aplicaron dos métodos A y B para enseñar el curso de
matemática en un grupo de 20 estudiantes.se aplico el método A y en el potro de 20 alumnos
se aplicó el método B. ¿podemos admitir que el método A es mejor que el método B?
experiencias anteriores dicen que las variables X y Y que representan los rendimientos con
los métodos A y B, respectivamente. Tienen distribución normal = 0.01 considera
desviación estándares poblaciones iguales.
Solución
: Rendimiento promedio del método A
: Rendimiento promedio del método B
H0:u1 =u2
H1: CASO Estadístico de contraste Rechazar Ho sí;
𝛔1 y 𝛔2 son desconocidas, pero
iguales, las muestras son
independiente y las poblaciones
tienen distribución normal
t = (
√(
)
= - 0. 166 T > t1-α
T < t α = - t 1-α
|T| > T1-α/2
MÉTODO A MÉTODO B
alumno x ( Y (
1 15 3.240 13 0.090
2 15 3.240 14 0.490
3 14 0.640 14 0.490
4 13 0.040 12 1.690
5 14 0.640 13 0.090
6 13 0.040 14 0.490
7 12 1.440 14 0.490
8 11 4.840 12 1.690
9 15 3.240 15 2.890
0.186> 0.05
101
10 17 14.440 16 7.290
11 16 7.840 15 2.890
12 15 3.240 15 2.890
13 13 0.040 12 1.690
14 10 10.240 10 10.890
15 11 4.840 9 18.490
16 13 0.040 12 1.690
17 12 1.440 12 1.690
18 10 10.240 14 2.89
19 11 4.840 15 2.890
20 14 0.640 15 2.890
264 75.200 266 62.200
Two-Sample T-Test and CI: X, Y
Two-sample T for X vs Y
N Mean StDev SE Mean
X 20 13.20 1.99 0.44
Y 20 13.30 1.81 0.40
Difference = mu (X) - mu (Y)
Estimate for difference: -0.100
99% lower bound for difference: -1.560
T-Test of difference = 0 (vs >): T-Value = -0.17 P-Value = 0.566 DF = 38
Both use Pooled StDev = 1.9015
CONCLUCIÓN
Como Tc calcular atreves la formula Tc= - 0.166 y en Minitab es -0.17;entonces se
acepta la hipótesis nula;
Con nivel de significancia de 0.05 se puede afirmar que la rendimiento promedio de
método A no es mayor que el rendimiento del método B
PROBLEMA 3
Un grupo de investigadores quiere saber si las poblaciones difieren con respecto al valor
medio de la actividad del complemento del suelo total (CH50).los datos se componen de las
mediciones de CH50 en n2=20 individuos aparentemente sanos y n1=10 individuos
enfermos. Alfa es igual a 0.05.las medias de las muestras y desviaciones estándar son:-
X1 = 62.6, 33.6
X2 = 47.2, 10.1
102
SOLUCIÓN
One-Sample T
N Mean StDev SE Mean 95% CI
12 2000.0 200.0 57.7 (1872.9, 2127.1)
Two-Sample T-Test and CI
Sample N Mean StDev SE Mean
1 10 62.6 33.6 11
2 20 47.2 10.1 2.3
Difference = mu (1) - mu (2)
Estimate for difference: 15.4
95% CI for difference: (-9.2, 40.0)
T-Test of difference = 0 (vs not =): T-Value = 1.42 P-Value = 0.190 DF = 9
CONCLUSIÓN
No es posible rechazar Ho porque P es mayor que alfa, entonces con base a esto no se
puede concluir que las medias de las poblaciones son diferentes.
PROBLEMA 4
Un fabricante de fibras textiles está investigando una nueva fibra para tapicería, la cual tiene
una elongación media por hilo de 12 kg con una desviación estándar de 0.5 kg. La compañía
desea probar la hipótesis HO: µ = 12 contra H1: µ < 12, utilizando para ello una muestra
aleatoria de cuatro especímenes.
a. ¿Cuál es la probabilidad del error tipo 1 si la región crítica está definida como x <11.5kg?
b. Encuentre f3 para el caso donde la verdadera elongación promedio es 11.25 kg
SOLUTION
N=4 σ=0.5kg u=12 Ho: u=12 H1: u<12
Error tipo I
Z de una muestra
Prueba de mu = 12 vs. no = 12
La desviación estándar supuesta = 0.5
Error
Estándar
de la
N Media media IC de 95% Z P
4 11.500 0.250 (11.010, 11.990) -2.00 0.046
103
La probabilidad de que la elongación del hilo este fuera de nuestro intervalo de confianza es
4.6 (IC=95%) por tanto aceptamos la Ho:u=12, ya que no existe diferencia estadística entre
el valor de la muestra y la media. Cuando tomamos el error de tipo I, esperamos que el valor
caiga en el área central, donde está la media.
Error tipo II
Z de una muestra
Prueba de mu = 11.25 vs. > 11.25
La desviación estándar supuesta = 0.5
Error
estándar
de la 95% Límite
N Media media inferior Z P
4 11.500 0.250 11.089 1.00 0.159
CONCLUSIÓN
La probabilidad de que la elongación del hilo sea mayor que 12 es 15.9% que es la
probabilidad resta da a 1 por el lado izquierdo, y está fuera de nuestro intervalo de
confianza, se rechaza H1: u<12. Y con el error tipo 2 esperamos que llegue por una de las
colas.
PROBLEMA 5
Una compañía de productos para el consumidor está desarrollando un nuevo champú, y está
interesada en la altura de la espuma (en mm). La altura de la espuma tiene una distribución
aproximadamente normal, con una desviación estándar de 20 mm. La compañía desea probar
Ha:µ = 175 mm contra H1:µ > 175 mm, utilizando los resultados obtenidos con n =10
muestras.
a. Encuentre Ja probabilidad ex del error tipo I si la región crítica es x > 185.
b. ¿Cuál es Ja probabilidad del error tipo II si Ja verdadera altura promedio de la Espuma es
195 mm?
SOLUTION
Prueba de mu = 185 vs. no = 185
La desviación estándar supuesta = 20
Error
estándar
de la
N Media media IC de 95% Z P
10 175.00 6.32 (162.60, 187.40) -1.58 0.114 (Error tipo I, alfa/2=0.057)
104
Z de una muestra
Prueba de mu = 185 vs. > 185
La desviación estándar supuesta = 20
Error
estándar
de la 95% Límite
N Media media inferior Z P
10 195.00 6.32 184.60 1.58 0.057 (Error tipo II por la derecha)
PROBLEMA 6
Un fabricante está interesado en el voltaje de salida de una fuente de alimentación utilizada
en una computadora personal. Se supone que el voltaje de salida tiene una distribución
normal, con desviación estándar 0.25V. El fabricante desea probar Ha: µ= 5 V contra H µ ≠ 5
V, utilizando para ello n = 8 unidades. Suponga que el fabricante desea que la probabilidad
del error tipo I para la prueba sea α= 0.05. ¿Dónde debe localizarse la región de aceptación?
SOLUTION
Z de una muestra
La desviación estándar supuesta = 0.25
Error
estándar
de la
N Media media IC de 95%
8 5.0000 0.0884 (4.8268, 5.1732)(REGION DE ACEPTACION)
PRUEBA DE HIPÓTESIS SOBRE LA IGUALDAD DE DOS MEDIAS, VARIANZAS
CONOCIDAS
Introducción
Supóngase que hay dos poblaciones de interés X1 y X2, Suponemos que X1 tiene media
desconocida 1 y varianza conocida 2
1 y que X2 tiene media desconocida 2 y varianza
conocida 2
2 . Estaremos interesados en la prueba de la hipótesis de que las medias 1 y 2
sean iguales.
Considérense primero las hipótesis alternativas de dos lados:
210 : H 211 : H
105
Donde
H0 = Hipótesis nula H1 = Hipótesis alternativa.
1 = media de la población 1 2 = media de la población 2
El procedimiento para probar 210 : H es calcular la estadística de prueba Z0 mediante la
siguiente fórmula:
2
22
1
12
210
nn
XXZ
Donde:
1X = media de la muestra 1 2X = media de la muestra 2 12 = varianza de la población 1
22 = varianza de la población 2 1n = tamaño de la muestra 1 2n = tamaño de la muestra 2
La hipótesis nula H0 se rechaza si:
20 aZZ o 20 aZZ
Donde
Z0 = Valor calculado del estadístico de prueba
2aZ = Valor obtenido de las tablas.
Las hipótesis alternativas de un lado se analizan de manera similar. Para probar
210 : H
211 : H
Se calcula la estadística de prueba Z0 , y se rechaza 210 : H si aZZ 0 .
Para probar las otras hipótesis alternativas de un lado
210 : H
211 : H
Se utiliza la estadística de prueba Z0 y se rechaza 210 : H si aZZ 0
Ejemplo
Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas.
El proceso de llenado puede suponerse normal, con desviaciones estándar de 015.1 y
106
018.2 . Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo
volumen neto, sin importar que este volumen sea o no de 16 onzas. Se toma una muestra
aleatoria de la salida de cada máquina.
¿Piensa usted que ingeniería de calidad está en lo correcto? Utilizando 05.a .
211 : H
210 : H
Calculando las medias de cada máquina obtenemos 005.16,015.16 21 XX .
2
22
1
12
210
nn
XXZ
= 34.1
10
018.
10
015.
005.16015.1622
2aZ = Z.025 = 1.96
El uso de la tabla es el siguiente:
1-.025 =.975 buscando el valor de Z correspondiente a .975 encontramos Z = 1.96
Utilizando el criterio de decisión 20 aZZ para rechazar la hipótesis nula H0, nos damos
cuenta de que 1.34 no es mayor que 1.96. Por lo cual no rechazamos H0. No existe suficiente
evidencia estadística para pensar que las medias son diferentes.
Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si aceptáramos la
hipótesis nula el criterio de decisión es débil, ya que generalmente se busca rechazar H0.
PROCEDIMIENTO EN EXCEL
máquina 1 máquina 2
16.03 16.02
16.04 15.97
16.05 15.96
16.05 16.01
16.02 15.99
16.01 16.03
15.96 16.04
15.98 16.02
16.02 16.01
15.99 16
107
Seleccionar análisis de datos en el menú herramientas. En funciones para análisis elija la
opción: Prueba z para medias de dos muestras.
PRUEBAS PARA LA IGUALDAD DE DOS VARIANZAS.
Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las
poblaciones de interés, por ejemplo X1 y X2, donde 2
22
2
1,1 ,, , se desconocen. Deseamos
probar hipótesis relativas a la igualdad de las dos varianzas, 2
2
2
10 : H . Considérese que
se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la
población 2, y sean 2
2
2
1 ySS las varianzas de muestra. Para probar la alternativa de dos lados
2
2
2
10 : H
2
2
2
11 : H
Utilizamos el hecho de que la estadística
2
2
2
10
S
SF
Se distribuye como F, con n1-1 y n2 –1 grados de libertad.
108
Rechazaríamos H0 si 1,1,210 21 nnFF a o si
Donde 1,1,2 21 nnFa y 1,1,21 21 nnF a son los puntos porcentuales 2a superior e inferior de la
distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona sólo los puntos de la
cola superior de F, por lo que para determinar 1,1,21 21 nnF a debemos emplear
1,1,21 21 nnF a = 1,1,2 21
1
nnFa
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado.
La hipótesis alternativa de un lado es:
2
2
2
10 : H
2
2
2
11 : H
Si 1,1,0 21 nnFF a , rechazaríamos 2
2
2
10 : H
Ejemplo: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos
tipos diferentes.
Pruebe la hipótesis de que las dos varianzas sean iguales. Use 05.a
2
2
2
10 : H 2
2
2
11 : H
44.100
71.88
70
6.70
2
2
2
1
2
1
S
S
X
X
2
2
2
10
S
SF = 877.
44.100
71.88
1,1,2 21 nnFa = F.025, 9,9= 4.03
1,1,21 21 nnF a =.248
CONCLUCION
Tipo 1 Tipo 2
63 64
81 72
57 83
66 59
82 65
82 56
68 63
59 74
75 82
73 82
109
0.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula 2
2
2
10 : H .
PROBLEMA 1
Un nuevo diseño del sistema de frenos de un cierto tipo de carro ha sido propuesto. Para el
sistema actual, se sabe que la distancia de frenado promedio verdadera a 40 mph en
condiciones específicas es de 120 pies. Se propone que el nuevo diseño sea implementado
sólo si los datos muestrales indican fuertemente una reducción de la distancia de frenado
promedio verdadera del nuevo diseño.
a. Defina el parámetro de interés y formule las hipótesis pertinentes.
El parámetro que se mide es la distancia de frenado cuando se maneja a 40 mph.
H0:
Ha:
b. Suponga que la distancia de frenado del nuevo sistema está normalmente distribuido
con σ =10. Sea la distancia de frenado promedio de una muestra de 36
observaciones. ¿Cuáles de las siguientes regiones de rechazo es apropiada: R1 = { :
≥ 124.80}, R2 = { : ≤ 115.20}, R3 = { : o 125.13 o 114.87}?
La región de rechazo apropiada sería la R2, porque sería descartar H0 con los valores menores
a 120 ft.
c. ¿Cuál es el nivel de significación de la región apropiada de la parte (b)? ¿Cómo
(
) (
(
) (
110
d. ¿Cuál es la probabilidad de que el nuevo diseño no sea implementado cuando la
distancia de frenado promedio verdadera sea en realidad de 115 pies y la región
apropiada de la parte (b) sea utilizada?
( (
) (
PROBLEMA 2
Una mezcla de cenizas combustibles pulverizadas y cemento Portland utilizada para rellenar
con lechada deberá tener una resistencia a la compresión de más de 1300 KN/m2. La mezcla
no será utilizada a menos que la evidencia experimental indique concluyentemente que la
especificación de resistencia ha sido satisfecha. Suponga que la resistencia a la compresión de
especímenes de esta muestra está normalmente distribuida con σ = 60. Sea μ la resistencia a
la compresión promedio verdadera.
a. ¿Cuáles son las hipótesis nula y alternativa apropiadas?
H0: Resistencia a la compresión mayor a 1300 KN/m2
Ha: Resistencia menor a 1300 KN/m2
b. Sea la resistencia a la compresión promedio muestral de n = 20 especímenes
seleccionados al azar. Considere el procedimiento de prueba con estadístico de prueba
y región de rechazo ≥ 1331.26. ¿Cuál es la distribución de probabilidad del
estadístico cuando H0 es verdadera? ¿Cuál es la probabilidad de un error de tipo I
para el procedimiento de prueba?
√
√
(
) (
c. ¿Cuál es la distribución de probabilidad del estadístico de prueba cuando μ = 1350?
Utilizando el procedimiento de prueba de la parte (b), ¿cuál es la probabilidad de que
la mezcla será juzgada insatisfactoria cuando en realidad μ = 1350 (un error de tipo
II)?
(
) (
111
d. ¿Cómo cambiaría el procedimiento de prueba de la parte (b) para obtener una prueba
con nivel de significación de 0.05? ¿Qué impacto tendría este cambio en la
probabilidad de error de la parte (c)?
Como tenemos el nivel de significancia de 0.05, se busca en la tabla el valor cercano a 0.05 y
se sustituye como sigue:
PROBLEMA 3.
La calibración de una báscula tiene que ser verificada pesando 25 veces un espécimen de
prueba de 10 kg. Suponga que los resultados de diferentes pesadas son independientes entre
sí y que el peso en cada ensayo está normalmente distribuido con σ= 0.200 kg. Sea μ la
lectura de peso promedio verdadero en la báscula.
a. ¿Qué hipótesis deberá poner a prueba?
H0: Peso tiene que ser igual a 10kg.
Ha: Peso es diferente de 10kg.
b. Suponga que la báscula tiene que ser recalibrada si o ≥ 10.1032 o ≤ 9.8968. ¿Cuál
es la probabilidad de que se realice la recalibración cuando en realidad no es
necesaria?
(
) (
c. ¿Cuál es la posibilidad de que la recalibración sea considerada innecesaria cuando en
realidad μ= 10.1? ¿Cuándo μ=9.8?
( (
) ( (
(
)
( (
) ( (
(
)
112
PROBLEMA 1
Dos compañías diferentes han solicitado proporcionar el servicio de televisión por cable en
una cierta región. Sea p la proporción de todos los suscriptores potenciales que favorecen a la
primera compañía sobre la segunda. Considere probar H0: p = 0.5 contra Ha: p = 0.5 basado
en una muestra aleatoria de 25 individuos. Sea X el número en la muestra que favorece a la
primera compañía y x el valor observado de X.
a. ¿Cuál de las siguientes regiones de rechazo es más apropiada y por qué?
R1 = {x: x ≤ 7 o x ≥ 18}, R2 = {x: x ≤ 8}, R3 = {x: x ≥ 17}
b. En el contexto de este problema, describa cuáles son los errores de tipo I y de tipo II.
Error tipo I: Preferencia en la segunda compañía cuando en realidad es la primera o
viceversa.
Error tipo II: No existe preferencia sobre alguna compañía cuando en realidad sí hay
preferencia.
c. ¿Cuál es la distribución de probabilidad del estadístico de prueba X cuando H0 es
verdadera? Úsela para calcular la probabilidad de un error de tipo I.
d. Calcule la probabilidad de un error de tipo II en la región seleccionada cuando p =
0.3, otra vez cuando p = 0.4 y también con p = 0.6 y p = 0.7.
113
PROBLEMA 5.
Se determinó el punto de fusión de cada una de las 16 muestras de una cierta marca de aceite
vegetal hidrogenado y el resultado fue . Suponiendo que la distribución del punto
de fusión es normal con σ= 1.20.
a. Probar H0: contra Ha: por medio de una prueba de dos colas de nivel
0.01.
Buscando en las tablas, para una prueba de nivel de 0.01, nuestro valor de z debe ser igual a
b. Si se utiliza una prueba de nivel 0.01, ¿cuál es β(94), la probabilidad de un error de
tipo II cuando ?
( (
) (
) ( (
c. ¿Qué valor de n
( (
)
114
PROBLEMA 1
En la tabla se muestran los rendimientos en hl/ha de una cierta variedad de trigo cultivado en
un tipo particular de suelo tratado con químicos A, B o C. Se busca conocer si existe
diferencia significativa entre estos, con un α=0.05.
Tratamiento químico
A B C
48 47 49
49 49 51
50 48 50
49 48 50
a. Planteamiento de la hipótesis
b. Se trata de un diseño con: tratamientos y replicas.
c. Calculo de suma de cuadrados
Tratamiento químico
A B C
48 47 49 2304 2209 2401
49 49 51 2401 2401 2601
50 48 50 2500 2304 2500
49 48 50 2401 2304 2500
= 196 192 200
= 38416 36864 40000
∑∑
28826 = 588
( (
(
( (
(
115
d. Tabla de ANOVA
Modelo Fuente de
variación
Grados de
libertad
SC CM Fc P
Tratamientos 0.022
Error
Total
e. Conclusiones
Se encontró que existe una diferencia significativa entre los químicos con los cuales se trató
el suelo.
PROBLEMA 2
Una compañía desea comprar una de cinco maquinas diferentes A,B,C,D, o E. En un
experimento diseñado para decidir si hay diferencia en el rendimiento de las maquinas, cinco
operadores trabajan con las maquinas en intervalos iguales. Ensayar la hipótesis de que no
hay diferencia entre las maquinas a un nivel de significancia de α=0.05.
116
Maquina
A B C D E
68 72 60 48 64
72 52 82 61 65
75 63 65 57 70
42 55 77 64 68
a. Planteamiento de la hipótesis
b. Se trata de un diseño con: tratamientos y replicas.
c. Calculo de suma de cuadrados
Maquina
A B C D E
68 72 60 48 64 4624 5184 3600 2304 4096
72 52 82 61 65 5184 2704 6724 3721 4225
75 63 65 57 70 5625 3969 4225 3249 4900
42 55 77 64 68 1764 3025 5929 4096 4624
53 48 75 50 53 2809 2304 5625 2500 2809
= 310 290 359 280 320
= 96100 84100 128881 78400 102400
∑∑
99819 = 1559
d. Tabla de ANOVA
Modelo Fuente de
variación
Grados de
libertad
SC CM Fc P
Tratamientos 2.05 0.125
Error
117
Total
e. Conclusiones
No se encontró evidencia de que existe una diferencia significativa entre las
maquinas con los cuales se trabajó.
PROBLEMA 3
Una planta de enlatado emplea un número muy grande de máquinas para su proceso de
llenado. Se da por hecho que cada máquina vacía un peso especificado del producto en cada
lata. El gerente de la planta sospecha que existe una gran variación en la cantidad de producto
que se vacía entre las distintas maquinas. Para verificar su sospecha, escoge al azar cuatro
máquinas y pesa el contenido de cinco latas, seleccionada de forma aleatoria, llenadas por
cada una de las cuatro máquinas. ¿Qué proporción de la varianza en los pesos puede
atribuirse a las diferencias que existen entre las maquinas?
Maquina
1 2 3 4
1.24 1.2 1.19 1.18
1.22 1.2 1.2 1.18
1.22 1.21 1.19 1.19
1.23 1.22 1.2 1.18
1.23 1.2 1.21 1.2
a. Planteamiento de la hipótesis
118
b. Se trata de un diseño con: tratamientos y replicas.
c. Calculo de suma de cuadrados
Maquina
1 2 3 4
1.24 1.2 1.19 1.18 1.5376 1.44 1.4161 1.3924
1.22 1.2 1.2 1.18 1.4884 1.44 1.44 1.3924
1.22 1.21 1.19 1.19 1.4884 1.4641 1.4161 1.4161
1.23 1.22 1.2 1.18 1.5129 1.4884 1.44 1.3924
1.23 1.2 1.21 1.2 1.5129 1.44 1.4641 1.44
= 6.14 6.03 5.99 5.93
= 37.69 36.36 35.88 35.16
∑∑
= 24.09
d. Tabla de ANOVA
Modelo Fuente de
variación
Grados de
libertad
SC CM Fc P
Tratamientos 0.00156 20.86 0.000
Error
Total
119
e. Conclusiones
Se encontró evidencia de que existe una diferencia significativa entre las medias de los pesos
en máquinas elegidas, la proporción de la varianza en los pesos atribuida a estas diferencias
es ⁄ ⁄
PROBLEMA 4
En un experimento con cinco replicas y cuatro tratamientos con un diseño totalmente
aleatorizado, se cultivaron secciones de tejido de planta de tomate con diferentes cantidades y
tipos de azucares. El crecimiento de tejidos en cada cultivo se da en la tabla siguiente como
mmx10.
Tratamiento
Control (1) 3%Glucosa (2) 3%Fructosa (3) 3%Sacarosa
(4)
45 25 28 31
39 28 31 37
40 30 24 35
45 29 28 33
42 33 27 34
a. Planteamiento de la hipótesis
b. Se trata de un diseño con: tratamientos y replicas.
c. Calculo de suma de cuadrados
Maquina
1 2 3 4
120
45 25 28 31 2025 625 784 961 2025
39 28 31 37 1521 784 961 1369 1521
40 30 24 35 1600 900 576 1225 1600
45 29 28 33 2025 841 784 1089 2025
42 33 27 34 1764 1089 729 1156 1764
= 211 145 138 170
= 44521 21025 19044 28900
∑∑
22808 = 664
d. Tabla de ANOVA
Modelo Fuente de
variación
Grados de
libertad SC CM Fc
P
Tratamientos 653.2 217.73 31.67 0.000
Lineal 1 309.760 309.760 39.086 0.000
Cuadrática 1 1.800 0.900 0.114 0.893
Cubica 1 17.640 5.880 0.742 0.542
Error 110 6.875
Total 763.2
121
e. Conclusiones
Se encontró evidencia de que existe una diferencia significativa entre las medias del
crecimiento de tejidos de tomate en las condiciones analizadas. Se observa además con la
prueba de Dunnett que esta diferencias es entre todos los tratamiento contra el control.
Dado que se rechaza , los datos tienen una regresión lineal de
con una
PROBLEMA 5
Se elaboró un diseño que consistió en cinco densidades de plantas (10,20,30,40,50). Cada uno
de los 5 tratamientos se asignó al azar entre las tres parcelas con un diseño de experimento
con muestras totalmente aleatorio, como se muestra en la siguiente tabla:
122
Tratamiento
10 20 30 40 50
12.2 16 18.6 17.6 18
11.4 15.5 20.2 19.3 16.4
12.4 16.5 18.2 17.1 16.6
a. Planteamiento de la hipótesis
b. Se trata de un diseño con: tratamientos y replicas.
c. Calculo de suma de cuadrados
Maquina
10 20 30 40 50
12.2 16 18.6 17.6 18
202
5
148.8
4
256 345.9
6
309.7
6
324
11.4 15.5 20.2 19.3 16.4
152
1
129.9
6
240.2
5
408.0
4
372.4
9
268.96
12.4 16.5 18.2 17.1 16.6
160
0
153.7
6
272.2
5
331.2
4
292.4
1
275.56
= 36 48 57 54 51
=
129
6
230
4
324
9
291
6
260
1
∑∑
4129.4
8 = 246
d. Tabla de ANOVA
Modelo Fuente de
variación
Grados de
libertad SC CM Fc
P
Tratamientos 4 87.600 21.900 29.278 0.000
Lineal 1 43.200 43.200 57.754 0.000
Cuadrática 1 42.000 42.000 56.150 0.000
Cubica 1 0.300 0.300 0.401 0.541
123
Cuarta 1 2.100 2.100 2.807 0.125
Error
10 7.480 0.748
Total 14 95.080
e. Conclusiones
Se encontró evidencia de que existe una diferencia significativa entre las medias de la
cosecha obtenida en las condiciones analizadas. Dado que se rechaza , los
datos tienen una regresión cuadrática de
con una
124
PROBLEMA 6
La tabla 9-7 muestra los rendimientos en hl/ ha de una cierta variedad de trigo cultivado en
un tipo particular de suelo tratado con químicos A, B o C hallar (a) la gran media para todos
los diferentes tratamientos,(b) la gran media para todos los tratamientos (c) la variación total
(d) la variación entre tratamientos (e) la variación dentro de tratamientos. Utilizar el método
largo
SOLUCION
Tratamiento químico
A B C xij^2
48 47 49 2304 2209 2401
49 49 51 2401 2401 2601
50 48 50 2500 2304 2500
49 48 50 2401 2304 2500
taoj. 196 192 200 38416 36864 40000
tapj.^2 38416 36864 40000
28826
MEDIA 49 48 50
tao 588
a= 3
b= 4
Fuente de
variacion gl SC CM F P
Tratamientos 2 8 4 6 0.02208536
Error 9 6 0.66666667
Total 11 14
125
PROBLEMA 7
Una compañía desea comprar una de cinco maquinas diferentes A, B, C, D. en una diseñado
para decidir si hay diferentes en el rendimiento de las maquinas, cinco operadores
experimentos trabajan con las maquinas durante intervalos iguales. La tabla abajo muestra el
número de unidades producidas. Ensayar la hipótesis de que no hay diferencia entre las
maquinas a un nivel de significación del (a) 0.05, (b) 0.01
Solución
A B C D E xij^2
68 72 60 48 64 4624 5184 3600 2304 4096
72 52 82 61 65 5184 2704 6724 3721 4225
75 63 65 57 70 5625 3969 4225 3249 4900
42 55 77 64 68 1764 3025 5929 4096 4624
53 48 75 50 53 2809 2304 5625 2500 2809
taoj. 310 290 359 280 320 20006 17186 26103 15870 20654
tapj.^2 96100 84100 128881 78400 102400
suma 489881
MEDIA 62 58 71.8 56 64 99819
tao 1559
a= 5
b= 5
126
Fuente de
variacion gl SC CM F P
Tratamientos 4 756.96 189.24 2.0538 0.1253
Error 20 1842.8 92.14
Total 24 2599.8
PROBLEMA 8
Un planta de enlatado emplea un número muy grande de máquinas para su proceso de
llenado.se da por hecho que cada máquina vacía un peso especificado del producto en cada
lata. El gerente de la planta sospecha que existe una gran variación en la cantidad del
producto que se vacía entre las distintas máquinas. Para verificar su sospecha, escoge ala azar
cuatro máquinas y pesa el contenido de cinco latas, seleccionadas en forma aleatoria,
llenadas por cada una de las cuatro maquinas. Los resultados se muestran en la tabla abajo.¿
qué proporción de la varianza en los pesos puede atribuirse a las diferencias que existen entre
las maquinas?
127
Solución
Tratamiento
1 2 3 4 xij^2
1.24 1.2 1.19 1.18 1.5376 1.44 1.4161 1.3924
1.22 1.2 1.2 1.18 1.4884 1.44 1.44 1.3924
1.22 1.21 1.19 1.19 1.4884 1.4641 1.4161 1.4161
1.23 1.22 1.2 1.18 1.5129 1.4884 1.44 1.3924
1.23 1.2 1.21 1.2 1.5129 1.44 1.4641 1.44
taoj. 6.14 6.03 5.99 5.93 7.5402 7.2725 7.1763 7.0333
tapj.^2 37.6996 36.3609 35.8801 35.1649
suma 145.106
MEDIA 1.228 1.206 1.198 1.186
29.022
tao 24.09
a= 4
b= 5
Fuente de
variacion gl SC CM F P
Tratamientos 3 0.004695 0.00157 20.867 9E-06
Error 16 0.0012 7.5E-05
Total 19 0.005895
1 1.24
1 1.22
1 1.22
1 1.23
1 1.23
2 1.2
2 1.2
2 1.21
2 1.22
2 1.2
3 1.19
3 1.2
3 1.19
3 1.2
3 1.21
4 1.18
4 1.18
4 1.19
4 1.18
4 1.2
128
PROBLEMA 9
Un fabricante de papel está examinando si la resistencia a tracción de un producto de papel se
ve afectada por el concentración madera de La pasta utilizada para los concentraciones
madera producto. Cuatro (5, 10,15 y 20 %; a = 4) son seleccionados por el analista y cinco
muestras (n = 5) se ponen a prueba en cada concentración de resistencia a la tracción, lo que
resulta en la siguiente
Solución
Tratamiento
5 10 15 20 xij^2
7 12 14 19 49 144 196 361
8 17 18 25 64 289 324 625
15 13 19 22 225 169 361 484
11 18 17 23 121 324 289 529
9 19 16 18 81 361 256 324
taoj. 50 79 84 107 540 1287 1426 2323
tapj.^2 2500 6241 7056 11449
suma 27246
MEDIA 10 15.8 16.8 21.4 5576
tao 320
a= 4
b= 5
129
Fuente de
variacion gl SC CM F P
Tratamientos 3 329 109.7 13.85 1E-04
lineal 1 310 309.8 38.13 8E-06
error 18 146 8.124
cuadratica 2 312 155.8 18.33 6E-05
error 17 144 8.496
cubica 3 329 109.7 13.91 1E-04
error 16 126 7.888
Error 16 127 7.925
Total 19 456
5 7
5 8
5 15
5 11
5 9
10 12
10 17
10 13
10 18
10 19
15 14
15 18
15 19
15 17
15 16
20 19
20 25
20 22
20 23
20 18
130
131
PROBLEMA 10
Se eladoro un experimento para estimar la curva de respuesta polinomial que caracteriza esta
relación. El diseño de tratamiento consistió en cinco densidades de plantas (10, 20, 30, 40 y
50).cada uno de los cinco tratamientos se asignó al azar entre las tres parcelas con un diseño
de experimento con muestra totalmente aleatorio. Las cosechas de grano resultantes se
muestran en la tabla abajo
Solución
Tratamiento
10 20 30 40 50 xij^2
12.2 16 18.6 17.6 18 148.84 256 345.96 309.76 324
11.4 15.5 20.2 19.3 16.4 129.96 240.3 408.04 372.49 268.96
12.4 16.5 18.2 17.1 16.6 153.76 272.3 331.24 292.41 275.56
taoj. 36 48 57 54 51 432.56 768.5 1085.2 974.66 868.52
tapj.^2 1296 2304 3249 2916 2601
suma 9765
MEDIA 12 16 19 18 17
4129
tao 246
132
a= 5
b= 3
Fuente de
variacion gl SC CM F P
Tratamientos 4 87.6 21.9 29.3 2E-05
lineal 1 43.2 43.2 10.8 0.0059
error 13 51.88 3.99
cuadratica 2 85.2 42.6 51.7 1E-06
error 12 9.88 0.82
cubica 3 85.5 28.5 32.7 9E-06
error 11 9.58 0.87
cuarta 4 87.6 21.9 29.3 2E-05
error 10 7.48 0.75
Error 10 7.48 0.75
Total 14 95.08
10 12.2
10 11.4
10 12.4
20 16
20 15.5
20 16.5
30 18.6
30 20.2
30 18.2
40 17.6
40 19.3
40 17.1
50 18
50 16.4
50 16.6
133
134
135
PROBLEMA 11
En un experimento con cinco replicas y cuatro tratamientos con un diseño totalmente
aleatorizados cultivaron secciones de tejido de planta de tomate con diferentes cantidades y
tipos de azucares. El crecimiento de tejidos en cada cultivo se da en la tabla abajo en
siguiente como mm 10
a) Calcule el ICS del 95% de las comparaciones de todos los tratamientos contra el
tratamiento de control, mediante el método de Dunnett.
b) ¿Cuáles son sus conclusiones?
Solución
Tratamiento
A B C D xij^2
45 25 28 31 2025 625 784 961
39 28 31 37 1521 784 961 1369
40 30 24 35 1600 900 576 1225
45 29 28 33 2025 841 784 1089
42 33 27 34 1764 1089 729 1156
taoj. 211 145 138 170 8935 4239 3834 5800
tapj.^2 44521 21025 19044 28900
suma 113490
MEDIA 42.2 29 27.6 34 22808
tao 664
a= 4
b= 5
Fuente de variacion gl SC CM F P
Tratamientos 3 653.2 217.7 31.67
6E-
07
Error 16 110 6.875
Total 19 763.2
136
A 45
A 39
A 40
A 45
A 42
B 25
B 28
B 30
B 29
B 33
C 28
C 31
C 24
C 28
C 27
D 31
D 37
D 35
D 33
D 34
137
138
PROBLEMA 1
Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación
estándar de 0.01 in. Se obtiene una muestra aleatoria de diez monturas, donde el diámetro
promedio resulta ser 1.5045 in. Utilice α= 0.01.
a. Pruebe la hipótesis de que el diámetro promedio verdadero del agujero es 1.50 in.
b. ¿Cuál es el valor P de esta prueba?
c. ¿Qué tamaño de muestra se necesita para detectar un diámetro promedio verdadero de
1.505 in. Con una probabilidad de al menos 0.90?
d. ¿Cuál es el valor de 13 si el diámetro promedio verdadero del agujero es 1.505 in.?
SOLUTION
a) 1) el parámetro de interés es el verdadero diámetro medio del agujero
2) : μ = 1.50
3) : μ ≠ 1.50
4) α = 0.01
5) =
√
6) rechazar Ho sí < cuando = -2.58 ó > cuando Zo= 2.58
7) = 1.5045, = 0.01
=
√ = 1.423
8) desde -2.58< 1.423< 2.58, no se puede rechazar la hipótesis nula y la conclusión es que la
verdadero sobre media de diámetro de la agujero no es significativo en diferencia de
1.5pulgada con α
Z de una muestra
Prueba de mu = 1.5 vs. no = 1.5
La desviación estándar supuesta = 0.01
Error
Estándar de
N Media la media IC de 99% Z P
10 1.50450 0.00316 (1.49635, 1.51265) 1.42 0.155
Z de una muestra
Prueba de mu = 1.505 vs. no = 1.505
La desviación estándar supuesta = 0.01
Error
139
estándar de
N Media la media IC de 90% Z P
10 1.50450 0.00316 (1.49930, 1.50970) -0.16 0.874
Z de una muestra
Prueba de mu = 1.5045 vs. < 1.5045
La desviación estándar supuesta = 0.01
Error Límite
Estándar de superior
N Media la media 90% Z P
10 1.50500 0.00316 1.50905 0.16 0.563
Z de una muestra
Prueba de mu = 1.505 vs. > 1.505
La desviación estándar supuesta = 0.01
Error
Estándar de 95% Límite
N Media la media inferior Z P
10 1.50450 0.00316 1.49930 -0.16 0.563
CONCLUSIÓN
El intervalo de confianza construida contiene el valor de 1.5, por lo tanto el verdadero
diámetro medio del agujero podría ser 1.5pulgada.usar un nivel de 99% de confianza. Desde
hace dos lados de intervalos de confianza del 99% es equivalente a una prueba de dos
hipótesis de cara α= 0,01 la conclusión necesaria debe ser coherente
PROBLEMA 2
Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas.
Las distribuciones de los volúmenes de llenado pueden suponerse normales, con
desviaciones estándar = 0.020 y = 0.025 onzas. Un miembro del grupo de ingeniería de
calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin
importar si éste es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 1 O
Botellas.
140
Maquina
1 Maquina 2
16.03 16.01
16.02 16.03
16.04 15.96
15.97 16.04
16.05 15.98
15.96 16.02
16.05 16.02
16.01 16.01
16.02 15.99
15.99 16
a. ¿Se encuentra el ingeniero en lo correcto? Utilice a.= 0.05.
b. ¿Cuál es el valor P de esta prueba?
c. Si se supone que el tamaño de las muestras es el mismo, ¿qué tamaño de muestra debe
utilizarse para asegurar que 13 = 0 . 05 si la diferencia verdadera entre las Medias es 0.08?
Suponga que α. = 0.05.
d. ¿Cuál es la potencia de la prueba del inciso a) si la diferencia verdadera entre las medias es
0.08?
SOLUTION
Resumen para m2
Resumen para m1
INCISOS A) Y B)
Prueba T de dos muestras e IC * NOTA * No se pueden crear gráficas con datos resumidos.
Error
estándar
de la
Muestra N Media Desv.Est. media
1 10 16.0150 0.0200 0.0063
2 10 16.0050 0.0250 0.0079
Diferencia = mu (1) - mu (2)
Estimado de la diferencia: 0.0100
IC de 95% para la diferencia: (-0.0114, 0.0314)
Prueba T de diferencia = 0 (vs. no =): Valor T = 0.99 Valor P = 0.337 GL = 17
INCISO C)
Prueba T de dos muestras e IC
* NOTA * No se pueden crear gráficas con datos resumidos.
Error
estándar
de la
Muestra N Media Desv.Est. media
1 10 16.0150 0.0200 0.0063
2 10 16.0050 0.0250 0.0079
Diferencia = mu (1) - mu (2)
141
Estimado de la diferencia: 0.0100
IC de 95% para la diferencia: (-0.0114, 0.0314)
Prueba T de diferencia = 0.08 (vs. no =): Valor T = -6.91 Valor P = 0.000 GL= 17
CONCLUSION
Utilizando el criterio de decisión 20 aZZ para rechazar la hipótesis nula H0, nos damos
cuenta de que 0.0114 no es mayor que 0.0314. Por lo cual no rechazamos H0. No existe
suficiente evidencia estadística para pensar que las medias son diferentes.
1er cuartil 15.988
Mediana 16.020
3er cuartil 16.043
Máximo 16.050
15.993 16.037
15.987 16.043
0.021 0.055
A -cuadrado 0.27
V alor P 0.582
Media 16.015
Desv .Est. 0.030
V arianza 0.001
A simetría -0.600526
Kurtosis -0.576623
N 10
Mínimo 15.960
Prueba de normalidad de A nderson-Darling
Interv alo de confianza de 95% para la media
Interv alo de confianza de 95% para la mediana
Interv alo de confianza de 95% para la desv iación estándar
16.0416.0216.0015.9815.96
Mediana
Media
16.0416.0216.00
Intervalos de confianza de 95%
Resumen para m1
1er cuartil 15.985
Mediana 16.010
3er cuartil 16.023
Máximo 16.040
15.987 16.023
15.983 16.023
0.018 0.047
A -cuadrado 0.27
V alor P 0.600
Media 16.005
Desv .Est. 0.025
V arianza 0.001
A simetría -0.603434
Kurtosis -0.389405
N 10
Mínimo 15.960
Prueba de normalidad de A nderson-Darling
Interv alo de confianza de 95% para la media
Interv alo de confianza de 95% para la mediana
Interv alo de confianza de 95% para la desv iación estándar
16.0416.0216.0015.9815.96
Mediana
Media
16.0216.0116.0015.9915.98
Intervalos de confianza de 95%
Resumen para m2
142
Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si aceptáramos
la hipótesis nula el criterio de decisión es débil, ya que generalmente se busca rechazar H0.
PROBLEMA 3
Un ingeniero que trabaja para un fabricante de llantas investiga la duración promedio de un
compuesto nuevo de caucho. Para ello, construye 16 llantas y las prueba en una carretera
hasta alcanzar el fin de la vida útil de éstas. Los datos, en km, obtenidos son los siguientes:
60 613 59 836 59 554 60 252
59 784 60 221 60 311 50040
60 545 60257 60000 59 997
69 947 60 135 60 220 60 523
a. Al ingeniero le gustaría demostrar que la vida útil promedio de la nueva llanta excede
los 60 mil km. Proponga y pruebe hipótesis apropiadas. Obtenga una conclusión con
a= 0 05.
b. Suponga que si la vida media es de 61 mil km, al ingeniero le gustaría detectar esta
diferencia con una probabilidad de al menos 0.90. ¿Es adecuado el tamaño de la
muestra, n = 16, utilizado en el inciso a)? Utilice la desviación estándar muestra) s
como una estimación de a para llegar a una decisión.
SOLUTION
a)1) el parámetro de interés es la vida media verdad μ
2) H0: μ = 60000
3) H1: μ > 60000
4) α = 0.05
Z de una muestra: C1
Prueba de mu = 60000 vs. no = 60000
La desviación estándar supuesta = 3646
Error
estándar
de la
Variable N Media Desv.Est. media IC de 95% Z P
C1 16 60140 3646 912 (58353, 61926) 0.15 0.878
CONCLUCION
Desde 0.153< 1.753, no se puede rechazar hipótesis nula y la la conclusión es hay
evidencia insuficiente para indicar que la media vida de new llanta en exceso a
60,000km con α 0 0.05
Para usar de curva oc, con α = 0.05, d= 0.274, y n = 16, tuvieron que b≡ 0.72 y la
potencia entre 1-0.72 es 0.28.con la potencia que es chiquito que un nivel aceptable, por
143
lo tanto 16 no es una muestra adecuado para detectar la diferencia en la probabilidad
menor a 0.90
Con 95% confianza, que tire creernos la vida media es de entre 58353
Y 61926 kilómetros
7000065000600005500050000
X_
Ho
C1
Gráfica de caja de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)
7000065000600005500050000
15.0
12.5
10.0
7.5
5.0
2.5
0.0X_
Ho
C1
Fre
cue
nci
a
Histograma de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)
144
7000065000600005500050000
X_
Ho
C1
Gráfica de valores individuales de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)
1er cuartil 59876
Mediana 60221
3er cuartil 60470
Máximo 69947
58197 62082
59959 60361
2693 5643
A -cuadrado 3.32
V alor P < 0.005
Media 60140
Desv .Est. 3646
V arianza 13292850
A simetría -0.13669
Kurtosis 7.37454
N 16
Mínimo 50040
Prueba de normalidad de A nderson-Darling
Interv alo de confianza de 95% para la media
Interv alo de confianza de 95% para la mediana
Interv alo de confianza de 95% para la desv iación estándar
7000065000600005500050000
Mediana
Media
6200061000600005900058000
Intervalos de confianza de 95%
Resumen para C1
145
PRUEBA T PAREADA Introduccion
En un diseño pareado las unidades son parecidas (de hecho pueden ser las mismas), mientras
que las unidades de distintos pares son diferentes. En diseños pareados analizamos las
diferencias y el problema se reduce al test t para una media que vimos en el capítulo anterior.
PROBLEMA 1
Se pueden utilizar dos pruebas analítica diferentes para determinar el nivel de impureza en
aleaciones de acero.se prueban ocho especímenes con ambos procedimientos; los resultados
aparecen en la siguiente tabla, ¿existe suficiente evidencie para concluir que ambas prueba
dan el mismo nivel de impureza promedio, utilizando α = 0.01?
Especimen
Prueba
1 Prueba2
1 1.2 1.4
2 1.3 1.7
3 1.5 1.5
4 1.4 1.3
5 1.7 2
6 1.8 2.1
7 1.4 1.7
8 1.3 1.6
SOLUTION
Prueba T de dos muestras e IC
Error
estándar
de la
Muestra N Media Desv.Est. media
1 20 1.1500 0.0121 0.0027
2 20 1.06000 0.00810 0.0018
Diferencia = mu (1) - mu (2)
Estimado de la diferencia: 0.09000
IC de 95% para la diferencia: (0.08338, 0.09662)
Prueba T de diferencia = 0 (vs. no =): Valor T = 27.64 Valor P = 0.000 GL = 33
IC y Prueba T pareada: prueba 1, prueba 2
T pareada para prueba 1 - prueba 2
Error
estándar
146
de la
N Media Desv.Est. media
prueba 1 8 1.4500 0.2070 0.0732
prueba 2 8 1.6625 0.2774 0.0981
Diferencia 8 -0.2125 0.1727 0.0611
IC de 99% para la diferencia media:: (-0.4262, 0.0012)
Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -3.48 Valor P = 0.010
0.10.0-0.1-0.2-0.3-0.4
4
3
2
1
0X_
Ho
Diferencias
Fre
cu
en
cia
Histograma de Diferencias(con Ho e intervalo de confianza t de 99% para la media)
0.10.0-0.1-0.2-0.3-0.4-0.5
X_
Ho
Diferencias
Gráfica de valores individuales de Diferencias(con Ho e intervalo de confianza t de 99% para la media)
147
PROBLEMA 2 Considere los datos adjuntos sobre carga de ruptura (kg/25 mm de ancho) de varias telas
tanto desgastadas como no desgastadas (“The Effect of Wet Abrasive Wear on the Tensile
Properties of Cotton and Polyester-Cotton Fabrics”, J. Testing and Evaluation, 1993: 84-93).
Use la prueba t apareada, como lo hicieron los autores del citado artículo, para probar H0: μD
= 0 contra Ha: μD˃0 a un nivel de significación de 0.01.
Tela
1 2 3 4 5 6 7 8
N
G 36.4 55 51.5 38.7 43.2 48.8 25.6 49.8
G 28.5 20 46 34.5 36.5 52.5 26.5 46.5
0.10.0-0.1-0.2-0.3-0.4-0.5
X_
Ho
Diferencias
Gráfica de caja de Diferencias(con Ho e intervalo de confianza t de 99% para la media)
148
PROBLEMA 3
Se ha identificado cromo hexavalente como carcinógeno inhalado y como una toxina presente
en el aire de interés en varios lugares diferentes. El artículo “Airborne Hexavalent Chromium
in Southwestern Ontario” (J. of Air and Waste Mgmnt. Assoc., 1997: 905-910) reportó los
datos adjuntos tanto de concentración bajo techo como al aire libre (nanogramos/ m3) para
una muestra de casas seleccionadas al azar en cierta región. Calcule un intervalo de confianza
para la diferencia de media de población entre concentraciones bajo techo y a la intemperie
utilizando un nivel de confianza de 95% e interprete el intervalo resultante.
1 2 3 4 5 6 7 8 9
Bajo techo 0.07 0.08 0.09 0.12 0.12 0.12 0.13 0.14 0.15
Intemperie 0.29 0.68 0.47 0.54 0.97 0.35 0.49 0.84 0.86
10 11 12 13 14 15 16 17
Bajo techo 0.15 0.17 0.17 0.18 0.18 0.18 0.18 0.19
Intemperie 0.28 0.32 0.32 1.55 0.66 0.29 0.21 1.02
18 19 20 21 22 23 24 25
Bajo techo 0.2 0.22 0.22 0.23 0.23 0.25 0.26 0.28
Intemperie 1.59 0.9 0.52 0.12 0.54 0.88 0.49 1.24
26 27 28 29 30 31 32 33
Bajo techo 0.28 0.29 0.34 0.39 0.4 0.45 0.54 0.62
Intemperie 0.48 0.27 0.37 1.26 0.7 0.76 0.99 0.36
149
PROBLEMA 4 La lactancia estimula una pérdida temporal de masa ósea para proporcionar cantidades de
calcio adecuadas para la producción de leche. El artículo “Bone Mass Is Recovered from
Lactation to Postweaning in Adolescent Mothers with Low Calcium Intakes” (Amer. J.
Clinical Nutr., 2004; 1322- 1326) dio los siguientes datos sobre contenido total de minerales
en los huesos del cuerpo (TBBMC, por sus siglas en inglés) (g) para una muestra tanto
durante la lactancia (L) como en el periodo de posdestete (P).
1 2 3 4 5 6 7 8 9 10
L 1928 2549 2825 1924 1628 2175 2114 2621 1843 2541
P 2126 2885 2895 1942 1750 2184 2164 2626 2006 2627
a. ¿Sugieren los datos que el contenido total de minerales en los huesos del cuerpo
durante el posdestete excede el de la etapa de lactancia por más de 25 g? Formule y
pruebe las hipótesis apropiadas utilizando un nivel de significación de 0.05 [Nota: La
curva de probabilidad normal apropiada muestra algo de curvatura pero no suficiente
para sembrar dudas sustanciales sobre una suposición de normalidad.]
Ho: El contenido de minerales durante la lactancia es menor que al momento de estar en la
poslactancia.
Ha: el contenido de minerales es el mismo.
b. Calcule un límite de confianza superior utilizando un nivel de confianza de 95% para
la diferencia promedio verdadera entre TBBMC durante el posdestete y durante la
lactancia.
150
PRUEBA DE BONDAD DE AJUSTE CHI CUADRADO X2
El procedimiento de la prueba requiere una muestra aleatoria de tamaño n proveniente de la
población cuya distribución de probabilidad es desconocida. Estas n observaciones se pueden
distribuir en k intervalos de clases y pueden ser representadas en histogramas. La prueba se
puede utilizar tanto para distribuciones discretas como para distribuciones continuas
La prueba se puede sintetizar en los siguientes pasos.
1. Se colocan los n datos históricos (muéstrales) en una tabla de
frecuencia de la siguiente manera:
a) Se busca en cuantos intervalos de clases se puede distribuir los datos en estudio lo
cual se puede hacer n=m o alternativamente es muy común utilizar las encontrar el
número de intervalos se aplica la regla de sturges:
m =1+3,3 log n donde n es el número de datos
b) Luego encontramos el rango el cual es la diferencia entre el mayor valor y el menor
valor.
R=Xmax-Xmin
c) Amplitud de cada intervalo está dado por:
A=
d) M se obtienen las frecuencias observadas en cada intervalos se calcula la media, la
varianza y las desviación estándar.
2. Se propone una distribución de probabilidad una distribución de probabilidad de acuerdo
con la tabla de frecuencia o con la curva que muestre un histograma o polígono de
frecuencia.
3. Con la distribución propuesta, se calcula la frecuencia esperada para cada uno de los
intervalos (FEi) de la siguiente manera:
Si la variable es continua se halla mediante la integración de la distribución propuesta
y luego se multiplica por el número total de datos.
Si la variable es continua se utiliza de modelo matemático de la distribución propuesta
y se evalúan todas la categorías y luego se multiplica por el número total de datos.
Nota: El estadístico de prueba tiene distribución Chi cuadrado con, m-k-1 grados de libertad,
siempre que las frecuencias esperadas sean 5 o más para todas las categorías
5. Si el estimador C es menor o igual al valor correspondiente x 2 con m-k-1 grados de bertad
(K= números de parámetros estimados de la distribución propuesta estimada por los
151
stadísticos muéstrales) y a un nivel de confiabilidad de 1-a, entonces no se puede rechazar la
hipótesis de que los datos siguen la distribución que se propuso.
PROBLEMA 1
Se diseña un generador de números seudoaleatorios de modo que los enteros 0 a 9 misma
probabilidad de ocurrencia. Los primeros 10 mil números son;-
Enteros 0 1 2 3 4 5 6 7 8 9
Números 967 1008 975 1022 1003 989 1001 981 1043 1011
a. ¿el generador trabaja de manera apropiada? Utilice α = 0.01
b. Calcule el valor P de esta prueba
SOLUTION
Prueba de bondad de ajuste para distribución de Poisson
Columna Datos: NUmeros
Media de Poisson para NUmeros = 1000
Probabilidad Contribución
NUmeros Observado de Poisson Esperado a Chi-cuad.
<=975 2 0.219861 2.19861 0.01794
976 - 993 2 0.200686 2.00686 0.00002
994 - 1011 4 0.223102 2.23102 1.40263
1012 - 1021 0 0.108962 1.08962 1.08962
>=1022 2 0.247390 2.47390 0.09078
N N* GL Chi-cuad. Valor P
10 0 3 2.60099 0.457
5 celdas (100.00%) con valores esperados menores que 5.
152
PROBLEMA 7
Un embotellador de refrescos estudia la resistencia a la presión interna en botellas de vidrio
de un litro. Para ello somete a prueba una muestra aleatoria de 16 botellas y se obtienen los
datos de resistencia a la presión que aparecen en la siguiente tabla. Haga una gráfica de ellos
en papel de probabilidad normal. ¿Parece razonable concluir que la resistencia a la presión
tiene una distribución normal?
976 - 993<=975>=10221012 - 1021994 - 1011
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
NUmeros
Va
lor
de
co
ntr
ibu
ció
n
Gráfica de contribución al valor Chi-cudrado por categoría
NUmeros >=10221012 - 1021994 - 1011976 - 993<=975
4
3
2
1
0
Va
lor
Esperado
Observado
Gráfica de valores observados y esperados
153
226.16 psi 211.14 psi
202.2 203.62
219.54 188.12
193.73 224.39
208.15 221.31
195.45 204.55
193.71 202.21
200.81 201.63
Solución
a) 1) el parámetro de interés es la verdadera resistencia a la compresión media, μ.
2) Ho: μ = 3500
3) μ ≠ 3500
4) α = 0.01
5) Zo =
√ =
6) Rechazar Ho sí
cuando – ó
cuando
7) ẋ = 3250, 𝛔 = 31.62
Desde -27.39 < -2.58, rechazar la hipótesis nula y concluir la verdadero que la media
compresivo significativo en diferente en 3500 con α 0 0.01
b) menor nivel de significación de p-valor = 2[1- -2[1-1]=0
El nivel más pequeño de significancia mínimo al que estamos dispuestos a rechazar la
hipótesis nula es 0.
c)
= = 1.96
ẋ - (
√ ) ẋ + (
√ )
3250- 1.96(
√ ) 3250 + (
√ )
3232.11 3267.89
Con una confianza del 95%, creemos que la verdadera resistencia a la compresión
media es de entre 3.232,11psi y 3267.89psi
d)
= = 2.58
e) ẋ - (
√ ) ẋ + (
√ )
3250 – 2.58(
√ ) 32.50 + (
√ )
3226.5 3273.5
154
CONCLUCION
Con una confianza del 95%, creemos que la verdadera resistencia a la compresión
media es de entre 3226.5 psi y 3273.5 psi.
el intervalo de confianza del 99% es más ancha que la confianza de 95% intervalo de
confianza con el mayor nivel de confianza siempre resultará en un intervalo de
confianza más amplio cuando significa ẋ, y n, se mantienen constantes
155
PRUEBA DE HIPOTESIS SOBRE DOS PROPORCIONES
PROBLEMA # 1
Un científico de la computación está investigando la utilidad de los lenguajes de diseño para
mejorar las tareas de programación.se pide a doce programadores expertos, familiarizados
con los dos lenguajes, que codifiquen una función estándar en ambos lenguajes, anotando el
tiempo, en minutos, qué requieren para hacer esta tarea. Los datos obtenidos son los
siguientes:
Encuentre un interval de confianza de 95% para la diferencia en los tiempos de codificaacion
promedio.¿existe algo que indique una preferencia por alguno de los lenguajes?
Solución
Paired T-Test and CI: Lenguaje de diseño 1, Lenguaje de diseño 2
Paired T for Lenguaje de diseño 1 - Lenguaje de diseño 2
N Mean StDev SE Mean
Lenguaje de dise 12 17.9167 3.6296 1.0478
Lenguaje de dise 12 17.2500 4.5950 1.3265
Difference 12 0.666667 2.964436 0.855759
95% CI for mean difference: (-1.216846, 2.550179)
T-Test of mean difference = 0 (vs not = 0): T-Value = 0.78 P-Value = 0.452
156
Histogram of Differences
Individual Value Plot of Differences
Boxplot of Differences
Paired T-Test and CI: Lenguaje de diseño 1, Lenguaje de diseño 2
Paired T for Lenguaje de diseño 1 - Lenguaje de diseño 2
N Mean StDev SE Mean
Lenguaje de dise 12 17.9167 3.6296 1.0478
Lenguaje de dise 12 17.2500 4.5950 1.3265
Difference 12 0.666667 2.964436 0.855759
95% upper bound for mean difference: 2.203511
T-Test of mean difference = 0 (vs < 0): T-Value = 0.78 P-Value = 0.774
Boxplot of Differences
Paired T-Test and CI: Lenguaje de diseño 1, Lenguaje de diseño 2
Paired T for Lenguaje de diseño 1 - Lenguaje de diseño 2
N Mean StDev SE Mean
Lenguaje de dise 12 17.9167 3.6296 1.0478
Lenguaje de dise 12 17.2500 4.5950 1.3265
Difference 12 0.666667 2.964436 0.855759
95% lower bound for mean difference: -0.870178
T-Test of mean difference = 0 (vs > 0): T-Value = 0.78 P-Value = 0.226
7.55.02.50.0-2.5-5.0
X_
Ho
Differences
Boxplot of Differences(with Ho and 95% t-confidence interval for the mean)
157
7.55.02.50.0-2.5-5.0
X_
Ho
Differences
Boxplot of Differences(with Ho and 95% t-confidence interval for the mean)
7.55.02.50.0-2.5-5.0
X_
Ho
Differences
Boxplot of Differences(with Ho and 95% t-confidence interval for the mean)
158
7.55.02.50.0-2.5-5.0
X_
Ho
Differences
Individual Value Plot of Differences(with Ho and 95% t-confidence interval for the mean)
PROBLEMA # 2
En una muestra aleatoria de 500 adultos residentes en cierto condado, se encuentra que 385
están a favor de aumentar el límite de velocidad en las autopistas a 70mph, mientras que en
otra muestra de 400 adultos residentes en un condado vecino se encuentra que 267 están a
favor del aumento del límite de velocidad. ¿Estos datos indican que existe una diferencia en
el apoyo al aumento del límite de velocidad entre los residentes de ambos condados? Utilice a
= 0.05 para llegar a una conclusión. Encuentre el valor P de esta prueba.
Solución
Bienvenido a Minitab, presione F1 para obtener ayuda.
Prueba e IC para dos proporciones
Muestra X N Muestra p
1 385 500 0.770000
2 267 400 0.667500
Diferencia = p (1) - p (2)
Estimado de la diferencia: 0.1025
IC de 95% para la diferencia: (0.0434059, 0.161594)
Prueba para la diferencia = 0 vs. no = 0: Z = 3.42 Valor P = 0.001
Prueba exacta de Fisher: Valor P = 0.001
159
PROBLEMA # 3
Se estudia la fracción de circuitos integrados defectuosos producidos en un proceso de
fotolitografía. Para ello se somete a prueba una muestra de 300 circuiros, en la que 13 son
defectuosos. Utilice los datos para probar Ho: p= 0.05 contra H1: p ≠ 0.05.utilice α = 0.05.
Encuentre el valor P para prueba
SOLUCION
Prueba e IC para una proporción
Prueba de p = 0.05 vs. p no = 0.05
Muestra X N Muestra p IC de 95% Valor Z Valor P
1 13 300 0.043333 (0.020294, 0.066373) -0.53 0.596
Uso de la aproximación normal.
PROBLEMA # 4
Se investigan los puntos de fusión de los aleaciones utilizadas en la fabricación de soldadura.
Para ello, se funden 20 muestra de cada material. La media muestral y la desviación estándar
de la aleación 1 son = 421 y =4 , mientras que para la aleación 2 los resultados
son = 426 y =3 . ¿Los datos contenidos en la muestra apoyan la afirmación de que
dos aleaciones tienen el mismo punto de fusión? Utilice α = 0.05 suponga que ambas
poblaciones tienen las mismas desviaciones estándar. Encuentre el valor de esta prueba.
Solución
Prueba T de dos muestras e IC
Error
estándar
de la
Muestra N Media Desv.Est. media
1 20 421.00 4.00 0.89
2 20 426.00 3.00 0.67
Diferencia = mu (1) - mu (2)
Estimado de la diferencia: -5.00
IC de 95% para la diferencia: (-7.27, -2.73)
Prueba T de diferencia = 0 (vs. no =): Valor T = -4.47 Valor P = 0.000 GL = 35
Prueba T de dos muestras e IC
Error
estándar
de la
Muestra N Media Desv.Est. media
1 20 421.00 4.00 0.89
2 20 426.00 4.00 0.89
160
Diferencia = mu (1) - mu (2)
Estimado de la diferencia: -5.00
IC de 95% para la diferencia: (-7.56, -2.44)
Prueba T de diferencia = 0 (vs. no =): Valor T = -3.95 Valor P = 0.000 GL = 38
PROBLEMA # 5
En la fabricación de semiconductores, menudo se utiliza una sustancia química para quitar el
silicón de la parte trasera de las obleas antes de la metalización. En este proceso es
importante la rapidez con la que actúa la sustancia.se han comparado dos soluciones
químicas. Utilizando para ello dos muestras aleatorias de 10 obseas para cada solución. La
rapidez de acción observada es la siguiente (en mils/ min.);
a) ¿los datos apoyan la afirmación de que la rapidez promedio de acción es la misma para
ambas soluciones? para obtener sus conclusiones, utilice α= 0.05 y suponga que las
varianza de ambas poblaciones son iguales.
b) Calcule el valor P para la prueba del inciso a)
c) Construya diagramas de caja para las dos muestras.¿ estas graficas apoyan la hipótesis de
que las varianza son iguales’ escriba una interpretación practica de estas grafica
161
Solución
Bienvenido a Minitab, presione F1 para obtener ayuda.
Prueba T e IC de dos muestras: Sol 1, Sol 2
T de dos muestras para Sol 1 vs. Sol 2
Error
estándar
de la
N Media Desv.Est. media
Sol 1 10 9.970 0.422 0.13
Sol 2 10 10.400 0.231 0.073
Diferencia = mu (Sol 1) - mu (Sol 2)
Estimado de la diferencia: -0.430
IC de 95% para la diferencia: (-0.749, -0.111)
Prueba T de diferencia = 0 (vs. no =): Valor T = -2.83 Valor P = 0.011 GL = 18
Ambos utilizan Desv.Est. agrupada = 0.3400
162
Gráfica de caja de Sol 1, Sol 2
Sol 2Sol 1
10.8
10.6
10.4
10.2
10.0
9.8
9.6
9.4
9.2
Da
tos
Gráfica de caja de Sol 1, Sol 2
Conclusión
En la gráfica, solución 2 indicar que tiene alta nivel de concentración más de solución 1
Los resultados de cada solución atreves la gráfica indica que la solución 1 fue 9.9
concentración y la concentración 2 fue 10.3 concentración más de solución 1
TESTS ON THE MEAN OF A NORMAL DISTRIBUTION, VARIANCE KNOWN
Introducción
Varianza conocida: Este caso que se plantea es más a nivel teórico que práctico porque
difícilmente vamos a poder conocer con exactitud mientras que µ es desconocido. Sin
embargo nos aproxima del modo más simple a la estimación de medias.
Para estimar µ, el estadístico que mejor nos va a ayudar es , del que conocemos su ley de
distribución (referenciada en la unidad anterior).
163
Este es el modo más conveniente para hacer una estimación: Buscar una relación en la que
intervengan el parámetro desconocido junto con su estimador, de modo que estos se
distribuyan según una ley de probabilidad que es bien conocida y a ser posible tabulada.
De este modo, fijado α (valor arbitrario y cercano a 1), se toma un intervalo que contenga
una masa de probabilidad de 1 - α. Lo ideal es que este intervalo sea lo más pequeño posible;
por ello lo mejor es tomarlo simétrico con respecto a la media ya que allí es donde se
acumula más masa en una distribución normal. Así, las dos colas de la distribución (zonas
más alejadas de la media) tendrán áreas iguales.
aaa 1)( 2/2/ ZZZP
Como n
XZ
/
a aa 1)//( 2/2/ nZXnZXP
Varianza poblacional desconocida: Como se ha mencionado, el caso anterior se presentará
poco en la práctica, ya que lo usual es que el valor exacto de los parámetros µ y no sean
conocidos; de lo contrario, no interesaría en buscar intervalos de confianza para ellos.
Si la muestra tomada es grande, un procedimiento aceptable consiste en reemplazar σ por el
valor calculado de la desviación estándar muestral.
Cuando el tamaño de la muestra es pequeño debe emplearse otro procedimiento. Para
producir un intervalo de confianza válido debe hacerse una hipótesis más fuerte con respecto
a la población de interés y es que ella está distribuida normalmente. Esto conduce a intervalos
de confianza basados en la distribución t de Student, que es una distribución continua que
tiene una forma muy similar a la distribución normal estándar (tiene forma de campana y es
simétrica con una media de 0); una distribución t específica depende de un parámetro llamado
grados de libertad, que para efectos de esta unidad equivale a n – 1. A medida que aumenta
164
la cantidad de grados de libertad, la diferencia entre la distribución t y la distribución normal
estándar se hace más y más pequeña.
Si se asume que la población está distribuida normalmente los intervalos de confianza se
basan en la distribución t de Student.
Cuando se revisaron las distribuciones muéstrales se determinó que
nS
XT
/
Con n – 1 grados de libertad.
Si se escoge un intervalo central en la distribución t, -tα/2,n-1 y tα/2,n-1 son los puntos críticos y,
por lo tanto:
aaa 1)( 1,2/1,2/ nn tTtP
De allí se obtiene un intervalo de confianza dado por:
nstXnstX nn // 1,2/1,2/ aa
QUESTION #1
Aircrew escape systems are powered by a solid propellant. The burning rate of this propellant
is an important product characteristic. Specifications require that the mean burning rate must
be 50 centimetres per second. We know that the standard deviation of burning rate is σ=2
centimetres per second. The experimenter decides to specify a type I error probability or
significance level of α=0.05 and selects a random sample of n = 25 and obtains a sample
average burning rate of ẋ=51.3 centimetres per second. What conclusions should be drawn?
Solution
We may solve this problem by following the eight-step procedure. This result in
1. The parameter of interest is μ = 50 centimetres per second
2. Ho : μ=50 centimetres per second
165
3. : μ ≠ 50 centimetres per second
4. α = 0.05
5. The test statistic is
Zo =
√
6. Reject Ho if Zo > 1.96 or if z< -1.96. Note that this results from step 4, where we
Specified α = 0.05, and so the boundaries of the critical region are at = 1.96
And = -1.96
7. Computations: Since ẋ=51.3 and σ = 2,
=
√ = 3.25
8. Conclusion: Since = 3.25> 1.96 we reject Ho: μ= 50 at the 0.05 level of
significance. Stated more completely, we conclude that the mean burning rate differs
from 50 centimeters per second, based on a sample of 25 measurements. In fact, there
is strong evidence that the mean burning rate exceeds 50 centimeters per second.
We may also develop procedures for testing hypotheses on the mean μ where the
alternative hypothesis is one-sided. Suppose that we specify the hypotheses as
Ho: μ= μo
H1: μ > μo
CONCLUSION
In defining the critical region for this test, we observe that a negative value of the test statistic
Zo would never lead us to conclude that Ho: μ= μo is false. Therefore, we would place the
critical region in the upper tail of the standard normal distribution. and reject H if the
computed value of <
QUESTION #2
Aircrew escape systems are powered by a solid propellant. The burning rate of this propellant
is an important product characteristic. Specifications require that the mean burning rate must
be 50 centimetres per second. We know that the standard deviation of burning rate is σ=2
centimetres per second. The experimenter decides to specify a type I error probability or
166
significance level of α=0.05 and selects a random sample of n = 25 and obtains a sample
average burning rate of ẋ=51.3 centimetres per second. What conclusions should be drawn?
SOLUTION
We may solve this problem by following the eight-step procedure. This results in
1. The parameter of interest is μ = 50 centimetres per second
2. Ho : μ=50 centimetres per second
3. H1: μ ≠ 50 centimetres per second
4. α = 0.05
5. The test statistic is
Zo =
√
6. Reject Ho if Zo > 1.96 or if z< -1.96. Note that this results from step 4, where we
specified α = 0.05 , and so the boundaries of the critical region are at Z0.025 = 1.96
and Z0.025 = -1.96
7. Computations: Since ẋ=51.3 and σ = 2,
Zo =
√ = 3.25
8. Conclusion: Since Zo = 3.25> 1.96 we reject Ho: μ= 50 at the 0.05 level of significance.
Stated more completely, we conclude that the mean burning rate differs from 50 centimetres
per second, based on a sample of 25 measurements. In fact, there is strong evidence that the
mean burning rate exceeds 50 centimetres per second.
We may also develop procedures for testing hypotheses on the mean μ where the alternative
hypothesis is one-sided. Suppose that we specify the hypotheses as
Ho: μ= μo
H1: μ > μo
CONCLUSION
In defining the critical region for this test, we observe that a negative value of the test
statistic Zo would never lead us to conclude that Ho: μ= μo is false. Therefore, we would
place the critical region in the upper tail of the standard normal distribution. and reject H if
the computed value of Zo < Zα
167
QUESTION #3
Reconsider the chemical process yield data from exercise 8-9, recal that σ=3, yield I normally
distribution and that n=5, observation on yield are 91.6%, 88.75%, 90.8%, 89.95% and
91.3% use α =0.05
a) Is there evidence that the mean yield is not 90%?
b) What is the Value for this test?
c) What sample size would be required to detect a true mean yield of 85% with probability
of 0.95%
Solution
a) 1) The parameter of interest is the true mean yield, μ.
2) Ho: μ= 90
3) H1: μ ≠ 90
4) α = 0.05
5) Zo =
√
6) Reject Ho if Zo Zo < Zα/2 where –Z0.025 = -1.96 or Zo > Zα/2 where Z0.025 = 1.96
7) Ẋ=90.48, σ=3
Zo =
√ = 0.36
8) a) Since -1.96 < 1.96 do not reject Ho and conclude the yield is not significantly
different from 90% at α = 0.05
b) P-value =2[1-
c) n= ( –
=
( –
( ( (
( ) = 4.67
(n is approximately 5)
n= 5
d(1.96+-1.491)(-1.96+-1.491)
0.47-3.45
= 0.68082-(1-0.99972)
= 0.68054
168
e) For α= 0.05, ⁄= = 1.96
Ẋ= = (
√ ) 90.48+ 1.96(
√ )
87.85 93.11
With confidence, we believe the true yield of the chemical process between 87.85% and
93.11%
QUESTION # 4
Suponga que un nuevo diseño del sistema de frenos en un cierto tipo de carro ha sido
propuesto para mejorar la distancia de frenado. Con el sistema actual la distancia promedio es
de 120 pies cuando la velocidad es de 40 Millas por hora y bajo otra serie de condiciones
especificadas. Se propone que el nuevo sistema sea implementado solo si los datos muestrales
usando el nuevo sistema indican fuertemente una reducción en el promedio de la distancia de
frenado.
El nuevo sistema de frenado es instalado en 36 vehículos y la distancia de frenado evaluada
bajo las condiciones establecidas. Suponga que la media de los 36 vehículos fue 117.8 pies.
a) Cuál es la variable de interés.
b) Cuál es la distribución de probabilidad que puede describir la variable de
interés.
c) Defina el juego de hipótesis.
d) Suponiendo una varianza de 100, establezca la distribución de las medias
muéstrales bajo la hipótesis nula.
e) Determine la zona de rechazo con valores críticos de Z y su correspondiente
media de rechazo con un nivel de significancia de 0.01.
SOLUCION
Ho: µ 120 pies.
Ha: µ < 120 pies.
Por ser una variable donde nos interesa la media como parámetro y una muestra mayor de
30, entonces la estadística de prueba es la Z, definida como:
36100
- X Z
169
Donde X es la media muestral calculada a partir de la muestra de tamaño 36.
es la media de la población, que bajo la hipótesis nula es igual a 120.
6667.16
10 Es el error estándar de la media.
Entonces, bajo la hipótesis nula la Z se distribuye normal con media cero y varianza 1, es
decir, normal estándar.
Para el nivel de significancia fue fijado en 0.01 y de acuerdo a la alternativa, la zona de
rechazo es a la izquierda, por lo que el valor crítico es: Z.01= -2.3263
El valor crítico en términos de las medias muestrales se calcula a partir de la expresión de
Z, dando como resultado:
116.1227 X 1.6667
120 - X 3263.2 R
R
Por lo que la zona de rechazo en términos de las medias muéstrales son los valores
menores o iguales a 116.1227.
CONCLUSION
Ya que el nivel observado de significancia es mayor que el nivel de significancia de la
prueba, la decisión es que no existe suficiente evidencia para rechazar la hipótesis nula. La
conclusión es que el nuevo sistema de frenado no reduce significativamente la distancia de
frenado y por lo tanto el nuevo sistema no debe ser adoptado.
QUESTION #5
An engineer who is studying the tensile strength of a steel alloy intersted for use in golf club
shafs knows thaht tesnsile stremng isapreoxiamtegly normally distributes with tensile
strength of Ẋ= 3250 psi.
a) Test the hypothesis that mean strength is 3500psi.use α= 0.01
b) What’s the smallest level of significance at which you would be willing to reject the
null hypothesis?
c) Explain how you could answer the question in part a) with a two sided confident
interval on mean tensile strength
170
Solution
a) 1) the parameter of interest is the mean tensile strength
2) : μ= 3500
3) : μ ≠ 3500
4) α= 0.01
5) : =
√
6) Reject Ho if Zo < - ⁄ where - = -2.58
7) Ẋ=3250, = 60
Zo =
√ = -14.43
8) Since -14.43<-2.58 .reject the null hypothesis and include the true mean
compressive strength is significantly different from 3500 at α= 0.01
a) Smallest level of significance = P-value = 2[1-
The smallest level of significance at which we are willing to reject null is hypothesis
is 0.
b) ⁄ = = 1.96
Ẋ - (
√ ) C Ẋ + (
√ )
3250-1.96(
√ ) μ 3250 + (
√ )
3232.11 μ 3267.89
CONCLUSION
With 95% confident, we believe the true mean tensile strength is between 3232.11psi and
3267.89psi.we can test the hypothesis that the true mean strength is not equal to 3500 by
nothing that value is not within the confident interval.
QUESTION #6
A 1992 article in the journal of America medical association ( ´´A Critical appraisal of 98.6
Degrees F, the upper limit of the Normal body temperature, and other legacies of carl
reinhold august wundrlich´´) reported body temperature ,gender and heart rate for a number
of subjects. the body temperatures for 25 females subjects follow;
97.8,97.2,97.4,97.6,97.8,97.9,98.0,98.0,98.1,98.2,98.3,98.3,98.4,98.4,98.4,98.5,98.6,98.6,98.
7,98.8,98.8,98.9,98.9, and 99.0.
a) Test the Hypothesis : μ = 98.6 versus : μ≠ 98.6 using α= 0.05.find the P-value.
171
b) Compute the power of the test if the true mean female body temperature I as low as
98.0
c) What sample size would be required to detect a true mean female body temperature as
low as 98.2 if we wanted the power of body test to be at least 0.9?
d) Explain how the question in part a) could be answered by constructing a two sided
confidence interval on the mean female body temperature
e) Is there evidence to support the assumption that female body temperature is normally
distributed
Solution
a) steps
1) The parameter of interest is the true mean female body temperature, μ.
2) 2) : μ= 98.6
3) 3) :: μ ≠ 98.6
4) 4) α= 0.05s
5) 5) : =
√
6) Reject Ho if | | ⁄ = 2.064
7) ẋ=98.264, 0.4821, n = 25
=
√ = -3.48
8) Since 3.48 2.064, reject the null hypothesis and conclude that there is sufficient
evidence to conclude that the true mean female body temperature is not to 98.6Ḟ at
α= 0.05.
P-value = 2* 0.001= 0.002
b) d=
= |
|= |
|=1.24
Using the OC curve, for α= 0.05, d = 0 1.24 and n= 025, we get =0 and power of
1-0 = 1
c) d = d=
=|
|= |
|=0.83
Using OC curve, for α= 0.05, d = 0.83 and ń = 20 we get =0.1(power =0.9),
Therefore n =
=
= 10.5 and n = 11.
95% two sided confidence interval
ẋ - (
√ ) μ ẋ + (
√ )
98.264-2.064(
√ ) μ 98.264 + 2.064(
√ )
98.065 μ 98.463
172
CONCLUSION
We can conclude that the mean female body temperature is not equal to 98.6 since the value
is not include inside the confidence interval
PROBLEMA 7
En una estudio sobre presión sanguina se mide la presión diastólica de 37 pacientes
hipertensos al principio del estudio.se someten a tratamiento y al cabo de los semanas se mide
de nuevo la presión diastólica. La variable descenso (presión basal-presión a la 2 semanas)
presenta una media en la muestra de 2.36mmHg y una desviación estándar de 4.80. ¿Puede
decirse, con un nivel de significancia del 5%, que el tratamiento produce un descenso
estadísticamente significativo en la presión diastólica media de las pacientes hipertensiones?
SOLUCIÓN
Se defina la hipótesis
: μ
: ≠ μ
Calcula Tc =
√ =
√ = 3.35
One-Sample T
Test of mu = 5 vs not = 5
N Mean StDev SE Mean 95% CI T P
37 2.360 4.800 0.789 (0.760, 3.960) -3.35 0.002
CONCLUCION
El descenso medio de la presión diastólica basal tras 2 semanas de tratamiento esta 0.76
y 3.96mmHg con nivel de confianza del 95%
La diferencia de medias es significativamente distinta de cero (p= 0.002); o sea que hay
una diferencia estadísticamente significativa entre la media basal y la media al cabo de 2
semanas.
173
0.4
0.3
0.2
0.1
0.0
X
De
nsit
y
1.687
0.05
0
Distribution PlotT, df=37
PROBLEM 8
Consider the following frequency table of observations on the random variable X
Value 0 1 2 3
Observed frequency 24 30 31 11
a) Based on these 100 observations, is a Poisson distribution with a mean of 1.2 an
appropriate model? Perform a goodness-of-fit procedure with α=0.05
b) Calculate the P-value for this test
Solution
Value 0 1 2 3
Observed frequency 24 30 31 11
Expected frequency 30.12 36.14 21.14 11.67
Since value 4 has an expected frequency less than 3, combine this category with the previous
category;
Value 0 1 2 3
Observed frequency 24 30 31 11
Expected frequency 30.12 36.14 21.14 11.67
The degree of freedom are k-p-1 = 4-0-1= 3
174
a) 1) the variable of interest is the form of the distribution for X
2) : the form of the distribution is Poisson
3) : the form of the distribution is not Poisson
4) α = 0.05
5) The test statistic is = ∑
(
6) Reject :
= 7.81
7) =
(
+
(
(
= 7.23
8) Since 7.23 7.81 do not reject . We are unable to reject the null hypothesis that
the distribution of X is Poisson.
b) The P-value is between 0.05 and 0.1 using for the table P-value = 0.0649
VARIANZAS POBLACIONALES CONOCIDAS
PROBLEMA #1
Un psicólogo escolar utiliza un test de comprensión verbal recientemente traducido del
inglés, que proporciona puntuaciones en un nivel de medida de intervalo. Se sabe, por
investigaciones anteriores, que las varianzas en la población son para niños y niñas
= 36 y
= 49 respectivamente. Las investigaciones anteriores también indican que la
media es la misma en ambos grupos, pero este último aspecto no ha sido comprobado con
muestras españolas. El psicólogo considera que la traducción del test no es muy acertada y
puede provocar diferencias que en realidad no se deben a la comprensión verbal, por lo que
selecciona aleatoriamente una muestra de 100 niños y otra muestra de 200 niñas obteniendo
una media igual a 20 para los niños e igual a 17,5 para las niñas. Con un nivel de confianza
del 95%. ¿Podemos afirmar que la puntuación media en el test de comprensión verbal es la
misma para niños y niñas?
Condiciones y supuestos. Tenemos un diseño de dos muestras independientes (niños y
niñas), seleccionadas de dos poblaciones con varianzas conocidas (el psicólogo asume que las
varianzas de las poblaciones de niños y niñas son las que reflejan las investigaciones
anteriores), donde la variable dependiente (comprensión verbal) proporciona puntuaciones en
175
una escala de intervalo. Aunque no sabemos si las poblaciones se distribuyen normalmente,
trabajamos con muestras que son lo suficientemente grandes ( En
definitiva se cumplen los siguientes supuestos:
- Variable dependiente con un nivel de medida de intervalo o razón.
- Dos poblaciones que se distribuyen normalmente, o bien
- Varianzas poblacionales conocidas.
Formular las hipótesis. En este caso el psicólogo piensa que pueden existir diferencias pero
no tiene una hipótesis previa sobre la dirección de las mismas, por lo que planteamos un
contraste de hipótesis bilateral:
μ1μ2 = 0 μ1μ2
μ1μ2 ≠ 0 , o bien μ1μ2
Estadístico de contraste y su distribución muestral.
Conocemos las varianzas de las dos poblaciones y trabajamos con muestras grandes, lo que
nos permite asumir la normalidad de la distribución muestral de las diferencias entre medias.
Siendo el grupo 1 el de niños y el 2 el de niñas, el estadístico de contraste es igual a:
Z = ( (
√(
)
= (
√
Observamos que la fórmula del estadístico de contraste sigue el mismo esquema general visto
en el Tema 1, cuantificando la discrepancia entre la diferencia de medias observada entre las
dos muestras frente a una diferencia nula planteada en la hipótesis nula medida en unidades
de desviación típica. Por tanto, en el numerador tenemos la diferencia entre el valor del
estadístico en la muestra ( respecto del valor del parámetro que postula la hipótesis
nula (μ1 2).Habitualmente la hipótesis nula, como en este caso, especificará que no
existe diferencia entre las medias poblacionales, por lo que el término nula (μ1 2), es
igual a
cero. Por este motivo, generalmente calcularemos el estadístico de contraste mediante la
siguiente ecuación:
176
Z = (
√(
)
Podemos calcular el nivel p-crítico en la tabla de curva normal, que como sabemos es la
probabilidad de obtener un valor como el observado o más extremo, suponiendo que la
hipótesis nula es cierta. Primero buscamos la probabilidad de encontrar valores superiores a
3.21:
Tabla de curva normal
Z = 3.21=>=>=>=>===>=>=>=>=>=>=>=> p = 0.9993 =>=>=> (1-0.9993) = 0.0007
Y como el contraste es bilateral multiplicamos por dos el valor obtenido:
Nivel p-crítico _ 2*0.0007 = 0.0014
Establecer la regla de decisión en función del nivel de confianza.
El nivel de significación es del 5% y el contraste es bilateral, por lo que los valores críticos
que delimitan cuándo mantenemos y cuándo rechazamos la hipótesis nula son las
puntuaciones típicas: Z ±1.96.
Distribución muestral de las diferencias entre medias según especifica la hipótesis nula.
Varianzas poblacionales conocidas
Conclusión.
Vemos claramente en la Figura Ariba, que el estadístico de contraste (Z = 3.21) no pertenece
a la zona de valores compatibles con que definen las puntuaciones ±1,96 (3.21 1.96), por
lo que rechazamos la hipótesis nula. En otras palabras, el estadístico de contraste (la
discrepancia observada) supera la diferencia que cabría esperar por simple azar. En general,
en un contraste bilateral, mantendremos la hipótesis nula cuando el estadístico de contraste no
alcance el valor crítico
o bien Z
Si utilizamos el nivel p-crítico para concluir qué decisión tomar con respecto a H llegamos a
la misma conclusión, puesto que 0.0014 < 0.05 (en general, p a). Como se ha expuesto en
177
los temas anteriores, el comparar el nivel crítico con el nivel de significación nos proporciona
más información que la comparación del estadístico de contraste con el valor crítico, puesto
que vemos claramente que es muy improbable que siendo la hipótesis nula verdadera
obtengamos dos muestras cuyas medias tengan una diferencia como la observada.
El resultado sería significativo incluso a un nivel de confianza superior al 99%.
Interpretar el resultado en función del contexto de la investigación. Las sospechas del
psicólogo parecen fundadas. Las diferencias entre niños y niñas en fluidez verbal son
significativas, y pueden deberse a la deficiente traducción del test.
Intervalo de confianza. Si estuviéramos interesados en calcular el intervalo de confianza, lo
haríamos mediante la expresión:
( ±
√(
)
Que en nuestro caso queda:
(20 – 17.5) ± 1.96 √(√
) =>=>=> 2.5 ± 1.52 =>=>=> (0.98; 4.02)
Es decir, con un nivel de confianza del 95% la diferencia entre la media de los niños y la
media de las niñas en el test de fluidez verbal oscila entre 0,98 y 4,02 puntos a favor de los
primeros. Al no contener el valor cero, no podemos admitir la hipótesis nula: μ1 2 = 0
PROBLEMA #2
En un estudio sobre depresión en personas mayores llevado a cabo en un centro geriátrico, se
quiere comprobar si las personas ingresadas que no reciben visitas de sus familiares tienen
una puntuación media en depresión superior a aquellas personas cuyos familiares les visitan
con frecuencia. Para comprobar esta hipótesis, se seleccionaron aleatoriamente 41 personas
que no reciben visitas obteniéndose una puntuación media de 20 puntos con una
cuasivarianza igual a 100, mientras que en una muestra aleatoria de 31 personas que si
reciben visitas con frecuencia la media fue igual a 15 con una cuasivarianza igual a 90.
Suponiendo que las varianzas en la población son iguales para ambos grupos, y con un nivel
de confianza del 99% ¿podemos decir que los datos obtenidos avalan la hipótesis de partida?
178
Condiciones y supuestos. Los requisitos en este caso son iguales que en el caso anterior. La
única diferencia es que no conocemos las varianzas poblacionales, si bien las suponemos
iguales. Comprobamos pues que se cumplen los siguientes puntos:
Variable dependiente con un nivel de medida de intervalo o razón. Suponemos que el
test de depresión proporciona medidas en una escala de intervalo.
No sabemos si la distribución en la población es normal, pero salvamos este obstáculo
utilizando dos muestras con 30 o más observaciones cada una.
Varianzas poblacionales desconocidas y supuestas iguales. Veremos posteriormente
cómo contrastar diferencias entre dos varianzas. En cualquier caso, la diferencia entre
las varianzas de las muestras es pequeña.
Formular las hipótesis. Partimos de la idea de que la depresión media es superior en las
personas que no reciben visitas de sus familiares (Grupo 1) respecto de las personas que
reciben con frecuencia visitas de sus familiares (Grupo 2), por lo que realizamos un contraste
unilateral derecho. Las hipótesis en este caso han de ser:
μ1μ2 0 μ1 μ2
μ1μ2 0 , o bien μ1 μ2
Estadístico de contraste y su distribución muestral. El estadístico de contraste en este caso
se distribuye según t de Student con - 2 grados de libertad, y adopta la siguiente
expresión:
T = (
√((
(
)(
)
Como comentábamos anteriormente, el término , habitualmente es igual a cero, por
lo que calcularemos el estadístico de contraste, mediante la siguiente ecuación.
T = (
√((
(
)(
)
Como comentábamos anteriormente, el término: =41 +31-2 = 70 grados de
libertad, siendo el estadístico de contraste igual a:
T = (
√(( (
)(
)
=
= 2.15
179
Establecer la regla de decisión en función del nivel de confianza. Buscamos en las tablas
de t de Student el valor crítico, que en este caso es igual a la puntuación que supera al 99% de
la distribución para 70 grados de libertad: = 2,381
Distribución muestral de las diferencias entre medias según especifica la hipótesis nula.
Varianzas poblacionales desconocidas pero supuestas iguales (
).
El nivel p-crítico es igual a p = 0.0175. No podemos calcularlo exactamente en las tablas del
apéndice, pero podemos utilizarlas para hallar un valor aproximado. Observamos en la tabla t
de Student, que para 70 grados de libertad nuestro estadístico de contraste se encuentra entre
las puntuaciones 1.994 y 2.381 (1.994 < 2.15 < 2.381) que dejan por encima de si
respectivamente las proporciones: 0,025 y 0,01, luego el nivel p-crítico se encontrará entre
estos dos valores (0.01 < p < 0.025).
Conclusión.
Como podemos apreciar en el Figura arriba, el valor del estadístico de contraste no supera
al valor crítico (2.15 2.381) por lo que la diferencia encontrada no es significativa con un
nivel de confianza del 99%. En general, y como en situaciones anteriores, en un contraste
unilateral derecho mantendremos la hipótesis nula cuando el estadístico de contraste no
supere el valor crítico, es decir, si T , y la rechazaremos en caso contrario, es
decir, cuando T . Si comparamos el nivel p-crítico con el nivel de
significación, llegamos a la misma conclusión (0.0175 > 0.01).
Interpretar el resultado en función del contexto de la investigación. Al nivel de confianza
del 99% los resultados no indican que la puntuación media en depresión es mayor en el grupo
de sujetos que no reciben visitas respecto de los que sí las reciben. Pero los resultados sí son
180
Significativos al nivel de confianza del 95%, como apreciamos al comparar el nivel de
significación con el nivel crítico. Quizás fuera conveniente profundizar en la relación entre
ser visitado o no por los familiares y puntuar más alto en depresión en las personas que
permanecen ingresadas en centros geriátricos.
Intervalo de confianza. Utilizamos para su cálculo la expresión que puede verse en la
Ecuación abajo:-
( ± ⁄√(
( (
) (
)
( ± √(
(
)) 5 6.16 (-1.16 ; 11.16)
Observamos que el intervalo de confianza contiene el valor cero, luego al nivel de confianza
del 99% asumimos que las diferencias entre las medias en la población pueden tomar este
valor, y por lo tanto no podemos rechazar la hipótesis nula.
PROBLEMA #3
Un laboratorio desarrolla un fármaco con el que se pretende reducir la ansiedad. Para
comprobarlo, se extrajeron dos muestras aleatorias de cinco observaciones cada una que
suponemos procedentes de poblaciones que se distribuyen normalmente con distinta varianza.
A los sujetos de la primera muestra se les administró el fármaco y los de la segunda una
sustancia placebo. Posteriormente se les midió la ansiedad a todos los sujetos mediante un
test en el que cuanto más elevada es la puntuación mayor es la ansiedad. Los resultados de
ambas muestras fueron:
Grupo 1 (con fármaco): 10; 20; 30; 20; 5
Grupo 2 (sin fármaco): 30; 50; 30; 60; 20
Con un nivel de confianza del 95%, ¿podemos afirmar que el fármaco efectivamente reduce
la ansiedad?
Soln
Condiciones y supuestos. Al igual que en los ejemplos anteriores, necesitamos que la
variable dependiente esté medida a nivel de intervalo. En cuanto a las poblaciones de las que
proceden las varianzas, necesitamos suponerlas normalmente distribuidas porque el tamaño
de las muestras es pequeño (con y no es necesario suponer distribuciones
181
normales en ambas poblaciones). En este caso tampoco conocemos las varianzas
poblacionales, aunque ahora las suponemos distintas.
Formular las hipótesis. De acuerdo con la hipótesis del laboratorio esperamos que la
puntuación media sea inferior en el Grupo 1, por lo que hemos de plantear un contraste de
hipótesis unilateral izquierdo.
μ1μ2 0 μ1 μ2
μ1μ2 0 , o bien μ1 μ2
t = (
√(
)
gl = (
)
(
⁄
)
(
⁄
)
Primero calculamos las varianzas de ambos grupos:
= ∑
=
= 17,
= ∑
- (
=
- = 76
= ∑
=
= 38,
= ∑
- (
=
- = 216
Las cuacivarianzas o varianzas, serán
= 76 *
= 95
= 216 *
= 270
Con lo que calculamos el estadístico de contraste y los grados de libertad.
T = (
√(
)
=
√
= -2.46
g.l = (
)
(
⁄
)
(
⁄
)
= (
)
( )
(
)
= 6.50 6
182
Establecer la regla de decisión en función del nivel de confianza.
Buscamos en las tablas t de Student el valor que supera a una proporción igual a 0.05 para 6
grados de libertad, obteniendo un valor igual a: 1.943. En el Figura 3.3
representamos los datos del problema
Distribución muestral de las diferencias entre medias según especifica la hipótesis nula.
Varianzas poblacionales desconocidas pero supuestas distintas (
).
Conclusión.
El valor del estadístico de contraste es una puntuación más extrema que el valor crítico que
hemos buscado en la tabla t de Student (-2.46 -1.943_, por lo que rechazamos la hipótesis
nula. Con la misma lógica que en todos los contrastes, en general en un contraste unilateral
izquierdo mantendremos la hipótesis nula cuando se cumpla que, T y la rechazaremos
si T
En cuanto al nivel p-crítico, en la tabla t de Student, para 6 grados de libertad, tenemos que:
(-3 143 2.46 2.447), por lo que deducimos que el nivel p-crítico estará comprendido
entre las probabilidades de encontrar valores iguales o inferiores a estas dos
Puntuaciones, es decir: (0,01 0.025).
183
ANÁLISIS DE DOS MUESTRAS
Problema 1
La resistencia a la rotura de un componente eléctrico constituye una característica importante
de un cierto proceso. Un fabricante utiliza un material nuevo de fabricación frente al material
clásico. Se recoge una muestra de 10 elementos usando el primer componente y otra de 10
elementos usando el segundo componente. Se pueden considerar a los dos procesos como dos
tratamientos o dos niveles diferentes de un factor dado.
Component
nuevo
component
antigua
16.85 17.5
16.4 17.63
13.21 18.25
16.35 18
16.52 17.86
17.04 17.75
16.96 18.22
17.15 17.9
16.59 17.96
16.57 18.15
16.364 17.922
Se tiene que la media muestral del componente nuevo es ¯y =16.36 y la del componente
antiguo es ¯y 2 =17.92. Se pretende averiguar si existen diferencias significativas entre
ambos tratamientos a nivel de resistencia. En este caso, se considera que los datos proceden
de una más de una distribución normal, y que el diseño es completamente aleatorizado.
El contraste de hipótesis que se tiene que realizar es bilateral:
Results for: Worksheet 9
Two-Sample T-Test and CI: Component nuevo, component antigua
* ERROR * There must be exactly two distinct subscripts.
Paired T-Test and CI: Component nuevo, component antigua
Paired T for Component nuevo - component antigua
N Mean StDev SE Mean
Component nuevo 10 16.364 1.142 0.361
component antigua 10 17.922 0.248 0.078
Difference 10 -1.558 1.274 0.403
95% CI for mean difference: (-2.469, -0.647)
T-Test of mean difference = 0 (vs ≠ 0): T-Value = -3.87 P-Value = 0.004
184
Se tiene que la media muestral del componente nuevo es = 16,76 y la del componente
antiguo es = 17,92. Se pretende averiguar si existen diferencias significativas entre ambos
tratamientos a nivel de resistencia. En este caso, se considera que los datos proceden de una
m.a.s de una distribución normal, y que el diseño es completamente aleatorizado.
El contraste de hipótesis que se tiene que realizar es bilateral:
μ1μ2
μ1≠μ2 0
Fijamos α =P{ } = P {
}
Suponiendo normalidad y suponiendo que =
, se utiliza el estadístico siguiente.
= (
√(
)
Donde ( son las medias muestrales son el tamaño de cada muestra y
Sp = (
(
Se compara el valor de este estadístico con el valor de una distribución t de Student
⁄
Si | ⁄ entonces se rechazar
Asi, si es verdadera
( de los
valore de estén entre ( ⁄ y ⁄
).
Una muestra concreta que produzca un valor fuera de este intervalo es rara si H0 fuese cierta,
lo que lleva a rechazar la hipótesis H0
Componente nuevo Componente viejo
= 16.76 = 17.92
= 0.247
= 0.316
185
DISEÑO EN BLOQUES COMPLETAMENTE ALEATORIZADO
El objetivo de un análisis de datos en un experimento s tener comparaciones precisas entre
los tratamientos de los estudios, la bloquización es medio para reducir y controlar la varianza
del error experimental con el fin de lograr una mayor precisión.
El diseño de bloques al azar (DBA) es un prueba basada en el análisis de varianza, en donde
la varianza total se descompone en la “varianza entre los tratamientos” y la “varianza del
error o dentro de los tratamientos” y la “varianza en los bloques o efecto de bloques”, y se
determina si la primera es lo suficientemente alta según la distribución F.
Se plantea la necesidad de ensayar la significación de diferencias entre medias muéstrales, o
lo que es equivalente a ensayar la hipótesis nula de que las medias muéstrales son iguales; se
desea probar la hipótesis nula de que existe igualdad entre las medias de los tratamientos, y
en los bloques. Dicho de otro modo hay dos hipótesis nulas.
Todas las medias de los tratamientos son iguales
Todas las medias de los bloques son iguales
De manera general, puede expresar el modelo lineal para el análisis de varianza que se
considera para el DBA con i=1,2..k tratamientos con j=1,2…b bloques:
Que representa: cada una de las observaciones es igual a la suma de la media total, el efecto
de los tratamientos, de los bloques y el error experimental.
1) Cuadrados medios de tratamientos
2) Cuadrados medios de bloques
3) Cuadrados medios del error
( (
4) Calculo del estadístico F
186
5) Tabla de ANOVA
Fuente de
variación
Grados de
libertad
SC CM Fc P; en Excel
Tratamientos ( (
( )
Bloques b-1 SCB CMB Fc ( (
(
Error ( (
Total
En el software estadístico Minitab 16 los diseños completamente al azar se resuelven como
un ANOVA de un solo factor:
1. Estadísticas > ANOVA > Dos factores
2. En la ventana emergente llenar las casillas correspondientes a Respuesta, Factor de
fila o tratamiento y Factor de columna o bloque.
3. Cuando el tratamiento y la respuesta son valores numéricos es posible calcular la
regresión polinomica, tal cual se contruyo para DCA. Cabe mencionar que los bloques
no permiten generar una regresión, solo los tratamientos
4. Tabla de ANOVA con regresión (valores de Minitab)
De las tablas de ANOVA obtenidas para cada regresión se obtienen la suma de
cuadrados ( de cada regresión según sea el caso. Cabe mencionar que los grados
de libertad para cada regresión posible es 1.
187
Fuente de
variación
Grados de
libertad
SC CM Fc P; en Excel
Bloques b-1 SCB CMB Fc ( (
(
Tratamientos (
( )
Lineal 1 SC1 (
(
Cuadrática 1 SC2-SC1 (
(
Cubica 1 SC3-SC2-
SC1
(
(
Cuarta 1 SC4-SC3-
SC2-SC1
(
(
Error ( (
Total
Donde los cuadrados medios de cada regresión ( se obtienen del cociente
de ( y sus respectivos grados de libertad. Y la para cada regresión
resulta del cociente de las con la .
Ejercicio 1. En la tabla se muestran los rendimientos por acre de cuatro cosechas de
plantas diferentes cultivadas en parcelas tratadas con tres tipos diferentes de fertilizantes.
¿Hay diferencia significativa en rendimiento por acre debida a los fertilizantes?, ¿y debida a
las cosechas?.
Bloques
Cosecha
I
Cosecha
II
Cosecha
III
Cosecha
IV
Tratamientos
Fertilizante
A
4.5 6.4 7.2 6.7
Fertilizante B 8.8 7.8 9.6 7
Fertilizante C 5.9 6.8 5.7 5.2
188
a. Planteamiento de la hipótesis
b. Se trata de un diseño con: tratamientos y bloques
c. Tabla de ANOVA
Fuente de variación Grados de libertad SC CM Fc P; en Excel
Fertilizante 2.820 0.940 0.857 0.512
Cosecha 2 13.680 6.840 6.237 0.034
Error 6 6.580 1.097
Total 23.080
d. Conclusiones
Solo se encontró evidencia significativa de que existe diferencia entre las medias del
fertilizante con el cual se trató a las cosechas.
PROBLEMA # 1
Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas. Para
ello, cada producto se aplica a un grupo de 100 moscas y se cuenta el número de moscas
muertas expresado en porcentajes. Se hicieron seis réplicas, pero en días diferentes; por ello,
se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los
datos obtenidos se muestran a continuación.
189
Número de réplica (día)
Marca de
atomizador
1 2 3 4 5 6
1 72 65 67 75 62 73
2 55 59 68 70 53 50
3 64 74 61 58 51 69
a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.
Modelo estadístico:
= μ + τi + γj + εij ; i = 1,2,3 = 1,2,3,4,5,6
Las hipótesis adecuadas son:
Ho: μ1 + μ2 + μ3 = μ
Ha: μi ≠ μj para algún i ≠ j
Que también se puede expresar como:
Ho: τ1 = τ2 = τ3 = 0
Ha: τi ≠ 0 para algún i
b) Existe diferencia entre la efectividad promedio de los atomizadores?
Empleando el SW Minitab se obtiene la siguiente información:
Two-way ANOVA: Respuesta_1 versus Marca Atomizador, Día
Source DF SS MS F P
Marca Atomizador 2 296.33 148.167 2.88 0.103
Día 5 281.33 56.267 1.09 0.421
Error 10 514.33 51.433
Total 17 1092.00
De esta tabla se observa que para marca atomizador se obtuvo un valor-p = 0.103 > 0.05, por
lo tanto se acepta Ho. Es decir que no existe diferencia entre la efectividad promedio de los
atomizadores.
c) Hay algún atomizador mejor? Argumente su respuesta.
Empleando el SW Minitab se obtiene la siguiente información:
Individual 95% CIs For Mean Based on
190
Marca Pooled StDev
Atomizador Mean --+---------+---------+---------+-------
1 69.0000 (----------*----------)
2 59.1667 (----------*---------)
3 62.8333 (----------*----------)
--+---------+---------+---------+-------
54.0 60.0 66.0 72.0
En este caso como los intervalos de confianza se traslapan entonces los atomizadores son
estadísticamente iguales en cuanto a sus medias.
d) Hay diferencias significativas en los resultados de diferentes días en que se realizó el
experimento? Argumente su respuesta.
Individual 95% CIs For Mean Based on
Pooled StDev
Día Mean --+---------+---------+---------+-------
1 63.6667 (-----------*----------)
2 66.0000 (-----------*----------)
3 65.3333 (-----------*----------)
4 67.6667 (-----------*----------)
5 55.3333 (----------*-----------)
6 64.0000 (-----------*-----------)
--+---------+---------+---------+-------
48.0 56.0 64.0 72.0
En este caso como los intervalos de confianza se traslapan entonces los resultados de
diferentes días en que se realizó el experimento son estadísticamente iguales en cuanto a sus
medias.
e) Verifique los supuestos de normalidad y de igual varianza entre las marcas.
191
Residual
Pe
rcen
t
1050-5-10
99
90
50
10
1
Fitted Value
Re
sid
ua
l
7065605550
10
5
0
-5
-10
Residual
Fre
qu
ency
1050-5-10
4.8
3.6
2.4
1.2
0.0
Observation Order
Re
sid
ua
l
18161412108642
10
5
0
-5
-10
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Respuesta_1
CONCLUCION
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se
observa que estos siguen una distribución normal ya que tienden a quedar alineados en una
línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra
los residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda
horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que
los tratamientos tienen igual varianza.
PROBLEMA # 2
9. A continuación se muestran los datos para un diseño en bloques al azar.
Bloque Total por
tratamiento Tratamiento 1 2 3 4
A 3 4 2 6 Y1. =
B 7 9 3 10 Y2. =
C 4 6 3 7 Y3. =
Total por bloque Y.1 = Y
.2 = Y
.3 = Y
.4 = Y
..
192
a) Complete las sumas totales que se piden en la tabla anterior.
Bloque Total por
tratamiento Tratamiento 1 2 3 4
A 3 4 2 6 Y1. = 15
B 7 9 3 10 Y2. = 29
C 4 6 3 7 Y3. = 20
Total por bloque Y.1 = 14 Y
.2 = 19 Y
.3 = 8 Y
.4 = 23 Y
.. = 64
b) Calcule las sumas de cuadrados correspondientes: SCTrat, SCB, SCT y SCE
SCT = (32 + 4
2 +… + 7
2) – (64
2/12) = 72.6667
SCTrat = ((152 + 29
2 + 20
2) / 4) - (64
2/12) = 25.1667
SCB = (142 + 19
2 +8
2 +23
2) /3) - (64
2/12) = 42.0000
SCE = 72.6667 – 25.1667 – 42.0000 = 5.5000
c) Obtenga la tabla de análisis de varianza y anote las principales conclusiones.
Empleando el SW Minitab se obtiene la siguiente información:
Two-way ANOVA: Respuesta versus Tratamiento, Bloque
Source DF SS MS F P
Tratamiento 2 25.1667 12.5833 13.73 0.006
Bloque 3 42.0000 14.0000 15.27 0.003
Error 6 5.5000 0.9167
Total 11 72.6667
d) Obtenga la diferencia mínima significativa (LSD) para comparar tratamientos en este
diseño en bloques.
1215.1)45835.0)(4469.2(4
)9167.0(24469.2
4
)9167.0(2)14)(13(,025.0 tLSD
PROBLEMA # 3
Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo
de reacción de un proceso químico. Cada lote de material solo permite cinco corridas y cada
corrida requiere aproximadamente 1.5 horas, por lo que solo se pueden realizar cinco corridas
diarias. El experimentador decide correr los experimentos con un diseño en cuadro latino para
controlar activamente a los lotes y días. Los datos obtenidos son:
193
Día
1 2 3 4 5
Lote 1 A = 8 B = 7 D = 1 C = 7 E = 3
Lote 2 C = 11 E = 2 A = 7 D = 3 B = 8
Lote 3 B = 4 A = 9 C = 10 E = 1 D = 5
Lote 4 D = 6 C = 8 E = 6 B = 6 A = 10
Lote 5 E = 4 D = 2 B = 3 A = 8 C = 8
a) Cómo se aleatorizó el experimento?
Se siguió la siguiente estrategia:
1. Se construye el cuadro latino estándar más sencillo.
2. Se aleatoriza el orden de los renglones (o columnas) y después se aleatoriza el orden
de las columnas (o renglones).
3. Por último, los tratamientos a comparar se asignan en forma aleatoria a las letras
latinas.
Así se cumple que cada letra debe aparecer solo una vez en cada renglón y en cada columna.
b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes.
Modelo estadístico:
Yij = μ + τi + γj + δl + εij ; i = 1,2,3,4,5 j = 1,2,3,4,5, l = 1,2,3,4,5
Las hipótesis adecuadas son:
Ho: μ1 + μ2 + μ3 + μ4 + μ5= μ
Ha: μi ≠ μj para algún i ≠ j
Que también se puede expresar como:
Ho: τ1 = τ2 = τ3 = τ4 = τ5 = 0
Ha: τi ≠ 0 para algún i
c) Existen diferencias entre los tratamientos? Cuáles tratamientos son diferentes entre si?
Analysis of Variance for Y, using Adjusted SS for Tests
Source DF Seq SS Adj SS AdjMS F P
Catalizador 4 141.440 141.440 35.360 11.31 0.000
Lote 4 15.440 15.440 3.860 1.23 0.348
Día 4 12.240 12.240 3.060 0.98 0.455
Error 12 37.520 37.520 3.127
Total 24 206.640
S = 1.76824 R-Sq = 81.84% R-Sq(adj) = 63.69%
194
De esta tabla se observa que para Catalizador se obtuvo un valor-p = 0.000 < 0.05, por lo
tanto se rechaza Ho. Es decir que al menos dos de los catalizadores son diferentes.
Catalizador
Re
sp
ue
sta
54321
12
10
8
6
4
2
0
Interval Plot of Respuesta vs Catalizador95% CI for the Mean
De tal forma, los intervalos de confianza de los catalizadores 1 y 2 se traslapan por lo que sus
respuestas medias son iguales estadísticamente. Los intervalos de confianza de los
catalizadores 2 y 3 se traslapan por lo que sus respuestas medias son iguales estadísticamente.
Los intervalos de confianza de los catalizadores 4 y 5 se traslapan por lo que sus respuestas
medias son iguales estadísticamente. Los intervalos de confianza de los catalizadores 2 y 4 se
traslapan por lo que sus respuestas medias son iguales estadísticamente. Los intervalos de
confianza de los catalizadores 2 y 5 se traslapan por lo que sus respuestas medias son iguales
estadísticamente. Finalmente al no traslaparse los intervalos los catalizadores1 y 2 son
diferentes a los catalizadores 4 y 5.
195
De igual forma el análisis se realiza para los 2 bloques.
Lote
Re
spu
est
a
54321
12
10
8
6
4
2
0
Interval Plot of Respuesta vs Lote95% CI for the Mean
Día
Re
spu
est
a
54321
10
8
6
4
2
0
Interval Plot of Respuesta vs Día95% CI for the Mean
De tal forma, los intervalos de confianza de los días se traslapan por lo que sus
respuestas medias son iguales estadísticamente.
d) Los factores de ruido, lote y día afectan el tiempo de reacción del proceso?
Del ANOVA se observa que para lote se obtuvo un valor-p = 0.348 > 0.05, por lo tanto se
acepta Ho. Es decir que no existe diferencia entre el tiempo de reacción de un proceso
químico de los lotes. Por otro lado, del ANOVA se observa que para días se obtuvo un valor-
p = 0.455 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia entre el tiempo
de reacción de un proceso químico de los días.
e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. Cuál
tratamiento es el mejor?
196
Sería el tratamiento 5, puesto que tiene la media más baja respecto al tiempo de reacción del
proceso.
f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron
columna por columna, día a día.
Residual
Pe
rcen
t
3.01.50.0-1.5-3.0
99
90
50
10
1
Fitted Value
Re
sid
ua
l
108642
2
1
0
-1
-2
Residual
Fre
qu
en
cy
210-1-2
6.0
4.5
3.0
1.5
0.0
Observation Order
Re
sid
ua
l
24222018161412108642
2
1
0
-1
-2
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Y
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y
se observa que estos siguen una distribución normal ya que tienden a quedar alineados
en una línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos
contra los residuos y se observa que los puntos se distribuyen de manera aleatoria en una
banda horizontal (sin ningún patrón claro y contundente), por lo que se cumple el
supuesto de que los tratamientos tienen igual varianza.
PROBLEMA # 4
Un investigador está interesado en el efecto del porcentaje de lisina y del porcentaje de
proteína en la producción de vacas lecheras. Se consideran 7 niveles de cada factor.
% de lisina: 0,0 (A), 0,1 (B), 0,2 (C), 0,3 (D), 0,4 (E), 0,5 (F), 0,6 (G),
% de proteína: 2 (a), 4(β), 6(χ), 8(σ), 10(ε), 12(φ), 14(γ)
Para el estudio, se seleccionan siete vacas al azar, a las cuales se les da un seguimiento de
siete períodos de tres meses. Los datos en galones de leche fueron los siguientes:
197
Vaca/Período 1 2 3 4 5 6 7
1 304 436 350 504 417 519 432
2 381 505 425 564 494 350 413
3 432 566 479 357 461 340 502
4 442 372 536 366 495 425 507
5 496 449 493 345 509 481 380
6 534 421 352 427 346 478 397
7 543 386 435 485 406 554 410
a) Analice este experimento, qué factores tienen efecto en la producción de leche?
Empleando el SW Minitab se obtiene la siguiente información:
Analysis of Variance for Respuesta, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
Vaca 6 8754 8588 1431 1.39 0.261
período 6 1761 1702 284 0.27 0.943
% lisina 6 38906 40171 6695 6.48 0.000
% proteina 6 148628 148628 24771 23.98 0.000
Error 24 24792 24792 1033
Total 48 222841
S = 32.1406 R-Sq = 88.87% R-Sq(adj) = 77.75%
Del ANOVA se observa que para VACA se obtuvo un valor-p = 0.261 > 0.05, por lo tanto se
acepta Ho. Es decir que no existe diferencia en la producción de leche.
Por otro lado, del ANOVA se observa que para PERIODO se obtuvo un valor-p = 0.943 >
0.05, por lo tanto se acepta Ho.
De igual forma para el % DE LISINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto se se
rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho porcentaje.
De igual forma para el % DE PROTEINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto
se se rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho
porcentaje.
b) Interprete los resultados usando gráficos de medias.
198
Vaca
Res
pues
ta
7654321
525
500
475
450
425
400
375
350
Interval Plot of Respuesta vs Vaca95% CI for the Mean
De tal forma, los intervalos de confianza de las vacas se traslapan por lo que sus
respuestas medias son iguales estadísticamente.
período
Re
spu
est
a
7654321
550
500
450
400
350
Interval Plot of Respuesta vs período95% CI for the Mean
De tal forma, los intervalos de confianza de los períodos se traslapan por lo que sus
respuestas medias son iguales estadísticamente.
199
% lisina
Re
sp
ue
sta
7654321
550
500
450
400
350
300
Interval Plot of Respuesta vs % lisina95% CI for the Mean
De tal forma, los intervalos de confianza de los % de lisina se traslapan por lo que sus
respuestas medias son iguales estadísticamente.
% proteina
Re
sp
ue
sta
7654321
600
550
500
450
400
350
300
Interval Plot of Respuesta vs % proteina95% CI for the Mean
De tal forma, los intervalos de confianza de los % de proteína no se traslapan por lo que
sus respuestas medias no son iguales estadísticamente.
200
a) Cómo puede explicar la falta de efectos en vacas y período?
El diseño pretendía verificar el efecto del porcentaje de lisina y del porcentaje de proteína en
la producción de vacas lecheras por lo que se bloquearon los aspectos relacionados a las
vacas y al período.
b) Que porcentajes de lisina y proteína dan los mejores resultados?
De las gráficas anteriores, % de lisina que brinda los mejores resultados es: 0,4 (E). Respecto
del % de proteínas, el mejor es: 14(γ).
c) Verifique los supuestos del modelo.
Residual
Pe
rcen
t
50250-25-50
99
90
50
10
1
Fitted Value
Re
sid
ua
l
600500400300
50
25
0
-25
-50
Residual
Fre
qu
en
cy
60300-30-60
12
9
6
3
0
Observation Order
Re
sid
ua
l
454035302520151051
50
25
0
-25
-50
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
Histogram of the Residuals Residuals Versus the Order of the Data
Residual Plots for Respuesta
CONCLUCION
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se
observa que estos siguen una distribución normal ya que tienden a quedar alineados en una
línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra los
residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda
horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que
los tratamientos tienen igual varianza.
201
PROBLEMA # 5
En un invernadero se evaluar el efecto de crecimiento de maíz en distinta salinidades, se
evaluó el peso seco aéreo de la planta.
RESULTADOS:
L I A18.8 C26.2 E12.3 F25.8 D50.2 B83.2
U II C19.5 F22.6 A15.8 D47.7 B25.3 E15.4
Z III E20.2 B55.1 D16.4 C17.8 A77.1 F17.9
IV B47.6 D25.8 F14.0 E18 C20.3 A22.1
Solución
Ho: TA=TB=TC=TD=TE=TF=0
H1: Tj ≠ 0
General Linear Model: BLOQUE versus TRATAMIENTO, CRECIMIENTO
Scatterplot of CRECIMIENTO vs BLOQUE
General Linear Model: CRECIMIENTO versus TRATAMIENTO, BLOQUE
Method
Factor coding (-1, 0, +1)
Factor Type Levels Values
TRATAMIENTO Fixed 5 A, B, C, D, E
BLOQUE Fixed 4 1, 2, 3, 4
Analysis of Variance
Source DF AdjSS Adj MS F-Value P-Value
TRATAMIENTO 4 3414.5 853.6 4.34 0.021 0.95% CONFIANZA (0.05) Ftab:3.259 BLOQUE 3 524.8 174.9
0.89 0.474
Error 12 2360.1 196.7
Total 19 6299.4
3.259 < 4.34 rechazar hipótesis nula y aceptar hipótesis alternativa
Model Summary
S R-sq R-sq(adj) R-sq(pred)
14.0240 62.53% 40.68% 0.00%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 29.74 3.14 9.49 0.000
TRATAMIENTO
A -6.29 6.27 -1.00 0.335 1.60
B 23.08 6.27 3.68 0.003 1.60
C -8.79 6.27 -1.40 0.186 1.60
D 5.28 6.27 0.84 0.416 1.60
BLOQUE
1 8.41 5.43 1.55 0.147 1.50
2 -5.00 5.43 -0.92 0.375 1.50
3 -0.42 5.43 -0.08 0.939 1.50
202
Regression Equation
CRECIMIENTO = 29.74 - 6.29 TRATAMIENTO_A + 23.08 TRATAMIENTO_B - 8.79 TRATAMIENTO_C
+ 5.28 TRATAMIENTO_D - 13.27 TRATAMIENTO_E + 8.41 BLOQUE_1 - 5.00 BLOQUE_2
- 0.42 BLOQUE_3 - 2.98 BLOQUE_4
Fits and Diagnostics for Unusual Observations
Obs CRECIMIENTO Fit Resid Std Resid
5 83.30 61.24 22.06 2.03 R
6 25.30 47.82 -22.52 -2.07 R
R Large residual
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
X
Den
sity
3.259
0.05
0
Distribution PlotF, df1=4, df2=12
203
20100-10-20
6
5
4
3
2
1
0
Residual
Fre
qu
en
cy
Histogram(response is CRECIMIENTO)
204
PROBLEMA # 6
El objetivo de un estudio realizado por Le Roith et al. (A-63) era evaluar los efectos de la
administración, por siete semanas, de la hormona del crecimiento recombinante humana
(rhGH) y el efecto de crecimiento pareció a la insulina recombínate humano (rhIGF-I),
separadamente y en combinación, sobre la función inmunológico dependieron de la respuesta
a la inmunización con toxoide tetánico. Los siguientes datos corresponden a las respuestas
para los tres grupos de tratamiento y para el grupo de control.
Salina rhIGFI1 rhGH rhIGF-I + rhGH
11.2 12.2 12.15 11.5
9 9.4 11.2 12.4
10.8 10.7 10.6 10.8
10 10.8 11.3 11.9
9.1 11 11
12.6
SOLUCIÓN
One-way ANOVA: Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH
Source DF SS MS F P
Factor 3 4.148 1.383 1.39 0.282
Error 16 15.898 0.994
Total 19 20.046
S = 0.9968 R-Sq = 20.69% R-Sq(adj) = 5.82%
COMENTRIO
ASUMIMOS ALFA = 0.5 E DONDE EL VALOR CRITICO DE F A PARTIR DE LA TABLA G ES DE 3.24 Y EL
VALOR DE F CALCULADO 1.39 NO RECHAZA LA HIPÓTESIS NULA
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
Salina 4 10.250 0.971 (---------*----------)
rhIGF-I1 6 10.800 1.418 (--------*--------)
rhGH 5 11.250 0.570 (--------*---------)
rhIGF-I + rhGH 5 11.520 0.653 (--------*---------)
--------+---------+---------+---------+-
10.0 11.0 12.0 13.0
Pooled StDev = 0.997
Grouping Information Using Tukey Method
N Mean Grouping
rhIGF-I + rhGH 5 11.5200 A
rhGH 5 11.2500 A
rhIGF-I1 6 10.8000 A
Salina 4 10.2500 A
Means that do not share a letter are significantly different.
Tukey 95% Simultaneous Confidence Intervals
205
All Pairwise Comparisons
Individual confidence level = 98.87%
Salina subtracted from:
Lower Center Upper
rhIGF-I1 -1.2927 0.5500 2.3927
rhGH -0.9150 1.0000 2.9150
rhIGF-I + rhGH -0.6450 1.2700 3.1850
------+---------+---------+---------+---
rhIGF-I1 (------------*-----------)
rhGH (------------*-----------)
rhIGF-I + rhGH (-----------*------------)
------+---------+---------+---------+---
-1.5 0.0 1.5 3.0
rhIGF-I1 subtracted from:
Lower Center Upper
rhGH -1.2786 0.4500 2.1786
rhIGF-I + rhGH -1.0086 0.7200 2.4486
------+---------+---------+---------+---
rhGH (-----------*-----------)
rhIGF-I + rhGH (-----------*----------)
------+---------+---------+---------+---
-1.5 0.0 1.5 3.0
rhGH subtracted from:
Lower Center Upper
rhIGF-I + rhGH -1.5354 0.2700 2.0754
------+---------+---------+---------+---
rhIGF-I + rhGH (-----------*-----------)
------+---------+---------+---------+---
-1.5 0.0 1.5 3.0
2.01.51.00.50.0-0.5-1.0-1.5
7
6
5
4
3
2
1
0
Residual
Fre
qu
en
cy
Histogram(responses are Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH)
206
11.611.411.211.010.810.610.410.2
2
1
0
-1
-2
Fitted Value
Re
sid
ua
l
Versus Fits(responses are Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH)
rhIGF-I + rhGHrhGHrhIGF-I1Salina
13
12
11
10
9
Da
ta
Boxplot of Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH
PROBLEMA 7
Meg Gulanic (A- 5) comparó los efectos de enseñanza, as ejercicios, ambos con y sin
capacitación de ejercitamiento, sobre autoeficacia y el desempeño de actividades durante l
primera etapa en recuperación de individuos que tuvieron infarto del miocardio o cirugía
cardiovascular. La autoeficacia (confianza) para realizar actividad física está definida como el
sano juicio de la propia capacidad para realizar diversas actividadescotidianas.se escogió a
varios individuos aleatoriamente para asignarlos uno de tres grupos. El grupo 1 recibo
207
enseñanza, prueba de ejercicios de rutina y entratamiento de ejercitico tres veces por semana.
El grupo 2 recibo solo instrucciones y pruebas de ejercicio. El grupo 3 recibió solo cuidados
de rutina sin supervisión en los ejercicios ni enseñanza. Las siguientes calefacciones son el
total de autoeficacias por grupo después de cuatro semanas del infarto o de practicada la
operación cardiovascular.
Grupo1: 156, 119, 107, 108, 100, 170, 130, 154, 107, 137, 107
Grupo2: 132, 105, 144, 136, 136, 132, 159, 152, 117, 89, 142, 151, 82
Grupo3: 110, 117, 124, 106, 113, 94, 113, 121, 101, 119, 77, 90, 66
SOLUTION
One-way ANOVA: BLOCK 1, BLOCK 2, BLOCK 3
Source DF SS MS F P
Factor 2 4917 2458 5.04 0.012
Error 34 16597 488
Total 36 21513
S = 22.09 R-Sq = 22.85% R-Sq(adj) = 18.32%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
BLOCK 1 11 126.82 24.25 (--------*--------)
BLOCK 2 13 129.00 24.07 (-------*-------)
BLOCK 3 13 103.92 17.71 (-------*--------)
---------+---------+---------+---------+
105 120 135 150
Pooled StDev = 22.09
Grouping Information Using Tukey Method
N Mean Grouping
BLOCK 2 13 129.00 A
BLOCK 1 11 126.82 A
BLOCK 3 13 103.92 B
Means that do not share a letter are significantly different.
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 98.06%
BLOCK 1 subtracted from:
Lower Center Upper ---------+---------+---------+---------+
BLOCK 2 -20.03 2.18 24.39 (--------*--------)
BLOCK 3 -45.10 -22.90 -0.69 (--------*--------)
---------+---------+---------+---------+
-25 0 25 50
BLOCK 2 subtracted from:
Lower Center Upper ---------+---------+---------+---------+
BLOCK 3 -46.34 -25.08 -3.81 (--------*-------)
---------+---------+---------+---------+
-25 0 25 50
208
Condición
F, critica = 3.34
F = 5.04
Si la F obtenida es > de F critica, se rechazar, por lo tanto, 5.04> 3.34, entonces
rechazar
40200-20-40
9
8
7
6
5
4
3
2
1
0
Residual
Fre
qu
en
cy
Histogram(responses are BLOCK 1, BLOCK 2, BLOCK 3)
130125120115110105
50
25
0
-25
-50
Fitted Value
Re
sid
ua
l
Versus Fits(responses are BLOCK 1, BLOCK 2, BLOCK 3)
209
50250-25-50
99
95
90
80
70
60
50
40
30
20
10
5
1
Residual
Pe
rce
nt
Normal Probability Plot(responses are BLOCK 1, BLOCK 2, BLOCK 3)
BLOCK 3BLOCK 2BLOCK 1
180
160
140
120
100
80
60
Da
ta
Boxplot of BLOCK 1, BLOCK 2, BLOCK 3
210
BLOCK 3BLOCK 2BLOCK 1
180
160
140
120
100
80
60
Da
ta
Individual Value Plot of BLOCK 1, BLOCK 2, BLOCK 3
PROBLEMA 8
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo
particular de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el
químico decide usar un diseño de bloques aleatorizados, con los rollos de tela considerados
como bloques. Selecciona 5 rollos y aplica los 4 agentes químicos de manera aleatoria a cada
rollo. A continuación se presentan las resistencias a la tención resultantes. Analizar los datos
de este experimento (utilizar α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente
Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
211
Procedimiento en Excel
En el menú herramientas seleccione la opción Análisis de datos, en funciones para
análisis seleccione Análisis de varianza de dos factores con una sola muestra por
grupo.
En Rango de entrada seleccionar la matriz de datos.
Alfa = 0.05
En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN Cuenta Suma Promedio Varianza
Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.92
Columna 5 4 274 68.5 1.67
ANÁLISIS DE VARIANZA
Fuente de Suma de
Grados
de Cuadrados Fc Probabilidad
F
tablas
variación Cuadrados Libertad medios Valor P
Filas 12.95 3 4.32 2.38 0.12 3.49
Columnas 157 4 39.25 21.61 2.06E-05 3.26
Error 21.8 12 1.82
Total 191.75 19
Total 231 24
En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F
2.38<3.49, por lo cual no rechazamos al Hipótesis nula H0. No tenemos evidencia estadística
para afirmar que el agente químico tenga influencia en la respuesta.
Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).
ANOVA en Minitab
Utilice 05.0a para calcular si hay diferencias entre los efectos de las columnas y los
renglones.
Introducir los datos arreglados con las respuestas en una sola columna e indicando a que
renglón y columna pertenece cada uno de estos, como sigue:
212
Resp Columna Fila
73 1 1
73 1 2
75 1 3
73 1 4
68 2 1
67 2 2
68 2 3
71 2 4
74 3 1
75 3 2
78 3 3
75 3 4
71 4 1
72 4 2
73 4 3
75 4 4
67 5 1
70 5 2
68 5 3
69 5 4
La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para
validar el modelo:
Los residuos se aproximan a la distribución normal por lo cual se concluye que se está
utilizando un modelo válido.
Residual
Pe
rce
nt
3210-1-2-3
99
95
90
80
70
60
50
40
30
20
10
5
1
Normal Probability Plot of the Residuals(response is Resp)
213
Two-way ANOVA: Resistencia versus Agente Químico, Rollo
Source DF SS MS F P
Agente Químico 3 12.95 4.3167 2.38 0.121
Rollo 4 157.00 39.2500 21.61 0.000
Error 12 21.80 1.8167
Total 19 191.75
S = 1.348 R-Sq = 88.63% R-Sq(adj) = 82.00%
Como el valor de P es menor a 0.05 el Rollo tiene influencia significativa en la resistencia.
Individual 95% CIs For Mean Based on
Agente Pooled StDev
Químico Mean ---+---------+---------+---------+------
1 70.6 (----------*----------)
2 71.4 (----------*----------)
3 72.4 (----------*----------)
4 72.6 (----------*----------)
---+---------+---------+---------+------
69.6 70.8 72.0 73.2
Individual 95% CIs For Mean Based on
Pooled StDev
Rollo Mean --+---------+---------+---------+-------
1 73.50 (-----*-----)
2 68.50 (-----*-----)
3 75.50 (-----*-----)
4 72.75 (-----*-----)
5 68.50 (-----*-----)
--+---------+---------+---------+-------
67.5 70.0 72.5 75.0
Se seleccionarían en 2º y 5º rollo ya que tienen los valores más pequeños.
PROBLEMA #9
Para comparar dos programas de entrenamiento para llevar a cabo un cierto trabajo, 20
trabajadores son incluidos en un experimento. De estos 10 son seleccionados al azar para ser
entrenados por el método 1 y los 10 restantes son entrenados por el método 2. Después de
completar el entrenamiento, son sujetos a prueba para registrar la velocidad de desempeño.
Los siguientes tiempos en minutos son obtenidos:
214
Método 1 Método 2
15 23
20 31
11 13
23 19
16 23
21 17
18 28
16 26
27 25
24 28
Two-Sample T-Test and CI: C2, C1
Two-sample T for C2
C1 N Mean StDev SE Mean
1 10 19.10 4.82 1.5
2 10 23.30 5.56 1.8
Difference = μ (1) - μ (2)
Estimate for difference: -4.20
95% CI for difference: (-9.11, 0.71)
T-Test of difference = 0 (vs ≠): T-Value = -1.81 P-Value = 0.089 DF = 17
Two-Sample T-Test and CI: C2, C1
Two-sample T for C2
C1 N Mean StDev SE Mean
1 10 19.10 4.82 1.5
2 10 23.30 5.56 1.8
Difference = μ (1) - μ (2)
Estimate for difference: -4.20
95% CI for difference: (-9.09, 0.69)
T-Test of difference = 0 (vs ≠): T-Value = -1.81 P-Value = 0.088 DF = 18
Hj Ck TI Yijk
1 1 F 28.2
2 1 E 31.0
3 1 D 30.6
4 1 C 33.1
5 1 B 29.9
6 1 A 30.8
1 2 D 29.1
2 2 B 29.5
3 2 E 28.8
4 2 A 30.4
5 2 F 25.8
6 2 C 29.7
1 3 A 32.1
2 3 C 29.4
3 3 F 21.7
215
4 3 B 28.8
5 3 E 30.3
6 3 D 27.4
1 4 B 33.1
2 4 F 24.8
3 4 C 30.8
4 4 D 31.4
5 4 A 30.3
6 4 E 29.1
1 5 E 31.1
2 5 D 33.0
3 5 A 31.9
4 5 F 26.7
5 5 C 33.5
6 5 B 30.7
1 6 C 32.4
2 6 A 30.6
3 6 B 30.1
4 6 E 31.9
5 6 D 32.3
6 6 F 21.4
General Linear Model: Yijk versus Hj, Ck, TI
Method
Factor coding (-1, 0, +1)
Factor Information
Factor Type Levels Values
Hj Fixed 6 1, 2, 3, 4, 5, 6
Ck Fixed 6 1, 2, 3, 4, 5, 6
TI Fixed 6 A, B, C, D, E, F
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
Hj 5 32.19 6.438 4.26 0.008
Ck 5 33.67 6.734 4.45 0.007
TI 5 185.76 37.153 24.56 0.000
Error 20 30.26 1.513
Total 35 281.88
Model Summary
S R-sq R-sq(adj) R-sq(pred)
1.22995 89.27% 81.22% 65.22%
Coefficients
Term Coef SE Coef T-Value P-Value VIF
Constant 29.769 0.205 145.22 0.000
Hj
1 1.231 0.458 2.68 0.014 1.67
2 -0.053 0.458 -0.12 0.909 1.67
3 -0.786 0.458 -1.71 0.102 1.67
216
4 0.614 0.458 1.34 0.196 1.67
5 0.581 0.458 1.27 0.220 1.67
Ck
1 0.831 0.458 1.81 0.085 1.67
2 -0.886 0.458 -1.93 0.067 1.67
3 -1.486 0.458 -3.24 0.004 1.67
4 0.147 0.458 0.32 0.751 1.67
5 1.381 0.458 3.01 0.007 1.67
TI
A 1.247 0.458 2.72 0.013 1.67
B 0.581 0.458 1.27 0.220 1.67
C 1.714 0.458 3.74 0.001 1.67
D 0.864 0.458 1.88 0.074 1.67
E 0.597 0.458 1.30 0.207 1.67
Regression Equation
Yijk = 29.769 + 1.231 Hj_1 - 0.053 Hj_2 - 0.786 Hj_3 + 0.614 Hj_4 + 0.581 Hj_5 - 1.586 Hj_6
+ 0.831 Ck_1 - 0.886 Ck_2 - 1.486 Ck_3 + 0.147 Ck_4 + 1.381 Ck_5 + 0.014 Ck_6
+ 1.247 TI_A + 0.581 TI_B + 1.714 TI_C + 0.864 TI_D + 0.597 TI_E - 5.003 TI_F
Fits and Diagnostics for Unusual Observations
Obs Yijk Fit Resid Std Resid
5 29.900 31.761 -1.861 -2.03 R
7 29.100 30.978 -1.878 -2.05 R
25 31.100 32.978 -1.878 -2.05 R
R Large residual
PROBLEMA # 10
Se cree que la concentración de catalizador que se usa en el concreto afecta la resistencia de
este. Se diseñó un experimento para investigar los efectos de 3 concentraciones distintas del
catalizador, en el que se usaban 5 especímenes de concreto por catalizador. Se determinó la
resistencia del espécimen colocándolo en una prensa de prueba y aplicando presión hasta
romperlo. A continuación se muestran las presiones de ruptura, en libras por pulgada
cuadrada.
Concentr
35
Concentr
40
Concentr
45
5.9 6.8 9.9
8.1 7.9 9
5.6 8.4 8.6
6.3 9.3 7.9
7.7 8.2 8.7
Conc. 35 35 35 35 35 40 40 40 40 40 45 45 45 45 45
Fuerz. 5.9 8.1 5.6 6.3 7.7 6.8 7.9 8.4 9.3 8.2 9.9 9.0 8.6 7.9 8.7
217
One-way ANOVA: fuerzas versus conc.
Method
Null hypothesis All means are equal
Alternative hypothesis At least one mean is different
Significance level α = 0.05
Equal variances were assumed for the analysis.
Factor Information
Factor Levels Values
conc. 3 35, 40, 45
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
conc. 2 11.43 5.7167 6.63 0.011
Error 12 10.34 0.8620
Total 14 21.78
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.928440 52.50% 44.58% 25.78%
Means
conc. N Mean StDev 95% CI
35 5 6.720 1.114 (5.815, 7.625)
40 5 8.120 0.904 (7.215, 9.025)
45 5 8.820 0.726 (7.915, 9.725)
Pooled StDev = 0.928440
454035
10
9
8
7
6
conc.
fuerz
as
Interval Plot of fuerzas vs conc.95% CI for the Mean
The pooled standard deviation was used to calculate the intervals.
218
Interval Plot of fuerzas vs conc.
One-way ANOVA: fuerzas versus conc.
Method
Null hypothesis All means are equal
Alternative hypothesis At least one mean is different
Significance level α = 0.05
Equal variances were assumed for the analysis.
Factor Information
Factor Levels Values
conc. 3 35, 40, 45
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
conc. 2 11.43 5.7167 6.63 0.011
Error 12 10.34 0.8620
Total 14 21.78
Model Summary
S R-sq R-sq(adj) R-sq(pred)
0.928440 52.50% 44.58% 25.78%
Means
conc. N Mean StDev 95% CI
35 5 6.720 1.114 (5.815, 7.625)
40 5 8.120 0.904 (7.215, 9.025)
45 5 8.820 0.726 (7.915, 9.725)
Pooled StDev = 0.928440
PROBLEMA 11
Los datos siguientes se refieren a las pérdidas de peso de ciertas piezas mecánicas (en mgs)
debidas a la fricción, cuando tres lubricantes diferentes se usaron en condiciones controladas.
Lubricante
A
Lubricante
B
Lubricante
C
12.2 10.9 12.7
11.8 5.7 19.9
13.1 13.5 13.6
11 9.4 11.7
3.9 11.4 18.3
4.1 15.7 14.3
10.3 10.8 22.8
8.4 14 20.4
219
a). Pruebe con a=.01 si las diferencias entre las medias muéstrales pueden atribuirse al azar.
b). Muestre gráficamente sus resultados.
c). ¿Cuáles son los lubricantes que pueden ser considerado(s) los mejores y porque?
SOLUTION
One-way ANOVA: peso versus lubricate
Method
Null hypothesis all means are equal
Alternative hypothesis At least one mean is different
Significance level α = 0.05
Equal variances were assumed for the analysis.
Factor Information
Factor Levels Values
lubricante 3 A, B, C
Analysis of Variance
Source DF Adj SS Adj MS F-Value P-Value
lubricante 2 230.6 115.29 8.75 0.002
Error 21 276.8 13.18
Total 23 507.4
Model Summary
S R-sq R-sq(adj) R-sq(pred)
3.63058 45.45% 40.25% 28.75%
Means
lubricante N Mean StDev 95% CI
A 8 9.35 3.59 ( 6.68, 12.02)
B 8 11.42 3.09 ( 8.76, 14.09)
C 8 16.71 4.14 (14.04, 19.38)
Pooled StDev = 3.63058
Interval Plot of peso vs lubricante
220
LUBRICANTE PESO
A 12.2
A 11.8
A 13.1
A 11
A 3.9
A 4.1
A 10.3
A 8.4
B 10.9
B 5.7
CBA
20.0
17.5
15.0
12.5
10.0
7.5
5.0
lubricante
peso
Interval Plot of peso vs lubricante95% CI for the Mean
The pooled standard deviation was used to calculate the intervals.
CBA
140
120
100
80
60
40
20
0
lubricante
peso
Chart of peso
221
B 13.5
B 9.4
B 11.4
B 15.7
B 10.8
B 14
C 12.7
C 19.9
C 13.6
C 11.7
C 18.3
C 14.3
C 22.8
C 20.4
PROBLEMA #12
En un esfuerzo para extender sus servicios una autoridad regional de tránsito realizo un
experimento para determinar cuál de cuatro rutas es mejor para ir de aeropuerto al centro de
distrito financiero de la ciudad. Los siguientes datos indican el tiempo de recorrido en
minutos a lo largo de cada una de las rutas.
Ruta
Día 1 2 3 4
Lunes 20 22 22 24
Martes 23 24 26 26
Miércoles 22 25 27 25
Jueves 27 23 30 27
Viernes 28 26 30 27
para ambas pruebas.
222
PROBLEMA # 13
Ejemplo. Se realiza un experimento para determinar el efecto de cuatro sustancias químicas
diferentes sobre la resistencia de una tela. Las sustancias se emplean como parte del proceso
terminal de planchado permanente. Para ello, se escogen cinco muestras de tela y se aplica un
diseño aleatorizado por bloques completos mediante la prueba de cada sustancia en un orden
aleatorio sobre cada una de las muestras de tela. Se probará la diferencia en las medias
utilizando para ello el análisis de la varianza con a = 0,01. Los datos aparecen a continuación.
Sustancia/muestra 1 2 3 4 5 media
1 1.3 1.6 0.5 1.2 1.1 ẏ.1= 1.14
2 2.2 2.4 0.4 2.0 1.8 ẏ.2= 1.76
3 1.8 1.7 0.6 1.5 1.3 ẏ.3 = 1.38
4 3.9 4.4 2.0 4.1 3.4 ẏ.4= 3.56
media ẏ.1 = 2.3 ẏ.2 = 2.53 ẏ.3 = 0.88 ẏ.4 = 2.2 ẏ.5= 1.96 ẏ…= 1.96
El factor de interés es la sustancia química, con cuatro niveles y el factor bloque es la muestra
de tela, con cinco niveles. Entonces a =4,b=5y n =20. Las sumas de cuadrados son:
SCT = ∑ ∑
- n = -20 *
SCA = b ∑
- n = ( -20 *
SCA = a ∑
- n = ( -20 *
SCE = SCT –SCA – SCB = 25.69-18.04-6.69 = 0.96
F.V S.C G.L M.C F
Sustancia 18.04 3 6.01 75.13
Muestra 6.69 4 1.67
Residual 0.96 12 0.08
Total 25.69 19
Como F3, 12; 0,01 =5,9526, existe una diferencia significativa en las sustancias químicas en
cuanto al efecto que tienen sobre la resistencia promedio de la tela.
Observación
Si las medias de los tratamientos son diferentes entre sí se pueden considerar los tests de
comparaciones múltiples y de rangos estudentizados, que se vieron para el modelo
unifactorial general. Se ha de reemplazar el número de réplicas por nivel del factor (n) por el
223
número de bloques (b). A su vez, los grados de libertad del error han de cambiarse de (N - a)
en el caso general a (a - 1) (b - 1).
PROBLEMA # 14
Supongamos que un experimentador está estudiando el efecto de cinco fórmulas diferentes de
la mezcla de dinamita sobre la fuerza explosiva observada. Cada fórmula se prepara usando
un lote de materia prima, lo suficientemente grande para que sólo se hagan cinco mezclas.
Más aún, las mezclas las preparan cinco operarios, pudiendo existir una diferencia sustancial
en la habilidad y experiencia entre ellos. El diseño apropiado para este problema consiste en
probar cada fórmula exactamente una vez, utilizando cada lote de materia prima, y en que
cada fórmula sea preparada exactamente una vez por cada uno de los cinco operarios. El
diseño resultante es un cuadrado latino. Las cinco fórmulas se representan mediante las letras
latinas A, B, C, D y E. Los datos aparecen a continuación:
MATERIAL 1 2 3 4 5
1 A
24
B
20
C
19
D
24
E
24
2 B
17
C
24
D
30
E
27
A
36
3 C
18
D
38
E
26
A
27
B
21
4 D
26
E
31
A
26
B
23
C
22
5 E
22
A
30
B
20
C
29
D
31
Para simplificar los datos se renta 25 unidades y se obtiene:
MATERIAL 1 2 3 4 5 ẏi…
1 A
-1 B
-5 C
-6 D
-1 E
-1
-2.8
2 B
-8 C
-1 D
5 E
2 A
11
1.8
3 C
-7 D
13 E
1
A
2
B
-4
1
4 D
1 E
6
A
1
B
-2 C
-3
0.6
5 E
-3
A
5
B
-5 C
4
D
6
1.4
ẏj -3.6 3.6 -0.8 1 1.8 0.4
Las medias sobre el factor γ son:
SCT = ∑ ∑ (
- n = 25*
SC = I ∑
- n = ( -25 *
224
SC = I ∑
- n = (( ( -25*
∑
- n = (( ( -25*
–SC – SC - 676 -68 – 150- 330 =128
La table ANOVA es;-
F.V S.C G.L M.C F
Material (A) 68 4 17
Operario (B) 150 4 37.5
Formula (C) 330 4 82.5 7.73
Error 128 12 10.67
Total 676 24
Como = 2.48
Existen diferencias significativas en las fuerzas explosiva media debido a las cinco formulas.
Nota que La tabla de analysis de varianza es:-
F.V S.C G.L M.C F
Factor
a
S.C.a I – 1 M.Ca =
Factor
b
S.C.b I – 1
Factor
g
S.C.g I – 1 M.C.ɤ =
Fg =
Error (I – 1)(I –2) M.C.E=
( (
Total
PROBLEMA 15
Una firma fabricante de aparatos electrónicos trabaja las 24 horas del día, cinco días a la
semana. Están establecidos los tres turnos de ocho horas cada uno y los trabajadores cambian
de turno cada semana. Un equipo de directivos efectuó un estudio para determinar si hay
diferencia entre las medias del número de monitores de video de 14 pulgadas producidos
cuando los empleados trabajan en los diferentes turnos. Una muestra aleatoria de cinco
trabajadores registro el número de monitores que producen en cada turno como sigue:
225
Monitores producidos
Empleados Mañana Tarde Noche
Jones 10 4 14
Miller 12 5 12
Phillips 7 3 9
Ross 9 8 7
Stevens 7 5 6
Si usamos 0.05 como nivel de significancia y un ANOVA de dos criterios, ¿Podemos
concluir que hay diferencia en la media de producción por cada turno y por cada trabajador?
PROBLEMA 5
A continuación se listan promedios de sentencia, en años, dados a los culpables según tres
procedimientos judiciales y los tipos de delitos.
Procedimiento Judicial
Delito Decisión del Jurado Decisión del juez Confesión
Asesinato 28 21 14
Robo 24 15 10
Violación 18 14 11
Asalto con agravantes 14 9 7
Robo en casa 10 5 6
Trafico de drogas 8 10 5
Ratería 4 4 4
Si usamos 0.05 como nivel de significancia y un ANOVA de dos criterios, ¿Concluiríamos
diferencia entre las medias de las sentencias según los tres procedimientos judiciales y en las
medias de los años por delito?
226
CUADRO LATINO
Introducción.
Ya vimos que el diseño de bloques al azar, era el diseño apropiado cuando se conocía de
antemano algún factor que fuera fuente de variabilidad entre las unidades experimentales.
¿Pero qué pasa si se sabe de dos factores o fuentes de variabilidad que afectan el material
experimental?
Supongamos que se tiene un experimento agrícola donde las unidades experimentales son
parcelas, pero estas parcelas están ubicadas en diferentes tipos de suelo y además tienen
diferentes valores de pH, uno podría pensar en realizar un diseño de bloques al azar usando
cualquiera de estas dos características: realizando bloques de acuerdo a los diferentes valores
de pH o bloques que consideren los diferentes tipos de suelo. Otra alternativa, que como ya
se habrán imaginado es la más adecuada, es hacer un “doble bloqueo”, o sea bloques en dos
direcciones, que consideren las dos fuentes de variación, a este tipo de diseño se le
denomina Cuadrado Latino, donde se tiene un conjunto de “t” tratamientos y “t2” unidades
experimentales, que son agrupadas por dos factores.
El diseño de cuadrados latinos tuvo sus orígenes en experimentos agrícolas, donde se tenían
parcelas de terreno con gradientes de fertilidad en dos direcciones, tal como aparece en el
siguiente gráfico.
227
En realidad este tipo de ensayos con dos gradientes de fertilidad son poco comunes, pero el
uso de este diseño no se limita a esta situación, se ha utilizado en otras áreas diferentes a la
agricultura, tales como la biología, estudio de mercados, procesos industriales, entre otros. Se
debe tener en cuenta que un diseño de cuadrados latinos no requiere que las unidades
experimentales estén distribuidas físicamente en un cuadrado como tal, de hecho, esta
situación sólo se presenta en un caso como el de los dos gradientes de fertilidad mencionado
anteriormente.
Para un diseño de cuadrados latinos “t*t”, se tienen “t” tratamientos que se asignan
aleatoriamente a “t2” unidades experimentales, de tal manera que cada tratamiento aparece
una sola vez en cada “fila” y en cada “columna”, a cada tratamiento se le designa con una
letra latina: A, B, C, etcétera, de ahí el nombre de cuadrado latino. En el ejemplo de los
gradientes de fertilidad, se podría evaluar entonces el efecto de cuatro tratamientos (A, B, C y
D), que podrían estar dispuestos de la siguiente manera:
A B C D
B C D A
C A A B
D D B C
PASOS PARA OBTENER UN CUADRADO LATINO ALEATORIZADO
1. Partir de un cuadrado latino estándar del tamaño requerido: Supongamos que
necesitamos un cuadrado 4*4 y arbitrariamente hemos seleccionado el planteado
anteriormente, donde se observa el orden alfabético de las letras en la primera fila y la
primera columna;
2. Aleatorizar todas las columnas del cuadrado elegido: Para este efecto existen tablas
de permutaciones o simplemente se elige un orden aleatorio (con ayuda de la
228
calculadora o de tablas de números aleatorios) de las “t” columnas; para este caso, con
ayuda de la calculadora se encontraron los valores: 1, 3,4.
1: Quiere decir que la primera columna permanece como estaba.
3: Entonces, la que antes era la tercera columna, ahora pasa a ser la segunda.
4: La que inicialmente era la cuarta columna, ahora pasa a ser la tercera, por
descarte, entonces, la que originalmente era la segunda columna, ahora pasa a
ser la cuarta, con lo que el cuadrado quedaría:
A C D B
B D A C
C A B D
D B C A
3. Aleatorizar todas las filas del cuadrado encontrado: Nuevamente, con ayuda de la
calculadora, el orden aleatorio encontrado fue: 3, 4, 1.
3: La que en el último cuadrado era la tercera fila, ahora pasa a ser la primera.
4: La que era la cuarta fila, ahora se convierte en la segunda.
1: La primera fila debe ser ahora la tercera y por descarte, la segunda fila pasa
a ser la cuarta, quedando el siguiente cuadrado, que sería el definitivo:
Echavarría, Hernán – Diseño de Cuadrados Latinos
C A B D
D B C A
A C D B
B D A C
3. Asignar aleatoriamente los tratamientos a las letras.
VENTAJAS DEL DISEÑO DE CUADRADOS LATINOS
Si se conocen dos fuentes de variabilidad de las unidades experimentales y se puede
hacer un “bloqueo” en dos direcciones, se va a poder hacer una comparación más
precisa de los tratamientos (se tiene más potencia) pues la variación debida a las filas
y las columnas es removida del error experimental.
Es fácil de analizar, comparado con el diseño de bloques al azar, sólo se requiere de
una suma de cuadrados adicional.
Cuando se tienen cuadrados pequeños (lo que implica pocos grados de libertad para
el error experimental) se pueden utilizar varios de estos cuadrados de poco tamaño y
229
realizar un análisis combinado de los mismos en algo que se llama cuadrados latinos
repetidos.
DESVENTAJAS DEL DISEÑO DE CUADRADOS LATINOS
El número de tratamientos, filas y columnas debe ser igual, a veces es difícil
encontrar unidades experimentales que permitan armar los bloques homogéneos en
las dos direcciones, más aún, si el número de tratamientos es grande.
Los diseños pequeños tienen pocos grados de libertad para la estimación del error
experimental y a medida que el tamaño del diseño aumenta, es posible que no se
tenga homogeneidad al interior de cada bloque. No es un diseño adecuado si existe
interacción entre los efectos de fila, columna y tratamientos.
PROBLEMA 1
El articulo (¨The Responsiveness Of Food Sales To Shelf Space Requierement´ (J.Marketing
Research, 1964; 63-67) reporta el uso de un diseño de cuadro latino para investigar el efector
del espacio de anaquel en las ventas de alimentaseis tiendas diferentes y se obtuvieron los
siguientes resultados sobre ventas de crema en polvo para café (con el índice de espacio de
anaquel entre paréntesis):
SOLUTION
Tienda Semana Espacio de
anaquel Ventas
1 1 5 27
2 1 6 34
3 1 2 39
4 1 3 40
5 1 4 15
6 1 1 16
1 2 4 14
2 2 5 31
3 2 6 67
4 2 1 57
5 2 3 15
6 2 2 15
1 3 3 18
2 3 4 34
3 3 5 31
4 3 2 39
5 3 1 11
6 3 6 14
1 4 1 35
230
2 4 3 46
3 4 4 49
4 4 6 70
5 4 2 9
6 4 5 12
1 5 6 28
2 5 2 37
3 5 1 38
4 5 4 37
5 5 5 18
6 5 3 19
1 6 2 22
2 6 1 23
3 6 3 48
4 6 5 50
5 6 6 17
6 6 4 22
PROBLEMA 2
El articulo ¨Variation in Moisture and Ascorbic Acid Content from leaf to leaf and plant to
plant in turnip greens¨ (Southern Cooperation Service Bull 1951:13-17) usa un diseño en el
cual el factor A es la planta, el factor B es el tamaño de hoja (desde el más pequeño hasta el
más grande), el factor C (entre paréntesis) es tiempo de pesada y la variable de respuesta es el
contenido de humedad
SOLUTION
Planta Tamaño
hoja
Tiempo
pesada Humedad
1 1 5 6.67
2 1 2 5.4
3 1 3 7.32
4 1 1 4.92
5 1 4 4.88
1 2 4 7.15
2 2 5 4.77
3 2 2 8.53
4 2 3 5
5 2 1 6.16
1 3 1 8.29
2 3 4 5.4
231
3 3 5 8.5
4 3 2 7.29
5 3 3 7.83
1 4 3 8.95
2 4 1 7.54
3 4 4 9.99
4 4 5 7.85
5 4 2 5.83
1 5 2 9.62
2 5 3 6.93
3 5 1 9.68
4 5 4 7.08
5 5 5 8.51
PROBLEMA 3
Debido a la variabilidad potencial del envejecimiento causado por las diferentes piezas
fundidas y segmentos en estas, se utilizó un diseño de cuadrado latino con N= 7 para
investigar el efecto del tratamiento térmico en el envejecimiento. Con A = PIEZAS fundidas,
B= segmentos, C=tratamientos térmicos, los estadísticos resumidos incluyen x… =3815.8,
∑ = 297 216.90, ∑
= 297 200.64, ∑ = 297 155.01, y ∑∑ (
= 297 317.65.
Obtenga la tabla ANOVA y prueba al nivel 0.05 la hipótesis de que el tratamiento térmico no
afecta el envejecimiento.
SOLUTION
FV
gl SC CM F P
Piezas
fundidas A 6 67.3155102 11.2192517 7.60301128 5.10012E-05
Segmentos B 6 51.0555102 8.5092517 5.76651085 0.000438018
Trat. Termicos C 6 5.4255102 0.9042517 0.61278916 0.718211513 no significativo
Error
30 44.2689796 1.47563265
Total
48 168.06551
232
PROBLEMA 4
Un ingeniero industrial investigar el efecto de cuatro métodos de ensamblaje (A, B, C, y D)
sobre el tiempo de ensamblaje de un componente de televisores a color.se seleccionan cuatro
operadores para el estudio. Además, el ingeniero sabe que todos los métodos de ensamblaje
producen fatiga, de tal modo que el tiempo requerido para el último ensamblaje puede ser
mayor que para el primero, independientemente del método.es decir se desarrolla una
tendencia en el tiempo de ensamblaje requerido. Para tomar en cuenta esta fuente de
variabilidad el ingeniero emplea el diseño del cuadro latino que se presenta a continuación.
Analizar los datos de este experimento (α=0.05) y sacar las conclusiones apropiadas
SOLUTION
Orden
de
ensamble
Operador
Metodo
de
ensamble
Tiempo
de
ensamble
1 1 3 10
2 1 2 7
3 1 1 5
4 1 4 10
1 2 4 14
2 2 3 18
3 2 2 10
4 2 1 10
1 3 1 7
2 3 4 11
3 3 3 11
4 3 2 12
1 4 2 8
2 4 1 8
3 4 4
4 4 3 14
6H
Si hay efecto del método de ensamble y del operador en el tiempo de ensable
K
233
PROBLEMA 5
Se estudia el efecto de cinco ingredientes diferentes (A, B, C, D y E) sobre el tiempo de
reacción de un proceso químico. Cada lote de material nuevo solo alcanza para permitir la
realización de cinco corridas. Además cada corrida requiere aproximadamente 1
horas, por
lo que solo pueden realizarse cinco corridas con un día. El experimentador decide realizar el
experimento como un cuadrado latino para que los efectos del día y el lote puedan controlarse
Sistemáticamente. Obtiene los datos que se muestran enseguida. Analizar los datos de este
experimento (utilizar = 0.05) y sacar conclusión
SOLUTION
Lote Dia Ingrediente tiempo
de rxn
1 1 1 8
2 1 3 11
3 1 2 4
4 1 4 6
5 1 5 4
1 2 2 7
2 2 5 2
3 2 1 9
4 2 3 8
5 2 4 2
1 3 4 1
2 3 1 7
3 3 3 10
4 3 5 6
5 3 2 3
1 4 3 7
2 4 4 3
3 4 5 1
4 4 2 6
5 4 1 8
1 5 5 3
2 5 2 8
3 5 4 5
4 5 1 10
5 5 3 8
234
Solo el ingrediente tiene efecto significativo sobre el tiempo de reacción
PROBLEMA 6
Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en
la velocidad de lectura se realiza un experimento que consiste en contar el número de
palabras leídas en un minuto para distintos tipos de papel (b=blanco, c=en color, s=satinado)
y diferente tipografía (g=letra grande, p=letra pequeña, n=normal). Obteniéndose los
resultados expuestos en la siguiente tabla:
Tipo de papel
Satinado Blanco Color
Letra
Grande A=258 C=230 B=240
Normal B=235 A=270 C=240
Pequeña C=220 B=225 A=260
Analizar estos datos y estudiar la posible influencia de los factores iluminación, tipos de
papel y diferente tipografía en la variable de interés velocidad de lectura.
235
FACTORIAL GERNERAL
Introducción
Principios y definiciones básicas
uchos experimentos se llevan a cabo para estudiar los efectos producidos por dos o más
factores. Puede mostrarse que en general los diseños factoriales son los más eficientes para
este tipo de experimentos. Por diseño factorial se entiende aquel en el que se investigan
todas las posibles combinaciones de los niveles de los factores en cada ensayo completo o
réplica del experimento. Por ejemplo, si existen “a” niveles del factor A y “b” niveles del
factor B, entonces cada réplica del experimento contiene todas las “ab” combinaciones de los
tratamientos. A menudo, se dice que los factores están cruzados cuando éstos se arreglan en
un diseño factorial.
El efecto de un factor se define como el cambio en la respuesta producida por un cambio en
el nivel del factor. Con frecuencia, éste se conoce como efecto principal porque se refiere a
los factores de interés primordial del experimento. Por ejemplo, consideremos los datos de la
tabla 1. El efecto principal del factor A podría interpretarse como la diferencia entre la
respuesta promedio en el primer y segundo nivel de ese factor. Numéricamente:
Tabla 1 Un experimento factorial
212
3020
2
5240A
En otras palabras incrementar el factor A del nivel 1 al 2 produce un cambio en la respuesta
promedio de 21 unidades. Similarmente, el efecto principal de B es:
112
4020
2
5230B
Si los factores tienen más de dos niveles, el procedimiento anterior debe ser modificado ya
que las diferencias entre las respuestas promedio pueden expresarse de muchas formas.
M
20 30
40 52
B1 B2
A1
A2
Factor B
Factor A
20 30
40 52
B1 B2
A1
A2
Factor B
Factor A
236
En algunos experimentos puede encontrarse que la diferencia en la respuesta entre los
niveles de un factor no es la misma en todos los niveles de los otros factores. Cuando esto
ocurre existe una interacción entre los factores. Por ejemplo, considérense los datos de la
Tabla 2.
Tabla 2. Un experimento factorial con interacción
En el primer nivel del factor B, el efecto de A es:
A = 50 - 20 = 30
Mientras que en el segundo nivel de B, el efecto de A es:
A = 12 - 40 = 28
Puede observarse que existe una interacción entre los factores A y B porque el efecto de A
depende del nivel elegido de B.
Estas ideas pueden ilustrarse gráficamente. En la Fig. 1 se muestra una gráfica de la respuesta
de los datos de la Tabla 1 contra los niveles del factor A para ambos niveles del factor B. Se
observa que las rectas B1 y B2 son, aproximadamente, paralelas. Esto indica que no hay
interacción entre los factores. De manera similar, en la Fig. 2 se presenta una gráfica de la
respuesta de los datos de la Tabla 2.
Figura 1 Un experimento factorial sin interacciones
20 40
50 12
B1 B2
A1
A2
Factor B
Factor A
20 40
50 12
B1 B2
A1
A2
Factor B
Factor A
10
20
30
40
50
60
A1 A2
B1
B2
B1
B2
Resp
uest
a
Factor A
10
20
30
40
50
60
A1 A2
B1
B2
B1
B2
Resp
uest
a
Factor A
237
En este caso se ve que las rectas B1 y B2 no son paralelas. Esto muestra que existe una
interacción entre A y B. Sin embargo, no debe ser la única técnica para analizar los datos,
porque su interpretación es subjetiva y su apariencia, a menudo, es engañosa.
Figura 2 Un experimento factorial con interacciones
Hay que notar que cuando una interacción es grande los correspondientes efectos principales
tienen poco significado práctico. Una estimación del efecto principal de A de los datos de la
Tabla 2 es:
12
4020
2
1250A
El cual resulta ser muy pequeño corriéndose el riesgo de concluir que no existe un efecto
debido a A. Sin embargo, cuando se examinó el efecto de A en niveles diferentes de B se
concluyó que éste no era el caso. El factor A tiene un efecto, pero depende del nivel del factor
B. En otras palabras, es más útil conocer la interacción AB que el efecto principal. Una
interacción significativa oculta a menudo el significado de los efectos principales.
Ventajas de los diseños factoriales: Las ventajas de los diseños factoriales pueden ilustrarse
fácilmente. Supongamos que se tienen dos factores, A y B, cada uno con dos niveles. Estos
niveles se representan mediante A1, A2, B1 y B1. La información acerca de ambos factores
puede obtenerse variando un factor a la vez como aparece en la tabla 3. El efecto de variar el
factor A está dada por A2B1 -A1B2. A causa de que existe error experimental, es conveniente
realizar, por ejemplo, dos observaciones de cada combinación de tratamientos y hacer una
estimación de los efectos de los factores usando las respuestas promedio. Por lo tanto, se
requiere un total de seis observaciones.
10
20
30
40
50
60
A1 A2
B1
B2
B1
B2Re
spue
sta
Factor A
10
20
30
40
50
60
A1 A2
B1
B2
B1
B2Re
spue
sta
Factor A
238
Tabla 3 El método de un factor a la vez
Los diseños factoriales poseen algunas ventajas.
Son más eficientes que los experimentos de un factor a la vez.
Los diseños factoriales son necesarios cuando alguna interacción puede estar
presente, para evitar hacer conclusiones engañosas.
Los diseños factoriales permiten estimar los efectos de un factor en diversos niveles
de los otros factores, produciendo conclusiones que son válidas sobre toda la
extensión de las condiciones experimentales.
QUESTION 1
Un producto químico se fabrican en un envase presurisado.se lleva a cabo un experimento
factorial en la planta piloto para estudiar los factores que se piensa influyen en el índice de
filtración de este producto. Los cuatro factores son la temperatura (A), la presión (B), la
concentración de formaldehído (C) y la velocidad de agitación (D).cada facto está presente
con dos niveles-.la matriz del diseño y los datos de la respuesta obtenidos de una sola réplica
del experimento 2^4 se muestran en la tabla a-a y en la figura 1-1.las 16 corridas se hacen de
manera aleatoria. El ingeniero del proceso está interesado en máxima el índice de filtración.
las condiciones actuales del proceso producen índices de filtración de alrededor de 75
gal/asimismo, en el proceso actual la concentración de formaldehido, factor C, se usa en el
nivel Aalto. Al ingeniero le gustaría reducir la concentración de formaldehido lo más posible,
pero no ha podido hacerlo porque siempre produce índice de filtración más bajos.
A1B1 A1B2
A2B1 12
B1 B2
A1
A2
Factor B
Factor A
A1B1 A1B2
A2B1 12
B1 B2
A1
A2
Factor B
Factor A
239
Tabla a-a
Experimento del índice de filtración en la planta piloto
Num.
De
corrida
FACTOR Etiqueta
la corrida
Índice de
Filtración
(gal/h)
A B C D
1 - - - - -1 45
2 + - - - A 71
3 - + - - B 48
4 + + - - Ab 65
5 - - + - C 68
6 + - + - Ac 60
7 - + + - Bc 80
8 + + + - Abc 65
9 - - - + D 43
10 + - - + Ad 100
11 - + - + Bd 45
12 + + - + Abd 104
13 - - + + Cd 75
14 + - + + Acd 86
15 - + + + Bcd 70
16 + + + + Abcd 96
240
Solución
241
242
243
244
245
* NOTE * Could not graph the specified residual type because MSE = 0 or the
degrees of freedom for error = 0.
20151050
98
95
90
85
80
70
60
50
40
30
20
100
Absolute Effect
Pe
rce
nt
A A
B B
C C
D D
Factor Name
Not Significant
Significant
Effect Type
AD
AC
D
C
A
Half Normal Plot of the Effects(response is Indice, Alpha = 0.05)
Lenth's PSE = 2.625
AB
BD
CD
ABCD
ACD
ABC
BC
BCD
B
ABD
C
D
AD
AC
A
20151050
Te
rm
Effect
6.75
A A
B B
C C
D D
Factor Name
Pareto Chart of the Effects(response is Indice, Alpha = 0.05)
Lenth's PSE = 2.625
Aquí, Menos significativo es interacción AB
246
1-1
1
-1
1
-1
1-1
D
C
B
A
96
8675
70
104
10043
45
65
6068
80
65
7145
48
Cube Plot (data means) for Indice
1-1 1-1 1-1
100
75
50
100
75
50
100
75
50
A
B
C
D
-1
1
A
-1
1
B
-1
1
C
Interaction Plot for IndiceData Means
247
1-1
80
75
70
65
60
1-1
1-1
80
75
70
65
60
1-1
A
Me
an
B
C D
Main Effects Plot for IndiceData Means
El efecto B no es claramente significativo, es muy claro significancia
PROBLEMA 2
En G E quieren mejorar la longitud de una barra para ensamble de tina, donde la
específicamente es de 34±0.25 como saben de diseño experimental quisieron correr un
modelo, donde se vieron 3factores, todo a 2niveles, pero en base que teniendo réplicas del
experimento, puede quedar más robusto el diseño, por lo que los factores quedaron de la
siguiente manera:-
FACTOR NIVEL 1 NIVEL 2
Cantidad de refrigerante Bajo Alto
Tipo de herramienta 1 2
RPM 500 600
El arreglo ortogonal quedar quedó en siguiente forma.
Exp Refrig. Herram Rpm R1 R2 R3
1 Bajo 1 500 33.98 33.89 34.05
2 alto 1 500 33.75 33.87 34.2
3 Bajo 2 500 33.9 33.8 33.95
4 alto 2 500 34.02 34.08 33.89
5 Bajo 1 600 33.6 33.76 34.05
6 alto 1 600 33.8 33.87 34.23
7 Bajo 2 600 33.9 33.5 33.76
8 alto 2 600 34.1 34.12 34.33
¿Cuál es la conclusión?
248
Solución
Full Factorial Design
Factors: 3 Base Design: 3, 8
Runs: 8 Replicates: 1
Blocks: 1 Center pts (total): 0
All terms are free from aliasing.
Factorial Fit: MEDIA versus Refrigerante, Heramiente, RPM
Estimated Effects and Coefficients for MEDIA (coded units)
Term Effect Coef
Constant 33.9333
Refrigerante 0.1767 0.0883
Heramiente 0.0250 0.0125
RPM -0.0300 -0.0150
Refrigerante*Heramiente 0.1117 0.0558
Refrigerante*RPM 0.1367 0.0683
Heramiente*RPM 0.0417 0.0208
Refrigerante*Heramiente*RPM 0.0383 0.0192
S = * PRESS = *
249
Analysis of Variance for MEDIA (coded units)
Source DF Seq SS Adj SS Adj MS F P
Main Effects 3 0.065472 0.065472 0.021824 * *
Refrigerante 1 0.062422 0.062422 0.062422 * *
Heramiente 1 0.001250 0.001250 0.001250 * *
RPM 1 0.001800 0.001800 0.001800 * *
2-Way Interactions 3 0.065767 0.065767 0.021922 * *
Refrigerante*Heramiente 1 0.024939 0.024939 0.024939 * *
Refrigerante*RPM 1 0.037356 0.037356 0.037356 * *
Heramiente*RPM 1 0.003472 0.003472 0.003472 * *
3-Way Interactions 1 0.002939 0.002939 0.002939 * *
Refrigerante*Heramiente*RPM 1 0.002939 0.002939 0.002939 * *
Residual Error 0 * * *
Total 7 0.134178
Estimated Coefficients for MEDIA using data in uncoded units
Term Coef
Constant 33.9333
Refrigerante 0.0883333
Heramiente 0.0125000
RPM -0.0150000
Refrigerante*Heramiente 0.0558333
Refrigerante*RPM 0.0683333
Heramiente*RPM 0.0208333
Refrigerante*Heramiente*RPM 0.0191667
Alias Structure
I
Refrigerante
Heramiente
RPM
Refrigerante*Heramiente
Refrigerante*RPM
Heramiente*RPM
Refrigerante*Heramiente*RPM
altobajo
34.00
33.95
33.90
33.85
21
600500
34.00
33.95
33.90
33.85
Refrigerante Heramiente
RPM
Main Effects Plot for MEDIAData Means
250
600
500
2
1
altobajo
RPM
Heramiente
Refrigerante
34.1833
33.966733.8033
33.7200
33.9967
33.940033.9733
33.8833
Cube Plot (data means) for MEDIA
21 600500
34.10
33.95
33.80
34.10
33.95
33.80
Refrigerante
Heramiente
RPM
bajo
alto
Refrigerante
1
2
Heramiente
Interaction Plot for MEDIAData Means
CONCLUSIÓN
Refrigerante es el más importante porque es más afecta la creación de las barras, por lo
tanto (F = 21.29) y en gráfica, valor de refrigerante es bajo 33.80
251
PROBLEMA 3
Una persona requiere disminuir en un porcentaje de oxidación, el cual se realiza cuando el
producto es trasladado de las plantas de EU a México. Para estos se decidió que podían
influir los siguientes factores operativos:
Factor Nivel 1 Nivel 2
Cantidad de aceite Bajo Alto
Tipo de papel Común especial
En base a lo anterior se decide realizar un diseño de experimentos por lo que proporciona la
siguiente tabla.
Aceite Papel R1 R2 R3 R4 R5
Bajo Común 5.12 5.14 4.89 4.32 4.44
alto Común 3.14 3.16 3.56 3.45 3.65
bajo Especial 2.15 2.12 2.15 2.14 2.11
alto Especial 1.11 1.09 0.99 1.21 1.05
Realizar;
Grafica de efectos principales
Gratifica de iteraciones
252
253
21
4.0
3.5
3.0
2.5
2.0
1.5
21
Aceite
Me
an
Papel
Main Effects Plot for MediaData Means
El problema busca disminuir la oxidación (menos es mejor) por lo que se toman los factores
en nivel más bajo, al aceite tiene nivel más bajo en el papel también, (2 es nivel bajo) y en
estnd. Desv. aceite 2 es nivel bajo y en papel.
254
21
0.30
0.25
0.20
0.15
0.10
0.05
21
Aceite
Me
an
Papel
Main Effects Plot for Desv.estndardData Means
Interacción con desd. Std
21
0.4
0.3
0.2
0.1
0.0
Papel
Me
an
1
2
Aceite
Interaction Plot for Desv.estndardData Means
Aceite y papel en nivel 2
255
21
5
4
3
2
1
Papel
Me
an
1
2
Aceite
Interaction Plot for MediaData Means
El nivel más significante el diseño experimento en ambos factores aceite y papel es nivel 2
2
1
21
Papel
Aceite
0.08124
0.232100.38226
0.01817
Cube Plot (data means) for Desv.estndard
El menor valor es el siguiente: 1.090 con factores en niveles: [2 2]
256
ARREGLOS FACTORIALES
PROBLEMA 1.
Se corre un diseño factorial 3 x 2 con 10 réplicas para investigar el hinchamiento del
catalizador después de la extrusión en la fabricación de botellas de polietileno de alta
densidad. El catalizador se utiliza en la obtención de dicho polietileno. Los factores
investigados son: A: catalizador (con tres niveles, A1, A2 YA3) y B: molde
(Con dos niveles, B1 y B2). Los datos obtenidos se muestran en la tabla siguiente.
Catalizador
A1 A2 A3
Molde
B1
93 92 93 92 90 92 95 94 94
92 91 90 94 91 91 94 97 96
90 90 90 92 94 95
91 91 91 92 94 96
B2
88 88 87 90 89 88 91 91 91
88 87 88 88 90 89 90 89 91
87 87 88 89 92 90
87 87 88 88 90 91
Determine el mejor tratamiento. ¿Cuál es el hinchamiento predicho en el mejor tratamiento?
A3A2A1
95
94
93
92
91
90
89
88
87
Catalizador
Me
an
B1
B2
Molde
Interaction Plot for ResultadoData Means
257
258
BIBLIOGRAFÍA:
1. Armitage, P. y G. Berry. 1997. Estadística para la Investigación Biomédica. Harcourt
Brace. 593pp.
2. Crawley, Michael. 1993. GLIM for Ecologists. Ed. Blackwell Sci. Pub. Oxford. 379 pp.
3. Di Rienzo, J; Casanoves, F. González, L.; Tablada, E; Díaz, M.; Robledo, C. y Balzarini,
M. 2001. Estadística para las Ciencias Agropecuarias. 4ta. Ed. Triunfar. Córdoba.
Argentina.
4. Johnson, Richard & Dean Wichern. 1998. Applied multivariate statistical analysis.
Prentice-Hall. New Jersey. 816 pp.
5. Kuehl, Robert. 2001. Diseño de Experimentos. Principios estadísticos para el diseño y
análisis de investigaciones. Ed. Thomson Learning. Mexico. 666 pp.
6. Macchi, R. 2001. Introducción a la Estadística en Ciencias de la Salud. Ed. 128 pp
7. Mason, Robert, Richard Gunst & James Hess. 1989. Statistical design and Analysis of
Experiments. With applications to Engineering and Science. Ed. John Wiley & Sons.
New York. 692 pp.
8. Mead, R., R. Curnow & A. Hasted. 1993. Statistical Methods in Agriculture and
Experimental Biology. Ed. Chapman & Hall. London. 415 pp.
9. Montgomery, M. C. 1991. Diseño y Análisis de Experimentos. Grupo Editorial
Iberoamericana
10. Morton, R, J. Hebel y R. McCarter. 1993. Bioestadística y Epidemiología.
InteramericanaMcGraw-Hill. 184 pp.
11. Robles, C.A. 1969. Serie didáctica Nº 4: Biometría y Técnica Experimental. FCA-UNTuc
286 pp.
12. Scheffe, Henry.1959.The analysis of variance. Ed. John Wiley & Sons. New York.477
259
13. Scheiner, Samuel & Jessica Gurevich. 1993. Design and analysis of Ecological
Experiments.Chapman & Hall. New York. 445 pp.
14. Sokal, R y J. Rohlf. 1984. Introducción a la Bioestadística. Ed. Reverté.
15. Spiegel, M. 1991. Estadística. Ed. Mc.Graw Hill
16. Tabachnick, Barbara & Linda Fidell. 1996. Using multivariate statistics. HarperCollins
College Publishers. New York. 880 pp.
17. Zar, Jerrold. 1984. Biostatistical analysis. Prentice-Hall. New Jersey. 718 pp.