ESTADISITICA REPORT CLASS.docx seuri kilakoi

CHIHUAHUA-CHIH ENERO, 2016

DISEÑO DE EXPERIMENTO Y ESTADISTICA

2015-2

CENTRO DE INVESTIGACIÓN EN MATERIALES AVANZADOS, S.C.

DEPARTAMENTO DE ESTUDIOS DE POSGRADO

MAESTRÍA EN CIENCIA Y TECNOLOGÍA AMBIENTAL

Presenta:

Seuri S. Kilakoi

Asesor:

Dr. Jorge Alfonso Jimenez

REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

INTRODUCCIÓN

A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una

variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya

altura coincida con la frecuencia absoluta o relativa de dicha clase.

Ejemplo: Nivel de estudios (Continuación ejemplo 1)

Frecuencias relativas fi

B) Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de

mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele

trazarse una línea que representa la suma de la frecuencia de cada clase y las que la

preceden, esto se usa para identificar la minoría de las características que representan

la mayoría de casos.

A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano,

realizó un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las

personas controlaba el 80% de la riqueza en Italia.

La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar

visualmente en una sola revisión las minorías de características vitales a las que es importante

prestar atención.

Algunos ejemplos de tales minorías vitales son:

La minoría de clientes que representan la mayoría de las ventas.

La minoría de productos, procesos, o características de la calidad causantes del grueso

de desperdicio de los costos de retrabajos.

Ejemplo: Nivel educativo (Continuación ejemplo 1)

1 2 3 4

Frecuencias relativas fi (Gráfico de Pareto)

f2=0,35

f2+ f3=0,35+0,3=0,65

f2+ f3+ f4=0,35+0,3+0,2=0,85

f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1

Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento

de la población tiene un nivel educativo primario o media.

Diagrama de Pareto

En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel

educativo primaria o media.

C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de

dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse

por sí mismas.

Ejemplo: Nivel de educativo (Continuación).

a) Distribución de frecuencias:

2 3 4 1

Categorías ni fi

1. Sin estudios 3 0,15

2. Primario 7 0,35

3. Medio 6 0,3

4. Superior 4 0,2

N=20 1

b) Elaboración del Pictograma (Ejercicio para el estudiante)

Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría

socioeconómica:

trabajadores agrarios

empresarios agrarios

obreros

SOC autonomos

clase media

clase alta

retirados

Los datos de 75 hogares (o unidades de gasto) son:

3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3

3 6 6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3

(a) Obtener las frecuencias absolutas de cada una de las

categorías.

n1=8 n2=9 n3=25 n4=3 n5=16

n6=3 n7=11

(b) Calcular las frecuencias relativas y mostrar la distribución de

frecuencias

750 11 , f

750 12 ,

750 33 , f

750 04 ,

750 21 , f

750 04 ,

750 15 ,

Nótese que:

f f f f f f f fi

1 2 3 4 5 6 7

Distribución de frecuencias:

Categoría ni fi

1. Trabajadores agrarios 8 0,11

2. Empresarios agrarios 9 0,12

3. Obreros 25 0,33

4. Autónomos 3 0,04

5. Clase media 16 0,21

6. Clase alta 3 0,04

7. Retirados 11 0,15

N=75 1

(c) Construir el diagrama de Pareto

f3=0,33; f3+f5=0,33+0,21=0,54

f3+f5+f7=0,33+0,21+0,15=0,69

f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81

f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92

f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9

F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1

3 5 7 2 1 4 6

El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o

clase media, y así sucesivamente.

Gráfico de sectores:

En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia.

Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular

de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se

calcula multiplicando por 360º la frecuencia relativa.

Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide

un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le

corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número

de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no

es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro

categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

Ejemplo.

La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el

siguiente cuadro:

Elaborar un gráfico de sectores.

Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla

anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a

fin de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo,

para la categoría de educación básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha

multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).

Parvularia

Primaria

o básica

Educación

Superior no

universitaria

Técnico

universitario

Superior

universitaria Maestría Doctorado Total

1168 15895 6842 499 363 4556 70 7 29400

Figura. Nivel educativo de la población de Ayutuxtepeque, por ciento.

Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el

54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel

educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.

VARIABLES CUANTITATIVAS DISCRETAS.

Diagrama de Barras:

Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de

barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación

de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene

barras verticales que representan valores numéricos. Las frecuencias están asociadas con

categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El

objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de

barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o

de intensidad de la característica numérica de interés. Si en vez de frecuencias simples

utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.

Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador,

2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de

hijos varones, resultando los siguientes datos.

Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas.

Ejemplo.

La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en

el siguiente cuadro:

OCUPADOS DESOCUPADOS INACTIVOS Total

ÁREA URBANA 10966 2832 8531 22329

EL ZAPOTE 329 42 477 848

LOS LLANITOS 2410 227 2550 5187

Total 13705 3101 11558 28364

Fuente: Censo de Población y V de Vivienda, El Salvador, 2007.

N° Hijos

Varones Madres

0 278290

1 509469

2 339180

3 177050

4 92233

5 50916

6 27791

7 15004

8 7328

9+ 7366

Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de

ocupación.

Distribución de frecuencias agrupadas.

Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda,

aún a costa de perder información, agrupar los datos en clases, en lo que se denomina

distribución de frecuencias agrupada en intervalos.

Clase Marca Frecuencias Absolutas Frecuencias Relativas

Clase Simples Acumuladas Simples Acumuladas

A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A

efectos de cálculo la marca de clase se elige como representante del intervalo. El número de

clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de

clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges:

3 log( )

2 log(2)

nnúmero de clases (Tomar la parte entera)

Condición de ocupación

PROBLEMA 1.

¿Cómo varía la velocidad de un corredor en el recorrido del curso de un maratón (una

distancia de 42.195 km)? Considere determinar tanto el tiempo de recorrido de los primeros

km y el tiempo de recorrido entre los 35 y 40 km, y luego reste el primer tiempo del segundo.

Un valor positivo de esta diferencia corresponde a un corredor que corre más lento hacia el

final de la carrera. El histograma adjunto está basado en tiempos de corredores que

participaron en varios maratones japoneses (“Factors Affecting Runners’ Maratón

Performance”, Chance, otoño de 1993: 24-30).

¿Cuáles son algunas características interesantes de este histograma? La gran mayoría de los

competidores en realidad corren más lento en la distancia final del recorrido que al inicio

de la carrera.

¿Cuál es un valor de diferencia típico? De 50 a 150

¿Aproximadamente qué proporción de los competidores corren la última distancia más rápido

que la primera? Son pocos, es aproximadamente 15

QUESTION #2

La siguiente tabla muestra el número de restaurants americanos de comidas Rápidas en Puert

o Rico a julio de 1997 (Nuevo Día, 31 de Agosto de 1997).

Nombre

Número

Burger King

McDonald’s

Taco Maker

Kentucky Fried Chicken 58

Pizza Hut

Church’s

Domino’s

Wendys

Taco Bell

Ponderosa

Little Ceasers

Method

Categorical predictor coding (1, 0)

Analysis of Variance

Source DF Adj SS Adj MS F-Value P-Value

Regression 11 10045.7 913.2 * *

Nombre 11 10045.7 913.2 * *

Error 0 0.0 *

Total 11 10045.7

Ponderosa

Little Ceasers

Burger King

McDonald’s

Taco Maker

Fried Chicken

Pizza Hut

Church’s

Domino’s

Wendys

Taco Bell

CategoryOtros

7.6%Little Ceasers

3.4%Ponderosa

3.6%Taco Bell

Wendys

Domino’s

Church’s

Pizza Hut

8.6%Fried Chicken

Taco Maker

McDonald’s

Burger King

Pie Chart of Nombre

Model Summary

S R-sq R-sq(adj) R-sq(pred)

* 100.00% * *

Coefficients

Term Coef Coef T-Value P-Value VIF

Constant 113.0 * * *

Nombre

Church’s -67.00 * * * 1.83

Domino’s -83.00 * * * 1.83

Kentucky Fried Chicken -55.00 * * * 1.83

Little Ceasers -93.00 * * * 1.83

McDonald’s -16.00 * * * 1.83

Otros -68.00 * * * 1.83

Pizza Hut -62.00 * * * 1.83

Ponderosa -92.00 * * * 1.83

Taco Bell -91.00 * * * 1.83

Taco Maker -50.00 * * * 1.83

Wendys -89.00 * * * 1.83

Regression Equation

Número = 113.0 + 0.0 Nombre_Burger King - 67.00 Nombre_Church’s -

83.00 Nombre_Domino’s

- 55.00 Nombre_Kentucky Fried Chicken - 93.00 Nombre_Little Ceasers

- 16.00 Nombre_McDonald’s - 68.00 Nombre_Otros - 62.00 Nombre_Pizza Hut

- 92.00 Nombre_Ponderosa - 91.00 Nombre_Taco Bell - 50.00 Nombre_Taco Maker

- 89.00 Nombre_Wendys

PROBLEMA#3

Transductores de temperatura de cierto tipo se envían en lotes de 50. Se seleccionó una

muestra de 60 lotes y se determinó el número de transductores en cada lote que no cumplen

con las especificaciones de diseño y se obtuvieron los datos siguientes:

2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3

0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1

5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3

a. Determine las frecuencias y las frecuencias relativas de los valores observados de x=

número de transductores en un lote que no cumple con las especificaciones.

b. ¿Qué proporción de lotes muestreados tienen a lo sumo cinco transductores que no

cumplen con las especificaciones? 3

c. ¿Qué proporción tiene menos de cinco? 49

d. ¿Qué proporción tienen por lo menos cinco unidades que no cumplen con las

especificaciones? 8

e. Trace un histograma de los datos que utilizan la frecuencia relativa en la escala

vertical y comente sus características.

PROBLEMA #4

El artículo (“Determination of Most Representative Subdivision”, J. of Energy Engr., 1993:

43-55) dio datos sobre varias características de subdivisiones que podrían ser utilizados para

decidir si se suministra energía eléctrica con líneas elevadas o líneas subterráneas. He aquí

los valores de la variable x _ longitud total de calles dentro de una subdivisión:

1280 5320 4390 2100 1240 3060 4770

1050 360 3330 3380 340 1000 960

1320 530 3350 540 3870 1250 2400

960 1120 2120 450 2250 2320 2400

3150 5700 5220 500 1850 2460 5850

2700 2730 1670 100 5770 3150 1890

510 240 396 1419 2109

a) Construya un histograma con los límites de clase, 0, 1000, 2000, 3000, 4000, 5000 y

6000. ¿Qué proporción de subdivisiones tienen una longitud total menor que 2000? 23

¿Entre 2000 y 4000? 15 ¿Cómo describiría la forma del histograma?

PROBLEMA 5.

En un estudio de productividad de autores (“Lotka’s Test”, Collection Mgmt., 1982: 111-

118), se clasificó a un gran número de autores de artículos de acuerdo con el número de

artículos que publicaron durante cierto periodo. Los resultados se presentaron en la

distribución de frecuencia adjunta:

6000500040003000200010000

Longitud

Histogram of Longitud

Número

artículos

1 2 3 4 5 6 7 8 9 1

Frecuenci

9 19 6 7 6 7 4 4 5 3 3

a) Construya un histograma correspondiente a esta distribución de frecuencia. ¿Cuál es

la característica más interesante de la forma de la distribución? Que mientras se va

haciendo más grande el número de artículos escritos, menor cantidad de autores.

a. ¿Qué proporción de estos autores publicó por lo menos cinco artículos? 144

b. ¿Por lo menos diez artículos? 39

c. ¿Más de diez artículos? 32

d. Suponga que los cinco 15, los tres 6 y los tres 17 se agruparon en una sola categoría

mostrada como “15”.

e. ¿Podría trazar un histograma? Explique.

No se podría trazar el histograma porque cada no. De artículos tiene diferente

frecuencia y no tiene ninguna relación entre ellas

f. Suponga que los valores 15, 16 y 17 se enlistan por separado y se combinan en la

categoría 15-17 con frecuencia 11. ¿Sería capaz de trazar un histograma? Explique.

Aquí sí es posible porque en un intervalo se están englobando las tres frecuencias.

PROBLEMA 6

1) Los siguientes datos corresponden al sueldo (en miles de pesos) de trabajadores de una

Empresa

119 135 138 144 146 150 156 164

125 135 140 144 147 150 157 165

126 135 140 145 147 152 158 168

128 136 142 142 148 153 161 173

132 138 142 146 149 154 163 176

a) Construya la tabla de frecuencia con todos sus elementos.

b) ¿En qué clase se encuentra el mayor número de trabajadores?.

c) ¿Qué porcentaje de trabajadores gana entre $ 139.000 y $ 168.000 ?.

d) ¿Cuántos trabajadores ganan a lo menos $ 159.000 ?.

e) ¿Cuántos trabajadores ganan a lo más $ 148.000 ?.

SOLUTION

a) R = 176- 119= 57

m=1+3.3log (N) =

m = (1+3.3log (40) = 6.28 approx. 6.

A= 57/6 =9.5 = 10

Sueldo limites reales xi fi hi Fi Hi

119-128 118.5-128.5 123.5 4 0.1 4 0.1

129-138 128.5-138.5 133.5 7 0.175 11 0.275

139-148 138.5-148.5 143.5 13 0.325 24 0.6

149-158 148.5-158.5 153.5 9 0.225 33 0.825

159-168 158.5-168.5 163.5 5 0.125 38 0.95

169-178 168.5-178.5 173.5 2 0.05 40 1

RESPUESTAS

b) En la tercera clase se encuentra el mayor número de trabajadores.

c) 67,5 % de los trabajadores gana entre $139.000 y $ 168.000

d) 7 trabajadores ganan a lo menos $ 159.000

e) 24 trabajadores ganan a lo más $ 148.000

PROBLEMA 7

En una industria es necesario realizar un estudio respecto al peso de engranajes de gran

tamaño. Los siguientes datos corresponden al peso, en kilógramos, de estas piezas, que

poseen las mismas dimensiones, pero distinta aleación.

58 52 50 52 40 50 38 52 50 45

168156144132120

sueldo

Histogram of sueldo

168156144132120

sueldo

Histogram of sueldo

36 45 55 42 42 52 50 45 42 38

42 38 40 46 45 45 55 42 45 40

SOLUTION

a) R = 58- 36= 22

m=1+3.3log (N) =

m = (1+3.3log (30) = 5.87 approx. 6.

A= 22/6 =9.5 = 3.7 === 4

Peso limites

reales Xi fi hi Fi Hi

36-40 35.5-40.5 38 7 0.23 7 0.23

41-45 40.5-45.5 43 11 0.37 18 0.6

46-50 45.5-50.5 48 5 0.17 23 0.77

51-55 50.5-55.5 53 6 0.2 29 0.97

56-60 55.5-60.5 58 1 0.3 30 1

TOTAL 30

a) Construir una tabla de frecuencias de amplitud comenzando desde

b) ¿Cuántos engranajes pesan entre y Kg?

c) ¿Qué porcentaje representa a aquellos engranajes cuyo peso es inferior a 1 Kg?

d) ¿Cuál es la frecuencia relativa para aquel intervalo cuya marca de clase es?

e) ¿Qué porcentaje representa a aquellas piezas que pesan más de Kg?

b) 11 engranajes pesan entre 46 y 55 kilos.

c) El 77 % de las piezas pesan menos de 51 kilos.

d) La frecuencia relativa es 0,17yh

e) El 23 % de las piezas pesa más de 50 kilos

5550454035

Histogram of PESO

5550454035

Histogram of peso

PROBLEMA 8

En una industria automotriz es necesario realizar un estudio debido a una partida defectuosa

de discos de embrague. Para ello se ha recopilado la siguiente información referente a la

duración en horas de ellos.

285 300 286 302 313 314 289 292 321 327

293 289 292 289 308 326 303 287 293 322

304 329 2895 307 297 302 294 3011 285 313

308 307 304 291 288 297 3116 322 3117 308

321 324 323 316 292 286 299 2294 328 296

a) Construir una tabla de frecuencia de amplitud cinco comenzando desde

b) ¿Cuántos discos duraron entre y horas?

c) ¿Cuántos discos no alcanzaron a durar horas?

d) ¿Qué porcentaje representan los discos que duraron entre y horas?

e) ¿Qué porcentaje representan los discos que duraron menos de horas?

f) ¿Cuántos discos duraron más de horas?

g) ¿Cuántos discos duraron menos de horas?

h) ¿Qué porcentaje representan los discos que duraron entre y horas?

SOLUTION

DURACION LIMITES REALES Xi Fi hi Fi Hi

285-289 284.5-289.5 287 9 0.18 9 0.18

290-294 289.5-294.5 292 8 0.16 17 0.34

295-299 294.5-299.5 297 5 0.10 22 0.44

300-304 299.5-304.5 302 7 0.14 29 0.58

305-309 304.5-309.5 307 5 0.10 34 0.68

310-314 309.5-314.5 312 3 0.06 37 0.74

315-319 314.5-419.5 317 3 0.06 40 0.80

320-324 319.5-324.5 322 6 0.12 46 0.92

325-329 324.5-329.5 327 4 0.08 50 1

TOTAL 50

b) 13 discos duraron entre 290 y 299 horas.

c) 22 discos no alcanzaron a durar 300 horas.

d) El 6 % de los engranajes duraron entre 300 y 314 horas.

e) El 58 % de los engranajes duraron menos de 305 horas.

f) 16 engranajes duraron más de 309 horas.

g) 29 engranajes duraron menos de 305 horas.

h) El 16 % de los engranajes duraron entre 285 y 294 horas

PROBLEMA 9

Dada la información referente a la ubicación de personas dentro de cuatro departamentos de

una empresa, se pide

a) Tabular la información.

b) Realizar gráfico circular.

c) Indique frecuencias relativas porcentuales en cada grupo.

M A P CC A CC M P P M P CC M A M CC P P M P

A P A M M A M A P M M A CC A A M P M M P

3000240018001200600

DISCOS

tive F

Histogram of DISCOS

3000240018001200600

DISCOS

Histogram of DISCOS

A abastecimiento; CC control de calidad; M mantención; P producción.

SOLUTION

DEPARTAMENTO fi

TOTAL 40

DEPART fi Hi %

A 10 0.25 25

CC 5 0.125 13

M 14 0.35 35

P 11 0.275 28

TOTAL 40 1 100

Category

Pie Chart of PERSONA POR DEPARTAMENTO

DISTRIBUCION BINOMIAL Y NORMAL

Introducción

La distribución binomial es unas de las distribuciones de probabilidad discreta más

importantes. Recordemos que en una distribución de probabilidad discreta, la variable

aleatoria asigna un valor numérico a cada resultado en el espacio muestral del experimento.

La distribución binomial tiene que ver con una clase especial de experimento llamado

experimento binomial.

A. EXPERIMENTO BINOMIAL

Un experimento que tiene exactamente dos posibles resultados o dos categorías de resultados

conocidos como "éxito" o "fracaso".

Ejemplos 1

1. Experimento: Lanzar una moneda.

El experimento tiene solamente dos resultados (H, T), por lo tanto es un

2. Experimento: Probando una nueva droga contra una enfermedad.

La droga cura (éxito) o no cura (fracaso) la enfermedad. Por lo tanto es un

3. Experimento: Un jugador gana si obtiene un número mayor que 4 y pierde si obtiene

cualquier otro número en el lanzamiento de un dado.

Los resultados del experimento (lanzar un dado) se puede poner en una de

dos categorías:

5, 6 1, 2, 3, 4

Los resultados en la primera categoría se definen como "éxito" y los

resultados en la segunda categoría se definen como "fracaso".

B. PROCESO BERNOULLI

Digamos que la variable aleatoria (x) es la cantidad de éxitos. Contar la cantidad de

éxitos en un intento de un experimento binomial no es muy interesante debido a que

la variable aleatoria (x) puede asumir solamente dos (1, 0) posibles valores.

Supongamos que repetimos un experimento binomial siguiendo un procedimiento

especial llamado proceso Bernoulli.

Proceso Bernoulli Un experimento binomial se repite tal que:

1. La probabilidad de éxito es igual para cada intento del

experimento.

2. Los resultados de los intentos son independientes entre sí.

Si un experimento binomial se repite n veces según un proceso Bernoulli, entonces la

variable aleatoria (x) puede asumir los valores 0, 1, 2,…, n.

La distribución de probabilidad de la variable aleatoria (número de éxitos) (x) se

llama distribución binomial. Para definir completamente esta distribución

deberíamos, ya sea completar una tabla, o describir la distribución con una fórmula.

Preferimos la fórmula, debido a su simplicidad. La fórmula utiliza una notación,

llamada factorial, para calcular el producto de números enteros consecutivos.

Factorial

El producto n(n – 1) (n – 2)... 2.1 se representa como n! y se lee como el factorial de n.

Ejemplo 1. 3! = 3 · 2 · 1 = 6

2. 8! = 8 · 7 · 6 · 5 · 4 · 3 · 2 · 1 = 40320

3. 1! = 1

* 4. 0! = 1

Coeficiente Binomial

Si n y x son números enteros donde x n, la expresión

Se llama el coeficiente binomial.

C. DISTRIBUCIÓN BINOMIAL

La probabilidad de obtener x número de éxitos en n intentos independientes de un

experimento binomial está dado por: xnx ppxnx

Para x = 0, 1, 2,…, n, donde p es la probabilidad de éxito en cada intento.

Ejemplo 2: Si una moneda se lanza 15 veces, encuentre la probabilidad de obtener

exactamente 10 caras.

Solución: El lanzar una moneda es un experimento binomial. Dado que nos interesa

contar el número de caras, así reclamamos como éxito cuando salen éstas.

Dejemos que el número de éxitos sea la variable aleatoria (x).

Substituyendo

n = número de intentos = 15,

x = número de éxitos = 10, y

p = probabilidad de éxito (cara) en cada intento

=, obtenemos

101510 )5.01(5.0)!1015(!10

!15)10(

0916.0)5.0(5.0)!5(!10

!15)10( 510 P ó aproximadamente un 9% de

oportunidad.

LA DISTRIBUCION NORMAL

La distribución normal es una de las distribuciones más usadas e importantes. Se ha

desenvuelto como una herramienta indispensable en cualquier rama de la ciencia , la industria

y el comercio. Muchos eventos reales y naturales tienen una distribución de frecuencias cuya

forma es muy parecida a la distribución normal.

La distribución normal es llamada también campana de Gauss por su forma acampanada.

Propiedades de la distribución normal

La distribución normal tiene forma de campana.

La distribución normal es una distribución de probabilidad que tiene media = 0 y

desviación estándar = 1.

El área bajo la curva o la probabilidad desde menos infinito a más infinito vale 1.

La distribución normal es simétrica, es decir cada mitad de curva tiene un área de 0.5.

La escala horizontal de la curva se mide en desviaciones estándar.

La forma y la posición de una distribución normal dependen de los parámetros y , en

consecuencia hay un número infinito de distribuciones normales.

Existe una relación del porcentaje de población a la desviación estándar. En la figura

observamos por ejemplo que el área bajo la curva para 1 tiene un porcentaje de 68.26%,

2 = 95.46% y %73.993

La población incluye todos los datos, la muestra es una porción de la población.

Población

x x+s x+2s x+3s x - s x - 2s x - 3s x x+s x+2s x+3s x - s x - 2s x - 3s

Muestra

+1s +2s +3s -1s -2s -3s

68.26%

95.46%

99.73%

La distribución normal estándar

El valor de z

Determina el número de desviaciones estándar entre algún valor X y la media de la

población . Para calcular el valor de Z usamos la siguiente fórmula.

La distribución de probabilidad f (Z) es una distribución normal con media 0 y desviación

estándar 1; esto es Z se distribuye normalmente con media cero y desviación estándar = 1

Z~N(0,1): La gráfica de densidad de probabilidad se muestra en la figura.

La distribución f (Z) se encuentra tabulada en la tabla de distribución normal estándar. En

esta tabla podemos determinar los valores de Z o la probabilidad de determinado valor Z.

Ejemplo 3: El gerente de personal de una gran compañía requiere que los solicitantes a un

puesto efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la

prueba se distribuyen normalmente con media 485 y desviación estándar 30 ¿Qué

porcentaje de los solicitantes pasará la prueba?

z0 1 2 3-1-2-3

z0 1 2 3-1-2-3 0 1 2 3-1-2-3

x x+ x+2 x+3x-x-2x-3 x x+ x+2 x+3x-x-2x-3

La desviación estándar

sigma representa la

distancia de la media al

punto de inflexión de la

curva normal

Calculando el valor de Z obtenemos:

XZ = 5.0

485500

Buscamos el valor correspondiente Z en las tabla de distribución normal. Z0.5 = .69146 =

69.146%. siendo esta la probabilidad de que la calificación sea menor a 500 P (X<500). Dado

que el porcentaje pedido es )500( XP la solución es 1-.69146 =.3085 , 30.85% de los

participantes pasarán la prueba.

Ejemplo 4

Encuentre las probabilidades siguientes usando la tabla Z.

a) P(-1.23 < Z > 0)

Solución: Buscamos el valor Z1..23 en las tablas siendo este = .89065. restando .89065-.05

= .3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de –1.23 a

0 por simetría. Por lo tanto la probabilidad es .3905

Uso de la distribución normal en Excel

Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:

30.85%

Z-1.23

En la barra de herramientas seleccione el icono de funciones

fx>Estadísticas>Distr.Norm.Estand. OK

Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de clic en

aceptar y aparecerá la probabilidad buscada f(z)= .903199

Para calcular Z dada una probabilidad f(z)

En la barra de herramientas seleccione el icono de funciones

fx>Estadísticas>Distr.Norm.Estand.inv OK

PROBLEMA 1

Si X es una variable aleatoria normal con media 80 y desviación estándar 10, calcule las

siguientes probabilidades mediante estandarización:

a) P(X ≤100)= 0.9772

0.9772

Distribution PlotNormal, Mean=80, StDev=10

b) P(X ≤ 80)= 0.5

c) P(65 ≤ X ≤ 100) =0.9104

0.9104

80 100

d) P(70 ≤ X)= 0.1587

0.1587

e) P(85 ≤ X ≤ 95) = 0.2417

0.2417

PROBLEMA#2

La cantidad de refresco envasada por una empresa esta normalmente distribuido con una

media de un litro (1000 ml) y tiene desviación estándar de 30ml. Calcule las probabilidades

de que una botellas aleatoriamente seleccionada tenga una cantidad de refresco.

a) De menos de 1010mil

b) Entre 980 y 1040mil

c) ¿cuál es valor máximo del 20% de las botellas con menor cantidad de líquido?

Solución

a) P(< 1010)=

Media=1000

Desd. Estándar = 30

Cumulative Distribution Function

Normal with mean = 1000 and standard deviation = 30

X P(X <= x)

1010 0.630559

a) P(< 1010) = 0.630559

b) P (98<X<1040), Media=1000, Desd. Estándar = 30

0.6563

10401000

P (98<X<1040) = 0.6563

c) Cual es valor máximo del 20% de ls botellas con menor cantidad de líquido?

Horizontal cuando nos dice 974.8, es Cantidad máxima de este 20% de las botellas con

menor cantidad de líquido

PROBLEMA 3

Hay dos máquinas disponibles para cortar corchos para usarse en botellas de vino. La primera

produce corchos con diámetros que están normalmente distribuidos con media de 3 cm y

desviación estándar de 0.1 cm. La segunda máquina produce corchos con diámetros que

tienen una distribución normal con media de 3.04 cm y desviación estándar de 0.02 cm. Los

corchos aceptables tienen diámetros entre 2.9 y 3.1 cm. ¿Cuál máquina es más probable que

produzca un corcho aceptable?

Máquina 1

0.6827

Distribution PlotNormal, Mean=3, StDev=0.1

Máquina 2

0.9987

3.04 3.1

Distribution PlotNormal, Mean=3.04, StDev=0.02

Desde que observamos los datos proporcionados podemos determinar que la máquina dos es

la que tiene mayor probabilidad de que nos fabrique un corcho con las medidas estándares

requeridas, ya que tiene una desviación estándar muy pequeña. Pero determinando tanto

gráfica como la probabilidad de cada máquina tenemos que la máquina 1 nos proporciona una

p=0.6827 y la máquina 2 una p=0.9987, siendo la máquina 2 la que nos dará el mayor

porcentaje de corchos con las medidas que se requieren.

PROBLEMA 4

El dispositivo de apertura automática de un paracaídas de carga militar se diseñó para que

abriera el paracaídas a 200 m sobre el suelo. Suponga que la altitud de abertura en realidad

tiene una distribución normal con valor medio de 200 m y desviación estándar de 30 m. La

carga útil se dañará si el paracaídas se abre a menos de 100 m. ¿Cuál es la probabilidad de

que se dañe la carga útil de cuando menos uno de cinco paracaídas lanzados en forma

independiente?

0.0004291

Su probabilidad a menos de 100m es de

0.0004291. Para 5 paracaídas que se

lanzaron, la probabilidad de que falle en

uno solo es de 0.0008582

PROBLEMA 5

a. Si una distribución normal tiene μ=30 y σ=5, ¿cuál es el 91o percentil de la

distribución? Es para una x=36.7

b. ¿Cuál es el 6o percentil de la distribución? Para x=22.23

c. El ancho de una línea grabada en un “chip” de circuito integrado normalmente está

distribuida con media de 3.000 μm y desviación estándar de 0.140. ¿Qué valor de

ancho separa 10% de las líneas más anchas del 90% restante?

PROBLEMA 6

El artículo “Monte Carlo Simulation-Tool for Better Understanding of LRFD” (J. Structural

Engr., 1993: 1586- 1599) sugiere que la resistencia a ceder (lb/pulg2) de un acero grado A36

está normalmente distribuida con μ= 43 y σ= 4.5.

a. ¿Cuál es la probabilidad de que la resistencia a ceder sea cuando mucho de 40?

25.25% ¿De más de 60? 74.75

0.2525

b. ¿Qué valor de resistencia a ceder separa al 75% más resistente del resto? 46.04

PROBLEMA#7

Considere que un estudiante se presenta a su examen sin haberse preparado completamente y

no tener idea absoluta del tema visto. El examen consiste de 10 preguntas con 4 respuestas de

opción múltiple. Suponga que el estudiante adivina la respuesta de cada pregunta, considere

un experimento binomial. ¿Cuál es la probabilidad de que el examen, si ocupa 6 preguntas

correctas?

SOLUCION

0.01973

Distribution PlotBinomial, n=10, p=0.25

P (Y 6) = 0.o1973 = 1.97% ese probabilidad para aprobar dicho examen sin prepararse

completamente

0.9803

Distribution PlotBinomial, n=10, p=0.25

El grafica quiere decir que hay probabilidad de 98.03% de probar el examen sin

preparación.

PROBLEMA# 8

Calcular las probabilidades de obtener el trabajo si la solicitaran 10 personas y anteriormente

se observe que el 80% de las personas son aceptados

SOLUCIÓN

Welcome to Minitab, press F1 for help.

Probability Density Function

Binomial with n = 10 and p = 0.8

x P( X = x )

1 0.000004

2 0.000074

3 0.000786

4 0.005505

5 0.026424

6 0.088080

7 0.201327

8 0.301990

9 0.268435

10 0.107374

PROBLEMA#9

Calcule las siguientes probabilidades binomiales directamente con la fórmula para b(x; n, p):

a. b(3; 8, 0.35):

b. b(5; 8, 0.6):

c. P(3 ≤ X ≤ 5) cuando n = 7 y p = 0.6

P=P(X=6)-P(X=2)=0.87575

d. P(1 ≤ X) cuando n = 9 y p = 0.1

P=1-P(X=1) =0.22516

PROBLEMA#10

Un banco emprendió hace poco un nuevo programa de crédito. Los clientes que

reúnen ciertos requisitos obtienen una tarjeta de crédito que es aceptada por los comerciantes

del área y que recibe un descuento. Las cifras de los registros anteriores, muestran que 25 %

de las solicitudes son rechazadas.

Si la aceptación o rechazo de la solicitud de crédito es un proceso Bernoulli, Cual es

la probabilidad entre 14 solicitudes de que

a).- Exactamente 4 sean rechazadas.

b).- Exactamente 8 sean rechazadas.

c).- Menos de 3 sean rechazadas.

d).- Más de 5 sean rechazadas.

SOLUTION

1a) 1b)

p 0.75

x p(x)

0 3.73E-09

1 1.56E-07

2 3.05E-06

3 3.66E-05

4 0.000302

5 0.001812

6 0.008155

7 0.027961

8 0.073398

9 0.146796

10 0.220195

11 0.240212

12 0.180159

13 0.08315

14 0.017818

probl 1b

p 0.75

x p(x)

0 3.72529E-09

1 1.56462E-07

2 3.05101E-06

3 3.66122E-05

4 0.00030205

5 0.001812302

6 0.008155357

7 0.027961224

8 0.073398214

9 0.146796428

10 0.220194642

11 0.240212336

12 0.180159252

13 0.083150424

14 0.017817948

P(x=10)= 0.220195

P(x=6) =0.008155357

c).- Menos de 3 sean rechazadas.

P(x>11)=1 - P(x

X P(x) acum P(x)

1- acum

0 3.72529E-09 3.72529E-09 0.999999996

1 1.56462E-07 1.60187E-07 0.99999984

2 3.05101E-06 3.2112E-06 0.999996789

3 3.66122E-05 3.98234E-05 0.999960177

4 0.00030205 0.000341874 0.999658126

5 0.001812302 0.002154175 0.997845825

6 0.008155357 0.010309532 0.989690468

7 0.027961224 0.038270757 0.961729243

8 0.073398214 0.11166897 0.88833103

9 0.146796428 0.258465398 0.741534602

10 0.220194642 0.47866004 0.52133996

11 0.240212336 0.718872376 0.281127624

12 0.180159252 0.899031628 0.100968372

13 0.083150424 0.982182052 0.017817948

14 0.017817948 1 0

c) P(X>11) = 1- P (

P(X>11) = 1- 0.718872376 = 0.281127624

, d) x < 9

P(x<9) = P(X = 0.11166897

PROBLEMA 11

En la ciudad de Chihuahua la probabilidad de que una persona desarrolle alergia a algún

factor del medio ambiente es de 0.6 en colonias cercanas a las áreas industriales. Se

investigaran 15 gentes de colonias aledañas a los parques industriales, y se desea saber cuál

es la probabilidad de que:

a). Más de 8 hayan desarrollado alergias.

b). Menos de 10 hayan desarrollado alergias.

c). Al menos 12 hayan desarrollado alergias.

d). A lo más 8 hayan desarrollado alergias.

x P(X)

0 1.07374E-06

1 2.52329E-05

2 0.000278904

3 0.001927769

4 0.009347661

5 0.033833303

6 0.095047408

7 0.213103183

8 0.390186844

9 0.59678445

10 0.782722294

11 0.909498098

12 0.972885999

13 0.994827965

14 0.999529815

P( X > 8 )

0.609813156

x P(X)

0 1.07E-06

1 2.52E-05

2 0.000279

3 0.001928

4 0.009348

5 0.033833

6 0.095047

7 0.213103

8 0.390187

9 0.596784

10 0.782722

11 0.909498

12 0.972886

13 0.994828

14 0.99953

P(X˂10) = P(X 9)

P(X˂10)

= 0.596784

0 1.07E-06

1 2.52E-05

2 0.000279

3 0.001928

4 0.009348

5 0.033833

6 0.095047

7 0.213103

8 0.390187

9 0.59 784

10 0.782722

11 0.909498

12 0.972886

13 0.994828

14 0.99953

P(X>=12)= 1 -P(X

12)= 0.0905019

0 1.074E-06

1 2.523E-05

2 2.789E-04

3 1.928E-03

4 9.348E-03

5 3.383E-02

6 9.505E-02

7 2.131E-01

8 3.902E-01

9 5.968E- 1

10 7.827E-01

11 9.095E-01

12 9.729E-01

13 9.948E-01

14 9.995E-01

15 1.000E+00

P(X˂ =8)

=0.390187

QUESTION #12

Un club nacional de automovilistas comienza una campaña telefónica con el propósito de

aumentar el número de miembros. Con base en experiencia previa se sabe que una de cada 20

personas que reciben la llamada se une al club. Si en un día 20 personas reciben la llamada

telefónica, Cual es la probabilidad de que por lo menos dos de ellas se inscriban al club.

SOLUTION

P = 1/20 = 0.05, q =0.95, n=20

X p(x) acum p(x) 1- acum p(x)

0 0.358485922 0.358485922 0.641514

1 0.377353603 0.735839525 0.26416

2 0.188676801 0.924516326 0.075484

3 0.059582148 0.984098474 0.015902

4 0.013327586 0.99742606 0.002574

5 0.002244646 0.999670706 0.000329

6 0.000295348 0.999966054 3.39E-05

7 3.10893E-05 0.999997143 2.86E-06

8 2.65895E-06 0.999999802 1.98E-07

9 1.86593E-07 0.999999989 1.13E-08

10 1.08028E-08 0.999999999 5.38E-10

11 5.16878E-10 1 2.11E-11

12 2.04031E-11 1 6.79E-13

13 6.60829E-13 1 1.79E-14

14 1.73902E-14 1 0

15 3.6611E-16 1 0

16 6.02155E-18 1 0

17 7.45703E-20 1 0

18 6.54125E-22 1 0

19 3.62396E-24 1 0

20 9.53674E-27 1 0

La probabilidad de que por lo menos dos de ellas se inscriban al club seria 0.26416

QUESTION #13

El encargado de la sección de electrónica de una tienda de departamentos se ha percatado de

que la probabilidad de que un cliente curioseando compre algún artículo es de 0.3.

Suponga que 15 clientes están curioseando en la sección de electrónica.

a).- Cual es la probabilidad de que por lo menos 1 adquiera algo.

b).- Por lo menos 4 compren algo.

c).- Ningún cliente compre algo.

d).- No más de 4 clientes compren algo.

SOLUTION

P=0.3, q = 0.7, n= 15

P(x 1) = P(x=1) + P(x=2) +……+P(x=15)

P(x 1) = 1 – P(x=0) P(x=0) = nCx * p^x*q^(n-1)

P(x=0) =

* ( *( = 4.747

P(x 1) = 1- ( = 0.99525

a) P(x 4) = 1 - P(X 3)

P(x 4) = 1 – 0.266867

P(x 4) = 0.734

b) P(x=0) = 0.00474

c) P( 4 ) =1- P(x P ( 4)= 0.5155

x p(x)

p(x) 1 - p(x)

0 0.004747562 0.004748 0.995252

1 0.030520038 0.035268 0.964732

2 0.091560115 0.126828 0.873172

3 0.170040213 0.296868 0.703132

4 0.218623131 0.515491 0.484509

5 0.206130381 0.721621 0.278379

6 0.147235986 0.868857 0.131143

7 0.081130033 0.949987 0.050013

8 0.034770014 0.984757 0.015243

9 0.011590005 0.996347 0.003653

10 0.002980287 0.999328 0.000672

11 0.000580575 0.999908 9.17E-05

12 8.29393E-05 0.999991 8.72E-06

13 8.20279E-06 0.999999 5.17E-07

14 5.02212E-07 1 1.43E-08

15 1.43489E-08 1 0

QUESTION # 14

Un fabricante de cera para pisos ha desarrollado dos nuevas marcas, A y B, y desea

evaluarlas para determinar cuál de las dos es superior. Para esto se aplican las ceras A y B a

superficies de piso en 15 casas. Si realmente no hay diferencia en la calidad de las marcas,

Cual es la probabilidad de que 10 o más amas de casa prefieran la marca A.

SOLUTION

n=15 P= 0.50 q = 0.50 x 10

P (x 10) = 1 - x

X p(x) acum P(x)

1-acum

0 3.05176E-05 3.05176E-05 0.99996948

1 0.000457764 0.000488281 0.99951172

2 0.003204346 0.003692627 0.99630737

3 0.013885498 0.017578125 0.98242188

4 0.041656494 0.059234619 0.94076538

5 0.091644287 0.150878906 0.84912109

6 0.152740479 0.303619385 0.69638062

7 0.196380615 0.5 0.5

8 0.196380615 0.696380615 0.30361938

9 0.152740479 0.849121094 0.15087891

10 0.091644287 0.940765381 0.05923462

11 0.041656494 0.982421875 0.01757812

12 0.013885498 0.996307373 0.00369263

13 0.003204346 0.999511719 0.00048828

14 0.000457764 0.999969482 3.0518E-05

15 3.05176E-05 1 0

P (x 10) = 1 - x = 0.15087891

QUESTION #15

La última encuesta política indica una probabilidad de 0.3 para el partido verde, 0.55 para el

colorado y 0.15 para otras tendencias. Suponga que se seleccionan 10 individuos al azar:

a).- Cual es la probabilidad de que 4 sean del verde.

b).- Probabilidad de que ninguno sea del colorado.

c).- Probabilidad de que dos tengan otras tendencias.

d).- Probabilidad de que al menos 8 sean del verde.

SOLUTION

P (v) = 0.3, n = 10

b) X=0 P = 0.55, q =0.45

a) P(x=4) = 0.200120949 P(x=0) = 0.000340506

x P(x)

0 0.028247525

1 0.121060821

2 0.233474441

3 0.266827932

4 0.200120949

5 0.102919345

6 0.036756909

7 0.009001692

8 0.001446701

9 0.000137781

10 5.9049E-06

8, P = c) X = 2 d) x

0.3, q = 0.7

P= 0.15, q = 0.85

P(x=2) = 0.275897

8) = 1 - P(x

P(x ) = 1 – 0.99841

P(x 8) =0.001590386

PROBLEMA 16

En una planta maquiladora se está recibiendo un material defectuoso, que llega a alcanzar

hasta el 40 % de defectuosos. Si se toma una muestra de 13 unidades, cual es la probabilidad

de que:

a). No haya defectuosos.

b). Encontrar a lo más 2 unidades defectuosas.

c). Encontrar más de 6 unidades defectuosas.

d). Encontrar al menos 8 unidades defectuosas.

x p(x)

0 0.000340506

1 0.004161744

2 0.022889589

3 0.074603106

4 0.159567755

5 0.234032708

6 0.238366647

7 0.166478293

8 0.076302551

9 0.02072415

10 0.002532952

x p(x)

0 0.196874

1 0.347425

2 0.275897

3 0.129834

4 0.040096

5 0.008491

6 0.001249

7 0.000126

8 8.33E-06

9 3.27E-07

10 5.77E-09

SOLUTION

a) q = 0.4, p = 0.6 n = 13

P(X = 13) = 1.3061E-03

Tabla para resolver b, c y d

b) P(x 11) = 1- P(x ) = 5.7902E

c) P(x< 7) = 1 - P(x 7) =

P(x ) = P(x ) = 2.2884E-01

d) x 5

P(x ) = 9.7671E-02

PROBLEMA 17

Cuando se utilizan tarjetas de circuito en la fabricación de reproductores de discos compactos

se prueban; el porcentaje de defectuosas es de 5%. Sea X = el número de tarjetas defectuosas

en una muestra aleatoria de tamaño n = 25, así que ( .

a. Determine P(X ≤2). 0.87289

b. Determine P(X ≥5). P=1-P(4)= 0.00716

c. Determine P(1 ≤X ≤ 4). P=P(5)-P(0)= 0.7214

d. ¿Cuál es la probabilidad que ninguna de estas 25 tarjetas esté defectuosa? 0.27739

x P(x)

0 6.7109E-06

1 1.3086E-04

2 1.1778E-03

3 6.4777E-03

4 2.4291E-02

5 6.5587E-02

6 1.3117E-01

7 1.9676E-01

8 2.2135E-01

9 1.8446E-01

10 1.1068E-01

11 4.5277E-02

12 1.1319E-02

13 1.3061E-03

x P(x) acum P(x) 1- acum P(x)

0 6.7109E-06 6.7109E-06 9.9999E-01

1 1.3086E-04 1.3757E-04 9.9986E-01

2 1.1778E-03 1.3153E-03 9.9868E-01

3 6.4777E-03 7.7930E-03 9.9221E-01

4 2.4291E-02 3.2084E-02 9.6792E-01

5 6.5587E-02 9.7671E-02 9.0233E-01

6 1.3117E-01 2.2884E-01 7.7116E-01

7 1.9676E-01 4.2560E-01 5.7440E-01

8 2.2135E-01 6.4696E-01 3.5304E-01

9 1.8446E-01 8.3142E-01 1.6858E-01

10 1.1068E-01 9.4210E-01 5.7902E-02

11 4.5277E-02 9.8737E-01 1.2625E-02

12 1.1319E-02 9.9869E-01 1.3061E-03

13 1.3061E-03

PROBLEMA 18

Se utiliza un número telefónico particular para recibir tanto llamadas de voz como faxes.

Suponga que 25% de las llamadas entrantes son faxes y considere una muestra de 25

llamadas entrantes. ¿Cuál es la probabilidad de que

a. Cuando mucho 6 de las llamadas sean un fax? 0.56110

b. Exactamente 6 de las llamadas sean un fax? 0.34823

c. Por lo menos 6 de las llamadas sean un fax? 0.62172

d. Más de 6 de las llamadas sean un fax? 0.4389

Continúa →

PROBLEMAS SOBRE ELEMENTOS DE PROBABILIDAD:

INTRODUCCIÓN

Se dice que un experimento es aleatorio, estocástico o estadístico, sí, pudiéndose repetir

indefinidamente en análogas condiciones, es imposible predecir el resultado, aun

conociendo las condiciones iniciales. En un experimento aleatorio no conocemos el resultado

hasta que se ha realizado la prueba.

Ejemplos

- Sacar una carta de la baraja

- Lanzar un dado

- Lanzar una moneda

- Sacar una bola de un bombo de la lotería

NO SON EXPERIMENTOS ALEATORIOS:

- El resultado de una reacción química

- La velocidad de llegada de un cuerpo a tierra al dejarlo caer desde una torre

Llamaremos prueba a cada realización de un experimento.

Definición

El conjunto de todos los resultados posibles a que puede dar lugar un experimento

aleatorio se llama espacio muestral. Suele representarse por E ó ; y diremos que es

finito si el número de resultados posibles es finito.

Definición

Dado un experimento aleatorio cuyo espacio muestral es E, se llama suceso a cada uno de

los subconjuntos de E.

Distinguimos los siguientes tipos de sucesos:

- Suceso simple o elemental: sólo consta de un elemento

- Suceso compuesto: consta de dos o más elementos

- Suceso imposible: es el que nunca puede realizarse (viene

determinado por el conjunto vacío, )

- Suceso seguro: es el que siempre se cumple (viene determinado por

el conjunto total, E )

- Sucesos disjuntos o mutuamente excluyentes: aquellos sucesos A

y B que no pueden realizarse a la vez, A B =

Ejemplo

Clarifiquemos estos conceptos con unos ejemplos: Realizamos el experimento aleatorio

“Lanzar un dado”

- Espacio muestral: E = {1, 2, 3, 4, 5, 6}

- Suceso simple: Sacar un 2 = {2}

- Suceso compuesto: Sacar un número impar = {1, 3, 5}

- Suceso imposible: Sacar un 7 = { }

- Suceso seguro: Sacar un nº menor que 7 = {1, 2, 3, 4, 5, 6} = E

- Sucesos disjuntos: A = Sacar un nº par = {2, 4, 6}

B = Sacar un nº impar = {1, 3, 5}

Teniendo en cuenta que los sucesos son subconjuntos de E (de ), podemos aplicarles la

teoría general de conjuntos. Nos interesarán las uniones, intersecciones, diferencias y

complementarios entre conjuntos.

Propiedades de la teoría de conjuntos

- Conmutativa:

A B = B A A B = B A

- Asociativa:

A (B C) = (A B) C A (B C) = (A B) C

- Leyes de Morgan:

AB = A B A B = A B

- Distributivas:

A (B C) = (A B) (A C)

Además:

A A = A A = A – B = A B

Ejemplo

Sea el experimento aleatorio “Lanzar un dado”, y sean: Suceso A = “sacar un número par” =

{2, 4, 6}

Suceso B = “sacar un número mayor o igual a 4” = {4, 5, 6}

Se tiene:

A = {1, 3, 5 B = {1, 2, 3

A B = {2, 4, 5, 6 A B = {4, 6

A – B = {2 B – A = {5

FRECUENCIAS

Se llama frecuencia de un suceso aleatorio al número de veces que ocurre dicho suceso al

realizar un experimento. Se denota F. Se llama frecuencia relativa de un suceso aleatorio al

cociente entre la frecuencia y el número de veces que se ha realizado el experimento. Se

denota f.

Acotaciones de las frecuencias:

Consideremos un resultado elemental del experimento aleatorio y observemos en n

realizaciones la frecuencia con que se ha presentado este suceso, que llamaremos r.

Evidentemente: 0 Fn (x = r) n

Si dividimos entre n: 0 [ Fn ( x = r ) / n ] 1

Por lo tanto, 0 fn (x = r) 1

PROBABILIDAD

CONCEPTO DE PROBABILIDAD

El concepto de probabilidad se aplica a los elementos de una población homogénea.

Supongamos una población finita con N elementos, k de los cuales tienen la característica

A. Llamaremos “probabilidad de la característica A en la población” a la frecuencia relativa

k / N. Se escribe:

P (A) = k / N

AXIOMÁTICA DE LA PROBABILIDAD

AXIOMA 1: La probabilidad del suceso seguro vale 1. P ( ) = 1.

AXIOMA 2: La probabilidad de cualquier otro suceso S es no

Negativa. P (S) 0.

AXIOMA 3 : La probabilidad de la unión de dos sucesos, A y B,

Mutuamente excluyentes, es la suma de sus probabilidades. Si A B =, entonces

P(AB) = P(A) + P (B)

Generalizando este último axioma:

La probabilidad de la unión de un conjunto infinito numerable de sucesos mutuamente

excluyentes es igual a la suma de sus probabilidades.

P (Ai) = P (Ai) = P (A1) + P (A2) + ...........

PROPIEDADES DE LA PROBABILIDAD

De estos axiomas podemos deducir una serie de propiedades:

Propiedad 1

Si A1, A2,......., An son sucesos disjuntos dos a dos con n 2 (o sea, Ai Aj = con i j,

entonces:

P ( A1 A2 ....... An ) = P ( A1 ) + P ( A2 ) + ....... + P ( An )

Demostración

Es inmediata por el Axioma 3, ya que el número de sucesos que hemos tomado es n (un

nº finito ), y ya teníamos que se cumple para dos sucesos y para una cantidad infinita

numerable se cumple para una cantidad finita.

Propiedad 2

P (A) = 1 – P (A), siendo A un suceso cualquiera.

(Nota: A es el complementario de A).

Demostración

A A = P (A A) = P ( ) = 1

Y como A A = AXIOMA

3 P (A A) = P (A) + P (A)

De ambas consecuencias, P(A) + P(A) = 1 P(A) = 1 – P (A)

Propiedad 3

P ( ) = 0

Demostración

= P () = P ( )

Por la Propiedad 2, P ( ) = 1 – P ( ) = 1 – 1 = 0

Por lo tanto, P ( ) = 0.

Propiedad 4

P (S) 1, siendo S un suceso cualquiera.

Demostración

Por reducción al absurdo, supongamos que P (S) > 1. Como por la Propiedad 2 se tiene que

P (S)+P(S) = 1, deberá ser P(S) < 0, pero esto no puede ser, ya que por el AXIOMA 2,

La probabilidad de cualquier suceso siempre es 0

Del AXIOMA 2 y de la Propiedad 4 deducimos:

0 P (S) 1, siendo S un suceso cualquiera.

Propiedad 5

Dados dos sucesos A y B tales que A B P ( A ) P ( B )

Demostración

Luego B = A (B A)

Además, A (B A) = A y (B A) son disjuntos

Por lo tanto, por el AXIOMA 3: P (B) = P (A) + P (B A)

Como, por el AXIOMA 1 , P ( B A ) 0 P ( B ) P ( A )

Propiedad 6

A, B , P (A B) = P (A) + P (B) – P (A B

Al hacer A + B, tomamos dos veces A B, luego para calcular lo que queremos hemos

de restar una vez A B.

Definición

Llamaremos espacios muéstrales finitos a los espacios muéstrales que provengan de

experimentos para los cuales sólo existe un número finito de resultados posibles, así = {

w1, w2, ... , wn }

En un experimento aleatorio con un espacio muestral finito, una distribución de

probabilidad se especifica asignando una probabilidad pi a cada resultado wi , pi = P ( {

wi } ) . Debe cumplirse:

a) pi 0

b) P ( ) = 1 pi = 1

En estas condiciones, si A = {wi1, wi2,..., wir }, se tiene P(A) = pij

Definición

Llamaremos espacios muéstrales simples a los espacios muéstrales finitos en los que todos

los resultados son equiprobables (tienen la misma probabilidad). Si = {w1, w2,..., wn } ,

entonces P({wi}) = 1 / n ,

i = 1,..., n

En estos espacios muestrales simples, dado un suceso

A = {w1, w2,...., wk } con k < n se tiene:

P (A) = casos favorables = k

Casos posibles n

Esto está estrechamente relacionado con la Fórmula de Laplace:

P (S) = nº de elementos de S = casos favorables

nº de elementos de casos posibles (siendo S un suceso cualquiera)

Ejemplo

Si lanzamos una moneda dos veces, ¿cuál es la probabilidad de obtener al menos una

El espacio muestral correspondiente es = { (C,C), (C,), (,C), (,) } , siendo

C = cara y = cruz

Sea el suceso A = “al menos una cara” = {(C, C), (C,), (, C)}

Así, la probabilidad pedida es:

P (A) = casos favorables = 3

Casos posibles 4

CONTEO DE ELEMENTOS

A veces, contar el número de elementos puede ser difícil. Para ello utilizaremos lo que se

conoce con el nombre de combinatoria. Llamaremos “n factorial” (o “factorial de n”),

designándolo por n! , al producto de los n primeros números naturales. Es decir, n! =

1·2·3·4·...

....·(n-1) ·n

Nota: Se define 0! = 1

Se deducen las siguientes relaciones:

n! · (n+1) = (n+1)!

n! = (r+1) ·(r+2) ·(r+3) ·....· (n-1) ·n r!

Suponiendo todos los elementos distintos, tenemos:

a) Variaciones: Dados n elementos, llamaremos variaciones de orden k a todos los conjuntos

distintos que podamos formar con esa n elementos, tomados de k en k teniendo en cuenta

el orden. El número de tales variaciones es Vn,k = _n!___

(n-k)!

b ) Permutaciones: Dados k elementos, llamaremos permutaciones de orden k a todos

los conjuntos distintos que podamos formar con esos k elementos, tomados de k en

k. El número de tales permutaciones es Pk = k!

c ) Combinaciones: Dados n elementos, llamaremos combinaciones de orden k a todos

los conjuntos distintos que podamos formar con esos n elementos, tomados de k en k

sin tener en cuenta el or-den. Su número es igual a Cn,k = n!___ = n

k! (n-k)! k

Se cumple la siguiente propiedad: Vn,k = Cn,k · Pk Suponiendo que los elementos se pueden

repetir, tenemos:

d ) Variaciones con repetición: A partir de n elementos distintos formamos variaciones de

orden k tales que 2, 3, ...., los k elementos Pueden ser uno mismo. El número de tales

variaciones, que designa- Remos por VRn,k , es VRn,k= nk

e ) Permutaciones con repetición: Sean k elementos, de los que k1 son Iguales entre sí, k2

son iguales entre sí,......, kr son iguales entre sí, con k1 + k2 + ....... + kr = k . El número de

tales permutaciones es igual a

PRk ,k , .....,k

= k!____

k1!·k2!·.....·kr!

f) Combinaciones con repetición: A partir de n elementos distintos,formamos

combinaciones de orden k tales que 2 de sus element tos, 3,...., k elementos pueden ser

uno mismo. El número de tales combinaciones es

CRn,k = n + k – 1 = (n + k – 1)!

k k! (n – 1)!

Si suponemos que ha ocurrido B, tendremos un nuevo espacio muestral,

B = B = B, y así:

P (A / B) = nº de casos favorables en AB =

nº de casos posibles en B

Por lo tanto:

P (A / B) = P (A B)

Ejemplo:

En un juego de dados, hemos apostado por el 2. Se tira el dado, y antes de ver el resultado,

nos dicen que ha salido par. Hallar la probabilidad de ganar.

Sea A = {obtener un 2 al lanzar un dado}

Sea B = {obtener un nº par al lanzar un dado}

P (A) = 1 y P (B) = 3

Por la expresión de la probabilidad condicionada, P(A/B) = P(AB)

Notar que A B = {obtener un 2} {obtener un nº par} =

= {obtener un 2}, por lo que P (A B) = 1

Así, P (A / B) = P (A B) = 1 / 6 = 1

P (B) 3 / 6 3

PROBABILIDAD COMPUESTA (TEOREMA DEL PRODUCTO)

Sea un espacio muestral , dados dos sucesos A y B () tal

Que P (A) > 0 y P (B) > 0, se cumple:

P (A B) = P (A / B) · P (B)

P (B A) = P (B / A) · P (A)

Esto es así porque por la definición de la probabilidad condicional,

P ( A / B ) = P ( B A ) P ( B A ) = P ( A / B ) · P ( B )

Análogamente, P (B/A) = P (BA) P (BA) = P (B/A) · P(A)

Si en vez de 2 sucesos tenemos n sucesos:

Sean A1, A2, A3, A4 ..., An ( ):

P[ Ai ] = P(A1)·P(A2/A1)·P(A3/A1A2)·P(A4/A1A2A3)·...·P(An/ Ai)

Ejemplo

Supongamos que se extraen 4 bolas sin reemplazamiento de una urna que contiene 8

rojas y 10 azules. Calcular la probabilidad de obtener “azul, rojo, rojo, azul “

P (A1R2R3A4) = P (A1)·P(R2/A1)·P(R3/A1R2)·P(A4/A1R2R3) =

= 10. _8_. _7_. _9_ = 0,0686

18 17 16 15

1.1 PROBABILIDAD TOTAL

Dado un espacio muestral , y siendo {Ai} () / Ai = y

Ai Aj = i j , y siendo B un suceso del que se conoce P(B/Ai),

i, se tiene que:

P(B) = P(B/Ai) · P(Ai)

Demostración

B = (BA1)(BA2)(BA3)....(BAi)....(BAn)

Como son todos disjuntos:

P (B) = P (BA1) + P (BA2) + P (BA3) +..... + P (BAn)

Y aplicando el Teorema del Producto:

P (B) = P (B/A1) · P (A1) + P (B/A2) · P (A2) +.... + P (B/An) · P (An) =

= P (B/Ai) · P (Ai) P (B) = P (B/Ai) · P (Ai)

Ejemplo

Dos cajas contienen cerrojos grandes y pequeños. Supongamos que una caja contiene 30

grandes y 10 pequeños, y que la otra contiene 30 grandes y 20 pequeños. Seleccionamos

una caja al azar y extraemos un cerrojo. ¿Cuál es la probabilidad de que el cerrojo sea

pequeño?

Sean A1 = “seleccionar caja 1”

A2 = “seleccionar caja 2”

B = “seleccionar cerrojo pequeño”

P (B) = P (A1) · P (B/A1) + P (A2) · P (B/A2) = 1/2 · 10/40 + 1/2 · 20/50 =

= 0,125 + 0,2 = 0,325

TEOREMA DE BAYES

Sea un espacio muestral.

Sean {Ai} () / Ai = , Ai Aj = i j, conociéndose

P (Ai) i, P (Ai) > 0

Sea B un suceso tal que P (B) > 0 y del que se conocen P (B/Ai) i

E ntonces :

P (Ai/B) = ________ P (B/Ai) · P(Ai) ____________________

P (B/A1) ·P (A1) + P (B/A2) ·P (A2) + .......+ P (B/An) ·P (An)

Es decir:

P (Ai/B) = __P (B/Ai) · P (Ai) __

P (B/Ak) · P (Ak)

Demostración:

P (Ai/B) = P (Ai B) por la probabilidad condicionada.

Si en el numerador aplicamos el Teorema del Producto, y en el

Denominador la Probabilidad Total, queda:

P (Ai/B) = P (AiB) = P (B/Ai) · P (Ai) ___

P (B) P (B/Ak) · P (Ak)

Ejemplo

Para la fabricación de un gran lote de artículos similares se utilizan 3 máquinas: M1, M2 y

M3. La máquina 1 fabrica el 20%, la máquina 2 el 30%, y la máquina 3 el 50% restante. La

máquina 1 produce un 1% de defectuosos, la máquina 2 un 2% de defectuosos y la máquina

3 un 3%. Se selecciona un artículo al azar y resulta ser defectuoso. Calcular la

probabilidad de que haya sido producido por la máquina 3.

Sean: D = “ser defectuoso”

Mi = “ser fabricado por Mi”

Así: P (M1) = 0,2 P (M2) = 0,3 P (M3) = 0,5

P (D/M1) = 0,01 P (D/M2) = 0,02 P (D/M3) = 0,03

Nos piden la probabilidad del suceso M3/D. Se cumple que M1, M2 y M3 forman una

partición, por lo que:

P (M3/D) = P (D/M3) · P (M3) = 0,03 · 0,5= P (D/Mi) · P (Mi)

0,01·0,2 + 0,02·0,3 + 0, 0330,5 = 0,015_ = 0,6522

INDEPENDENCIA DE SUCESOS

Dos sucesos A y B son estocásticamente independientes cuando P(A/B) = P(A) , o sea,

que el hecho de que ocurra el suceso B no influye para nada en la probabilidad del suceso A

Teorema de Caracterización :

Dos sucesos A y B son independientes si P(AB) = P(A) · P (B)

Veámoslo: () P(AB) = P(A/B) · P (B)

Si son independientes , se tiene que P(A/B) = P(B) Uniendo ambas cosas, P(AB) = P(A)

· P(B) () Ahora se tiene que P(AB) = P(A) · P(B) Como P(AB) = P(A/B) · P(B) ,

sustituyendo :

P(A) · P (B) = P(A/B) · P (B)

Por lo tanto, P(A) = P(A/B), y así los sucesos A y B son independientes.

Consecuencia:

P(A/B) = P(A) P (B/A) = P (B).

Propiedades de la independencia estocástica:

1.- Si A y B son independientes A y B también lo son

4.- Si existe implicación entre A y B No existe independencia

(Salvo que A = ó B =)

5.- Si dos sucesos son incompatibles No existe independencia

(Salvo que P(A) = 0 ó P (B) =0)

Diremos que tres sucesos A1, A2 y A3 son independientes si, y sólo si, verifican las

relaciones:

P (A1A2) = P (A1) · P (A2)

P (A1A3) = P (A1) · P (A3)

P (A2A3) = P (A2) · P (A3) y

P (A1A2A3) = P (A1) · P (A2) · P (A3)

PROBLEMA #1

El departamento de personal en una empresa ha descubierto que solo el 60 % de los

candidatos entrevistados están realmente calificados para ocupar un cargo en la Compañía.

Una revisión de los registros muestra que quienes estaban calificados, el 67 % tuvo un

entrenamiento previo mientras que el 20 % de quienes no estaban calificados habían recibido

la instrucción. En el departamento de selección de personal se está considerando conceder

entrevistas solo a aquellos que tengan la capacitación. Bajo esta

SOLUTION

V.D:…( (

V.I:…….( (

P(C/E)=0. P(C/N)=0.20 P (E)= 0.60 P(N)=0.40 P(C)=?

DIAGRAM DEL ARBOL

RESULTS

C 0.7 P(EnC)= P(E ) *P(C/E) = 0.402

P 0.3 P(EnP)= P(E ) *P(P/E) = 0.198

C 0.2 P(NnC)=P(N)*P(C/N)= 0.08

P 0.8 P(NnP)=P(N)*P(P/N)= 0.32

C P TOTAL

E 0.402 0.198 0600

N 0.080 0.320 0.400

TOTAL 0.482 0.518 1

Entonces,

P(C) = 0.482

PROBLEMA #2

Para ir a su trabajo un individuo puede hacerlo en autobus o en tranvía, y eso lo hace con

probabilidades de 0.3 y 0.7 respectivamente. Cuando viaja en el autobus, llega tarde en 30 %

de las veces, y cuando viaja en tranvía llega tarde el 20 % de las veces. Dado que en un día

determinado, el individuo llegó tarde, cual es la probabilidad de que haya viajado en autobus.

SOLUTION

V.D…( (

V.I:…….( ( (

P(R/A)=0.3 P(R/T)=0.7 P(A)= 0.3 P (T)=0.7 P (E/A)=0.7 P (E/T)= 0.8

DIAGRAM DEL ARBOL

RESULTS conjuntas

E 0.7 P(AnE)= P(A ) *P(E/A) = 0.21

R 0.3 P(AnR)= P(A ) *P(R/A) = 0.09

E 0.8 P(TnE)=P(T)*P(E/T)= 0.56

R 0.2 P(TnR)=P(T)*P(R/T)= 0.14

Tabla de doble entrada

E R TOTAL

A 0.21 0.09 0.30

T 0.56 0.14 0.70

TOTAL 0.77 0.23 1

Entonces,

P (A/E) =) = (

( = 0.21/0.77 = 0.272

P(A/R) = (

( = 0.09/0.23 = 0.391

P(A/R) = 0.391

PROBLEMA #3

Se dispone de dos métodos, el A y el B, para enseñar determinada destreza en manufactura.

El índice de reprobados es de 20 % para el método A y 10 % para el B. Sin embargo, el

método B es más caro y, por lo tanto, solo se usa el 30 % del tiempo, y el A, el otro 70 %. A

un trabajador se le adiestra con uno de los métodos, pero no puede aprender en forma

correcta. Cuál es la probabilidad de que se le haya adiestrado con el método A.

SOLUTION

V.I...( (

V.D…( ( (

P(N/A)=0.20 P(N/B)=0.10 P (B)= 0.30 P(A)=0.70 P(A/N)=?

DIAGRAM DEL ARBOL

RESULTS

conjuntas

D 0.8 P(AnD)=0.56

N 0.2 P(AnN)=0.14

D 0.9 P(BnD)=0.27

N 0.1 P(BnN)=0.03

P(A/B) = (

( =0.56/0.83 = 0.675

P(A/N) = (

( =0.14/0.17 = 0.824

P(A/N) = 0.824

D N TOTAL

A 0.56 0.14 0.7

B 0.27 0.03 0.3

TOTAL 0.83 0.17 1

PROBLEMA #4

Una compañía compra neumáticos de 2 proveedores, 1 y 2. El proveedor 1 tiene un

antecedente de suministrar llantas con 10 % de defectuosas, en tanto que el proveedor 2 tiene

una tasa de solo el 5 % de defectuosas. Supongase que el 40 % de las existencias actuales

vinieron del proveedor 1. Si se toma una llanta de esa existencia y se ve que esta defectuosa,

calcular la probabilidad de que la haya suministrado el proveedor

SOLUTION

V.I:------ Es defectuosa (D) ------ No es defectuosa (N)

V.D:------------sumistrada por el provedor 1 (A)

-------------sumistrada por el provedor 2 (B)

DATOS:

P (D/A) =0.1 P (N/A) =0.9

P (D/B) =0.05 P (N/B) =0.95

P (A) =0.40 P (B) =0.60

DIAGRAM DEL ARBOL

A B TOTAL

D 0.04 0.03 0.07

N 0.36 0.57 0.93

TOTAL 0.40 0.60 1

P(A/D)= (

( =0.04/0.07= 0.571

Entonces, P (B/D)= 1- 0.571 = 0.429

RESULTS

conjuntas

D 0.1 P(AnD)=0.04

N 0.9 P(AnN)=0.36

D 0.05 P(BnD)=0.03

B 0.60

N 0.95 P(BnN)=0.57

PROBLEMA #5

Un inversionista está pensando en comprar un número grande de acciones de una compañía.

La cotización de las acciones en la bolsa, durante los 6 meses anteriores es de gran interés

para el inversionista. Con base en ésta información se observa que la cotización se relaciona

con el PNB. Si el PNB aumenta, la probabilidad de que las acciones aumenten su valor es de

0.8. Si el PNB es el mismo, la probabilidad de que las acciones aumenten su valor es de 0.2.

Si el PNB disminuye, la probabilidad de que el valor de las acciones aumente es solo 0.1. Si

para los siguientes 6 meses se asignan probabilidades de 0.4, 0.3 y 0.3 a los eventos el PNB

aumentan, es el mismo y disminuye, respectivamente, determinar la probabilidad de que las

acciones aumenten su valor en los próximos 6 meses.

SOLUTION

V.I...( ( (

V.D…(( ( (

P(X/A) =0.8 P(X/B) =0.2 P(X/C) =0.1

DIAGRAM DEL ARBOL

RESULTS CONJUNTAS

X 0.8 P(AnX) = P(A) *P(X/A) =

Y 0.2 P(AnY) = P(A) * P(Y/A)=

X 0.2 P(BnX) = P(B) * P(X/B) =

Y 0.8 P(BnY) = P(B) * P(Y/B) =

X 0.1 P(CnX) = P(C) * P(X/C) =

Y 0.9 P(CnY) = P(C) * P(Y/C) =

ACCIÓN A B C TOTAL

X 0.32 0.06 0.03 0.41

Y 0.08 0.24 0.27 0.59

TOTAL 0.4 0.3 0.3 1

A 0.78 P(A/X)= P(AnX)/P(X) = 0.32/0.41 =

X 0.41 B 0.95

A 0.05

Y 0.59 B 0.95

Entonces, P(X) = 0.41

PROBLEMA #6

El gerente del departamento de crédito de una compañía sabe que se utilizan 3 métodos para

cobrar cuentas morosas. De los datos que se tienen registrados se sabe que 70 % de los

deudores son visitados personalmente, 20 % se les sugiere por vía telefónica que paguen y 10

% se les cobra por medio de una carta. Las probabilidades de recibir alguna cantidad de

dinero debido a los pagos de una cuenta cobrada con estos métodos son 0.75, 0.60 y 0.65

respectivamente.

El gerente acaba de recibir el pago de una de las cuentas vencidas; cual es la probabilidad de

que la petición de pago se haya hecho

Personalmente.

Por teléfono.

Por correo.

SOLUTION

METODOS:-

--- 1: visista

persona (V) 1: visita persona (V)

(variable independence) 2: telefono (T)

3: correo ( c )

1: Éxito-se recibo el

pago €

2: Fracaso- Nose recibe pago (F)

DATOS:

P{V} 0.7 Probability of V

P{T} 0.2 probability of T

P{C} 0.1 probability of C

P{E/V} 0.75 P{F/V} 0.25

P{E/T} 0.6 P{F/T} 0.4

P{E/C} 0.65 P{F/C} 0.35

CONJUNTA

P{VnE} P{V}*P{E/V}

P{VnF} P{V}*P{F/V}

P{TnE} P{T}*P{E/T}

P{TnF} P{T}*P{F/T}

P{CnE} P{C}*P{E/C}

P{CnF} P{C}*P{F/C}

TABLA DE LOS RESULTADOS;

V T C TOTAL

E 0.525 0.12 0.065 0.71

F 0.175 0.08 0.035 0.29

TOTAL 0.7 0.2 0.1 1

Entonces,

P{F} =

DIAGRAM DEL ARBOL

RECIBO EL PAGO

P{V/E} =

P{VnE}/P{E} = 0.73943662

P{T/E} = P{TnE}/P{E}

= 0.169014085

P{C/E}= P{CnE}/P{E}

= 0.091549296

NO SE RECIBE EL

PAGO (FRACASO)

P{V/F} =

P{FnV}/P{F} = 0.60344828

P{T/F} =

P{FnT}/P{F} = 0.27586207

P{C/F} =

P{FnC}/P{F} = 0.12068966

INTERVALO DE CONFIANZA PARA µ1 - µ2 PARA OBSERVACIONES

PAREADAS

PROBLEMA 1

El administrador de un lote de automóviles prueba dos marcas de llantas radiales. Para ello

asigna al azar una llanta de cada marca a las dos ruedas posteriores de ocho automóviles, y

luego corre los automóviles hasta que las llantas se desgastan. Los datos obtenidos (en

kilómetros) aparecen en la siguiente tabla. Encuentre un intervalo de confianza del 99% para

la diferencia en el tiempo promedio de duración. Con base en estos cálculos, ¿qué llanta es la

que usted preferiría?

AUTOMOVIL MARCA 1 MARCA 2

1 36 925 34 318

2 45 300 42 280

3 36 240 35 500

4 32 100 31 950

5 37 210 38 015

6 48 360 47 800

7 38 200 37 810

8 33 500 33 215

PROBLEMA 2

La oficina de nacional unidas en el salvador ha montado una seria de conferencias sobre

¨control de nacionalidad´ para ambos sexo. Esta oficina desea que la asistencia a las

conferencias se distribuya en igual proporción entre ambos sexo. 325 eran mujeres. A la luz

de estos datos, ¿cree que la proporción de los asistentes, por sexo, a dicha conferencia no es

la deseada por la oficina? Utilizar un error alfa del 1% (Zp = 1.00; v-p = 0.317).

Solución

H0: P = 50% = 0.50La proporción de los asistentes, por sexo a la conferencia es de igual

proporción entre ambos sexos

H1: P ≠ 50%= 0.50

La proporción de los asistentes, por sexo a la conferencia no se distribuye en igual

proporción entre ambos sexos

Se establece el nivel de significación

= 1% = 0.01

Se establece la distribución de muestro a ser utilizada

Datos:

N=625 personas

X1 = 325 mujeres

= 0.52

En este caso n 30 por lo cual se usa Z

=; = √

Q = 0.50

En tabla α = 1% = 0.01

Nivel de confianza = 1 = 1 0.01 = 0.99 = 99%

Como prueba de dos colas H1: P ≠ 50% ≠ 0.50

= 0.495

Por lo tanto Zc = ± 2.58 y será una prueba a la izquierda y una a la derecha

Test and CI for One Proportion

Test of p = 0.5 vs p not = 0.5

Sample X N Sample p 99% CI Z-Value P-Value

1 325 625 0.520000 (0.468525, 0.571475) 1.00 0.317

Using the normal approximation

Conclusión

P > , entonces el hipótesis nula no podrá rechazar

SOLUTION.

En Minitab calculación

3000200010000-1000

Differences

Histogram of Differences(with Ho and 99% t-confidence interval for the mean)

3000200010000-1000

Differences

Boxplot of Differences(with Ho and 99% t-confidence interval for the mean)

3000200010000-1000

Differences

Individual Value Plot of Differences(with Ho and 99% t-confidence interval for the mean)

INTERVALOS DE CONFIANZA

Introducción

Estimación puntual y por intervalo

Las medias o desviaciones estándar calculadas de una muestra se denominan

ESTADÍSTICOS, podrían ser consideradas como un punto estimado de la media y

desviación estándar real de población o de los PARAMETROS.

¿Qué pasa si no deseamos una estimación puntual como media basada en una muestra, qué

otra cosa podríamos obtener como margen, algún tipo de error?

“Un Intervalo de Confianza”

ESTIMADOR PUNTUAL: Utiliza un número único o valor para localizar una estimación del

parámetro.

ESTIMADOR POR INTERVALO DE CONFIANZA: Denota un rango dentro del cual se

puede encontrar el parámetro y el nivel de confianza que el intervalo contiene al parámetro.

LIMITES DE CONFIANZA: Son los límites del intervalo de confianza inferior (LIC) y

superior (LSC), se determinan sumando y restando a la media de la muestra X un cierto

número Z (dependiendo del nivel o coeficiente de confianza) de errores estándar de la media

P(Z>= + Zexcel ) = alfa/2P(Z<= - Zexcel ) = alfa/2

Intervalo de confianza donde

se encuentra el parámetro con

un NC =1-a

INTERPRETACIÓN DEL INTERVALO DE CONFIANZA: Tener un 95% de confianza en

que la media poblacional real y desconocida se encuentra entre los valores LIC y LSC.

NIVEL DE SIGNIFICANCIA = 1- INTERVALO DE CONFIANZA = ERROR TIPO 1 =

¿Cómo obtenemos un intervalo de confianza?

Estimación puntual + error de estimación

¿De dónde viene el error de estimación?

Desv. estándar X multiplicador de nivel de confianza deseado Za/2

Por Ejemplo:

Si la media de la muestra es 100 y la desviación estándar es 10, el intervalo de confianza al

95% donde se encuentra la media para una distribución normal es:

100 + (10) X 1.96 => (80.4, 119.6) 1.96 = Z0.025

El 95% de Nivel de Confianza significa que sólo tenemos un 5% de oportunidad de obtener

un punto fuera de ese intervalo.

Esto es el 5% total, o 2.5% mayor o menor. Si vamos a la tabla Z veremos que para un área

de 0.025, corresponde a una Z de 1.960.

C. I. Multiplicador Za/2

99 2.576

95 1.960

90 1.645

85 1.439

80 1.282

Para tamaños de muestra >30, o conocida usar la distribución Normal Para muestras de

menor tamaño, o desconocida usar la distribución t

El ancho del intervalo de confianza decrece con la raiz cuadrada del tamaño de la muestra.

Ejemplo:

Dadas las siguientes resistencias a la tensión: 28.7, 27.9, 29.2 y 26.5 psi

Estimar la media puntual

X media = 28.08 con S = 1.02

Estimar el intervalo de confianza para un nivel de confianza del 95% (t = 3.182 con n-1=3

grados de libertad)

Xmedia±3.182*S/√n = 28.08±3.182*1.02/2=(26.46, 29.70)

Ejercicios con Z y t:

1. El peso promedio de una muestra de 50 bultos de productos Xmedia = 652.58 Kgs., con S

= 217.43 Kgs. Determinar el intervalo de confianza al NC del 95% y al 99% donde se

encuentra la media del proceso (poblacional). Alfa = 1 - NC

2. Un intervalo de confianza del 90% para estimar la ganancia promedio del peso de ratones

de laboratorio oscila entre 0.93 y 1.73 onzas. ¿Cuál es el valor de Z?.

3. 100 latas de 16 onzas de salsa de tomate tienen una media de Xmedia = 15.2 onzas con una

S = 0.96 onzas. ¿A un nivel de confianza del 95%, las latas parecen estar llenas con 16

onzas?.

4. Una muestra de 16 soluciones tienen un peso promedio de 16.6 onzas con S = 3.63. Se

rechaza la solución si el peso promedio de todo el lote no excede las 18 onzas. ¿Cuál es la

decisión a un 90% de nivel de confianza?.

5. Las 20 cajas de producto pesaron 102 grs. Con S = 8.5 grs. ¿Cuál es el intervalo donde se

encuentra la media y varianza del lote para un 90% de nivel de confianza?. Grados

libertad=20 -1 =19

6. Una muestra de 25 productos tienen un peso promedio de 23.87 grs. Con una S = 9.56.

¿Cuál es la estimación del intervalo de confianza para la media y varianza a un nivel de

confianza del 95 y del 98% del peso de productos del lote completo?.

7. Los pesos de 25 paquetes enviados a través de UPS tuvieron una media de 3.7 libras y una

desviación estándar de 1.2 libras. Hallar el intervalo de confianza del 95% para estimar el

peso promedio y la varianza de todos los paquetes. Los pesos de los paquetes se distribuyen

normalmente.

Ejercicios con proporciones:

8. De 814 encuestados 562 contestaron en forma afirmativa. ¿Cuál es el intervalo de

confianza para un 90% de nivel de confianza?

9. En una encuesta a 673 tiendas, 521 reportaron problemas de robo por los empleados ¿Se

puede concluir con un 99% de nivel de confianza que el 78% se encuentra en el intervalo de

confianza. ?

Uso de Minitab para Intervalos de confianza:

a. Para la media Stat > Basic Statistics > 1-Sample Z, t Variable -- Indicar la columna de los

datos o Summarized Data En caso de requerirse dar el valor de Sigma = dato

En Options: Indicar el Confidence level -- 90, 95 o 99% OK

b. Para una proporción Stat > Basic Statistics > 1-Proportion Seleccionar Summarized Data

Number of trials = n tamaño de la muestra Number of events = D éxitos encontrados en la

muestra

En Options: Indicar el Confidence Interval -- 90, 95 o 99% Seleccionar Use test and

interval based in normal distribution

FORMULAS PARA ESTIMAR LOS INTERVALOS DE CONFIANZA:

Descripción Intervalo de confianza

Estimación de con sigma conocida, muestra

grande n>30

nZX /2/ a

Estimación de con sigma desconocida, muestra

grande n>30, se toma la desv. Est. de la muestra S

nsZX /2/a

Estimación de con muestras pequeñas, n < 30 y

sigma desconocida

nstX /2/a

Estimación de la

2 )1()1(

Estimación de la proporción

psZp 2/a

Tamaño de muestra

Para estimar n en base a un error máximo )( X 222

2/ )/( a XZn

Para estimar n en base a un error máximo

Si se especifica un intervalo total de error, el error

)( p máximo es la mitad del intervalo

2/ )/()1( a pZn

Utilizar 5.0 que es peor caso

INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN NORMAL

DE VARIANZA CONOCIDA

Supongamos que disponemos de una población en la que tenemos una v.a. con distribución

N( ,) con conocida (de estudios previos, por ejemplo). Obtenemos una muestra de

tamaño n y deseamos estimar la media de la población.

El estimador puntual de la misma es la media muestral cuya distribución muestral es

conocida

La cantidad

Tendrá distribución normal estándar.

Sobre la distribución N (0, 1) podremos seleccionar dos puntos simétricos -z y z ,

tales que

Figura 1: Selección de los puntos críticos para el cáculo del intervalo de confianza.

Sustituyendo Z por su valor en este caso particular

Despejando la media muestral y la varianza

Que verifica las condiciones de la definición.

Así, el intervalo de confianza para la media puede escribirse como

En la práctica, de todos los posibles valores de tenemos uno sólo y por tanto un único

intervalo de todos los posibles para distintas muestras

La importancia del intervalo de confianza para la estimación está en el hecho de que el

intervalo contiene información sobre el estimador puntual (valor central del intervalo) y sobre

el posible error en la estimación a través de la dispersión y de la distribución muestral del

estimador. Observese que el error en la estimación está directamente relacionado con la

distribución muestral del estimador y con la varianza poblacional, e inversamente relacionado

con el tamaño muestral.

El gráfico siguiente ilustra la interpretación del nivel de confianza para el intervalo de

confianza para la media de una distribución normal con varianza conocida. Para los distintos

posibles valores de la media, representados mediante su distribución muestral, obtenemos

distintos intervalos de confianza. La mayor parte incluye al verdadero valor del parámetro,

pero el resto no. Concretamente el 95% lo incluye y el 5% no, si el nivel de confianza es del

En la práctica disponemos de una única repetición del experimento, y por tanto de un único

intervalo de confianza, el señalado en negro en el gráfico, por ejemplo. Confiamos en que

nuestro intervalo sea de la mayoría que con tiene al verdadero valor objetivo aunque no

tenemos la seguridad de que sea así, tenemos concretamente un riesgo del 5% de

equivocamos.

Interpretación del nivel de confianza en el intervalo para la media de una distribución normal.

PROBLEMA 1

Durante una semana se toma una muestra aleatoria de 50 empleados de una empresa, y se

obtiene una salario promedio de $206.se conoce que la desviación estándar poblacional de

$40. Determine los intervalos de confianza del 90% para la media de los salarios de esta

empresa

SOLUCIÓN

Media muestra = 206

Desviación estándar poblacional = 40

Nivel confianza = 95%

Utilizar cvalor z- normal:n > 30 y desv estándar poblacion

One-Sample Z The assumed standard deviation = 40

N Mean SE Mean 95% CI

50 206.00 5.66 (194.91, 217.09)

Entonces, Intervalo de confianza esta entre 194.91 y 217.09

PROBLEMA 2

El ciclo medio de vida de una muestra aleatoria de 12 focos es de 2000 horas, con una

desviación estándar muestral de 200horas. Se supone que la vida media de los focos se

distribuye normalmente. Determine los intervalos de confianza de 95% para la vida media de

los focos

SOLUCION

Media = 2000

Desd. Estándar = 200

Nivel confianza = 95% n

N < 30 y desv. estándar poblacional desconocida----- usar distribución T

One-Sample T

N Mean StDev SE Mean 95% CI

12 2000.0 200.0 57.7 (1872.9, 2127.1)

Intervalo de confianza va a (1872.9, 2127.1)

PROBLEMA 3

En un proceso químico se fabrica cierto polímero. Normalmente, se hacen mediciones de

viscosidad después de cada corrida, y la experiencia acumulada indica que la variabilidad en

el proceso es muy estable, con a= 20. Las siguientes son 15 mediciones de viscosidad por

corri da: 724, 718, 776, 760, 745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.

Encuentreun intervalo de confianza bilateral del 90% para la viscosidad media del polímero.

SOLUTION

Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3

C1 15 0 750.20 4.94 19.13 718.00 740.00 747.00 760.00

Variable Maximum

C1 795.00

Boxplot of C1

800790780770760750740730720710

Individual Value Plot of C1

800780760740720

Mean 750.2

StDev 19.13

Histogram (with Normal Curve) of C1

PROBLEM 4

Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es

afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la

desviación estándar de la concentración activa es de 3 gil, sin importar el tipo de catalizador

utilizado. Se realizan 10 observaciones con cada catalizador, y se obtienen los datos

siguientes:

Catalizador1: 57.9, 66.2, 65.4, 65.4, 65.2, 62.6, 67.6, 63.7, 67. 2, 71.0

Catalizador2: 66.4, 71.7, 70.3, 69.3, 64.8, 69.6, 68.6, 69.4, 65.3, 68.8

a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de

Las concentraciones activas para los dos catalizadores.

b) ¿Existe alguna evidencia que indique que las concentraciones activas medias de

Penden del catalizador utilizado?

SOLUCIÓN

Two-sample T for Cata1 vs Cata2

N Mean StDev SE Mean

Cata1 10 65.22 3.44 1.1

Cata2 10 68.42 2.22 0.70

Difference = mu (Cata1) - mu (Cata2)

Estimate for difference: -3.20

95% CI for difference: (-5.96, -0.44)

T-Test of difference = 0 (vs not =): T-Value = -2.47 P-Value = 0.026 DF = 15

800780760740720

Histogram of C1

One-Sample T: Cata1 Test of mu = 68.42 vs not = 68.42

Variable N Mean StDev SE Mean 95% CI T P

Cata1 10 65.22 3.44 1.09 (62.76, 67.68) -2.94 0.017

One-Sample T: Cata2

Test of mu = 65.22 vs not = 65.22

Cata2 10 68.420 2.224 0.703 (66.829, 70.011) 4.55 0.001

One-Sample T: Cata2

Test of mu = 65.22 vs not = 65.22

Cata2 10 68.420 2.224 0.703 (66.134, 70.706) 4.55 0.001

Boxplot of Cata2

7269666360

Boxplot of Cata1(with Ho and 95% t-confidence interval for the mean)

727170696867666564

Boxplot of Cata2(with Ho and 95% t-confidence interval for the mean)

7269666360

Individual Value Plot of Cata1(with Ho and 95% t-confidence interval for the mean)

727170696867666564

Individual Value Plot of Cata2(with Ho and 95% t-confidence interval for the mean)

70686664626058

Histogram of Cata1(with Ho and 95% t-confidence interval for the mean)

7271706968676665

Histogram of Cata2(with Ho and 95% t-confidence interval for the mean)

1st Q uartile 63.425

Median 65.400

3rd Q uartile 67.300

Maximum 71.000

62.756 67.684

63.323 67.337

2.369 6.288

A -Squared 0.36

P-V alue 0.367

Mean 65.220

StDev 3.444

V ariance 11.864

Skewness -0.67439

Kurtosis 1.99962

Minimum 57.900

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

70686664626058

Median

686766656463

95% Confidence Intervals

Summary for Cata1

PROBLEM 5

Un artículo publicado en el Journal of Aircraft (Vol. 23, 1986, págs. 859-864) describe la

formulación de un método nuevo para el análisis de placas que es capaz de modelar estruc

turas de aeroplanos, tales como el armazón del ala, y que produce resultados similares a los

obtenidos con el método del elemento finito, el cual emplea muchos más cálculos. Se cal

culan las frecuencias de vibración naturales para el armazón de un ala utilizando para ello

ambos métodos. Los resultados obtenidos para las siete primeras frecuencias naturales son los

siguientes:

Elementos

finito,ciclos/s

equivalente,

ciclos/s

1 14.58 14.76

2 48.52 49.10

3 97.22 99.99

4 113.99 117.53

5 174.73 181.22

6 212.72 220.14

7 277.38 294.80

Encuentre un intervalo de confianza del 95% para la diferencia promedio entre los dos

métodos

1st Q uartile 66.125

Median 69.050

3rd Q uartile 69.775

Maximum 71.700

66.829 70.011

66.023 69.840

1.530 4.060

A -Squared 0.43

P-V alue 0.243

Mean 68.420

StDev 2.224

V ariance 4.946

Skewness -0.515043

Kurtosis -0.638385

Minimum 64.800

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

72706866

Median

7069686766

95% Confidence Intervals

Summary for Cata2

SOLUTION

Paired T-Test and CI: Elem finito ciclos, Placa equiv ciclos

Paired T for Elem finito ciclos - Placa equiv ciclos

Elem finito cicl 7 134.163 92.857 35.097

Placa equiv cicl 7 139.649 98.435 37.205

Difference 7 -5.48571 5.92389 2.23902

95% CI for mean difference: (-10.96440, -0.00703)

T-Test of mean difference = 0 (vs not = 0): T-Value = -2.45 P-Value = 0.050

Histogram of Differences

Individual Value Plot of Differences

Boxplot of Differences

Correlations: Elem finito ciclos, Placa equiv ciclos

Pearson correlation of Elem finito ciclos and Placa equiv ciclos = 1.000

P-Value = 0.000

Two-Sample T-Test and CI: Elem finito ciclos, Placa equiv ciclos

Two-sample T for Elem finito ciclos vs Placa equiv ciclos

N Mean StDev Mean

Elem finito cicl 7 134.2 92.9 35

Placa equiv cicl 7 139.6 98.4 37

Difference = mu (Elem finito ciclos) - mu (Placa equiv ciclos)

99% CI for difference: (-164.33778, 153.36635)

Individual Value Plot of Elem finito ciclos, Placa equiv ciclos

Boxplot of Elem finito ciclos, Placa equiv ciclos

Welcome to Minitab, press F1 for help.

95% upper bound for mean difference: -1.13490

T-Test of mean difference = 0 (vs < 0): T-Value = -2.45 P-Value = 0.025

0-5-10-15-20

Differences

Placa equiv ciclosElem finito ciclos

Boxplot of Elem finito ciclos, Placa equiv ciclos

PROBLEMA 6

La pintura para autopista se surte en dos colores: blanco y amarillo. El interés se centra en

El tiempo de secado de la pintura; se sospecha que la pintura de color amarillo se seca más

Rápidamente que la blanca. Se obtienen mediciones de ambos tipos de pintura. Los tiempos

de secado (en minutos) son los siguientes :

Blanca: 120, 132, 123, 122, 140, 110, 120, 107

Amarilla: 126, 124, 116, 125, 109, 130, 125, 117, 129, 120

SOLUTION

Two-sample T for Blanca vs Amarilla

Blanca 8 121.8 10.7 3.8

Amarilla 10 122.10 6.54 2.1

Difference = mu (Blanca) - mu (Amarilla)

AmarillaBlanca

Boxplot of Blanca, Amarilla

PROBLEMA 7

Un producto dietético líquido afirma en su publicidad que el empleo del mismo durante un

Mes produce una pérdida promedio de 3 libras de peso. Ocho sujetos utilizan el producto

Por un mes, y los datos sobre pérdida de peso son los siguientes:

SUJETO

1 2 3 4 5 6 7 8

peso inicial (lb) 163 201 195 198 155 143 150 187

peso final (lb) 161 195 192 197 150 141 146 183

Encuentre un intervalo de confianza del 95% para la pérdida de peso promedio. ¿Los datos

Apoyan la afirmación hecha en la publicidad?

SOLUTION

Paired T-Test and CI: Peso inicial (lb), Peso final (lb)

Paired T for Peso inicial (lb) - Peso final (lb)

Peso inicial (lb 8 174.000 23.707 8.382

Peso final (lb) 8 170.625 23.610 8.347

Difference 8 3.37500 1.68502 0.59574

95% CI for mean difference: (1.96629, 4.78371)

AmarillaBlanca

Individual Value Plot of Blanca, Amarilla

T-Test of mean difference = 0 (vs not = 0): T-Value = 5.67 P-Value = 0.001

PRUEBA DE HIPÓTESIS

Introducción

CONCEPTOS BÁSICOS PARA EL PROCEDIMIENTO

Etapas básicas en pruebas de hipótesis. Al realizar pruebas de hipótesis, se parte de un

valor supuesto (Hipotético) en parámetro poblacional. Después de recolectar una muestra

aleatoria, se compara la estadística muestral, así como la media, con el parámetro hipotético,

se compara con una supuesta media poblacional. Después se acepta o se rechaza el valor

hipotético, según proceda. Se rechaza el valor hipotético sólo si el resultado muestral resulta

muy poco probable cuando la hipótesis es cierta.

- Etapa 1. Planear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el

valor hipotético del parámetro que se compra con el resultado muestral resulta muy poco

probable cuando la hipótesis es cierta.

- Etapa 2. Especificar el nivel de significancia que se va a utilizar. El nivel de significancia

del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan

diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir

aleatoria mente con una probabilidad de 1.05 o menos.

6543210

Differences

- Etapa 3. Elegir la estadística de prueba. La estadística de prueba puede ser la estadística

muestral (el estimador no segado del parámetro que se prueba) o una versión transformada

de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media

poblacional, se toma la media de una muestra aleatoria de esa distribución normal,

entonces es común que se transforme la media en un valor z el cual, a su vez, sirve como

estadística de prueba.

Consecuencias de las Decisiones en Pruebas de Hipótesis.

DECISIONES POSIBLES SITUACIONES POSIBLES

La hipótesis nula es verdadera La hipótesis nula es falsa

Aceptar la Hipótesis Nula Se acepta correctamente Error tipo II o Beta

Rechazar la Hipótesis

Error tipo I o Alfa Se rechaza correctamente

- Etapa 4. Establecer el valor o valores críticos de la estadística de prueba. Habiendo

especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se

van a utilizar, se produce a establecer el o los valores críticos de estadística de prueba.

Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de

uno o dos extremos.

- Etapa 5. Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un

valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el

valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se

transforma la media muestral en un valor de z.

- Etapa 6. Tomar la decisión. Se compara el valor observado de la estadística muestral con

el valor (o valores) críticos de la estadística de prueba. Después se acepta o se rechaza la

hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá

efecto sobre otras decisiones de los administradores operativos, como por ejemplo,

mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia

utilizar.

La distribución apropiada de la prueba estadística se divide en dos regiones: una región de

rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede

rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente.

Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la

distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se

puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la

región de rechazo.

Pasos de la Prueba de Hipótesis

- Expresar la hipótesis nula

- Expresar la hipótesis alternativa

- Especificar el nivel de significancia

- Determinar el tamaño de la muestra

- Establecer los valores críticos que establecen las regiones de rechazo de las de no rechazo.

- Determinar la prueba estadística.

- Coleccionar los datos y calcular el valor de la muestra de la prueba estadística apropiada.

- Determinar si la prueba estadística ha sido en la zona de rechazo a una de no rechazo.

- Determinar la decisión estadística.

- Expresar la decisión estadística en términos del problema.

Hipótesis Estadística. Al intentar alcanzar una decisión, es útil hacer hipótesis (o conjeturas)

sobre la población aplicada. Tales hipótesis, que pueden ser o no ciertas, se llaman hipótesis

estadísticas. Son, en general, enunciados acerca de las distribuciones de probabilidad de las

poblaciones.

Hipótesis Nula. En muchos casos formulamos una hipótesis estadística con el único

propósito de rechazarla o invalidarla. Así, si queremos decidir si una moneda está trucada,

formulamos la hipótesis de que la moneda es buena (o sea p=0,5, donde p es la probabilidad

de cara). Analógicamente, si deseamos decidir si un procedimiento es mejor que otro,

formulamos la hipótesis de que no hay diferencia entre ellos (o sea. Que cualquier diferencia

observada se debe simplemente a fluctuaciones en el muestreo de la misma población). Tales

hipótesis se suelen llamar hipótesis nula y se denotan por Ho.

Para todo tipo de investigación en la que tenemos dos o más grupos, se establecerá una

hipótesis nula. La hipótesis nula es aquella que nos dice que no existen diferencias

significativas entre los grupos. Por ejemplo, supongamos que un investigador cree que si un

grupo de jóvenes se somete a un entrenamiento intensivo de natación, éstos serán mejores

nadadores que aquellos que no recibieron entrenamiento. Para demostrar su hipótesis toma al

azar una muestra de jóvenes, y también al azar los distribuye en dos grupos: uno que

llamaremos experimental, el cual recibirá entrenamiento, y otro que no recibirá

entrenamiento alguno, al que llamaremos control. La hipótesis nula señalará que no hay

diferencia en el desempeño de la natación entre el grupo de jóvenes que recibió el

entrenamiento y el que no lo recibió.

Una hipótesis nula es importante por varias razones:

- Es una hipótesis que se acepta o se rechaza según el resultado de la investigación.

- El hecho de contar con una hipótesis nula ayuda a determinar si existe una diferencia entre

los grupos, si esta diferencia es significativa, y si no se debió al azar.

- No toda investigación precisa de formular hipótesis nula. Se recomienda que la hipótesis

nula es aquella por la cual indicamos que la información a obtener es contraria a la

hipótesis de trabajo.

Al formular esta hipótesis, se pretende negar la variable independiente. Es decir, se enuncia

que la causa determinada como origen del problema fluctúa, por tanto, debe rechazarse como

Hipótesis Alternativa: Toda hipótesis que difiere de una dada se llamará una hipótesis

alternativa. Una hipótesis alternativa a la hipótesis nula se denotará por H1.

Al responder a un problema, es muy conveniente proponer otras hipótesis en que aparezcan

variables independientes distintas de las primeras que formulamos. Por tanto, para no perder

tiempo en búsquedas inútiles, es necesario hallar diferentes hipótesis alternativas como

respuesta a un mismo problema y elegir entre ellas cuáles y en qué orden vamos a tratar su

comprobación.

Las hipótesis, naturalmente, serán diferentes según el tipo de investigación que se esté

realizando. En los estudios exploratorios, a veces, el objetivo de la investigación podrá ser

simplemente el de obtener los mínimos conocimientos que permitan formular una hipótesis.

También es aceptable que, en este caso, resulten poco precisas, como cuando afirmamos que

"existe algún tipo de problema social en tal grupo", o que los planetas poseen algún tipo de

atmósfera, sin especificar de qué elementos está compuesto.

Los trabajos de índole descriptiva generalmente presentan hipótesis del tipo "todos los X

poseen, en alguna medida, las característica Y". Por ejemplo, podemos decir que todas las

naciones poseen algún comercio internacional, y dedicarnos a describir, cuantificando, las

relaciones comerciales entre ellas. También podemos hacer afirmaciones del tipo "X

pertenece al tipo Y", como cuando decimos que una tecnología es capital - intensiva. En estos

casos, describimos, clasificándolo, el objeto de nuestro interés, incluyéndolo en un tipo ideal

complejo de orden superior.

Por último, podemos construir hipótesis del tipo "X produce (o afecta) a Y", donde estaremos

en presencia de una relación entre variables.

Errores de tipo I y de tipo II. Si rechazamos una hipótesis cuando debiera ser aceptada,

diremos que se ha cometido un error de tipo I. Por otra parte, si aceptamos una hipótesis que

debiera ser rechazada, diremos que se cometió un error de tipo II.

En ambos casos, se ha producido un juicio erróneo. Para que las reglas de decisión (o no

contraste de hipótesis) sean buenos, deben diseñarse de modo que minimicen los errores de la

decisión; y no es una cuestión sencilla, porque para cualquier tamaño de la muestra, un

intento de disminuir un tipo de error suele ir acompañado de un crecimiento del otro tipo. En

la práctica, un tipo de error puede ser más grave que el otro, y debe alcanzarse un

compromiso que disminuya el error más grave. La única forma de disminuir ambos a la vez

es aumentar el tamaño de la muestra que no siempre es posible.

Niveles de Significación. Al contrastar una cierta hipótesis, la máxima probabilidad con la

que estamos dispuesto a correr el riesgo de cometerán error de tipo I, se llama nivel de

significación. Esta probabilidad, denota a menudo por se, suele especificar antes de tomar la

muestra, de manera que los resultados obtenidos no influyan en nuestra elección.

En la práctica, es frecuente un nivel de significación de 0,05 ó 0,01, si bien se une otros

valores. Si por ejemplo se escoge el nivel de significación 0,05 (ó 5%) al diseñar una regla de

decisión, entonces hay unas cinco (05) oportunidades entre 100 de rechazar la hipótesis

cuando debiera haberse aceptado; Es decir, tenemos un 95% de confianza de que hemos

adoptado la decisión correcta. En tal caso decimos que la hipótesis ha sido rechazada al nivel

de significación 0,05, lo cual quiere decir que tal hipótesis tiene una probabilidad 0,05 de ser

falsa.

Prueba de 1 o 2 Extremos. Cuando estudiamos ambos valores estadísticos es decir, ambos

lados de la media lo llamamos prueba de uno y dos extremos o contraste de una y dos colas.

Con frecuencia no obstante, estaremos interesados tan sólo en valores extremos a un lado de

la media (o sea, en uno de los extremos de la distribución), tal como sucede cuando se

contrasta la hipótesis de que un proceso es mejor que otro (lo cual no es lo mismo que

contrastar si un proceso es mejor o peor que el otro) tales contrastes se llaman unilaterales, o

de un extremo. En tales situaciones, la región crítica es una región situada a un lado de la

distribución, con área igual al nivel de significación.

Curva Característica Operativa y Curva de Potencia. Podemos limitar un error de tipo I

eligiendo adecuadamente el nivel de significancia. Es posible evitar el riesgo de cometer el

error tipo II simplemente no aceptando nunca la hipótesis, pero en muchas aplicaciones

prácticas esto es inviable. En tales casos, se suele recurrir a curvas características de

operación o curvas de potencia que son gráficos que muestran las probabilidades de error de

tipo II bajo diversas hipótesis. Proporcionan indicaciones de hasta qué punto un test dado nos

permitirá evitar un error de tipo II; es decir, nos indicarán la potencia de un test a la hora de

prevenir decisiones erróneas. Son útiles en el diseño de experimentos por que sugieren entre

otras cosas el tamaño de muestra a manejar.

Inferencias acerca de la Media Poblacional (varianza conocida). Supongamos que de una

población normal con media desconocida . y varianza conocida 2

se extrae una muestra de

tamaño n, entonces de la distribución de la media muestral x se obtiene que:

Se distribuye como una normal estándar. Luego, a aa 1ZZZP 2/2/

Donde Za/2 es un valor de la normal estándar tal que el área a la derecha de dicho valor es

a/2, como se muestra en la figura

Sustituyendo la fórmula de z se obtiene:

μαα

xZP 2/2/

Haciendo un despeje algebraico, se obtiene

ZP 2/2/

De lo anterior se puede concluir que un Intervalo de Confianza del 100(1-a) % para la media

poblacional, es de la forma:

Zx 2/2/

Usualmente a=0.1, 0.05 ó 0.01, que corresponden a intervalos de confianza del 90, 95 y 99

por ciento respectivamente. La siguiente tabla muestra los Za/2 más usados.

Nivel de Confianza Za/2

90 1.645

95 1.96

99 2.58

En la práctica si la media poblacional es desconocida entonces, es bien probable que la

varianza también lo sea puesto que en el cálculo de 2

interviene. Si ésta es la situación, y

si el tamaño de muestra es grande (n>30, parece ser lo más usado), entonces 2

es estimada

por la varianza muestral s2 y se puede usar la siguiente fórmula para el intervalo de confianza

de la media poblacional:

sZx 2/2/ αα

Por otro lado, también se pueden hacer pruebas de hipótesis con respecto a la media

poblacional. Por conveniencia, en la hipótesis nula siempre se asume que la media es igual a

un valor dado. La hipótesis alterna en cambio, puede ser de un sólo lado: menor ó mayor que

el número dado, o de dos lados: distinto a un número dado.

Existen dos métodos de hacer la prueba de hipótesis: el método clásico y el método del P-

Value.

a. En el método clásico, se evalúa la prueba estadística de Z y al valor obtenido se le llama

Z calculado (Zcalc). Por otro lado el nivel de significación a dado determina una región de

rechazo y una de aceptación. Si Zcalc cae en la región de rechazo, entonces se concluye

que hay suficiente evidencia estadística para rechazar la hipótesis nula con base en los

resultados de la muestra tomada. Las fórmulas están resumidas en la siguiente tabla:

Caso I Caso II Caso III

Ho: =0 Ho : =0 Ho : =0

Ha: <0 Ha : 0 Ha : >0

Prueba Estadística: n/

Aquí Za es el valor de la normal estándar tal que el área a la derecha de dicho valor es

a. Recordar también que puede ser sustituido por s, cuando la muestra es relativamente

grande (n>30). Los valores de a más usados son 0.01 y 0.05. Si se rechaza la hipótesis

nula al .01 se dice que la hipótesis alterna es altamente significativa y al .05 que es

significativa.

b. Trabajar sólo con esos dos valores de a simplificaba mucho el aspecto computacional,

pero por otro lado creaba restricciones. En la manera moderna de probar hipótesis se usa

una cantidad llamada P-Value. El P-Value llamado el nivel de significación observado,

es el valor de a al cual se rechazaría la hipótesis nula si se usa el valor calculado de la

prueba estadística. En la práctica un P-Value cercano a 0 indica un rechazo de la

hipótesis nula. Así un P-Value menor que .05 indicará que se rechaza la prueba

estadística.

Fórmulas para calcular P-Value:

Si Ho: >o, entonces P-value = 1*Prob(Z>Zcalc).

Si Ho: <o, entonces P-value = 1*Prob(Z<Zcalc).

Si Ho: o, entonces P-value = 2*Prob(Z>|Zcalc ).

Los principales programas estadísticos dan los P-Value para la mayoría de las pruebas

estadísticas. A través de todo el texto usamos el método del P-Value para probar

hipótesis.

Concepto. Afirmación acerca de los parámetros de la población.

PRUEBAS DE HIPÓTESIS PARA LA MEDIA Y PROPORCIONES

Debido a la dificultad de explicar este tema se enfocará un problema basado en un estudio en

una fábrica de llantas. En este problema la fábrica de llantas tiene dos turnos de operarios,

turno de día y turno mixto. Se selecciona una muestra aleatoria de 100 llantas producidas por

cada turno para ayudar al gerente a sacar conclusiones de cada una de las siguientes

preguntas

- ¿Es la duración promedio de las llantas producidas en el turno de día igual a 25 000

millas?

- ¿Es la duración promedio de las llantas producidas en el turno mixto menor de 25 000

millas?

- ¿Se revienta más de un 8% de las llantas producidas por el turno de día antes de las

10 000 millas?

Prueba de Hipótesis para la media. En la fábrica de llantas la hipótesis nula y alternativa para

el problema se plantearon como,

Ho: μ = 25 000 H1: μ ≠ 25 000

Si se considera la desviación estándar σ las llantas producidas en el turno de día, entonces,

con base en el teorema de limite central, la distribución en el muestreo de la media seguiría la

distribución normal, y la prueba estadística que está basada en la diferencia entre la media X

de la muestra y la media μ hipotética se encontrara como

Si el tamaño de la región α de rechazo se estableciera en 5% entonces se podrían determinar

los valores críticos de la distribución. Dado que la región de rechazo está dividida en las dos

colas de la distribución, el 5% se divide en dos partes iguales de 2.5%.

Dado que ya se tiene la distribución normal, los valores críticos se pueden expresar en

unidades de desviación. Una región de rechazo de 0.25 en cada cola de la distribución

normal, da por resultado un área de .475 entre la media hipotética y el valor crítico. Si se

busca está área en la distribución normal, se encuentra que los valores críticos que dividen las

regiones de rechazo y no rechazo son + 1.96 y - 1.96

Por tanto, la regla para decisión sería rechazar Ho si Z > +1.96 o sí z < -1.96, de lo contrario,

no rechazar Ho. No obstante, en la mayor parte de los casos se desconoce la desviación

estándar σ de la población. La desviación estándar se estima al calcular S, la desviación

estándar de la muestra. Si se supone que la población es normal la distribución en el muestreo

de la media seguiría una distribución t con n-1 grados de libertad.

En la práctica, se a encontrado que siempre y cuando el tamaño de la muestra no sea muy

pequeño y la población no esté muy sesgada, la distribución t da una buena aproximación a la

distribución de muestra de la media. La prueba estadística para determinar la diferencia entre

la media x de la muestra y la media de la población cuando se utiliza la desviación

estándar S de la muestra, se expresa

Para una muestra de 100, si se selecciona un nivel de significancia de 0.05, los valores

críticos de la distribución t con 100-1= 99 grados de libertad se puede obtener como se indica

en la siguiente tabla tenemos el valor de 1.9842. Como esta prueba de dos colas, la región de

rechazo de 0.05 se vuelve a dividir en dos partes iguales de 0.025 cada una. Con el uso de las

tablas para t, los valores críticos son –1.984 y +1.984. La regla para la decisión es,

Rechazar Ho si 9842.1to9842.1t 9999 de lo contrario, no rechazar Ho

Los resultados de la muestra para el turno de día (en millas) fueron

100ny000.4S,430.25X díadìadìa millas. Puesto que se está probando si la

media es diferente a 25 000 millas, se tiene con la ecuación

075.1100/000.4

00.25430.25t

Xt 11001n

Dado que t100-1=1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.

Por ello, la decisión de no rechazar la hipótesis nula Ho. En conclusión es que la duración

promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error de

tipo II, este enunciado se puede redactar como no hay pruebas de que la duración promedio

de las llantas sea diferente a 25 000 millas en las llantas producidas en el turno de día.

PROBLEMA 1

El director académico del centro preuniversitario de la UNMSM tiene la percepción que el

rendimiento académico, durante el primer año de estudios en la universidad, de los alumnos

ingresantes a través de la instrucción mejora año a año. Sabe que históricamente los alumnos

han tenido un rendimiento académico de 12 puntos con desviación estándar de 2.para

confirmar su percepción llevo a cabo un estudio, para el cual escogió una muestra aleatoria de

20 alumnos. Los datos de la muestra se dan en el cuadro siguiente. Veamos si existe

suficiente evidencia muestral para decir si es cierta percepción del director académico

= 0.05

alumno Nota

1 14 2.560

2 15 6.760

3 13 0.360

4 10 5.760

5 14 2.560

6 14 2.560

7 13 0.360

8 14 2.560

9 12 0.160

10 13 0.360

11 12 0.160

12 10 5.760

13 12 0.160

14 10 5.760

15 11 1.960

16 13 0.360

17 13 0.360

18 10 5760

19 10 5760

20 15 6.760

SOLUCIÓN

H0:u =u0

H1: CASO Estadístico de contraste Rechazar Ho sí;

𝛔 es conocida y X tiene distribución

normal o el tamaño de muestra n es

suficientemente grande

√ = 0.89

Z > Z1-α

Z < Zα = - Z1-α

|Z|> Z1-α/2

One-Sample Z: C1

Test of mu = 12 vs > 12

The assumed standard deviation = 2

95% Lower

Variable N Mean StDev SE Mean Bound Z P

C1 20 12.400 1.729 0.447 11.664 0.89 0.186

P-valor es mayor que valor 0.05 entonces aceptamos hipótesis nula y rechazar hipótesis

alternativa

PROBLEMA 2

En un sistema educativo se aplicaron dos métodos A y B para enseñar el curso de

matemática en un grupo de 20 estudiantes.se aplico el método A y en el potro de 20 alumnos

se aplicó el método B. ¿podemos admitir que el método A es mejor que el método B?

experiencias anteriores dicen que las variables X y Y que representan los rendimientos con

los métodos A y B, respectivamente. Tienen distribución normal = 0.01 considera

desviación estándares poblaciones iguales.

Solución

: Rendimiento promedio del método A

: Rendimiento promedio del método B

H0:u1 =u2

H1: CASO Estadístico de contraste Rechazar Ho sí;

𝛔1 y 𝛔2 son desconocidas, pero

iguales, las muestras son

independiente y las poblaciones

tienen distribución normal

= - 0. 166 T > t1-α

T < t α = - t 1-α

|T| > T1-α/2

MÉTODO A MÉTODO B

alumno x ( Y (

1 15 3.240 13 0.090

2 15 3.240 14 0.490

3 14 0.640 14 0.490

4 13 0.040 12 1.690

5 14 0.640 13 0.090

6 13 0.040 14 0.490

7 12 1.440 14 0.490

8 11 4.840 12 1.690

9 15 3.240 15 2.890

0.186> 0.05

10 17 14.440 16 7.290

11 16 7.840 15 2.890

12 15 3.240 15 2.890

13 13 0.040 12 1.690

14 10 10.240 10 10.890

15 11 4.840 9 18.490

16 13 0.040 12 1.690

17 12 1.440 12 1.690

18 10 10.240 14 2.89

19 11 4.840 15 2.890

20 14 0.640 15 2.890

264 75.200 266 62.200

Two-Sample T-Test and CI: X, Y

Two-sample T for X vs Y

X 20 13.20 1.99 0.44

Y 20 13.30 1.81 0.40

Difference = mu (X) - mu (Y)

99% lower bound for difference: -1.560

T-Test of difference = 0 (vs >): T-Value = -0.17 P-Value = 0.566 DF = 38

Both use Pooled StDev = 1.9015

CONCLUCIÓN

Como Tc calcular atreves la formula Tc= - 0.166 y en Minitab es -0.17;entonces se

acepta la hipótesis nula;

Con nivel de significancia de 0.05 se puede afirmar que la rendimiento promedio de

método A no es mayor que el rendimiento del método B

PROBLEMA 3

Un grupo de investigadores quiere saber si las poblaciones difieren con respecto al valor

medio de la actividad del complemento del suelo total (CH50).los datos se componen de las

mediciones de CH50 en n2=20 individuos aparentemente sanos y n1=10 individuos

enfermos. Alfa es igual a 0.05.las medias de las muestras y desviaciones estándar son:-

X1 = 62.6, 33.6

X2 = 47.2, 10.1

SOLUCIÓN

One-Sample T

N Mean StDev SE Mean 95% CI

12 2000.0 200.0 57.7 (1872.9, 2127.1)

Two-Sample T-Test and CI

Sample N Mean StDev SE Mean

1 10 62.6 33.6 11

2 20 47.2 10.1 2.3

Difference = mu (1) - mu (2)

Estimate for difference: 15.4

T-Test of difference = 0 (vs not =): T-Value = 1.42 P-Value = 0.190 DF = 9

CONCLUSIÓN

No es posible rechazar Ho porque P es mayor que alfa, entonces con base a esto no se

puede concluir que las medias de las poblaciones son diferentes.

PROBLEMA 4

Un fabricante de fibras textiles está investigando una nueva fibra para tapicería, la cual tiene

una elongación media por hilo de 12 kg con una desviación estándar de 0.5 kg. La compañía

desea probar la hipótesis HO: µ = 12 contra H1: µ < 12, utilizando para ello una muestra

aleatoria de cuatro especímenes.

a. ¿Cuál es la probabilidad del error tipo 1 si la región crítica está definida como x <11.5kg?

b. Encuentre f3 para el caso donde la verdadera elongación promedio es 11.25 kg

SOLUTION

N=4 σ=0.5kg u=12 Ho: u=12 H1: u<12

Error tipo I

Z de una muestra

Prueba de mu = 12 vs. no = 12

La desviación estándar supuesta = 0.5

Estándar

N Media media IC de 95% Z P

4 11.500 0.250 (11.010, 11.990) -2.00 0.046

La probabilidad de que la elongación del hilo este fuera de nuestro intervalo de confianza es

4.6 (IC=95%) por tanto aceptamos la Ho:u=12, ya que no existe diferencia estadística entre

el valor de la muestra y la media. Cuando tomamos el error de tipo I, esperamos que el valor

caiga en el área central, donde está la media.

Error tipo II

Z de una muestra

Prueba de mu = 11.25 vs. > 11.25

estándar

de la 95% Límite

N Media media inferior Z P

4 11.500 0.250 11.089 1.00 0.159

CONCLUSIÓN

La probabilidad de que la elongación del hilo sea mayor que 12 es 15.9% que es la

probabilidad resta da a 1 por el lado izquierdo, y está fuera de nuestro intervalo de

confianza, se rechaza H1: u<12. Y con el error tipo 2 esperamos que llegue por una de las

colas.

PROBLEMA 5

Una compañía de productos para el consumidor está desarrollando un nuevo champú, y está

interesada en la altura de la espuma (en mm). La altura de la espuma tiene una distribución

aproximadamente normal, con una desviación estándar de 20 mm. La compañía desea probar

Ha:µ = 175 mm contra H1:µ > 175 mm, utilizando los resultados obtenidos con n =10

muestras.

a. Encuentre Ja probabilidad ex del error tipo I si la región crítica es x > 185.

b. ¿Cuál es Ja probabilidad del error tipo II si Ja verdadera altura promedio de la Espuma es

195 mm?

SOLUTION

La desviación estándar supuesta = 20

estándar

N Media media IC de 95% Z P

10 175.00 6.32 (162.60, 187.40) -1.58 0.114 (Error tipo I, alfa/2=0.057)

Z de una muestra

Prueba de mu = 185 vs. > 185

estándar

de la 95% Límite

N Media media inferior Z P

10 195.00 6.32 184.60 1.58 0.057 (Error tipo II por la derecha)

PROBLEMA 6

Un fabricante está interesado en el voltaje de salida de una fuente de alimentación utilizada

en una computadora personal. Se supone que el voltaje de salida tiene una distribución

normal, con desviación estándar 0.25V. El fabricante desea probar Ha: µ= 5 V contra H µ ≠ 5

V, utilizando para ello n = 8 unidades. Suponga que el fabricante desea que la probabilidad

del error tipo I para la prueba sea α= 0.05. ¿Dónde debe localizarse la región de aceptación?

SOLUTION

Z de una muestra

estándar

N Media media IC de 95%

8 5.0000 0.0884 (4.8268, 5.1732)(REGION DE ACEPTACION)

PRUEBA DE HIPÓTESIS SOBRE LA IGUALDAD DE DOS MEDIAS, VARIANZAS

CONOCIDAS

Introducción

Supóngase que hay dos poblaciones de interés X1 y X2, Suponemos que X1 tiene media

desconocida 1 y varianza conocida 2

1 y que X2 tiene media desconocida 2 y varianza

conocida 2

2 . Estaremos interesados en la prueba de la hipótesis de que las medias 1 y 2

sean iguales.

Considérense primero las hipótesis alternativas de dos lados:

210 : H 211 : H

H0 = Hipótesis nula H1 = Hipótesis alternativa.

1 = media de la población 1 2 = media de la población 2

El procedimiento para probar 210 : H es calcular la estadística de prueba Z0 mediante la

siguiente fórmula:

Donde:

1X = media de la muestra 1 2X = media de la muestra 2 12 = varianza de la población 1

22 = varianza de la población 2 1n = tamaño de la muestra 1 2n = tamaño de la muestra 2

La hipótesis nula H0 se rechaza si:

20 aZZ o 20 aZZ

Z0 = Valor calculado del estadístico de prueba

2aZ = Valor obtenido de las tablas.

Las hipótesis alternativas de un lado se analizan de manera similar. Para probar

210 : H

211 : H

Se calcula la estadística de prueba Z0 , y se rechaza 210 : H si aZZ 0 .

Para probar las otras hipótesis alternativas de un lado

210 : H

211 : H

Se utiliza la estadística de prueba Z0 y se rechaza 210 : H si aZZ 0

Ejemplo

Se emplean dos máquinas para llenar botellas de plástico con un volumen neto de 16 onzas.

El proceso de llenado puede suponerse normal, con desviaciones estándar de 015.1 y

018.2 . Ingeniería de calidad sospecha que ambas máquinas llenan hasta el mismo

volumen neto, sin importar que este volumen sea o no de 16 onzas. Se toma una muestra

aleatoria de la salida de cada máquina.

¿Piensa usted que ingeniería de calidad está en lo correcto? Utilizando 05.a .

211 : H

210 : H

Calculando las medias de cada máquina obtenemos 005.16,015.16 21 XX .

= 34.1

005.16015.1622

2aZ = Z.025 = 1.96

El uso de la tabla es el siguiente:

1-.025 =.975 buscando el valor de Z correspondiente a .975 encontramos Z = 1.96

Utilizando el criterio de decisión 20 aZZ para rechazar la hipótesis nula H0, nos damos

cuenta de que 1.34 no es mayor que 1.96. Por lo cual no rechazamos H0. No existe suficiente

evidencia estadística para pensar que las medias son diferentes.

Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si aceptáramos la

hipótesis nula el criterio de decisión es débil, ya que generalmente se busca rechazar H0.

PROCEDIMIENTO EN EXCEL

máquina 1 máquina 2

16.03 16.02

16.04 15.97

16.05 15.96

16.05 16.01

16.02 15.99

16.01 16.03

15.96 16.04

15.98 16.02

16.02 16.01

15.99 16

Seleccionar análisis de datos en el menú herramientas. En funciones para análisis elija la

opción: Prueba z para medias de dos muestras.

PRUEBAS PARA LA IGUALDAD DE DOS VARIANZAS.

Presentaremos ahora pruebas para comparar dos varianzas. Supóngase que son dos las

poblaciones de interés, por ejemplo X1 y X2, donde 2

1,1 ,, , se desconocen. Deseamos

probar hipótesis relativas a la igualdad de las dos varianzas, 2

10 : H . Considérese que

se disponen dos muestras aleatorias de tamaño n1 de la población 1 y de tamaño n2 de la

población 2, y sean 2

1 ySS las varianzas de muestra. Para probar la alternativa de dos lados

10 : H

11 : H

Utilizamos el hecho de que la estadística

Se distribuye como F, con n1-1 y n2 –1 grados de libertad.

Rechazaríamos H0 si 1,1,210 21 nnFF a o si

Donde 1,1,2 21 nnFa y 1,1,21 21 nnF a son los puntos porcentuales 2a superior e inferior de la

distribución F con n1-1 y n2-2 grados de libertad. La tabla F proporciona sólo los puntos de la

cola superior de F, por lo que para determinar 1,1,21 21 nnF a debemos emplear

1,1,21 21 nnF a = 1,1,2 21

La misma estadística de prueba puede utilizarse para probar hipótesis alternativas de un lado.

La hipótesis alternativa de un lado es:

10 : H

11 : H

Si 1,1,0 21 nnFF a , rechazaríamos 2

10 : H

Ejemplo: Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos

tipos diferentes.

Pruebe la hipótesis de que las dos varianzas sean iguales. Use 05.a

10 : H 2

11 : H

44.100

SF = 877.

44.100

1,1,2 21 nnFa = F.025, 9,9= 4.03

1,1,21 21 nnF a =.248

CONCLUCION

Tipo 1 Tipo 2

0.877 no es mayor que 4.03, por lo cual no se rechaza la hipótesis nula 2

10 : H .

PROBLEMA 1

Un nuevo diseño del sistema de frenos de un cierto tipo de carro ha sido propuesto. Para el

sistema actual, se sabe que la distancia de frenado promedio verdadera a 40 mph en

condiciones específicas es de 120 pies. Se propone que el nuevo diseño sea implementado

sólo si los datos muestrales indican fuertemente una reducción de la distancia de frenado

promedio verdadera del nuevo diseño.

a. Defina el parámetro de interés y formule las hipótesis pertinentes.

El parámetro que se mide es la distancia de frenado cuando se maneja a 40 mph.

b. Suponga que la distancia de frenado del nuevo sistema está normalmente distribuido

con σ =10. Sea la distancia de frenado promedio de una muestra de 36

observaciones. ¿Cuáles de las siguientes regiones de rechazo es apropiada: R1 = { :

≥ 124.80}, R2 = { : ≤ 115.20}, R3 = { : o 125.13 o 114.87}?

La región de rechazo apropiada sería la R2, porque sería descartar H0 con los valores menores

a 120 ft.

c. ¿Cuál es el nivel de significación de la región apropiada de la parte (b)? ¿Cómo

d. ¿Cuál es la probabilidad de que el nuevo diseño no sea implementado cuando la

distancia de frenado promedio verdadera sea en realidad de 115 pies y la región

apropiada de la parte (b) sea utilizada?

PROBLEMA 2

Una mezcla de cenizas combustibles pulverizadas y cemento Portland utilizada para rellenar

con lechada deberá tener una resistencia a la compresión de más de 1300 KN/m2. La mezcla

no será utilizada a menos que la evidencia experimental indique concluyentemente que la

especificación de resistencia ha sido satisfecha. Suponga que la resistencia a la compresión de

especímenes de esta muestra está normalmente distribuida con σ = 60. Sea μ la resistencia a

la compresión promedio verdadera.

a. ¿Cuáles son las hipótesis nula y alternativa apropiadas?

H0: Resistencia a la compresión mayor a 1300 KN/m2

Ha: Resistencia menor a 1300 KN/m2

b. Sea la resistencia a la compresión promedio muestral de n = 20 especímenes

seleccionados al azar. Considere el procedimiento de prueba con estadístico de prueba

y región de rechazo ≥ 1331.26. ¿Cuál es la distribución de probabilidad del

estadístico cuando H0 es verdadera? ¿Cuál es la probabilidad de un error de tipo I

para el procedimiento de prueba?

c. ¿Cuál es la distribución de probabilidad del estadístico de prueba cuando μ = 1350?

Utilizando el procedimiento de prueba de la parte (b), ¿cuál es la probabilidad de que

la mezcla será juzgada insatisfactoria cuando en realidad μ = 1350 (un error de tipo

d. ¿Cómo cambiaría el procedimiento de prueba de la parte (b) para obtener una prueba

con nivel de significación de 0.05? ¿Qué impacto tendría este cambio en la

probabilidad de error de la parte (c)?

Como tenemos el nivel de significancia de 0.05, se busca en la tabla el valor cercano a 0.05 y

se sustituye como sigue:

PROBLEMA 3.

La calibración de una báscula tiene que ser verificada pesando 25 veces un espécimen de

prueba de 10 kg. Suponga que los resultados de diferentes pesadas son independientes entre

sí y que el peso en cada ensayo está normalmente distribuido con σ= 0.200 kg. Sea μ la

lectura de peso promedio verdadero en la báscula.

a. ¿Qué hipótesis deberá poner a prueba?

H0: Peso tiene que ser igual a 10kg.

Ha: Peso es diferente de 10kg.

b. Suponga que la báscula tiene que ser recalibrada si o ≥ 10.1032 o ≤ 9.8968. ¿Cuál

es la probabilidad de que se realice la recalibración cuando en realidad no es

necesaria?

c. ¿Cuál es la posibilidad de que la recalibración sea considerada innecesaria cuando en

realidad μ= 10.1? ¿Cuándo μ=9.8?

PROBLEMA 1

Dos compañías diferentes han solicitado proporcionar el servicio de televisión por cable en

una cierta región. Sea p la proporción de todos los suscriptores potenciales que favorecen a la

primera compañía sobre la segunda. Considere probar H0: p = 0.5 contra Ha: p = 0.5 basado

en una muestra aleatoria de 25 individuos. Sea X el número en la muestra que favorece a la

primera compañía y x el valor observado de X.

a. ¿Cuál de las siguientes regiones de rechazo es más apropiada y por qué?

R1 = {x: x ≤ 7 o x ≥ 18}, R2 = {x: x ≤ 8}, R3 = {x: x ≥ 17}

b. En el contexto de este problema, describa cuáles son los errores de tipo I y de tipo II.

Error tipo I: Preferencia en la segunda compañía cuando en realidad es la primera o

viceversa.

Error tipo II: No existe preferencia sobre alguna compañía cuando en realidad sí hay

preferencia.

c. ¿Cuál es la distribución de probabilidad del estadístico de prueba X cuando H0 es

verdadera? Úsela para calcular la probabilidad de un error de tipo I.

d. Calcule la probabilidad de un error de tipo II en la región seleccionada cuando p =

0.3, otra vez cuando p = 0.4 y también con p = 0.6 y p = 0.7.

PROBLEMA 5.

Se determinó el punto de fusión de cada una de las 16 muestras de una cierta marca de aceite

vegetal hidrogenado y el resultado fue . Suponiendo que la distribución del punto

de fusión es normal con σ= 1.20.

a. Probar H0: contra Ha: por medio de una prueba de dos colas de nivel

Buscando en las tablas, para una prueba de nivel de 0.01, nuestro valor de z debe ser igual a

b. Si se utiliza una prueba de nivel 0.01, ¿cuál es β(94), la probabilidad de un error de

tipo II cuando ?

c. ¿Qué valor de n

PROBLEMA 1

En la tabla se muestran los rendimientos en hl/ha de una cierta variedad de trigo cultivado en

un tipo particular de suelo tratado con químicos A, B o C. Se busca conocer si existe

diferencia significativa entre estos, con un α=0.05.

Tratamiento químico

48 47 49

49 49 51

50 48 50

49 48 50

a. Planteamiento de la hipótesis

b. Se trata de un diseño con: tratamientos y replicas.

c. Calculo de suma de cuadrados

48 47 49 2304 2209 2401

49 49 51 2401 2401 2601

50 48 50 2500 2304 2500

49 48 50 2401 2304 2500

= 196 192 200

= 38416 36864 40000

∑∑

28826 = 588

d. Tabla de ANOVA

Modelo Fuente de

variación

Grados de

libertad

SC CM Fc P

Tratamientos 0.022

e. Conclusiones

Se encontró que existe una diferencia significativa entre los químicos con los cuales se trató

el suelo.

PROBLEMA 2

Una compañía desea comprar una de cinco maquinas diferentes A,B,C,D, o E. En un

experimento diseñado para decidir si hay diferencia en el rendimiento de las maquinas, cinco

operadores trabajan con las maquinas en intervalos iguales. Ensayar la hipótesis de que no

hay diferencia entre las maquinas a un nivel de significancia de α=0.05.

Maquina

A B C D E

68 72 60 48 64

72 52 82 61 65

75 63 65 57 70

42 55 77 64 68

Maquina

A B C D E

68 72 60 48 64 4624 5184 3600 2304 4096

72 52 82 61 65 5184 2704 6724 3721 4225

75 63 65 57 70 5625 3969 4225 3249 4900

42 55 77 64 68 1764 3025 5929 4096 4624

53 48 75 50 53 2809 2304 5625 2500 2809

= 310 290 359 280 320

= 96100 84100 128881 78400 102400

∑∑

99819 = 1559

d. Tabla de ANOVA

Modelo Fuente de

variación

Grados de

libertad

SC CM Fc P

Tratamientos 2.05 0.125

e. Conclusiones

No se encontró evidencia de que existe una diferencia significativa entre las

maquinas con los cuales se trabajó.

PROBLEMA 3

Una planta de enlatado emplea un número muy grande de máquinas para su proceso de

llenado. Se da por hecho que cada máquina vacía un peso especificado del producto en cada

lata. El gerente de la planta sospecha que existe una gran variación en la cantidad de producto

que se vacía entre las distintas maquinas. Para verificar su sospecha, escoge al azar cuatro

máquinas y pesa el contenido de cinco latas, seleccionada de forma aleatoria, llenadas por

cada una de las cuatro máquinas. ¿Qué proporción de la varianza en los pesos puede

atribuirse a las diferencias que existen entre las maquinas?

Maquina

1 2 3 4

1.24 1.2 1.19 1.18

1.22 1.2 1.2 1.18

1.22 1.21 1.19 1.19

1.23 1.22 1.2 1.18

1.23 1.2 1.21 1.2

Maquina

1 2 3 4

1.24 1.2 1.19 1.18 1.5376 1.44 1.4161 1.3924

1.22 1.2 1.2 1.18 1.4884 1.44 1.44 1.3924

1.22 1.21 1.19 1.19 1.4884 1.4641 1.4161 1.4161

1.23 1.22 1.2 1.18 1.5129 1.4884 1.44 1.3924

1.23 1.2 1.21 1.2 1.5129 1.44 1.4641 1.44

= 6.14 6.03 5.99 5.93

= 37.69 36.36 35.88 35.16

∑∑

= 24.09

d. Tabla de ANOVA

Modelo Fuente de

variación

Grados de

libertad

SC CM Fc P

Tratamientos 0.00156 20.86 0.000

e. Conclusiones

Se encontró evidencia de que existe una diferencia significativa entre las medias de los pesos

en máquinas elegidas, la proporción de la varianza en los pesos atribuida a estas diferencias

es ⁄ ⁄

PROBLEMA 4

En un experimento con cinco replicas y cuatro tratamientos con un diseño totalmente

aleatorizado, se cultivaron secciones de tejido de planta de tomate con diferentes cantidades y

tipos de azucares. El crecimiento de tejidos en cada cultivo se da en la tabla siguiente como

mmx10.

Tratamiento

Control (1) 3%Glucosa (2) 3%Fructosa (3) 3%Sacarosa

45 25 28 31

39 28 31 37

40 30 24 35

45 29 28 33

42 33 27 34

Maquina

1 2 3 4

45 25 28 31 2025 625 784 961 2025

39 28 31 37 1521 784 961 1369 1521

40 30 24 35 1600 900 576 1225 1600

45 29 28 33 2025 841 784 1089 2025

42 33 27 34 1764 1089 729 1156 1764

= 211 145 138 170

= 44521 21025 19044 28900

∑∑

22808 = 664

d. Tabla de ANOVA

Modelo Fuente de

variación

Grados de

libertad SC CM Fc

Tratamientos 653.2 217.73 31.67 0.000

Lineal 1 309.760 309.760 39.086 0.000

Cuadrática 1 1.800 0.900 0.114 0.893

Cubica 1 17.640 5.880 0.742 0.542

Error 110 6.875

Total 763.2

e. Conclusiones

Se encontró evidencia de que existe una diferencia significativa entre las medias del

crecimiento de tejidos de tomate en las condiciones analizadas. Se observa además con la

prueba de Dunnett que esta diferencias es entre todos los tratamiento contra el control.

Dado que se rechaza , los datos tienen una regresión lineal de

con una

PROBLEMA 5

Se elaboró un diseño que consistió en cinco densidades de plantas (10,20,30,40,50). Cada uno

de los 5 tratamientos se asignó al azar entre las tres parcelas con un diseño de experimento

con muestras totalmente aleatorio, como se muestra en la siguiente tabla:

Tratamiento

10 20 30 40 50

12.2 16 18.6 17.6 18

11.4 15.5 20.2 19.3 16.4

12.4 16.5 18.2 17.1 16.6

Maquina

10 20 30 40 50

12.2 16 18.6 17.6 18

256 345.9

11.4 15.5 20.2 19.3 16.4

268.96

12.4 16.5 18.2 17.1 16.6

275.56

= 36 48 57 54 51

∑∑

4129.4

8 = 246

d. Tabla de ANOVA

Modelo Fuente de

variación

Grados de

libertad SC CM Fc

Tratamientos 4 87.600 21.900 29.278 0.000

Lineal 1 43.200 43.200 57.754 0.000

Cuadrática 1 42.000 42.000 56.150 0.000

Cubica 1 0.300 0.300 0.401 0.541

Cuarta 1 2.100 2.100 2.807 0.125

10 7.480 0.748

Total 14 95.080

e. Conclusiones

Se encontró evidencia de que existe una diferencia significativa entre las medias de la

cosecha obtenida en las condiciones analizadas. Dado que se rechaza , los

datos tienen una regresión cuadrática de

con una

PROBLEMA 6

La tabla 9-7 muestra los rendimientos en hl/ ha de una cierta variedad de trigo cultivado en

un tipo particular de suelo tratado con químicos A, B o C hallar (a) la gran media para todos

los diferentes tratamientos,(b) la gran media para todos los tratamientos (c) la variación total

(d) la variación entre tratamientos (e) la variación dentro de tratamientos. Utilizar el método

SOLUCION

A B C xij^2

48 47 49 2304 2209 2401

49 49 51 2401 2401 2601

50 48 50 2500 2304 2500

49 48 50 2401 2304 2500

taoj. 196 192 200 38416 36864 40000

tapj.^2 38416 36864 40000

MEDIA 49 48 50

tao 588

Fuente de

variacion gl SC CM F P

Tratamientos 2 8 4 6 0.02208536

Error 9 6 0.66666667

Total 11 14

PROBLEMA 7

Una compañía desea comprar una de cinco maquinas diferentes A, B, C, D. en una diseñado

para decidir si hay diferentes en el rendimiento de las maquinas, cinco operadores

experimentos trabajan con las maquinas durante intervalos iguales. La tabla abajo muestra el

número de unidades producidas. Ensayar la hipótesis de que no hay diferencia entre las

maquinas a un nivel de significación del (a) 0.05, (b) 0.01

Solución

A B C D E xij^2

68 72 60 48 64 4624 5184 3600 2304 4096

72 52 82 61 65 5184 2704 6724 3721 4225

75 63 65 57 70 5625 3969 4225 3249 4900

42 55 77 64 68 1764 3025 5929 4096 4624

53 48 75 50 53 2809 2304 5625 2500 2809

taoj. 310 290 359 280 320 20006 17186 26103 15870 20654

tapj.^2 96100 84100 128881 78400 102400

suma 489881

MEDIA 62 58 71.8 56 64 99819

tao 1559

Fuente de

Tratamientos 4 756.96 189.24 2.0538 0.1253

Error 20 1842.8 92.14

Total 24 2599.8

PROBLEMA 8

Un planta de enlatado emplea un número muy grande de máquinas para su proceso de

llenado.se da por hecho que cada máquina vacía un peso especificado del producto en cada

lata. El gerente de la planta sospecha que existe una gran variación en la cantidad del

producto que se vacía entre las distintas máquinas. Para verificar su sospecha, escoge ala azar

cuatro máquinas y pesa el contenido de cinco latas, seleccionadas en forma aleatoria,

llenadas por cada una de las cuatro maquinas. Los resultados se muestran en la tabla abajo.¿

qué proporción de la varianza en los pesos puede atribuirse a las diferencias que existen entre

las maquinas?

Solución

Tratamiento

1 2 3 4 xij^2

1.24 1.2 1.19 1.18 1.5376 1.44 1.4161 1.3924

1.22 1.2 1.2 1.18 1.4884 1.44 1.44 1.3924

1.22 1.21 1.19 1.19 1.4884 1.4641 1.4161 1.4161

1.23 1.22 1.2 1.18 1.5129 1.4884 1.44 1.3924

1.23 1.2 1.21 1.2 1.5129 1.44 1.4641 1.44

taoj. 6.14 6.03 5.99 5.93 7.5402 7.2725 7.1763 7.0333

tapj.^2 37.6996 36.3609 35.8801 35.1649

suma 145.106

MEDIA 1.228 1.206 1.198 1.186

29.022

tao 24.09

Fuente de

Tratamientos 3 0.004695 0.00157 20.867 9E-06

Error 16 0.0012 7.5E-05

Total 19 0.005895

1 1.24

1 1.22

1 1.23

2 1.21

2 1.22

3 1.19

3 1.21

4 1.18

4 1.19

4 1.18

PROBLEMA 9

Un fabricante de papel está examinando si la resistencia a tracción de un producto de papel se

ve afectada por el concentración madera de La pasta utilizada para los concentraciones

madera producto. Cuatro (5, 10,15 y 20 %; a = 4) son seleccionados por el analista y cinco

muestras (n = 5) se ponen a prueba en cada concentración de resistencia a la tracción, lo que

resulta en la siguiente

Solución

Tratamiento

5 10 15 20 xij^2

7 12 14 19 49 144 196 361

8 17 18 25 64 289 324 625

15 13 19 22 225 169 361 484

11 18 17 23 121 324 289 529

9 19 16 18 81 361 256 324

taoj. 50 79 84 107 540 1287 1426 2323

tapj.^2 2500 6241 7056 11449

suma 27246

MEDIA 10 15.8 16.8 21.4 5576

tao 320

Fuente de

Tratamientos 3 329 109.7 13.85 1E-04

lineal 1 310 309.8 38.13 8E-06

error 18 146 8.124

cuadratica 2 312 155.8 18.33 6E-05

error 17 144 8.496

cubica 3 329 109.7 13.91 1E-04

error 16 126 7.888

Error 16 127 7.925

Total 19 456

PROBLEMA 10

Se eladoro un experimento para estimar la curva de respuesta polinomial que caracteriza esta

relación. El diseño de tratamiento consistió en cinco densidades de plantas (10, 20, 30, 40 y

50).cada uno de los cinco tratamientos se asignó al azar entre las tres parcelas con un diseño

de experimento con muestra totalmente aleatorio. Las cosechas de grano resultantes se

muestran en la tabla abajo

Solución

Tratamiento

10 20 30 40 50 xij^2

12.2 16 18.6 17.6 18 148.84 256 345.96 309.76 324

11.4 15.5 20.2 19.3 16.4 129.96 240.3 408.04 372.49 268.96

12.4 16.5 18.2 17.1 16.6 153.76 272.3 331.24 292.41 275.56

taoj. 36 48 57 54 51 432.56 768.5 1085.2 974.66 868.52

tapj.^2 1296 2304 3249 2916 2601

suma 9765

MEDIA 12 16 19 18 17

tao 246

Fuente de

Tratamientos 4 87.6 21.9 29.3 2E-05

lineal 1 43.2 43.2 10.8 0.0059

error 13 51.88 3.99

cuadratica 2 85.2 42.6 51.7 1E-06

error 12 9.88 0.82

cubica 3 85.5 28.5 32.7 9E-06

error 11 9.58 0.87

cuarta 4 87.6 21.9 29.3 2E-05

error 10 7.48 0.75

Error 10 7.48 0.75

Total 14 95.08

10 12.2

10 11.4

10 12.4

20 15.5

20 16.5

30 18.6

30 20.2

30 18.2

40 17.6

40 19.3

40 17.1

50 16.4

50 16.6

PROBLEMA 11

En un experimento con cinco replicas y cuatro tratamientos con un diseño totalmente

aleatorizados cultivaron secciones de tejido de planta de tomate con diferentes cantidades y

tipos de azucares. El crecimiento de tejidos en cada cultivo se da en la tabla abajo en

siguiente como mm 10

a) Calcule el ICS del 95% de las comparaciones de todos los tratamientos contra el

tratamiento de control, mediante el método de Dunnett.

b) ¿Cuáles son sus conclusiones?

Solución

Tratamiento

A B C D xij^2

45 25 28 31 2025 625 784 961

39 28 31 37 1521 784 961 1369

40 30 24 35 1600 900 576 1225

45 29 28 33 2025 841 784 1089

42 33 27 34 1764 1089 729 1156

taoj. 211 145 138 170 8935 4239 3834 5800

tapj.^2 44521 21025 19044 28900

suma 113490

MEDIA 42.2 29 27.6 34 22808

tao 664

Fuente de variacion gl SC CM F P

Tratamientos 3 653.2 217.7 31.67

Error 16 110 6.875

Total 19 763.2

PROBLEMA 1

Se sabe que el diámetro de los agujeros para una montura de cable tiene una desviación

estándar de 0.01 in. Se obtiene una muestra aleatoria de diez monturas, donde el diámetro

promedio resulta ser 1.5045 in. Utilice α= 0.01.

a. Pruebe la hipótesis de que el diámetro promedio verdadero del agujero es 1.50 in.

b. ¿Cuál es el valor P de esta prueba?

c. ¿Qué tamaño de muestra se necesita para detectar un diámetro promedio verdadero de

1.505 in. Con una probabilidad de al menos 0.90?

d. ¿Cuál es el valor de 13 si el diámetro promedio verdadero del agujero es 1.505 in.?

SOLUTION

a) 1) el parámetro de interés es el verdadero diámetro medio del agujero

2) : μ = 1.50

3) : μ ≠ 1.50

4) α = 0.01

6) rechazar Ho sí < cuando = -2.58 ó > cuando Zo= 2.58

7) = 1.5045, = 0.01

√ = 1.423

8) desde -2.58< 1.423< 2.58, no se puede rechazar la hipótesis nula y la conclusión es que la

verdadero sobre media de diámetro de la agujero no es significativo en diferencia de

1.5pulgada con α

Z de una muestra

Prueba de mu = 1.5 vs. no = 1.5

Estándar de

N Media la media IC de 99% Z P

10 1.50450 0.00316 (1.49635, 1.51265) 1.42 0.155

Z de una muestra

Prueba de mu = 1.505 vs. no = 1.505

estándar de

N Media la media IC de 90% Z P

10 1.50450 0.00316 (1.49930, 1.50970) -0.16 0.874

Z de una muestra

Prueba de mu = 1.5045 vs. < 1.5045

Error Límite

Estándar de superior

N Media la media 90% Z P

10 1.50500 0.00316 1.50905 0.16 0.563

Z de una muestra

Prueba de mu = 1.505 vs. > 1.505

Estándar de 95% Límite

N Media la media inferior Z P

10 1.50450 0.00316 1.49930 -0.16 0.563

CONCLUSIÓN

El intervalo de confianza construida contiene el valor de 1.5, por lo tanto el verdadero

diámetro medio del agujero podría ser 1.5pulgada.usar un nivel de 99% de confianza. Desde

hace dos lados de intervalos de confianza del 99% es equivalente a una prueba de dos

hipótesis de cara α= 0,01 la conclusión necesaria debe ser coherente

PROBLEMA 2

Se utilizan dos máquinas para llenar botellas de plástico con un volumen neto de 16.0 onzas.

Las distribuciones de los volúmenes de llenado pueden suponerse normales, con

desviaciones estándar = 0.020 y = 0.025 onzas. Un miembro del grupo de ingeniería de

calidad sospecha que el volumen neto de llenado de ambas máquinas es el mismo, sin

importar si éste es o no de 16 onzas. De cada máquina se toma una muestra aleatoria de 1 O

Botellas.

Maquina

1 Maquina 2

16.03 16.01

16.02 16.03

16.04 15.96

15.97 16.04

16.05 15.98

15.96 16.02

16.05 16.02

16.01 16.01

16.02 15.99

15.99 16

a. ¿Se encuentra el ingeniero en lo correcto? Utilice a.= 0.05.

b. ¿Cuál es el valor P de esta prueba?

c. Si se supone que el tamaño de las muestras es el mismo, ¿qué tamaño de muestra debe

utilizarse para asegurar que 13 = 0 . 05 si la diferencia verdadera entre las Medias es 0.08?

Suponga que α. = 0.05.

d. ¿Cuál es la potencia de la prueba del inciso a) si la diferencia verdadera entre las medias es

SOLUTION

Resumen para m2

Resumen para m1

INCISOS A) Y B)

Prueba T de dos muestras e IC * NOTA * No se pueden crear gráficas con datos resumidos.

estándar

Muestra N Media Desv.Est. media

1 10 16.0150 0.0200 0.0063

2 10 16.0050 0.0250 0.0079

Diferencia = mu (1) - mu (2)

Estimado de la diferencia: 0.0100

IC de 95% para la diferencia: (-0.0114, 0.0314)

Prueba T de diferencia = 0 (vs. no =): Valor T = 0.99 Valor P = 0.337 GL = 17

INCISO C)

Prueba T de dos muestras e IC

* NOTA * No se pueden crear gráficas con datos resumidos.

estándar

1 10 16.0150 0.0200 0.0063

2 10 16.0050 0.0250 0.0079

IC de 95% para la diferencia: (-0.0114, 0.0314)

Prueba T de diferencia = 0.08 (vs. no =): Valor T = -6.91 Valor P = 0.000 GL= 17

CONCLUSION

Utilizando el criterio de decisión 20 aZZ para rechazar la hipótesis nula H0, nos damos

cuenta de que 0.0114 no es mayor que 0.0314. Por lo cual no rechazamos H0. No existe

suficiente evidencia estadística para pensar que las medias son diferentes.

1er cuartil 15.988

Mediana 16.020

3er cuartil 16.043

Máximo 16.050

15.993 16.037

15.987 16.043

0.021 0.055

A -cuadrado 0.27

V alor P 0.582

Media 16.015

Desv .Est. 0.030

V arianza 0.001

A simetría -0.600526

Kurtosis -0.576623

Mínimo 15.960

Prueba de normalidad de A nderson-Darling

Interv alo de confianza de 95% para la media

Interv alo de confianza de 95% para la mediana

Interv alo de confianza de 95% para la desv iación estándar

16.0416.0216.0015.9815.96

Mediana

16.0416.0216.00

Intervalos de confianza de 95%

Resumen para m1

1er cuartil 15.985

Mediana 16.010

3er cuartil 16.023

Máximo 16.040

15.987 16.023

15.983 16.023

0.018 0.047

A -cuadrado 0.27

V alor P 0.600

Media 16.005

Desv .Est. 0.025

V arianza 0.001

Kurtosis -0.389405

Mínimo 15.960

16.0416.0216.0015.9815.96

Mediana

16.0216.0116.0015.9915.98

Resumen para m2

Cuando rechazamos la hipótesis nula se considera que la prueba es potente, si aceptáramos

la hipótesis nula el criterio de decisión es débil, ya que generalmente se busca rechazar H0.

PROBLEMA 3

Un ingeniero que trabaja para un fabricante de llantas investiga la duración promedio de un

compuesto nuevo de caucho. Para ello, construye 16 llantas y las prueba en una carretera

hasta alcanzar el fin de la vida útil de éstas. Los datos, en km, obtenidos son los siguientes:

60 613 59 836 59 554 60 252

59 784 60 221 60 311 50040

60 545 60257 60000 59 997

69 947 60 135 60 220 60 523

a. Al ingeniero le gustaría demostrar que la vida útil promedio de la nueva llanta excede

los 60 mil km. Proponga y pruebe hipótesis apropiadas. Obtenga una conclusión con

a= 0 05.

b. Suponga que si la vida media es de 61 mil km, al ingeniero le gustaría detectar esta

diferencia con una probabilidad de al menos 0.90. ¿Es adecuado el tamaño de la

muestra, n = 16, utilizado en el inciso a)? Utilice la desviación estándar muestra) s

como una estimación de a para llegar a una decisión.

SOLUTION

a)1) el parámetro de interés es la vida media verdad μ

2) H0: μ = 60000

3) H1: μ > 60000

4) α = 0.05

Z de una muestra: C1

estándar

Variable N Media Desv.Est. media IC de 95% Z P

C1 16 60140 3646 912 (58353, 61926) 0.15 0.878

CONCLUCION

Desde 0.153< 1.753, no se puede rechazar hipótesis nula y la la conclusión es hay

evidencia insuficiente para indicar que la media vida de new llanta en exceso a

60,000km con α 0 0.05

Para usar de curva oc, con α = 0.05, d= 0.274, y n = 16, tuvieron que b≡ 0.72 y la

potencia entre 1-0.72 es 0.28.con la potencia que es chiquito que un nivel aceptable, por

lo tanto 16 no es una muestra adecuado para detectar la diferencia en la probabilidad

menor a 0.90

Con 95% confianza, que tire creernos la vida media es de entre 58353

Y 61926 kilómetros

7000065000600005500050000

Gráfica de caja de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)

7000065000600005500050000

Histograma de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)

7000065000600005500050000

Gráfica de valores individuales de C1(con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3646)

1er cuartil 59876

Mediana 60221

3er cuartil 60470

Máximo 69947

58197 62082

59959 60361

2693 5643

A -cuadrado 3.32

V alor P < 0.005

Media 60140

Desv .Est. 3646

V arianza 13292850

Kurtosis 7.37454

Mínimo 50040

7000065000600005500050000

Mediana

6200061000600005900058000

Resumen para C1

PRUEBA T PAREADA Introduccion

En un diseño pareado las unidades son parecidas (de hecho pueden ser las mismas), mientras

que las unidades de distintos pares son diferentes. En diseños pareados analizamos las

diferencias y el problema se reduce al test t para una media que vimos en el capítulo anterior.

PROBLEMA 1

Se pueden utilizar dos pruebas analítica diferentes para determinar el nivel de impureza en

aleaciones de acero.se prueban ocho especímenes con ambos procedimientos; los resultados

aparecen en la siguiente tabla, ¿existe suficiente evidencie para concluir que ambas prueba

dan el mismo nivel de impureza promedio, utilizando α = 0.01?

Especimen

Prueba

1 Prueba2

1 1.2 1.4

2 1.3 1.7

3 1.5 1.5

4 1.4 1.3

5 1.7 2

6 1.8 2.1

7 1.4 1.7

8 1.3 1.6

SOLUTION

estándar

1 20 1.1500 0.0121 0.0027

2 20 1.06000 0.00810 0.0018

IC de 95% para la diferencia: (0.08338, 0.09662)

Prueba T de diferencia = 0 (vs. no =): Valor T = 27.64 Valor P = 0.000 GL = 33

IC y Prueba T pareada: prueba 1, prueba 2

T pareada para prueba 1 - prueba 2

estándar

N Media Desv.Est. media

prueba 1 8 1.4500 0.2070 0.0732

prueba 2 8 1.6625 0.2774 0.0981

Diferencia 8 -0.2125 0.1727 0.0611

IC de 99% para la diferencia media:: (-0.4262, 0.0012)

Prueba t de diferencia media = 0 (vs. no = 0): Valor T = -3.48 Valor P = 0.010

0.10.0-0.1-0.2-0.3-0.4

Diferencias

Histograma de Diferencias(con Ho e intervalo de confianza t de 99% para la media)

0.10.0-0.1-0.2-0.3-0.4-0.5

Diferencias

Gráfica de valores individuales de Diferencias(con Ho e intervalo de confianza t de 99% para la media)

PROBLEMA 2 Considere los datos adjuntos sobre carga de ruptura (kg/25 mm de ancho) de varias telas

tanto desgastadas como no desgastadas (“The Effect of Wet Abrasive Wear on the Tensile

Properties of Cotton and Polyester-Cotton Fabrics”, J. Testing and Evaluation, 1993: 84-93).

Use la prueba t apareada, como lo hicieron los autores del citado artículo, para probar H0: μD

= 0 contra Ha: μD˃0 a un nivel de significación de 0.01.

1 2 3 4 5 6 7 8

G 36.4 55 51.5 38.7 43.2 48.8 25.6 49.8

G 28.5 20 46 34.5 36.5 52.5 26.5 46.5

0.10.0-0.1-0.2-0.3-0.4-0.5

Diferencias

Gráfica de caja de Diferencias(con Ho e intervalo de confianza t de 99% para la media)

PROBLEMA 3

Se ha identificado cromo hexavalente como carcinógeno inhalado y como una toxina presente

en el aire de interés en varios lugares diferentes. El artículo “Airborne Hexavalent Chromium

in Southwestern Ontario” (J. of Air and Waste Mgmnt. Assoc., 1997: 905-910) reportó los

datos adjuntos tanto de concentración bajo techo como al aire libre (nanogramos/ m3) para

una muestra de casas seleccionadas al azar en cierta región. Calcule un intervalo de confianza

para la diferencia de media de población entre concentraciones bajo techo y a la intemperie

utilizando un nivel de confianza de 95% e interprete el intervalo resultante.

1 2 3 4 5 6 7 8 9

Bajo techo 0.07 0.08 0.09 0.12 0.12 0.12 0.13 0.14 0.15

Intemperie 0.29 0.68 0.47 0.54 0.97 0.35 0.49 0.84 0.86

10 11 12 13 14 15 16 17

Bajo techo 0.15 0.17 0.17 0.18 0.18 0.18 0.18 0.19

Intemperie 0.28 0.32 0.32 1.55 0.66 0.29 0.21 1.02

18 19 20 21 22 23 24 25

Bajo techo 0.2 0.22 0.22 0.23 0.23 0.25 0.26 0.28

Intemperie 1.59 0.9 0.52 0.12 0.54 0.88 0.49 1.24

26 27 28 29 30 31 32 33

Bajo techo 0.28 0.29 0.34 0.39 0.4 0.45 0.54 0.62

Intemperie 0.48 0.27 0.37 1.26 0.7 0.76 0.99 0.36

PROBLEMA 4 La lactancia estimula una pérdida temporal de masa ósea para proporcionar cantidades de

calcio adecuadas para la producción de leche. El artículo “Bone Mass Is Recovered from

Lactation to Postweaning in Adolescent Mothers with Low Calcium Intakes” (Amer. J.

Clinical Nutr., 2004; 1322- 1326) dio los siguientes datos sobre contenido total de minerales

en los huesos del cuerpo (TBBMC, por sus siglas en inglés) (g) para una muestra tanto

durante la lactancia (L) como en el periodo de posdestete (P).

1 2 3 4 5 6 7 8 9 10

L 1928 2549 2825 1924 1628 2175 2114 2621 1843 2541

P 2126 2885 2895 1942 1750 2184 2164 2626 2006 2627

a. ¿Sugieren los datos que el contenido total de minerales en los huesos del cuerpo

durante el posdestete excede el de la etapa de lactancia por más de 25 g? Formule y

pruebe las hipótesis apropiadas utilizando un nivel de significación de 0.05 [Nota: La

curva de probabilidad normal apropiada muestra algo de curvatura pero no suficiente

para sembrar dudas sustanciales sobre una suposición de normalidad.]

Ho: El contenido de minerales durante la lactancia es menor que al momento de estar en la

poslactancia.

Ha: el contenido de minerales es el mismo.

b. Calcule un límite de confianza superior utilizando un nivel de confianza de 95% para

la diferencia promedio verdadera entre TBBMC durante el posdestete y durante la

lactancia.

PRUEBA DE BONDAD DE AJUSTE CHI CUADRADO X2

El procedimiento de la prueba requiere una muestra aleatoria de tamaño n proveniente de la

población cuya distribución de probabilidad es desconocida. Estas n observaciones se pueden

distribuir en k intervalos de clases y pueden ser representadas en histogramas. La prueba se

puede utilizar tanto para distribuciones discretas como para distribuciones continuas

La prueba se puede sintetizar en los siguientes pasos.

1. Se colocan los n datos históricos (muéstrales) en una tabla de

frecuencia de la siguiente manera:

a) Se busca en cuantos intervalos de clases se puede distribuir los datos en estudio lo

cual se puede hacer n=m o alternativamente es muy común utilizar las encontrar el

número de intervalos se aplica la regla de sturges:

m =1+3,3 log n donde n es el número de datos

b) Luego encontramos el rango el cual es la diferencia entre el mayor valor y el menor

valor.

R=Xmax-Xmin

c) Amplitud de cada intervalo está dado por:

d) M se obtienen las frecuencias observadas en cada intervalos se calcula la media, la

varianza y las desviación estándar.

2. Se propone una distribución de probabilidad una distribución de probabilidad de acuerdo

con la tabla de frecuencia o con la curva que muestre un histograma o polígono de

frecuencia.

3. Con la distribución propuesta, se calcula la frecuencia esperada para cada uno de los

intervalos (FEi) de la siguiente manera:

Si la variable es continua se halla mediante la integración de la distribución propuesta

y luego se multiplica por el número total de datos.

Si la variable es continua se utiliza de modelo matemático de la distribución propuesta

y se evalúan todas la categorías y luego se multiplica por el número total de datos.

Nota: El estadístico de prueba tiene distribución Chi cuadrado con, m-k-1 grados de libertad,

siempre que las frecuencias esperadas sean 5 o más para todas las categorías

5. Si el estimador C es menor o igual al valor correspondiente x 2 con m-k-1 grados de bertad

(K= números de parámetros estimados de la distribución propuesta estimada por los

stadísticos muéstrales) y a un nivel de confiabilidad de 1-a, entonces no se puede rechazar la

hipótesis de que los datos siguen la distribución que se propuso.

PROBLEMA 1

Se diseña un generador de números seudoaleatorios de modo que los enteros 0 a 9 misma

probabilidad de ocurrencia. Los primeros 10 mil números son;-

Enteros 0 1 2 3 4 5 6 7 8 9

Números 967 1008 975 1022 1003 989 1001 981 1043 1011

a. ¿el generador trabaja de manera apropiada? Utilice α = 0.01

b. Calcule el valor P de esta prueba

SOLUTION

Prueba de bondad de ajuste para distribución de Poisson

Columna Datos: NUmeros

Media de Poisson para NUmeros = 1000

Probabilidad Contribución

NUmeros Observado de Poisson Esperado a Chi-cuad.

<=975 2 0.219861 2.19861 0.01794

976 - 993 2 0.200686 2.00686 0.00002

994 - 1011 4 0.223102 2.23102 1.40263

1012 - 1021 0 0.108962 1.08962 1.08962

>=1022 2 0.247390 2.47390 0.09078

N N* GL Chi-cuad. Valor P

10 0 3 2.60099 0.457

5 celdas (100.00%) con valores esperados menores que 5.

PROBLEMA 7

Un embotellador de refrescos estudia la resistencia a la presión interna en botellas de vidrio

de un litro. Para ello somete a prueba una muestra aleatoria de 16 botellas y se obtienen los

datos de resistencia a la presión que aparecen en la siguiente tabla. Haga una gráfica de ellos

en papel de probabilidad normal. ¿Parece razonable concluir que la resistencia a la presión

tiene una distribución normal?

976 - 993<=975>=10221012 - 1021994 - 1011

NUmeros

Gráfica de contribución al valor Chi-cudrado por categoría

NUmeros >=10221012 - 1021994 - 1011976 - 993<=975

Esperado

Observado

Gráfica de valores observados y esperados

226.16 psi 211.14 psi

202.2 203.62

219.54 188.12

193.73 224.39

208.15 221.31

195.45 204.55

193.71 202.21

200.81 201.63

Solución

a) 1) el parámetro de interés es la verdadera resistencia a la compresión media, μ.

2) Ho: μ = 3500

3) μ ≠ 3500

4) α = 0.01

5) Zo =

6) Rechazar Ho sí

cuando – ó

cuando

7) ẋ = 3250, 𝛔 = 31.62

Desde -27.39 < -2.58, rechazar la hipótesis nula y concluir la verdadero que la media

compresivo significativo en diferente en 3500 con α 0 0.01

b) menor nivel de significación de p-valor = 2[1- -2[1-1]=0

El nivel más pequeño de significancia mínimo al que estamos dispuestos a rechazar la

hipótesis nula es 0.

= = 1.96

ẋ - (

√ ) ẋ + (

3250- 1.96(

√ ) 3250 + (

3232.11 3267.89

Con una confianza del 95%, creemos que la verdadera resistencia a la compresión

media es de entre 3.232,11psi y 3267.89psi

= = 2.58

e) ẋ - (

√ ) ẋ + (

3250 – 2.58(

√ ) 32.50 + (

3226.5 3273.5

CONCLUCION

Con una confianza del 95%, creemos que la verdadera resistencia a la compresión

media es de entre 3226.5 psi y 3273.5 psi.

el intervalo de confianza del 99% es más ancha que la confianza de 95% intervalo de

confianza con el mayor nivel de confianza siempre resultará en un intervalo de

confianza más amplio cuando significa ẋ, y n, se mantienen constantes

PRUEBA DE HIPOTESIS SOBRE DOS PROPORCIONES

PROBLEMA # 1

Un científico de la computación está investigando la utilidad de los lenguajes de diseño para

mejorar las tareas de programación.se pide a doce programadores expertos, familiarizados

con los dos lenguajes, que codifiquen una función estándar en ambos lenguajes, anotando el

tiempo, en minutos, qué requieren para hacer esta tarea. Los datos obtenidos son los

siguientes:

Encuentre un interval de confianza de 95% para la diferencia en los tiempos de codificaacion

promedio.¿existe algo que indique una preferencia por alguno de los lenguajes?

Solución

Paired T-Test and CI: Lenguaje de diseño 1, Lenguaje de diseño 2

Paired T for Lenguaje de diseño 1 - Lenguaje de diseño 2

Lenguaje de dise 12 17.9167 3.6296 1.0478

Lenguaje de dise 12 17.2500 4.5950 1.3265

Difference 12 0.666667 2.964436 0.855759

95% CI for mean difference: (-1.216846, 2.550179)

T-Test of mean difference = 0 (vs not = 0): T-Value = 0.78 P-Value = 0.452

Histogram of Differences

Individual Value Plot of Differences

Lenguaje de dise 12 17.9167 3.6296 1.0478

Lenguaje de dise 12 17.2500 4.5950 1.3265

Difference 12 0.666667 2.964436 0.855759

95% upper bound for mean difference: 2.203511

T-Test of mean difference = 0 (vs < 0): T-Value = 0.78 P-Value = 0.774

Lenguaje de dise 12 17.9167 3.6296 1.0478

Lenguaje de dise 12 17.2500 4.5950 1.3265

Difference 12 0.666667 2.964436 0.855759

95% lower bound for mean difference: -0.870178

T-Test of mean difference = 0 (vs > 0): T-Value = 0.78 P-Value = 0.226

7.55.02.50.0-2.5-5.0

Differences

7.55.02.50.0-2.5-5.0

Differences

7.55.02.50.0-2.5-5.0

Differences

7.55.02.50.0-2.5-5.0

Differences

PROBLEMA # 2

En una muestra aleatoria de 500 adultos residentes en cierto condado, se encuentra que 385

están a favor de aumentar el límite de velocidad en las autopistas a 70mph, mientras que en

otra muestra de 400 adultos residentes en un condado vecino se encuentra que 267 están a

favor del aumento del límite de velocidad. ¿Estos datos indican que existe una diferencia en

el apoyo al aumento del límite de velocidad entre los residentes de ambos condados? Utilice a

= 0.05 para llegar a una conclusión. Encuentre el valor P de esta prueba.

Solución

Bienvenido a Minitab, presione F1 para obtener ayuda.

Prueba e IC para dos proporciones

Muestra X N Muestra p

1 385 500 0.770000

2 267 400 0.667500

Diferencia = p (1) - p (2)

IC de 95% para la diferencia: (0.0434059, 0.161594)

Prueba para la diferencia = 0 vs. no = 0: Z = 3.42 Valor P = 0.001

Prueba exacta de Fisher: Valor P = 0.001

PROBLEMA # 3

Se estudia la fracción de circuitos integrados defectuosos producidos en un proceso de

fotolitografía. Para ello se somete a prueba una muestra de 300 circuiros, en la que 13 son

defectuosos. Utilice los datos para probar Ho: p= 0.05 contra H1: p ≠ 0.05.utilice α = 0.05.

Encuentre el valor P para prueba

SOLUCION

Prueba e IC para una proporción

Prueba de p = 0.05 vs. p no = 0.05

Muestra X N Muestra p IC de 95% Valor Z Valor P

1 13 300 0.043333 (0.020294, 0.066373) -0.53 0.596

Uso de la aproximación normal.

PROBLEMA # 4

Se investigan los puntos de fusión de los aleaciones utilizadas en la fabricación de soldadura.

Para ello, se funden 20 muestra de cada material. La media muestral y la desviación estándar

de la aleación 1 son = 421 y =4 , mientras que para la aleación 2 los resultados

son = 426 y =3 . ¿Los datos contenidos en la muestra apoyan la afirmación de que

dos aleaciones tienen el mismo punto de fusión? Utilice α = 0.05 suponga que ambas

poblaciones tienen las mismas desviaciones estándar. Encuentre el valor de esta prueba.

Solución

estándar

1 20 421.00 4.00 0.89

2 20 426.00 3.00 0.67

Estimado de la diferencia: -5.00

IC de 95% para la diferencia: (-7.27, -2.73)

Prueba T de diferencia = 0 (vs. no =): Valor T = -4.47 Valor P = 0.000 GL = 35

estándar

1 20 421.00 4.00 0.89

2 20 426.00 4.00 0.89

PROBLEMA # 5

En la fabricación de semiconductores, menudo se utiliza una sustancia química para quitar el

silicón de la parte trasera de las obleas antes de la metalización. En este proceso es

importante la rapidez con la que actúa la sustancia.se han comparado dos soluciones

químicas. Utilizando para ello dos muestras aleatorias de 10 obseas para cada solución. La

rapidez de acción observada es la siguiente (en mils/ min.);

a) ¿los datos apoyan la afirmación de que la rapidez promedio de acción es la misma para

ambas soluciones? para obtener sus conclusiones, utilice α= 0.05 y suponga que las

varianza de ambas poblaciones son iguales.

b) Calcule el valor P para la prueba del inciso a)

c) Construya diagramas de caja para las dos muestras.¿ estas graficas apoyan la hipótesis de

que las varianza son iguales’ escriba una interpretación practica de estas grafica

Solución

Bienvenido a Minitab, presione F1 para obtener ayuda.

Prueba T e IC de dos muestras: Sol 1, Sol 2

T de dos muestras para Sol 1 vs. Sol 2

estándar

N Media Desv.Est. media

Sol 1 10 9.970 0.422 0.13

Sol 2 10 10.400 0.231 0.073

Diferencia = mu (Sol 1) - mu (Sol 2)

Ambos utilizan Desv.Est. agrupada = 0.3400

Gráfica de caja de Sol 1, Sol 2

Sol 2Sol 1

Gráfica de caja de Sol 1, Sol 2

Conclusión

En la gráfica, solución 2 indicar que tiene alta nivel de concentración más de solución 1

Los resultados de cada solución atreves la gráfica indica que la solución 1 fue 9.9

concentración y la concentración 2 fue 10.3 concentración más de solución 1

TESTS ON THE MEAN OF A NORMAL DISTRIBUTION, VARIANCE KNOWN

Introducción

Varianza conocida: Este caso que se plantea es más a nivel teórico que práctico porque

difícilmente vamos a poder conocer con exactitud mientras que µ es desconocido. Sin

embargo nos aproxima del modo más simple a la estimación de medias.

Para estimar µ, el estadístico que mejor nos va a ayudar es , del que conocemos su ley de

distribución (referenciada en la unidad anterior).

Este es el modo más conveniente para hacer una estimación: Buscar una relación en la que

intervengan el parámetro desconocido junto con su estimador, de modo que estos se

distribuyan según una ley de probabilidad que es bien conocida y a ser posible tabulada.

De este modo, fijado α (valor arbitrario y cercano a 1), se toma un intervalo que contenga

una masa de probabilidad de 1 - α. Lo ideal es que este intervalo sea lo más pequeño posible;

por ello lo mejor es tomarlo simétrico con respecto a la media ya que allí es donde se

acumula más masa en una distribución normal. Así, las dos colas de la distribución (zonas

más alejadas de la media) tendrán áreas iguales.

aaa 1)( 2/2/ ZZZP

Como n

a aa 1)//( 2/2/ nZXnZXP

Varianza poblacional desconocida: Como se ha mencionado, el caso anterior se presentará

poco en la práctica, ya que lo usual es que el valor exacto de los parámetros µ y no sean

conocidos; de lo contrario, no interesaría en buscar intervalos de confianza para ellos.

Si la muestra tomada es grande, un procedimiento aceptable consiste en reemplazar σ por el

valor calculado de la desviación estándar muestral.

Cuando el tamaño de la muestra es pequeño debe emplearse otro procedimiento. Para

producir un intervalo de confianza válido debe hacerse una hipótesis más fuerte con respecto

a la población de interés y es que ella está distribuida normalmente. Esto conduce a intervalos

de confianza basados en la distribución t de Student, que es una distribución continua que

tiene una forma muy similar a la distribución normal estándar (tiene forma de campana y es

simétrica con una media de 0); una distribución t específica depende de un parámetro llamado

grados de libertad, que para efectos de esta unidad equivale a n – 1. A medida que aumenta

la cantidad de grados de libertad, la diferencia entre la distribución t y la distribución normal

estándar se hace más y más pequeña.

Si se asume que la población está distribuida normalmente los intervalos de confianza se

basan en la distribución t de Student.

Cuando se revisaron las distribuciones muéstrales se determinó que

Con n – 1 grados de libertad.

Si se escoge un intervalo central en la distribución t, -tα/2,n-1 y tα/2,n-1 son los puntos críticos y,

por lo tanto:

aaa 1)( 1,2/1,2/ nn tTtP

De allí se obtiene un intervalo de confianza dado por:

nstXnstX nn // 1,2/1,2/ aa

QUESTION #1

Aircrew escape systems are powered by a solid propellant. The burning rate of this propellant

is an important product characteristic. Specifications require that the mean burning rate must

be 50 centimetres per second. We know that the standard deviation of burning rate is σ=2

centimetres per second. The experimenter decides to specify a type I error probability or

significance level of α=0.05 and selects a random sample of n = 25 and obtains a sample

average burning rate of ẋ=51.3 centimetres per second. What conclusions should be drawn?

Solution

We may solve this problem by following the eight-step procedure. This result in

1. The parameter of interest is μ = 50 centimetres per second

2. Ho : μ=50 centimetres per second

3. : μ ≠ 50 centimetres per second

4. α = 0.05

5. The test statistic is

6. Reject Ho if Zo > 1.96 or if z< -1.96. Note that this results from step 4, where we

Specified α = 0.05, and so the boundaries of the critical region are at = 1.96

And = -1.96

7. Computations: Since ẋ=51.3 and σ = 2,

√ = 3.25

8. Conclusion: Since = 3.25> 1.96 we reject Ho: μ= 50 at the 0.05 level of

significance. Stated more completely, we conclude that the mean burning rate differs

from 50 centimeters per second, based on a sample of 25 measurements. In fact, there

is strong evidence that the mean burning rate exceeds 50 centimeters per second.

We may also develop procedures for testing hypotheses on the mean μ where the

alternative hypothesis is one-sided. Suppose that we specify the hypotheses as

Ho: μ= μo

H1: μ > μo

CONCLUSION

In defining the critical region for this test, we observe that a negative value of the test statistic

Zo would never lead us to conclude that Ho: μ= μo is false. Therefore, we would place the

critical region in the upper tail of the standard normal distribution. and reject H if the

computed value of <

QUESTION #2

Aircrew escape systems are powered by a solid propellant. The burning rate of this propellant

is an important product characteristic. Specifications require that the mean burning rate must

be 50 centimetres per second. We know that the standard deviation of burning rate is σ=2

centimetres per second. The experimenter decides to specify a type I error probability or

significance level of α=0.05 and selects a random sample of n = 25 and obtains a sample

average burning rate of ẋ=51.3 centimetres per second. What conclusions should be drawn?

SOLUTION

We may solve this problem by following the eight-step procedure. This results in

1. The parameter of interest is μ = 50 centimetres per second

2. Ho : μ=50 centimetres per second

3. H1: μ ≠ 50 centimetres per second

4. α = 0.05

5. The test statistic is

6. Reject Ho if Zo > 1.96 or if z< -1.96. Note that this results from step 4, where we

specified α = 0.05 , and so the boundaries of the critical region are at Z0.025 = 1.96

and Z0.025 = -1.96

7. Computations: Since ẋ=51.3 and σ = 2,

√ = 3.25

8. Conclusion: Since Zo = 3.25> 1.96 we reject Ho: μ= 50 at the 0.05 level of significance.

Stated more completely, we conclude that the mean burning rate differs from 50 centimetres

per second, based on a sample of 25 measurements. In fact, there is strong evidence that the

mean burning rate exceeds 50 centimetres per second.

We may also develop procedures for testing hypotheses on the mean μ where the alternative

hypothesis is one-sided. Suppose that we specify the hypotheses as

Ho: μ= μo

H1: μ > μo

CONCLUSION

In defining the critical region for this test, we observe that a negative value of the test

statistic Zo would never lead us to conclude that Ho: μ= μo is false. Therefore, we would

place the critical region in the upper tail of the standard normal distribution. and reject H if

the computed value of Zo < Zα

QUESTION #3

Reconsider the chemical process yield data from exercise 8-9, recal that σ=3, yield I normally

distribution and that n=5, observation on yield are 91.6%, 88.75%, 90.8%, 89.95% and

91.3% use α =0.05

a) Is there evidence that the mean yield is not 90%?

b) What is the Value for this test?

c) What sample size would be required to detect a true mean yield of 85% with probability

of 0.95%

Solution

a) 1) The parameter of interest is the true mean yield, μ.

2) Ho: μ= 90

3) H1: μ ≠ 90

4) α = 0.05

5) Zo =

6) Reject Ho if Zo Zo < Zα/2 where –Z0.025 = -1.96 or Zo > Zα/2 where Z0.025 = 1.96

7) Ẋ=90.48, σ=3

√ = 0.36

8) a) Since -1.96 < 1.96 do not reject Ho and conclude the yield is not significantly

different from 90% at α = 0.05

b) P-value =2[1-

c) n= ( –

( ) = 4.67

(n is approximately 5)

d(1.96+-1.491)(-1.96+-1.491)

0.47-3.45

= 0.68082-(1-0.99972)

= 0.68054

e) For α= 0.05, ⁄= = 1.96

Ẋ= = (

√ ) 90.48+ 1.96(

87.85 93.11

With confidence, we believe the true yield of the chemical process between 87.85% and

93.11%

QUESTION # 4

Suponga que un nuevo diseño del sistema de frenos en un cierto tipo de carro ha sido

propuesto para mejorar la distancia de frenado. Con el sistema actual la distancia promedio es

de 120 pies cuando la velocidad es de 40 Millas por hora y bajo otra serie de condiciones

especificadas. Se propone que el nuevo sistema sea implementado solo si los datos muestrales

usando el nuevo sistema indican fuertemente una reducción en el promedio de la distancia de

frenado.

El nuevo sistema de frenado es instalado en 36 vehículos y la distancia de frenado evaluada

bajo las condiciones establecidas. Suponga que la media de los 36 vehículos fue 117.8 pies.

a) Cuál es la variable de interés.

b) Cuál es la distribución de probabilidad que puede describir la variable de

interés.

c) Defina el juego de hipótesis.

d) Suponiendo una varianza de 100, establezca la distribución de las medias

muéstrales bajo la hipótesis nula.

e) Determine la zona de rechazo con valores críticos de Z y su correspondiente

media de rechazo con un nivel de significancia de 0.01.

SOLUCION

Ho: µ 120 pies.

Ha: µ < 120 pies.

Por ser una variable donde nos interesa la media como parámetro y una muestra mayor de

30, entonces la estadística de prueba es la Z, definida como:

Donde X es la media muestral calculada a partir de la muestra de tamaño 36.

es la media de la población, que bajo la hipótesis nula es igual a 120.

6667.16

10 Es el error estándar de la media.

Entonces, bajo la hipótesis nula la Z se distribuye normal con media cero y varianza 1, es

decir, normal estándar.

Para el nivel de significancia fue fijado en 0.01 y de acuerdo a la alternativa, la zona de

rechazo es a la izquierda, por lo que el valor crítico es: Z.01= -2.3263

El valor crítico en términos de las medias muestrales se calcula a partir de la expresión de

Z, dando como resultado:

116.1227 X 1.6667

120 - X 3263.2 R

Por lo que la zona de rechazo en términos de las medias muéstrales son los valores

menores o iguales a 116.1227.

CONCLUSION

Ya que el nivel observado de significancia es mayor que el nivel de significancia de la

prueba, la decisión es que no existe suficiente evidencia para rechazar la hipótesis nula. La

conclusión es que el nuevo sistema de frenado no reduce significativamente la distancia de

frenado y por lo tanto el nuevo sistema no debe ser adoptado.

QUESTION #5

An engineer who is studying the tensile strength of a steel alloy intersted for use in golf club

shafs knows thaht tesnsile stremng isapreoxiamtegly normally distributes with tensile

strength of Ẋ= 3250 psi.

a) Test the hypothesis that mean strength is 3500psi.use α= 0.01

b) What’s the smallest level of significance at which you would be willing to reject the

null hypothesis?

c) Explain how you could answer the question in part a) with a two sided confident

interval on mean tensile strength

Solution

a) 1) the parameter of interest is the mean tensile strength

2) : μ= 3500

3) : μ ≠ 3500

4) α= 0.01

5) : =

6) Reject Ho if Zo < - ⁄ where - = -2.58

7) Ẋ=3250, = 60

√ = -14.43

8) Since -14.43<-2.58 .reject the null hypothesis and include the true mean

compressive strength is significantly different from 3500 at α= 0.01

a) Smallest level of significance = P-value = 2[1-

The smallest level of significance at which we are willing to reject null is hypothesis

b) ⁄ = = 1.96

Ẋ - (

√ ) C Ẋ + (

3250-1.96(

√ ) μ 3250 + (

3232.11 μ 3267.89

CONCLUSION

With 95% confident, we believe the true mean tensile strength is between 3232.11psi and

3267.89psi.we can test the hypothesis that the true mean strength is not equal to 3500 by

nothing that value is not within the confident interval.

QUESTION #6

A 1992 article in the journal of America medical association ( ´´A Critical appraisal of 98.6

Degrees F, the upper limit of the Normal body temperature, and other legacies of carl

reinhold august wundrlich´´) reported body temperature ,gender and heart rate for a number

of subjects. the body temperatures for 25 females subjects follow;

97.8,97.2,97.4,97.6,97.8,97.9,98.0,98.0,98.1,98.2,98.3,98.3,98.4,98.4,98.4,98.5,98.6,98.6,98.

7,98.8,98.8,98.9,98.9, and 99.0.

a) Test the Hypothesis : μ = 98.6 versus : μ≠ 98.6 using α= 0.05.find the P-value.

b) Compute the power of the test if the true mean female body temperature I as low as

c) What sample size would be required to detect a true mean female body temperature as

low as 98.2 if we wanted the power of body test to be at least 0.9?

d) Explain how the question in part a) could be answered by constructing a two sided

confidence interval on the mean female body temperature

e) Is there evidence to support the assumption that female body temperature is normally

distributed

Solution

a) steps

1) The parameter of interest is the true mean female body temperature, μ.

2) 2) : μ= 98.6

3) 3) :: μ ≠ 98.6

4) 4) α= 0.05s

5) 5) : =

6) Reject Ho if | | ⁄ = 2.064

7) ẋ=98.264, 0.4821, n = 25

√ = -3.48

8) Since 3.48 2.064, reject the null hypothesis and conclude that there is sufficient

evidence to conclude that the true mean female body temperature is not to 98.6Ḟ at

α= 0.05.

P-value = 2* 0.001= 0.002

|=1.24

Using the OC curve, for α= 0.05, d = 0 1.24 and n= 025, we get =0 and power of

1-0 = 1

c) d = d=

|=0.83

Using OC curve, for α= 0.05, d = 0.83 and ń = 20 we get =0.1(power =0.9),

Therefore n =

= 10.5 and n = 11.

95% two sided confidence interval

ẋ - (

√ ) μ ẋ + (

98.264-2.064(

√ ) μ 98.264 + 2.064(

98.065 μ 98.463

CONCLUSION

We can conclude that the mean female body temperature is not equal to 98.6 since the value

is not include inside the confidence interval

PROBLEMA 7

En una estudio sobre presión sanguina se mide la presión diastólica de 37 pacientes

hipertensos al principio del estudio.se someten a tratamiento y al cabo de los semanas se mide

de nuevo la presión diastólica. La variable descenso (presión basal-presión a la 2 semanas)

presenta una media en la muestra de 2.36mmHg y una desviación estándar de 4.80. ¿Puede

decirse, con un nivel de significancia del 5%, que el tratamiento produce un descenso

estadísticamente significativo en la presión diastólica media de las pacientes hipertensiones?

SOLUCIÓN

Se defina la hipótesis

: ≠ μ

Calcula Tc =

√ = 3.35

One-Sample T

Test of mu = 5 vs not = 5

N Mean StDev SE Mean 95% CI T P

37 2.360 4.800 0.789 (0.760, 3.960) -3.35 0.002

CONCLUCION

El descenso medio de la presión diastólica basal tras 2 semanas de tratamiento esta 0.76

y 3.96mmHg con nivel de confianza del 95%

La diferencia de medias es significativamente distinta de cero (p= 0.002); o sea que hay

una diferencia estadísticamente significativa entre la media basal y la media al cabo de 2

semanas.

Distribution PlotT, df=37

PROBLEM 8

Consider the following frequency table of observations on the random variable X

Value 0 1 2 3

Observed frequency 24 30 31 11

a) Based on these 100 observations, is a Poisson distribution with a mean of 1.2 an

appropriate model? Perform a goodness-of-fit procedure with α=0.05

b) Calculate the P-value for this test

Solution

Value 0 1 2 3

Expected frequency 30.12 36.14 21.14 11.67

Since value 4 has an expected frequency less than 3, combine this category with the previous

category;

Value 0 1 2 3

Expected frequency 30.12 36.14 21.14 11.67

The degree of freedom are k-p-1 = 4-0-1= 3

a) 1) the variable of interest is the form of the distribution for X

2) : the form of the distribution is Poisson

3) : the form of the distribution is not Poisson

4) α = 0.05

5) The test statistic is = ∑

6) Reject :

= 7.81

= 7.23

8) Since 7.23 7.81 do not reject . We are unable to reject the null hypothesis that

the distribution of X is Poisson.

b) The P-value is between 0.05 and 0.1 using for the table P-value = 0.0649

VARIANZAS POBLACIONALES CONOCIDAS

PROBLEMA #1

Un psicólogo escolar utiliza un test de comprensión verbal recientemente traducido del

inglés, que proporciona puntuaciones en un nivel de medida de intervalo. Se sabe, por

investigaciones anteriores, que las varianzas en la población son para niños y niñas

= 36 y

= 49 respectivamente. Las investigaciones anteriores también indican que la

media es la misma en ambos grupos, pero este último aspecto no ha sido comprobado con

muestras españolas. El psicólogo considera que la traducción del test no es muy acertada y

puede provocar diferencias que en realidad no se deben a la comprensión verbal, por lo que

selecciona aleatoriamente una muestra de 100 niños y otra muestra de 200 niñas obteniendo

una media igual a 20 para los niños e igual a 17,5 para las niñas. Con un nivel de confianza

del 95%. ¿Podemos afirmar que la puntuación media en el test de comprensión verbal es la

misma para niños y niñas?

Condiciones y supuestos. Tenemos un diseño de dos muestras independientes (niños y

niñas), seleccionadas de dos poblaciones con varianzas conocidas (el psicólogo asume que las

varianzas de las poblaciones de niños y niñas son las que reflejan las investigaciones

anteriores), donde la variable dependiente (comprensión verbal) proporciona puntuaciones en

una escala de intervalo. Aunque no sabemos si las poblaciones se distribuyen normalmente,

trabajamos con muestras que son lo suficientemente grandes ( En

definitiva se cumplen los siguientes supuestos:

- Variable dependiente con un nivel de medida de intervalo o razón.

- Dos poblaciones que se distribuyen normalmente, o bien

- Varianzas poblacionales conocidas.

Formular las hipótesis. En este caso el psicólogo piensa que pueden existir diferencias pero

no tiene una hipótesis previa sobre la dirección de las mismas, por lo que planteamos un

contraste de hipótesis bilateral:

μ1μ2 = 0 μ1μ2

μ1μ2 ≠ 0 , o bien μ1μ2

Estadístico de contraste y su distribución muestral.

Conocemos las varianzas de las dos poblaciones y trabajamos con muestras grandes, lo que

nos permite asumir la normalidad de la distribución muestral de las diferencias entre medias.

Siendo el grupo 1 el de niños y el 2 el de niñas, el estadístico de contraste es igual a:

Z = ( (

Observamos que la fórmula del estadístico de contraste sigue el mismo esquema general visto

en el Tema 1, cuantificando la discrepancia entre la diferencia de medias observada entre las

dos muestras frente a una diferencia nula planteada en la hipótesis nula medida en unidades

de desviación típica. Por tanto, en el numerador tenemos la diferencia entre el valor del

estadístico en la muestra ( respecto del valor del parámetro que postula la hipótesis

nula (μ1 2).Habitualmente la hipótesis nula, como en este caso, especificará que no

existe diferencia entre las medias poblacionales, por lo que el término nula (μ1 2), es

igual a

cero. Por este motivo, generalmente calcularemos el estadístico de contraste mediante la

siguiente ecuación:

Podemos calcular el nivel p-crítico en la tabla de curva normal, que como sabemos es la

probabilidad de obtener un valor como el observado o más extremo, suponiendo que la

hipótesis nula es cierta. Primero buscamos la probabilidad de encontrar valores superiores a

Tabla de curva normal

Z = 3.21=>=>=>=>===>=>=>=>=>=>=>=> p = 0.9993 =>=>=> (1-0.9993) = 0.0007

Y como el contraste es bilateral multiplicamos por dos el valor obtenido:

Nivel p-crítico _ 2*0.0007 = 0.0014

Establecer la regla de decisión en función del nivel de confianza.

El nivel de significación es del 5% y el contraste es bilateral, por lo que los valores críticos

que delimitan cuándo mantenemos y cuándo rechazamos la hipótesis nula son las

puntuaciones típicas: Z ±1.96.

Distribución muestral de las diferencias entre medias según especifica la hipótesis nula.

Varianzas poblacionales conocidas

Conclusión.

Vemos claramente en la Figura Ariba, que el estadístico de contraste (Z = 3.21) no pertenece

a la zona de valores compatibles con que definen las puntuaciones ±1,96 (3.21 1.96), por

lo que rechazamos la hipótesis nula. En otras palabras, el estadístico de contraste (la

discrepancia observada) supera la diferencia que cabría esperar por simple azar. En general,

en un contraste bilateral, mantendremos la hipótesis nula cuando el estadístico de contraste no

alcance el valor crítico

o bien Z

Si utilizamos el nivel p-crítico para concluir qué decisión tomar con respecto a H llegamos a

la misma conclusión, puesto que 0.0014 < 0.05 (en general, p a). Como se ha expuesto en

los temas anteriores, el comparar el nivel crítico con el nivel de significación nos proporciona

más información que la comparación del estadístico de contraste con el valor crítico, puesto

que vemos claramente que es muy improbable que siendo la hipótesis nula verdadera

obtengamos dos muestras cuyas medias tengan una diferencia como la observada.

El resultado sería significativo incluso a un nivel de confianza superior al 99%.

Interpretar el resultado en función del contexto de la investigación. Las sospechas del

psicólogo parecen fundadas. Las diferencias entre niños y niñas en fluidez verbal son

significativas, y pueden deberse a la deficiente traducción del test.

Intervalo de confianza. Si estuviéramos interesados en calcular el intervalo de confianza, lo

haríamos mediante la expresión:

Que en nuestro caso queda:

(20 – 17.5) ± 1.96 √(√

) =>=>=> 2.5 ± 1.52 =>=>=> (0.98; 4.02)

Es decir, con un nivel de confianza del 95% la diferencia entre la media de los niños y la

media de las niñas en el test de fluidez verbal oscila entre 0,98 y 4,02 puntos a favor de los

primeros. Al no contener el valor cero, no podemos admitir la hipótesis nula: μ1 2 = 0

PROBLEMA #2

En un estudio sobre depresión en personas mayores llevado a cabo en un centro geriátrico, se

quiere comprobar si las personas ingresadas que no reciben visitas de sus familiares tienen

una puntuación media en depresión superior a aquellas personas cuyos familiares les visitan

con frecuencia. Para comprobar esta hipótesis, se seleccionaron aleatoriamente 41 personas

que no reciben visitas obteniéndose una puntuación media de 20 puntos con una

cuasivarianza igual a 100, mientras que en una muestra aleatoria de 31 personas que si

reciben visitas con frecuencia la media fue igual a 15 con una cuasivarianza igual a 90.

Suponiendo que las varianzas en la población son iguales para ambos grupos, y con un nivel

de confianza del 99% ¿podemos decir que los datos obtenidos avalan la hipótesis de partida?

Condiciones y supuestos. Los requisitos en este caso son iguales que en el caso anterior. La

única diferencia es que no conocemos las varianzas poblacionales, si bien las suponemos

iguales. Comprobamos pues que se cumplen los siguientes puntos:

Variable dependiente con un nivel de medida de intervalo o razón. Suponemos que el

test de depresión proporciona medidas en una escala de intervalo.

No sabemos si la distribución en la población es normal, pero salvamos este obstáculo

utilizando dos muestras con 30 o más observaciones cada una.

Varianzas poblacionales desconocidas y supuestas iguales. Veremos posteriormente

cómo contrastar diferencias entre dos varianzas. En cualquier caso, la diferencia entre

las varianzas de las muestras es pequeña.

Formular las hipótesis. Partimos de la idea de que la depresión media es superior en las

personas que no reciben visitas de sus familiares (Grupo 1) respecto de las personas que

reciben con frecuencia visitas de sus familiares (Grupo 2), por lo que realizamos un contraste

unilateral derecho. Las hipótesis en este caso han de ser:

μ1μ2 0 μ1 μ2

μ1μ2 0 , o bien μ1 μ2

Estadístico de contraste y su distribución muestral. El estadístico de contraste en este caso

se distribuye según t de Student con - 2 grados de libertad, y adopta la siguiente

expresión:

Como comentábamos anteriormente, el término , habitualmente es igual a cero, por

lo que calcularemos el estadístico de contraste, mediante la siguiente ecuación.

Como comentábamos anteriormente, el término: =41 +31-2 = 70 grados de

libertad, siendo el estadístico de contraste igual a:

√(( (

= 2.15

Establecer la regla de decisión en función del nivel de confianza. Buscamos en las tablas

de t de Student el valor crítico, que en este caso es igual a la puntuación que supera al 99% de

la distribución para 70 grados de libertad: = 2,381

Varianzas poblacionales desconocidas pero supuestas iguales (

El nivel p-crítico es igual a p = 0.0175. No podemos calcularlo exactamente en las tablas del

apéndice, pero podemos utilizarlas para hallar un valor aproximado. Observamos en la tabla t

de Student, que para 70 grados de libertad nuestro estadístico de contraste se encuentra entre

las puntuaciones 1.994 y 2.381 (1.994 < 2.15 < 2.381) que dejan por encima de si

respectivamente las proporciones: 0,025 y 0,01, luego el nivel p-crítico se encontrará entre

estos dos valores (0.01 < p < 0.025).

Conclusión.

Como podemos apreciar en el Figura arriba, el valor del estadístico de contraste no supera

al valor crítico (2.15 2.381) por lo que la diferencia encontrada no es significativa con un

nivel de confianza del 99%. En general, y como en situaciones anteriores, en un contraste

unilateral derecho mantendremos la hipótesis nula cuando el estadístico de contraste no

supere el valor crítico, es decir, si T , y la rechazaremos en caso contrario, es

decir, cuando T . Si comparamos el nivel p-crítico con el nivel de

significación, llegamos a la misma conclusión (0.0175 > 0.01).

Interpretar el resultado en función del contexto de la investigación. Al nivel de confianza

del 99% los resultados no indican que la puntuación media en depresión es mayor en el grupo

de sujetos que no reciben visitas respecto de los que sí las reciben. Pero los resultados sí son

Significativos al nivel de confianza del 95%, como apreciamos al comparar el nivel de

significación con el nivel crítico. Quizás fuera conveniente profundizar en la relación entre

ser visitado o no por los familiares y puntuar más alto en depresión en las personas que

permanecen ingresadas en centros geriátricos.

Intervalo de confianza. Utilizamos para su cálculo la expresión que puede verse en la

Ecuación abajo:-

( ± ⁄√(

( ± √(

)) 5 6.16 (-1.16 ; 11.16)

Observamos que el intervalo de confianza contiene el valor cero, luego al nivel de confianza

del 99% asumimos que las diferencias entre las medias en la población pueden tomar este

valor, y por lo tanto no podemos rechazar la hipótesis nula.

PROBLEMA #3

Un laboratorio desarrolla un fármaco con el que se pretende reducir la ansiedad. Para

comprobarlo, se extrajeron dos muestras aleatorias de cinco observaciones cada una que

suponemos procedentes de poblaciones que se distribuyen normalmente con distinta varianza.

A los sujetos de la primera muestra se les administró el fármaco y los de la segunda una

sustancia placebo. Posteriormente se les midió la ansiedad a todos los sujetos mediante un

test en el que cuanto más elevada es la puntuación mayor es la ansiedad. Los resultados de

ambas muestras fueron:

Grupo 1 (con fármaco): 10; 20; 30; 20; 5

Grupo 2 (sin fármaco): 30; 50; 30; 60; 20

Con un nivel de confianza del 95%, ¿podemos afirmar que el fármaco efectivamente reduce

la ansiedad?

Condiciones y supuestos. Al igual que en los ejemplos anteriores, necesitamos que la

variable dependiente esté medida a nivel de intervalo. En cuanto a las poblaciones de las que

proceden las varianzas, necesitamos suponerlas normalmente distribuidas porque el tamaño

de las muestras es pequeño (con y no es necesario suponer distribuciones

normales en ambas poblaciones). En este caso tampoco conocemos las varianzas

poblacionales, aunque ahora las suponemos distintas.

Formular las hipótesis. De acuerdo con la hipótesis del laboratorio esperamos que la

puntuación media sea inferior en el Grupo 1, por lo que hemos de plantear un contraste de

hipótesis unilateral izquierdo.

μ1μ2 0 μ1 μ2

μ1μ2 0 , o bien μ1 μ2

gl = (

Primero calculamos las varianzas de ambos grupos:

- = 76

- = 216

Las cuacivarianzas o varianzas, serán

= 76 *

= 216 *

Con lo que calculamos el estadístico de contraste y los grados de libertad.

= -2.46

g.l = (

= 6.50 6

Establecer la regla de decisión en función del nivel de confianza.

Buscamos en las tablas t de Student el valor que supera a una proporción igual a 0.05 para 6

grados de libertad, obteniendo un valor igual a: 1.943. En el Figura 3.3

representamos los datos del problema

Varianzas poblacionales desconocidas pero supuestas distintas (

Conclusión.

El valor del estadístico de contraste es una puntuación más extrema que el valor crítico que

hemos buscado en la tabla t de Student (-2.46 -1.943_, por lo que rechazamos la hipótesis

nula. Con la misma lógica que en todos los contrastes, en general en un contraste unilateral

izquierdo mantendremos la hipótesis nula cuando se cumpla que, T y la rechazaremos

En cuanto al nivel p-crítico, en la tabla t de Student, para 6 grados de libertad, tenemos que:

(-3 143 2.46 2.447), por lo que deducimos que el nivel p-crítico estará comprendido

entre las probabilidades de encontrar valores iguales o inferiores a estas dos

Puntuaciones, es decir: (0,01 0.025).

ANÁLISIS DE DOS MUESTRAS

Problema 1

La resistencia a la rotura de un componente eléctrico constituye una característica importante

de un cierto proceso. Un fabricante utiliza un material nuevo de fabricación frente al material

clásico. Se recoge una muestra de 10 elementos usando el primer componente y otra de 10

elementos usando el segundo componente. Se pueden considerar a los dos procesos como dos

tratamientos o dos niveles diferentes de un factor dado.

Component

component

antigua

16.85 17.5

16.4 17.63

13.21 18.25

16.35 18

16.52 17.86

17.04 17.75

16.96 18.22

17.15 17.9

16.59 17.96

16.57 18.15

16.364 17.922

Se tiene que la media muestral del componente nuevo es ¯y =16.36 y la del componente

antiguo es ¯y 2 =17.92. Se pretende averiguar si existen diferencias significativas entre

ambos tratamientos a nivel de resistencia. En este caso, se considera que los datos proceden

de una más de una distribución normal, y que el diseño es completamente aleatorizado.

El contraste de hipótesis que se tiene que realizar es bilateral:

Results for: Worksheet 9

Two-Sample T-Test and CI: Component nuevo, component antigua

* ERROR * There must be exactly two distinct subscripts.

Paired T-Test and CI: Component nuevo, component antigua

Paired T for Component nuevo - component antigua

Component nuevo 10 16.364 1.142 0.361

component antigua 10 17.922 0.248 0.078

Difference 10 -1.558 1.274 0.403

95% CI for mean difference: (-2.469, -0.647)

T-Test of mean difference = 0 (vs ≠ 0): T-Value = -3.87 P-Value = 0.004

Se tiene que la media muestral del componente nuevo es = 16,76 y la del componente

antiguo es = 17,92. Se pretende averiguar si existen diferencias significativas entre ambos

tratamientos a nivel de resistencia. En este caso, se considera que los datos proceden de una

m.a.s de una distribución normal, y que el diseño es completamente aleatorizado.

El contraste de hipótesis que se tiene que realizar es bilateral:

μ1μ2

μ1≠μ2 0

Fijamos α =P{ } = P {

Suponiendo normalidad y suponiendo que =

, se utiliza el estadístico siguiente.

Donde ( son las medias muestrales son el tamaño de cada muestra y

Sp = (

Se compara el valor de este estadístico con el valor de una distribución t de Student

Si | ⁄ entonces se rechazar

Asi, si es verdadera

( de los

valore de estén entre ( ⁄ y ⁄

Una muestra concreta que produzca un valor fuera de este intervalo es rara si H0 fuese cierta,

lo que lleva a rechazar la hipótesis H0

Componente nuevo Componente viejo

= 16.76 = 17.92

= 0.247

= 0.316

DISEÑO EN BLOQUES COMPLETAMENTE ALEATORIZADO

El objetivo de un análisis de datos en un experimento s tener comparaciones precisas entre

los tratamientos de los estudios, la bloquización es medio para reducir y controlar la varianza

del error experimental con el fin de lograr una mayor precisión.

El diseño de bloques al azar (DBA) es un prueba basada en el análisis de varianza, en donde

la varianza total se descompone en la “varianza entre los tratamientos” y la “varianza del

error o dentro de los tratamientos” y la “varianza en los bloques o efecto de bloques”, y se

determina si la primera es lo suficientemente alta según la distribución F.

Se plantea la necesidad de ensayar la significación de diferencias entre medias muéstrales, o

lo que es equivalente a ensayar la hipótesis nula de que las medias muéstrales son iguales; se

desea probar la hipótesis nula de que existe igualdad entre las medias de los tratamientos, y

en los bloques. Dicho de otro modo hay dos hipótesis nulas.

Todas las medias de los tratamientos son iguales

Todas las medias de los bloques son iguales

De manera general, puede expresar el modelo lineal para el análisis de varianza que se

considera para el DBA con i=1,2..k tratamientos con j=1,2…b bloques:

Que representa: cada una de las observaciones es igual a la suma de la media total, el efecto

de los tratamientos, de los bloques y el error experimental.

1) Cuadrados medios de tratamientos

2) Cuadrados medios de bloques

3) Cuadrados medios del error

4) Calculo del estadístico F

5) Tabla de ANOVA

Fuente de

variación

Grados de

libertad

SC CM Fc P; en Excel

Tratamientos ( (

Bloques b-1 SCB CMB Fc ( (

Error ( (

En el software estadístico Minitab 16 los diseños completamente al azar se resuelven como

un ANOVA de un solo factor:

1. Estadísticas > ANOVA > Dos factores

2. En la ventana emergente llenar las casillas correspondientes a Respuesta, Factor de

fila o tratamiento y Factor de columna o bloque.

3. Cuando el tratamiento y la respuesta son valores numéricos es posible calcular la

regresión polinomica, tal cual se contruyo para DCA. Cabe mencionar que los bloques

no permiten generar una regresión, solo los tratamientos

4. Tabla de ANOVA con regresión (valores de Minitab)

De las tablas de ANOVA obtenidas para cada regresión se obtienen la suma de

cuadrados ( de cada regresión según sea el caso. Cabe mencionar que los grados

de libertad para cada regresión posible es 1.

Fuente de

variación

Grados de

libertad

SC CM Fc P; en Excel

Bloques b-1 SCB CMB Fc ( (

Tratamientos (

Lineal 1 SC1 (

Cuadrática 1 SC2-SC1 (

Cubica 1 SC3-SC2-

Cuarta 1 SC4-SC3-

SC2-SC1

Error ( (

Donde los cuadrados medios de cada regresión ( se obtienen del cociente

de ( y sus respectivos grados de libertad. Y la para cada regresión

resulta del cociente de las con la .

Ejercicio 1. En la tabla se muestran los rendimientos por acre de cuatro cosechas de

plantas diferentes cultivadas en parcelas tratadas con tres tipos diferentes de fertilizantes.

¿Hay diferencia significativa en rendimiento por acre debida a los fertilizantes?, ¿y debida a

las cosechas?.

Bloques

Cosecha

Tratamientos

Fertilizante

4.5 6.4 7.2 6.7

Fertilizante B 8.8 7.8 9.6 7

Fertilizante C 5.9 6.8 5.7 5.2

b. Se trata de un diseño con: tratamientos y bloques

c. Tabla de ANOVA

Fuente de variación Grados de libertad SC CM Fc P; en Excel

Fertilizante 2.820 0.940 0.857 0.512

Cosecha 2 13.680 6.840 6.237 0.034

Error 6 6.580 1.097

Total 23.080

d. Conclusiones

Solo se encontró evidencia significativa de que existe diferencia entre las medias del

fertilizante con el cual se trató a las cosechas.

PROBLEMA # 1

Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas. Para

ello, cada producto se aplica a un grupo de 100 moscas y se cuenta el número de moscas

muertas expresado en porcentajes. Se hicieron seis réplicas, pero en días diferentes; por ello,

se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los

datos obtenidos se muestran a continuación.

Número de réplica (día)

Marca de

atomizador

1 2 3 4 5 6

1 72 65 67 75 62 73

2 55 59 68 70 53 50

3 64 74 61 58 51 69

a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.

Modelo estadístico:

= μ + τi + γj + εij ; i = 1,2,3 = 1,2,3,4,5,6

Las hipótesis adecuadas son:

Ho: μ1 + μ2 + μ3 = μ

Ha: μi ≠ μj para algún i ≠ j

Que también se puede expresar como:

Ho: τ1 = τ2 = τ3 = 0

Ha: τi ≠ 0 para algún i

b) Existe diferencia entre la efectividad promedio de los atomizadores?

Empleando el SW Minitab se obtiene la siguiente información:

Two-way ANOVA: Respuesta_1 versus Marca Atomizador, Día

Source DF SS MS F P

Marca Atomizador 2 296.33 148.167 2.88 0.103

Día 5 281.33 56.267 1.09 0.421

Error 10 514.33 51.433

Total 17 1092.00

De esta tabla se observa que para marca atomizador se obtuvo un valor-p = 0.103 > 0.05, por

lo tanto se acepta Ho. Es decir que no existe diferencia entre la efectividad promedio de los

atomizadores.

c) Hay algún atomizador mejor? Argumente su respuesta.

Individual 95% CIs For Mean Based on

Marca Pooled StDev

Atomizador Mean --+---------+---------+---------+-------

1 69.0000 (----------*----------)

2 59.1667 (----------*---------)

3 62.8333 (----------*----------)

--+---------+---------+---------+-------

54.0 60.0 66.0 72.0

En este caso como los intervalos de confianza se traslapan entonces los atomizadores son

estadísticamente iguales en cuanto a sus medias.

d) Hay diferencias significativas en los resultados de diferentes días en que se realizó el

experimento? Argumente su respuesta.

Pooled StDev

Día Mean --+---------+---------+---------+-------

1 63.6667 (-----------*----------)

2 66.0000 (-----------*----------)

3 65.3333 (-----------*----------)

4 67.6667 (-----------*----------)

5 55.3333 (----------*-----------)

6 64.0000 (-----------*-----------)

--+---------+---------+---------+-------

48.0 56.0 64.0 72.0

En este caso como los intervalos de confianza se traslapan entonces los resultados de

diferentes días en que se realizó el experimento son estadísticamente iguales en cuanto a sus

medias.

e) Verifique los supuestos de normalidad y de igual varianza entre las marcas.

Residual

1050-5-10

Fitted Value

7065605550

Residual

1050-5-10

Observation Order

18161412108642

Normal Probability Plot of the Residuals Residuals Versus the Fitted Values

Histogram of the Residuals Residuals Versus the Order of the Data

Residual Plots for Respuesta_1

CONCLUCION

En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se

observa que estos siguen una distribución normal ya que tienden a quedar alineados en una

línea recta.

En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra

los residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda

horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que

los tratamientos tienen igual varianza.

PROBLEMA # 2

9. A continuación se muestran los datos para un diseño en bloques al azar.

Bloque Total por

tratamiento Tratamiento 1 2 3 4

A 3 4 2 6 Y1. =

B 7 9 3 10 Y2. =

C 4 6 3 7 Y3. =

Total por bloque Y.1 = Y

.2 = Y

.3 = Y

.4 = Y

a) Complete las sumas totales que se piden en la tabla anterior.

Bloque Total por

tratamiento Tratamiento 1 2 3 4

A 3 4 2 6 Y1. = 15

B 7 9 3 10 Y2. = 29

C 4 6 3 7 Y3. = 20

Total por bloque Y.1 = 14 Y

.2 = 19 Y

.3 = 8 Y

.4 = 23 Y

.. = 64

b) Calcule las sumas de cuadrados correspondientes: SCTrat, SCB, SCT y SCE

SCT = (32 + 4

2 +… + 7

2) – (64

2/12) = 72.6667

SCTrat = ((152 + 29

2 + 20

2) / 4) - (64

2/12) = 25.1667

SCB = (142 + 19

2) /3) - (64

2/12) = 42.0000

SCE = 72.6667 – 25.1667 – 42.0000 = 5.5000

c) Obtenga la tabla de análisis de varianza y anote las principales conclusiones.

Two-way ANOVA: Respuesta versus Tratamiento, Bloque

Source DF SS MS F P

Tratamiento 2 25.1667 12.5833 13.73 0.006

Bloque 3 42.0000 14.0000 15.27 0.003

Error 6 5.5000 0.9167

Total 11 72.6667

d) Obtenga la diferencia mínima significativa (LSD) para comparar tratamientos en este

diseño en bloques.

1215.1)45835.0)(4469.2(4

)9167.0(24469.2

)9167.0(2)14)(13(,025.0 tLSD

PROBLEMA # 3

Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo

de reacción de un proceso químico. Cada lote de material solo permite cinco corridas y cada

corrida requiere aproximadamente 1.5 horas, por lo que solo se pueden realizar cinco corridas

diarias. El experimentador decide correr los experimentos con un diseño en cuadro latino para

controlar activamente a los lotes y días. Los datos obtenidos son:

1 2 3 4 5

Lote 1 A = 8 B = 7 D = 1 C = 7 E = 3

Lote 2 C = 11 E = 2 A = 7 D = 3 B = 8

Lote 3 B = 4 A = 9 C = 10 E = 1 D = 5

Lote 4 D = 6 C = 8 E = 6 B = 6 A = 10

Lote 5 E = 4 D = 2 B = 3 A = 8 C = 8

a) Cómo se aleatorizó el experimento?

Se siguió la siguiente estrategia:

1. Se construye el cuadro latino estándar más sencillo.

2. Se aleatoriza el orden de los renglones (o columnas) y después se aleatoriza el orden

de las columnas (o renglones).

3. Por último, los tratamientos a comparar se asignan en forma aleatoria a las letras

latinas.

Así se cumple que cada letra debe aparecer solo una vez en cada renglón y en cada columna.

b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes.

Modelo estadístico:

Yij = μ + τi + γj + δl + εij ; i = 1,2,3,4,5 j = 1,2,3,4,5, l = 1,2,3,4,5

Las hipótesis adecuadas son:

Ho: μ1 + μ2 + μ3 + μ4 + μ5= μ

Ha: μi ≠ μj para algún i ≠ j

Que también se puede expresar como:

Ho: τ1 = τ2 = τ3 = τ4 = τ5 = 0

Ha: τi ≠ 0 para algún i

c) Existen diferencias entre los tratamientos? Cuáles tratamientos son diferentes entre si?

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS AdjMS F P

Catalizador 4 141.440 141.440 35.360 11.31 0.000

Lote 4 15.440 15.440 3.860 1.23 0.348

Día 4 12.240 12.240 3.060 0.98 0.455

Error 12 37.520 37.520 3.127

Total 24 206.640

S = 1.76824 R-Sq = 81.84% R-Sq(adj) = 63.69%

De esta tabla se observa que para Catalizador se obtuvo un valor-p = 0.000 < 0.05, por lo

tanto se rechaza Ho. Es decir que al menos dos de los catalizadores son diferentes.

Catalizador

Interval Plot of Respuesta vs Catalizador95% CI for the Mean

De tal forma, los intervalos de confianza de los catalizadores 1 y 2 se traslapan por lo que sus

respuestas medias son iguales estadísticamente. Los intervalos de confianza de los

catalizadores 2 y 3 se traslapan por lo que sus respuestas medias son iguales estadísticamente.

Los intervalos de confianza de los catalizadores 4 y 5 se traslapan por lo que sus respuestas

medias son iguales estadísticamente. Los intervalos de confianza de los catalizadores 2 y 4 se

traslapan por lo que sus respuestas medias son iguales estadísticamente. Los intervalos de

confianza de los catalizadores 2 y 5 se traslapan por lo que sus respuestas medias son iguales

estadísticamente. Finalmente al no traslaparse los intervalos los catalizadores1 y 2 son

diferentes a los catalizadores 4 y 5.

De igual forma el análisis se realiza para los 2 bloques.

Interval Plot of Respuesta vs Lote95% CI for the Mean

Interval Plot of Respuesta vs Día95% CI for the Mean

De tal forma, los intervalos de confianza de los días se traslapan por lo que sus

respuestas medias son iguales estadísticamente.

d) Los factores de ruido, lote y día afectan el tiempo de reacción del proceso?

Del ANOVA se observa que para lote se obtuvo un valor-p = 0.348 > 0.05, por lo tanto se

acepta Ho. Es decir que no existe diferencia entre el tiempo de reacción de un proceso

químico de los lotes. Por otro lado, del ANOVA se observa que para días se obtuvo un valor-

p = 0.455 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia entre el tiempo

de reacción de un proceso químico de los días.

e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. Cuál

tratamiento es el mejor?

Sería el tratamiento 5, puesto que tiene la media más baja respecto al tiempo de reacción del

proceso.

f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron

columna por columna, día a día.

Residual

3.01.50.0-1.5-3.0

Fitted Value

108642

Residual

210-1-2

Observation Order

24222018161412108642

Residual Plots for Y

En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y

se observa que estos siguen una distribución normal ya que tienden a quedar alineados

en una línea recta.

En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos

contra los residuos y se observa que los puntos se distribuyen de manera aleatoria en una

banda horizontal (sin ningún patrón claro y contundente), por lo que se cumple el

supuesto de que los tratamientos tienen igual varianza.

PROBLEMA # 4

Un investigador está interesado en el efecto del porcentaje de lisina y del porcentaje de

proteína en la producción de vacas lecheras. Se consideran 7 niveles de cada factor.

% de lisina: 0,0 (A), 0,1 (B), 0,2 (C), 0,3 (D), 0,4 (E), 0,5 (F), 0,6 (G),

% de proteína: 2 (a), 4(β), 6(χ), 8(σ), 10(ε), 12(φ), 14(γ)

Para el estudio, se seleccionan siete vacas al azar, a las cuales se les da un seguimiento de

siete períodos de tres meses. Los datos en galones de leche fueron los siguientes:

Vaca/Período 1 2 3 4 5 6 7

1 304 436 350 504 417 519 432

2 381 505 425 564 494 350 413

3 432 566 479 357 461 340 502

4 442 372 536 366 495 425 507

5 496 449 493 345 509 481 380

6 534 421 352 427 346 478 397

7 543 386 435 485 406 554 410

a) Analice este experimento, qué factores tienen efecto en la producción de leche?

Analysis of Variance for Respuesta, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P

Vaca 6 8754 8588 1431 1.39 0.261

período 6 1761 1702 284 0.27 0.943

% lisina 6 38906 40171 6695 6.48 0.000

% proteina 6 148628 148628 24771 23.98 0.000

Error 24 24792 24792 1033

Total 48 222841

S = 32.1406 R-Sq = 88.87% R-Sq(adj) = 77.75%

Del ANOVA se observa que para VACA se obtuvo un valor-p = 0.261 > 0.05, por lo tanto se

acepta Ho. Es decir que no existe diferencia en la producción de leche.

Por otro lado, del ANOVA se observa que para PERIODO se obtuvo un valor-p = 0.943 >

0.05, por lo tanto se acepta Ho.

De igual forma para el % DE LISINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto se se

rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho porcentaje.

De igual forma para el % DE PROTEINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto

se se rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho

porcentaje.

b) Interprete los resultados usando gráficos de medias.

7654321

Interval Plot of Respuesta vs Vaca95% CI for the Mean

De tal forma, los intervalos de confianza de las vacas se traslapan por lo que sus

período

7654321

Interval Plot of Respuesta vs período95% CI for the Mean

De tal forma, los intervalos de confianza de los períodos se traslapan por lo que sus

% lisina

7654321

Interval Plot of Respuesta vs % lisina95% CI for the Mean

De tal forma, los intervalos de confianza de los % de lisina se traslapan por lo que sus

% proteina

7654321

Interval Plot of Respuesta vs % proteina95% CI for the Mean

De tal forma, los intervalos de confianza de los % de proteína no se traslapan por lo que

sus respuestas medias no son iguales estadísticamente.

a) Cómo puede explicar la falta de efectos en vacas y período?

El diseño pretendía verificar el efecto del porcentaje de lisina y del porcentaje de proteína en

la producción de vacas lecheras por lo que se bloquearon los aspectos relacionados a las

vacas y al período.

b) Que porcentajes de lisina y proteína dan los mejores resultados?

De las gráficas anteriores, % de lisina que brinda los mejores resultados es: 0,4 (E). Respecto

del % de proteínas, el mejor es: 14(γ).

c) Verifique los supuestos del modelo.

Residual

50250-25-50

Fitted Value

600500400300

Residual

60300-30-60

Observation Order

454035302520151051

Residual Plots for Respuesta

CONCLUCION

En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se

observa que estos siguen una distribución normal ya que tienden a quedar alineados en una

línea recta.

En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra los

residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda

horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que

los tratamientos tienen igual varianza.

PROBLEMA # 5

En un invernadero se evaluar el efecto de crecimiento de maíz en distinta salinidades, se

evaluó el peso seco aéreo de la planta.

RESULTADOS:

L I A18.8 C26.2 E12.3 F25.8 D50.2 B83.2

U II C19.5 F22.6 A15.8 D47.7 B25.3 E15.4

Z III E20.2 B55.1 D16.4 C17.8 A77.1 F17.9

IV B47.6 D25.8 F14.0 E18 C20.3 A22.1

Solución

Ho: TA=TB=TC=TD=TE=TF=0

H1: Tj ≠ 0

General Linear Model: BLOQUE versus TRATAMIENTO, CRECIMIENTO

Scatterplot of CRECIMIENTO vs BLOQUE

General Linear Model: CRECIMIENTO versus TRATAMIENTO, BLOQUE

Method

Factor coding (-1, 0, +1)

Factor Type Levels Values

TRATAMIENTO Fixed 5 A, B, C, D, E

BLOQUE Fixed 4 1, 2, 3, 4

Source DF AdjSS Adj MS F-Value P-Value

TRATAMIENTO 4 3414.5 853.6 4.34 0.021 0.95% CONFIANZA (0.05) Ftab:3.259 BLOQUE 3 524.8 174.9

0.89 0.474

Error 12 2360.1 196.7

Total 19 6299.4

3.259 < 4.34 rechazar hipótesis nula y aceptar hipótesis alternativa

Model Summary

14.0240 62.53% 40.68% 0.00%

Coefficients

Term Coef SE Coef T-Value P-Value VIF

Constant 29.74 3.14 9.49 0.000

TRATAMIENTO

A -6.29 6.27 -1.00 0.335 1.60

B 23.08 6.27 3.68 0.003 1.60

C -8.79 6.27 -1.40 0.186 1.60

D 5.28 6.27 0.84 0.416 1.60

BLOQUE

1 8.41 5.43 1.55 0.147 1.50

2 -5.00 5.43 -0.92 0.375 1.50

3 -0.42 5.43 -0.08 0.939 1.50

Regression Equation

CRECIMIENTO = 29.74 - 6.29 TRATAMIENTO_A + 23.08 TRATAMIENTO_B - 8.79 TRATAMIENTO_C

+ 5.28 TRATAMIENTO_D - 13.27 TRATAMIENTO_E + 8.41 BLOQUE_1 - 5.00 BLOQUE_2

- 0.42 BLOQUE_3 - 2.98 BLOQUE_4

Fits and Diagnostics for Unusual Observations

Obs CRECIMIENTO Fit Resid Std Resid

5 83.30 61.24 22.06 2.03 R

6 25.30 47.82 -22.52 -2.07 R

R Large residual

Distribution PlotF, df1=4, df2=12

20100-10-20

Residual

Histogram(response is CRECIMIENTO)

PROBLEMA # 6

El objetivo de un estudio realizado por Le Roith et al. (A-63) era evaluar los efectos de la

administración, por siete semanas, de la hormona del crecimiento recombinante humana

(rhGH) y el efecto de crecimiento pareció a la insulina recombínate humano (rhIGF-I),

separadamente y en combinación, sobre la función inmunológico dependieron de la respuesta

a la inmunización con toxoide tetánico. Los siguientes datos corresponden a las respuestas

para los tres grupos de tratamiento y para el grupo de control.

Salina rhIGFI1 rhGH rhIGF-I + rhGH

11.2 12.2 12.15 11.5

9 9.4 11.2 12.4

10.8 10.7 10.6 10.8

10 10.8 11.3 11.9

9.1 11 11

SOLUCIÓN

One-way ANOVA: Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH

Source DF SS MS F P

Factor 3 4.148 1.383 1.39 0.282

Error 16 15.898 0.994

Total 19 20.046

S = 0.9968 R-Sq = 20.69% R-Sq(adj) = 5.82%

COMENTRIO

ASUMIMOS ALFA = 0.5 E DONDE EL VALOR CRITICO DE F A PARTIR DE LA TABLA G ES DE 3.24 Y EL

VALOR DE F CALCULADO 1.39 NO RECHAZA LA HIPÓTESIS NULA

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

Salina 4 10.250 0.971 (---------*----------)

rhIGF-I1 6 10.800 1.418 (--------*--------)

rhGH 5 11.250 0.570 (--------*---------)

rhIGF-I + rhGH 5 11.520 0.653 (--------*---------)

--------+---------+---------+---------+-

10.0 11.0 12.0 13.0

Pooled StDev = 0.997

Grouping Information Using Tukey Method

N Mean Grouping

rhIGF-I + rhGH 5 11.5200 A

rhGH 5 11.2500 A

rhIGF-I1 6 10.8000 A

Salina 4 10.2500 A

Means that do not share a letter are significantly different.

Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons

Individual confidence level = 98.87%

Salina subtracted from:

Lower Center Upper

rhIGF-I1 -1.2927 0.5500 2.3927

rhGH -0.9150 1.0000 2.9150

rhIGF-I + rhGH -0.6450 1.2700 3.1850

------+---------+---------+---------+---

rhIGF-I1 (------------*-----------)

rhGH (------------*-----------)

rhIGF-I + rhGH (-----------*------------)

------+---------+---------+---------+---

-1.5 0.0 1.5 3.0

rhIGF-I1 subtracted from:

Lower Center Upper

rhGH -1.2786 0.4500 2.1786

rhIGF-I + rhGH -1.0086 0.7200 2.4486

------+---------+---------+---------+---

rhGH (-----------*-----------)

rhIGF-I + rhGH (-----------*----------)

------+---------+---------+---------+---

-1.5 0.0 1.5 3.0

rhGH subtracted from:

Lower Center Upper

rhIGF-I + rhGH -1.5354 0.2700 2.0754

------+---------+---------+---------+---

rhIGF-I + rhGH (-----------*-----------)

------+---------+---------+---------+---

-1.5 0.0 1.5 3.0

2.01.51.00.50.0-0.5-1.0-1.5

Residual

Histogram(responses are Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH)

11.611.411.211.010.810.610.410.2

Fitted Value

Versus Fits(responses are Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH)

rhIGF-I + rhGHrhGHrhIGF-I1Salina

Boxplot of Salina, rhIGF-I1, rhGH, rhIGF-I + rhGH

PROBLEMA 7

Meg Gulanic (A- 5) comparó los efectos de enseñanza, as ejercicios, ambos con y sin

capacitación de ejercitamiento, sobre autoeficacia y el desempeño de actividades durante l

primera etapa en recuperación de individuos que tuvieron infarto del miocardio o cirugía

cardiovascular. La autoeficacia (confianza) para realizar actividad física está definida como el

sano juicio de la propia capacidad para realizar diversas actividadescotidianas.se escogió a

varios individuos aleatoriamente para asignarlos uno de tres grupos. El grupo 1 recibo

enseñanza, prueba de ejercicios de rutina y entratamiento de ejercitico tres veces por semana.

El grupo 2 recibo solo instrucciones y pruebas de ejercicio. El grupo 3 recibió solo cuidados

de rutina sin supervisión en los ejercicios ni enseñanza. Las siguientes calefacciones son el

total de autoeficacias por grupo después de cuatro semanas del infarto o de practicada la

operación cardiovascular.

Grupo1: 156, 119, 107, 108, 100, 170, 130, 154, 107, 137, 107

Grupo2: 132, 105, 144, 136, 136, 132, 159, 152, 117, 89, 142, 151, 82

Grupo3: 110, 117, 124, 106, 113, 94, 113, 121, 101, 119, 77, 90, 66

SOLUTION

One-way ANOVA: BLOCK 1, BLOCK 2, BLOCK 3

Source DF SS MS F P

Factor 2 4917 2458 5.04 0.012

Error 34 16597 488

Total 36 21513

S = 22.09 R-Sq = 22.85% R-Sq(adj) = 18.32%

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

BLOCK 1 11 126.82 24.25 (--------*--------)

BLOCK 2 13 129.00 24.07 (-------*-------)

BLOCK 3 13 103.92 17.71 (-------*--------)

---------+---------+---------+---------+

105 120 135 150

Grouping Information Using Tukey Method

N Mean Grouping

BLOCK 2 13 129.00 A

BLOCK 1 11 126.82 A

BLOCK 3 13 103.92 B

Means that do not share a letter are significantly different.

Tukey 95% Simultaneous Confidence Intervals

All Pairwise Comparisons

Individual confidence level = 98.06%

BLOCK 1 subtracted from:

Lower Center Upper ---------+---------+---------+---------+

BLOCK 2 -20.03 2.18 24.39 (--------*--------)

BLOCK 3 -45.10 -22.90 -0.69 (--------*--------)

---------+---------+---------+---------+

-25 0 25 50

BLOCK 2 subtracted from:

Lower Center Upper ---------+---------+---------+---------+

BLOCK 3 -46.34 -25.08 -3.81 (--------*-------)

---------+---------+---------+---------+

-25 0 25 50

Condición

F, critica = 3.34

F = 5.04

Si la F obtenida es > de F critica, se rechazar, por lo tanto, 5.04> 3.34, entonces

rechazar

40200-20-40

Residual

Histogram(responses are BLOCK 1, BLOCK 2, BLOCK 3)

130125120115110105

Fitted Value

Versus Fits(responses are BLOCK 1, BLOCK 2, BLOCK 3)

50250-25-50

Residual

Normal Probability Plot(responses are BLOCK 1, BLOCK 2, BLOCK 3)

BLOCK 3BLOCK 2BLOCK 1

Boxplot of BLOCK 1, BLOCK 2, BLOCK 3

BLOCK 3BLOCK 2BLOCK 1

Individual Value Plot of BLOCK 1, BLOCK 2, BLOCK 3

PROBLEMA 8

Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo

particular de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el

químico decide usar un diseño de bloques aleatorizados, con los rollos de tela considerados

como bloques. Selecciona 5 rollos y aplica los 4 agentes químicos de manera aleatoria a cada

rollo. A continuación se presentan las resistencias a la tención resultantes. Analizar los datos

de este experimento (utilizar α=0.05) y sacar las conclusiones apropiadas.

Agente

Químico 1 2 3 4 5

1 73 68 74 71 67

2 73 67 75 72 70

3 75 68 78 73 68

4 73 71 75 75 69

Procedimiento en Excel

En el menú herramientas seleccione la opción Análisis de datos, en funciones para

análisis seleccione Análisis de varianza de dos factores con una sola muestra por

grupo.

En Rango de entrada seleccionar la matriz de datos.

Alfa = 0.05

En Rango de salida indicar la celda donde se iniciará la presentación de resultados.

Análisis de varianza de dos factores con una sola muestra por grupo

RESUMEN Cuenta Suma Promedio Varianza

Fila 1 5 353 70.6 9.3

Fila 2 5 357 71.4 9.3

Fila 3 5 362 72.4 19.3

Fila 4 5 363 72.6 6.8

Columna 1 4 294 73.5 1

Columna 2 4 274 68.5 3

Columna 3 4 302 75.5 3

Columna 4 4 291 72.75 2.92

Columna 5 4 274 68.5 1.67

ANÁLISIS DE VARIANZA

Fuente de Suma de

Grados

de Cuadrados Fc Probabilidad

tablas

variación Cuadrados Libertad medios Valor P

Filas 12.95 3 4.32 2.38 0.12 3.49

Columnas 157 4 39.25 21.61 2.06E-05 3.26

Error 21.8 12 1.82

Total 191.75 19

Total 231 24

En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F

2.38<3.49, por lo cual no rechazamos al Hipótesis nula H0. No tenemos evidencia estadística

para afirmar que el agente químico tenga influencia en la respuesta.

Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).

ANOVA en Minitab

Utilice 05.0a para calcular si hay diferencias entre los efectos de las columnas y los

renglones.

Introducir los datos arreglados con las respuestas en una sola columna e indicando a que

renglón y columna pertenece cada uno de estos, como sigue:

Resp Columna Fila

73 1 1

73 1 2

75 1 3

73 1 4

68 2 1

67 2 2

68 2 3

71 2 4

74 3 1

75 3 2

78 3 3

75 3 4

71 4 1

72 4 2

73 4 3

75 4 4

67 5 1

70 5 2

68 5 3

69 5 4

La gráfica normal de residuos debe mostrar los residuos aproximados por una recta para

validar el modelo:

Los residuos se aproximan a la distribución normal por lo cual se concluye que se está

utilizando un modelo válido.

Residual

3210-1-2-3

Normal Probability Plot of the Residuals(response is Resp)

Two-way ANOVA: Resistencia versus Agente Químico, Rollo

Source DF SS MS F P

Agente Químico 3 12.95 4.3167 2.38 0.121

Rollo 4 157.00 39.2500 21.61 0.000

Error 12 21.80 1.8167

Total 19 191.75

S = 1.348 R-Sq = 88.63% R-Sq(adj) = 82.00%

Como el valor de P es menor a 0.05 el Rollo tiene influencia significativa en la resistencia.

Agente Pooled StDev

Químico Mean ---+---------+---------+---------+------

1 70.6 (----------*----------)

2 71.4 (----------*----------)

3 72.4 (----------*----------)

4 72.6 (----------*----------)

---+---------+---------+---------+------

69.6 70.8 72.0 73.2

Pooled StDev

Rollo Mean --+---------+---------+---------+-------

1 73.50 (-----*-----)

2 68.50 (-----*-----)

3 75.50 (-----*-----)

4 72.75 (-----*-----)

5 68.50 (-----*-----)

--+---------+---------+---------+-------

67.5 70.0 72.5 75.0

Se seleccionarían en 2º y 5º rollo ya que tienen los valores más pequeños.

PROBLEMA #9

Para comparar dos programas de entrenamiento para llevar a cabo un cierto trabajo, 20

trabajadores son incluidos en un experimento. De estos 10 son seleccionados al azar para ser

entrenados por el método 1 y los 10 restantes son entrenados por el método 2. Después de

completar el entrenamiento, son sujetos a prueba para registrar la velocidad de desempeño.

Los siguientes tiempos en minutos son obtenidos:

Método 1 Método 2

Two-Sample T-Test and CI: C2, C1

Two-sample T for C2

C1 N Mean StDev SE Mean

1 10 19.10 4.82 1.5

2 10 23.30 5.56 1.8

Difference = μ (1) - μ (2)

T-Test of difference = 0 (vs ≠): T-Value = -1.81 P-Value = 0.089 DF = 17

Two-Sample T-Test and CI: C2, C1

Two-sample T for C2

C1 N Mean StDev SE Mean

1 10 19.10 4.82 1.5

2 10 23.30 5.56 1.8

Difference = μ (1) - μ (2)

T-Test of difference = 0 (vs ≠): T-Value = -1.81 P-Value = 0.088 DF = 18

Hj Ck TI Yijk

1 1 F 28.2

2 1 E 31.0

3 1 D 30.6

4 1 C 33.1

5 1 B 29.9

6 1 A 30.8

1 2 D 29.1

2 2 B 29.5

3 2 E 28.8

4 2 A 30.4

5 2 F 25.8

6 2 C 29.7

1 3 A 32.1

2 3 C 29.4

3 3 F 21.7

4 3 B 28.8

5 3 E 30.3

6 3 D 27.4

1 4 B 33.1

2 4 F 24.8

3 4 C 30.8

4 4 D 31.4

5 4 A 30.3

6 4 E 29.1

1 5 E 31.1

2 5 D 33.0

3 5 A 31.9

4 5 F 26.7

5 5 C 33.5

6 5 B 30.7

1 6 C 32.4

2 6 A 30.6

3 6 B 30.1

4 6 E 31.9

5 6 D 32.3

6 6 F 21.4

General Linear Model: Yijk versus Hj, Ck, TI

Method

Factor coding (-1, 0, +1)

Factor Information

Factor Type Levels Values

Hj Fixed 6 1, 2, 3, 4, 5, 6

Ck Fixed 6 1, 2, 3, 4, 5, 6

TI Fixed 6 A, B, C, D, E, F

Hj 5 32.19 6.438 4.26 0.008

Ck 5 33.67 6.734 4.45 0.007

TI 5 185.76 37.153 24.56 0.000

Error 20 30.26 1.513

Total 35 281.88

Model Summary

1.22995 89.27% 81.22% 65.22%

Coefficients

Term Coef SE Coef T-Value P-Value VIF

Constant 29.769 0.205 145.22 0.000

1 1.231 0.458 2.68 0.014 1.67

2 -0.053 0.458 -0.12 0.909 1.67

3 -0.786 0.458 -1.71 0.102 1.67

4 0.614 0.458 1.34 0.196 1.67

5 0.581 0.458 1.27 0.220 1.67

1 0.831 0.458 1.81 0.085 1.67

2 -0.886 0.458 -1.93 0.067 1.67

3 -1.486 0.458 -3.24 0.004 1.67

4 0.147 0.458 0.32 0.751 1.67

5 1.381 0.458 3.01 0.007 1.67

A 1.247 0.458 2.72 0.013 1.67

B 0.581 0.458 1.27 0.220 1.67

C 1.714 0.458 3.74 0.001 1.67

D 0.864 0.458 1.88 0.074 1.67

E 0.597 0.458 1.30 0.207 1.67

Regression Equation

Yijk = 29.769 + 1.231 Hj_1 - 0.053 Hj_2 - 0.786 Hj_3 + 0.614 Hj_4 + 0.581 Hj_5 - 1.586 Hj_6

+ 0.831 Ck_1 - 0.886 Ck_2 - 1.486 Ck_3 + 0.147 Ck_4 + 1.381 Ck_5 + 0.014 Ck_6

+ 1.247 TI_A + 0.581 TI_B + 1.714 TI_C + 0.864 TI_D + 0.597 TI_E - 5.003 TI_F

Fits and Diagnostics for Unusual Observations

Obs Yijk Fit Resid Std Resid

5 29.900 31.761 -1.861 -2.03 R

7 29.100 30.978 -1.878 -2.05 R

25 31.100 32.978 -1.878 -2.05 R

R Large residual

PROBLEMA # 10

Se cree que la concentración de catalizador que se usa en el concreto afecta la resistencia de

este. Se diseñó un experimento para investigar los efectos de 3 concentraciones distintas del

catalizador, en el que se usaban 5 especímenes de concreto por catalizador. Se determinó la

resistencia del espécimen colocándolo en una prensa de prueba y aplicando presión hasta

romperlo. A continuación se muestran las presiones de ruptura, en libras por pulgada

cuadrada.

Concentr

5.9 6.8 9.9

8.1 7.9 9

5.6 8.4 8.6

6.3 9.3 7.9

7.7 8.2 8.7

Conc. 35 35 35 35 35 40 40 40 40 40 45 45 45 45 45

Fuerz. 5.9 8.1 5.6 6.3 7.7 6.8 7.9 8.4 9.3 8.2 9.9 9.0 8.6 7.9 8.7

One-way ANOVA: fuerzas versus conc.

Method

Null hypothesis All means are equal

Alternative hypothesis At least one mean is different

Significance level α = 0.05

Equal variances were assumed for the analysis.

Factor Information

Factor Levels Values

conc. 3 35, 40, 45

conc. 2 11.43 5.7167 6.63 0.011

Error 12 10.34 0.8620

Total 14 21.78

Model Summary

0.928440 52.50% 44.58% 25.78%

conc. N Mean StDev 95% CI

35 5 6.720 1.114 (5.815, 7.625)

40 5 8.120 0.904 (7.215, 9.025)

45 5 8.820 0.726 (7.915, 9.725)

454035

Interval Plot of fuerzas vs conc.95% CI for the Mean

The pooled standard deviation was used to calculate the intervals.

Interval Plot of fuerzas vs conc.

One-way ANOVA: fuerzas versus conc.

Method

Null hypothesis All means are equal

Factor Information

conc. 3 35, 40, 45

conc. 2 11.43 5.7167 6.63 0.011

Error 12 10.34 0.8620

Total 14 21.78

Model Summary

0.928440 52.50% 44.58% 25.78%

conc. N Mean StDev 95% CI

35 5 6.720 1.114 (5.815, 7.625)

40 5 8.120 0.904 (7.215, 9.025)

45 5 8.820 0.726 (7.915, 9.725)

PROBLEMA 11

Los datos siguientes se refieren a las pérdidas de peso de ciertas piezas mecánicas (en mgs)

debidas a la fricción, cuando tres lubricantes diferentes se usaron en condiciones controladas.

Lubricante

12.2 10.9 12.7

11.8 5.7 19.9

13.1 13.5 13.6

11 9.4 11.7

3.9 11.4 18.3

4.1 15.7 14.3

10.3 10.8 22.8

8.4 14 20.4

a). Pruebe con a=.01 si las diferencias entre las medias muéstrales pueden atribuirse al azar.

b). Muestre gráficamente sus resultados.

c). ¿Cuáles son los lubricantes que pueden ser considerado(s) los mejores y porque?

SOLUTION

One-way ANOVA: peso versus lubricate

Method

Null hypothesis all means are equal

Factor Information

lubricante 3 A, B, C

lubricante 2 230.6 115.29 8.75 0.002

Error 21 276.8 13.18

Total 23 507.4

Model Summary

3.63058 45.45% 40.25% 28.75%

lubricante N Mean StDev 95% CI

A 8 9.35 3.59 ( 6.68, 12.02)

B 8 11.42 3.09 ( 8.76, 14.09)

C 8 16.71 4.14 (14.04, 19.38)

Interval Plot of peso vs lubricante

LUBRICANTE PESO

A 12.2

A 11.8

A 13.1

A 10.3

B 10.9

lubricante

Interval Plot of peso vs lubricante95% CI for the Mean

The pooled standard deviation was used to calculate the intervals.

lubricante

Chart of peso

B 13.5

B 11.4

B 15.7

B 10.8

C 12.7

C 19.9

C 13.6

C 11.7

C 18.3

C 14.3

C 22.8

C 20.4

PROBLEMA #12

En un esfuerzo para extender sus servicios una autoridad regional de tránsito realizo un

experimento para determinar cuál de cuatro rutas es mejor para ir de aeropuerto al centro de

distrito financiero de la ciudad. Los siguientes datos indican el tiempo de recorrido en

minutos a lo largo de cada una de las rutas.

Día 1 2 3 4

Lunes 20 22 22 24

Martes 23 24 26 26

Miércoles 22 25 27 25

Jueves 27 23 30 27

Viernes 28 26 30 27

para ambas pruebas.

PROBLEMA # 13

Ejemplo. Se realiza un experimento para determinar el efecto de cuatro sustancias químicas

diferentes sobre la resistencia de una tela. Las sustancias se emplean como parte del proceso

terminal de planchado permanente. Para ello, se escogen cinco muestras de tela y se aplica un

diseño aleatorizado por bloques completos mediante la prueba de cada sustancia en un orden

aleatorio sobre cada una de las muestras de tela. Se probará la diferencia en las medias

utilizando para ello el análisis de la varianza con a = 0,01. Los datos aparecen a continuación.

Sustancia/muestra 1 2 3 4 5 media

1 1.3 1.6 0.5 1.2 1.1 ẏ.1= 1.14

2 2.2 2.4 0.4 2.0 1.8 ẏ.2= 1.76

3 1.8 1.7 0.6 1.5 1.3 ẏ.3 = 1.38

4 3.9 4.4 2.0 4.1 3.4 ẏ.4= 3.56

media ẏ.1 = 2.3 ẏ.2 = 2.53 ẏ.3 = 0.88 ẏ.4 = 2.2 ẏ.5= 1.96 ẏ…= 1.96

El factor de interés es la sustancia química, con cuatro niveles y el factor bloque es la muestra

de tela, con cinco niveles. Entonces a =4,b=5y n =20. Las sumas de cuadrados son:

SCT = ∑ ∑

- n = -20 *

SCA = b ∑

- n = ( -20 *

SCA = a ∑

- n = ( -20 *

SCE = SCT –SCA – SCB = 25.69-18.04-6.69 = 0.96

F.V S.C G.L M.C F

Sustancia 18.04 3 6.01 75.13

Muestra 6.69 4 1.67

Residual 0.96 12 0.08

Total 25.69 19

Como F3, 12; 0,01 =5,9526, existe una diferencia significativa en las sustancias químicas en

cuanto al efecto que tienen sobre la resistencia promedio de la tela.

Observación

Si las medias de los tratamientos son diferentes entre sí se pueden considerar los tests de

comparaciones múltiples y de rangos estudentizados, que se vieron para el modelo

unifactorial general. Se ha de reemplazar el número de réplicas por nivel del factor (n) por el

número de bloques (b). A su vez, los grados de libertad del error han de cambiarse de (N - a)

en el caso general a (a - 1) (b - 1).

PROBLEMA # 14

Supongamos que un experimentador está estudiando el efecto de cinco fórmulas diferentes de

la mezcla de dinamita sobre la fuerza explosiva observada. Cada fórmula se prepara usando

un lote de materia prima, lo suficientemente grande para que sólo se hagan cinco mezclas.

Más aún, las mezclas las preparan cinco operarios, pudiendo existir una diferencia sustancial

en la habilidad y experiencia entre ellos. El diseño apropiado para este problema consiste en

probar cada fórmula exactamente una vez, utilizando cada lote de materia prima, y en que

cada fórmula sea preparada exactamente una vez por cada uno de los cinco operarios. El

diseño resultante es un cuadrado latino. Las cinco fórmulas se representan mediante las letras

latinas A, B, C, D y E. Los datos aparecen a continuación:

MATERIAL 1 2 3 4 5

Para simplificar los datos se renta 25 unidades y se obtiene:

MATERIAL 1 2 3 4 5 ẏi…

ẏj -3.6 3.6 -0.8 1 1.8 0.4

Las medias sobre el factor γ son:

SCT = ∑ ∑ (

- n = 25*

SC = I ∑

- n = ( -25 *

SC = I ∑

- n = (( ( -25*

–SC – SC - 676 -68 – 150- 330 =128

La table ANOVA es;-

F.V S.C G.L M.C F

Material (A) 68 4 17

Operario (B) 150 4 37.5

Formula (C) 330 4 82.5 7.73

Error 128 12 10.67

Total 676 24

Como = 2.48

Existen diferencias significativas en las fuerzas explosiva media debido a las cinco formulas.

Nota que La tabla de analysis de varianza es:-

F.V S.C G.L M.C F

Factor

S.C.a I – 1 M.Ca =

Factor

S.C.b I – 1

Factor

S.C.g I – 1 M.C.ɤ =

Error (I – 1)(I –2) M.C.E=

PROBLEMA 15

Una firma fabricante de aparatos electrónicos trabaja las 24 horas del día, cinco días a la

semana. Están establecidos los tres turnos de ocho horas cada uno y los trabajadores cambian

de turno cada semana. Un equipo de directivos efectuó un estudio para determinar si hay

diferencia entre las medias del número de monitores de video de 14 pulgadas producidos

cuando los empleados trabajan en los diferentes turnos. Una muestra aleatoria de cinco

trabajadores registro el número de monitores que producen en cada turno como sigue:

Monitores producidos

Empleados Mañana Tarde Noche

Jones 10 4 14

Miller 12 5 12

Phillips 7 3 9

Ross 9 8 7

Stevens 7 5 6

Si usamos 0.05 como nivel de significancia y un ANOVA de dos criterios, ¿Podemos

concluir que hay diferencia en la media de producción por cada turno y por cada trabajador?

PROBLEMA 5

A continuación se listan promedios de sentencia, en años, dados a los culpables según tres

procedimientos judiciales y los tipos de delitos.

Procedimiento Judicial

Delito Decisión del Jurado Decisión del juez Confesión

Asesinato 28 21 14

Robo 24 15 10

Violación 18 14 11

Asalto con agravantes 14 9 7

Robo en casa 10 5 6

Trafico de drogas 8 10 5

Ratería 4 4 4

Si usamos 0.05 como nivel de significancia y un ANOVA de dos criterios, ¿Concluiríamos

diferencia entre las medias de las sentencias según los tres procedimientos judiciales y en las

medias de los años por delito?

CUADRO LATINO

Introducción.

Ya vimos que el diseño de bloques al azar, era el diseño apropiado cuando se conocía de

antemano algún factor que fuera fuente de variabilidad entre las unidades experimentales.

¿Pero qué pasa si se sabe de dos factores o fuentes de variabilidad que afectan el material

experimental?

Supongamos que se tiene un experimento agrícola donde las unidades experimentales son

parcelas, pero estas parcelas están ubicadas en diferentes tipos de suelo y además tienen

diferentes valores de pH, uno podría pensar en realizar un diseño de bloques al azar usando

cualquiera de estas dos características: realizando bloques de acuerdo a los diferentes valores

de pH o bloques que consideren los diferentes tipos de suelo. Otra alternativa, que como ya

se habrán imaginado es la más adecuada, es hacer un “doble bloqueo”, o sea bloques en dos

direcciones, que consideren las dos fuentes de variación, a este tipo de diseño se le

denomina Cuadrado Latino, donde se tiene un conjunto de “t” tratamientos y “t2” unidades

experimentales, que son agrupadas por dos factores.

El diseño de cuadrados latinos tuvo sus orígenes en experimentos agrícolas, donde se tenían

parcelas de terreno con gradientes de fertilidad en dos direcciones, tal como aparece en el

siguiente gráfico.

En realidad este tipo de ensayos con dos gradientes de fertilidad son poco comunes, pero el

uso de este diseño no se limita a esta situación, se ha utilizado en otras áreas diferentes a la

agricultura, tales como la biología, estudio de mercados, procesos industriales, entre otros. Se

debe tener en cuenta que un diseño de cuadrados latinos no requiere que las unidades

experimentales estén distribuidas físicamente en un cuadrado como tal, de hecho, esta

situación sólo se presenta en un caso como el de los dos gradientes de fertilidad mencionado

anteriormente.

Para un diseño de cuadrados latinos “t*t”, se tienen “t” tratamientos que se asignan

aleatoriamente a “t2” unidades experimentales, de tal manera que cada tratamiento aparece

una sola vez en cada “fila” y en cada “columna”, a cada tratamiento se le designa con una

letra latina: A, B, C, etcétera, de ahí el nombre de cuadrado latino. En el ejemplo de los

gradientes de fertilidad, se podría evaluar entonces el efecto de cuatro tratamientos (A, B, C y

D), que podrían estar dispuestos de la siguiente manera:

A B C D

B C D A

C A A B

D D B C

PASOS PARA OBTENER UN CUADRADO LATINO ALEATORIZADO

1. Partir de un cuadrado latino estándar del tamaño requerido: Supongamos que

necesitamos un cuadrado 4*4 y arbitrariamente hemos seleccionado el planteado

anteriormente, donde se observa el orden alfabético de las letras en la primera fila y la

primera columna;

2. Aleatorizar todas las columnas del cuadrado elegido: Para este efecto existen tablas

de permutaciones o simplemente se elige un orden aleatorio (con ayuda de la

calculadora o de tablas de números aleatorios) de las “t” columnas; para este caso, con

ayuda de la calculadora se encontraron los valores: 1, 3,4.

1: Quiere decir que la primera columna permanece como estaba.

3: Entonces, la que antes era la tercera columna, ahora pasa a ser la segunda.

4: La que inicialmente era la cuarta columna, ahora pasa a ser la tercera, por

descarte, entonces, la que originalmente era la segunda columna, ahora pasa a

ser la cuarta, con lo que el cuadrado quedaría:

A C D B

B D A C

C A B D

D B C A

3. Aleatorizar todas las filas del cuadrado encontrado: Nuevamente, con ayuda de la

calculadora, el orden aleatorio encontrado fue: 3, 4, 1.

3: La que en el último cuadrado era la tercera fila, ahora pasa a ser la primera.

4: La que era la cuarta fila, ahora se convierte en la segunda.

1: La primera fila debe ser ahora la tercera y por descarte, la segunda fila pasa

a ser la cuarta, quedando el siguiente cuadrado, que sería el definitivo:

Echavarría, Hernán – Diseño de Cuadrados Latinos

C A B D

D B C A

A C D B

B D A C

3. Asignar aleatoriamente los tratamientos a las letras.

VENTAJAS DEL DISEÑO DE CUADRADOS LATINOS

Si se conocen dos fuentes de variabilidad de las unidades experimentales y se puede

hacer un “bloqueo” en dos direcciones, se va a poder hacer una comparación más

precisa de los tratamientos (se tiene más potencia) pues la variación debida a las filas

y las columnas es removida del error experimental.

Es fácil de analizar, comparado con el diseño de bloques al azar, sólo se requiere de

una suma de cuadrados adicional.

Cuando se tienen cuadrados pequeños (lo que implica pocos grados de libertad para

el error experimental) se pueden utilizar varios de estos cuadrados de poco tamaño y

realizar un análisis combinado de los mismos en algo que se llama cuadrados latinos

repetidos.

DESVENTAJAS DEL DISEÑO DE CUADRADOS LATINOS

El número de tratamientos, filas y columnas debe ser igual, a veces es difícil

encontrar unidades experimentales que permitan armar los bloques homogéneos en

las dos direcciones, más aún, si el número de tratamientos es grande.

Los diseños pequeños tienen pocos grados de libertad para la estimación del error

experimental y a medida que el tamaño del diseño aumenta, es posible que no se

tenga homogeneidad al interior de cada bloque. No es un diseño adecuado si existe

interacción entre los efectos de fila, columna y tratamientos.

PROBLEMA 1

El articulo (¨The Responsiveness Of Food Sales To Shelf Space Requierement´ (J.Marketing

Research, 1964; 63-67) reporta el uso de un diseño de cuadro latino para investigar el efector

del espacio de anaquel en las ventas de alimentaseis tiendas diferentes y se obtuvieron los

siguientes resultados sobre ventas de crema en polvo para café (con el índice de espacio de

anaquel entre paréntesis):

SOLUTION

Tienda Semana Espacio de

anaquel Ventas

1 1 5 27

2 1 6 34

3 1 2 39

4 1 3 40

5 1 4 15

6 1 1 16

1 2 4 14

2 2 5 31

3 2 6 67

4 2 1 57

5 2 3 15

6 2 2 15

1 3 3 18

2 3 4 34

3 3 5 31

4 3 2 39

5 3 1 11

6 3 6 14

1 4 1 35

2 4 3 46

3 4 4 49

4 4 6 70

5 4 2 9

6 4 5 12

1 5 6 28

2 5 2 37

3 5 1 38

4 5 4 37

5 5 5 18

6 5 3 19

1 6 2 22

2 6 1 23

3 6 3 48

4 6 5 50

5 6 6 17

6 6 4 22

PROBLEMA 2

El articulo ¨Variation in Moisture and Ascorbic Acid Content from leaf to leaf and plant to

plant in turnip greens¨ (Southern Cooperation Service Bull 1951:13-17) usa un diseño en el

cual el factor A es la planta, el factor B es el tamaño de hoja (desde el más pequeño hasta el

más grande), el factor C (entre paréntesis) es tiempo de pesada y la variable de respuesta es el

contenido de humedad

SOLUTION

Planta Tamaño

Tiempo

pesada Humedad

1 1 5 6.67

2 1 2 5.4

3 1 3 7.32

4 1 1 4.92

5 1 4 4.88

1 2 4 7.15

2 2 5 4.77

3 2 2 8.53

4 2 3 5

5 2 1 6.16

1 3 1 8.29

2 3 4 5.4

3 3 5 8.5

4 3 2 7.29

5 3 3 7.83

1 4 3 8.95

2 4 1 7.54

3 4 4 9.99

4 4 5 7.85

5 4 2 5.83

1 5 2 9.62

2 5 3 6.93

3 5 1 9.68

4 5 4 7.08

5 5 5 8.51

PROBLEMA 3

Debido a la variabilidad potencial del envejecimiento causado por las diferentes piezas

fundidas y segmentos en estas, se utilizó un diseño de cuadrado latino con N= 7 para

investigar el efecto del tratamiento térmico en el envejecimiento. Con A = PIEZAS fundidas,

B= segmentos, C=tratamientos térmicos, los estadísticos resumidos incluyen x… =3815.8,

∑ = 297 216.90, ∑

= 297 200.64, ∑ = 297 155.01, y ∑∑ (

= 297 317.65.

Obtenga la tabla ANOVA y prueba al nivel 0.05 la hipótesis de que el tratamiento térmico no

afecta el envejecimiento.

SOLUTION

gl SC CM F P

Piezas

fundidas A 6 67.3155102 11.2192517 7.60301128 5.10012E-05

Segmentos B 6 51.0555102 8.5092517 5.76651085 0.000438018

Trat. Termicos C 6 5.4255102 0.9042517 0.61278916 0.718211513 no significativo

30 44.2689796 1.47563265

48 168.06551

PROBLEMA 4

Un ingeniero industrial investigar el efecto de cuatro métodos de ensamblaje (A, B, C, y D)

sobre el tiempo de ensamblaje de un componente de televisores a color.se seleccionan cuatro

operadores para el estudio. Además, el ingeniero sabe que todos los métodos de ensamblaje

producen fatiga, de tal modo que el tiempo requerido para el último ensamblaje puede ser

mayor que para el primero, independientemente del método.es decir se desarrolla una

tendencia en el tiempo de ensamblaje requerido. Para tomar en cuenta esta fuente de

variabilidad el ingeniero emplea el diseño del cuadro latino que se presenta a continuación.

Analizar los datos de este experimento (α=0.05) y sacar las conclusiones apropiadas

SOLUTION

ensamble

Operador

Metodo

ensamble

Tiempo

ensamble

1 1 3 10

2 1 2 7

3 1 1 5

4 1 4 10

1 2 4 14

2 2 3 18

3 2 2 10

4 2 1 10

1 3 1 7

2 3 4 11

3 3 3 11

4 3 2 12

1 4 2 8

2 4 1 8

4 4 3 14

Si hay efecto del método de ensamble y del operador en el tiempo de ensable

PROBLEMA 5

Se estudia el efecto de cinco ingredientes diferentes (A, B, C, D y E) sobre el tiempo de

reacción de un proceso químico. Cada lote de material nuevo solo alcanza para permitir la

realización de cinco corridas. Además cada corrida requiere aproximadamente 1

horas, por

lo que solo pueden realizarse cinco corridas con un día. El experimentador decide realizar el

experimento como un cuadrado latino para que los efectos del día y el lote puedan controlarse

Sistemáticamente. Obtiene los datos que se muestran enseguida. Analizar los datos de este

experimento (utilizar = 0.05) y sacar conclusión

SOLUTION

Lote Dia Ingrediente tiempo

de rxn

1 1 1 8

2 1 3 11

3 1 2 4

4 1 4 6

5 1 5 4

1 2 2 7

2 2 5 2

3 2 1 9

4 2 3 8

5 2 4 2

1 3 4 1

2 3 1 7

3 3 3 10

4 3 5 6

5 3 2 3

1 4 3 7

2 4 4 3

3 4 5 1

4 4 2 6

5 4 1 8

1 5 5 3

2 5 2 8

3 5 4 5

4 5 1 10

5 5 3 8

Solo el ingrediente tiene efecto significativo sobre el tiempo de reacción

PROBLEMA 6

Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en

la velocidad de lectura se realiza un experimento que consiste en contar el número de

palabras leídas en un minuto para distintos tipos de papel (b=blanco, c=en color, s=satinado)

y diferente tipografía (g=letra grande, p=letra pequeña, n=normal). Obteniéndose los

resultados expuestos en la siguiente tabla:

Tipo de papel

Satinado Blanco Color

Grande A=258 C=230 B=240

Normal B=235 A=270 C=240

Pequeña C=220 B=225 A=260

Analizar estos datos y estudiar la posible influencia de los factores iluminación, tipos de

papel y diferente tipografía en la variable de interés velocidad de lectura.

FACTORIAL GERNERAL

Introducción

Principios y definiciones básicas

uchos experimentos se llevan a cabo para estudiar los efectos producidos por dos o más

factores. Puede mostrarse que en general los diseños factoriales son los más eficientes para

este tipo de experimentos. Por diseño factorial se entiende aquel en el que se investigan

todas las posibles combinaciones de los niveles de los factores en cada ensayo completo o

réplica del experimento. Por ejemplo, si existen “a” niveles del factor A y “b” niveles del

factor B, entonces cada réplica del experimento contiene todas las “ab” combinaciones de los

tratamientos. A menudo, se dice que los factores están cruzados cuando éstos se arreglan en

un diseño factorial.

El efecto de un factor se define como el cambio en la respuesta producida por un cambio en

el nivel del factor. Con frecuencia, éste se conoce como efecto principal porque se refiere a

los factores de interés primordial del experimento. Por ejemplo, consideremos los datos de la

tabla 1. El efecto principal del factor A podría interpretarse como la diferencia entre la

respuesta promedio en el primer y segundo nivel de ese factor. Numéricamente:

Tabla 1 Un experimento factorial

En otras palabras incrementar el factor A del nivel 1 al 2 produce un cambio en la respuesta

promedio de 21 unidades. Similarmente, el efecto principal de B es:

Si los factores tienen más de dos niveles, el procedimiento anterior debe ser modificado ya

que las diferencias entre las respuestas promedio pueden expresarse de muchas formas.

Factor B

Factor A

Factor B

Factor A

En algunos experimentos puede encontrarse que la diferencia en la respuesta entre los

niveles de un factor no es la misma en todos los niveles de los otros factores. Cuando esto

ocurre existe una interacción entre los factores. Por ejemplo, considérense los datos de la

Tabla 2.

Tabla 2. Un experimento factorial con interacción

En el primer nivel del factor B, el efecto de A es:

A = 50 - 20 = 30

Mientras que en el segundo nivel de B, el efecto de A es:

A = 12 - 40 = 28

Puede observarse que existe una interacción entre los factores A y B porque el efecto de A

depende del nivel elegido de B.

Estas ideas pueden ilustrarse gráficamente. En la Fig. 1 se muestra una gráfica de la respuesta

de los datos de la Tabla 1 contra los niveles del factor A para ambos niveles del factor B. Se

observa que las rectas B1 y B2 son, aproximadamente, paralelas. Esto indica que no hay

interacción entre los factores. De manera similar, en la Fig. 2 se presenta una gráfica de la

respuesta de los datos de la Tabla 2.

Figura 1 Un experimento factorial sin interacciones

Factor B

Factor A

Factor B

Factor A

En este caso se ve que las rectas B1 y B2 no son paralelas. Esto muestra que existe una

interacción entre A y B. Sin embargo, no debe ser la única técnica para analizar los datos,

porque su interpretación es subjetiva y su apariencia, a menudo, es engañosa.

Figura 2 Un experimento factorial con interacciones

Hay que notar que cuando una interacción es grande los correspondientes efectos principales

tienen poco significado práctico. Una estimación del efecto principal de A de los datos de la

Tabla 2 es:

El cual resulta ser muy pequeño corriéndose el riesgo de concluir que no existe un efecto

debido a A. Sin embargo, cuando se examinó el efecto de A en niveles diferentes de B se

concluyó que éste no era el caso. El factor A tiene un efecto, pero depende del nivel del factor

B. En otras palabras, es más útil conocer la interacción AB que el efecto principal. Una

interacción significativa oculta a menudo el significado de los efectos principales.

Ventajas de los diseños factoriales: Las ventajas de los diseños factoriales pueden ilustrarse

fácilmente. Supongamos que se tienen dos factores, A y B, cada uno con dos niveles. Estos

niveles se representan mediante A1, A2, B1 y B1. La información acerca de ambos factores

puede obtenerse variando un factor a la vez como aparece en la tabla 3. El efecto de variar el

factor A está dada por A2B1 -A1B2. A causa de que existe error experimental, es conveniente

realizar, por ejemplo, dos observaciones de cada combinación de tratamientos y hacer una

estimación de los efectos de los factores usando las respuestas promedio. Por lo tanto, se

requiere un total de seis observaciones.

Factor A

Tabla 3 El método de un factor a la vez

Los diseños factoriales poseen algunas ventajas.

Son más eficientes que los experimentos de un factor a la vez.

Los diseños factoriales son necesarios cuando alguna interacción puede estar

presente, para evitar hacer conclusiones engañosas.

Los diseños factoriales permiten estimar los efectos de un factor en diversos niveles

de los otros factores, produciendo conclusiones que son válidas sobre toda la

extensión de las condiciones experimentales.

QUESTION 1

Un producto químico se fabrican en un envase presurisado.se lleva a cabo un experimento

factorial en la planta piloto para estudiar los factores que se piensa influyen en el índice de

filtración de este producto. Los cuatro factores son la temperatura (A), la presión (B), la

concentración de formaldehído (C) y la velocidad de agitación (D).cada facto está presente

con dos niveles-.la matriz del diseño y los datos de la respuesta obtenidos de una sola réplica

del experimento 2^4 se muestran en la tabla a-a y en la figura 1-1.las 16 corridas se hacen de

manera aleatoria. El ingeniero del proceso está interesado en máxima el índice de filtración.

las condiciones actuales del proceso producen índices de filtración de alrededor de 75

gal/asimismo, en el proceso actual la concentración de formaldehido, factor C, se usa en el

nivel Aalto. Al ingeniero le gustaría reducir la concentración de formaldehido lo más posible,

pero no ha podido hacerlo porque siempre produce índice de filtración más bajos.

A1B1 A1B2

A2B1 12

Factor B

Factor A

A1B1 A1B2

A2B1 12

Factor B

Factor A

Tabla a-a

Experimento del índice de filtración en la planta piloto

corrida

FACTOR Etiqueta

la corrida

Índice de

Filtración

(gal/h)

A B C D

1 - - - - -1 45

2 + - - - A 71

3 - + - - B 48

4 + + - - Ab 65

5 - - + - C 68

6 + - + - Ac 60

7 - + + - Bc 80

8 + + + - Abc 65

9 - - - + D 43

10 + - - + Ad 100

11 - + - + Bd 45

12 + + - + Abd 104

13 - - + + Cd 75

14 + - + + Acd 86

15 - + + + Bcd 70

16 + + + + Abcd 96

Solución

* NOTE * Could not graph the specified residual type because MSE = 0 or the

degrees of freedom for error = 0.

20151050

Absolute Effect

Factor Name

Not Significant

Significant

Effect Type

Half Normal Plot of the Effects(response is Indice, Alpha = 0.05)

Lenth's PSE = 2.625

20151050

Effect

Factor Name

Pareto Chart of the Effects(response is Indice, Alpha = 0.05)

Lenth's PSE = 2.625

Aquí, Menos significativo es interacción AB

Cube Plot (data means) for Indice

1-1 1-1 1-1

Interaction Plot for IndiceData Means

Main Effects Plot for IndiceData Means

El efecto B no es claramente significativo, es muy claro significancia

PROBLEMA 2

En G E quieren mejorar la longitud de una barra para ensamble de tina, donde la

específicamente es de 34±0.25 como saben de diseño experimental quisieron correr un

modelo, donde se vieron 3factores, todo a 2niveles, pero en base que teniendo réplicas del

experimento, puede quedar más robusto el diseño, por lo que los factores quedaron de la

siguiente manera:-

FACTOR NIVEL 1 NIVEL 2

Cantidad de refrigerante Bajo Alto

Tipo de herramienta 1 2

RPM 500 600

El arreglo ortogonal quedar quedó en siguiente forma.

Exp Refrig. Herram Rpm R1 R2 R3

1 Bajo 1 500 33.98 33.89 34.05

2 alto 1 500 33.75 33.87 34.2

3 Bajo 2 500 33.9 33.8 33.95

4 alto 2 500 34.02 34.08 33.89

5 Bajo 1 600 33.6 33.76 34.05

6 alto 1 600 33.8 33.87 34.23

7 Bajo 2 600 33.9 33.5 33.76

8 alto 2 600 34.1 34.12 34.33

¿Cuál es la conclusión?

Solución

Full Factorial Design

Factors: 3 Base Design: 3, 8

Runs: 8 Replicates: 1

Blocks: 1 Center pts (total): 0

All terms are free from aliasing.

Factorial Fit: MEDIA versus Refrigerante, Heramiente, RPM

Estimated Effects and Coefficients for MEDIA (coded units)

Term Effect Coef

Constant 33.9333

Refrigerante 0.1767 0.0883

Heramiente 0.0250 0.0125

RPM -0.0300 -0.0150

Refrigerante*Heramiente 0.1117 0.0558

Refrigerante*RPM 0.1367 0.0683

Heramiente*RPM 0.0417 0.0208

Refrigerante*Heramiente*RPM 0.0383 0.0192

S = * PRESS = *

Analysis of Variance for MEDIA (coded units)

Source DF Seq SS Adj SS Adj MS F P

Main Effects 3 0.065472 0.065472 0.021824 * *

Refrigerante 1 0.062422 0.062422 0.062422 * *

Heramiente 1 0.001250 0.001250 0.001250 * *

RPM 1 0.001800 0.001800 0.001800 * *

2-Way Interactions 3 0.065767 0.065767 0.021922 * *

Refrigerante*Heramiente 1 0.024939 0.024939 0.024939 * *

Refrigerante*RPM 1 0.037356 0.037356 0.037356 * *

Heramiente*RPM 1 0.003472 0.003472 0.003472 * *

3-Way Interactions 1 0.002939 0.002939 0.002939 * *

Refrigerante*Heramiente*RPM 1 0.002939 0.002939 0.002939 * *

Residual Error 0 * * *

Total 7 0.134178

Estimated Coefficients for MEDIA using data in uncoded units

Term Coef

Constant 33.9333

Refrigerante 0.0883333

Heramiente 0.0125000

RPM -0.0150000

Refrigerante*Heramiente 0.0558333

Refrigerante*RPM 0.0683333

Heramiente*RPM 0.0208333

Refrigerante*Heramiente*RPM 0.0191667

Alias Structure

Refrigerante

Heramiente

Refrigerante*Heramiente

Refrigerante*RPM

Heramiente*RPM

Refrigerante*Heramiente*RPM

altobajo

600500

Refrigerante Heramiente

Main Effects Plot for MEDIAData Means

altobajo

Heramiente

Refrigerante

34.1833

33.966733.8033

33.7200

33.9967

33.940033.9733

33.8833

Cube Plot (data means) for MEDIA

21 600500

Refrigerante

Heramiente

Refrigerante

Heramiente

Interaction Plot for MEDIAData Means

CONCLUSIÓN

Refrigerante es el más importante porque es más afecta la creación de las barras, por lo

tanto (F = 21.29) y en gráfica, valor de refrigerante es bajo 33.80

PROBLEMA 3

Una persona requiere disminuir en un porcentaje de oxidación, el cual se realiza cuando el

producto es trasladado de las plantas de EU a México. Para estos se decidió que podían

influir los siguientes factores operativos:

Factor Nivel 1 Nivel 2

Cantidad de aceite Bajo Alto

Tipo de papel Común especial

En base a lo anterior se decide realizar un diseño de experimentos por lo que proporciona la

siguiente tabla.

Aceite Papel R1 R2 R3 R4 R5

Bajo Común 5.12 5.14 4.89 4.32 4.44

alto Común 3.14 3.16 3.56 3.45 3.65

bajo Especial 2.15 2.12 2.15 2.14 2.11

alto Especial 1.11 1.09 0.99 1.21 1.05

Realizar;

Grafica de efectos principales

Gratifica de iteraciones

Aceite

Main Effects Plot for MediaData Means

El problema busca disminuir la oxidación (menos es mejor) por lo que se toman los factores

en nivel más bajo, al aceite tiene nivel más bajo en el papel también, (2 es nivel bajo) y en

estnd. Desv. aceite 2 es nivel bajo y en papel.

Aceite

Main Effects Plot for Desv.estndardData Means

Interacción con desd. Std

Aceite

Interaction Plot for Desv.estndardData Means

Aceite y papel en nivel 2

Aceite

Interaction Plot for MediaData Means

El nivel más significante el diseño experimento en ambos factores aceite y papel es nivel 2

Aceite

0.08124

0.232100.38226

0.01817

Cube Plot (data means) for Desv.estndard

El menor valor es el siguiente: 1.090 con factores en niveles: [2 2]

ARREGLOS FACTORIALES

PROBLEMA 1.

Se corre un diseño factorial 3 x 2 con 10 réplicas para investigar el hinchamiento del

catalizador después de la extrusión en la fabricación de botellas de polietileno de alta

densidad. El catalizador se utiliza en la obtención de dicho polietileno. Los factores

investigados son: A: catalizador (con tres niveles, A1, A2 YA3) y B: molde

(Con dos niveles, B1 y B2). Los datos obtenidos se muestran en la tabla siguiente.

Catalizador

A1 A2 A3

93 92 93 92 90 92 95 94 94

92 91 90 94 91 91 94 97 96

90 90 90 92 94 95

91 91 91 92 94 96

88 88 87 90 89 88 91 91 91

88 87 88 88 90 89 90 89 91

87 87 88 89 92 90

87 87 88 88 90 91

Determine el mejor tratamiento. ¿Cuál es el hinchamiento predicho en el mejor tratamiento?

A3A2A1

Catalizador

Interaction Plot for ResultadoData Means

BIBLIOGRAFÍA:

1. Armitage, P. y G. Berry. 1997. Estadística para la Investigación Biomédica. Harcourt

Brace. 593pp.

2. Crawley, Michael. 1993. GLIM for Ecologists. Ed. Blackwell Sci. Pub. Oxford. 379 pp.

3. Di Rienzo, J; Casanoves, F. González, L.; Tablada, E; Díaz, M.; Robledo, C. y Balzarini,

M. 2001. Estadística para las Ciencias Agropecuarias. 4ta. Ed. Triunfar. Córdoba.

Argentina.

4. Johnson, Richard & Dean Wichern. 1998. Applied multivariate statistical analysis.

Prentice-Hall. New Jersey. 816 pp.

5. Kuehl, Robert. 2001. Diseño de Experimentos. Principios estadísticos para el diseño y

análisis de investigaciones. Ed. Thomson Learning. Mexico. 666 pp.

6. Macchi, R. 2001. Introducción a la Estadística en Ciencias de la Salud. Ed. 128 pp

7. Mason, Robert, Richard Gunst & James Hess. 1989. Statistical design and Analysis of

Experiments. With applications to Engineering and Science. Ed. John Wiley & Sons.

New York. 692 pp.

8. Mead, R., R. Curnow & A. Hasted. 1993. Statistical Methods in Agriculture and

Experimental Biology. Ed. Chapman & Hall. London. 415 pp.

9. Montgomery, M. C. 1991. Diseño y Análisis de Experimentos. Grupo Editorial

Iberoamericana

10. Morton, R, J. Hebel y R. McCarter. 1993. Bioestadística y Epidemiología.

InteramericanaMcGraw-Hill. 184 pp.

11. Robles, C.A. 1969. Serie didáctica Nº 4: Biometría y Técnica Experimental. FCA-UNTuc

286 pp.

12. Scheffe, Henry.1959.The analysis of variance. Ed. John Wiley & Sons. New York.477

13. Scheiner, Samuel & Jessica Gurevich. 1993. Design and analysis of Ecological

Experiments.Chapman & Hall. New York. 445 pp.

14. Sokal, R y J. Rohlf. 1984. Introducción a la Bioestadística. Ed. Reverté.

15. Spiegel, M. 1991. Estadística. Ed. Mc.Graw Hill

16. Tabachnick, Barbara & Linda Fidell. 1996. Using multivariate statistics. HarperCollins

College Publishers. New York. 880 pp.

17. Zar, Jerrold. 1984. Biostatistical analysis. Prentice-Hall. New Jersey. 718 pp.

ESTADISITICA REPORT CLASS.docx seuri kilakoi

Documents

Transcript of ESTADISITICA REPORT CLASS.docx seuri kilakoi

div class.docx

Estadisitica 1

Talouspolitiikan arviointineuvoston raportti 2019...Johanna Niemi Jari Vainiomäki Seppo Orjasniemi Pääsihteeri Allan Seuri Tutkija -12/2019 Elena Ahonen Tutkimusapulainen 1/2020-

estudiar.uncuyo.edu.arestudiar.uncuyo.edu.ar/upload/ocs01132002.pdf · 2.- CIENCIAS A ORDENANZA - I 5.3 Distrihución de las asignaturas cn periodos de clases LPRIMAVERA y Estadisitica

Unidad 9 Estadisitica Mat 3ESO Soluciones

Trabajo estadisitica aplicada final eo - jm- sf

TRABAJO Final de Estadisitica.

lib.ieie.nsc.rulib.ieie.nsc.ru/docs/JEL Class.docx · Web viewQ56 Environment and Development • Environment and Trade • Sustainability • Environmental Accounts and Accounting

(6) Jobsheet Relasi Class - ifrozi.files.wordpress.com · 1. Mengapaatributmk!dari!class! ... Microsoft Word - (6) Jobsheet Relasi Class.docx Author: Imam Fahrur Rozi Created Date:

Grado 7. Guia 3. Estadisitica

Liebe Kunden, Partner und Interessenten der Firma MADA,€¦ · HEDEN-SEURI mit ge-meinsamen Standkonzept auf der security in Essen Seite 2 Messe-Highlights: BM10 Self-Visit, ceVoBLE

ISSN 1869-9391 Science Business · Seuri, ssen 2 28 018 mi eilae 2/18 4 0 Eemplare 13.09.18 RS: 08.08.18 5/18 INTGEO weisprachige Schwerpunktausgabe Englisch/Deutsch lrian, resden

estadisitica División Medico Legal B de Huaura 2005 - 2008

CENTRO DE INVESTIGACIÓN EN MATERIALES AVANZADOS, … M. Seuri...ii AGRADECIMIENTOS Deseo expresar en estas líneas mis agradecimientos a las personas, del centro de Centro de Investigación

Estadisitica en la calidad

Estadisitica humedal trabajo

Estadisitica Descriptiva

Korean idioms for class · · 2017-12-13Microsoft Word - Korean idioms for class.docx Author: Daniel Created Date: 6/27/2017 8:47:29 AM ...