Cuadernillo Apuntes de ESTADISTICA II

8/17/2019 Cuadernillo Apuntes de ESTADISTICA II

1/56

TECNOLÓGICO DE ESTUDIOS SUPERIORES DEL

ORIENTE DEL ESTADO DE MÉXICO

DIVISIÓN DE CONTADURÍA

ELABORACIÓN DE CUADERNILLO DE APUNTES:

ESTADÍSTICA ADMINISTRATIVA II

ELABORADO POR:

ING. MIRIAM MEDINA DELGADO

LOS REYES, LA PAZ, ESTADO DE MÉXICO AGOSTO 2010


2/56

INDICE

Unidad 1 Pruebas de la bondad del ajuste y análisis de varianza

1.1 Análisis Ji-Cuadrada . ............................................................................ 11.2 Prueba de independencia . .................................................................... 11.3 Prueba de la bondad del ajuste . ............................................................ 11.4 Tablas de contingencia . ........................................................................ 41.4.1 método para obtener el estadístico x2 de una tabla de contingencia

con dos renglones. ................................................................................. 41.4.2 método para obtener el estadístico x2 de una tabla de contingencia

con más de dos renglones. .................................................................... 61.5 Análisis de varianza . ............................................................................. 91.5.1 Aplicaciones de ANOVA . ................................................................... 9

1.5.2 Inferencia sobre una varianza de población (Anova). . ....................... 141.5.3 Inferencia sobre la varianza de dos poblaciones (Anova). . ................ 15

Unidad 2. Análisis de regresión, correlación lineal simple y múltiple

2.1 Estimación mediante la línea de regresión . ......................................... 162.1.1 Diagrama de dispersión. ................................................................... 162.1.2 Método de mínimos cuadrados. ........................................................ 172.1.3 Interpretación del error estándar de la estimación. ............................. 18

2.1.4 Intervalos de predicción aproximados................................................ 192.1.5 Análisis de correlación. ..................................................................... 222.1.6 Paquete computacional para la solución de problemas. ..................... 222.1.7 Regresión múltiple y análisis de correlación. ..................................... 222.1.8 Usos de variables ficticias. ................................................................ 252.1.9 Residuales y gráficas de residuales. ................................................. 25

Unidad 3. Números índice

3.1 Elaboración de índices simples. ........................................................... 273.2 Índices agregados de precio. ............................................................... 273.3 Relativos eslabonados . ....................................................................... 283.4 Cambio de periodo base. ..................................................................... 283.5 Fusión de dos series de números índice. ............................................. 293.6 Índice de precios al consumidor (IPC).. ................................................ 293.7 Deflación de los valores de series de tiempo. ....................................... 303.8 Índice de precios al productor (IPP).. ................................................... 313.9 Promedios de precios bursátiles de DowJones. .................................... 313.10 Indice de producción insustrial. .......................................................... 31


3/56

Unidad 4. Estadística no paramétrica

4.1 Escala de medición. ............................................................................ 334.2 Métodos estadísticos contra no paramétricos. ...................................... 334.3 Prueba de corridas para aleatoriedad. .................................................. 35

4.3.1 Concepto de aleatoriedad. ................................................................ 354.3.2 Teoría de corridas. ........................................................................... 354.3.2.1 Prueba de corridas de una sola muestra. ....................................... 364.3.2.2 Distribución de muestreo del estadístico r . ..................................... 364.4 Una muestra: prueba de signos. .......................................................... 384.5 Una muestra: prueba de Wilcoxon. ...................................................... 404.6 Dos muestras: prueba de Mann-Whitney. ............................................. 424.7 Observaciones apareadas: prueba de Wilcoxon. .................................. 454.8 Varias muestras independientes: prueba de Krauskal-Wallis. ............... 46


4/56

INTRODUCCIÓN

La estadística administrativa es una materia importante en contaduría ya quepermite recopilar, organizar, representar, analizar datos y tomar decisiones, así

mismo nos da las herramientas necesarias para utilizar el método adecuadoconforme a la situación que se está analizando y aplicarlo en el área contable.

Este cuadernillo de apuntes tiene como finalidad servir de apoyo al estudiantedurante el curso de la materia, el cual consta de 4 unidades en donde seproponen algunas prácticas para la aplicación de los temas estudiados y estádesarrollado conforme al temario. Sin embargo es importante que el alumnoconsulte más fuentes de información con el objetivo de retroalimentar.

A continuación se hace una breve semblanza de los temas que se tratan en lasunidades.

Unidad 1. Pruebas de la bondad del ajuste y análisis de varianza. En estaunidad se analizan los siguientes temas: análisis ji-cuadrada, pruebas deindependencia, bondad de ajuste, tablas de contingencia y análisis devarianza para hacer inferencias a partir de una o dos poblaciones.

Unidad 2. Análisis de regresión correlación lineal simple y múltiple. Enesta unidad realiza el diagrama de dispersión, se aplica el método de mínimos

cuadrados para interpretar el error estándar y determinar los intervalos depredicción, así como la solución de ejercicios de análisis de correlación enExcel. Asimismo se recaban datos de una empresa para aplicar la regresiónlineal y hacer estimaciones futuras.

Unidad 3. Números índice. En esta unidad se realizan ejercicios para laelaboración de números índice: simple, precio agregado y precio alconsumidor. Asimismo se elaboran índices de precio y cantidad con datosrecabados en revistas y otras fuentes.

Unidad 4. Estadística no paramétrica. En esta unidad se contrasta laestadística paramétrica contra la no paramétrica, así mismo se analizan temasde prueba de corrida de aleatoriedad, de una o dos muestras y observacionesapareadas. También se recopilan datos para efectuar comparación y análisisentre la estadística y la estadística no paramétrica.


5/56

Estadística Administrativa II 1

Unidad 1. Pruebas de la bondad del ajuste y análisis devarianza

1.1 Análisis Ji-Cuadrada

Las pruebas Ji-Cuadrada nos permite probar si más de dos proporciones depoblación pueden ser consideradas iguales.

Si clasificamos una población en diferentes categorías respecto a dos atributos(por ejemplo, edad y desempeño en el trabajo), entonces podemos utilizar unaprueba Ji-Cuadrada para los dos atributos son independientes entre sí.

1.2 Prueba de independencia

Los administradores necesitan saber si las diferencias que observan entrevarias proporciones de la muestra son significativas o sólo se deben al azar.

1.3 Prueba de la bondad del ajuste

La prueba ji- cuadrada puede utilizarse también para decidir si unadistribución de probabilidad en particular, como la binomial, la de Poisson o lanormal, es la apropiada. Esta es una habilidad importante, porque comotomadores de decisiones que utilizamos la estadística, necesitamos escogercierta distribución de probabilidad para representar la distribución de los datosque tengamos que analizar.

La prueba ji- cuadrada nos permite hacernos la pregunta de cuál distribuciónpodemos utilizar, y probar si existe una diferencia significativa entre unadistribución de frecuencias observadas y una distribución de frecuenciasteórica.

Cálculo de frecuencias observadas y esperadas

Ejemplo

La compañía “x” requiere que los estudiantes del último año de la universidadque buscan trabajo sean entrevistados por tres ejecutivos diferentes. Estopermite a la compañía obtener una evaluación por consenso de candidatos.Cada ejecutivo califica al candidato como positivo o negativo.

Con el propósito de planear la contratación, el director de selección delpersonal de la compañía piensa que el proceso de entrevistas puede seraproximado por una distribución binomial con p= 0.40, es decir del 40 % de deposibilidad de que cualquier candidato obtenga una calificación positiva encualquiera de las entrevistas.

Si el director desea probar una hipótesis a un nivel de significancia de 0.20.¿Cómo debe proceder?


6/56


Ho: una distribución binomial con p= 0.40 Es una buena descripción delproceso de entrevista.

Hi: una distribución binomial con p= 0.40 No es una buena descripción delproceso de entrevista.

α= 0.20 nivel de significancia para probar la hipótesis

Calificaciones positivasposibles en las tres

entrevistas

Número decandidatos queobtienen cada

calificación

Resultadosde las entrevistasde 100 candidatos

0 181 472 243 11

100

Calificaciones positivasposibles en las tres

entrevistas

Probabilidadesbinomiales paraesos resultados

Posibilidad binomial 0 .21601 .43202 .28803 .0640

1.0000

Calificacionespositivas

posibles en las tresentrevistas

Frecuenciaobservada de

candidatos queobtienen estascalificaciones

Probabilidadesbinomiales de

resultadosposibles

Número decandidatos

entrevistados

Frecuenciaesperada decandidatos

que obtienenestas

calificaciones

Frecuenciasobservadas,Probabilidadesbinomialesadecuadas

y frecuenciasesperada

0 18 .2160 100 21.61 47 .4320 100 43.22 24 .2880 100 28.83 11 .0640 100 6.4

100 1.0000 100.0

Estadístico ji- cuadrada

x2 = Σ(fo-fe)2

fe

fo= frecuencia observada fe= frecuencia esperada


7/56


Frecuenciaobservada

fo

Frecuencia

esperadafe

fo-fe (fo-fe) (fo-fe)

fe

Calculo delestadístico x

2

18 21.6 -3.6 12.96 0.6000

47 43.2 3.8 14.44 0.334324 28.8 -4.8 23.04 0.800011 6.4 4.6 21.16 3.3063

X =5.0406

Determinación de los grados de libertad

Antes de calcular el número adecuado de grados de libertad para una prueba ji-cuadrada de bondad de ajuste, es necesario contar el número de clases(denotado por K) para las que se compararon las frecuencias observadas yesperadas.

Grados de libertad = k-1

K= 0,1,2,3 k= 4 gl= 4-1 gl= 3

Rechazamos la hipótesis nula y llegamos a la conclusión de que la distribuciónbinomial con p=0.40 no proporciona una buena descripción de nuestras

frecuencias observadas

Realizar los siguientes ejercicios del libro:

1) Levin I. Richard. Estadística para administradores. Editorial: Prentice-Hall.

Número Página

11-16 46611-17 466

11-18 466

Región de aceptación

5.0406

0.20 del área

Valor x2

Distribución x2

4.642

Valor de tabla

Región de rechazo


8/56


1.4 Tablas de contingencia

Describimos las dimensiones de una tabla de contingencia estableciendoprimero el número de renglones y luego el número de columnas. La columna y

el renglón con el total no cuentan como parte de las dimensiones. Losrenglones corren de manera horizontal y las columnas de manera vertical.Tabla de contingencia de 2 x 4( 2 renglones, 4 columnas)

1.4.1 Método para obtener el estadístico x2

de una tabla decontingencia con 2 renglones.

Ejemplo

En cuatro regiones se muestrean las actitudes de los empleados respecto a la

evaluación del desempeño en el trabajo. Los trabajadores eligen entre elmétodo actual (dos evaluaciones al año) y un método propuesto (evaluacionestrimestrales). A continuación se presentan los datos.

Tabla de contingencia de 2x4

Noreste Sureste Central Costaoeste

Total

Respuesta dela muestraconcernientea los

programas deevaluación deempleados

Número de empleados queprefieren el método actual

68 75 57 79 279

Número de empleados queprefieren el método nuevo

32 45 33 31 141

Total de empleadosmuestreados en cadaregión

100 56 90 110 420

Planteamiento del problema

Hipótesis nulaHo: PN=PS=PC=PW

Hipótesis alternativaHi: PN, PS, PC, PW no son iguales

PN= proporción de empleados en el noreste que prefieren el plan actualPS= proporción de empleados en el sureste que prefieren el plan actualPC= proporción de empleados en la región central que prefieren el plan actualPW= proporción de empleados de la región de la costa que prefieren el planactual.


9/56


Frecuencias observadas y esperadas


Proporción de

empleadosmuestreadosen cadaregión que seesperaprefieren losdos métodosde evaluación

Número total muestreado 100 120 90 110

Proporción estimada queprefieren el método actual

x 0.6643 x 0.6643 x 0.6643 x 0.6643

Número que se esperaprefiera el método actual

66.43 79.72 59.79 73.07

Número total muestreado 100 120 90 110Proporción estimada queprefieren el método nuevo

x 0.3357 x 0.3357 x 0.3357 x 0.3357

Número que se esperaprefiera el método nuevo

33.57 40.28 30.21 36.93


Comparaciónde lasfrecuenciasobservadas yesperadas detrabajadoresmuestreados

Frecuencia con queprefieren el método actual:

68 75 57 79

Frecuencia observada (real)Frecuencia esperada(teórica)

66.43 79.72 59.79 73.07

Frecuencia con queprefieren el método nuevo:

32 45 33 31

Frecuencia observada (real)Frecuencia esperada(teórica)

33.57 40.28 30.21 36.93


= ( − )


Paso 1 Paso 2 Paso 3Calculo delestadísticox

2

fo fe fo-fe (fo-fe) (fo-fe)

fe

68 66.43 1.57 2.46 0.037075 79.72 -4.72 22.28 0.279557 59.79 -2.79 7.78 0.130179 73.07 5.93 35.16 0.481232 33.57 -1.57 2.46 0.073345 40.28 4.72 22.28 0.553133 30.21 2.79 7.78 0.257531 36.93 -5.93 35.16 0.9521

X = 2.7638


10/56



Número de

grados delibertad

Grados de libertad en una prueba ji- cuadrada

= (número de renglones -1 )(número de columnas -1)

Tabla de 2x4 (2-1)(4-1)= (1)(3) = 3 grados de libertad

Nivel de significancia de .10

Buscar en tablas x2 3 grados de libertad con un nivel de significancia de .10 ygraficar

Interpretación de los resultados y la gráfica.

1.4.2 Método para obtener el estadístico x2 de una tabla decontingencia con más de 2 renglones.


x2 = Σ(fo-fe)2

fe


Determinación de los grados de libertad de una tabla decontingencia de más de tres renglones

Número degrados delibertad de unatabla de más detres renglones

Grados de libertad en una prueba ji- cuadrada

= (número de renglones -1 )(número de columnas -1)


2.764

0.10 del área

Valor x2

Distribución x2

con 3 grados de

libertad

6.251

Valor de tabla

Región de rechazo


11/56


Tabla de contingencia Número derenglones

Número decolumnas

r-1 c-1 Grados delibertad(r-1)(c-1)

A 3 4 3-1=2 4-1=3 (2)(3)=6B 5 7 5-1=4 7-1=6 (4)(6)=24C 6 9 6-1=5 9-1=8 (5)(8)=40

El presidente de una compañía de seguros de salud, se opone al seguronacional. Argumenta que su implementación sería muy costosa, en particular,debido a que la existencia de este sistema tendería a fomentar permanenciashospitalarias más prolongadas, además de otros efectos. El presidente piensaque el tiempo de hospitalización depende del tipo de seguro de salud quetengan las personas.

Los siguientes datos se obtuvieron de una muestra aleatoria de 660hospitalizaciones.

Días en el hospital

10 Total

Datos dehospitalizacionesCalificados segúnel tipo decobertura delseguro y el tiempo

de estancia

Fracción de costoscubiertos por el seguro

50% 40 100 190 330

Total 110 220 330 660

Planteamiento del problema

Hipótesis nulaHo: el tiempo de estancia y tipo de seguro son independientes

Hipótesis alternativaHi: el tiempo de estancia depende del tipo de seguro

α= 0.01 nivel de significancia para probar la hipótesis

Frecuencia esperada para cualquier celda

Calculo de la frecuencia esperada fe= RT X CT

n

fe= frecuencia esperada en una celda dadaRT= total por renglón para el renglón que contiene esa celdaCT= total por columna para la columna que contiene esa celda.n= número total de observaciones


12/56



fo= frecuencia observada fe

= frecuencia esperada

x2 = Σ(fo-fe)2

fe

Renglón Columna fo fe = RT X CTn

fo-fe (fo-fe) (fo-fe)

fe

Calculode las

frecuenciasesperadasy ji-cuadrada

1 1 40 30 180 X 110660

10 100 3.333

1 2 75 60 180 X 220660

15 225 3.750

1 3 65 90 180 X 330660

-25 625 6.944

2 1 30 25 150 X 110660

5 25 1.000

2 2 45 50 150 X 220660

-5 25 0.500

2 3 75 75 150 X 330660

0 0 0.000

3 1 40 55 330 X 110660

-15 225 4.091

3 2 100 110 330 X 220660

-10 100 0.909

3 3 190 165 330 X 330660

25 625 3.788

X =24.315

Buscar en tablas x2 4grados de libertad con un nivel de significancia de .10 ygraficar

Interpretación de resultados


x2=

24.315

0.10 del área

Distribución x2

13.277

Valor de tabla

Región de rechazo


13/56


Ejercicios



Número Página

11-1 45911-2 46011-7 46011-8 46011-9 460

11-10 46011-11 46111-12 46111-13 461

1.5 Análisis de varianza

El análisis de varianza nos permite probar si más de dos medias de poblaciónpueden considerarse iguales. A menudo se abrevia ANOVA: analysis ofvariance.

ANOVA Es un método de prueba de igualdad de tres o más mediaspoblacionales.1

Hipótesis nula típica

HO= μ1= μ2= μ3

El método ANOVA nos sirve para evitar el error tipo I (rechazar una hipótesisnula verdadera,), si utilizamos una prueba de igualdad de varias medias.

1.5.1 Aplicaciones de ANOVA

Se utiliza cuando:

Se asevera que los supermercados colocan los cereales con alto contenido deazúcar en estantes que están a la altura De los ojos de los niños, de maneraque eso nos permite probar la aseveración de que los cereales en los estantestienen el mismo contenido de azúcar.

1 Mario F. Triola, Estadística, Pearson, México,2006


14/56


También en casos como: la comparación del kilometraje logrado por cincoclases diferentes de gasolina, la prueba de cuál de cuatro métodos decapacitación produce el aprendizaje más rápido, etc.

Los métodos de ANOVA requieren de la distribución F.

Propiedades de la distribución F:

1. Es no simétrica; se sesga hacia la derecha2. Los valores F son 0 o positivo, pero no negativos3. Hay una distribución F para cada par de grados de libertad para el

numerador y el denominador.

Figura 1. Fuente: (Triola, 2006:605)

Ejemplo

Muestra 1 15 18 19 22 11

Muestra 2 22 27 18 21 17

Muestra 3 18 24 19 16 22 15

Planteamiento de la hipótesis

Ho: μ1= μ2= μ3

H1: μ1, μ2 y μ3 no son todas iguales


15/56


Cálculo de la media

Método 1 Método 2 Método 3

Producción diaria 15 22 18

18 27 24

19 18 19

22 21 16

11 17 22

15

85 105 114 Sumatoria÷5 ÷5 ÷6 Tamaño de

la muestra17 21 19 Media

muestral

n1=5 n2=5 n3=6

1= 17 2= 21 3= 19

Cálculo de la gran media

= 15 +18+ 19+ 22+ 11+22 +27+ 18+ 21+ 17+18 +24+ 19+ 16+ 22+ 15 = 1916

Cálculo de la varianza entre columnas

σ2b = Σn j ( - )2 =

k-1

n - ( - )2 n( - )

Cálculo de lavarianzaentre columnas

5 17 19 17-19=-2 (-2)2=4 5x4=20

5 21 19 21-19=2 (2)2=4 5x4=20

6 19 19 19-19=0 (0)2=0 6x0 = 0

Σn j( - )2

=40

σ2b = Σn j ( - )2 = 40= 40 = 20 varianza entre columnas

k-1 3-1 2


16/56


Estimación de la varianza dentro de columnas

Método de capacitación 1

Media muestral =17

Estimaciónde la varianzadentro de columnas

- ( - )2

15-17=-2 (-2)2=4

18-17=1 (1)2=1

19-17=2 (2)2=4

22-17=5 (5)2=25

11-17=-6 (-6)2=36

Σ( - )2 =70

s21= Σ( - )2 = 70 = 17.5 varianza de la muestra

n-1 5-1


Media muestral =21


- ( - )2

22-21=1 (1)2=1

27-21=6 (6)2=36

18-21=-3 (-3)2=9

21-21=0 (0)2=0

17-21=-4 (-4)2=16

Σ( - )2 =62


n-1 5-1


Media muestral =19


- ( - )2

18-19=-1 (-1)2=1

24-19=5 (5)2=25

19-19=0 (0)2=0

16-19=-3 (-3)2=9

22-19=3

(-3

2

=9

15-19=-4 (-4)2=16

Σ( - )2 =60


17/56



n-1 6-1

σ2w = Σ n j - 1 s2 j = (4/13)(17.5) + (4/13)(15.5) + (5/13)(12.0) = 193 = 14.769

nt - k 13

Estadístico F

F = varianza entre columnas = σ2b

Varianza dentro de columnas σ2w

F= 20 = 1.354 cociente F14.769


Grados de libertad del numerador

Número de grados de libertad en el

numerador del cociente F

= (número de muestras-1)

Grados de libertad del denominador

Número de grados de libertad en el

denominador del cociente F

= Σ (n j-1)= nt-k

Gráfica

Se acepta la hipótesis nula.


F= 1.354

0.05 del área

Distribución f

3.81

Valor de tabla

Región de rechazo


18/56


Ejercicios



Número Página

11-5 47911-6 47911-26 48011-27 480 11-28 480 11-29 480

11-30 480

1.5.2 Inferencia sobre una varianza de población (Anova).

Estadístico ji- cuadrada para inferencias sobre una

varianza

X =(n-1)s

σ2

Intervalo de confianza para σ

Límite inferior de confianza σ2L=(n-1)s

2

X

2U

Límite superior de confianza σ2U=(n-1)s2

X2

L


19/56


20/56


Unidad 2. Análisis de regresión, correlación lineal simple y

múltiple

2.1 Estimación mediante la línea de regresión

El análisis de regresión y correlación permiten determinar tanto la naturalezacomo la fuerza de una relación entre dos variables.

En el análisis de regresión se desarrollará una ecuación de estimación, a travésde una fórmula matemática que relaciona las variables conocidas con lavariable desconocida.

La variable conocida.- variable independiente X

La variable que tratamos de predecir se llama variable dependiente Y

Figura 2. Fuente: (Levin, 2004:511)

2.1.1 Diagrama de dispersión

El primer paso para determinar si existe una relación entre dos variables es

examinar la gráfica de datos observados. A esta gráfica se le llama diagramade dispersión.

Un diagrama de dispersión se puede identificar visualmente patrones queindique si las variables están relacionadas.

X

Y

Gastos contra la contaminación

Emisor

de

contaminación

Pendiente negativa

b) Relación directa

X

Y

Publicidad

Ventas

Pendiente positiva

a) Relación directa


21/56



2.1.2 Método de mínimos cuadrados

Línea de estimación

Y= a+bx

Y= variable dependientea=variable ordenada yb=pendiente de la recta

x=variable independiente

Pendiente de la recta de regresión de mejor ajuste

b = Σ XY - n X Y

Σ X2 - n X

2

b=pendiente de la línea de estimación de mejor ajusteX= valores de la variable independiente Y= variable valores de la variable dependiente

X= media de los valores de la variable independiente Y= media de los valores de la variable dependienten= número de puntos


22/56


Línea de estimación

a = Y - bX

a= ordenada Y b= pendiente de la ecuación X= media de los valores de la variable independiente Y= media de los valores de la variable dependiente

Error estándar de la estimación

Se= Σ(Y-Y)2

n-2

Y= valores de la variable dependiente Y=valores estimados con la ecuación de estimación que corresponden a cadavalor de Yn= número de puntos utilizados para ajustar la línea de regresión

Para medir la confiabilidad de la ecuación de estimación, los especialistas enestadística han desarrollado el error estándar de estimación. Este errorestándar se simboliza por Se y es similar a la desviación estándar, en cuanto aque ambas son medidas de dispersión.

El error estándar de la estimación, por otra parte, mide la variabilidad, o

dispersión de los valores observados alrededor de la recta de regresión.

2.1.3 Interpretación del error estándar de la estimación

Como ocurriría en el caso de la desviación estándar, mientras más grande seael error estándar de la estimación, mayor será la dispersión de los puntosalrededor de la línea de regresión. De manera inversa, si Se= 0, esperamos quela ecuación de estimación sea un estimador “perfecto” de la variabledependiente. En este caso, todos los puntos caerían directamente sobre la

línea de regresión y no habría puntos dispersos alrededor.

Usaremos el error estándar de la estimación como una herramienta, de lamisma forma que podemos usar la desviación estándar. Esto es, suponiendoque los puntos observados siguen una distribución normal alrededor de la rectade regresión, podemos esperar encontrar el 68% de los puntos dentro de ±1Se,el 95.5 % de los puntos dentro de ±2Se, y el 99.7 % de los puntos dentro de±3Se.


23/56



Debemos observar que el error estándar de la estimación se mide a lo largo deleje Y, y no perpendicularmente desde la recta de regresión.

2.1.4 Intervalos de predicción aproximados

Podemos concebir al error estándar de la estimación como una herramientaestadística que podemos usar para hacer afirmaciones de probabilidad acerca

del intervalo alrededor del valor estimado de Y, dentro del cual cae el valor realde Y.

EjemploY= 3.75 + 0.75 X

Sustituyendo 4 en X

Y= 3.75 + 0.75 (4)= 3.75 + 3.00

= 6.75


24/56


Intervalo 1 error 2 errores 3 errores

Y ±1 Se. Y ±2 Se. Y ±3 Se.

En donde Se = 86.60

Sustitución

Ejemplo

A menudo quienes hacen la contabilidad de costos estiman los gastosgenerales con base en el nivel de producción. Se ha reunido informaciónacerca de los gastos generales y las unidades producidas en diferentesplantas, y ahora desean estimar una ecuación de regresión para predecir losgastos generales futuros.

Gastos generales 191 170 272 155 280 173 234 116 153 178

Unidades 40 42 53 35 56 39 48 30 37 40

a) Determine la variable dependiente e independienteb) Desarrolle una ecuación de regresión para contabilidad de costosc) Pronostique los gastos generales cuando se producen 50 unidadesd) Calcule el error estándar de estimación

Y +1 Se =

675 + (1) (86.60) = 761.40

Límite superior del intervalo depredicción

Y +2 Se =

675 + (2) (86.60) = 848.20

Límite superior del intervalo depredicción

Y -1 Se =

675 - (1) (86.60) = 588.40

Límite inferior del intervalo de

predicción

Y - 2 Se =

675 - (2) (86.60) = 501.80

Límite inferior del intervalo de

predicción


25/56


X Y XY X Y

40 191 7640 1600 3648142 170 7140 1764 2890053 272 14416 2809 7398435 155 5425 1225 24025

56 280 15680 3136 7840039 173 6747 1521 2992948 234 11232 2304 5475630 116 3480 900 1345637 153 5661 1369 2340940 178 7120 1600 31684

ΣX= 420 ΣY= 1922 ΣXY= 84541 ΣX = 18228 Σ Y = 395024

b = Σ XY - n X Y = 84541 - 10(42)(192.2) = 6.4915

Σ X2 - n X

2 18228 - 10(42)

2

a = Y – bX = 192.2 – 6.4915 (42) = - 80.4430

Y= a+bx = -80.4430 + 6.4915 (50) = 244.1320

Se= ΣY2 –aΣY – b ΣXY =

n-2

Ejercicios



Número Página

12-2 53112-3 531 12-13 531 12-14 531 12-15 531


26/56


2.1.5 Análisis de correlación

El análisis de correlación es la herramienta estadística que podemos usar para

describir el grado en el que una variable está linealmente relacionada con otra.

El coeficiente de determinación es la principal forma en que podemos medir elgrado, o fuerza, de la asociación que existe entre dos variables, X y Y. debido aque usamos una muestra de puntos para desarrollar rectas de regresión.

Coeficiente de determinación de la muestra

r2= aΣY+bΣXY-nY

2

ΣY2 – n Y2

Coeficiente de correlación de la muestra

r= r2

Ejercicio

Con los datos de los ejercicios anteriores obtén el coeficiente de determinacióny el coeficiente de correlación.

2.1.6 Paquete computacional para la solución de problemas

Resolver ejercicios en excel

2.1.7 Regresión múltiple y análisis de correlación

Podemos utilizar más de una variable independiente para estimar la variabledependiente e intentar, aumentar la precisión de la estimación. Este proceso seconoce como análisis de regresión múltiple y correlación.

La principal ventaja de la regresión múltiple es que nos permite utilizar másinformación disponible para estimar la variable dependiente. En algunasocasiones la correlación entre dos variables puede resultar insuficiente paradeterminar una ecuación de estimación confiable; sin embargo, si agregamoslos datos de más variables independientes, podemos determinar una ecuación

de estimación que describa la relación con mayor precisión.


27/56


28/56


1 b1 -.099 b2 = .884

1 b1 -.099 (.059) = .884

-.006 .8841b1 = .884 +.006

b1 = .890

1a +17.5b1 +14.167b2 = 19

1a +17.5(.890) +14.167 (.059) = 19

1a +16.411 = 19

1a = 19-16.411

a = 2.589

Y= a + b1 X1 + b2 X2

y=2.589+.890(28)+.059(10)=28.099


29/56


2.1.8 Usos de variables ficticias

La regresión múltiple nos permitirá también ajustar tanto curvas como rectas.Usando las técnicas de variables ficticias, podemos incluir factores cualitativosen la regresión múltiple. Las variables ficticias y las curvas de ajuste sonsolamente dos de las muchas técnicas de modelado que se pueden utilizar enla regresión múltiple para aumentar la precisión de las ecuaciones deestimación.

2.1.9 Residuales y gráficas de residuales

Residuo es la diferencia entre el valor de Y y el valor pronosticado de Y, es

decir (Y - Y’)

Cuando los residuos permanecen constantes para todos los valores de Y’, esta

condición se llama homoscedasticidad

La homocedasticidad es una propiedad fundamental del modelo de regresión

lineal general y está dentro de sus supuestos clásicos básicos.

Se dice que existe homocedasticidad cuando la varianza de los erroresestocásticos de la regresión es la misma para cada observación i (de 1 a n observaciones), es decir:

donde es un escalar constante para todo i. Lo que significaría que habríauna distribución de probabilidad de idéntica amplitud para cada variable

aleatoria.

Esta cualidad es necesaria, según el Teorema de Gauss-Márkov, para que enun modelo los coeficientes estimados sean los mejores o eficientes, lineales einsesgados.

Cuando no se cumple esta situación, decimos que existe heterocedasticidad,que es cuando la varianza de cada termino de perturbación (ui) no es un

número constante .

Este fenómeno suele ser muy común en datos de Corte Transversal y tambiénse presenta, menos frecuentemente, en series de tiempo.


30/56


Figura 5. Distribución Homocedástica.

Figura 6. Distribución Heterocedástica.

Práctica 1

Con los datos históricos de ventas de una empresa, aplicará la regresiónlineal, para hacer estimaciones futuras.


31/56


Unidad 3. Números índice

Un número índice mide cuánto ha cambiado una variable con el tiempo. Se

calcula encontrando el cociente del valor actual entre el valor base, luego se

multiplica el número resultante por cien, por lo tanto se expresa en porcentaje.

Tipos de números índice

Existen tres tipos principales de números índice: índice de precios, índice de

cantidad e índice de valor.

Índ ice de p rec io s

Compara niveles de precio de un periodo a otro. El índice deprecios al consumidor (IPC) clasificado por los gobiernos de lospaíses, mide los cambios globales de precios de un conjuntode bienes y servicios al consumidor, y se usa para definir elcosto de vida.

Índ ice de c ant idad Mide cuánto cambia el número o la cantidad de una variablecon el tiempo.

Índ ic e de valo r Mide los cambios del valor monetario total, es decir, mide elcambio del valor en dinero de una variable.

El índice de valor combina los cambios de precio y cantidad para presentar un

índice con más información.

Los números índice, como el IPC, a menudo se citan en informes noticiosos

como indicadores generales de la condición económica de un país.

Factores que pueden distorsionar los números índice.• Número limitado de datos o dificultad para encontrar datos adecuados.

• Falta de comparación de índices.

• Ponderación no apropiada de los factores.

• Selección de una base no apropiada.


32/56


3.1 Elaboración de índices simples

3.2 Índices agregados de precio

El índice de agregados no ponderados es un índice compuesto. No ponderadosignifica que todos los valores considerados tienen la misma importancia deagregados quiere decir que sumamos todos los valores.

Índice de cantidad de agregados no ponderados

ΣQ i x 100

ΣQ o

Qi=cantidad de cada elemento del compuesto en el año para el que se deseael índice.Qo= cantidad de cada elemento del compuesto en el año base.

Ejemplo

El vicepresidente de ventas de la empresa “X” está examinando la tasa decomisión para lños empleados durante los últimos 3 años. En la siguiente tablase muestran las ganancias por comisiones de los cinco mejores vendedores

de la compañía.

1993 1994 1995

Empleado A 48,500 55,100 63,800Empleado B 41,900 46,200 60,150Empleado C 38,750 43,500 46,700Empleado D 36,300 45,400 39,900Empleado E 33,850 38,300 50,200

Considerando a 1993 como el periodo base, exprese las ganancias porcomisiones de 1994 y 1995 en términos de un índice de agregado noponderado.

1993

Qo

1994

Q1

1995

Q2

Empleado A 48,500 55,100 63,800Empleado B 41,900 46,200 60,150Empleado C 38,750 43,500 46,700Empleado D 36,300 45,400 39,900Empleado E 33,850 38,300 50,200

199,300 228,500 260,750

19,930,000 22,850,000 26,075,000

199,300 199,300 199,300

=100% =114.7% =130.8%


33/56


Índice de agregados ponderado

Cuando se calcula un índice se tiene que asignar una importancia mayor a loscambios en algunas variables que en otras. Esta ponderación permite mejorar

la precisión de la estimación del nivel general de precios basado en unamuestra.

Índice de precios de agregados ponderados

ΣPi Q x 100

ΣPoQ

Pi=precio de cada elemento del compuesto en del año actualPo= precio de cada elemento del compuesto en del año actual año base.Q= factor de ponderación de cantidad seleccionado

3.3 Relativos eslabonados

"Son índices cuya base es siempre periodo anterior. En consecuencia, respectode un conjunto de relativos eslabonados de valores anuales de ventas, cadanumero índice representa una comparación porcentual con el año anterior.Estos relativos son útiles para destacar comparaciones entre un año y otro,pero resultan inconvenientes como base de comparaciones a largo plazo"

3.4 Cambio de periodo base

"La base de una serie establecida de números índices suele cambiarse a unaño más reciente para que las comparaciones actuales sean más significativas.Partiendo del supuesto de que no se dispone de las cantidades originales enlas que se apoya la serie de números índices, el periodo base de un numero

índice puede cambiarse dividiendo cada índice (original) entre el índice del añobase recién determinado y multiplicando el resultado por 100:"

Cambio de periodo base

I nuevo = Índice antiguo x100

Índice antiguo de la nueva base


34/56


35/56


Por otra parte, debido a los cambios en los patrones de consumo de lapoblación de referencia existe la necesidad de revisar, y modificar si fueranecesario, la canasta de consumo, así como la población de referencia y losnegocios informantes, para que el índice se mantenga actualizado, searepresentativo y útil en la práctica.

3.7 Deflación de los valores de series de tiempo

Situación opuesta a la inflación en la que aumenta el valor de la unidadmonetaria como resultante de la baja de los precios. Se produce deflacióncuando la masa monetaria crece a un ritmo menor que la oferta total de bienesy servicios.

En la práctica esto casi nunca sucede, pues los gobiernos aumentan la ofertamonetaria a un ritmo suficiente como para compensar ese crecimiento: de nohacerlo podrían darse bajas en los salarios nominales, con el consiguientemalestar social que esto produciría.

La deflación de series monetarias consiste en eliminar el efecto que loscambios en los precios de los bienes tienen sobre las series de valores.

Cuando queremos conocer la evolución de una serie de valores a lo largo deltiempo, por ejemplo, beneficios de una empresa, producción de una industria,salarios de los empleados de una empresa, ingresos de los hogares, etc., nosencontramos habitualmente con los valores están en unidades monetarias decada periodo, esto es, los valores se refieren a unidades monetarias corrientes.Esto va a hacer que los valores no sean directamente comparables puesto quelas alteraciones de los precios de un periodo a otro confieren distinto poderadquisitivo a las unidades monetarias. En otras palabras, el efecto de lainflación (o deflación) modifica la capacidad de compra del dinero.

Para conocer los cambios reales experimentados por la serie a lo largo delperiodo de interés tendremos que expresar todos los valores de dicha serie en

unidades monetarias de un mismo periodo, es decir, en unidades monetariasconstantes.

Los valores expresados en unidades monetarias corrientes se conocen comovalores nominales.

Los valores expresados en unidades monetarias constantes se conocen comovalores reales.


36/56


3.8 Índice de precios al productor (IPP).

"Incluye tres índices diferentes: de materias primas, materias intermedias ybienes terminados. Se le considera un importante indicador líder de la tasa de

inflación, debido a la probabilidad de que incrementos en los precios de losbienes terminados den origen a subsecuentes incrementos en precios alconsumidor."

Es el producto resultante de una investigación estadística de carácterestratégico, que permite medir la variación porcentual promedio de los preciosal por menor de un conjunto de bienes y servicios. Para entender mejor lanaturaleza del IPP, se debe pensar en el índice como una medida delporcentaje de cambio, a través del tiempo, del costo promedio de una grancanasta de bienes y servicios comprados por los hogares de Colombia,

manteniendo constante la calidad y la cantidad de los bienes. La diferencia conel IPC radica en las agrupaciones en las que está dividido el índice. El IPPtiene en cuenta las siguientes agrupaciones Alimentos y animales vivos,bebidas y tabaco, materias primas no combustibles y lubricantes, aceites ygrasas vegetales y animales, productos químicos, artículos manufacturados,maquinaria y equipo de transporte, artículos manufacturados diversos.

3.9 Promedios de precios bursátiles de DowJones

"Los promedios de precios bursátiles de Dow Jones, muestra los promedios delas acciones en el ramo de la industria, el transporte y de servicios públicos,toma como muestra 30 mercados. Se trata de un promedio ponderado cuyasponderaciones ha sido revisadas varias veces a causa de cambios en el valornominal de las acciones y modificaciones en las compañías incluidas en elíndice."

Este índice es representativo de las 30 mayores compañías industriales deEstados Unidos y se compila sumando los precios de sus acciones y luego

dividiéndolos por una constante. El divisor del Dow Jones se ajustaperiódicamente a fin de reflejar el fraccionamiento o división de las acciones(ver Split). Este promedio empezó a compilarse en 1896 con los títulos de 12firmas, entre ellas las entonces American Tobaco, Tennessee Coal and Iron,Chicago Gas, American Sugar, y la única sobreviviente hoy: General Electric.En 1916 ya eran 20. Y a partir de 1928 pasaron a ser 30, sin que hasta ahorahaya variado esa cantidad.

A continuación las compañías comprendidas en el Dow Jones y los símbolosbajos los cuales se cotizan en la Bolsa de Nueva York (NYSE):

http://www.monografias.com/trabajos15/liderazgo/liderazgo.shtmlhttp://www.monografias.com/trabajos54/resumen-estadistica/resumen-estadistica.shtmlhttp://www.monografias.com/trabajos54/resumen-estadistica/resumen-estadistica.shtmlhttp://www.monografias.com/trabajos15/liderazgo/liderazgo.shtml


37/56


Símbolo Nombre de la

compañía

AA Alcoa

ALD Allied Signal

AXP American Express

BA Boeing

CAT Caterpillar

CHV Chevron

C CitiGroup

DIS Disney

DD Dupont

EK Eastman Kodak

GE General Electric

GM General Motors

GT Goodyear Tire

HWP

Hewlett-Packard

IBM International Business

Machines

IP International Paper

JNJ Johnson & Johnson

JPM JP Morgan Bank

KO Coca Cola

Figura 5. Compañías comprendidas en el Dow Jones

3.10 Índice de producción industrial

"Es un índice agregado de cantidad… y es una medida de la producción defábricas, minas y plantas eléctricas y gaseras del país. Por lo tanto, es unindicador importante del estado de la economía. Se trata de un promedioponderado de relativos de cantidad."

El Índice de Producción Industrial (IPI) es un indicador coyuntural que mide laevolución mensual de la actividad productiva de las ramas industriales, excluidala construcción, contenidas en la Clasificación Nacional de ActividadesEconómicas 2009 (CNAE-2009). Mide, por tanto, la evolución conjunta de la

cantidad y de la calidad, eliminando la influencia de los precios.Para su obtención se realiza una encuesta continua de periodicidad mensualque investiga todos los meses más de 13.200 establecimientos.

Práctica 2

Con datos investigados en revistas al consumidor o del Banco de México,

elaborará los índices simples de precio y cantidad, así como agregado

de precios.


38/56


Unidad 4. Estadística no paramétrica

4.1 Escala de medición

Las escalas de medición son una sucesión de medidas que permiten organizardatos en orden jerárquico. Las escalas de medición, pueden ser clasificadas deacuerdo a una degradación de las características de las variables. Estasescalas son: nominales, ordinales o racionales. Según pasa de una escala aotra el atributo o la cualidad aumenta. Las escalas de medición ofreceninformación sobre la clasificación de variables discretas o continuas. Toda vezque dicha clasificación determina la selección de la gráfica adecuada.

En la estadística descriptiva y con el fin de realizar pruebas de significancia, lasvariables se clasifican de la siguiente manera de acuerdo con su nivel demedida:

• Nominal (también categórica o discreta)• Ordinal• De intervalo (continua)• De razón o racional (continua)

4.2 Métodos estadísticos contra no paramétricos

Las técnicas estadísticas de estimación de parámetros, intervalos de confianzay prueba de hipótesis son, en conjunto, denominadas estadística paramétrica y

son aplicadas básicamente a variables contínuas. Estas técnicas se basan enespecificar una forma de distribución de la variable aleatoria y de losestadísticos derivados de los datos.

En estadística paramétrica se asume que la población de la cual la muestra esextraída es normal o aproximadamente normal . Esta propiedad es necesariapara que la prueba de hipótesis sea válida.

Sin embargo, en un gran número de casos no se puede determinar ladistribución original ni la distribución de los estadísticos por lo que en realidadno tenemos parámetros a estimar. Tenemos solo distribuciones que comparar.

Esto se llama estadística no-paramétrica.

Las hipótesis de una prueba no paramétrica se refiere a algo distinto del valorde un parámetro de la población.

Las principales pruebas no paramétricas son las siguientes:

• Prueba χ² de Pearson • Prueba binomial• Prueba de Anderson-Darling• Prueba de Cochran• Prueba de Cohen kappa• Prueba de Fisher


39/56


• Prueba de Friedman• Prueba de Kendall• Prueba de Kolmogórov-Smirnov• Prueba de Kruskal-Wallis• Prueba de Kuiper• Prueba de Mann-Whitney o prueba de Wilcoxon• Prueba de McNemar• Prueba de la mediana• Prueba de Siegel-Tukey• Coeficiente de correlación de Spearman• Tablas de contingencia• Prueba de Wald-Wolfowitz• Prueba de los signos de Wilcoxon

Características de algunas pruebas no paramétricas.

1. Prueba de signo para datos pares: los signos positivo o negativosustituyen a valores cuantitativos.

2. Prueba de suma de rangos: también llamada prueba U de Mann-Whitney, que puede usarse para determinar si dos muestrasindependientes de sacaron de la misma población.

3. Prueba de suma de rangos Kruskal – Wallis: generaliza el análisis devarianza para poder prescindir de la suposición de que las poblacionestienen distribución normal.

4. Prueba de corridas de una sola muestra: es un método paradeterminar la aleatoriedad con la que se han seleccionado los elementos

muestreados.5. Correlación de rango: método para hacer el análisis de correlación

cuando no se dispone de los datos para usar la forma numérica, perocuando la información es suficiente para clasificar los datos comoprimero, segundo, tercero, etc.

6. Prueba de Kolmogorov: método para determinar la bondad de ajusteentre una muestra observada y una distribución de probabilidad teórica.

Prueba Característica

Mann- Whitney. 2 muestras independientes.

Wilcoxon. 2 muestras asociadas.

Kruskal-Wallis. + de 2 muestras independientes

Friedman. + de 2 muestras asociadas.

Tabla1. Características de pruebas no paramétricas.

http://es.wikipedia.org/w/index.php?title=Prueba_de_Wilcoxon&action=edit&redlink=1http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearmanhttp://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearmanhttp://es.wikipedia.org/w/index.php?title=Prueba_de_Wilcoxon&action=edit&redlink=1


40/56


Las pruebas no paramétricas, no requieren asumir normalidad de la población yla mayoría se basan en el ordenamiento de los datos. El parámetro que se usapara hacer las pruebas estadísticas es la Mediana y Media.

Ventajas y desventajas de los métodos paramétricos

Desventajas Ventajas

• Ignoran cierta cantidad deinformación.

• No requieren la suposición de queuna población está distribuida enforma de curva normal u otra forma

específica.

• A menudo no son tan eficientes o

claras como las pruebasparamétricas.

• Generalmente es más sencillo

realizarlas y entenderlas.

• Algunas veces no se requiere unordenamiento o clasificación formal.

Tabla1. Ventajas y desventajas de los métodos no paramétricas.

4.3 Prueba de corridas para aleatoriedad

4.3.1 Concepto de aleatoriedad.

Aleatorio se asocia a todo proceso cuyo resultado no es previsible más que enrazón de la intervención del azar. El término aleatoriedad se usa a menudocomo sinónimo con un número de propiedades estadísticas medibles, tales

como la carencia de tendencias o correlación.

El resultado de todo suceso aleatorio no puede determinarse en ningún casoantes de que este se produzca. El estudio de los fenómenos aleatorios quedadentro del ámbito de la teoría de la probabilidad y, en un marco más amplio, enel de la estadística.

4.3.2 Teoría de corridas.

Una corrida es una secuencia de ocurrencias idénticas precedidas y seguidasde ocurrencias diferentes.

Ejemplo

M,H,H,H,H,M,

1ra. 2ra. 3ra.

http://es.wikipedia.org/wiki/Azarhttp://es.wikipedia.org/wiki/Azar


41/56


Una prueba de corridas con dos tipos de ocurrencias tiene los siguientessímbolos:

n1= número de ocurrencias del tipo 1

n2= número de ocurrencias del tipo 2

r = número de corridas

4.3.2.1 Prueba de corridas de una sola muestra

Un fabricante de cereal para el desayuno usa una máquina para introduciraleatoriamente uno de los dos tipos de muñecos en cada caja. La compañíadesea una aleatoriedad tal que no todos los niños de un vecindario terminencon el mismo muñeco. Los probadores eligen muestras de 60 cajas sucesivaspara ver si la máquina está mezclando adecuadamente los dos tipos demuñecos. Usado los símbolos A y B para representar los dos tipos demuñecos, un probador reportó que uno de estos lotes se presentó como sigue:

B,A,B,B,B,A,A,A,B,B,A,B,B,B,B,A,A,A,A,B,A,B,A,A,B,B,B,A,A,B,A,A,A,A,B,B,A,

B,B,A,A,A,A,B,B,A,B,B,B,B,A,A,B,B,A,B,A,A,B,B

Valores de la prueba:

n1= 29

n2= 31

r= 29

4.3.2.2 Distribución de muestreo del estadístico r

El número de corridas r es un estadístico con su propia distribución demuestreo especial y su propia prueba.

Una prueba de corridas de una sola muestra, está basada en la idea de quemuy pocas o demasiadas corridas muestran que los elementos no fueronelegidos aleatoriamente.

Media de la distribución muestral del estadístico r

μr=2n1n2 +1

n1+n2


42/56


μr = 2(29)(31) +1

29+31

μr = 1798 +1

60 μr = 29.97 +1

μr = 30.97

Error estándar del estadístico r

σr= 2n1n2(2n1n2- n1- n2)

(n1+n2)2(n1+n2-1)

σr= 2(29)(31) ( 2(29)(31) - 29- 31)(29+31)

2(29+31-1)

σr= (1798) (1738)

(60)2(59)

σr= 14.71

σr= 3.84

Ejercicios



Número Página

14-24 64314-25 643 14-26 643 14-27 644 14-28 644


43/56


4.4 Una muestra: prueba de signos

Una de las pruebas no paramétricas más fáciles es la de prueba de signos. Sunombre se debe a que está basada en la dirección (o signo de más o menos)

de un par de observaciones y no en su magnitud numérica.

Ejemplo

Se considera un panel de prueba de 40 estudiantes que evalúa la efectividadde dos tipos de clases. Conferencias grandes de profesores de tiempocompleto sesiones pequeñas con ayudantes de posgrado.

Miembro del panel Calificación

para

conferencias

grandes

Calificación

para

sesiones

pequeñas.

Signo de la

calificación

Evaluación de los

dos tipos de

clases

1 2 3 -

2 1 2 -

3 4 2 +

4 4 3 +

5 3 4 -

6 3 2 +7 4 2 +8 2 1 +

9 4 3 +10 1 1 0

11 3 2 +12 3 3 0

13 4 4 014 4 4 0

15 4 3 +16 1 2 -

17 1 3 -

18 2 2 0

19 2 3 -20 4 3 +

La calificación 4 es excelente y la 1 es mala. El signo + significa que elestudiante prefiere las conferencias grandes, un signo menos indica unapreferencia por sesiones pequeñas un 0 representa un empate (sin preferencia)

Número de signos + 9

Número de signos - 6

Número de ceros 5

Tamaño total de la muestra 20


44/56


Establecimiento de las hipótesis

Ho: p = 0.5

H1: p ≠ 0.5 Se consideran la posibilidades solamente de signos + y - (9+6 =15)

p Ho: = 0.5

q H0: = 0.5

n= 15

p= 0.600 (9/15)

q= 0.400 (6/15)

Prueba de hipótesis de que no hay diferencia.

Error estándar del la proporción

σp= pq

n

σp= (0.5)(0.5)15

σp= 0.129

0.025

0

0.475 del área

Valor crítico

Z=-1.96


0.025

0.475 del área

Valor crítico

Z=1.96


45/56


4.5 Una muestra: prueba de Wilcoxon

Puesto que la prueba de rangos con signo de Wilcoxon incorpora y utiliza másinformación que la prueba de signos, tiende a proporcionar conclusiones que

reflejan mejor la verdadera naturaleza de los datos.

La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica queutiliza rangos ordenaos de datos maestrales consistentes en datos apareados.Se usa para probar las diferencias en las distribuciones poblacionales, por loque la hipótesis nula y alternativa son las siguientes:

Ho: las dos muestras provienen de poblaciones con la misma distribución.

H1: las dos muestras provienen de poblaciones con la misma distribución.

Procedimiento de la prueba de rangos con signo de Wilcoxon

Paso1. Para cada par de datos, calcule la diferencia d restando, el segundo

valor del primero. Guarde los signos, pero descarte cualquier par para el que

d=0

Paso 2. Ignore los signos de las diferencias, luego acomode las diferencias de

la más baja a la más alta y remplace las diferencias por el valor del rango

correspondiente. Cuando las diferencias tengan el mismo valor numérico,

asígneles la media de los rangos implicados en el empate.

Paso 3. Adjunte a cada rango el si el signo de la diferencia de la que provino.

Esto es, inserte aquellos signos que se ignoraron e el paso dos.

Paso 4. Calcule la suma de los valores absolutos de los rangos negativos.

También la suma de los rangos positivos.

Paso 5. Permita que T sea la más pequeña de las dos sumas que se calcularon

en el paso 4. Es posible utilizar cualquier suma, aunque para simplificar el

procedimiento seleccionamos arbitrariamente la más pequeña de las dos

sumas.

Paso 6. Permita que n sea el número de pares de datos para los que la

diferencia d no es 0.


46/56


Paso 7. Determine el estadístico de prueba y los valores críticos con base en el

tamaño muestral.

Paso 8. Cundo Plantee la conclusión rechace la hipótesis nula si los datos

muestrales le llevan a un estadístico de prueba que está en la región crítica,

esto es, cuando el estadístico de prueba es menor que o igual al valor crítico.

Supuestos

1. Los datos consisten en datos apareados que se seleccionaron aleatoriamente.

2. La población de las diferencias (calculadas de los pares de datos) tiene una

distribución que es aproximadamente simétrica, lo que quiere decir que la mitad

izquierda de su histograma es aproximadamente una imagen de espejo de la mitad

derecha.

Notación

T= la más pequeña de las siguientes dos sumas:

1. La suma de los valores absolutos de los rangos negativos de las diferencias d queno sean 0.

La suma de los rangos positivos de las diferencias d que no sean 0.

Estadístico de prueba

Si n < o igual a 30, el estadístico de prueba es T.


47/56


4.6 Dos muestras: prueba de Mann-Whitney

A esta prueba se le llama suma de rangos porque depende de los rangos oclasificaciones de las observaciones de muestra.

La prueba de Mann-Whitney se usa cuando se tienen dos poblaciones.

El uso de esta prueba permite determinar si las muestras independientes seobtuvieron de la misma población.

Simbología

n1= número de elementos de la muestra 1

n2= número de elementos de la muestra 2

R1= suma de los rangos de los elementos de la muestra 1

R2= suma de los rangos de los elementos de la muestra 2

Rango Calificación Plantel

1 500 S

2 550 S

3 600 A

4 650 S5 725 S

6 750 A

7 775 A8 800 A

9 830 S10 850 A

11 890 S12 900 S13 920 S

14 925 S

15 950 A16 1000 A17 1050 A

18 1100 A19 1120 S

20 1140 S21 1150 A

22 1200 A23 1240 S

24 1250 A25 1300 A

26 1360 S

27 1400 A28 1500 A

29 1550 S


48/56


30 1600 S


49/56


Nota: no necesariamente el número de muestras debe ser igual.

Ejemplo

La junta directiva de una gran universidad desea probar la hipótesis de que lascalificaciones promedio de una prueba de dos planteles de la universidad soniguales.

Se deben clasificar las calificaciones en orden ascendente, indicando junto acada una el símbolo del plantel.

Plantel

A 1000 1100 800 750 1300 950 1050 1250 1400 850 1150 1200 1500 600 775

B 920 1120 830 1360 650 725 890 1600 900 1140 1550 550 1240 925 500

n1= 15

n2= 15

R1= 247

R2= 218

Estadístico U

U = n1n2 + n1(n1 +1) -R1 2

U= (15)(15) + (15)(16) -247

2

U= 225+120-247

U= 98

Media de la distribución muestral U

μu = n1n22

μu = (15)(15) 2

μu =112.5


50/56


Estadístico U

σU = n1n2 + (n1n2 +1)

12

σU = (15)(15)(15+15+1)

12

σU = 6975

12

σU = 581.25

σU = 24.1

Prueba de hipótesis

La distribución muestral del estadístico U puede aproximarse por la distribuciónnormal cuando tanto n1 como n2 son mayores que 10, por lo tanto se usará latabla de la distribución normal estándar para hacer la prueba.

La junta de directores desea probar al nivel de significancia de .15 la hipótesisde que estas muestras fueron extraídas de poblaciones idénticas.

H0: μ1= μ2

H1: μ1≠ μ2

α= 0.15

Estandarización del estadístico U

z = U-μu σU

z = 98 - 112.5 24.1

z = -0.602

1.44-1.44 0-0.602

Valor

estandarizado de

la muestra U



51/56


Observaciones apareadas prueba de Wilcoxon

La prueba de los signos de Wilcoxon es una prueba no paramétrica paracomparar la mediana de dos muestras relacionadas y determinar si existendiferencias entre ellas. Se utiliza como alternativa a la prueba t de Studentcuando no se puede suponer la normalidad de dichas muestras.

Debe su nombre a Frank Wilcoxon, que la publicó en 1945. Asimismo se utilizacuando la variable subyacente es continua pero presupone ningún tipo dedistribución particular.

Prueba de Wilcoxon de los rangos con signo

Llamemos M 0 a la mediana frente a la que vamos a contrastar nuestros datos,y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-M 0 , X2-M 0 , ..., Xn-M 0 . Si la hipótesis nula fuera cierta estas diferencias sedistribuirían de forma simétrica en torno a cero.

Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-M 0 | yse ordenan de menor a mayor, asignándoles su rango (número de orden). Sihubiera dos o más diferencias con igual valor (empates), se les asigna el rangomedio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asignael valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las

diferencias positivas, aquellas en las que Xi es mayor que M 0 y R- la suma detodos los rangos correspondientes a las diferencias negativas. Si la hipótesisnula es cierta ambos estadísticos deberán ser parecidos, mientras que sinuestros datos tienen a ser más altos que la mediana M 0 , se reflejará en unvalor mayor de R+, y al contrario si son más bajos. Se trata de contrastar si lamenor de las sumas de rangos es excesivamente pequeña para ser atribuida alazar, o, lo que es equivalente, si la mayor de las dos sumas de rangos esexcesivamente grande.

Prueba de Wilcoxon para contrastar datos pareados

El mismo razonamiento lo podemos aplicar cuando tenemos una muestra deparejas de valores, por ejemplo antes y después del tratamiento, que podemosdenominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahoracalcularemos las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos envalor absoluto, asignándoles el rango correspondiente. Calculamos R+ la sumade rangos positivos (cuando Xi es mayor que Yi ), y la suma de rangosnegativos R-. Ahora la hipótesis nula es que esas diferencias proceden de unadistribución simétrica en torno a cero y si fuera cierta los valores de R+ y R- serán parecidos.


52/56


4.9 Varias muestras independientes: prueba de Krauskal-Wallis

La prueba de Krauskal-Wallis es una extensión de la prueba Mann-Whitneypara casos en que están involucradas más de dos poblaciones. Esta pruebatambién depende de los rangos de las observaciones de la muestra.

Ejemplo

Rango calificaciones Método de

capacitación

Calificaciones

del examen

escrito

1 50 S

2 55 VC

3 57 AC4 65 AC

5 68 S

6 70 VC7 74 VC

8 77 S9 78 A C

10 80 AC11 81 S

12 82 VC13 83 S

14 84 S15 88 VC

16 89 AC

17 91 S

18 92 S19 93 VC

20 94 S

Estadístico KK = 12 R

2 j -3 (n+1)

n(n+1) nj

K= 12 (61)2

+ (42)2

+ (107)

2-3(20+1)

20(20+1) 6 5 9

K = 1.143

Σ

[ ]


53/56


Prueba de hipótesis

La distribución muestral del estadístico K puede aproximarse por unadistribución ji-cuadrada cuando los tamaños de todas las muestras son almenos 5.

Grados de libertad k-1 (3-1)= 2

H0: μ1= μ2= μ3

H1: μ1, μ2, μ3 no todas son iguales

α= 0.10

Ejercicios



Número Página

14-14 63714-55 637 14-16 637 14-17 637

14-18 637

4.605

0.10 de área


Valor de la muestra

K= 1.143


54/56


Práctica 3 Recopilar datos económicos, de diversas fuentes, para efectuar

comparación y análisis entre la estadística y la estadístico noparamétrica, efectuando además una prueba de hipótesis.


55/56

BIBLIOGRAFIA

• Levin, Richard I. y Rubin, David S. (2004). Estadística para administración y

economía (7a.ed.). México: 2004

• Levin, Richard I. y Rubin, David S. (2004). Ji-cuadrada y análisis de varianza.

En estadística para administración y economía (pp. 447-508). México: Pearson

educación.

• Triola, Mario F. (2004). Estadística. México: Pearson educación

• Mongomery, Douglas C. (2007). Probabilidad y estadística aplicadas a la

ingeniería. México: Limusa Wiley.

Referencias de internet.

http:// math.uprm edu ~edgar uprm/edu/

http://es.wikipedia.org/wiki/Nivel_de_medida#Escalas_de_medici.C3.B3n

http://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9trica

http://www.estadisticafacil.com/

http://es.wikipedia.org/wiki/Nivel_de_medida#Escalas_de_medici.C3.B3nhttp://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9tricahttp://es.wikipedia.org/wiki/Estad%C3%ADstica_no_param%C3%A9tricahttp://es.wikipedia.org/wiki/Nivel_de_medida#Escalas_de_medici.C3.B3n


56/56

StAta

Cuadernillo Apuntes de ESTADISTICA II

Documents

Transcript of Cuadernillo Apuntes de ESTADISTICA II

Apuntes de Probabilidad y Estadistica

APUNTES GUIA 2 ESTADISTICA DE LAS MEDICIONES.doc

Apuntes de Estadistica

Apuntes de Estadistica Matematica

Apuntes de Estadistica 1- Descriptiva

Apuntes 1 Estadistica Descriptiva ssd

Estadistica Pasar Apuntes

Cuadernillo de Estadistica 72 Hj

Apuntes de Estadistica 2Bach

Estadistica Ingenieros apuntes

Apuntes Fisica Estadistica UCM

Apuntes Estadistica Aplicada a La Ingenieria 10

Apuntes Estadistica Aplicada a La Ingenieria 15

Apuntes de Estadistica UBA

Apuntes Clase Estadistica Ii(Itsz)

Apuntes de Estadistica - 2012

APUNTES ESTADISTICA

Apuntes Estadistica II

Apuntes estadistica 4_eso

Apuntes de Estadistica II.doc