Estadistica aplicada - [Download PPT Powerpoint]

ALVARO ORDOÑEZ CIFUENTES, Mgtr.DOCENTE UNIVERSITARIOESPECIALISTA EN ESTADÍSTICA

ESTADÍSTICA

APLICADA

A LA INVESTIGACIÓN

APLICACIÓN DE LA ESTADÍSTICA

1. Descriptiva: Al censar (analizar el universo: N).

a. Porcentajes: % (percentiles) _b. Media aritmética: X

c. Desviación típica: S

APLICACIÓN DE LA ESTADÍSTICA

2. Inferencial: Al muestrear (n)

a. Regresión lineal: r

b. Hipótesis: H

1. Estadística descriptiva

a. Porcentajes%

Es repartir proporcionalmente cada frecuencia (número de casos) f entre su población N, multiplicada por 100.

% = (f /N) (100)

Ejemplo de %I. Las respuestas son únicas (suman N: 100%)

1. Notas del curso de Tortrix 1 Tabla 1

Nota X f % (f/n) (100)60 10 17

70 5 875 7 1280 15 2585 8 13

90 15 25Ʃ 60 100

FI: Trabajo de campo

Ejemplo de %II. Las respuestas son múltiples (suman más que N:

el total de respuestas es el 100%)

1. ¿Qué me gusta del curso de Tortrix 1?Tabla 2

Respuesta f % (f/n) (100)

Fácil 30 25

Relax 20 17

Divertido 10 8

Ameno 12 10

Interesante 18 15

Otros 30 25

Ʃ 120 100

FI: Trabajo de campo

Ejemplo de %II. Las respuestas son múltiples (suman más que N:

el total de respuestas es el 100%)

Notas

* Las respuestas son múltiples, por lo que el 100% ya no son los 60 encuestados, sino las 120 respuestas.

* % = ( f / n) (100) = ( f / 60) (100)

El 100 es K (constante) universal (fórmula) y el 60 particular, sólo del problema.

Por lo que queda: (100 / 60 ) f

Ejemplo de %II. Las respuestas son múltiples (suman más que N:

el total de respuestas es el 100%)

1. ¿Qué me gusta del curso de Tortrix 1?Tabla 2 Incorrecta

Respuesta f % (f/60) (100)

Fácil 30 50

Relax 20 33

Divertido 10 17

Ameno 12 20

Interesante 18 30

Otros 30 50

Ʃ 60

FI: Trabajo de campo

Ejemplo de %II. Las respuestas son múltiples (suman más que N:

el total de respuestas es el 100%)

Notas

* Es incorrecto dividir entre los encuestados, que son 60, sino debe dividirse entre 120 que suman todas las respuestas al item.

2. Estadística inferencial

a. Regresión Lineal ó método de mínimos cuadrados

Es el proceso de linealizar una cuasi - recta (casi), estimando los valores de Y a partir de X.

Conceptos básicos

1. Y (variable dependiente) depende de X (variable independiente).

Y X

2. Pero se ordena en forma alfabética (machismo matemático).

Conceptos básicos

3. La ecuación es la de una recta.

Y = a + b XDonde:

X = variable independiente (puede tomar cualquier valor)

Y = variable dependiente (según X).

Conceptos básicos

b = m = pendiente de la recta.

Si es + = pendiente positiva.

Si es - = pendiente negativa

Si es = 0 es constante (matemática).

Conceptos básicos

Por lo que queda la ecuación: ^

Y est = Y = a + b X

Y est = Y estimada (calculada)

^ = circunflejo

Conceptos básicos

a = intersecto (altura desde el origen a la pendiente).

Ejemplos ilustrativos

1. Variables dependientes

Y XPeso Altura

Precio Costo

Rendimiento Motivación

Enfermedad Stress

Rendimiento Asistencia

Asistencia Didáctica

Clima organizacional Relaciones humanas

Confianza Estabilidad

Fuerza Masa

Ejemplos ilustrativos

2. Variables independientes

Y XInteligencia Altura

Color Costo

Talla Motivación

Sueldo Estrés

Amistad Asistencia

Didáctica Vestuario

Nota Relaciones humanas

Ingresos Necesidad

Felicidad Ingresos

Ejemplos ilustrativos

3. Variables cuasi – dependientes (ambiguas)

Y XRendimiento Motivación

Rendimiento Asistencia

Asistencia Didáctica

Sueldo Estrés

Ingresos Titulación

Rendimiento Tiempo de estudio

Educación Nivel social

Ingresos Necesidad

Felicidad Ingresos

NOTA

* Los ejemplos son ilustrativos de variables obvias, ya en el trabajo de campo se

relacionan variables desconocidas para el investigador o que difieren contextualmente.

Coeficiente de correlación lineal r

Es el índice de relación de la variable dependiente Y respecto a la independiente X.

Notas: * Si r = - porque la pendiente m = -

* Si r = + porque la pendiente m = +

* Si r = 0 porque no hay relación lineal (recta horizontal, con m = 0)

Coeficiente de determinación r ²

Es el % de dependencia de Y respecto a Xr ² = (r )² * 100

Notas:

* Si r ² = 0 porque no hay relación lineal (recta horizontal, con m = 0)

* Si r ² = 1 ajuste perfecto (Y depende de X en un 100%): es irreal, ya que siempre hay un % de independencia.

Coeficiente de determinación r ²

* Si r ² < 1 ( * 100) (Y depende de X en un %): y el complemento

para suma de 100%, es el % de independencia.

EJEMPLO

1. Autoestima U (pts): Y respecto al Bienestar familiar F (pts): X

FI: Trabajo de campo

F (pts) 150 155 163 172 180 185 200

U (pts) 200 210 225 250 279 300 400

EJEMPLO

Hallar:a. Gráfica.

b. Ec Y est.

c. Media de F.

d. Típica de F.

e. Media de U.

EJEMPLO

f. Típica de U.

g. r.

h. r²

i. Interpretar r²

Respuestas

b. Y est = - 384.31 + 3.78 X

c. Media de F = 172 pts

d. Típica de F = +/- 17 pts

e. Media de U = 266 pts

f. Típica de U = +/- 64 pts

Respuestas

g. r = 0.96

h. r² = 0.92

i. Interpretar r²

en un 92% depende la autoestima del bienestar familiar, para los sujetos encuestados.

TEST o PRUEBA DE HIPÓTESIS H

Es tomar una decisión en función de H.

* Clases de H

a. Ho: Hipótesis Nula: es la que se quiere comprobar.

Historia de Ho: En USA un grupo de agrónomos desean un cambio en sus cultivos, al aplicar una nueva técnica, pero no lo logran (nula) y por ello se llama así a lo que se desea investigar.

TEST o PRUEBA DE HIPÓTESIS H

b. Ha: Hipótesis alternativa: es lo opuesto a lo que se quiere investigar, por lo que

puede ser menor o mayor.

Ejemplo ilustrativo: Un juicio

Ho: ¿Inocente? (hay duda)

Ha: Culpable (seguridad)

TEST o PRUEBA DE HIPÓTESIS H

Por lo que se está seguro: al rechazar la Ho y cuando se acepta: no se puede demostrar lo contrario.

División de H

1. Una muestra: 1 n

2. Dos muestras: 2 n (diferencias)

1. Una muestra: 1n

i) Muestras grandes (n≥ 30): Z (Normal)

ii) Muestras pequeñas (n < 30): t student

Nota: con el software, se trabaja solo con t student (al ser mayor o 30 se normaliza a Z).

iii) Proporciones: P

1. t student

Historia: En una cervecería danesa, realizan un concurso de investigación, utilizando pseudónimo, por lo que un ingeniero cervecero, se recuerda cuando era universitario y utiliza “student” (no se llama s, porque es la típica, por lo que se corre a la t)

Grados de libertad: gl: Es el número de típicas libremente seleccionadas, menos la última. gl = n -1

t student

Nivel de confianza NC

Error α Error /2 α /2

90% 10% 5%

95% 5% 2.5%

99% 1% 0.5%

NC = 100% - α ó 1 - α * 90% es el mínimo aceptable y 99% óptima, por lo que el 95% moderado (recomendado)

Planteamiento

1. Hipótesis -Ho: X = μ _Ha: X ≠ μ

Media muestral media poblacional (trabajo de campo) (real o requerida)

2. Gráfica

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si X Ɛ IC

Intervalo de confianza IC = μ ± (t (α, gl)) Sμ

Donde:

Nivel crítico de confianza: t (α, gl) = tabla o software(de 2 colas) y de 1 cola el α /2.

Planteamiento

Típica muestral: la típica S se reduce aún más.

Sμ = ± S / √ n

Ejemplo

1. La edad de 26 estudiantes de III semestre de una carrera es de 19 años y S = +/- 1 año. ¿Cuál es la conclusión al 95% de

que cumplen con la edad de 20 años?

Solución

X = edad de un estudianteμ = 20 años (media poblacional)-X = 19 años (media muestral), (es menor a μ)

Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor)

S = ± 1 año

Solución

NC = 95%

α = 5%

α / 2 = 2.5%

n = 26

gl = n – 1 = 25

t (α, gl) = t (0.05, 25) = 2.060 (Tabla t: 2 colas)

Planteamiento

1. Hipótesis _Ho: X = μ _Ha: X ≠ μ

_Ho: X 20 _ = añosHa: X ≠ 20

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si X Ɛ IC

Donde: Sμ = s / √26 = 0.2 IC = μ ± (t (α, gl)) Sμ = 20 ± 2.060 (0.2) = 20 ± 0.4

Planteamiento

α /2 NC α /2

ICI μ ICS 19 19.60 20 20.40 años

Rechazar Ho

Planteamiento

ICI = Intervalo de confianza inferior = 20 – 0.4 = 19.60

ICC = Intervalo de confianza central = μ = 20 años

ICS = Intervalo de confianza superior = 20 + 0.4 = 20.40

19 Ɇ (19.60 a 20.40) V

Rechazar Ho: la edad de los estudiantes, si es menor a 20 años.

2. Proporción P

Se utiliza la misma Z α /2 (nivel crítico de confianza) de la normal Z

_ P media = P = n / N ó n’ /n * 100

NC α α/2 Z α /2 Mínimo 90% 10% 5% 1.64Óptimo 95% 5% 2.5% 1.96

Máximo 99% 1% 0.5% 2.58

Planteamiento

1. Hipótesis _ P hipotética Ho: P media P PH (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida _

Ha: P ≠ P H

2. Gráfica

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si p Ɛ IC Intervalo de confianza IC = PH ± (Z α / 2 ) Sμ

Donde: Sμ = √ ((PH QH) / n)

Ejemplo

1. En el colegio “El borrador feliz”, se quiere superar que el 60 % obtenga

satisfactorio Sa en Tortrix I, de 1000 estudiantes, se toma una muestra de 150 estudiantes y 80 logra el Sa. ¿Al 95 % se lograría superar la meta?

SoluciónDatos originales

X = % nota Satisfactoria Sa

P H = 60 % = 0.6 Q H = 1 - P H = 1 – 0.6 = 0.4

N = 1,000 estudiantes

n = 150 estudiantes

n’ = 80 estudiantes Sa

SoluciónDatos originales

NC = 95%

α = 5%

α / 2 = 2.5%

Z α / 2 = 1.96

SoluciónDatos calculados

-P = n’ / n = 80/ 150 = 0.53 (menor a P H )

Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor) Sμ = √ ((PH QH) / n) = √ (( 0.6 * 0.4) / 1000)

Sμ = + / - 0.02

Planteamiento

1. Hipótesis _Ho: P = P H

_ Ha: P ≠ P H _Ho: P 0.60 _ = Ha: P ≠ 0.60

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si P Ɛ IC

IC = P H ± (Z α /2) Sμ = 0.60 ± 1.96(0.02) = 0.60 ± 0.4

Planteamiento

α /2 NC α /2

ICI μ ICS 0.53 0.56 0.60 0. 64

Rechazar Ho

. .

Planteamiento

ICI = Intervalo de confianza inferior = 0.6 – 0.04 = 0.56

ICC = Intervalo de confianza central = 0.60

ICS = Intervalo de confianza superior= 0.60+0.04 = 0.64

0.53 Ɇ (0.56 a 0.64) F

Rechazar Ho El % Sa es menor al requerido.

2. 2 muestras: 2n

_ a. Diferencias de medias ∆ X

i) Muestras grandes (n≥ 30): Z (Normal)

ii) Muestras pequeñas (n < 30): t student

Nota: con el software, se trabaja solo con t student (al ser mayor o 30 se normaliza a Z).

2. 2 muestras: 2n

_ b. Diferencias de proporciones ∆ P

_ a. Diferencias de medias ∆ X

Planteamiento

1. Hipótesis Ho: Diferencia de _ Media muestral ∆ X Diferencia de Media ∆ μ (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida

_

Ha: ∆ X ≠ ∆ μ

- a. Diferencias de medias ∆ X

Planteamiento

1. Hipótesis _ Ho: ∆ X = 0 * _

Ha: ∆ X ≠ 0 *

* ∆ μ: Si se indica lo contrario.

2. Gráfica

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si ∆ X Ɛ IC

Intervalo de confianza IC = ∆ μ ± (t (α, gl)) S ∆ μDonde: gl = gl 1 + gl 2

Nivel crítico de confianza: t (α, gl) = tabla o software(de 2 colas) y de 1 cola el α /2.

Planteamiento

Típica muestral: la típica S se reduce aún más. Sμ = ± S p / √ ( 1/n1 + 1 /n 2)

Y S² p = Variación conjunta = ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl

Y S p = ± √ S² p

Ejemplo

1. ¿ Hay diferencia de edades entre los alumnos del IV semestre de AE de la MESO en el 2009 al 95% ? Si 11 jóvenes M tienen 23 años y S = 3 años, y 4 sritas F de 21 años y S = 1 año?

Tabla

gl = gl1 + gl2

t (α, gl) = t (0.05, 13) = 2.16

Sexo n X S S² gl 1/n

M 11 23 3 9 10 1/11

F 4 21 1 1 3 1/4

Ʃ 15 2 ∆ X Ʃ 13 0.34

Solución

X = edad de un estudiante∆ μ = 0 (no se indica lo contrario)

-∆ X = 2 años (es mayor a ∆ μ)

Notas: * si es Ho ( mayor, pero no hay diferencia significativa)* si es Ha (si es mayor)

Solución

S² p = Variación conjunta

= ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl

= ((10 * 9) + (3 *1) ) / 13 = 7.15

S p = ± √ S²p = √ 7.15 = 2.67 años

Solución

Típica muestral

S∆μ = ± S p / √ ( 1/n1 + 1 /n 2) = 2.67 √0.34 = 1.56

Solución

3. Regla de aceptación Ho _

Aceptar Ho si ∆ X Ɛ IC

Intervalo de confianza IC = ∆ μ ± (t (α, gl)) S ∆ μ

= 0 ± 2.16 (1.56)

= 0 ± 3.37

Solución

α /2 NC α /2

ICI μ ICS - 3.37 0 2 3. 37

Aceptar Ho

. .

Solución

ICI = Intervalo de confianza inferior = 0 – 3.37 = - 3.37

ICC = Intervalo de confianza central = 0

ICS = Intervalo de confianza superior= 0 + 3.37 = 3.37

2 Ɛ (-3.37 a 3.37) V

Aceptar Ho No hay evidencia para demostrar que los estudiantes difieren en su edad.

_

b. Diferencias de Proporciones ∆ P

Planteamiento1. Hipótesis Ho: Diferencia de _ Media muestral ∆ P Diferencia de Media ∆ P H (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida

_

Ha: ∆ P ≠ ∆ P H

- a. Diferencias de medias ∆ P

Planteamiento

1. Hipótesis _ Ho: ∆ P = 0 * _

Ha: ∆ P ≠ 0 *

* ∆ PH: Si se indica lo contrario.

2. Gráfica

Planteamiento

3. Regla de aceptación Ho _

Aceptar Ho si ∆ P Ɛ IC

Intervalo de confianza _ IC = ∆ P ± (Z α / 2) S ∆ P

Planteamiento

Típica muestral de P

S ∆ P = ± √ ( ƥƢ / n1 + ƥƢ /n 2)

P conjunta Q conjunta

Y ƥ = Ʃ n′ / Ʃ n Ƣ = 1 - ƥ

Ejemplo

1. En el 2007 se realizó una encuesta en la Meso, sobre la confianza en el banco, de 87 encuestados, 34 indicaron que si y en el 2009 de 18, 10 indicaron que si. ¿Hay diferencia al 95%?

Tabla No

ƥ = Ʃ n′ / Ʃ n = 44/105 = 0.42 Ƣ = 1 - ƥ = 1-0.42 = 0.58

NC = 95% α = 5% α /2 = 2.5% Z α /2 = 1.96

Año n n ′ P Q ƥ Ƣ ƥƢ (ƥƢ) /n

2007 87 34 0.39 0.61 0.42 0.58 0.24 0.0028

2009 18 10 0.56 0.44 0.42 0.58 0.24 0.0133

Ʃ 105 44 - 0.17 ∆ Ʃ 0.0161

Planteamiento

Típica muestral de P

S ∆ P = ± √ ( ƥƢ / n1 + ƥƢ /n 2)

= ± √ 0.0161 = 0.13

Solución

X = % confía en el banco∆ PH = 0 (no se indica lo contrario)

-∆ P = - 0.17 (es menor a ∆ P H)

Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor)

Solución

3. Regla de aceptación Ho _

Aceptar Ho si ∆ P Ɛ IC

Intervalo de confianza IC = ∆ P H ± Z α/2 S ∆ P

= 0 ± 1.96 (0.13)

= 0 ± 0.25

Solución

α /2 NC α /2

ICI μ ICS - 0.25 - 0.17 0 0.25

Aceptar Ho

. .

Solución

ICI = Intervalo de confianza inferior = 0 – 0.25 = - 0.25

ICC = Intervalo de confianza central = 0

ICS = Intervalo de confianza superior= 0 + 0.25 = 0.25

- 0.17 Ɛ (- 0.25 a 0.25) V

Aceptar Ho No hay evidencia para demostrar que hay variación en la confianza en el banco en ambos años.

ANÁLISIS DE VARIANZAANDEVA o ANOVA

Es el estudio de las varianzas (típica al cuadrado) muestral: S² é hipotética: σ².

Se divide en:

1. 1 muestra (1n): Chi ó Ji cuadrada X ²

2. 2 muestras (2n): F de Fisher

a. Chi cuadrada X²

Planteamiento1. Hipótesis

Ho: S² = σ²

Ha: S² ≠ σ²

Dato de campo Dato real

2. Gráfica

Planteamiento

3. Regla de aceptación Ho

Aceptar Ho si X² Ɛ IC

Intervalo de confianza IC = (ICI, ICS)

Planteamiento

ICI = X² (1 – α / 2 , gl)

ICS = X² (α / 2 , gl)

Estadístico de prueba X² = ( (n – 1) S² ) / σ²

Ejemplo

1. La típica de la edad de los estudiantes de 6to semestre de AE Meso 2009 era de 2

años, se tomó una muestra de 11 estudiantes en el 1er semestre con S = 3 años. ¿Cuál es su conclusión al 95%?

Datos originales

X² = varianza de la edad (años ²)σ = 2 años σ ² = (2) ² = 4 años ²

S = 3 años S ² = 9 años ²

Notas: (de S ²)* si es Ho ( mayor, pero no hay diferencia significativa)

* si es Ha (si es mayor)

Datos originales

n = 11 estudiantes gl = n – 1 = 11 -1 = 10

NC = 0.95 α = 0.05 α / 2 = 0.025

1 - α / 2 = 0.975

Planteamiento H

Ho: S² = σ²

Ha: S² ≠ σ²

Ho: S² = 4 años²Ha: S² ≠ 4

Planteamiento H

Ho: 9 = 4 años²Ha: 9 ≠ 4

Planteamiento

3. Regla de aceptación Ho

Aceptar Ho si X² Ɛ IC

Intervalo de confianza IC = (ICI, ICS)

Planteamiento

ICI = X² (1 – α / 2 , gl) = X² (0.975 , 10) = 3.247

ICS = X² (α / 2 , gl) = X² (0.025 , 10) = 20.483

Estadístico de prueba X² = ( (n – 1) S² ) / σ² = (10 * 9) / 4 = 22.5

Solución

22.5 Ɇ (3.247 a 20.483) F

Rechazar Ho La varianza de los estudiantes de AE del 1er semestre de la Meso, si es mayor que los del 6to semestre del 2009

2. Gráfica

20.483 22.5

b. F Fisher

Planteamiento1. Hipótesis

Ho: ∆S² = 0 *

Ha: ∆S² ≠ 0 *

Dato de campo Dato real

* Sino es lo contrario σ²

2. Gráfica

Planteamiento

3. Regla de rechazo de la Ho

Rechazar la Ho si F > F (α /2, gl1, gl2)

Estadístico de prueba

F = S 1 ² / S 2 ²

Ejemplo

1. La variación de notas de 25 estudiantes hombres en un curso es de 48 pts (²) y 16 sritas con 20 pts (²). ¿Cuál es su

conclusión al 90%?

Datos originales

X² = varianza de pts (²)

S1 ² = 48 pts (²) S2 ² = 20 pts (²)

∆ S² = 48 – 20 = 28 pts (²)

* si es Ho (mayor a 0, pero no hay diferencia significativa)

* si es Ha (si es mayor)

Datos originales

n1 = 25 gl = n – 1 = 25 – 1 = 24

n2 = 16 gl = n – 1 = 16 – 1 = 15

F = S 1 ² / S 2 ² = 48 / 20 = 2.4

F (α /2, gl1, gl2) = F (0.05, 24,15) = 2.29

Planteamiento H

Ho: ∆S² = 0

Ha: ∆S² ≠ 0

Ho: 28 = 0 Ha: 28 ≠ 0

Solución

3. Regla de rechazo de la Ho

Rechazar la Ho si F > F (α /2, gl1, gl2)

2.4 > 2.29 V

Rechazar Ho La varianza de las notas de los estudiantes hombres es mayor a la de las sritas.

Gráfica

2.29 2.40

Download - Estadistica aplicada