ALVARO ORDOÑEZ CIFUENTES, Mgtr.DOCENTE UNIVERSITARIOESPECIALISTA EN ESTADÍSTICA
ESTADÍSTICA
APLICADA
A LA INVESTIGACIÓN
APLICACIÓN DE LA ESTADÍSTICA
1. Descriptiva: Al censar (analizar el universo: N).
a. Porcentajes: % (percentiles) _b. Media aritmética: X
c. Desviación típica: S
APLICACIÓN DE LA ESTADÍSTICA
2. Inferencial: Al muestrear (n)
a. Regresión lineal: r
b. Hipótesis: H
1. Estadística descriptiva
a. Porcentajes%
Es repartir proporcionalmente cada frecuencia (número de casos) f entre su población N, multiplicada por 100.
% = (f /N) (100)
Ejemplo de %I. Las respuestas son únicas (suman N: 100%)
1. Notas del curso de Tortrix 1 Tabla 1
Nota X f % (f/n) (100)60 10 17
70 5 875 7 1280 15 2585 8 13
90 15 25Ʃ 60 100
FI: Trabajo de campo
Ejemplo de %II. Las respuestas son múltiples (suman más que N:
el total de respuestas es el 100%)
1. ¿Qué me gusta del curso de Tortrix 1?Tabla 2
Respuesta f % (f/n) (100)
Fácil 30 25
Relax 20 17
Divertido 10 8
Ameno 12 10
Interesante 18 15
Otros 30 25
Ʃ 120 100
FI: Trabajo de campo
Ejemplo de %II. Las respuestas son múltiples (suman más que N:
el total de respuestas es el 100%)
Notas
* Las respuestas son múltiples, por lo que el 100% ya no son los 60 encuestados, sino las 120 respuestas.
* % = ( f / n) (100) = ( f / 60) (100)
El 100 es K (constante) universal (fórmula) y el 60 particular, sólo del problema.
Por lo que queda: (100 / 60 ) f
Ejemplo de %II. Las respuestas son múltiples (suman más que N:
el total de respuestas es el 100%)
1. ¿Qué me gusta del curso de Tortrix 1?Tabla 2 Incorrecta
Respuesta f % (f/60) (100)
Fácil 30 50
Relax 20 33
Divertido 10 17
Ameno 12 20
Interesante 18 30
Otros 30 50
Ʃ 60
FI: Trabajo de campo
Ejemplo de %II. Las respuestas son múltiples (suman más que N:
el total de respuestas es el 100%)
Notas
* Es incorrecto dividir entre los encuestados, que son 60, sino debe dividirse entre 120 que suman todas las respuestas al item.
2. Estadística inferencial
a. Regresión Lineal ó método de mínimos cuadrados
Es el proceso de linealizar una cuasi - recta (casi), estimando los valores de Y a partir de X.
Conceptos básicos
1. Y (variable dependiente) depende de X (variable independiente).
Y X
2. Pero se ordena en forma alfabética (machismo matemático).
Conceptos básicos
3. La ecuación es la de una recta.
Y = a + b XDonde:
X = variable independiente (puede tomar cualquier valor)
Y = variable dependiente (según X).
Conceptos básicos
b = m = pendiente de la recta.
Si es + = pendiente positiva.
Si es - = pendiente negativa
Si es = 0 es constante (matemática).
Conceptos básicos
Por lo que queda la ecuación: ^
Y est = Y = a + b X
Y est = Y estimada (calculada)
^ = circunflejo
Conceptos básicos
a = intersecto (altura desde el origen a la pendiente).
Ejemplos ilustrativos
1. Variables dependientes
Y XPeso Altura
Precio Costo
Rendimiento Motivación
Enfermedad Stress
Rendimiento Asistencia
Asistencia Didáctica
Clima organizacional Relaciones humanas
Confianza Estabilidad
Fuerza Masa
Ejemplos ilustrativos
2. Variables independientes
Y XInteligencia Altura
Color Costo
Talla Motivación
Sueldo Estrés
Amistad Asistencia
Didáctica Vestuario
Nota Relaciones humanas
Ingresos Necesidad
Felicidad Ingresos
Ejemplos ilustrativos
3. Variables cuasi – dependientes (ambiguas)
Y XRendimiento Motivación
Rendimiento Asistencia
Asistencia Didáctica
Sueldo Estrés
Ingresos Titulación
Rendimiento Tiempo de estudio
Educación Nivel social
Ingresos Necesidad
Felicidad Ingresos
NOTA
* Los ejemplos son ilustrativos de variables obvias, ya en el trabajo de campo se
relacionan variables desconocidas para el investigador o que difieren contextualmente.
Coeficiente de correlación lineal r
Es el índice de relación de la variable dependiente Y respecto a la independiente X.
Notas: * Si r = - porque la pendiente m = -
* Si r = + porque la pendiente m = +
* Si r = 0 porque no hay relación lineal (recta horizontal, con m = 0)
Coeficiente de determinación r ²
Es el % de dependencia de Y respecto a Xr ² = (r )² * 100
Notas:
* Si r ² = 0 porque no hay relación lineal (recta horizontal, con m = 0)
* Si r ² = 1 ajuste perfecto (Y depende de X en un 100%): es irreal, ya que siempre hay un % de independencia.
Coeficiente de determinación r ²
* Si r ² < 1 ( * 100) (Y depende de X en un %): y el complemento
para suma de 100%, es el % de independencia.
EJEMPLO
1. Autoestima U (pts): Y respecto al Bienestar familiar F (pts): X
FI: Trabajo de campo
F (pts) 150 155 163 172 180 185 200
U (pts) 200 210 225 250 279 300 400
EJEMPLO
Hallar:a. Gráfica.
b. Ec Y est.
c. Media de F.
d. Típica de F.
e. Media de U.
EJEMPLO
f. Típica de U.
g. r.
h. r²
i. Interpretar r²
Respuestas
b. Y est = - 384.31 + 3.78 X
c. Media de F = 172 pts
d. Típica de F = +/- 17 pts
e. Media de U = 266 pts
f. Típica de U = +/- 64 pts
Respuestas
g. r = 0.96
h. r² = 0.92
i. Interpretar r²
en un 92% depende la autoestima del bienestar familiar, para los sujetos encuestados.
TEST o PRUEBA DE HIPÓTESIS H
Es tomar una decisión en función de H.
* Clases de H
a. Ho: Hipótesis Nula: es la que se quiere comprobar.
Historia de Ho: En USA un grupo de agrónomos desean un cambio en sus cultivos, al aplicar una nueva técnica, pero no lo logran (nula) y por ello se llama así a lo que se desea investigar.
TEST o PRUEBA DE HIPÓTESIS H
b. Ha: Hipótesis alternativa: es lo opuesto a lo que se quiere investigar, por lo que
puede ser menor o mayor.
Ejemplo ilustrativo: Un juicio
Ho: ¿Inocente? (hay duda)
Ha: Culpable (seguridad)
TEST o PRUEBA DE HIPÓTESIS H
Por lo que se está seguro: al rechazar la Ho y cuando se acepta: no se puede demostrar lo contrario.
División de H
1. Una muestra: 1 n
2. Dos muestras: 2 n (diferencias)
1. Una muestra: 1n
i) Muestras grandes (n≥ 30): Z (Normal)
ii) Muestras pequeñas (n < 30): t student
Nota: con el software, se trabaja solo con t student (al ser mayor o 30 se normaliza a Z).
iii) Proporciones: P
1. t student
Historia: En una cervecería danesa, realizan un concurso de investigación, utilizando pseudónimo, por lo que un ingeniero cervecero, se recuerda cuando era universitario y utiliza “student” (no se llama s, porque es la típica, por lo que se corre a la t)
Grados de libertad: gl: Es el número de típicas libremente seleccionadas, menos la última. gl = n -1
t student
Nivel de confianza NC
Error α Error /2 α /2
90% 10% 5%
95% 5% 2.5%
99% 1% 0.5%
NC = 100% - α ó 1 - α * 90% es el mínimo aceptable y 99% óptima, por lo que el 95% moderado (recomendado)
Planteamiento
1. Hipótesis -Ho: X = μ _Ha: X ≠ μ
Media muestral media poblacional (trabajo de campo) (real o requerida)
2. Gráfica
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si X Ɛ IC
Intervalo de confianza IC = μ ± (t (α, gl)) Sμ
Donde:
Nivel crítico de confianza: t (α, gl) = tabla o software(de 2 colas) y de 1 cola el α /2.
Planteamiento
Típica muestral: la típica S se reduce aún más.
Sμ = ± S / √ n
Ejemplo
1. La edad de 26 estudiantes de III semestre de una carrera es de 19 años y S = +/- 1 año. ¿Cuál es la conclusión al 95% de
que cumplen con la edad de 20 años?
Solución
X = edad de un estudianteμ = 20 años (media poblacional)-X = 19 años (media muestral), (es menor a μ)
Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor)
S = ± 1 año
Solución
NC = 95%
α = 5%
α / 2 = 2.5%
n = 26
gl = n – 1 = 25
t (α, gl) = t (0.05, 25) = 2.060 (Tabla t: 2 colas)
Planteamiento
1. Hipótesis _Ho: X = μ _Ha: X ≠ μ
_Ho: X 20 _ = añosHa: X ≠ 20
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si X Ɛ IC
Donde: Sμ = s / √26 = 0.2 IC = μ ± (t (α, gl)) Sμ = 20 ± 2.060 (0.2) = 20 ± 0.4
Planteamiento
α /2 NC α /2
ICI μ ICS 19 19.60 20 20.40 años
Rechazar Ho
Planteamiento
ICI = Intervalo de confianza inferior = 20 – 0.4 = 19.60
ICC = Intervalo de confianza central = μ = 20 años
ICS = Intervalo de confianza superior = 20 + 0.4 = 20.40
19 Ɇ (19.60 a 20.40) V
Rechazar Ho: la edad de los estudiantes, si es menor a 20 años.
2. Proporción P
Se utiliza la misma Z α /2 (nivel crítico de confianza) de la normal Z
_ P media = P = n / N ó n’ /n * 100
NC α α/2 Z α /2 Mínimo 90% 10% 5% 1.64Óptimo 95% 5% 2.5% 1.96
Máximo 99% 1% 0.5% 2.58
Planteamiento
1. Hipótesis _ P hipotética Ho: P media P PH (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida _
Ha: P ≠ P H
2. Gráfica
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si p Ɛ IC Intervalo de confianza IC = PH ± (Z α / 2 ) Sμ
Donde: Sμ = √ ((PH QH) / n)
Ejemplo
1. En el colegio “El borrador feliz”, se quiere superar que el 60 % obtenga
satisfactorio Sa en Tortrix I, de 1000 estudiantes, se toma una muestra de 150 estudiantes y 80 logra el Sa. ¿Al 95 % se lograría superar la meta?
SoluciónDatos originales
X = % nota Satisfactoria Sa
P H = 60 % = 0.6 Q H = 1 - P H = 1 – 0.6 = 0.4
N = 1,000 estudiantes
n = 150 estudiantes
n’ = 80 estudiantes Sa
SoluciónDatos originales
NC = 95%
α = 5%
α / 2 = 2.5%
Z α / 2 = 1.96
SoluciónDatos calculados
-P = n’ / n = 80/ 150 = 0.53 (menor a P H )
Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor) Sμ = √ ((PH QH) / n) = √ (( 0.6 * 0.4) / 1000)
Sμ = + / - 0.02
Planteamiento
1. Hipótesis _Ho: P = P H
_ Ha: P ≠ P H _Ho: P 0.60 _ = Ha: P ≠ 0.60
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si P Ɛ IC
IC = P H ± (Z α /2) Sμ = 0.60 ± 1.96(0.02) = 0.60 ± 0.4
Planteamiento
α /2 NC α /2
ICI μ ICS 0.53 0.56 0.60 0. 64
Rechazar Ho
. .
Planteamiento
ICI = Intervalo de confianza inferior = 0.6 – 0.04 = 0.56
ICC = Intervalo de confianza central = 0.60
ICS = Intervalo de confianza superior= 0.60+0.04 = 0.64
0.53 Ɇ (0.56 a 0.64) F
Rechazar Ho El % Sa es menor al requerido.
2. 2 muestras: 2n
_ a. Diferencias de medias ∆ X
i) Muestras grandes (n≥ 30): Z (Normal)
ii) Muestras pequeñas (n < 30): t student
Nota: con el software, se trabaja solo con t student (al ser mayor o 30 se normaliza a Z).
2. 2 muestras: 2n
_ b. Diferencias de proporciones ∆ P
_ a. Diferencias de medias ∆ X
Planteamiento
1. Hipótesis Ho: Diferencia de _ Media muestral ∆ X Diferencia de Media ∆ μ (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida
_
Ha: ∆ X ≠ ∆ μ
- a. Diferencias de medias ∆ X
Planteamiento
1. Hipótesis _ Ho: ∆ X = 0 * _
Ha: ∆ X ≠ 0 *
* ∆ μ: Si se indica lo contrario.
2. Gráfica
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si ∆ X Ɛ IC
Intervalo de confianza IC = ∆ μ ± (t (α, gl)) S ∆ μDonde: gl = gl 1 + gl 2
Nivel crítico de confianza: t (α, gl) = tabla o software(de 2 colas) y de 1 cola el α /2.
Planteamiento
Típica muestral: la típica S se reduce aún más. Sμ = ± S p / √ ( 1/n1 + 1 /n 2)
Y S² p = Variación conjunta = ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl
Y S p = ± √ S² p
Ejemplo
1. ¿ Hay diferencia de edades entre los alumnos del IV semestre de AE de la MESO en el 2009 al 95% ? Si 11 jóvenes M tienen 23 años y S = 3 años, y 4 sritas F de 21 años y S = 1 año?
Tabla
gl = gl1 + gl2
t (α, gl) = t (0.05, 13) = 2.16
Sexo n X S S² gl 1/n
M 11 23 3 9 10 1/11
F 4 21 1 1 3 1/4
Ʃ 15 2 ∆ X Ʃ 13 0.34
Solución
X = edad de un estudiante∆ μ = 0 (no se indica lo contrario)
-∆ X = 2 años (es mayor a ∆ μ)
Notas: * si es Ho ( mayor, pero no hay diferencia significativa)* si es Ha (si es mayor)
Solución
S² p = Variación conjunta
= ( gl 1 S 1 ² + gl 2 S 2 ² ) / gl
= ((10 * 9) + (3 *1) ) / 13 = 7.15
S p = ± √ S²p = √ 7.15 = 2.67 años
Solución
Típica muestral
S∆μ = ± S p / √ ( 1/n1 + 1 /n 2) = 2.67 √0.34 = 1.56
Solución
3. Regla de aceptación Ho _
Aceptar Ho si ∆ X Ɛ IC
Intervalo de confianza IC = ∆ μ ± (t (α, gl)) S ∆ μ
= 0 ± 2.16 (1.56)
= 0 ± 3.37
Solución
α /2 NC α /2
ICI μ ICS - 3.37 0 2 3. 37
Aceptar Ho
. .
Solución
ICI = Intervalo de confianza inferior = 0 – 3.37 = - 3.37
ICC = Intervalo de confianza central = 0
ICS = Intervalo de confianza superior= 0 + 3.37 = 3.37
2 Ɛ (-3.37 a 3.37) V
Aceptar Ho No hay evidencia para demostrar que los estudiantes difieren en su edad.
_
b. Diferencias de Proporciones ∆ P
Planteamiento1. Hipótesis Ho: Diferencia de _ Media muestral ∆ P Diferencia de Media ∆ P H (parámetro) = (estadístico) Estándar, dato anterior, trabajo de campo real, requerida
_
Ha: ∆ P ≠ ∆ P H
- a. Diferencias de medias ∆ P
Planteamiento
1. Hipótesis _ Ho: ∆ P = 0 * _
Ha: ∆ P ≠ 0 *
* ∆ PH: Si se indica lo contrario.
2. Gráfica
Planteamiento
3. Regla de aceptación Ho _
Aceptar Ho si ∆ P Ɛ IC
Intervalo de confianza _ IC = ∆ P ± (Z α / 2) S ∆ P
Planteamiento
Típica muestral de P
S ∆ P = ± √ ( ƥƢ / n1 + ƥƢ /n 2)
P conjunta Q conjunta
Y ƥ = Ʃ n′ / Ʃ n Ƣ = 1 - ƥ
Ejemplo
1. En el 2007 se realizó una encuesta en la Meso, sobre la confianza en el banco, de 87 encuestados, 34 indicaron que si y en el 2009 de 18, 10 indicaron que si. ¿Hay diferencia al 95%?
Tabla No
ƥ = Ʃ n′ / Ʃ n = 44/105 = 0.42 Ƣ = 1 - ƥ = 1-0.42 = 0.58
NC = 95% α = 5% α /2 = 2.5% Z α /2 = 1.96
Año n n ′ P Q ƥ Ƣ ƥƢ (ƥƢ) /n
2007 87 34 0.39 0.61 0.42 0.58 0.24 0.0028
2009 18 10 0.56 0.44 0.42 0.58 0.24 0.0133
Ʃ 105 44 - 0.17 ∆ Ʃ 0.0161
Planteamiento
Típica muestral de P
S ∆ P = ± √ ( ƥƢ / n1 + ƥƢ /n 2)
= ± √ 0.0161 = 0.13
Solución
X = % confía en el banco∆ PH = 0 (no se indica lo contrario)
-∆ P = - 0.17 (es menor a ∆ P H)
Notas: * si es Ho ( menor, pero no hay diferencia significativa)* si es Ha (si es menor)
Solución
3. Regla de aceptación Ho _
Aceptar Ho si ∆ P Ɛ IC
Intervalo de confianza IC = ∆ P H ± Z α/2 S ∆ P
= 0 ± 1.96 (0.13)
= 0 ± 0.25
Solución
α /2 NC α /2
ICI μ ICS - 0.25 - 0.17 0 0.25
Aceptar Ho
. .
Solución
ICI = Intervalo de confianza inferior = 0 – 0.25 = - 0.25
ICC = Intervalo de confianza central = 0
ICS = Intervalo de confianza superior= 0 + 0.25 = 0.25
- 0.17 Ɛ (- 0.25 a 0.25) V
Aceptar Ho No hay evidencia para demostrar que hay variación en la confianza en el banco en ambos años.
ANÁLISIS DE VARIANZAANDEVA o ANOVA
Es el estudio de las varianzas (típica al cuadrado) muestral: S² é hipotética: σ².
Se divide en:
1. 1 muestra (1n): Chi ó Ji cuadrada X ²
2. 2 muestras (2n): F de Fisher
a. Chi cuadrada X²
Planteamiento1. Hipótesis
Ho: S² = σ²
Ha: S² ≠ σ²
Dato de campo Dato real
2. Gráfica
Planteamiento
3. Regla de aceptación Ho
Aceptar Ho si X² Ɛ IC
Intervalo de confianza IC = (ICI, ICS)
Planteamiento
ICI = X² (1 – α / 2 , gl)
ICS = X² (α / 2 , gl)
Estadístico de prueba X² = ( (n – 1) S² ) / σ²
Ejemplo
1. La típica de la edad de los estudiantes de 6to semestre de AE Meso 2009 era de 2
años, se tomó una muestra de 11 estudiantes en el 1er semestre con S = 3 años. ¿Cuál es su conclusión al 95%?
Datos originales
X² = varianza de la edad (años ²)σ = 2 años σ ² = (2) ² = 4 años ²
S = 3 años S ² = 9 años ²
Notas: (de S ²)* si es Ho ( mayor, pero no hay diferencia significativa)
* si es Ha (si es mayor)
Datos originales
n = 11 estudiantes gl = n – 1 = 11 -1 = 10
NC = 0.95 α = 0.05 α / 2 = 0.025
1 - α / 2 = 0.975
Planteamiento H
Ho: S² = σ²
Ha: S² ≠ σ²
Ho: S² = 4 años²Ha: S² ≠ 4
Planteamiento H
Ho: 9 = 4 años²Ha: 9 ≠ 4
Planteamiento
3. Regla de aceptación Ho
Aceptar Ho si X² Ɛ IC
Intervalo de confianza IC = (ICI, ICS)
Planteamiento
ICI = X² (1 – α / 2 , gl) = X² (0.975 , 10) = 3.247
ICS = X² (α / 2 , gl) = X² (0.025 , 10) = 20.483
Estadístico de prueba X² = ( (n – 1) S² ) / σ² = (10 * 9) / 4 = 22.5
Solución
22.5 Ɇ (3.247 a 20.483) F
Rechazar Ho La varianza de los estudiantes de AE del 1er semestre de la Meso, si es mayor que los del 6to semestre del 2009
2. Gráfica
20.483 22.5
b. F Fisher
Planteamiento1. Hipótesis
Ho: ∆S² = 0 *
Ha: ∆S² ≠ 0 *
Dato de campo Dato real
* Sino es lo contrario σ²
2. Gráfica
Planteamiento
3. Regla de rechazo de la Ho
Rechazar la Ho si F > F (α /2, gl1, gl2)
Estadístico de prueba
F = S 1 ² / S 2 ²
Ejemplo
1. La variación de notas de 25 estudiantes hombres en un curso es de 48 pts (²) y 16 sritas con 20 pts (²). ¿Cuál es su
conclusión al 90%?
Datos originales
X² = varianza de pts (²)
S1 ² = 48 pts (²) S2 ² = 20 pts (²)
∆ S² = 48 – 20 = 28 pts (²)
* si es Ho (mayor a 0, pero no hay diferencia significativa)
* si es Ha (si es mayor)
Datos originales
n1 = 25 gl = n – 1 = 25 – 1 = 24
n2 = 16 gl = n – 1 = 16 – 1 = 15
F = S 1 ² / S 2 ² = 48 / 20 = 2.4
F (α /2, gl1, gl2) = F (0.05, 24,15) = 2.29
Planteamiento H
Ho: ∆S² = 0
Ha: ∆S² ≠ 0
Ho: 28 = 0 Ha: 28 ≠ 0
Solución
3. Regla de rechazo de la Ho
Rechazar la Ho si F > F (α /2, gl1, gl2)
2.4 > 2.29 V
Rechazar Ho La varianza de las notas de los estudiantes hombres es mayor a la de las sritas.
Gráfica
2.29 2.40