Probabilidad y Estadística - frm.utn.edu.ar · Probabilidad y Estadística Unidad 1 Estadística...
Transcript of Probabilidad y Estadística - frm.utn.edu.ar · Probabilidad y Estadística Unidad 1 Estadística...
Probabilidad y Estadística
Unidad 1Estadística Descriptiva y
Análisis de Datos
www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlaces 19 y 20
Introducción
2018
www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlaces 19
3
Naturaleza de la Estadística
• W. Wilcox (1935) estudió más de un centenar de definiciones dadas de la Estadística. En casi todas se alude a:– unos datos u observaciones,– un razonamiento acerca de ellos,– y a unas conclusiones, fruto del razonamiento,– que se traducen en predicciones– a las que puede acompañar una regla o decisión
a tomar.
4
Estadística: definición
Barnett, (1973)
La Estadística es la ciencia queestudia cómo debe emplearse lainformación y cómo dar una guíade acción en situaciones prácticasque entrañan incertidumbre.
5
Capacidad vs. Pensamiento
• Capacidad estadística– Uso de herramientas– Orientada al consumidor de la Estadística– Lectura y comprensión de la información estadística
• El pensamiento estadístico ofrece instrumentos mentales simples pero no intuitivos para:– Desbaratar la masa de datos– Ordenar el “desorden”– Distinguir lo disparatado– Separar los pocos patrones relevantes de los muchos
irrelevantes
Estadístico
6
EstadísticoEnfoques del análisis
• Análisis Clásico– Parte de supuestos e hipótesis de los que
depende la confirmación de sus resultados• Estadística Descriptiva• Estadística Inferencial
• Análisis Exploratorio de Datos– Principios fundamentales, John Tukey
(1977)
7
Estadística Descriptiva
• Provee el método para:– Clasificar, ordenar, resumir y presentar los datos.– Utiliza números, tablas y gráficos (UT1-p4).– Calcula estadísticos basados, principalmente, en la
distancia y con datos centrados en la media.• Ejemplos• Se observa que la anestesia PERIBULBAR se empleó en el
13,8% del total de casos. Si el paciente es MUJER, dicho porcentaje es del 14,7%; si el paciente es HOMBRE es del 12,5%.
• El 85% de los trabajadores realizan sus tareas A GUSTO, el 13% NO OPINAN y el 2% lo hacen A DISGUSTO.
Clásica
8
Estadística InferencialMétodos para estimar o tomar decisiones respecto de una característica de la población, basados en la información de una muestra.
PoblaciónEs el conjunto de todos los posibles individuos, elementos u objetos de interés para el estudio.
MuestraEs un subconjunto o una parte de la población, que la representa.
9
Términos usualesPoblación
Muestra
Unidad de Análisis
Variables• X• Y• ...
Ilustración
10
Análisis Exploratorio de Datos
• Principios fundamentales, John Tukey (1977)• Además de los objetivos de la estadística
descriptiva:• Se inspira en una filosofía de carácter
práctica– Los datos son los que guían la selección de
modelos matemáticos.– El analista intenta develar el patrón y la estructura
que subyace en los datos.– Se minimiza la asunción de postulados
previamente definidos y altamente restrictivos.
Componentes (1)
11
Análisis Exploratorio de Datos
• Actitud frente al problema a investigar– Antes de cualquier análisis de datos, es necesario
un examen visual de los mismos.– Es preciso mirarlos, entenderlos y reflexionar
sobre ellos.
• Herramientas exploratorias– Importancia de las representaciones visuales y
gráficas.
• Apoyo informático– Sin apoyo informático es imposible explorar.
Componentes (2)
12
Variables
• Numéricas o cuantitativas– Discretas y continuas
• Escala de intervalo• Escala de razón
• No numéricas o cualitativas• Escala nominal• Escala ordinal
Tipos
13
VariablesTipos: UT1- INTRODUCCIÓN p11
www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlace 19
Aplicaciones con Statgraphics
Exploración de Datos
Exploración de Datos
Patrón de comportamiento (UT1-p20)Descripción de un conjunto de datos (UT1-p26)
Base Datos: AlumnosPerfil del Grupo
www.frm.utn.edu.ar/estadistica Documentos de trabajo Enlace 20
16
Selección de Variables
• Sexo• Deporte• Ojos• Pelo• Estatura
• Calzado - Sexo• Calzado - Estatura
• Tratamiento de datos agrupados Ver documento UT1-p15
Piechart for SexoSexo
HM30,00%
70,00%
17
SexoSexo Frecuencia
AbsolutaFrecuencia Relativa
(proporción)Frecuencia Relativa
(porcentaje)
Hombres 18 0,30 30%
Mujeres 42 0,70 70%
Totales 60 1,00 100%
HM
Ver documento UT1-p23
18
Piechart for Deporte
Deporte123
25,00%
53,33%
21,67%
Deporte
perc
enta
ge
Barchart for Deporte by SexoSexo
HM
0
10
20
30
40
50
60
1 2 3
Deporte
Deporte Hombres Mujeres Totales
1. De vez en cuando 2 (3,3%) 13 (21,7%) 15 (25,0%)2. Una vez/semana 9 (15,0%) 23 (38,3%) 32 (53,3%)3. Dos o más/semana 7 (11,7%) 6 (10,0%) 13 (21,7%)Totales 18 (30%) 42 (70%) 60 (100%)
Ver documento UT1-p24; 60
19
Ojos y Pelo
Pelo Claro Pelo Oscuro Totales
Ojos Claros 17 (28,3%) 06 (10,0%) 23 (38,3%)
Ojos Oscuros 08 (13,4%) 29 (48,3%) 37 (61,7%)Totales 25 (41,7%) 35 (58,3%) 60 (100%)
Ojos
perc
enta
ge
Barchart for Ojos by PeloPelo
PCPO
0
10
20
30
40
50
OC OO
Ver documento UT1-p24
20
CalzadoHistogram for Calzado
Calzadope
rcen
tage
34 36 38 40 42 44 460
10
20
30
40
Density Trace for Calzado
Calzado
dens
ity
35 37 39 41 43 45 470
0,03
0,06
0,09
0,12
0,15
Ver documento UT1-p25; 61
21
Calzado - Sexo
VariablesSexo=HSexo=M
Density Traces
34 36 38 40 42 44 460
0,04
0,08
0,12
0,16
0,2
0,24
dens
ity
Box-and-Whisker Plot
34 36 38 40 42 44 46
Calzado
Sexo=H
Sexo=M
Ref.Rojo: MujerAzul: Hombre
Hombres
Mujeres
22
Estatura
Histogram for Estatura
Estatura
perc
enta
ge
150 160 170 180 190 2000
5
10
15
20
25
30
Density Trace for Estatura
150 160 170 180 190 200
Estatura
0
0,01
0,02
0,03
0,04
0,05
dens
ity
Box-and-Whisker Plot
150 160 170 180 190 200
Estatura
Medidas descriptivas
Datos = 60Mínimo = 155Máximo = 191Promedio = 168,5Mediana = 166,5Varianza = 70,7Desviación estándar = 8,4Coef. Variación = 5,0%Cuartil Inferior = 162Cuartil Superior = 174,5
(en centímetros)
Ver documento UT1-p25; 59
23
Calzado – Estatura - Sexo
Plot of Calzado vs Estatura
Estatura
Cal
zado
150 160 170 180 190 20034
36
38
40
42
44
46
Ref.Rojo: HombreAzul: Mujer
Exploración de DatosBase Datos IZ
25
Selección de Variables
• Sexo• Rango Edad
• SPHpre• SPH1d• SPH1m• SPH2m
26
SexoSexo Frecuencia
AbsolutaFrecuencia Relativa
(proporción)Frecuencia Relativa
(porcentaje)
Hombres 26 0,413 41,3%
Mujeres 37 0,587 58,7%
Totales 63 1,000 100,0%
Piechart for SEXOSEXO
FM
58,73%
41,27%HM
27
Barchart for RangoEDAD
percentage0 4 8 12 16 20 24
40-4445-4950-5455-5960-6465-6970-7475-79
Rango de EdadRangoEdad
Cant. Porcent.(%)
Porcent.Acum. (%)
40-44 1 1,7 1,7
45-49 3 5,0 6,7
50-54 11 18,3 25,0
55-59 14 23,3 48,3
60-64 10 16,7 65,0
65-69 13 21,7 86,7
70-74 7 11,7 98,3
75-79 1 1,7 100,0
28
EdadBox-and-Whisker Plot
EDAD42 52 62 72 82
Histogram for EDAD
EDAD
perc
enta
ge
42 52 62 72 820
5
10
15
20
25
Density Trace for EDAD
EDAD
dens
ity
42 52 62 72 820
0,01
0,02
0,03
0,04
0,05
Medidas descriptivas
Datos = 60Promedio = 60,5Mediana = 60,5Moda = 54,0Varianza = 59,2373Desviación estándar = 7,7Mínimo = 43Máximo = 78Rango = 35Cuartil Inferior = 54,5Cuartil Superior = 66,0Coef. Variación = 12,7%
29
Box-and-Whisker Plot
EDAD43 53 63 73 83
SEXO=H
SEXO=M
VariablesSEXO=HSEXO=M
Density Traces
dens
ity
43 53 63 73 830
0,01
0,02
0,03
0,04
0,05Ref.Azul: HombreRojo: Mujer
Hombres
Mujeres
SEXO=H
SEXO=Mpe
rcen
tage
41 51 61 71 8136
16
4
24
44Edad vs.
SexoHombres
Mujeres
30
SPHpreBox-and-Whisker Plot
SPHPre-10 -7 -4 -1 2 5 8
Histogram for SPHPre
SPHPre
perc
enta
ge
-10 -7 -4 -1 2 5 80
10
20
30
40
50
Density Trace for SPHPre
SPHPre
dens
ity
-10 -7 -4 -1 2 5 80
0,03
0,06
0,09
0,12
0,15
31
SPH1dBox-and-Whisker Plot
SPH1d-3 -2 -1 0 1 2 3
Histogram for SPH1d
SPH1d
perc
enta
ge
-3,3 -2,3 -1,3 -0,3 0,7 1,7 2,70
20
40
60
80
Density Trace for SPH1d
SPH1d
dens
ity
-3 -2 -1 0 1 2 30
0,1
0,2
0,3
0,4
0,5
32
SPH1mBox-and-Whisker Plot
SPH1m-0,8 -0,4 0 0,4 0,8 1,2 1,6
Histogram for SPH1m
SPH1m
perc
enta
ge
-0,8 -0,4 0 0,4 0,8 1,2 1,60
10
20
30
40
50
Density Trace for SPH1m
SPH1m
dens
ity
-0,8 -0,4 0 0,4 0,8 1,2 1,60
0,2
0,4
0,6
0,8
1
33
SPH2mBox-and-Whisker Plot
SPH2m-0,8 -0,4 0 0,4 0,8
Histogram for SPH2m
SPH2m
perc
enta
ge
-0,9 -0,6 -0,3 0 0,3 0,6 0,90
10
20
30
40
50
Density Trace for SPH2m
SPH2m
dens
ity
-0,8 -0,4 0 0,4 0,80
0,2
0,4
0,6
0,8
1
34
SPH MúltipleMeans and 95,0 Percent LSD Intervals
samplere
spon
seSPHpre SPH1d SPH1m SPH2m
-0,3
0,1
0,5
0,9
1,3
1,7
Box-and-Whisker Plot
response
sam
ple
SPHpre
SPH1d
SPH1m
SPH2m
-10 -8 -6 -4 -2 0 2 4 6 8
35
Scatterplot by Sample
resp
onse
sampleSPHpre SPH1d SPH1m SPH2m
-0,5
0,5
1,5
2,5
3,5
Means and 95,0 Percent LSD Intervals
sample
resp
onse
SPHpre SPH1d SPH1m SPH2m-0,8
-0,3
0,2
0,7
1,2
1,7
2,2
Box-and-Whisker Plot
response
sam
ple
SPHpre
SPH1d
SPH1m
SPH2m
-0,5 0 0,5 1 1,5 2 2,5 3 3,5
pre-1d-1m-2m
Para Rango Edad:60-64
SPH Múltiple
36
SPH1d MúltiplePor Rango Edad
Box-and-Whisker Plot
SPH1d
Ran
goED
AD
40-4445-4950-5455-5960-6465-6970-7475-79
-3 -2 -1 0 1 2 3
Means and 95,0 Percent LSD Intervals
RangoEDAD
SPH
1d
40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79-0,4
0,1
0,6
1,1
1,6
2,1
2,6
Medidas DescriptivasMedidas de Tendencia Central
Medidas de VariabilidadMedidas de PosiciónMedidas de Forma
38
Medidas Descriptivas
• Tendencia central (UT1-p27)– Media– Mediana– Moda
• Posición– Cuartiles– Percentiles– Puntuación Z
• Variabilidad o de Dispersión (UT1-p35)– Rango– Varianza– Desviación estándar– Coeficiente de
variación
• Forma– Simetría– Apuntamiento
39
Caso 1
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
Interpretación física de la Media
Sistema de masas de datos
40
Caso 2
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
Interpretación de la media
41
Caso 3
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
Interpretación de la media
42
Interpretación física de la media
0 101 2 3 4 5 6 7 8 9
X: Calificación en la escala del uno al diez
1 1 1
E = 3
x
X
x1
x2
x3
Media: Posición de la Equilibrante del sistema de masas de datos(punto de equilibrio del sistema de masas de datos)
(1).(x1+x2+x3) = (3).X
3) M0 = 0
1
N
ii
X
x
N
Ecuaciones de equilibrio estático
(1).x1
2) FY = 0 E = 31) FX = 0
En caso más general será:(x1+x2+x3+...+xN) = N . X
+ (1).x2 + (1).x3 – (3).X = 0
43
Promedio o Media Aritmética
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
1
N
ii
X
x
N
12
1 612
ii
X
x
Media aritmética de una población de tamaño N
Calificación en la escala del uno al diez
44
Media:Interpretación y propiedades
• Punto de equilibrio del sistema de masas datos
• Representante del conjunto de datos• Valor comprendido entre el mínimo y
máximo• No siempre coincide con un valor
observado• Es única
45
Variabilidad – DispersiónRango = xmáx – xmín
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
R = 0
R = 2
R = 10
R = 10
R = 100 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
46
Rango
• Diferencia entre el valor máximo y el valor mínimo observado
• Es la más simple de las medidas de dispersión
• Sólo para datos numéricos• No nos cuenta sobre la distribución de los
datos dentro del mismo• Es único
47
Medición de la dispersión
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
¿Cuánto se alejan los datos del punto de equilibrio?
48
Medición de la dispersión
0 101 2 3 4 5 6 7 8 9
La desviación respecto de la media como medida de dispersión
( )i Xx
Calificación en la escala del uno al diez
49
Inconvenientes de la desviación
1
( ) 0N
i Xi
x
La suma de las desviacionesrespecto de la media es
siempre igual a cero
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
50
Varianza y Desviación Estándar
2
1( )
N
i Xi
X
x
N
2
2 1( )
X
N
i Xi
x
N
Varianza Poblacional:
Promedio de las desviaciones cuadráticas respecto de la media
Desviación Estándar Poblacional: Surge de la necesidad de volver a la unidad de medida de la variable en estudio
51
Para pensar ...• ¿Cuál es la estatura promedio de las
personas presentes?• ¿Cuál es la desviación estándar de la
estatura de las personas presentes?• Comparemos:
– Estatura de los adultos– Estatura de adolescentes (13 a 17 años)– ¿Cuál tiene mayor desviación estándar?
• Comparemos media y desviación estándar:– Estatura de los adultos– Estatura de las modelos de Pancho Dotto
52
Valores numéricos de
0X
0,71X
4,32X 0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
53
Tabla: valores de# Grupo 1 Grupo 2 Grupo 3 Grupo 4 Grupo 5 Grupo 6 Grupo 8
1 6 5 5 5 5 5 52 6 6 5 5 5 5 53 6 6 6 5 5 5 54 6 6 6 6 5 5 55 6 6 6 6 6 5 56 6 6 6 6 6 6 57 6 6 6 6 6 6 78 6 6 6 6 6 7 79 6 6 6 6 7 7 7
10 6 6 6 7 7 7 711 6 6 7 7 7 7 712 6 7 7 7 7 7 7
Media = 6 6 6 6 6 6 6
DE Pob= 0 0,4082 0,5774 0,7071 0,8165 0,9129 1
54
Gráficos: valores de
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
0 101 2 3 4 5 6 7 8 9
55
Caso 4
0 101 2 3 4 5 6 7 8 9
Los datos, en promedio, ¿cuánto se alejan a un lado y al otro de la media?
56
Caso 5
0 101 2 3 4 5 6 7 8 9
Los datos, en promedio y aproximadamente, ¿cuánto se alejan a un lado y al otro de la media?
0 101 2 3 4 5 6 7 8 9
57
Interpretación de
0 101 2 3 4 5 6 7 8 9
Sistema real
7X 2,5X
0 101 2 3 4 5 6 7 8 9
2,5 2,5
Sistema equivalente
En ambos sistemas:
En promedio, las calificaciones se alejan de la media, 2,5 puntos
58
Resumen de fórmulas (Población)
1
N
ii
X
x
N
2
1( )
N
i Xi
X
x
N
Media Poblacional
Desviación Estándar Poblacional
Población de tamaño N
59
Resumen de fórmulas (Muestra)
1
n
ii
xX
n
2
1( )
1
n
ii
X
x XS
n
Media Muestral
Desviación Estándar Muestral
Muestra de tamaño n
60
Coeficiente de Variación UT1-p37 Medida de dispersión relativa Permite efectuar comparaciones entre
variables medidas en la misma unidad o en unidades de medida diferentes
Expresa la dispersión como proporción o porcentaje respecto de la media del conjunto de los datos
Fórmula de cálculo:X
X
X
CV
SCVX
Poblacional
Muestral
Capacidad estadística vs. Pensamiento estadístico
Análisis de la Variabilidad
62
Caso 1: Tiempos
• Variable en estudio:– Tiempo requerido para realizar una tarea
• Se desea comparar el tiempo empleado por un grupo de personas para realizar una tarea X, con el tiempo empleado por otro grupo de personas para realizar una tarea Y.– Desviación estándar (X): X = 0,04 min– Desviación estándar (Y): Y = 2880 min (dos días)
• ¿Qué tiempos están más dispersos, los de la tarea X o los de la tarea Y?
63
Caso 2: Derrames
• Variable en estudio:– Derrame Medio Anual (hm³)
• Se desea comparar el volumen de agua que anualmente aportan dos ríos, denominados genéricamente X e Y.– Desviación estándar (Río X): X = 546 hm³– Desviación estándar (Río Y): Y = 113.121 hm³
• ¿Cuáles son los derrames que están más dispersos, los del Río X o los del Río Y?
64
Caso 3: Estaturas y Pesos
• Variables en estudio:– Estatura (X) y Peso (Y)
• Se desea comparar las estaturas con los pesos de un grupo de personas, en términos de variabilidad.– Desviación estándar estaturas: X = 8,6 cm– Desviación estándar pesos: Y = 13,7 kg
• ¿Qué datos están más dispersos, las estaturas o los pesos de las personas del grupo?
65
Caso 4: Tiempos
• Variable en estudio:– Tiempo requerido para realizar una tarea
• Se desea comparar el tiempo empleado por los hombres (H) con el tiempo empleado por las mujeres (M) para realizar la misma tarea.– Desviación estándar (hombres): H = 4,69 min– Desviación estándar (mujeres): M = 1,70 min
• ¿Qué tiempos están más dispersos, los de los hombres o los de las mujeres?
Otras medidas de tendencia central
Mediana (Me) y Moda (Mo)
(UT1-p31)
67
Mediana
• Definición:– Es un valor de la variable que ocupa la posición
central en un conjunto ordenado de datos.• Determinación de la mediana:
– Si el número de observaciones es impar, es elvalor observado que ocupa la posición central de los datos, una vez que éstos han sido ordenados de manera creciente.
– Si el número de observaciones es par, se calcula como el promedio aritmético de las dos observaciones centrales, una vez que éstos han sido ordenados de manera creciente.
68
Determinación de la Mediana (1)
1º
2º
3º
4º
5º
6º
7º
8º
9º
Orden200
200
200
200
400
450
650
800
5900
Me = 400
Media = 1000
Moda = 200
Orden de la mediana: 5º
Valor que ocupa la posición central
Observación
12
nMediana x x
Cuando el número de datos es IMPAR
69
Determinación de la Mediana (2)
Orden ObservaciónCuando el número de datos es PAR
1º
2º
3º
4º
5º
6º
7º
8º
200
200
200
400
450
650
800
5900
Mediana = Promedio de los valores centrales
Me = (400+450)/2 = 425
Media = 1100
Orden de la mediana:
Entre el 4º y 5º
12 2
2
n nx xx
70
Propiedades de la Mediana
• La mediana de un conjunto de datos es única• NO es sensible a la presencia de datos
apartados o valores extremos• En un conjunto de datos, la mitad de ellos son
iguales o menores que la mediana y la otra mitad son iguales o mayores que la mediana
71
Moda
• Definición:– Es el valor de las observaciones que aparece con
mayor frecuencia
• Propiedades de la Moda:– Se puede determinar tanto para datos numéricos
como para datos no numéricos– No se ve afectada por datos apartados o valores
extremos– La moda puede o no existir; cuando existe,
puede no ser única
72
Dificultades de la Moda
0 101 2 3 4 5 6 7 8 9
Calificación en la escala del uno al diez
Conjunto pequeño de datos
Media = 5,42
Moda = 10
Mediana = 5,5
Desviación estándar = 3,3
73
Histogram for Calzado
Calzado
perc
enta
ge
34 36 38 40 42 44 460
10
20
30
40
Histogram for ANTIG
ANTIG
perc
enta
ge
0 5 10 15 20 25 30 35 40 45 500
5
10
15
20
25
30
Clases Modales (datos agrupados)
Número de calzado
Antigüedad en la empresa
Medidas de Posición
Cuartiles y Percentiles (UT1-p42)Valor Z (UT1-p40)Gráfico de caja (UT1-p52)
75
Interpretación de los cuartiles
xmín = 1,1 xmáx = 9,9
Q1 = 2,2
Q2 = Me = 3,6 Q3 = 7,8
Rango Intercuartil: RI = Q3 – Q1
La cuarta parte de los datos asume valores iguales o inferiores a 2,2
Tres cuartas partes de los datos asume valores iguales o inferiores a 7,8
La mitad de los datos (dos cuartos) asume valores iguales o inferiores a 3,6
Se forman cuatro grupos con igual cantidad de datos
109876543210Escala graduada de la variable en estudio
76
Interpretación de los percentiles
xmín = 1,1 xmáx = 9,9
P25 = 2,2
P50 = Me = 3,6 P75 = 7,8
El 25% de los datos son iguales o inferiores a 2,2
El 75% de los datos son iguales o inferiores a 7,8
El 50% de los datos (la mitad) son iguales o inferiores a 3,6
Se forman cien grupos con igual cantidad de datos
109876543210Escala graduada de la variable en estudio
77
Para pensar ...El cuartil inferior, ¿puede resultar igual a la mediana?
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
1 5 5 5 5 5 5 5 7 9
1 9 7 5 7 7 5 5 5 5
El percentil 20, ¿puede resultar mayor que el cuartil superior?
1 5 5 5 5 5 7 7 7 9
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
Sofía Puertas
78
Valor Z• Ver UT1-p40• Describe la posición de un valor individual de la
variable en estudio, respecto de la media del grupo al cual pertenece.
• Indica a qué distancia de la media del grupo se encuentra, sea por encima (signo positivo) o por debajo de la misma (signo negativo), medida en unidades de desviación estándar.
• Fórmula de cálculo:xz
x xzS
Valor z (población)
Valor z (muestra)x z
79
Interpretación del Valor Z
• Un valor Z negativo– indica que la observación está por debajo de la
media
• Un valor Z positivo– indica que la observación está por encima de la
media
• Un valor Z igual a cero– ¿qué indica?
xz
x xzS
80
Y = X+1Y = X
L A GM
Transformación X Y
-3 -2 -1 0 1 2 3 4 5
y = x+1
-3 -2 -1 0 1 2 3 4 5
x L A GM
Y = 0-3 -2 -1 0 1 2 3 4 5
y = (x – Media)
L GM A
Y = X
X = 2
81
Transformación X W
-3 -2 -1 0 1 2 3 4 5
x L A GM
W = X / constante = 1W = X / constante = 1,08
-3 -2 -1 0 1 2 3 4 5
w = (x / constante)
L GAMconstante = 2
X = 2X = 2,16
82
Transformación X Z
-3 -2 -1 0 1 2 3 4 5
x L A GM
X = 2X = 2,16
L A GM
-3 -2 -1 0 1 2 3 4 5
y = (x – Media)
Y = 0
L A GM
-3 -2 -1 0 1 2 3 4 5
y = (x – Media)
Y = 0 Y = X = 2,16
Z = Y / sigma = 0Z = Y / sigma = 1
-3 -2 -1 0 1 2 3 4 5
z = y / constante
GAMconstante = sigma
Z = 0Z = 1Y = X
Lz = (x – Media) / sigma
Ilustración
Ver uso de EXCEL
Gráfico de Caja
Datos apartados: atípico y anómalos
Ver documento UT1-p52
85
Construcción del Gráfico de Caja
2 4 6 108 120 1 3 5 7 9 11Variable Numérica
+
atípicosREF2REF1 REF4REF3
anómalosatípicosanómalos
Datos apartados Datos apartados
Datos No Apartados
xmáxxmín
Q1
Q2=Me
Q3REF1 = Q1 – 3 RIREF2 = Q1 – 1,5 RIREF3 = Q3 + 1,5 RIREF4 = Q3 + 3 RI
86
Construcción del Gráfico de Caja
2 4 6 108 120 1 3 5 7 9 11Variable Numérica
+ +
Primer dato no apartado por debajo de la REF 3
atípicosREF2REF1 REF4REF3
anómalosatípicosanómalos
Datos apartados Datos apartados
Datos No Apartados
xmáxxmín
Q1
Q2=Me
Q3REF1 = Q1 – 3 RIREF2 = Q1 – 1,5 RIREF3 = Q3 + 1,5 RIREF4 = Q3 + 3 RI
87
Datos apartados en la distribución normal
Probabilidad de que un dato resulte anómalo = 0,0000023Probabilidad de que un dato resulte atípico = 0,007
Datos apartados Datos apartados
88
Ejemplos
G2G3
G4G5G6
G7G8
Box-and-Whisker Plot
3 4 5 6 7 8 9
response
sam
ple
G6 G7 G8
5 5 3
5 5 4
5 5 4
5 5 4
5 5 4
6 5 5
6 7 7
7 7 8
7 7 8
7 7 8
7 7 8
7 7 9
G5
5
5
5
5
6
6
6
6
7
7
7
7
G4
5
5
5
6
6
6
6
6
6
7
7
7
G3
5
5
6
6
6
6
6
6
6
6
7
7
G2
5
6
6
6
6
6
6
6
6
6
6
7
89
SPH MúltipleMeans and 95,0 Percent LSD Intervals
sample
resp
onse
SPHpre SPH1d SPH1m SPH2m-0,3
0,1
0,5
0,9
1,3
1,7
Box-and-Whisker Plot
response
sam
ple
SPHpre
SPH1d
SPH1m
SPH2m
-10 -8 -6 -4 -2 0 2 4 6 8
90
Antigüedad
Box-and-Whisker Plot
ANTIG0 10 20 30 40 50
Histogram for ANTIG
ANTIG
perc
enta
ge
0 5 10 15 20 25 30 35 40 45 500
5
10
15
20
25
30
Base Datos Empresa