1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística...
-
Upload
benito-vicente-saez-montero -
Category
Documents
-
view
215 -
download
0
Transcript of 1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística...
1. Introducción a la Estadística
2. Descripción de los conjuntos de datos
3. Uso de la Estadística para sintetizar conjuntos de datos
4. Probabilidad
5. Variables aleatorias discretas
6. Variables aleatorias normales
2.1 Introducción
2.2 Tablas y gráficas de frecuencias
2.3 Datos agrupados e histogramas
2.4 Gráficas de tallos y hojas
2.5 Conjuntos de datos apareados
Es muy importante que los
resultados numéricos de cualquier
estudio se presenten en forma clara
y concisa, de modo que
rápidamente se pueda tener una
idea de las características
esenciales de los datos.
Esto es particularmente necesario
cuando se trata de un gran
conjunto de datos, como
frecuentemente ocurre en las
encuestas o en los experimentos
controlados.
Realmente, una presentación efectiva de los datos a menudo revela con rapidez elementos tales como su categoría, su grado de simetría, lo concentrados o dispersos que están, dónde se concentran, etcétera.
2.1 Introducción
2.2 Tablas y gráficas de frecuencias
2.3 Datos agrupados e histogramas
2.4 Gráficas de tallos y hojas
2.5 Conjuntos de datos apareados
La frecuencia es el
número de veces que un
dato aparece en el
conjunto total de datos.
Cuando se tiene un conjunto de
datos que contiene un número
relativamente pequeño de valores
diferentes, conviene representarlo en
una tabla de frecuencias, la cual
incluye cada valor distinto junto con
su frecuencia de ocurrencia.
En dicha tabla, la columna
de frecuencias representa el
número de ocurrencias de
cada valor distinto del
conjunto de datos.
El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.
La tabla muestra los resultados obtenidos:
# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1
1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2
La tabla muestra los resultados obtenidos ordenados en orden creciente:
# # # # # # # # # #1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 6
1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 6
# # # # # # # # # #1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 5 6
1 1 2 2 3 3 4 5 5 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 3 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 1 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 61 2 2 2 3 4 4 5 6 6
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
Esta es la tabla de frecuencias:
En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:
Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2
10 1TOTAL 75
Esta es la tabla de frecuencias:
En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3
1 1 11 2 32 3 33 3 24 2 23 2 22 1 22 1 22 2 12 2 21 2 21 2 21 2 22 2 22 1 1 3
Menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.
1 1 11 2 32 3 33 3 24 2 23 2 22 1 22 1 22 2 12 2 21 2 21 2 21 2 22 2 22 1 1 3
Ordenandode menora mayor
1 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 31 2 31 2 31 2 32 2 32 2 32 2 3 4
Contandola
apariciónde cadanúmero
1 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 21 2 31 2 31 2 31 2 32 2 32 2 32 2 3 4
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
Esta es la tabla de frecuencias:
Se pueden mostrar gráficamente los datos de una tabla de frecuencias mediante un gráfico de líneas, en el que los valores sucesivos se representan sobre el eje horizontal y sus correspondientes frecuencias se representan mediante la altura de una línea vertical.
Gráfico de una tabla de frecuencias.La abscisa especifica el valor de un dato, y la frecuencia de ocurrencia de tal valor se identifica con la altura de una línea vertical.
El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.
La tabla muestra los resultados obtenidos:
# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1
1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
Número obtenido Frecuencia
1 352 453 304 305 246 36
1. Determina uno el área rectangular del
papel en la cual quiere uno hacer la gráfica.
En este ejemplo use 20 cm horizontal
por 14 cm vertical.
20 cm
14 cm
2. Traza uno los ejes perpendiculares,
uno horizontal y otro vertical,
las abscisas y las ordenadas,
respectivamente.
Mide uno sus respectivas longitudes.
En este ejemplo use 18 cm en el eje X
y 12 cm en el eje Y.
18 cm
12 cm
3. En el eje horizontal, el de las abscisas,
marca uno los valores. Para ello, mide uno
la longitud horizontal del área de la gráfica,
y divide uno dicha longitud entre el número
de marcas que se van a colocar en el eje.
Se colocan las marcas.
En este caso son 6, así que cada marca está a
3 cm.
3 cm
12 cm
4. En el eje vertical, mide uno la longitud del
eje y para determinar la altura de cada línea
utiliza uno una proporción directa.
En este ejemplo la primera linea es 35, así que
35 35 12 7 6 42
50 12 50 5
xx
8.4
5
3 cm
8.4 cm
4. En el eje vertical, mide uno la longitud del
eje y para determinar la altura de cada línea
utiliza uno una proporción directa.
La segunda línea es 45, así que
45 45 12 9 6 5410.8
50 12 50 5 5
xx
3 cm
8.4 cm
10.8 cm
En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
En ocasiones, las frecuencias no se representan mediante líneas sino mediante barras de una cierta anchura. Estas gráficas, llamadas gráficas de barras, se utilizan muy a menudo.
La abscisa especifica el valor de un dato, y la frecuencia de ocurrencia de tal valor se identifica con la altura de una barra vertical.
Causa de muerte Número
Coche 30,500
Otros accidentes 27,500
Suicidio 20,234
Homicidio 8,342
Las principales causas de muerte no natural en Inglaterra están resumidas en la siguiente tabla:
Causa de muerte Número
Coche 30,500
Otros accidentes 27,500
Suicidio 20,234
Homicidio 8,342
Causa de muerte Número
Coche 30,500
Otros accidentes 27,500
Suicidio 20,234
Homicidio 8,342
Coche Otros accidentes Suicidio Homicidio -
5,000
10,000
15,000
20,000
25,000
30,000
35,000
Coche Otros accidentes Suicidio Homicidio
30,500 27,500
20,234
8,342
El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.
La tabla muestra los resultados obtenidos:
# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1
1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
1 2 3 4 5 60
5
10
15
20
25
30
35
40
45
50Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
1 2 3 4 5 6
35
45
30 30
24
36
En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:
Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2
10 1TOTAL 75
CalificaciónNúmero de
alumnos
0 1
1 2
2 4
3 7
4 12
5 23
6 12
7 7
8 4
9 2
10 1
TOTAL 75
0 1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
0 1 2 3 4 5 6 7 8 9 10
12
4
7
12
23
12
7
4
21
En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
1 2 3 40
5
10
15
20
25
30
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
1 2 3 4
12
26
7
1
Agua
scal
ient
esBa
ja C
alifo
rnia
Baja
Cal
iforn
ia S
urCa
mpe
che
Coah
uila
Colim
aCh
iapa
sCh
ihua
hua
Dist
rito
Fede
ral
Dur
ango
Gua
naju
ato
Gue
rrer
oH
idal
goJa
lisco
Méx
ico
Mic
hoac
ánM
orel
osN
ayar
itN
uevo
Leó
nO
axac
aPu
ebla
Que
réta
ro
Qui
ntan
a Ro
oSa
n Lu
is Po
tosí
Sina
loa
Sono
raTa
basc
oTa
mau
lipas
Tlax
cala
Vera
cruz
Yuca
tán
Zaca
teca
s0
2,000,000
4,000,000
6,000,000
8,000,000
10,000,000
12,000,000
14,000,000
16,000,000
Población por estado (Censo 2005)
Agua
scal
ient
esBa
ja C
alifo
rnia
Baja
Cal
iforn
ia S
urCa
mpe
che
Coah
uila
Colim
aCh
iapa
sCh
ihua
hua
Dist
rito
Fede
ral
Dur
ango
Gua
naju
ato
Gue
rrer
oH
idal
goJa
lisco
Méx
ico
Mic
hoac
ánM
orel
osN
ayar
itN
uevo
Leó
nO
axac
aPu
ebla
Que
réta
ro
Qui
ntan
a Ro
oSa
n Lu
is Po
tosí
Sina
loa
Sono
raTa
basc
oTa
mau
lipas
Tlax
cala
Vera
cruz
Yuca
tán
Zaca
teca
s
0
2,000,000
4,000,000
6,000,000
8,000,000
10,000,000
12,000,000
14,000,000
16,000,000
Población por estado (Censo 2005)
Aguascalie
ntes
Baja Californ
ia Sur
Coahuila
Chiapas
Distrit
o Federal
Guanajuato
Hidalgo
México
Morelos
Nuevo León
Puebla
Quintana Roo
Sinaloa
Tabasco
Tlaxcala
Yucatán
0
2,000,000
4,000,000
6,000,000
8,000,000
10,000,000
12,000,000
14,000,000
16,000,000 Comparación de la población
20002005
Agua
scal
ie...
Baja
Cal
ifo...
Baja
Cal
ifo...
Cam
pech
eCo
ahui
laCo
lima
Chia
pas
Chih
uahu
aD
istr
ito F
e...
Dur
ango
Gua
naju
ato
Gue
rrer
oH
idal
goJa
lisco
Méx
ico
Mic
hoac
ánM
orel
osN
ayar
itN
uevo
Leó
nO
axac
aPu
ebla
Que
réta
ro
Qui
ntan
a...
San
Luis
Po.
..Si
nalo
aSo
nora
Taba
sco
Tam
aulip
asTl
axca
laVe
racr
uzYu
catá
nZa
cate
cas0
1000
2000
3000
4000
5000
6000
7000 Densidad de población por entidad federativa
Otro tipo de gráfica utilizada para
representar una tabla de frecuencias es
el polígono de frecuencias, en el que se
muestran gráficamente las frecuencias
de los diferentes valores de los datos y
luego se conectan los puntos de la
gráfica mediante líneas rectas.
El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
1 2 3 4 5 60
5
10
15
20
25
30
35
40
45
50Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
1 2 3 4 5 6
35
45
30
30
24
36
En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:
Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2
10 1TOTAL 75
CalificaciónNúmero de
alumnos
0 1
1 2
2 4
3 7
4 12
5 23
6 12
7 7
8 4
9 2
10 1
TOTAL 75
0 1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
0 1 2 3 4 5 6 7 8 9 10
12
4
7
12
23
12
7
42
1
En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
1 2 3 40
5
10
15
20
25
30
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
1 2 3 4
12
26
7
1
0
0 0
Se dice que un conjunto de datos
es simétrico con respecto al
valor , si las frecuencias de los
valores y son
iguales para todo .
x
x c x c
c
0
0
Es decir, para cada constante ,
existe el mismo número de datos
con un valor igual a unidades
por debajo de que con un valor
igual a unidades por encima de .
c
e
x
e x
En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:
Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2
10 1TOTAL 75
0 1 2 3 4 5 6 7 8 9 10
12
4
7
12
23
12
7
4
21
0 1 2 3 4 5 6 7 8 9 101
24
7
12
23
12
7
42
1
Los datos "próximos" a ser
simétricos se dice que son
aproximadamente
simétricos.
Los datos "próximos" a ser simétricos se dice que son aproximadamente simétricos.
La forma más fácil de determinar si
un conjunto de datos es
aproximadamente simétrico consiste
en representarlos gráficamente.
Simétrico Aproximadametesimétrico
Asimétrico
Frecuencia de un valor dividida entre el número total de datos del conjunto.
Si representa la frecuencia de
ocurrencia del valor , y representa
el número total de observaciones del
conjunto de datos, se define la
frecuencia relativa como
f
x n
fn
En ocasiones, es más
conveniente considerar y
representar gráficamente las
frecuencias relativas que las
frecuencias absolutas de los
datos.
Si representa la frecuencia de ocurrencia
del valor , se puede mostrar gráficamente
la frecuencia relativa frente a ,
donde representa el número total de
observaciones del conjunto de datos.
f
x
fx
nn
Una gráfica de frecuencias relativas
tiene la misma apariencia que la
gráfica análoga de frecuencias
absolutas, aunque los valores del eje
vertical se han dividido entre el
número total de observaciones del
conjunto de datos.
1. Ordene el conjunto de datos
en forma creciente en valores.
2. Determine los valores distintos
y sus frecuencias de ocurrencia.
3. Liste los citados valores distintos
junto con sus frecuencias y sus
frecuenciasrelativas , donde
es el número total de observaciones
del conjunto de datos.
f
fn
n
1. Ordene el conjunto de datos
en forma creciente en valores.
2. Determine los valores distintos
y sus frecuencias de ocurrencia.
3. Liste los citados valores distintos junto
con sus frecuencias y sus frf ecuencias
relativas , donde es el número total
de observaciones del conjunto de datos.
fn
n
El experimento consiste en tirar un dado 200 veces.La variable aleatoria es la cara del dado que queda hacía arriba; le podemos asignar el número que dicha cara tiene, pero igual podría tener un gatito, un color o lo que sea.
La tabla muestra los resultados obtenidos:
# # # # # # # # # #3 3 3 5 5 2 3 2 2 23 4 2 4 5 4 2 4 1 66 6 6 3 6 5 1 1 2 1
1 4 6 1 5 3 2 6 3 12 2 3 6 2 2 2 4 2 54 1 2 5 2 6 3 1 6 14 6 1 6 4 1 4 2 2 26 1 5 6 4 4 4 1 3 44 4 5 2 2 6 5 5 5 46 6 1 5 5 5 3 2 1 64 6 3 3 6 4 5 3 2 63 2 4 2 2 3 3 1 4 62 1 5 1 2 5 5 6 5 62 5 6 3 4 1 2 2 6 12 1 3 3 2 6 4 5 3 11 2 6 5 3 1 1 1 2 21 1 1 4 1 4 2 1 6 16 2 5 3 3 6 3 3 6 61 6 4 3 2 2 2 4 1 46 4 3 2 6 3 2 2 4 2
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Total 200
Número obtenido Frecuencia
1 352 453 304 305 246 36
1 2 3 4 5 60
5
10
15
20
25
30
35
40
45
50
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 36
Número obtenido Frecuencia
1 35
2 45
3 30
4 30
5 24
6 361 2 3 4 5 60
5
10
15
20
25
30
35
40
45
50
Número obtenido Frecuencia
Frecuencia relativa
1 35 0.175
2 45 0.225
3 30 0.150
4 30 0.150
5 24 0.120
6 36 0.180
Total 200 1.000
Número obtenido Frecuencia
Frecuencia relativa
1 35 0.175
2 45 0.225
3 30 0.150
4 30 0.150
5 24 0.120
6 36 0.180
Total 200 1.0001 2 3 4 5 60.000
0.050
0.100
0.150
0.200
0.250
1 2 3 4 5 6
0.175
0.225
0.150 0.150
0.120
0.180
Número obtenido Frecuencia
Frecuencia relativa
1 35 0.175
2 45 0.225
3 30 0.150
4 30 0.150
5 24 0.120
6 36 0.180
Total 200 1.0001 2 3 4 5 60.000
0.050
0.100
0.150
0.200
0.250
1 2 3 4 5 6
0.175
0.225
0.150 0.150
0.120
0.180
En un grupo de 75 alumnos se pone un examen.La variable aleatoria, que es cuantitativa, es la calificación obtenida por el estudiante.La siguiente tabla muestra la frecuencia observada de las diferentes calificaciones:
Calificación Número de alumnos0 11 22 43 74 125 236 127 78 49 2
10 1TOTAL 75
CalificaciónNúmero de
alumnos
0 1
1 2
2 4
3 7
4 12
5 23
6 12
7 7
8 4
9 2
10 1
TOTAL 75
0 1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
CalificaciónNúmero de
alumnos
0 1
1 2
2 4
3 7
4 12
5 23
6 12
7 7
8 4
9 2
10 1
TOTAL 750 1 2 3 4 5 6 7 8 9 100
5
10
15
20
25
Calificación Número de alumnos Frecuencia relativa0 1 0.0131 2 0.0272 4 0.0533 7 0.0934 12 0.1605 23 0.3076 12 0.1607 7 0.0938 4 0.0539 2 0.027
10 1 0.013TOTAL 75 1.000
0 1 2 3 4 5 6 7 8 9 100.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
CalificaciónNúmero de
alumnosFrecuencia
relativa
0 1 0.013
1 2 0.027
2 4 0.053
3 7 0.093
4 12 0.160
5 23 0.307
6 12 0.160
7 7 0.093
8 4 0.053
9 2 0.027
10 1 0.013
TOTAL 75 1.000
0 1 2 3 4 5 6 7 8 9 10
0.0130.027
0.053
0.093
0.160
0.307
0.160
0.093
0.053
0.0270.013
0 1 2 3 4 5 6 7 8 9 100.000
0.050
0.100
0.150
0.200
0.250
0.300
0.350
CalificaciónNúmero de
alumnosFrecuencia
relativa
0 1 0.013
1 2 0.027
2 4 0.053
3 7 0.093
4 12 0.160
5 23 0.307
6 12 0.160
7 7 0.093
8 4 0.053
9 2 0.027
10 1 0.013
TOTAL 75 1.000
0 1 2 3 4 5 6 7 8 9 10
0.0130.027
0.053
0.093
0.160
0.307
0.160
0.093
0.053
0.0270.013
En un estudio sociológico, con la participación de un grupo minoritario, se registró el nivel educativo de los participantes.El nivel educativo se codificó de la siguiente manera: menos de la escuela secundaria fue codificada como 1, la escuela secundaria fue codificado como 2, graduado de la universidad fue codificado como 3, y de postgrado que se cifraron como 4.Los resultados fueron: 1 1 2 3 4 3 2 2 2 2 1 1 1 2 2 1 2 3 3 2 2 1 1 2 2 2 2 2 2 1 1 3 3 2 2 2 2 2 1 2 2 2 2 2 1 3
EscolaridadNúmero de personas
1 12
2 26
3 7
4 1
Total 46
EscolaridadNúmero de personas
1 122 263 74 1
Total 46
1 2 3 4
12
26
7
1
1 2 3 4
12
26
7
1
EscolaridadNúmero de personas Frecuencia relativa
1 12 0.261
2 26 0.565
3 7 0.152
4 1 0.022
Total 46 1.000
1 2 3 40.000
0.100
0.200
0.300
0.400
0.500
0.600 EscolaridadNúmero de personas
Frecuencia relativa
1 12 0.2612 26 0.5653 7 0.1524 1 0.022
Total 46 1.000
1 2 3 4
0.261
0.565
0.152
0.022
1 2 3 40.000
0.100
0.200
0.300
0.400
0.500
0.600 EscolaridadNúmero de personas
Frecuencia relativa
1 12 0.2612 26 0.5653 7 0.1524 1 0.022
Total 46 1.000
1 2 3 4
0.261
0.565
0.152
0.022
Los siguientes datos representan los tiempos de progresión, medidos en meses, de un tipo particular de tumor cerebral, llamado glioblastoma, en 65 pacientes:6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
6, 5, 37, 10, 22, 9, 2, 16, 3, 3, 11, 9, 5, 14, 11, 3, 1, 4, 6, 2, 7, 3, 7, 5, 4, 8, 2, 7, 13, 16, 15, 9, 4, 4, 2, 3, 9, 5, 11, 3, 7, 5, 9, 3, 8, 9, 4, 10, 3, 2, 7, 6, 9, 3, 5, 4, 6, 4, 14, 3, 12, 6, 8, 12, 7
Meses Meses Meses6 7 85 5 9
37 4 410 8 1022 2 3
9 7 22 13 7
16 16 63 15 93 9 3
11 4 59 4 45 2 6
14 3 411 9 143 5 31 11 124 3 66 7 82 5 127 9 73 3
Meses Meses Meses6 7 85 5 9
37 4 410 8 1022 2 3
9 7 22 13 7
16 16 63 15 93 9 3
11 4 59 4 45 2 6
14 3 411 9 143 5 31 11 124 3 66 7 82 5 127 9 73 3
Meses Meses Meses1 4 92 5 92 5 92 5 92 5 92 5 93 5 103 6 103 6 113 6 113 6 113 6 123 7 123 7 133 7 143 7 144 7 154 7 164 8 164 8 224 8 374 9
Meses Meses Meses1 4 92 5 92 5 92 5 92 5 92 5 93 5 103 6 103 6 113 6 113 6 113 6 123 7 123 7 133 7 143 7 144 7 154 7 164 8 164 8 224 8 374 9
Meses Pacientes Frecuencia relativa
1 1 0.015
2 5 0.077
3 10 0.154
4 7 0.108
5 6 0.092
6 5 0.077
7 6 0.092
8 3 0.046
9 7 0.108
10 2 0.031
11 3 0.046
12 2 0.031
13 1 0.015
14 2 0.031
15 1 0.015
16 2 0.031
22 1 0.015
37 1 0.015
Total 65 1.000
Meses Pacientes Frecuencia relativa
1 1 0.015
2 5 0.077
3 10 0.154
4 7 0.108
5 6 0.092
6 5 0.077
7 6 0.092
8 3 0.046
9 7 0.108
10 2 0.031
11 3 0.046
12 2 0.031
13 1 0.015
14 2 0.031
15 1 0.015
16 2 0.031
22 1 0.015
37 1 0.015
Total 65 1.000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370
2
4
6
8
10
12Meses Pacientes
1 12 53 104 75 66 57 68 39 7
10 211 312 213 114 215 116 222 137 1
Total 65
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370
2
4
6
8
10
12
Meses Pacientes1 12 53 104 75 66 57 68 39 7
10 211 312 213 114 215 116 222 137 1
Total 65
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180
Meses PacientesFrecuencia
relativa1 1 0.0152 5 0.0773 10 0.1544 7 0.1085 6 0.0926 5 0.0777 6 0.0928 3 0.0469 7 0.108
10 2 0.03111 3 0.04612 2 0.03113 1 0.01514 2 0.03115 1 0.01516 2 0.03122 1 0.01537 1 0.015
Total 65 1.000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180
Meses PacientesFrecuencia
relativa1 1 0.0152 5 0.0773 10 0.1544 7 0.1085 6 0.0926 5 0.0777 6 0.0928 3 0.0469 7 0.108
10 2 0.03111 3 0.04612 2 0.03113 1 0.01514 2 0.03115 1 0.01516 2 0.03122 1 0.01537 1 0.015
Total 65 1.000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370
2
4
6
8
10
12
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180 Frecuencia relativa
Frecuencia absoluta
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370.000
0.020
0.040
0.060
0.080
0.100
0.120
0.140
0.160
0.180 Frecuencia relativa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 22 370
2
4
6
8
10
12Frecuencia absoluta
Es una gráfica que representa las frecuencias relativas mediante la división deun círculo en sectores.
Las gráficas de pastel
suelen utilizarse para
representar las frecuencias
relativas cuando los datos
no son numéricos.
Se construye un círculo
que luego se divide en
sectores, uno por cada
valor diferente de los
datos.
El área de cada sector, con la que se pretende
representar la frecuencia relativa de un valor,
se determina como sigue:
Si la frecuencia relativa del valor es ,
el área de su sector debe coincidir con l
f
na
fracción del área total del círculo.f
n
Si un determinado valor tiene una
frecuencia relativa , su sector
correspondiente puede obtenerse
con la selección de un ángulo
igual a 360 grados.
f
n
f
n
La tabla siguiente muestra el número de muertes que hubo en las carreteras británicas durante 1987 distribuidas por clases:
Clases Número de muertes
Peatones 1699
Ciclistas 280
Motociclistas 650
Automovilistas 1327
Clases Número de muertes % Grados
Peatones 1699 0.43 155
Ciclistas 280 0.07 25
Motoristas 650 0.16 59
Automovilistas 1327 0.34 121
Total 3956 1.00 360
PeatonesCiclistasMotoristasAutomovilistas
Clases Número de muertes
Peatones 1699
Ciclistas 280
Motoristas 650
Automovilistas 1327
Total 3956
1699
280650
1327
PeatonesCiclistasMotoristasAutomovilistas
La tabla siguiente muestra la composición de la actual cámara de diputados en nuestro país:
Partido Total
PRI 237
PAN 143
PRD 71
PVEM 21
PT 13
NA 9
CONV 6
TOTAL 500
Partido Total % Grados
PRI 237 0.47 171
PAN 143 0.29 103
PRD
71 0.14 51
PVEM
21 0.04 15
PT
13 0.03 9
NA
9 0.02 6
CONV
6 0.01 4
TOTAL 500 1.00 360
PRIPANPRDPVEMPTNACONV
Partido Total
PRI 237
PAN 143
PRD
71
PVEM
21
PT
13
NA
9
CONV
6
TOTAL 500
237
143
71
21
13 9
6
PRIPANPRDPVEMPTNACONV
47%
29%
14%
4%
3% 2% 1%
PRIPANPRDPVEMPTNACONV
Partido Total
PRI 237
PAN 143
PRD
71
PVEM
21
PT
13
NA
9
CONV
6
TOTAL 500
Causa de muerte Número
Coche 30,500
Otros accidentes 27,500
Suicidio 20,234
Homicidio 8,342
Las principales causas de muerte no natural en Inglaterra están resumidas en la siguiente tabla:
Causa de muerte Número % Grados
Coche 30,500 0.35 127
Otros accidentes 27,500 0.32 114
Suicidio 20,234 0.23 84
Homicidio 8,342 0.10 35
Total 86,576 1.00 360
Causa de muerte NúmeroCoche 30,500 Otros accidentes 27,500 Suicidio 20,234 Homicidio 8,342
CocheOtros accidentesSuicidioHomicidio
30,500
27,500
20,234
8,342
CocheOtros accidentesSuicidioHomicidio
Coche35%
Otros accidentes32%
Suicidio23%
Homicidio10%
Población cuya lengua materna es el inglés
2.1 Introducción
2.2 Tablas y gráficas de frecuencias
2.3 Datos agrupados e histogramas
2.4 Gráficas de tallos y hojas
2.5 Conjuntos de datos apareados
Como hemos visto, el uso de gráficas de barras o líneas es una forma bastante efectiva de representar las frecuencias de los diferentes valores.
Sin embargo, en algunos conjuntos de datos el número de valores distintos es demasiado grande para que se puedan utilizar los gráficas citados.
En su lugar, es posible clasificar dichos valores en grupos o intervalos de clase, para luego representar gráficamente el número de datos que corresponden a cada clase.
En la elección del número de intervalos de clase se debe ponderar entre:
(i) elegir pocos a costa de perder mucha información sobre los datos reales de cada intervalo de clase,o
(ii) elegir muchos, con lo que las frecuencias resultantes de cada intervalo de clase pueden ser demasiado pequeñas para que se reconozcan los patrones de forma.
Aunque lo más habitual suele ser entre 5 y 10 intervalos de clase, el número apropiado es una elección subjetiva, y uno puede, como es natural, probar distintos números de intervalos de clase para ver cuál de las gráficas resultantes revela más información sobre los datos.
Es corriente, aunque no esencial, elegir intervalos de clase de igual longitud.
Los puntos inicial y final de cada intervalo de clase se llaman extremos o límites del mismo, extremo inferior y extremo superior respectivamente.
Nosotros utilizaremos el convenio de inclusión por la izquierda, lo que significa que el intervalo de clase incluye el extremo de la izquierda pero no el de la derecha.
Es la diferencia entre los extremos de clase que la forman.
La marca de clase es el punto medio del intervalo de clase, y se obtiene sumando los extremos inferior y superior de la clase y dividiendo entre 2.
Los siguientes datos (en miles de pesos) representan las rentas netas anuales de una muestra de contribuyentes:47,55,18,24,27,41,50,38,33,29,15,77,64,22,19,35,39,41,67,55,121,77,80,34,41,48,60,30,22,28,84,55,26,105,62,30,17,23,31,28,56,64,88,104,115,39,25,18,21,30,57,4038,29,19,46,40,49,72,70,37,39,18,22,29,52,94,86,23,36
Ingreso Ingreso Ingreso Ingreso Ingreso47 19 22 88 4055 35 28 104 4918 39 84 115 7224 41 55 39 7027 67 26 25 3741 55 105 18 3950 121 62 21 1838 77 30 30 2233 80 17 57 2929 34 23 40 5215 41 31 38 9477 48 28 29 8664 60 56 19 2322 30 64 46 36
Ingreso Ingreso Ingreso Ingreso Ingreso15 25 35 47 6717 26 36 48 7018 27 37 49 7218 28 38 50 7718 28 38 52 7719 29 39 55 8019 29 39 55 8421 29 39 55 8622 30 40 56 8822 30 40 57 9422 30 41 60 10423 31 41 62 10523 33 41 64 11524 34 46 64 121
Si queremos 5
intervalos, hacemos
121 1521.1
5
Así que el tamaño
de cada intervalo
lo tomamos de 22.
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Intervalo Frecuencia
15-37 30
37-59 22
59-81 10
81-103 4
103-125 4
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Si queremos 10
intervalos, hacemos
121 1510.6
10
Así que el tamaño
de cada intervalo
lo tomamos de 11.
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Intervalo Frecuencia
15-26 15
26-37 15
37-48 13
48-59 9
59-70 5
70-81 5
81-92 3
92-103 1
103-114 2
114-125 2
Intervalo Ancho Cantidad (miles)
0 5 4,1805 5 13,687
10 5 18,61815 5 19,63420 5 17,98125 5 7,19030 5 16,36935 5 3,21240 5 4,12245 15 9,20060 30 6,46190 60 3,435
Tiempo que tardan 124,089,000 gringos en ir al trabajo (Encuesta realizada por la Oficina de censos en el año 2000):
Una gráfica de barras en la que las barras sean adyacentes se llama histograma.
Gráfica en la que los datos se dividen en intervalos de clase, cuyas frecuenciasse muestran en una gráfica de barras.
El eje vertical de un histograma puede representar, bien las frecuencias de los intervalos de clase o bien sus frecuencias relativas. En el primer caso, el histograma se llama histograma de frecuencias; en el segundo, se trata de un histograma de frecuencias relativas.
Es importante notar, que una tabla de frecuencias de intervalos de clase o un histograma basado en tal tabla, no contiene toda la información del conjunto de datos originales.
Ambas representaciones utilizan sólo el número de valores dentro de cada intervalo de clase, y no los valores reales de los datos. Así pues, aunque las tablas y los gráficas citados son un útil reflejo de los datos, el conjunto de datos originales se debe mantener siempre.
1. Ordene los datos en forma creciente.
2. Elija los intervalos de clase de manera que todos los datos aparezcan en alguno de ellos.
3. Construya una tabla de frecuencias.
4. Dibuje las barras adyacentes con alturas iguales a las frecuencias del paso 3.
Los siguientes datos (en miles de pesos)
representan las rentas netas anuales de una
muestra de contribuyentes:
47,55,18,24,27,41,50,38,33,29,15,77,64,22,19,
35,39,41,67,55,121,77,80,34,41,48,60,30,22,2
8,84,55,26,105,62,30,17,23,31,28,56,64,88,10
4,115,39,25,18,21,30,57,40,38,29,19,46,40,49,
72,70,37,39,18,22,29,52,94,86,23,36
Ingreso Ingreso Ingreso Ingreso Ingreso47 19 22 88 4055 35 28 104 4918 39 84 115 7224 41 55 39 7027 67 26 25 3741 55 105 18 3950 121 62 21 1838 77 30 30 2233 80 17 57 2929 34 23 40 5215 41 31 38 9477 48 28 29 8664 60 56 19 2322 30 64 46 36
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69
0
20
40
60
80
100
120
140
Ingreso Ingreso Ingreso Ingreso Ingreso15 25 35 47 6717 26 36 48 7018 27 37 49 7218 28 38 50 7718 28 38 52 7719 29 39 55 8019 29 39 55 8421 29 39 55 8622 30 40 56 8822 30 40 57 9422 30 41 60 10423 31 41 62 10523 33 41 64 11524 34 46 64 121
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70
0
20
40
60
80
100
120
140
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Intervalo Frecuencia
15-37 30
37-59 22
59-81 10
81-103 4
103-125 4
15-37 37-59 59-81 81-103 103-1250
5
10
15
20
25
30
35
Intervalo Frecuencia
15-37 30
37-59 22
59-81 10
81-103 4
103-125 4
15-37 37-59 59-81 81-103 103-125
30
22
10
4 4
Ingreso Ingreso Ingreso Ingreso Ingreso
15 25 35 47 67
17 26 36 48 70
18 27 37 49 72
18 28 38 50 77
18 28 38 52 77
19 29 39 55 80
19 29 39 55 84
21 29 39 55 86
22 30 40 56 88
22 30 40 57 94
22 30 41 60 104
23 31 41 62 105
23 33 41 64 115
24 34 46 64 121
Intervalo Frecuencia
15-26 15
26-37 15
37-48 13
48-59 9
59-70 5
70-81 5
81-92 3
92-103 1
103-114 2
114-125 2
15-26 26-37 37-48 48-59 59-70 70-81 81-92 92-103 103-114 114-1250
2
4
6
8
10
12
14
16 Intervalo Frecuencia
15-26 15
26-37 15
37-48 13
48-59 9
59-70 5
70-81 5
81-92 3
92-103 1
103-114 2
114-125 2
15-26 26-37 37-48 48-59 59-70 70-81 81-92 92-103 103-114 114-125
15 15
13
9
5 5
3
1
2 2
15-2
6
26-3
7
37-4
8
48-5
9
59-7
0
70-8
1
81-9
2 92 103
114
15 15
13
9
5 5
3
12 2
15-37 37-59 59-81 81-103 103-125
30
22
10
4 4
Tiempo que tardan 124,089,000 gringos en ir al trabajo (Encuesta realizada por la Oficina de censos en el año 2000):
Intervalo Ancho Cantidad (miles)
0 5 4,1805 5 13,687
10 5 18,61815 5 19,63420 5 17,98125 5 7,19030 5 16,36935 5 3,21240 5 4,12245 15 9,20060 30 6,46190 60 3,435
La importancia de un histograma estriba en que permite organizar y presentar los datos gráficamente para que se pueda prestar atención a determinadas características importantes de los datos.
Un histograma puede indicar:
1. La simetría de los datos
2. La dispersión de éstos.
3. Si existen intervalos que tienen un alto nivel de concentración de datos.
4. Si existen brechas entre los datos.
5. Si algunos valores de datos están muy separados de otros.
Simétrico
Asimétrico
Disperso
Concentrado
Con una brecha
Con datos separados unos de otros
Un histograma es, en esencia, un diagrama de barras que muestra gráficamente las frecuencias o las frecuencias relativas de los datos que aparecen dentro de los distintos intervalos de clase.
Dichas frecuencias de clase también se pueden representar gráficamente mediante polígonos de frecuencias absolutas o de frecuencias relativas.
Cada intervalo de clase es identificado por un valor, que generalmente coincide con el punto medio del intervalo.
Después, estos valores se representan gráficamente frente a las frecuencias de los intervalos de clase que representan y los puntos de la gráfica se conectan mediante líneas rectas para conseguir el polígono de frecuencias.
Estas gráficas son especialmente útiles para comparar conjuntos de datos, puesto que en una misma gráfica se pueden mostrar varios polígonos de frecuencias.
Intervalo Europa México1821–1830 98,797 4,817 1831–1840 495,681 6,599 1831–1850 1,597,442 3,271 1851–1860 2,452,577 3,078 1861–1870 2,064,141 2,191 1871–1880 2,271,925 5,162 1881–1890 4,735,484 1,913 1891–1900 3,555,352 971 1901–1910 8,056,040 49,642 1911–1920 4,321,887 219,004 1921–1930 2,463,194 459,287 1931–1940 347,566 22,319 1941–1950 621,147 60,589 1951–1960 1,325,727 299,811 1961–1970 1,123,492 453,937 1971–1980 800,368 640,294 1981–1990 761,550 1,655,843 1991–2000 1,359,737 2,249,421
Migración a los Estados Unidos
1821
–183
0
1831
–184
0
1831
–185
0
1851
–186
0
1861
–187
0
1871
–188
0
1881
–189
0
1891
–190
0
1901
–191
0
1911
–192
0
1921
–193
0
1931
–194
0
1941
–195
0
1951
–196
0
1961
–197
0
1971
–198
0
1981
–199
0
1991
–200
0
-
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
6,000,000
7,000,000
8,000,000
9,000,000
Migración de Europa a los USA
1821
–183
0
1831
–184
0
1831
–185
0
1851
–186
0
1861
–187
0
1871
–188
0
1881
–189
0
1891
–190
0
1901
–191
0
1911
–192
0
1921
–193
0
1931
–194
0
1941
–195
0
1951
–196
0
1961
–197
0
1971
–198
0
1981
–199
0
1991
–200
0
-
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
6,000,000
7,000,000
8,000,000
9,000,000
Migración de Europa a los USA
1821
–183
0
1831
–184
0
1831
–185
0
1851
–186
0
1861
–187
0
1871
–188
0
1881
–189
0
1891
–190
0
1901
–191
0
1911
–192
0
1921
–193
0
1931
–194
0
1941
–195
0
1951
–196
0
1961
–197
0
1971
–198
0
1981
–199
0
1991
–200
0
-
500,000
1,000,000
1,500,000
2,000,000
2,500,000
Migración de México a los USA
1821
–183
0
1831
–184
0
1831
–185
0
1851
–186
0
1861
–187
0
1871
–188
0
1881
–189
0
1891
–190
0
1901
–191
0
1911
–192
0
1921
–193
0
1931
–194
0
1941
–195
0
1951
–196
0
1961
–197
0
1971
–198
0
1981
–199
0
1991
–200
0
-
500,000
1,000,000
1,500,000
2,000,000
2,500,000
Migración de México a los USA
1821
–183
0
1831
–184
0
1831
–185
0
1851
–186
0
1861
–187
0
1871
–188
0
1881
–189
0
1891
–190
0
1901
–191
0
1911
–192
0
1921
–193
0
1931
–194
0
1941
–195
0
1951
–196
0
1961
–197
0
1971
–198
0
1981
–199
0
1991
–200
0
-
1,000,000
2,000,000
3,000,000
4,000,000
5,000,000
6,000,000
7,000,000
8,000,000
9,000,000
EuropaMéxico
2.1 Introducción
2.2 Tablas y gráficas de frecuencias
2.3 Datos agrupados e histogramas
2.4 Gráficas de tallos y hojas
2.5 Conjuntos de datos apareados
En ocasiones, los conjuntos de datos consisten en pares de valores con algún tipo de relación entre ellos.
En ocasiones, los conjuntos de datos consisten en pares de valores con algún tipo de relación entre ellos.
Cada individuo del conjunto de datos
presenta un valor y un valor .
Por lo general, el par -ésimo se
denota mediante
, , 1,... , .i i
x y
i
x y i n
Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:
Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:
Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24
Total 569
Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables.
En este caso los pares de datos son la temperatura y el numero de piezas defectuosas.Tenemos un conjunto de 22 parejas de datos, cuya primera componente es la temperatura y la segunda componente el número de piezas defectuosas encontradas en ese momento.Por ejemplo, el tercer día la temperatura era de 30.5 grados centígrados y el número de piezas defectuosas halladas fue de 36.
Una posibilidad de representación de esos conjuntos de datos consiste en considerar separadamente cada uno de los datos apareados y en representar cada uno de ellos mediante histogramas o gráficas de tallos y hojas.
Sin embargo, dicha representación por separado, en general no nos dicen nada acerca de la relación existente entre ambas variables.Así por ejemplo, no son útiles por sí mismas para ayudar a discernir si existe algún tipo de correlación o dependencia entre las dos variables.
Para responder a cuestiones de este tipo, es preciso considerar simultáneamente los valores apareados de cada dato puntual.
Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:
Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24
Total 569
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 220.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210
5
10
15
20
25
30
35
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 210.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
Temperatura
Piezas defectuosas
Una posibilidad para considerar simultáneamente los valores apareados de cada dato puntual, es mediante un diagrama de dispersión.
Una forma útil de mostrar un conjunto de datos con valores apareados es la de representarlos mediante un gráfico cartesiano con dos ejes perpendiculares.
En el eje X aparecerían los valores x de los datos, mientras que los valores y estarían en el eje Y.
Tales gráficas se denominan diagramas de dispersión.
Para determinar la relación entre la temperatura que hay al mediodía (medida en grados Celsius) y el número de piezas defectuosas producidas dicho día, una compañía registró los datos siguientes correspondientes a 22 días laborables:
Temperatura Piezas defectuosas24.2 2522.7 3130.5 3628.6 3325.5 1932.0 2428.6 2726.5 2525.3 1626.0 1424.4 2224.8 2320.6 2025.1 2521.4 2523.7 2323.9 2725.2 3027.4 3328.3 3228.8 3526.6 24
Total 569
20.0 22.0 24.0 26.0 28.0 30.0 32.0 34.010
15
20
25
30
35
40
Temperatura
Núm
ero
de p
ieza
s de
fect
uosa
s
Aparte de que representan los patrones conjuntos de dos variables y de que nos permiten hacer predicciones, los diagramas de dispersión resultan útiles para detectar outliers, los datos puntuales que aparentemente no siguen los patrones de los demás datos.
El tiempo de espera entre las erupciones y la duración de la erupción del géiser Old Faithful en el Parque Nacional Yellowstone, Wyoming, EE.UU..
Esta gráfica sugiere que por lo general hay dos "tipos" de erupciones en cuanto a la espera: cortos y largos.
La siguiente tabla nos muestra las
calificaciones de 15 alumnos en
dos examenes, el primero es de
matemáticas y el segundo de
comprensión de la lectura.
Matemáticas Comprensión de lectura
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720
Matemáticas Lectura
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
100
200
300
400
500
600
700
800
900
1 2 3 4 5 6 7 8 9 10 11 12 13 14 150
100
200
300
400
500
600
700
800
900 Matemáticas Lectura
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720
Matemáticas Lectura
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720500 550 600 650 700 750 800
500
550
600
650
700
750
800
Matemáticas Lectura
750 750
700 710
720 700
790 780
700 680
750 700
620 610
640 630
700 710
710 680
540 550
570 600
580 600
790 750
710 720500 550 600 650 700 750 800
500
550
600
650
700
750
800
A pesar de algunas pequeñas incongruencias, lectura y matemáticas tienen una fuerte relación lineal: personas con altos niveles de comprensión de lectura tienden a tener altas calificaciones en matemáticas y viceversa, y aquellos con puntuaciones más bajas en un área tienden a tener peores puntuaciones en la otra.
Los datos siguientes relacionan el periodo de atención (en minutos) y la puntuación en un test de inteligencia (IQ) de 18 niños en edad preescolar.
Periodo de atención Puntuación IQ
Periodo de atención Puntuación IQ
Periodo de atención Puntuación IQ
2.0 82 6.3 105 5.5 118
3.0 88 5.4 108 3.6 128
4.4 86 6.6 112 5.4 128
5.2 94 7.0 116 3.8 130
4.9 90 6.5 122 2.7 140
6.1 99 7.2 110 2.2 142
1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.070
80
90
100
110
120
130
140
150
Periodo de atención
Punt
uaci
ón IQ