Diagrama de Tallos y Hojas
Transcript of Diagrama de Tallos y Hojas
Diagrama de Tallos y Hojas
El diagrama "tallo y hojas" (Stem-and-Leaf Diagram) permite obtener simultáneamente una
distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta
separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras
restantes (que formará el tallo).
Esta representación de los datos es semejante a la de un histograma pero además de ser fáciles
de elaborar, presentan más información que estos.
Ejemplos
Horarios de trenes
Edad de 20 personas
Comparar dos distribuciones
Horarios de trenes
Basándome en un articulo de Juan C. Dürsteler en InfoVis.net , tomamos
como ejemplo un horario de trenes confeccionado a partir de un díptico de la línea
Castelldefels-Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa
una tabla de 10 filas y 9 columnas más una columna "viuda" con el tren de las 22:38. Un
total de 91 campos con formato hh.mm cada uno, 455caracteres.
Díptico original Trayecto Castelldefels -> Barcelona-Sants
5.03 7.32 9.02 11.07 13.32 15.07 16.50 18.32 20.07 22.38
6.02 7.37 9.07 11.32 13.37 15.20 17.02 18.37 20.20
6.18 7.50 9.24 11.37 13.50 15.32 17.07 18.50 20.32
6.37 8.02 9.32 12.02 14.02 15.37 17.20 19.02 20.37
6.48 8.05 9.37 12.07 14.07 15.50 17.32 19.07 20.50
6.55 8.20 10.02 12.32 14.20 16.02 17.37 19.20 21.02
7.02 8.24 10.07 12.37 14.32 16.07 17.50 19.32 21.07
7.07 8.32 10.32 13.02 14.37 16.20 18.02 19.37 21.20
7.20 8.37 10.37 13.07 14.50 16.32 18.07 19.50 21.32
7.25 8.51 11.02 13.20 15.02 16.37 18.20 20.02 21.37
En el diagrama Stem & Leaf se representa la hora a la izquierda de la barra de separación | y
losminutos de la salida de cada tren a la derecha. La frecuencia de los trenes se deduce
fácilmente de la longitud de las filas y es, además, muy fácil ver en que minutos de cada hora
pasan típicamente los mismos.
Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 | 02 07 32 37
11 | 02 07 32 37
12 | 02 07 32 37
13 | 02 07 20 32 37 50
14 | 02 07 20 32 37 50
15 | 02 07 20 32 37 50
16 | 02 07 20 32 37 50
17 | 02 07 20 32 37 50
18 | 02 07 20 32 37 50
19 | 02 07 20 32 37 50
20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Por otra parte, dado que a algunas horas se repite exactamente el horario de los trenes se
puede reducir aún más el tamaño del gráfico, sin perder información y ganando en claridad.
Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido
05 | 03
06 | 02 18 37 48 55
07 | 02 07 20 25 32 37 50
08 | 02 05 20 24 32 37 51
09 | 02 07 24 32 37
10 11 12 | 02 07 32 37
13 14 15 16 17 18 19 20 | 02 07 20 32 37 50
21 | 02 07 20 32 37
22 | 38
Al final tenemos 59 campos de 2 dígitos, 118 caracteres más los separadores, es decir 4 veces
menos dígitos que con el horario original, menos espacio y más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente
informativa y que la representación gráfica puede contribuir enormemente a la percepción de
patrones y a la comprensión de la naturaleza de los fenómenos.
Edad de 20 personas
Supongamos la siguiente distribución de frecuencias
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja a su tallo
Por último reordenamos las hojas y hemos terminado el diagrama
Comparar dos distribuciones
Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda
distribución
35 38 32 28 30 29 27 19 48 40
39 24 24 34 26 41 29 48 28 22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.
Diagrama de tallos y hojas
Horario ferroviario usando un formato de diagrama de tallos y hojas en la estación Minato Mirai
en Yokohama, Japón. Este formato es muy usado en todo el país.
El diagrama de tallos y hojas (Stem-and-Leaf Diagram) es un formato para presentar datos
cuantitativos en un formato gráfico, similar a un histograma.
Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación
gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la
hoja) del bloque de cifras restantes (que formará el tallo).
Existen diversos tipos de diagramas tallos y hojas, que en inglés se llama "stem-and-leaf display".1
Referencias[editar]
1. Ir a↑ Diagrama de Tallos y Hojas
Presentación de datos cuantitativos
El diagrama de tallos y hojas
Dado un conjunto de datos formado por observaciones, las cuales pueden ser
representadas mediante y donde cada tiene por lo
menos dos dígitos. Una forma rápida de obtener una representación visual del
conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es
usado cuando hay un número no muy pequeño de datos. Los siguientes son los
pasos para construir un diagrama de tallos y hojas:
1. Seleccionar uno o más dígitos iniciales para los valores de tallo. El dígito(s) final(es) se convierte (n) en hojas. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al menos 5 tallos.
2. Hacer una lista de valores de tallo en una columna vertical.3. Registrar las hojas por cada observación junto al valor correspondiente del
tallo.4. Indicar las unidades para tallos y hojas en algún lugar del diagrama.
Muchos de los procedimientos estadísticos que se desarrollarán en la siguientes
unidades suponen que la variable aleatoria estudiada tiene al menos una
distribución aproximadamente normal, para la cual el diagrama de tallos y hojas
tiene forma de campana.
Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y
de la forma de la distribución. Esta técnica funciona bien para los conjuntos de
datos que no tienen una dispersión muy grande.
Ejemplo
La siguiente tabla representa el porcentaje de algodón en un material utilizado
para la fabricación de camisas para caballeros.
Tabla 1. Datos del porcentaje de algodón
33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6
34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1
35.6 35.0 34.7 34.1 34.6 35.9 34.6 34.7
36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7
35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8
34.7 36.8 35.0 37.9 34.0 32.9 32.1 34.3
33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7
32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8
El diagrama de tallos y hojas para los anteriores datos aparece a continuación.
Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el número 1
después del punto significa que se usa una sola cifra decimal).
Tallo Hojas
6 32 156789
18 33 114566666688
(21) 34 011122355666667777779
25 35 00111234456789
11 36 234888
5 37 13689
Algunas veces, la utilización del primero o de los dos primeros dígitos de los datos
puntuales como tallos no proporcionan suficientes tallos como para permitirnos
detectar la forma de su distribución. Una manera de solucionar esto es utilizar
tallos dobles. Es decir, utilizar cada tallos dos veces: una vez para trazar las hojas
inferiores 0, 1, 2, 3, 4, y a continuación nuevamente para trazar las hojas
superiores 5, 6, 7, 8, 9. El siguiente gráfico ilustra lo anterior
Presentación de datos cuantitativos
Histogramas
El histograma es una técnica gráfica utilizada para presentar gran cantidad de
datos. Se le atribuye a Karl Pearson en 1895. El histograma puede ser: de
frecuencias absolutas, de frecuencias relativas, de frecuencias absolutas
acumuladas y de frecuencias relativas acumuladas. Para la construcción del
histograma se requiere elaborar una tabla de distribución de frecuencias, lo cual se
desarrollará a continuación.
El gráfico de la distribución de frecuencias, se llama histograma. El histograma de
frecuencias es una representación visual de los datos en donde se evidencian
fundamentalmente tres características: forma, acumulación o tendencia posicional
y dispersión o variabilidad.
El histograma (de frecuencias) en si es una sucesión de rectángulos construidos
sobre un sistema de coordenadas de la siguiente manera:
1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo.
2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias de los intervalos.
3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases.
Polígono
Otro recurso gráfico para ilustrar el comportamiento de los datos es el polígono de
frecuencias. Este se construye sobre el sistema de coordenadas cartesianas, al
colocar sobre cada marca de clase un punto a una altura igual a la frecuencia
asociada a esa clase; luego se unen dichos puntos por segmentos de recta.
Para elaborar el Polígono en Excel, haga click derecho sobre el histograma y
elija Tipo de gráfico, lo cual despliega una ventana, donde usted debe elegir la
opción Líneas (Elija como subtipo de gráfico el que aparece por defecto). Luego
haga click en Aceptar.
Otra forma de polígono es la Ojiva, la cual es el polígono que se obtiene de unir por
segmentos de recta los puntos situados a una altura igual a la frecuencia
acumulada a partir de la marca de clase como se hace con el polígono de
frecuencia.
Ejemplo
La siguiente tabla resume la demanda diaria de cierto producto durante 40 días
seguidos
Tabla 2. Distribución de frecuencias de la demanda diaria de un producto.
Intervalo
4.5-9.5 4
9.5-14.5 11
14.5-19.5 13
19.5-24.5 10
24.5-29.5 2
La tabla anterior corresponde a una frecuencia para datos cuantitativos. Los
distintos intervalos son: (4.5, 9.5], (9.5,14.5], (14.5, 19.5], (19.5, 24.5], (19.5,
24.5], (24.5, 29.5]. La longitud de los intervalos es 5; los números 4, 11, 13, 10 y 2,
representan las respectivas frecuencias.
Diagrama de tallo y hoja
Esta es una manera de poder visualizar la distribución de un conjunto de datos utilizando los valores originales.
Esta técnica consiste en separar el valor de un dato en 2 dígitos.
El primer o los primeros dígitos de izquierda a derecha representan al tallo y el último dígito representa a la hoja, este tallo y esta hoja se separan mediante una línea vertical.
Para comprender mejor observe el siguiente ejemplo:
Se tienen datos referentes a temperaturas en grados Fahrenheit en un experimento de química de -42º, -12º,5º, 8º, 9º, 23º, 24º, 25º, 26º, 60º, 27º y 111º.
Se solicita sean presentados en un diagrama de tallo-hoja.
Solución:
Los datos deben ser ordenados de menor a mayor, se realiza una línea vertical para separar el tallo de la hoja y por ultimo se procede a ingresar los datos iniciando con los negativos y terminando con los positivos.
En este caso el tallos tiene las decenas y centenas y las hojas la unidad.
El siguiente histograma fue creado con los valores anteriores, observe la similitud en cuanto a la distribución del conjunto de datos donde la diferencia radica en la posición
de los valores observados, en el histograma se observan en el eje de la Y las frecuencias (hojas) y en el eje de las X (los tallos).
Hay una pequeña diferencia ya que el histograma presenta 7 clases y en el diagrama tallo y hoja hay 6 clases pero esto lo define el usuario en el histograma por lo que no debería ser problema .
Una ventaja de realizar un diagrama de tallo y hoja es poder obtener los valores originales aplicando notación científica.
Lo anterior consiste en visualizar los datos como un diagrama de tallo.hoja multiplicado por una base 10 y elevado a un exponente “a”. Note que ya no se utiliza una línea vertical para separar al diagrama tallo y hoja, sino utilizar un “punto”.
Después de visualizar al diagrama como tallo.hoja se procede a multiplicar por la base 10 al exponente a = 1 (el valor del exponente “a” dependerá de cómo el usuario establezca la separación del tallo.hoja), logrando con esto transformar el tallo.hoja al valor original del dato.
En el ejemplo anterior el tallo I hoja, -4 I 2 necesita ser visualizado como tallo.hoja -4.2 para luego ser multiplicado por 10 al exponente 1 y con esto obtener el valor original -42.
Realizando la multiplicación anterior se obliga a que le punto decimal se desplace una posición a la derecha, logrando con esto el valor -42.0.
Misma situación ocurre al tallo l hoja 11 1 que al ser visualizado como tallo.hoja 11.1, y ser multiplicado por 10 al exponente 1 este punto decimal se desplaza hacia la derecha generando esto el valor original 111.0.
Precaución: si al tallo.hoja se multiplicara por una base 10 y exponente -1 el punto decimal se desplaza hacia la izquierda dando como resultado un -0.42 y -1.11 respectivamente, siendo estos valores incorrectos a los valores buscados.
El programa Minitab con fin estadístico es de los pocos que generan un diagrama de tallo y hoja, este link lo describe si desean saber más.
EjemploPara realizar un diagrama de tallo y hoja en Minitab se debe de realizar lo siguiente:
Con Microsoft Excel se tabulan datos obteniendo la siguiente base de datos descargarla.
O bien pueden descargar la base de datos ya en Minitab con extensión .MTV descargarla.
Utilizando la opción de Excel, será necesario copiar y pegar los datos de una hoja de Excel hacia una hoja de trabajo de Minitab.
Luego en Minitab ubique la pestaña "gráfica" y la opción "tallo y hoja".
Al realizar lo anterior se abre la ventana tallo y hoja en ella es necesario seleccionar con un clic la variable que se desea analizar, el siguiente paso es hacer clic izquierdo en el botón “Seleccionar” y por ultimo hacer clic en el botón aceptar.
El resultado es el siguiente diagrama de tallo y hoja:
En este se puede observar que la mayor cantidad de los datos se encuentran en la parte central del diagrama, también que la variable analizada fue No. de tomates por planta en la cosecha 1999-2000 y que el total de plantas que contenían los tomates fue de 250.
El diagrama generado muestra del lado derecho a la hoja (un dígito por cada observación), en el centro al tallo y en al lado izquierdo los conteos con intervalos de 5 unidades.
Lo anterior genera 12 grupos distanciados de la siguiente manera (120-124), (125-129), (130-134), (135-139), (140-144), (145-149), (150-154), (155-159), (160-164), (165-169), (170-174) y (175-179).
En el diagrama se muestra del lado izquierdo un conteo entre paréntesis este indica que es ahí donde se encuentra la mediana que divide al conjunto de datos en 2 grupos.
Los conteos son acumulativos de arriba hacia el medio y de abajo hacia el medio generando un conteo total de 250 (71+60+119).
El siguiente histograma fue creado para compararlo con el resultado del diagrama tallo y hoja de la base de datos tallo-hoja (la que se dio para descargar).
Para obtener este histograma se utilizó el software estadístico Infostat, con las siguientes restricciones:
10 clases, intervalos de clase de 5 unidades, un rango de 57 tomates/plantas, límite inferior de clase de 123 tomates/planta y límite superior de 177 tomates/planta.
En el eje “X” se encuentra un mínimo de 123 y máximo de 177, con 12 divisiones.
El eje “Y” son las frecuencias absolutas con un mínimo de 0 y un máximo de 60 con 12 divisiones.
Al realizar la comparación del tallo y hoja con el histograma generado y las restricciones anteriormente descritas se observa la similitud entre ambos en cuanto a la distribución del conjunto de datos.
Gráficos de Tallo y Hojas
(Stem-and-Leaf Plot for batch= Standard)
UNIR, Universidad Virtual Máster Oficiales en Perú y Europa. ¡Hasta 65% de Descuento para Perú!www.unir.netEnlaces patrocinados
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor.
Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor
Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil.
Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.
Interpretación de la gráfica Tallos y Hojas
La columna izquierda registra las frecuencias de cada nivel de temperatura
En total suman 240 valores, los que coinciden con el número que nos da el cuadro deResumen del procesamiento de los casos
Los datos de columna del medio, se llama Stem y los de la última columna, Leaf.
Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00
La columna de Stem registra 150 y la columna de Leaf los valores que completan el valor 150 de la columna Stem, empezando por 0.
Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos 1500; hay tres ceros en la columna Leaf, habrá 3 casos que soportan temperaturas de 1500 grados
Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54.
Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se convertirá en 1510; como hay ocho ceros en la columna Leaf, entonces habrá 8 observaciones de 1510.
Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf.
El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces sabremos que habrá doce observaciones que representan soportes de 1511 grados centígrados.
Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas temperaturas.
El valor de la primera columna a la izquierda, Frecuency, nos dice que en total hay 54 soportes que resisten emperaturas desde 1510 hasta 1514 grados centígrados.
Los datos nos indican que los valores se concentran, principalmente, entre 1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de Standard soportan temperaturas entre 1505 y 1519 grados.
Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para los soportes Premium.
Gráficos de Tallo y Hojas
(Stem-and-Leaf Plot for batch= Premium)
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor.
Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor
Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil.
iagrama de caja y bigote actividad 5.114:57:00 | Publicado por HUGO GARZON |
ACTIVIDAD 5.1
En esta sección se presenta los de gráficos conocidos como de CAJA Y BIGOTE
OBJETIVO:
Identificar las características del diagrama de Caja y Bigote, lo que permitirá su futura aplicación.
ACTIVIDAD:
Leer, ver y resumir los documentos presentados
Socializar los hallazgos y las dudas con el grupo
Resolver los ejercicios asignados por el docente
PRODUCTO:
Elaborar una presentación en Power Point en la que se relacione la solución de los problemas asignados, desde su planteamiento, pasando por los procesos para solucionarlo y las principales conclusiones. Subirla al blog del grupo.
TIEMPO: El fijado por el profesor
Para ver la rúbrica de esta actividad siga el enlace: