Descriptores numericos de una distribucion
-
Upload
vance-ball -
Category
Documents
-
view
54 -
download
0
description
Transcript of Descriptores numericos de una distribucion
Descriptores numericos de una distribucion
Objetivos
Describiendo distribuciones con numeros
Medidas de tendencia central: media y la mediana
Medidas de dispersion: percentiles y desviacion estandar
La media o el promedio aritmetico
Para calcular la media, se añaden todos
los valores y luego se divide entre el
numero de individuos. “Es el centro de
la masa.”
Suma de las alturas 1598.3
Dividido entre 25 mujeres = 63.9 cm
58.2 64.059.5 64.560.7 64.160.9 64.861.9 65.261.9 65.762.2 66.262.2 66.762.4 67.162.9 67.863.9 68.963.1 69.663.9
Medida de tendencia central: la media
n
nx....xxx
21
x 1598.3
2563.9
Nocion matematica:
x 1
n ixi1
n
(i) (x) (i) (x)
i = 1 x1= 58.2 i = 14 x14= 64.0
i = 2 x2= 59.5 i = 15 x15= 64.5
i = 3 x3= 60.7 i = 16 x16= 64.1
i = 4 x4= 60.9 i = 17 x17= 64.8
i = 5 x5= 61.9 i = 18 x18= 65.2
i = 6 x6= 61.9 i = 19 x19= 65.7
i = 7 x7= 62.2 i = 20 x20= 66.2
i = 8 x8= 62.2 i = 21 x21= 66.7
i = 9 x9= 62.4 i = 22 x22= 67.1
i = 10 x10= 62.9 i = 23 x23= 67.8
i = 11 x11= 63.9 i = 24 x24= 68.9
i = 12 x12= 63.1 i = 25 x25= 69.6
i = 13 x13= 63.9 n =25 =1598.3
Aprendamos inmediatamante como usar las calculadoras.
mujer altura alturamujer
Los resumenes numericos deben tener sentido
Aca la forma de la distribucion es muy irregular porque?
Podremos tener mas de una especie o fenotipo?
6.69x
La distribucion de las alturas parece ser coherente y simetrica. La media en un buen resumen numerico.
3.69x
altura de 25 mujeres en una clase
Height of plants by color
0
1
2
3
4
5
Height in centimeters
Num
ber
of p
lants
red
pink
blue
58 60 62 64 66 68 70 72 74 76 78 80 82 84
Un resumen numerico unico no tendria sentido
9.63x 5.70x 3.78x
Medidas de tendencia central: la medianaLa mediana es el punto central de una distribucion- un numero tal que la mitad de
las observaciones son mas pequeñas y la otra mitad son mas grandes
1. Ordenar las observaciones desde la mas pequeña hasta la mas grande.
n = numero de observaciones______________________________
1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.6
n = 24 n/2 = 12
Mediana = (3.3+3.4) /2 = 3.35
3. Si n es par, la mediana es el promedio de las 2 observaciones centrales
1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 12 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.625 12 6.1
n = 25 (n+1)/2 = 26/2 = 13 Mediana = 3.4
2. Si n es impar, la mediana es la observacion (n+1)/2 en la lista
Media y mediana en una distribución asimétrica
Media y mediana en una distribución simétrica
Sesgo Izq Sesgo Der
MediaMediana
MediaMediana
MediaMediana
Comparemos la Mediana y la Media
La mediana y la media son la misma sólo si la distribucion es simétrica.
La mediana es una medida de tendencia central que es resistente a
sesgo y a los outliers. La Media no lo es.
La mediana, es solo modificada
ligeramente por los outliers (de
3.4 a 3.6).
La media es desviada
considerablemente hacia la
derecha por los outliers
(de 3.4 a 4.2).
P
erc
en
t o
f p
eo
ple
dyi
ng
Media y Mediana de una distribucion con outliers
4.3x
Sin outliers
2.4x
Con outliers
Enfermedad X:
La Media y la Mediana son iguales
Media y mediana de una distribucion simetrica
4.3
4.3
M
x
Mieloma Multiple :
5.2
4.3
M
x
En una distribucion sesgada
La Media esta desviada hacia el sesgo
Impacto de datos sesgados
La desviacion estandar se usa para describir la variacion alrededor de la media
2
1
2 )(1
1xx
ns
n
i
1) Primero se calcula la variancia s2.
2
1
)(1
1xx
ns
n
i
2) Luego se calcula la raiz cuadrada
para obtener la desviacion
estandar s.
Medidas de dispersion: desviación estandar
Media± 1 s.d.
x
Cálculos …
Uno NUNCA calcula esto a mano, Favor practicar con su calculadora.
2
1
1( )
1
n
is x xn
Media = 63.4
Suma de las desviaciones al cuadrado from
mean = 85.2
Degrees freedom (df) = (n − 1) = 13
s2 = variance = 85.2/13 = 6.55 inches squared
s = standard deviation = √6.55 = 2.56 inches
Altura de mujeres (pulgadas)
La distribucion Normal
Objetives
Las distribuciones normales
Curvas de densidad
Distribucion Normal
La regla 68-95-99.7
La distribucion Normal estandar
Usando la tabla Normal estandar
Encontrar un valor dada una proporcion
Curvas de densidadUna curva de densidad es un modelo matematico de distribucion.
Siempre esta sobre el eje horizontal.
El area total bajo la curva es, por definicion igual a 1 ó 100%.
El area bajo la curva para un rango de variables esta en proporcion de todas las observaciones para ese rango
Histograma de una muestra con su curva de densidad teorica que describe a la
poblacion
Las curvas de densidad vienen
en cualquier forma.
Algunas son conocidas
matematicamante otras no.
Distribucion Normal
e = 2.71828… la base del logaritmo natural
π = pi = 3.14159…
Las distribuciones Normales—o de Gauss— son una familia de curvas
de densidad con forma de campana, simetricas y definidas por una
media (mu) y una desviacion estandar (sigma): N ().
2
2
1
2
1)(
x
exf
xx
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Una familia de curvas de densidad
Las medias son diferentes
( = 10, 15, y 20) Mientras que las
desviaciones estandar son las
mismas ( = 3).
Las medias son la misma ( = 15)
Mientras las desviaciones estandar
son diferentes ( = 2, 4, y 6).
media µ = 64.5 desviacion estandar = 2.5
N(µ, ) = N(64.5, 2.5)
Todas las curvas Normales N ) comparten las mismas propiedades
Recordatorio: µ (mu) es la media de la curva ideal mientras que es el promedio de una muestra
σ (sigma) es la desviacion estandar de la curva ideal, mientras que s es la d.e. de una muestra.
Cerca de 68% de todas las
observaciones estan dentro de 1
desviacion estandar (de la
media ().
Cerca de 95% de todas las
observaciones estan dentro de 2
de la media .
Casi todas (99.7%) las
observaciones estan dentro de las
3 de la media.
Punto de inflexion
x
Debido a que todas las distribuciones estandar comparten las mismas
propiedades podemos estandarizar nuestros datos para transformar
cualquier curva normal N () en la curva normal estandar N (0,1).
La distribucion normal estandar
Para cada x calculamos un nuevo valor, z (llamado el valor z).
N(0,1)
=>
z
x
N(64.5, 2.5)
Standardized height (no units)
z (x )
Un valor-z mide el numero de desviaciones estandar a la que un dato x
se encuentra de la media .
Estandarizando: calculando los valores z
Cuando x es mayor que la media, z es positivo.
Cuando x es menor que la media, z es negativo
1 ,
zxpara
Cuando x es 1 desviacion estandar mas
grande que la media entonces z = 1.
222
,2
zxpara
Cuando x es 1 desviacion estandar mas
grande que la media entonces z = 2.
Media µ = 64.5"
Desviacion estandar = 2.5" x (altura) = 67"
Calculamos z,el valor estandarizado de x:
media la deestandar desv. 1 15.2
5.2
5.2
)5.6467( ,
)(
z
xz
Gracias a la regla 68-95-99.7 , podemos concluir que el porcentaje de
mujeres mas pequeñas de 67” debe ser aproximadamante: .68 + mitad de
(1 − .68) = .84, or 84%.
Area= ???
Area = ???
N(µ, ) = N(64.5, 2.5)
= 64.5″ x = 67″
z = 0 z = 1
Ejemplo: altura en mujeres
La altura en mujeres sigue la distribucion
N(64.5″,2.5″). Cual es el porcentaje de
mujeres mas pequeñas de 67 pulgadas?
Usando la Tabla
(…)
La tabla de z muestra el area bajo la curva Normal estandar hacia la izquierda de
cualquier valor de z.
.0082 es el area
bajo N(0,1) a la izq de z = -2.40
.0080 es el area bajo
N(0,1) Izq de z = -2.41
0.0069 es el area bajo
N(0,1) Izq de z = -2.46
Area ≈ 0.84
Area ≈ 0.16
N(µ, ) =
N(64.5”, 2.5”)
= 64.5” x = 67” z = 1
Conclusion:
84.13% de la mujeres son mas pequeñas
que 67″.
restando 1 − 0.8413, o 15.87%, de mujeres
son mas grandes que 67".
Para z = 1.00, el area bajo
la curva Normal estandar a
la izquierda de z es 0.8413.
Porcentaje de mujeres mas pequeñas de 67”
Tips usando la Tabla Z
Gracias a que la distribucion
normal es simetrica, hay dos
maneras en las que se puede
calcular el area bajo la curva
normal a la derecha del valor Z.
Area a la derecha de z = 1 − area izquierda de z
Area = 0.9901
Area = 0.0099
z = -2.33
Area a la derecha de z =
area izquierda de -z
La asociacion de colegios atleticos (NCAA) requiere que los atletas tengan por lo
menos 820 en los examenes de SAT combinados verbal y matematicos para
completar su primer año. Los scores SAT del 2003 fueron aproximadamante
normales con una media 1026 y desviacion estandar 209.
Que proporcion de estudiantes calificaran para NCAA (SAT ≥ 820)?
16%. approx.or
0.1611 is .99- z
ofleft the toN(0,1)
under area :A Table
99.0209
206209
)1026820(
)(
209
1026
820
z
z
xz
x
Note: The actual data may contain students who scored exactly 820 on the SAT. However, the proportion of scores exactly equal to 820 being 0 for a normal distribution is a consequence of the idealized smoothing of density curves.
Area right of 820 = Total area − Area left of 820= 1 − 0.1611
≈ 84%
Tips usando la Tabla Z
Para calcular el area entre dos valores z, primero obtener el area bajo
N(0,1) a la izquierda del valor z de la Tabla.
area entre z1 y z2 =
area izq de z1 – area izq de z2
Un error comun es restar los
valores de z.
Luego restar el area
pequeña del area
grande.
El area bajo N(0,1) para un valor cualquiera es cero.
La NCAA define un “partial qualifier” como alguien elegible para practicar y recibir
una bolsa de estudiante atleta pero no para competir si tienen un SAT de por lo
menos 720. Cual es la proporcion de todos los estudiantes que toman el
SAT que serian partial qualifiers? O dicho de otra manera, cual es la
proporcion que tendra scores entre 720 y 820?
7%. aprox. o
0.0721 es .99- z
de izq la a N(0,1)
bajo area :A Table
46.1209
306209
)1026720(
)(
209
1026
720
z
z
xz
x
Alrededor de 9% de todos los estudiantes que toman el
SAT tendran scores entre720 y 820.
Area entre = Area izq de 820 − Area izq de 720 720 y 820 = 0.1611 − 0.0721
≈ 9%
N(0,1)
z (x )
Lo divertido de trabajar con datos normalemente distribuidos es que podemos manipularlos y encontrar respuestas a preguntas que involucran distribuciones aparentemente no comparables.
Lo hacemos estandarizando los datos. Lo que implica cambiar la escala de tal manera que la media es 0 y la desv. Estandar es igual a 1. si hacemos esto a distribuciones diferentes las hacemos comparables.
What are the effects of better maternal care on gestation time and premies?
The goal is to obtain pregnancies of 240 days (8 months) or longer.
Example: Gestation time in malnourished mothers
What improvement did we get
by adding better food?
0.3085. is 0.5- z ofleft the
toN(0,1)under area :A Table
deviation) standard a (half
5.020
1020
)250240(
)(
20
250
240
z
z
xz
x
Vitamins only
Under each treatment, what percent of mothers failed to carry their babies at
least 240 days?
Vitamins only: 30.85% of women
would be expected to have gestation
times shorter than 240 days.
= 250, = 20, x = 240
0.0418. is 1.73- z ofleft the
toN(0,1)under area :A Table
mean) from sd 2almost (
73.115
2615
)266240(
)(
15
266
240
z
z
xz
x
Vitamins and better food
Vitamins and better food: 4.18% of women
would be expected to have gestation times
shorter than 240 days.
= 266, = 15, x = 240
Compared to vitamin supplements alone, vitamins and better food resulted in a much
smaller percentage of women with pregnancy terms below 8 months (4% vs. 31%).
When you know the proportion, but you don’t know the x-value that
represents the cut-off, you need to use Table A backward.
Finding a value given a proportion
1. State the problem and draw a picture.
2. Use Table A backward, from the inside out to the margins, to find the corresponding z.
3. Unstandardize to transform z back to the original x scale by using the formula:
x z
mean µ = 64.5"
standard deviation = 2.5" proportion = area under curve=0.25
We use Table A backward to get the z.
On the left half of Table A (with proportions 0.5), we find that a proportion of 0.25 is between z = -0.67 and –0.68.
We’ll use z = –0.67.
Now convert back to x:
64.5 ( 0.67)(2.5) 62.825"x z
The 25th percentile for women’s heights is 62.825”, or 5’ 2.82”.
Example: Women’s heightsWomen’s heights follow the N(64.5″,2.5″)
distribution. What is the 25th percentile for
women’s heights?
Relaciones: correlacion
Variable explicativa (independiente) : numero de cervezas
Respuesta
(variable
dependiente) :
Contenido
de alcohol
en sangre
xy
Variables explicativas y de respuesta
Una variable de respuesta mide el resultado de un estudio. Una
variable explicativa explica cambios en la variable de respuesta.
Tipicamante, la variable explicativa o independiente se grafica en el
eje x y la variable de respuesta o dependiente en el eje y.
Algunos plots no tienen varibles claras.
Las calorias explican los
los contenidos de sodio?
Forma y direccion de una asociacion
Linear
No linear
No relacion
Asociacion Positiva : Valores altos de una variable tienden a ocurrir
junto con valores altos de la la otra variable.
Asociacion Negativa: Valores altos de una variable tienden a ocurrir junto con
valores bajos de la la otra variable.
One way to remember this: The equation for this line is y = 5.x is not involved.
Sin relacion: x e y varian independendientemente.Conocer x no dice nada acerca de y.
El coeficiente de correlacion es una medida de la direccion y la fuerza
de una relacion. Se calcula usando la media y la desviacion estandar
de las variables x e y .
El coeficiente de correlacion “r”
La correlacion solo puede ser usada para describir variables CUANTITATIVAS. Variables categoricas no tienen medias ni desv. estandar.
Tiempo de nado: x = 35, sx = 0.7
Pulso: y = 140 sy = 9.5
Parte del calculo involucra encontrar a z, el valor estandarizado que usamos cuando se trabaja con una distribucion normal.
Uds. No quieren hacer esto a mano. Asegurense de saber otener este valor con su calculadora!
Estandarizacion:Nos permite comparar correlaciones entre data sets donde las variables estan medidas en unidades diferentes o cuando las variables son diferentes.
Por ejemplo podemos comparar la correlacion entre tiempo de nado y pulso y tiempo de nado y ritmo respiratorio.
“r” no distingue entre variables explicativas y de respuesta
El coeficiente de correlacion , r, trat a x e y simetricamente.
r = -0.75 r = -0.75
Cambiar las unidades de la variable no cambia el coeficiente de correlacion “r,” porque eliminamos todas las unidades al estandarizar z-scores).
“r” no tiene unidadesr = -0.75
r = -0.75
z-score plot is the same for both plots
“r” va de −1 a +1
“r” cuantifica la fuerza y la direccion de una relacion linear entre dos variables cuantitativas.
Fuerza: Que tan bien los puntos siguen una linea recta.
Direccion es positiva cuando individuos con valores de x mas altos tienden a tener valores de y mas altos.
Cuando la variabilidad
en una o ambas
variables decrece, el
coeficiente de
correlacion se hace mas
fuerte
(cerca a +1 o −1).
Solo para relaciones lineares.
Nota: a veces se puede transformar datos no lineares a formas lineares, por ejemplo tomando el logarithmo. Luego se puede calcular la correlacion usando los datos transformados.
Cuidado usando la correlacion
Correlaciones se calculan usando
medias y dsv. Estandar y por lo
tanto NO son resistentes a los
outliers.
Mover un solo punto fuera de la
tendencia general disminuye la
correlacion de −0.91 a −0.75.
Puntos de influencia
Añadir 2 outliers disminuye r de 0.95 a 0.61.
Prueben en el website
http://www.whfreeman.com/bps3e
Preguntas en correlacion
1. Porque no hay diferencia entre las variables explicativas y de rspuesta en una correlacion?
2. Porque ambas variables deben ser cuantitativas?
3. Como el cambiar las unidades de una variable afecta la correlacion?
4. Cual es el efecto de los outliers en las correlaciones?
5. Porque un ajuste excelente a una linea horizontal NO implica una correlacion fuerte?