Descriptores numericos de una distribucion

Objetivos

Describiendo distribuciones con numeros

Medidas de tendencia central: media y la mediana

Medidas de dispersion: percentiles y desviacion estandar

La media o el promedio aritmetico

Para calcular la media, se añaden todos

los valores y luego se divide entre el

numero de individuos. “Es el centro de

la masa.”

Suma de las alturas 1598.3

Dividido entre 25 mujeres = 63.9 cm

58.2 64.059.5 64.560.7 64.160.9 64.861.9 65.261.9 65.762.2 66.262.2 66.762.4 67.162.9 67.863.9 68.963.1 69.663.9

Medida de tendencia central: la media

n

nx....xxx

21

x 1598.3

2563.9

Nocion matematica:

x 1

n ixi1

n

(i) (x) (i) (x)

i = 1 x1= 58.2 i = 14 x14= 64.0

i = 2 x2= 59.5 i = 15 x15= 64.5

i = 3 x3= 60.7 i = 16 x16= 64.1

i = 4 x4= 60.9 i = 17 x17= 64.8

i = 5 x5= 61.9 i = 18 x18= 65.2

i = 6 x6= 61.9 i = 19 x19= 65.7

i = 7 x7= 62.2 i = 20 x20= 66.2

i = 8 x8= 62.2 i = 21 x21= 66.7

i = 9 x9= 62.4 i = 22 x22= 67.1

i = 10 x10= 62.9 i = 23 x23= 67.8

i = 11 x11= 63.9 i = 24 x24= 68.9

i = 12 x12= 63.1 i = 25 x25= 69.6

i = 13 x13= 63.9 n =25 =1598.3

Aprendamos inmediatamante como usar las calculadoras.

mujer altura alturamujer

Los resumenes numericos deben tener sentido

Aca la forma de la distribucion es muy irregular porque?

Podremos tener mas de una especie o fenotipo?

6.69x

La distribucion de las alturas parece ser coherente y simetrica. La media en un buen resumen numerico.

3.69x

altura de 25 mujeres en una clase

Height of plants by color

0

1

2

3

4

5

Height in centimeters

Num

ber

of p

lants

red

pink

blue

58 60 62 64 66 68 70 72 74 76 78 80 82 84

Un resumen numerico unico no tendria sentido

9.63x 5.70x 3.78x

Medidas de tendencia central: la medianaLa mediana es el punto central de una distribucion- un numero tal que la mitad de

las observaciones son mas pequeñas y la otra mitad son mas grandes

1. Ordenar las observaciones desde la mas pequeña hasta la mas grande.

n = numero de observaciones______________________________

1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.6

n = 24 n/2 = 12

Mediana = (3.3+3.4) /2 = 3.35

3. Si n es par, la mediana es el promedio de las 2 observaciones centrales

1 1 0.62 2 1.23 3 1.64 4 1.95 5 1.56 6 2.17 7 2.38 8 2.39 9 2.510 10 2.811 11 2.912 12 3.313 3.414 1 3.615 2 3.716 3 3.817 4 3.918 5 4.119 6 4.220 7 4.521 8 4.722 9 4.923 10 5.324 11 5.625 12 6.1

n = 25 (n+1)/2 = 26/2 = 13 Mediana = 3.4

2. Si n es impar, la mediana es la observacion (n+1)/2 en la lista

Media y mediana en una distribución asimétrica

Media y mediana en una distribución simétrica

Sesgo Izq Sesgo Der

MediaMediana

MediaMediana

MediaMediana

Comparemos la Mediana y la Media

La mediana y la media son la misma sólo si la distribucion es simétrica.

La mediana es una medida de tendencia central que es resistente a

sesgo y a los outliers. La Media no lo es.

La mediana, es solo modificada

ligeramente por los outliers (de

3.4 a 3.6).

La media es desviada

considerablemente hacia la

derecha por los outliers

(de 3.4 a 4.2).

P

erc

en

t o

f p

eo

ple

dyi

ng

Media y Mediana de una distribucion con outliers

4.3x

Sin outliers

2.4x

Con outliers

Enfermedad X:

La Media y la Mediana son iguales

Media y mediana de una distribucion simetrica

4.3

4.3

M

x

Mieloma Multiple :

5.2

4.3

M

x

En una distribucion sesgada

La Media esta desviada hacia el sesgo

Impacto de datos sesgados

La desviacion estandar se usa para describir la variacion alrededor de la media

2

1

2 )(1

1xx

ns

n

i

1) Primero se calcula la variancia s2.

2

1

)(1

1xx

ns

n

i

2) Luego se calcula la raiz cuadrada

para obtener la desviacion

estandar s.

Medidas de dispersion: desviación estandar

Media± 1 s.d.

x

Cálculos …

Uno NUNCA calcula esto a mano, Favor practicar con su calculadora.

2

1

1( )

1

n

is x xn

Media = 63.4

Suma de las desviaciones al cuadrado from

mean = 85.2

Degrees freedom (df) = (n − 1) = 13

s2 = variance = 85.2/13 = 6.55 inches squared

s = standard deviation = √6.55 = 2.56 inches

Altura de mujeres (pulgadas)

La distribucion Normal

Objetives

Las distribuciones normales

Curvas de densidad

Distribucion Normal

La regla 68-95-99.7

La distribucion Normal estandar

Usando la tabla Normal estandar

Encontrar un valor dada una proporcion

Curvas de densidadUna curva de densidad es un modelo matematico de distribucion.

Siempre esta sobre el eje horizontal.

El area total bajo la curva es, por definicion igual a 1 ó 100%.

El area bajo la curva para un rango de variables esta en proporcion de todas las observaciones para ese rango

Histograma de una muestra con su curva de densidad teorica que describe a la

poblacion

Las curvas de densidad vienen

en cualquier forma.

Algunas son conocidas

matematicamante otras no.

Distribucion Normal

e = 2.71828… la base del logaritmo natural

π = pi = 3.14159…

Las distribuciones Normales—o de Gauss— son una familia de curvas

de densidad con forma de campana, simetricas y definidas por una

media (mu) y una desviacion estandar (sigma): N ().

2

2

1

2

1)(

x

exf

xx

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30

Una familia de curvas de densidad

Las medias son diferentes

( = 10, 15, y 20) Mientras que las

desviaciones estandar son las

mismas ( = 3).

Las medias son la misma ( = 15)

Mientras las desviaciones estandar

son diferentes ( = 2, 4, y 6).

media µ = 64.5 desviacion estandar = 2.5

N(µ, ) = N(64.5, 2.5)

Todas las curvas Normales N ) comparten las mismas propiedades

Recordatorio: µ (mu) es la media de la curva ideal mientras que es el promedio de una muestra

σ (sigma) es la desviacion estandar de la curva ideal, mientras que s es la d.e. de una muestra.

Cerca de 68% de todas las

observaciones estan dentro de 1

desviacion estandar (de la

media ().

Cerca de 95% de todas las

observaciones estan dentro de 2

de la media .

Casi todas (99.7%) las

observaciones estan dentro de las

3 de la media.

Punto de inflexion

x

Debido a que todas las distribuciones estandar comparten las mismas

propiedades podemos estandarizar nuestros datos para transformar

cualquier curva normal N () en la curva normal estandar N (0,1).

La distribucion normal estandar

Para cada x calculamos un nuevo valor, z (llamado el valor z).

N(0,1)

=>

z

x

N(64.5, 2.5)

Standardized height (no units)

z (x )

Un valor-z mide el numero de desviaciones estandar a la que un dato x

se encuentra de la media .

Estandarizando: calculando los valores z

Cuando x es mayor que la media, z es positivo.

Cuando x es menor que la media, z es negativo

1 ,

zxpara

Cuando x es 1 desviacion estandar mas

grande que la media entonces z = 1.

222

,2

zxpara

Cuando x es 1 desviacion estandar mas

grande que la media entonces z = 2.

Media µ = 64.5"

Desviacion estandar = 2.5" x (altura) = 67"

Calculamos z,el valor estandarizado de x:

media la deestandar desv. 1 15.2

5.2

5.2

)5.6467( ,

)(

z

xz

Gracias a la regla 68-95-99.7 , podemos concluir que el porcentaje de

mujeres mas pequeñas de 67” debe ser aproximadamante: .68 + mitad de

(1 − .68) = .84, or 84%.

Area= ???

Area = ???

N(µ, ) = N(64.5, 2.5)

= 64.5″ x = 67″

z = 0 z = 1

Ejemplo: altura en mujeres

La altura en mujeres sigue la distribucion

N(64.5″,2.5″). Cual es el porcentaje de

mujeres mas pequeñas de 67 pulgadas?

Usando la Tabla

(…)

La tabla de z muestra el area bajo la curva Normal estandar hacia la izquierda de

cualquier valor de z.

.0082 es el area

bajo N(0,1) a la izq de z = -2.40

.0080 es el area bajo

N(0,1) Izq de z = -2.41

0.0069 es el area bajo

N(0,1) Izq de z = -2.46

Area ≈ 0.84

Area ≈ 0.16

N(µ, ) =

N(64.5”, 2.5”)

= 64.5” x = 67” z = 1

Conclusion:

84.13% de la mujeres son mas pequeñas

que 67″.

restando 1 − 0.8413, o 15.87%, de mujeres

son mas grandes que 67".

Para z = 1.00, el area bajo

la curva Normal estandar a

la izquierda de z es 0.8413.

Porcentaje de mujeres mas pequeñas de 67”

Tips usando la Tabla Z

Gracias a que la distribucion

normal es simetrica, hay dos

maneras en las que se puede

calcular el area bajo la curva

normal a la derecha del valor Z.

Area a la derecha de z = 1 − area izquierda de z

Area = 0.9901

Area = 0.0099

z = -2.33

Area a la derecha de z =

area izquierda de -z

La asociacion de colegios atleticos (NCAA) requiere que los atletas tengan por lo

menos 820 en los examenes de SAT combinados verbal y matematicos para

completar su primer año. Los scores SAT del 2003 fueron aproximadamante

normales con una media 1026 y desviacion estandar 209.

Que proporcion de estudiantes calificaran para NCAA (SAT ≥ 820)?

16%. approx.or

0.1611 is .99- z

ofleft the toN(0,1)

under area :A Table

99.0209

206209

)1026820(

)(

209

1026

820

z

z

xz

x

Note: The actual data may contain students who scored exactly 820 on the SAT. However, the proportion of scores exactly equal to 820 being 0 for a normal distribution is a consequence of the idealized smoothing of density curves.

Area right of 820 = Total area − Area left of 820= 1 − 0.1611

≈ 84%

Tips usando la Tabla Z

Para calcular el area entre dos valores z, primero obtener el area bajo

N(0,1) a la izquierda del valor z de la Tabla.

area entre z1 y z2 =

area izq de z1 – area izq de z2

Un error comun es restar los

valores de z.

Luego restar el area

pequeña del area

grande.

El area bajo N(0,1) para un valor cualquiera es cero.

La NCAA define un “partial qualifier” como alguien elegible para practicar y recibir

una bolsa de estudiante atleta pero no para competir si tienen un SAT de por lo

menos 720. Cual es la proporcion de todos los estudiantes que toman el

SAT que serian partial qualifiers? O dicho de otra manera, cual es la

proporcion que tendra scores entre 720 y 820?

7%. aprox. o

0.0721 es .99- z

de izq la a N(0,1)

bajo area :A Table

46.1209

306209

)1026720(

)(

209

1026

720

z

z

xz

x

Alrededor de 9% de todos los estudiantes que toman el

SAT tendran scores entre720 y 820.

Area entre = Area izq de 820 − Area izq de 720 720 y 820 = 0.1611 − 0.0721

≈ 9%

N(0,1)

z (x )

Lo divertido de trabajar con datos normalemente distribuidos es que podemos manipularlos y encontrar respuestas a preguntas que involucran distribuciones aparentemente no comparables.

Lo hacemos estandarizando los datos. Lo que implica cambiar la escala de tal manera que la media es 0 y la desv. Estandar es igual a 1. si hacemos esto a distribuciones diferentes las hacemos comparables.

What are the effects of better maternal care on gestation time and premies?

The goal is to obtain pregnancies of 240 days (8 months) or longer.

Example: Gestation time in malnourished mothers

What improvement did we get

by adding better food?

0.3085. is 0.5- z ofleft the

toN(0,1)under area :A Table

deviation) standard a (half

5.020

1020

)250240(

)(

20

250

240

z

z

xz

x

Vitamins only

Under each treatment, what percent of mothers failed to carry their babies at

least 240 days?

Vitamins only: 30.85% of women

would be expected to have gestation

times shorter than 240 days.

= 250, = 20, x = 240

0.0418. is 1.73- z ofleft the

toN(0,1)under area :A Table

mean) from sd 2almost (

73.115

2615

)266240(

)(

15

266

240

z

z

xz

x

Vitamins and better food

Vitamins and better food: 4.18% of women

would be expected to have gestation times

shorter than 240 days.

= 266, = 15, x = 240

Compared to vitamin supplements alone, vitamins and better food resulted in a much

smaller percentage of women with pregnancy terms below 8 months (4% vs. 31%).

When you know the proportion, but you don’t know the x-value that

represents the cut-off, you need to use Table A backward.

Finding a value given a proportion

1. State the problem and draw a picture.

2. Use Table A backward, from the inside out to the margins, to find the corresponding z.

3. Unstandardize to transform z back to the original x scale by using the formula:

x z

mean µ = 64.5"

standard deviation = 2.5" proportion = area under curve=0.25

We use Table A backward to get the z.

On the left half of Table A (with proportions 0.5), we find that a proportion of 0.25 is between z = -0.67 and –0.68.

We’ll use z = –0.67.

Now convert back to x:

64.5 ( 0.67)(2.5) 62.825"x z

The 25th percentile for women’s heights is 62.825”, or 5’ 2.82”.

Example: Women’s heightsWomen’s heights follow the N(64.5″,2.5″)

distribution. What is the 25th percentile for

women’s heights?

Relaciones: correlacion

Variable explicativa (independiente) : numero de cervezas

Respuesta

(variable

dependiente) :

Contenido

de alcohol

en sangre

xy

Variables explicativas y de respuesta

Una variable de respuesta mide el resultado de un estudio. Una

variable explicativa explica cambios en la variable de respuesta.

Tipicamante, la variable explicativa o independiente se grafica en el

eje x y la variable de respuesta o dependiente en el eje y.

Algunos plots no tienen varibles claras.

Las calorias explican los

los contenidos de sodio?

Forma y direccion de una asociacion

Linear

No linear

No relacion

Asociacion Positiva : Valores altos de una variable tienden a ocurrir

junto con valores altos de la la otra variable.

Asociacion Negativa: Valores altos de una variable tienden a ocurrir junto con

valores bajos de la la otra variable.

One way to remember this: The equation for this line is y = 5.x is not involved.

Sin relacion: x e y varian independendientemente.Conocer x no dice nada acerca de y.

El coeficiente de correlacion es una medida de la direccion y la fuerza

de una relacion. Se calcula usando la media y la desviacion estandar

de las variables x e y .

El coeficiente de correlacion “r”

La correlacion solo puede ser usada para describir variables CUANTITATIVAS. Variables categoricas no tienen medias ni desv. estandar.

Tiempo de nado: x = 35, sx = 0.7

Pulso: y = 140 sy = 9.5

Parte del calculo involucra encontrar a z, el valor estandarizado que usamos cuando se trabaja con una distribucion normal.

Uds. No quieren hacer esto a mano. Asegurense de saber otener este valor con su calculadora!

Estandarizacion:Nos permite comparar correlaciones entre data sets donde las variables estan medidas en unidades diferentes o cuando las variables son diferentes.

Por ejemplo podemos comparar la correlacion entre tiempo de nado y pulso y tiempo de nado y ritmo respiratorio.

“r” no distingue entre variables explicativas y de respuesta

El coeficiente de correlacion , r, trat a x e y simetricamente.

r = -0.75 r = -0.75

Cambiar las unidades de la variable no cambia el coeficiente de correlacion “r,” porque eliminamos todas las unidades al estandarizar z-scores).

“r” no tiene unidadesr = -0.75

r = -0.75

z-score plot is the same for both plots

“r” va de −1 a +1

“r” cuantifica la fuerza y la direccion de una relacion linear entre dos variables cuantitativas.

Fuerza: Que tan bien los puntos siguen una linea recta.

Direccion es positiva cuando individuos con valores de x mas altos tienden a tener valores de y mas altos.

Cuando la variabilidad

en una o ambas

variables decrece, el

coeficiente de

correlacion se hace mas

fuerte

(cerca a +1 o −1).

Solo para relaciones lineares.

Nota: a veces se puede transformar datos no lineares a formas lineares, por ejemplo tomando el logarithmo. Luego se puede calcular la correlacion usando los datos transformados.

Cuidado usando la correlacion

Correlaciones se calculan usando

medias y dsv. Estandar y por lo

tanto NO son resistentes a los

outliers.

Mover un solo punto fuera de la

tendencia general disminuye la

correlacion de −0.91 a −0.75.

Puntos de influencia

Añadir 2 outliers disminuye r de 0.95 a 0.61.

Prueben en el website

http://www.whfreeman.com/bps3e

Preguntas en correlacion

1. Porque no hay diferencia entre las variables explicativas y de rspuesta en una correlacion?

2. Porque ambas variables deben ser cuantitativas?

3. Como el cambiar las unidades de una variable afecta la correlacion?

4. Cual es el efecto de los outliers en las correlaciones?

5. Porque un ajuste excelente a una linea horizontal NO implica una correlacion fuerte?

Descriptores numericos de una distribucion

Documents

Transcript of Descriptores numericos de una distribucion