tema1bayes

10
Tema 1: Introducci´on a la Estad´ ıstica Bayesiana Introducci´ on En general, se usan probabilidades de modo informal para expresar la informaci´ on o la incertidumbre que se tiene acerca de observaciones de cantidades desconocidas. Sin embargo, el uso de probabilida- des para expresar la informaci´on se puede hacer de modo formal. Desde el punto de vista matem´atico se puede demostrar que con el C´alculo de Probabilidades se puede representar de modo num´ erico el conjunto de racional de creencias, de modo que existe una relaci´ on entre probabilidad y e informaci´on y la regla de Bayes proporciona un modo natural de actualizaci´ on de las creencias cuando aparece nueva informaci´ on. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la base de la Inferencia Bayesiana. De manera general, los m´ etodos bayesianos son m´ etodos de an´alisis de datos que se derivan de los principios de la inferencia bayesiana. Estos m´ etodos, proporcionan – Estimadores de los par´ametros que tienen buenas propiedades estad´ ısticas; – Una descripci´ on parsimoniosa (simple) de los datos observados; – Estimaci´on de los datos missing y predicciones de futuras observaciones; – Una metodolog´ ıa computacional potente para la estimaci´on, selecci´ on y validaci´ on de modelos. La metodolog´ ıa bayesiana consta de tres pasos fundamentales: 1. Especificar un modelo de probabilidad que incluya alg´ un tipo de conocimiento previo (a priori ) sobre los par´ ametros del modelo dado. 2. Actualizar el conocimiento sobre los par´ ametros desconocidos condicionando este modelo de probabilidad a los datos observados. 3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a cambios en los supuestos del modelo. 1

description

tema1bayes

Transcript of tema1bayes

  • Tema 1: Introduccion a la EstadsticaBayesiana

    Introduccion

    En general, se usan probabilidades de modo informal para expresar la informacion o la incertidumbre

    que se tiene acerca de observaciones de cantidades desconocidas. Sin embargo, el uso de probabilida-

    des para expresar la informacion se puede hacer de modo formal. Desde el punto de vista matematico

    se puede demostrar que con el Calculo de Probabilidades se puede representar de modo numerico el

    conjunto de racional de creencias, de modo que existe una relacion entre probabilidad y e informacion

    y la regla de Bayes proporciona un modo natural de actualizacion de las creencias cuando aparece

    nueva informacion. Este proceso de aprendizaje inductivo por medio de la regla de Bayes es la base

    de la Inferencia Bayesiana.

    De manera general, los metodos bayesianos son metodos de analisis de datos que se derivan de

    los principios de la inferencia bayesiana. Estos metodos, proporcionan

    Estimadores de los parametros que tienen buenas propiedades estadsticas;

    Una descripcion parsimoniosa (simple) de los datos observados;

    Estimacion de los datos missing y predicciones de futuras observaciones;

    Una metodologa computacional potente para la estimacion, seleccion y validacion de modelos.

    La metodologa bayesiana consta de tres pasos fundamentales:

    1. Especificar un modelo de probabilidad que incluya algun tipo de conocimiento previo (a priori)

    sobre los parametros del modelo dado.

    2. Actualizar el conocimiento sobre los parametros desconocidos condicionando este modelo de

    probabilidad a los datos observados.

    3. Evaluar el ajuste del modelo a los datos y la sensibilidad de las conclusiones a cambios en los

    supuestos del modelo.

    1

  • La diferencia fundamental entre la estadstica clasica (frecuentista) y la bayesiana es el concepto de

    probabilidad. Para la estadstica clasica es un concepto objetivo, que se encuentra en la naturaleza,

    mientras que para la estadstica bayesiana se encuentra en el observador, siendo as un concepto

    subjetivo. De este modo, en estadstica clasica solo se toma como fuente de informacion las muestras

    obtenidas suponiendo, para los desarrollos matematicos, que se pueden tomar tamanos lmite de

    las mismas. En el caso bayesiano, sin embargo, ademas de la muestra tambien juega un papel

    fundamental la informacion previa o externa que se posee en relacion a los fenomenos que se tratan

    de modelizar.

    Definiciones y Teoremas Basicos

    El concepto basico en estadstica bayesiana es el de probabilidad condicional :

    Para dos sucesos A y B,

    P (A|B) = P (A B)P (B)

    P (A B)

    Se puede aplicar esta definicion tambien a variables discretas o continuas.

    Desde el punto de vista bayesiano, todas las probabilidades son condicionales porque casi siempre

    existe algun conocimiento previo o experiencia acerca de los sucesos.

    Ley de la Probabilidad Total:

    Para un suceso A y una particion B1, . . . , Bk,

    P (A) =ki=1

    P (A|Bi)P (Bi)

    Se puede aplicar el teorema a variables discretas:

    f(x) =y

    f(x|Y = y)P (Y = y)

    o a variables continuas:

    f(x) =

    f(x|y)f(y) dy.

    Ejemplo:

    En una fabrica de galletas se embalan en 4 cadenas de montaje; A1, A2, A3 y A4. El 35% de la

    produccion total se embala en la cadena A1 y el 20%, 24% y 21% en A2, A3 y A4 respectivamente.

    Los datos indican que no se embalan correctamente un porcentaje pequeno de las cajas; el 1% de

    A1, el 3% de A2, el 2.5% de A3 y el 2% de A4. Cual es la probabilidad de que una caja elegida al

    azar de la produccion total sea defectuosa?

    Defino como D = defectuosa.

    2

  • Luego,

    P (D) =4i=1

    P (D|Ai)P (Ai) =

    = 0.01 0.35 + 0.03 0.20 + 0.025 0.24 ++0.02 0.21 =

    = 0.0197

    Ejemplo:

    Supongamos que X|Y Pois(Y ), una distribucion Poisson, para x = 0, 1, 2, para y > 0, dondeY Exp(), una distribucion exponencial

    P (x|y) = yx

    x!ey

    f(y) = exp(y)

    Entonces, la distribucion marginal de X es

    P (x) =

    P (x|y)f(y) dy

    =

    0

    yx

    x!ey exp [y] dy

    =

    x!

    0

    yx exp [( + 1)y] dy

    =

    x!

    0

    y(x+1)1 exp [( + 1)y] dy

    Para resolver la integral, se observa que el integrando esta relacionado con una distribucion gamma

    Ga(x+ 1, + 1) :

    NOTA:

    Si X Ga(a, b) su funcion de densidad es

    f(x; a, b) =ba

    (a)xa1 exp[bx],

    de este modo 0

    ba

    (a)xa1 exp[bx]dx = 1 =

    0

    xa1 exp[bx]dx = (a)ba

    3

  • Luego

    P (x) =

    x!

    (x+ 1)

    ( + 1)(x+1)

    =

    x!

    x!

    ( + 1)(x+1)

    =

    ( + 1)(x+1)

    Si se denota como p = /(1 + ), entonces 0 < p < 1 y despejando = p1p ,

    P (x) = p

    (1 +

    p

    1 p)x

    = p

    (1

    1 p)x

    =

    = p(1 p)x,

    para x = 0, 1, 2, . . .

    Se observa que es una distribucion geometrica con parametro p.

    Ejemplo:

    Si X| Exp() y Ga(, ), la distribucion marginal es

    f(x) =

    0

    ex

    ()1e d

    =

    ()

    0

    e(+x) d

    =

    ()

    0

    (+1)1e(+x) d

    y el integrando esta relacionado con otra distribucion gamma, Ga( + 1, + x): 0

    (+1)1e(+x) d =( + 1)

    ( + x)+1.

    Entonces,

    f(x) =

    ()

    ( + 1)

    ( + x)+1=

    ()

    ()

    ( + x)+1

    =

    ( + x)+1,

    donde se ha utilizado la propiedad basica de la funcion gamma,

    ( + 1) = ().

    No es una distribucion estandar, pero si se define la v.a. Z = X + , se puede ver que Z tiene

    una distribucion de Pareto.

    NOTA:

    Ver, por ejemplo,

    4

  • http://en.wikipedia.org/wiki/Pareto_distribution

    Para ello aplicamos el teorema del cambio de variable:

    Sea X una v.a. con funcion de densidad px y sea g una funcion diferenciable, monotona e

    invertible. Definimos otra v.a como Y = g(X), entonces la funcion de densidad de Y es

    pY (y) = pX(g1(y)

    ) dg1(y)dy

    O equivalentemente

    pY (y) = pX(x) dxdy

    donde x = g1(y).

    Ver demostracion, e.g,. en

    http://www.stat.duke.edu/~michael/screen.pdf

    En el caso del ejemplo,

    fZ(z) = fX(z ) 1= z1,

    para Z > . Luego Z PA(, ).La distribucion de Pareto se aplico inicialmente a la modelizacion del reparto de riqueza. Es la

    llamada ley 80-20 que afirma que el 20% de la poblacion posee el 80% de la riqueza.

    El teorema de Bayes

    Se tiene que, para los sucesos A1, . . . , An y B,

    P (Ai|B) = P (B|Ai)P (Ai)P (B)

    =P (B|Ai)P (Ai)ni=1

    P (B|Ai)P (Ai) P (B|Ai)P (Ai)

    Ejemplo:

    Volviendo al ejemplo de las galletas, supongamos que descubrimos que una caja es defectuosa.

    Queremos calcular la probabilidad de que la caja proceda de A1.

    P (A1|D) = P (D|A1)P (A1)P (D)

    =0.01 0.35

    0.0197 0.18

    Ejemplo:

    5

  • Supongamos un juego televisivo en el que tienes que elegir entre tres puertas cerradas, A, B o C.

    Detras de dos de las puertas hay una peineta y en la otra hay un coche, con igual probabilidad en

    los tres casos. Por tanto, la probabilidad de ganar el coche en cada una de las puertas es

    p(A) = 13, p(B) = 1

    3, p(C) = 1

    3.

    Despues de que hayas elegido una puerta, digamos A, antes de mostrarte lo que hay detras de la

    puerta, el presentador (Risto Mejide) abre otra puerta, digamos B, que tiene una peineta. En este

    punto te ofrece la opcion de cambiar de la puerta A a la puerta C. Que deberas hacer?

    Intuitivamente parece que tu has elegido la puerta adecuada, pero que Risto Mejide te quiere

    liar... as, desde un punto de vista inocente la probabilidad de encontrar el coche entre las dos

    puertas que quedan es 12. Pero esto es falso...

    Asumimos que Risto Mejide va en tu contra (cobra de la productora de television) y calculamos

    cual es la probabilidad de que el coche aparezca cuando el abre la puerta B, una vez que tu hayas

    abierto la puerta A:

    (i) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la

    puerta A es

    p (BRM |A) = 12

    ya que le es indiferente abrir la puerta B o C.

    (ii) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la

    puerta B es

    p (BRM |B) = 0

    porque supones que no es estupido.

    (iii) La probabilidad de que Risto Mejide abra la puerta B dado que el coche esta detras de la

    puerta C es

    p (BRM |C) = 1

    Aplicando la definicion de probabilidad condicionada se obtienen las siguientes distribuciones

    conjuntas:

    p (BRM , A) = p (BRM |A) p (A) = 12 1

    3=

    1

    6

    p (BRM , B) = p (BRM |B) p (B) = 0 13

    = 0

    p (BRM , C) = p (BRM |C) p (C) = 1 13

    =1

    3

    6

  • Por otro lado, dado que los sucesos son mutuamente excluyentes, por la ley de probabilidad total

    p(BRM) = p (BRM , A) + p (BRM , B) + p (BRM , C) =1

    6+ 0 +

    1

    3=

    1

    2

    Finalmente, aplicando el teorema de Bayes, se tiene que

    p (A|BRM) = p (BRM |A) p (A)p(BRM)

    =12 13

    12

    =1

    3

    p (C|BRM) = p (BRM |C) p (C)p(BRM)

    =1 1

    312

    =2

    3

    Luego es mucho mejor que elijas la puerta C .

    Se puede aplicar el teorema de Bayes a variables discretas y continuas. En el caso de que la v.a.

    X sea continua se tiene

    f(x|y) = f(y|x)f(x)f(y)

    =f(y|x)f(x)

    R f(y|x)f(x)dx,

    como el denominador f(y) es independiente de x, entonces se puede escribir el teorema en la forma

    de proporcionalidad ():f(x|y) f(y|x)f(x).

    Este resultado es util para los calculos porque implica que se pueden olvidar las constantes multi-

    plicativas hasta el final de los calculos en modelos complicados.

    Ejemplo:

    Retomando el ejemplo de la Poisson, se tena que Y Exp() y X|Y Pois(Y ). Calculamos ladistribucion de Y |x, sabiendo que la distribucion marginal de X era una geometrica:

    f(y|x) = P (x|y)f(y)P (x)

    =yxeyx!

    ey

    (+1)x+1

    =( + 1)x+1

    x!yxe(+1)y

    =( + 1)x+1

    (x+ 1)y(x+1)1e(+1)y

    que es la densidad de una variable gamma: Ga(x+ 1, + 1).

    Ejemplo:

    Volviendo al ejemplo de la distribucion de Pareto, dondeX| Exp() y Ga(, ), calculamosla distribucion de dada una observacion x.

    7

  • f(|x) f(x|)f()

    ex

    ()1e

    (+1)1e(+x)

    que esta relacionado con una distribucion gamma, es decir, |x Ga( + 1, + x).

    La media y varianza condicional.

    Dadas dos variables X e Y , definimos la media y varianza de X cuando Y = y como

    E [X|Y = y] =xf(x|y) dx

    V ar [X|Y = y] =

    (x E[X|Y = y])2f(x|y) dx

    El siguiente teorema nos proporciona la relacion entre la esperanza y varianza marginal y la

    esperanza y varianza condicional.

    Teorema Dadas dos variables X e Y , se tiene que

    (i) Ex[X] = Ey[Ex[X|Y ]]

    (ii) V arx[X] = Ey[V arx[X|Y ]] + V ary[Ex[X|Y ]]

    Demostracion:

    (i) Se tena que, en general,

    E(g(x)) =

    g(x)f(x) dx

    por ello, como E[X|Y ] es una funcion de Y,

    Ey[Ex[X|Y ]] =Ex(X|y)f(y) dy

    =

    (xf(x|y)dx

    )f(y) dy

    =

    x

    (f(x|y)f(y)dy

    )dx

    =

    x

    (f(x, y)dy

    )dx

    =

    xf(x) dx = Ex[X]

    8

  • (ii) La demostracion, que es mas larga, se puede ver, por ejemplo, en el libro de Lee (2012).

    Ejemplo:

    Volviendo al ejemplo de la Poisson, se tena que Y Exp() y X|Y Pois(Y ).Supongamosque queremos calcular la media y varianza de X (y que no sabemos nada acerca de la distribucion

    marginal de X que sabamos de antes que sigue una distribucion geometrica).

    Ex[X] = Ey[Ex[X|Y ]]

    = Ey[Y ] porque X|Y Pois(Y )

    =1

    la media de la exponencial

    V arx[X] = Ey[V arx[X|Y ]] + V ary[Ex[X|Y ]]

    = Ey[Y ] + V ary[Y ] porque media = varianza = Y

    =1

    +

    1

    2

    = + 1

    2

    Sustituyendo p = 1+

    y despejando = p1p , se obtiene que

    E[X] =1 pp

    =q

    p

    V ar[X] =1 pp

    +

    (1 pp

    )2

    =1 pp2

    =q

    p2,

    que son los momentos que se obtienen directamente para la distribucion geometrica en la notacion

    habitual.

    Ejemplo:

    Retomando el ejemplo de la distribucion de Pareto, donde X| Exp() y Ga(, ), se tiene

    9

  • que

    E[X] = E[Ex[X|]] = E[1/]=

    0

    1

    ()1e d

    =

    ()

    0

    (1)1e d

    El integrando es el nucleo de una distribucion gamma; Ga( 1, ). Entonces,

    E[X] =

    ()

    ( 1)1

    =

    1 ,

    es decir, la esperanza solo existe si > 1.

    Hemos visto anteriormente que Z = X+ PA(, ). De este modo, podemos calcular la mediade X utilizando tambien la formula para la media de una distribucion Pareto:

    E[X] = E[Z]

    =

    1 [para > 1]

    =

    1 .

    10