Aprendizagem Estatística de Dadosfatc/AM/TeoriaDecisaoBayesiana2.pdf · • Funções...

Aprendizagem Estatística de Dados

Francisco Carvalho

Valor Esperado• Caso contínuo

• Caso discreto

Teoria da Decisão BayesianaA função de Densidade Normal

dx)x(p)x(f)]x(f[

Dx

)x(p)x(f)]x(f[

Caso Univariado• função de densidade

• Média


2x21exp

21)x(p

dx)x(px]x[

Caso Univariado• Variância

• A fdp normal uni-variada é completamente especificada pelos parâmetros: a média e a variância :


dx)x(p)x(])x[( 22

),(N~)x(p 2

Caso Univariado


Caso Multivariado• função de densidade normal multi-variada

em d dimensões


)()(

21exp

)2(

1)(p 1t

21

2d

xxx

Caso Multivariado• onde

x é um vetor coluna com d componentes é o vetor de médias de d componentes é a matriz de covariâncias dd || é o determinante de -1 é a inversa de (x - )t é a transposta de (x - )


Caso Multivariado• produto interno

• Novamente

• Média


d

1iii

t baba

),(N~)(p 2x

xxxx d)(p][

Caso Multivariado• Variância

• O valor esperado de um vetor ou de uma matriz é calculado a partir do valor esperado dos seus componentes


xxxxxx d)(p))((]))([( tt

Caso Multivariado• Se xi é o i-ésimo componente de x, i o i-

ésimo componente de e ij o ij-ésimo componente de

• Os elementos da diagonal ii = i2 são as

respectivas variâncias de xi• Os outros elementos ij são as covariâncias

entre xi e xj


][ ii x )])([( jjiiij xx

Caso Multivariado• Se xi e xj são estatisticamente

independentes, ij = 0 • Se todos os elementos fora da diagonal são

nulos, p(x) se reduz ao produto de densidades normais uni-variadas dos componentes de x

• Se p(x)~N(,), A é uma matriz dk e y=Atx é um vetor de k componentes, então p(y)~N(At, AtA)


Caso Multivariado


Caso Multivariado• Se k=1 (A é um vetor a), y = atx é um escalar

que representa a projeção de x em uma linha na direção de a

• Nesse caso ata é a variância da projeção de x em a

• Distancia de Mahalanobis entre x e


)()(r 1t2 xx

Caso Multivariado• Os pontos de densidade constante são

aqueles para os quais

• é constante


)()( 1t xx

Caso Multivariado


Classificação com taxa de erro mínima• Função discriminante

• Se

Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal

)(ln)|(ln)( iii Ppg xx

),(N~)|(p iii x

)(Plnln212ln

2d

)()(21)(g

ii

i1

it

ii

xxx

Caso 1: i = 2 I• Os atributos são estatisticamente

independentes e cada atributo tem a mesma variância 2

• Nesse caso, i = 2 I, |i| = 2d e i

-1 = (1/2) I


Caso 1: i = 2 I• |i| e (d/2) ln 2 são independentes de i

(constantes aditivas que podem ser ignoradas)

• Assim


)(Pln2

)(g i2

2i

i

xx

Caso 1: i = 2 I• Norma Euclidiana

• Se as probabilidades a priori são diferentes e se x está igualmente próximo de dois diferentes vetores média a decisão ótima favorecerá a classe de

maior probabilidade a priori


)()( it

i2

i xxx

Caso 1: i = 2 I• Expandindo-se a forma quadrática

• Assim

• O termo quadrático xtx é o mesmo para todo i e pode ser ignorado


iti

ti

ti

ti 2)()( xxxxx

)(Pln221)(g ii

ti

ti

t2i

xxxx

Caso 1: i = 2 I• Funções Discriminantes Lineares

• onde

• wi0 é o limiar ou o viés da i-ésima classe


)(Pln221)(g ii

ti

ti

t2i

xxxx

0itii w)(g xwx

i2i1

w )(Pln21w ii

ti20i

Caso 1: i = 2 I• Máquina linear: classificador que usa

funções discriminantes lineares• Superfícies de decisão para uma máquina

linear: pedaços de hiperplanos definidos pelas

equações lineares gi(x) = gj(x) para as duas classes de maior probabilidade a priori


Caso 1: i = 2 I• Nesse caso

• onde


0)( 0t xxw

ji w

)()(P)(Pln)(

21

jij

i

ji

2

ji0

x

Caso 1: i = 2 I• Essas equações definem um hiperplano

através do ponto x0 que é ortogonal ao vetor w.

• w = i - j implica que o hiperplano que separa i e j é ortogonal a linha que liga as médias


Caso 1: i = 2 I• Se P(i) = P(j),

• Se P(i) P(j), o ponto x0 se afasta da média mais verossímil


)(21

ji0 x

Caso 1: i = 2 I• Se as probabilidades a priori P(i) são as

mesmas para as c classe, então o termo ln P(i) pode ser ignorado

• Classificador baseado na distancia mínima: Para classificar x calcule ||x - i|| para

cada vetor de médias e afete x a classe cital que ||x - i|| é mínimo


Caso 1: i = 2 I


Caso 2: i = • As matrizes de covariâncias de todas as

classes são idênticas• Geometricamente:

as observações se encontram em hiper-elipsóides de mesmo tamanho e forma

• |i| e (d/2) ln 2 são independentes de i e podem ser ignorados


Caso 2: i = • Função discriminante:

• Se as probabilidades a priori são todas idênticas, o termo lnP(i) pode ser ignorado


)(ln)()(21)( 1

iit

ii Pg xxx

Caso 2: i = • Classificador baseado na distancia mínima:

Para classificar x calcule (x - i)t -1 (x - i) para cada vetor de médias e afete x a classe ci tal que (x - i)t -1 (x - i) é mínimo

• Se as probabilidades a priori são desiguais a decisão será viesada em favor da classe mais provável


Caso 2: i = • A expansão da forma quadrática

(x - j) -1 (x - j) resulta no termo xt-1x que é independente de i e pode ser eliminado

• As funções discriminantes são novamente lineares:


0itii w)(g xwx

Caso 2: i = • onde

• Como os discriminantes são lineares, as fronteiras de decisões são hiperplanos

• Se i e j são contíguos, a equação da fronteira entre elas é


i1

i w )(Pln21w ii

1ti0i

0)( 0t xxw

Caso 2: i = • onde

• Como w = -1 (i - j) geralmente não está na direção de (i - j) o hiper-plano que separa i e j geralmente não é ortogonal a linha que liga as médias


)( ji1 w

)()(P)(Pln

)()(1

)(21

jij

i

ji1t

ji

ji0

x

Caso 2: i = • No entanto, o hiper-plano intercepta esta

linha em x0; se as probabilidades a priori são iguais x0 está no meio dessa linha

• Senão, o hiper-plano se desloca na direção oposta da média cuja classe tem maior probabilidade a priori


Caso 3: i arbitrário• Nesse caso, somente o termo

(d/2) ln 2 pode ser ignorado

• As funções discriminantes são quadráticas


0itii

ti w)(g xwxWxx

Caso 3: i arbitrário• onde


1ii 2

1 W i1

ii w

)(Plnln21

21w iii

1i

ti0i

Caso 3: i arbitrário• No caso de duas classes as superfícies de

decisão são hiper-quádricas: hiperplanos, hiper-esferas,

hiper-elipsóides, hiper-parabolóides, hiper-hiperbolóides


Caso 3: i arbitrário• No caso unidimensional, as regiões de

decisão podem ser não conectadas:


Exemplo 1


Fórmula de Bayes• Nesse caso, as componentes de x

são binárias (0,1), ternárias (0,1,2) ou m-árias (0,1,…,m-1)

• onde

Teoria da Decisão BayesianaAtributos Discretos

)(P)(P)|(P

)|(P jjj x

xx

c

1jjj )(P)|(P)(P xx

Risco Condicional• A definição de risco condicional R(|x) não

muda• A regra de decisão de Bayes permanece a

mesma: para minimizar o risco global selecione a

ação i para a qual R(i|x) é mínimo


)|(Rminarg ii

* x

Risco Condicional• A regra básica para minimizar a taxa de

erro pela maximização da probabilidade a posteriori também não muda

• Ns equações das funções discriminantes é necessário apenas trocar as densidades p(•) pelas probabilidades P(•)


Atributos Binários Independentes• Seja x = (x1, …,xd)t onde as componentes xi

são 0 ou 1, com probabilidades


]|1xPr[qe

]|1xPr[p

2ii

1ii

Atributos Binários Independentes• Supondo-se independência condicional

pode-se escrever P(x|i) como os produtos das probabilidades das componentes de x:


d

1i

x1i

xi1

d

1ii1

ii )p1(p)|x(P)|(P x

d

1i

x1i

xi2

d

1ii2

ii )q1(q)|x(P)|(P x

Atributos Binários Independentes• A razão de verossimilhança é


d

1i

x1

i

ix

i

i

d

1i

x1i

xi

d

1i

x1i

xi

2

1

ii

ii

ii

q1p1

qp

)q1(q

)p1(p

)|(P)|(P

xx

Atributos Binários Independentes• Função discriminante

• Função discriminante


)(Pln)|(Pln)(gonde),(g)(g)(g

iii

21

xxxxx

)(P)(Pln

q1p1ln)x1(

qplnx)(g

2

1d

1i i

ii

i

ii

x

Atributos Binários Independentes• A função discriminante é linear em xi:


d,,1i)p1(q)q1(plnw

)(P)(Pln

q1p1lnw

ondewxw)(g

ii

iii

2

1d

1i i

i0

0

d

1iii

x

Atributos Binários Independentes• Decide-se 1 se g(x) > 0 e 2 se g(x) 0

• Se pi = qi, wi = 0, como esperado, pois nesse caso xi não informa sobre as classes

• Se pi > qi, então 1 - pi < 1 - qi e wi é positivo. Assim xi =1 contribui com wi votos para 1


Atributos Binários Independentes• Além disso, fixado qi < 1, wi é tanto maior

quanto pi é grande

• Se pi < qi, wi é negativo e xi =1 contribui com |wi| votos para 2

• Aumentando P(1) aumenta-se w0 e a decisão é enviesada em favor de 1, enquanto decrescer P(1) tem o efeito oposto


Exemplo 3


Aprendizagem Estatística de Dadosfatc/AM/TeoriaDecisaoBayesiana2.pdf · • Funções...

Documents

Transcript of Aprendizagem Estatística de Dadosfatc/AM/TeoriaDecisaoBayesiana2.pdf · • Funções...