Aprendizagem Estatística de Dadosfatc/AM/TeoriaDecisaoBayesiana2.pdf · • Funções...
Transcript of Aprendizagem Estatística de Dadosfatc/AM/TeoriaDecisaoBayesiana2.pdf · • Funções...
Aprendizagem Estatística de Dados
Francisco Carvalho
Valor Esperado• Caso contínuo
• Caso discreto
Teoria da Decisão BayesianaA função de Densidade Normal
dx)x(p)x(f)]x(f[
Dx
)x(p)x(f)]x(f[
Caso Univariado• função de densidade
• Média
Teoria da Decisão BayesianaA função de Densidade Normal
2x21exp
21)x(p
dx)x(px]x[
Caso Univariado• Variância
• A fdp normal uni-variada é completamente especificada pelos parâmetros: a média e a variância :
Teoria da Decisão BayesianaA função de Densidade Normal
dx)x(p)x(])x[( 22
),(N~)x(p 2
Caso Univariado
Teoria da Decisão BayesianaA função de Densidade Normal
Caso Multivariado• função de densidade normal multi-variada
em d dimensões
Teoria da Decisão BayesianaA função de Densidade Normal
)()(
21exp
)2(
1)(p 1t
21
2d
xxx
Caso Multivariado• onde
x é um vetor coluna com d componentes é o vetor de médias de d componentes é a matriz de covariâncias dd || é o determinante de -1 é a inversa de (x - )t é a transposta de (x - )
Teoria da Decisão BayesianaA função de Densidade Normal
Caso Multivariado• produto interno
• Novamente
• Média
Teoria da Decisão BayesianaA função de Densidade Normal
d
1iii
t baba
),(N~)(p 2x
xxxx d)(p][
Caso Multivariado• Variância
• O valor esperado de um vetor ou de uma matriz é calculado a partir do valor esperado dos seus componentes
Teoria da Decisão BayesianaA função de Densidade Normal
xxxxxx d)(p))((]))([( tt
Caso Multivariado• Se xi é o i-ésimo componente de x, i o i-
ésimo componente de e ij o ij-ésimo componente de
• Os elementos da diagonal ii = i2 são as
respectivas variâncias de xi• Os outros elementos ij são as covariâncias
entre xi e xj
Teoria da Decisão BayesianaA função de Densidade Normal
][ ii x )])([( jjiiij xx
Caso Multivariado• Se xi e xj são estatisticamente
independentes, ij = 0 • Se todos os elementos fora da diagonal são
nulos, p(x) se reduz ao produto de densidades normais uni-variadas dos componentes de x
• Se p(x)~N(,), A é uma matriz dk e y=Atx é um vetor de k componentes, então p(y)~N(At, AtA)
Teoria da Decisão BayesianaA função de Densidade Normal
Caso Multivariado
Teoria da Decisão BayesianaA função de Densidade Normal
Caso Multivariado• Se k=1 (A é um vetor a), y = atx é um escalar
que representa a projeção de x em uma linha na direção de a
• Nesse caso ata é a variância da projeção de x em a
• Distancia de Mahalanobis entre x e
Teoria da Decisão BayesianaA função de Densidade Normal
)()(r 1t2 xx
Caso Multivariado• Os pontos de densidade constante são
aqueles para os quais
• é constante
Teoria da Decisão BayesianaA função de Densidade Normal
)()( 1t xx
Caso Multivariado
Teoria da Decisão BayesianaA função de Densidade Normal
Classificação com taxa de erro mínima• Função discriminante
• Se
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)(ln)|(ln)( iii Ppg xx
),(N~)|(p iii x
)(Plnln212ln
2d
)()(21)(g
ii
i1
it
ii
xxx
Caso 1: i = 2 I• Os atributos são estatisticamente
independentes e cada atributo tem a mesma variância 2
• Nesse caso, i = 2 I, |i| = 2d e i
-1 = (1/2) I
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 1: i = 2 I• |i| e (d/2) ln 2 são independentes de i
(constantes aditivas que podem ser ignoradas)
• Assim
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)(Pln2
)(g i2
2i
i
xx
Caso 1: i = 2 I• Norma Euclidiana
• Se as probabilidades a priori são diferentes e se x está igualmente próximo de dois diferentes vetores média a decisão ótima favorecerá a classe de
maior probabilidade a priori
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)()( it
i2
i xxx
Caso 1: i = 2 I• Expandindo-se a forma quadrática
• Assim
• O termo quadrático xtx é o mesmo para todo i e pode ser ignorado
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
iti
ti
ti
ti 2)()( xxxxx
)(Pln221)(g ii
ti
ti
t2i
xxxx
Caso 1: i = 2 I• Funções Discriminantes Lineares
• onde
• wi0 é o limiar ou o viés da i-ésima classe
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)(Pln221)(g ii
ti
ti
t2i
xxxx
0itii w)(g xwx
i2i1
w )(Pln21w ii
ti20i
Caso 1: i = 2 I• Máquina linear: classificador que usa
funções discriminantes lineares• Superfícies de decisão para uma máquina
linear: pedaços de hiperplanos definidos pelas
equações lineares gi(x) = gj(x) para as duas classes de maior probabilidade a priori
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 1: i = 2 I• Nesse caso
• onde
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
0)( 0t xxw
ji w
)()(P)(Pln)(
21
jij
i
ji
2
ji0
x
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 1: i = 2 I• Essas equações definem um hiperplano
através do ponto x0 que é ortogonal ao vetor w.
• w = i - j implica que o hiperplano que separa i e j é ortogonal a linha que liga as médias
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 1: i = 2 I• Se P(i) = P(j),
• Se P(i) P(j), o ponto x0 se afasta da média mais verossímil
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)(21
ji0 x
Caso 1: i = 2 I• Se as probabilidades a priori P(i) são as
mesmas para as c classe, então o termo ln P(i) pode ser ignorado
• Classificador baseado na distancia mínima: Para classificar x calcule ||x - i|| para
cada vetor de médias e afete x a classe cital que ||x - i|| é mínimo
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 1: i = 2 I
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 2: i = • As matrizes de covariâncias de todas as
classes são idênticas• Geometricamente:
as observações se encontram em hiper-elipsóides de mesmo tamanho e forma
• |i| e (d/2) ln 2 são independentes de i e podem ser ignorados
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 2: i = • Função discriminante:
• Se as probabilidades a priori são todas idênticas, o termo lnP(i) pode ser ignorado
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)(ln)()(21)( 1
iit
ii Pg xxx
Caso 2: i = • Classificador baseado na distancia mínima:
Para classificar x calcule (x - i)t -1 (x - i) para cada vetor de médias e afete x a classe ci tal que (x - i)t -1 (x - i) é mínimo
• Se as probabilidades a priori são desiguais a decisão será viesada em favor da classe mais provável
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 2: i = • A expansão da forma quadrática
(x - j) -1 (x - j) resulta no termo xt-1x que é independente de i e pode ser eliminado
• As funções discriminantes são novamente lineares:
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
0itii w)(g xwx
Caso 2: i = • onde
• Como os discriminantes são lineares, as fronteiras de decisões são hiperplanos
• Se i e j são contíguos, a equação da fronteira entre elas é
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
i1
i w )(Pln21w ii
1ti0i
0)( 0t xxw
Caso 2: i = • onde
• Como w = -1 (i - j) geralmente não está na direção de (i - j) o hiper-plano que separa i e j geralmente não é ortogonal a linha que liga as médias
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
)( ji1 w
)()(P)(Pln
)()(1
)(21
jij
i
ji1t
ji
ji0
x
Caso 2: i = • No entanto, o hiper-plano intercepta esta
linha em x0; se as probabilidades a priori são iguais x0 está no meio dessa linha
• Senão, o hiper-plano se desloca na direção oposta da média cuja classe tem maior probabilidade a priori
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 3: i arbitrário• Nesse caso, somente o termo
(d/2) ln 2 pode ser ignorado
• As funções discriminantes são quadráticas
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
0itii
ti w)(g xwxWxx
Caso 3: i arbitrário• onde
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
1ii 2
1 W i1
ii w
)(Plnln21
21w iii
1i
ti0i
Caso 3: i arbitrário• No caso de duas classes as superfícies de
decisão são hiper-quádricas: hiperplanos, hiper-esferas,
hiper-elipsóides, hiper-parabolóides, hiper-hiperbolóides
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Caso 3: i arbitrário• No caso unidimensional, as regiões de
decisão podem ser não conectadas:
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Exemplo 1
Teoria da Decisão BayesianaFunções discrimin. para a Densidade Normal
Fórmula de Bayes• Nesse caso, as componentes de x
são binárias (0,1), ternárias (0,1,2) ou m-árias (0,1,…,m-1)
• onde
Teoria da Decisão BayesianaAtributos Discretos
)(P)(P)|(P
)|(P jjj x
xx
c
1jjj )(P)|(P)(P xx
Risco Condicional• A definição de risco condicional R(|x) não
muda• A regra de decisão de Bayes permanece a
mesma: para minimizar o risco global selecione a
ação i para a qual R(i|x) é mínimo
Teoria da Decisão BayesianaAtributos Discretos
)|(Rminarg ii
* x
Risco Condicional• A regra básica para minimizar a taxa de
erro pela maximização da probabilidade a posteriori também não muda
• Ns equações das funções discriminantes é necessário apenas trocar as densidades p(•) pelas probabilidades P(•)
Teoria da Decisão BayesianaAtributos Discretos
Atributos Binários Independentes• Seja x = (x1, …,xd)t onde as componentes xi
são 0 ou 1, com probabilidades
Teoria da Decisão BayesianaAtributos Discretos
]|1xPr[qe
]|1xPr[p
2ii
1ii
Atributos Binários Independentes• Supondo-se independência condicional
pode-se escrever P(x|i) como os produtos das probabilidades das componentes de x:
Teoria da Decisão BayesianaAtributos Discretos
d
1i
x1i
xi1
d
1ii1
ii )p1(p)|x(P)|(P x
d
1i
x1i
xi2
d
1ii2
ii )q1(q)|x(P)|(P x
Atributos Binários Independentes• A razão de verossimilhança é
Teoria da Decisão BayesianaAtributos Discretos
d
1i
x1
i
ix
i
i
d
1i
x1i
xi
d
1i
x1i
xi
2
1
ii
ii
ii
q1p1
qp
)q1(q
)p1(p
)|(P)|(P
xx
Atributos Binários Independentes• Função discriminante
• Função discriminante
Teoria da Decisão BayesianaAtributos Discretos
)(Pln)|(Pln)(gonde),(g)(g)(g
iii
21
xxxxx
)(P)(Pln
q1p1ln)x1(
qplnx)(g
2
1d
1i i
ii
i
ii
x
Atributos Binários Independentes• A função discriminante é linear em xi:
Teoria da Decisão BayesianaAtributos Discretos
d,,1i)p1(q)q1(plnw
)(P)(Pln
q1p1lnw
ondewxw)(g
ii
iii
2
1d
1i i
i0
0
d
1iii
x
Atributos Binários Independentes• Decide-se 1 se g(x) > 0 e 2 se g(x) 0
• Se pi = qi, wi = 0, como esperado, pois nesse caso xi não informa sobre as classes
• Se pi > qi, então 1 - pi < 1 - qi e wi é positivo. Assim xi =1 contribui com wi votos para 1
Teoria da Decisão BayesianaAtributos Discretos
Atributos Binários Independentes• Além disso, fixado qi < 1, wi é tanto maior
quanto pi é grande
• Se pi < qi, wi é negativo e xi =1 contribui com |wi| votos para 2
• Aumentando P(1) aumenta-se w0 e a decisão é enviesada em favor de 1, enquanto decrescer P(1) tem o efeito oposto
Teoria da Decisão BayesianaAtributos Discretos
Exemplo 3
Teoria da Decisão BayesianaAtributos Discretos