ESTIMATIVAS DE PARÂMETROS EM SEGURANÇA VIÁRIAsites.poli.usp.br/d/ptr5802/EstimPar.pdf · -...
Transcript of ESTIMATIVAS DE PARÂMETROS EM SEGURANÇA VIÁRIAsites.poli.usp.br/d/ptr5802/EstimPar.pdf · -...
1
ESTIMATIVAS DE PARÂMETROS
EM SEGURANÇA VIÁRIA
Hugo Pietrantonio
Junho/2009
OBJETIVOS DA
APRESENTAÇÃO• Apresentar conceitos relevantes para aplicar Métodos
de Estimativas de Parâmetros em Segurança Viária
• Discutir formas alternativas e as técnicas usuais para
estimar parâmetros de Modelos Probabilísticos ...
• Conceitos Envolvidos: Estimativa de Parâmetros
– Características das Amostras de Dados para Estimação
– Estimadores X Estimativas, Propriedades dos Estimadores ...
– Medida de Verossimilhança e M.Máxima Verossimilhança
– Mínimos Quadrados/Momentos Estatísticos (Generalizados)
– Enfoque Bayesiano, Função Perda e Método de Decisão
– Aplicação para Variáveis Discretas: Contagens e Escolhas
2
Métodos de Estimativa: Evolução
• 1. Ajustamento de Curvas aos Dados (amostra)
- método dos mínimos quadrados: Person,Gauss
- especificação: função=>distribuição dos erros
• 2. Estimativa Estatística de Parâmetros (pop)
- inferência (amostra=>população): Fisher
- mínimos quadrados e máxima verossimilhança
- variação amostral, erro aleatório neutro ...
• 3. Estimativa de Parâmetros de Modelos (DGP):
- recuperação do modelo/informação: Haavelmo
Métodos de Estimativa
• Métodos I: Momentos, Mínimos Quadrados
• Métodos II: Mínimos Quadrados Ordinários e
Generalizados, Máxima Verossimilhança,
Momentos Ordinários e Generalizados ...
• Máxima Verossimilhança é o mais consistente
com o arcabouço da inferência clássica
• Amostra aleatória: momentos da amostra são
justos (e os estimadores também); estimadores
de MQ são os melhores entre os lineares e justos
3
Métodos I: Momentos na Amostra
• Estatística descritiva: dados da amostra obtida
- histograma, modas, mediana, quantis, ...
- média e variância na amostra obtida ...
• Método dos Momentos na amostra:
1. Obter a relação entre parâmetros e momentos
segundo o modelo de probabilidade ...
2. Obter valores dos momentos na amostra
3. Obter valores de parâmetros consistentes com
modelo de probabilidade&momentos da amostra
Métodos I: Momentos na Amostra
• Procedimento simples, pelo menos com poucos
parâmetros e relações simples com parâmetros
• Não obtém variância dos parâmetros estimados
• Testes de aderência (aproximados) podem
avaliar qualidade do ajuste do modelo estimado
• Pode ser utilizado para fornecer valores iniciais
no processo de estimação baseado em métodos
mais sofisticados (e potencialm/e melhores ...)
• Pode ser generalizado estatisticamente ...
4
Métodos I: Mínimos Quadrados na
Amostra
• Ajuste de Funções: método de aproximação
- yi= a0+a1.x1i+a2.x2i+...+ei ou f1[x1,x2,...] ...
- SQ=Si(ei)2=Si(yi-a0+a1.x1i+a2.x2i+...)2
- condições para mín SQ determinam a0,a1,a2,...
Si(yi)=n.a0+a1.Si(x1i)+a2.Si(x2i)+... Si(êi)=0
Si(xki.yi)=a0.Si(xki) +a1.Si(xki.x1i))+... Si(xki.êi)=0
- com a0: my=a0+a1.mx1+a2.mx2+..., i.e. me=0
• Interpretação: mínima variância na amostra ...
- questão estatística: vale tb para a população??
Propriedades do Métodos I:
Mínimos Quadrados na Amostra
• Com a0, Si(êi)=0, êi=yi-â0-âx.xi ... mê=0
Si(xi.êi)=Si(xi.yi-xi.â0-xi2)=0 ... rx,ê=0
Si(xi.yi)=Si(xi.yêi+xi.êi)=Si(xi.yêi)
Si((yi-yêi).(yêi-my))=0
Si((yi-my)2)=Si((yi-yêi)
2)+Si((yêi-my)2)
(H0: modelo simples c/média yi=my)
igual regressão (yi-my) contra {(xi-mx)} sem a0 !
• Sem a0, Si((yi)2)=Si((yi-yêi)
2)+Si((yêi)2)
(H0: modelo simples yi=0)
5
Propriedades do Métodos I+:
Mínimos Quadrados na Amostra
• Linear, notação matricial: Y=a.X+E, ê=y-â.x
mín ê’.ê => â=(X’.X)-1.(X’.Y), linear em Y
– Ê=Y-â.X=(I-(X’.X)-1.(X’.X)).Y=M.Y, resíduo
M: formador de resídio, idempotente M´.M=M
– Yê=â.X=Y-Ê=(X’.X)-1.(X’.X).Y=P.Y, projeção
P: formador de previsão, idempotente P´.P=P
– Y=P.Y+M.Y, M.P=P.M=0 ou proj.P_|_res.M
– decomposição da variação Y’.Y=Yê’.Yê+Ê’.Ê ou,
com intercepto, V[Y]=V[Yê]+V[Ê] ... da variância
Propriedades do Métodos I++:
Mínimos Quadrados na Amostra
• Linear: Teorema de Frisch&Waugh (&Lovell)
X={X1 X2} | X1’.X1 X1’.X2 | . | a1 | = | X1’.Y |
(partição) | X2’.X1 X2’.X2 | | a2 | = | X2’.Y |
– então a1=(X1’.X1)-1.(X1’.Y-X1’.X2.a2) ... ≠ (X1’.X1)
-1.X1’.Y
– regressão de Y contra X1, i.e. (X1’.X1)-1.X1’.Y, tem
coeficiente correto somente se X1’.X2=0 ou a2=0 !
– tb a1=(X1’.M2.X1)-1.(X1’.M2.Y)=(X´1’.X´1)
-1.(X´1’.Y´), onde
Y´=M2.X1 e X´1=M2.X1 resíduos das regressões de Y e de
cada X1 contra X2 e onde M2=(I2-(X2’.X2)-1.(X2’.X2)) ...
• passo 1: regressão de Y e de cada X1 contra X2 obtém Y´ e X´1 e
• passo 2: regressão do resíduo de Y contra X2 (Y-Y´) contra o resíduo
de cada X1 das regressões contra X2 (X1-X´1) tb obtém a1 correto ...
6
Métodos I: Mínimos Quadrados na
Amostra
• Procedimento simples, pelo menos com relações
lineares (linearizáveis), com poucas variáveis
• Não obtém variância dos parâmetros estimados
• Testes de aderência (generalizados) poderiam
avaliar qualidade do ajuste do modelo estimado
• Pode ser utilizado para fornecer valores iniciais
no processo de estimação baseado em métodos
mais sofisticados (e potencialm/e melhores ...)
• Pode ser generalizado estatisticamente ...
Métodos I: Unificação Momentos e
Mínimos Quadrados
• Estimador de Mínimos Quadrados:
Siêi=0 => a0=mY-mX.aX !
SiêiXi=0 => CXY=aX.CXX!
similar a mX=MX e sX2=VX=mX2-(mX)2=CXX !
• Momentos Conjuntos: CXX=VX, tb CXY, rXY ...
CXY=Si(xi-mx)(yi-my)/n=Sxy/n-mx.my,Sxy=Sixi.yi
• Com múltiplas covariáveis: generaliza-se para
momentos simples e conjuntos: Y, Xk, k=1, 2, ...
• princípio da analogia: usa momentos amostrais
7
Estimativa Estatística dos
Parâmetros (da População)
• Parâmetros estruturais: C da relação funcional
Parâmetros estatísticos: S da distribuição ...
• h[C,S]: Estimador T[{Xk}], estimativa t[{xk}]
• Propriedades: pequenas amostras ... grandes
– Justo (não viesado): E[T[{Xk}]]=h[...] (UnbiasedE)
Viés esperado: B[T]=E[T]-h[...] ... consistência
– Eficiente: mín EQ[T], mín V[T] se B[T]=0 (MVUE)
EQ[T]=B2[T]+V[T] ... eficiência assintótica
– Distribuição exata ... ...distribuição assintótica
Estimadores e Estimativas
• Objeto da estimação: estimando q[q] população
usualmente q[q]=q ou {qk[{qk}]}={qk} vetorial
• Objeto da observação:estatística T[X] população
• Estimador (amostral): t[X] com amostras x de X
Princípio da analogia: t[X]~T[X] forma análoga
• Estimativa (amostral): t[x] com uma amostra x
Estimativa pontual, intervalar, em distribuição...
• Estatísticas (minimamente) suficientes:
determinam as estimativas univocamente ...
8
Análise Estatística
• Conceito de probabilidade:
- clássico, loteria entre N eventos igualmente
prováveis ... pa=Na/N ;
- objetivo, frequência relativa em N (muitas)
repetições ... pa=fa;
- subjetivo, grau de crença (racional) na
ocorrência ... pa=E[Xa]
• Alternativas para análise com incerteza:
outras teorias (Dempster&Shaffer, Zadeh, ...)
Métodos de Análise Estatística
• Abordagens em Análise Estatística:
- Clássica, frequentista; p objetivo/fixo
- Bayesiana, cumulativo; tb subjetivo
- outras: teoria da decisão (benefício/custo) ...
• Modelos Probabilísticos:
- paramétrico: especifica função h/distribuição f
- não paramétrico: h ou f empírico, genérico ...
- semi-paramétrico: combina um e outro ... h ...
Exemplo: MV/ML=paramétrico, MQ/LS=semi,
...
9
Abordagem Clássica
• Paradigma de Fisher: experimental/frequentista
1. Modelo estatístico=Modelo de Probabilidade
+ Modelo de Amostragem
2. Observação: {xk}, amostra gerada
(realização) pelo modelo estatístico
3. Inferência estatística (análise da adequação
do modelo estatístico) na população
• Observacional: processo de geração de dados G
substituem as idéias de amostra e população ...
Abordagem Clássica
Spanos (1999)
• Esquema da Abordagem Clássica:
Modelo Estatístico:
- Modelo de Probabilidade f[x/c]
- Modelo de Amostragem {Xi}
Distribuição da Amostra:
D[{Xi};c]
Função de Verossimilhança:
L[c;{xi}]
Dados observados: {xi}
10
Aplicação aos Modelos Estatísticos
(Probabilísticos) Simples
• Ajuste direto de uma função probabilística
- univariada: f[x/s],s=parâmetros da distribuição
- multivariada: f[x,y/s...],distribuição conjunta ...
• Estimativa dos Parâmetros: métodos estatísticos
usuais (momentos, máxima verossimilhança ...)
– Análise dos Dados: exploratória/preliminar ...
– Testes de Aderência: Chi2, K-S, A-D, ...
– Análise dos Resíduos: adequação do modelo ...
• Variância residual, Significância dos parâmetros
Aplicação aos Modelos Estatísticos
(Probabilísticos) Condicionais
• Distribuição conjunta de variáveis relacionadas: Pr[{Xk}]=Pr[X1,X2,...] ou f[{Xk}]=f[X1,X2,...]
– Dependência/Independência probabilística:distribuição condicional: P[A/B]=P[A,B]/P[B]A_|_B: independência se P[A/B]=P[A], qq B=b
– Representação simétrica: obtém P[A/B] ou P[B/A]
• Distribuição condicional: Y/{Xk} ... Pr, f, E ...
– Endogeneidade/Exogeneidade: modelo/escopoVariáveis Endógenas, Dependentes ... internasVariáveis Exógenas, Independentes ... externas
– Estrutural: f[Y,{Xk}/q]=f[Y/{Xk},b].f[{Xk}/g]
11
Enfoque Estatístico
• Informação: amostra; Interesse: população !
distribuição simples, tb distribuição condicional
• Erro aleatório: amostral ... erro estatístico ...
neutro: normal, média zero, variância constante
(diretamente ou com alguma forma condicional)
• Erro de especificação: analítico, sistemático ...
em geral, forma funcional inadequada ... h[] f[]
• Ênfase: teste de aderência, análise de resíduos ...
variância residual, significância dos parâmetros
Modelos de Probabilidade
• Espaço amostral S; Probabilidades: P ...
– S: descrito por variáveis aleatórias X, Y, Z que
atribuem números reais (valor) aos eventos de S
– P: descrito por funções de distribuição Pr[X=x], ...,
eventualmente paramétricas Pr[Y=y/x,c,s], ...
• Variáveis discretas: f[X=x/...]=Pr[X=x/...]
Variáveis contínuas: F[X<x/...]=Pr[X<x/...]
(função densidade: f[X=x/...]=F’[X<x/...] ...)
• Momentos: M[{X}] (média, variância, ...)
12
Modelo de Amostragem
• Verossimilhança: p[c,s/y,x] dado f[y/x,c,s].f[x]
Simples: p[c,s/y,x]=f[y/x,c,s].f[x] equiprováveis
- estr.exógena: p[c,s|y,x]=f[y|x,c,s].fs[x] em x
fs[x] de estar na amostra (nsx/n) e ter x (f[x/s])
- estr.endógena: p[c,s|y,x]=f[y|x,c,s].fs[x] em y
fs[x]=f[x|y].nsy/n, f[x/y]=f[y,x,c,s]/Sx(f[y,x,c,s])
- truncada: f[y/x,c,s,Y>c], parte das observações
- censurada: f[y,x,c,s] se Y>c, F[y,x,c,s], se Y<c
• Pesos (weight, score): representatividade ...
Modelo de Amostragem
• estratificação exógena: obtida fixando fs[x]
p[x,y]=fs[x].f[x,y] e p[x]=Syp[x,y]=fs[x].f[x]
portanto, p[y/x]=p[x,y]/p[x]=f[y/x], qq fs[x]
(relação condicional estimada é a populacional)
• estratificação endógena: obtida fixando fs[y]
p[x,y]=fs[y].f[x,y] e p[y/x]=p[x,y]/p[x] com
p[x,y]=fs[y].f[y/x].f[x] e p[x]=f[x].Syfs[y].f[y/x]
portanto p[y/x]=fs[y].f[y/x]/Swfs[w].f[w/x] !
(é preciso ponderar fs[y]=(ny/n)/(Ny/N) e usar
um procedimento específico para estimar f[y/x])
13
Conceito de Verossimilhança
- Exemplo Experimental
• Dados de tempo até a falha: {ti} exponencial
• Amostra aleatória simples: Pr[seleção] =,ind
Pr[amostrar]=Pr[ocorrência].Pr[seleção]
Pr[ocorrência]=Pr[na população], exponencial
Pr[seleção]=n/N (=), n=tamanho da amostra ...
Pr[{ti}/q]=Pif[ti/q]=Pi(q.exp[-q.ti]), da amostra
• Verossimilhança com amostra {ti} exponencial
Pr[{ti}/q]=Pif[ti/q]=Pi(q.exp[-q.ti]), de {ti}
Pr[q/{ti}]=Pif[ti/q]=Pi(q.exp[-q.ti]), de q !
Método II:Máxima Verossimilhança
• Princípio de estimação da abordagem clássica:
Estimador ML: q*=argmax L[q/{xi}]=Pif[xi/q]
– com amostra {xi} ind e modelo paramétrico f[x/q]
– mais simples: q*=argmax LL[q/{xi}]=Silnf[xi/q]
com LL[q/{xi}]: log-verossimilhança (mesmo q*)
• Condição usual de ótimo: qL=0 ou qLL=0
um sistema de equações a ser resolvido=>q*
• p/ f[q] suficientem/e regular V[q*]→(I[q*])-1
Informação: I=E[(qLL).(qLL)’]~-E[2qqLL]
14
Máxima Verossimilhança
- Exemplo Experimental
• Dados de tempo até a falha: {ti} exponencial
com amostragem aleatória simples (=,ind):
– L[q/{ti}]=Pif[ti/q]=Pi(q.exp[-q.ti]), função de q
– LL[q/{ti}]=Siln[f[ti/q]]=Si(lnq-q.ti), mesmo q*
– máxqLL[q/{ti}]: qLL=0=>Si(1/q-ti)=0=>q=n/Si(ti)
• Dados censurados: tempo de observação t (ToT)
r falham {ti}, (n-r) restam ao final do teste {ti>t}
– L=Pif[ti/q].(1-F[t/q])n-r=Pi(q.exp[-q.ti]).(exp[-q.t])n-r
– máxqLL: Si(1/q-ti)+(n-r).t=0=>q=r/(Si(ti)+(n-r).t)
Máxima Verossimilhança
- Outro Exemplo Experimental
• Suponha q trata-se de ajustar um Gamma[a,b]
fT[t]=ab.e-a.t.tb-1/G[b], t≥0, G[b]=∫tb-1.e-t.dt ...
• dada uma amostra aleatória simples {ti}, tem-se:
– L[a,b/{ti}]=Pif[ti/q]=Pi(ab.e-a.ti.ti
b-1/G[b])
– LL[a,b/{ti}]=Siln[f[ti/q]]=Si(b.lna-a.ti+(b-1).lnti-lnG)
– aLL=0=>Si(b/a-ti)=0, n.b/a-Si(ti)=0, b/a=E[t]
– bLL=0=>Si(lna+lnti-G´/G)=0, solução numérica !
– estatísticas suficientes: Si(ti), Si(lnti) (ou E[t], E[lnt])
– Greene: E[t]=31,278,E[lnt]=3,2214=>b=2,4;a=0,077
15
Experimento Aleatório
• O conjunto de todos os acontecimentos
(resultados) possíveis é conhecido (S)
• Em uma realização (caso, tentativa)
qualquer, o resultado não é conhecido a
priori mas existe um padrão de regularidade
nas ocorrências perceptível (P)
• As realizações (tentativas) podem ser
repetidas mantendo condições idênticas (G)
• Condições Experimentais imperfeitas ...
Amostra Aleatória
• Amostragem de observações {Y,X}, tb de erros
• Observações/Erros independentes:
Pr[A1,A2,...An]=Pr[A1].Pr[A2]. ... .Pr[An]
• Distribuições idênticas:
f1[A1]=f2[A2]=...=fn[An]=f[A]
• Amostra aleatória simples: {Ai} IID
NãoIID: dependência e heterogeneidade
• Uniforme/não: probabilidade seleção igual/não
Truncada f[x/x<U] ... Censurada f[x/P] ... Mista
16
Método II: Método dos Momentos
Estatísticos (Ordinário)
• Momento:E[Gm[{X}/{q}]]=Hm[q], gm[q]=0
(média aritmética, de quadrados, variância, ...)
• Amostra: E[Gm[{X},{q}]]=Hm[q], gm[q]=0
E[gm]=1/n.Si(Gm[{xk}i])-Hm[q]=E[Gm]-Hm[q]
C[gm,gn]=1/(n.(n-1)).Si(Gmi-E[Gm]).(Gni-E[Gn])
• Estimador do Método dos Momentos: {qk},{gl}
com l=k: E[gm]=Hm[q]=>qMoM=Hm-1[E[gm]]
V[qMoM]→(qkgm[])-1.C[gm,gn].(qkgn[])-1)’
• É consistente mas não necessariamente eficiente
Método II: Momentos Estatísticos -
Exemplo
• Greene: parâmetros da distribuição Gamma[a,b]
fT[t]=ab.e-a.t.tb-1/G[b], t≥0, G[b]=∫tb-1.e-t.dt ...
– E[T]=b/a; E[T2]=(b+1).b/a; E[lnT]=G´[b]-lna ...
– amostra:E[t]=31,28;E[t2]=1453,96;E[lnt]=3,22...
– com E[T] e E[T2], tem-se b=2,0568;a=0,06576
– com E[T] e E[lnT], tem-se b=2,4106;a=0,07707
C=25,03 0,716 g=-12,97 405,8 V=0,39 0,016
0,716 0,024 -0,512 12,98 0,016 0,0006
(com as estatísticas suficientes, sempre ~ML!)
17
Estimativa de Parâmetros em
Modelos Estatísticos Simples
• Modelos Estatísticos Simples: estimar=obter parâmetros {ak} da distribuição das variáveis ... uma (univariada) ou mais (multivariada) ...
• Critérios qualitativos são muito importantes: unimodal/multimodal, mínimo/máximo/simetria(análise exploratória, formas não-paramétricas)
• Critérios estatísticos: testes de aderência
– Teste Chi-quadrado: Chi2=Sm(Nmi-N.pmi)2/(N.pmi),m
– Teste Kolmogorov-Smirnov: D=supi|Fn[xi]-F[xi,q]|
– Teste Anderson-Darling:An2=Si(Fn[xi]-F[xi,q])2,v[F]
Modelos Estatísticos Simples
• Parâmetros estimados por métodos usuais:
– momentos na amostra: aplicação simples, não
fornece estimativa de precisão estatísticas mas
permite a análise (visual) dos resíduos ...
– máxima verossimilhança: método usualmente
preferido; pode fornecer solução analítica ou exigir
solução numérica (problema de maximização)
– outros métodos: momentos estatísticos, momentos
generalizados, ... serão discutidos posteriormente ...
• Abordagem bayesiana tb pode ser utilizada ...
18
Testes de Aderência
• Critério: reduzir Erro Tipo I e/ou Erro Tipo II !
• Erro Tipo I: rejeitar H0 quando H0 é verdadeiro (Acerto Tipo I: rejeitar H0 quando H0 é falso, corresponde ao nível de significância a do teste)- dado H0: mais facilmente avaliado ...
• Erro Tipo II: aceitar H0 quando H0 é falso (Aceito Tipo II: aceitar H0 qdo H0 é verdadeiro, corresponde ao nível de poder b do teste)- falso positivo (ao invés do falso negativo)
• (terminologia não é totalmente uniforme).
Modelos Estatísticos Simples
• Teste Chi-quadrado: proposto desde, pelo menos, Pearson (1900) ... análise do histograma
– M intervalos [ai; ai+1), com a0=-∞ e aM=+∞pmi=Pr[ai≤Xi<ai+1] obtido com a distribuição em análise e Ni ocorrências observadas em amostra N ...
– Chi2=Sm(Nmi-N.pmi)2/(N.pmi) converge para Chi2[n]
com H0: distribuição admitida; teste Chi2>Chi2[n,a]
– com pi exato, n=M-1; com pi estimado, M-1<n<M-p (p=no.parâmetros); conservativamente, usar n=M-1
– sensível à definição dos intervalos (M>3 e N.pi>5)teste de significância: tende a rejeitar com n grande !
19
Modelos Estatísticos Simples
• Teste de Kolmogorov-Smirnov: usa EDF ...
evita a necessidade de agrupar os dados ...
– dada a amostra de dados, {xi}, i=1, ...n, ordenar e
construir a distribuição acumulada de probabilidade;
– obter a máxima diferença Dn=supi|Fn[xi]-F[xi,q]| ou
Dn=máx{máxi|i/n-F[xi,q]|, máxi|F[xi,q]-(i-1)/n|};
– se q é conhecido (fixo) e X é uma variável contínua,
os valores críticos para Dn>d[n,a] são os tabelados
por Kolmogorov&Smirnov; não-paramétrico ...
c.c., fórmulas aproximadas (ver Kelton&Law, 2001)
Modelos Estatísticos Simples
• Teste de Anderson-Darling: usa EDF ...
maior peso para os valores extremos (cauda) ...
– dada a amostra de dados, {xi}, i=1, ...n, ordenar e
construir a distribuição acumulada de probabilidade;
– obter An2=n.∫(Fn[x]-F[x,q])2/y[x].f[x,q].dx, onde a
ponderação é y[x]=Fn[x].(1-Fn[x]); na prática usa-se
An2=-n-(Si(2.i-1)(ln[Zi]+ln[1-Zn+1-i]))/n), Zi=Fn[xi];
– se q é conhecido (fixo) e X é uma variável contínua,
os valores críticos An2>a[n,a] são tabelados por
Anderson&Darling; (c.c. ver Kelton&Law, 2001)
20
Modelos Probabilísticos Simples –
Univariado, Discreto: Binomial, Geom • K~Bi[p,n]: probabilidade de K=k ocorrências em n
tentativas de probabilidade elementar p
– Pr[K=k/p,n]=n!/(n-k)!/k!.pk.(1-p)(n-k), k=0, 1, ... NE[K]=p.n, V[K]=n.p.(1-p)<E[K] sub-dispersão
– MM: dado n, p=E[K]/n; senão p=1-V[K]/E[K], n=E[K]/p se V[K]<E[K]
– ML com AAS: dado n, p=E[K]/n; senão numérico (Kelton&Law, 2001)
• K~Ge[p]: probabilidade K=k sucessos, k=0,1,... (ou N=n tentativas, N=K+1, n=1,...) até falha (p=Pr.falha)
– Pr[K=k/p]=p.(1-p)k, E[K]=(1-p)/p, V[K]=(1-p)/p2>E[K]
– Pr[N=n/p]=p.(1-p)(n-1), E[N]=1/p, V[N]=(1-p)/p2
– MM: p=E[K]/V[K] se E[K]<V[K]
– ML com AAS: p=1/(1+E[K])
Modelos Probabilísticos Simples –
Univariado, Discreto: Poisson• Poisson: K~Po[m]: probabilidade de K=k eventos,
dado a média m=r.T (taxa r, período T)– Po[K=k/m]=e-m.mk/k!, k=0,1,2,...
E[K]=m, V[K]=m, =E[K], equi-dispersão !?!– MM: m=E[K]
– ML com AAS: m=E[K]
• Pascal (negativa binomial): probabilidade de K=k sucessos até r falhas, k=0,1,... (ou N=n tentativas, N=r+K, n=r,r+1, ...), p=prob.falha (q=1-p, de sucesso )– NB[K=k/p,r]=(r+k-1)!/(r-1)!/k!.pr.(1-p)k e
E[K]=r.(1-p)/p, V[K]=r.(1-p)/p2 >E[K], ou
– NB[N=n/p,r]=(n-1)!/(n-r)!/(r-1)!.pr.(1-p)n-r e, E[N]=r/p,V[N]=r.(1-p)/p2 >E[N], sobre-dispersão
– MM: dado r, p=r/(r+E[K]); senão p=E[K]/V[K], r=E[K].p/(1-p) se E[K]<V[K]
– ML com AAS: dado r, p=r/(r+E[K]); senão numérico (Kelton&Law, 2001)
21
Modelos Probabilísticos Simples –
Univariado, Contínuo: Exp, Gamma• Exponencial: tempo até a falha, taxa de falha r
– Exp[T=t/r]=r.e-rt, t>0, E[t]=1/r, V[t]=1/r2 (c.v.=1),
– ou Exp[T=t/c]=1/c.e-t/c, t>0, E[t]=c, V[t]=c2, r=1/c– MM: r=1/E[t] ou c=E[t]
– ML com AAS: r=1/E[t] ou c=E[t]
• Gamma: generalização importante ...
– Gm[M=m/a,b]=ba.ma-1.e-b.m/G[a], m>0E[M]=a/b,V[M]=a/b2, Exp[r]=Gm[1,r]
– ou Gm[M=m/a,c]=c-a.ma-1.e-m/c/G[a], m>0E[M]=a.c,V[M]=a.c2, Exp[r]=Gm[1,c], b=1/c
– MM: b=V[T]/E[T], a=E[T]/b
– ML com AAS: numérico (ver Kelton&Law, 2001)
Modelos Probabilísticos Simples –
Univariado, Contínuo: Normal, LogN
• Normal: para soma de efeitos independentes
– N[m,s]: f[X=x]=1/(2p)1/2/s.exp[-1/2.((x-m)/s)2]; simétrica
E[X]=m;V[X]=s2; F[x]=Pr[X<x] não tem forma analítica ...– MM: m=E[X], s2=V[X]
– ML com AAS: m=E[X], s2=(n-1)/n.V[X]
• Lognormal: produto de efeitos independentes
– Y~LN[my,sy] se X=lnY~N[mx,sx]; Y>0; assimétrica
E[Y]=my,V[Y]=sy2; sy
2=ln[1+nx2];my=ln[mx]-sy
2/2– MM: mx=E[lnX], s2
x=V[lnX]
– ML com AAS: mx=E[lnX], s2x=(n-1)/n.V[lnX]
22
Distribuições Misturadas
• distribuição com combinação de K classes:
f[x]=Skpk.f[x/{qk}], parâmetros distintos
(ou f[x]=Skpk.fk[x], funções específicas !)
• deve-se estimar tb os parâmetros {pk}
(proporção da classe k), além dos {qk}
(ou parâmetros das funções específicas)
• as funções não-paramétricas nucleares podem
ser vistas como misturas saturadas
(número de classes=número de observações)
Estimação: Algoritmo EM
• EM (Experança&Maximização): para misturas
– dado o número de classes K, inicializar {pk} e {qk}
– Repetir até convergência: em cada iteração n fazer:– Estimar f[{xi}]=Skpk.f[{xi}/{qk}] para cada observação i (... dki);
– Determinar verossimilhança lki=pk.f[{xi}/{qk}]/f[{xi}] de (k,i);
– Atualizar pk=(Silki)/n (ou atribuir i à classe k* de maior lki de i );
– Atualizar cada qk com peso lki/pk (ou apenas i’s atribuídos a k).
• Pode-se testar diversos K’s e selecionar o
melhor ou usar algum procedimento automático
(mistura adaptativa: limite de distância=>classe)
23
Estimativa de Parâmetros em
Modelos Estatísticos Condicionais
• Enfoque Descritivo X Estrutural:
– Enfoque Descritivo: ocorrência na população {Y,X}
– Enfoque Estrutural: relações estáveis/transferíveis
• Covariáveis: f[X,Y]=>Pr[Y/X]=> E[Y/X], {X}
relações relevantes, salvo se X,Y independentes
• Informação descritiva: variáveis, associações, ...
• Relações estruturais: relações de causa/efeito ...
estrutural=estável (deve estar presente sempre)
incidental=eventual (não tem causa relacionada)
Especificação
• Hipóteses funcionais (h[]): relação condicional
• Hipóteses probabilísticas (f[]): Distribuição-D,
também dependência-M, heterogeneidade-H, ...
• modelo linear, erro aditivo: h[Y/X]=q.X+E ...
modelo não-linear, erro aditivo: h[]=g[X,q]+E
modelo não-linear geral: h[X,q,E]
• erros IID: independência/homogeneidade f[E] ...
erros ID: independência mas fi[] ou f[qi]
erros correlacionados entre observações f[{Ei}]
24
Modelos Estatísticos Lineares
• Modelos Estatísticos Lineares: linear em {ak}
t[Yi]=a0+a1.t1[{Xi}]+a2.t2[{Xi}]+... t[...]=Z !
• Yi=a0+a1.X1i+a2.X2i+... Y=f[{Xk}] linear em Xk
e tb linear nos parâmetros do modelo {ak}
• Yi=a0+a1.Xi+a2.Xi2+... Y=f[X] polinomial em X
mas linear nos parâmetros do modelo {ak}
• Yi=exp[a0+a1.X1i+a2.X2i+... ] exponencial em Xk
mas linearizável nos parâmetros do modelo {ak}
Zi=ln[Yi ] =a0+a1.X1i+a2.X2i+... viés em {ak}?
Modelos Estatísticos Não-Lineares
• Modelos Estatísticos Não-Lineares: mais geral
t[Y]=f[{ak},{Xk}] ou h[Y,{ak},{Xk}]=0 ...
• Regressão Não-Linear: Y=f[{ak},{Xk}]+E ...
Y=g0exp[SkgkXk]+E, c/erro aditivo é não-linear
Y=gc+g0exp[SkgkXk]+E intrinsecam/e não-linear
Y=ga/(gb+g0exp[SkgkXk])+E tb (ga, gb, ou g0=1) ...
• Função Implícita Não-Linear: h[Y,{ak},{Xk}]=0
h[Y,{ak},{Xk}]+E=0 ou h[Y,{ak},{Xk},E]=0
• se o modelo linear não é uma boa aproximação!
25
Métodos II: Mínimos Quadrados
Ordinários
• Yi=a0+a1.X1i+a2.X2i+...+Ei , ~E=> ~Y,
a ser estimado com uma amostra {yi,xi}, com
critério de mínimos quadrados ... (pq?)
• Ei ~ IID=independentes e identicamente
distribuídos, não correlacionados com {Xk}i
• Notação matricial: Y=X’.a+E, ê=y-â.x
mín ê’.ê => â=(X’.X)-1.(X’.Y), linear em Y
• Estimativa â é justa e eficiente (BLUE) ...
E[â]=a+E[(X’.X)-1.(X’.E)],V[â]=s2.(X’.X)-1
Métodos II: Mínimos Quadrados
Generalizados - GLS
• Ei ~ N[0,s2.Wi] com estrutura Wi (conhecida
ou estimada), não correlacionados com {Xi}k
– em geral, OLS é justo/consistente mas não é
eficiente: heterocedasticidade, autocorrelação!
– Melhor: mín ê’.W.ê => â=(X’.W.X)-1.(X’.W.Y)
– W conhecido: Wi=W[{Zi }], V[â]→s2.(X’.W-1.X)-1
– W estimado (FGLS): Wi=W[{êi}] ou W[{êi},{Zi }]
V[â]→s2.(X’.W-1.X)-1, {êi} obtido com OLS
• GLS: estimativa â é justa e eficiente (BLUE) ...
26
Mínimos Quadrados Não-Lineares
• Modelos Estatísticos Não-Lineares: em geral
Regressão Não-Linear: Y=f[{ak},{Xk}]+E ...
• mín Q=Si(yi-f[{âk},{xki}])2, numericamente
– sistema de equações simultâneas (k equações):
aQ=2.Si(yi-f[{âk},{xki}]).af[{âk},{xki}]=0 ou
Siyi.af[{âk},{xki}]=Sif[{âk},{xki}].af[{âk},{xki}]
– Solução iterativa: Gauss-Newton, Marquardt, ...
• Variância residual: se2=Q[{âk}]/(n-p), p=no.par
Cov[{âk}]→(D’.D)-1.se2, D=Siaf[{âk},{xki}] ...
Mínimos Quadrados Não-Lineares
- Exemplo
• Dados de tempo até a falha: {ti} exponencial
• p=Pr[T>t/q]=exp[-q.t], baseada na EDF de t...
t=-1/q.ln[p], baseada na função percentil ... !
(normalmente diversas respostas são possíveis)
• mín Q=Si(ti-exp[-q.ti])2 ou Q=Si(pi+1/q.ln[pi])
2 ?
estimativas distintas (critérios de aplicação)
27
Métodos II: Máxima
Verossimilhança
• Modelo Probabilidade e Amostragem: h[C], f[S]
Verossimilhança: fs[{xki}/C,S]<=>L[C,S/{xki}]
AmostraAS,IID:fs=f, L[C,S/{x}]=Pi(f[{x}/C,S])
Log-verossimilhança:LL[q={C,S}]=ln[L[q/{x}]]
• Estimador de máxima verossimilhança:
qML=argmax LL[q]=Siln[f[q/{x}]], SiLLi[q]=0
• Propriedades Gerais: qML assintoticamente justo
(consistente), eficiente, qML→N[q,{I[qML]-1}],
I[...]=E[LL.LL’]~-E[2LL] c/modelo correto
Testes Gerais para Estimadores de
Máxima Verossimilhança
• Testes para qq restrição: Cr[{q}]=cr, r=1, 2, ...
• Teste da Razão de Verossimilhança: estimar qU,
LU (sem restrição) e qR, LR (com restrição);
LR=LR/LU; T=-2.ln[LR]=-2.(LLR-LLU)~Chi2[nr]
• Teste de Wald: qU,V[qU],V[C]=C’.V[qU].C;
W={Cr[{q}]-cr} ’.V[C]-1.{Cr[{q}]-cr}~Chi2[nr]
(restrição simples qk=0, corresponde ao teste t)
• Teste do Multiplicador de Lagrange: qR (com
restrição); LM=LL’.V[qR]-1.LL ~Chi2[nr]
28
Método II: Método dos Momentos
Estatísticos (Ordinário)
• Momento:E[Gm[{Y},{X}/{q}]]=Hm[q], gm[q]=0
(média, variância, covariância, ...)
• Amostra: E[Gm[{Y},{X},{q}]]=Hm[q], gm[q]=0
E[gm]=1/n.Si(Gm[yi,{xk}i])-Hm[q]=E[Gm]-Hm[q]
C[gm,gn]=1/(n.(n-1)).Si(Gmi-E[Gm]).(Gni-E[Gn])
• Estimador do Método dos Momentos: {qk},{gl}
com l=k: E[gm]=Hm[q]=>qMoM=Hm-1[E[gm]]
V[qMoM]→(qkgm[])-1.C[gm,gn].(qkgn[])-1)’
• É consistente mas não necessariamente eficiente
Método II: Método dos Momentos
Generalizado
• Estimador Generalizado: {qk},{gl}, com L>K
qGMM=argmín g’.g ou argmín g’.W.g, pesos W
(GMM=MDE, baseado na distância D=g’.W.g)
• se {plim[gl]=0} a estimativa é consistente c/qq
matriz de pesos positiva definida (inclui W=I) e
V[qGMM]→Q.G’.W.V[{gl}].W.G.Q/n, com
Q=(G’.W.G)-1, onde G=plimqkgl (~na amostra)
• estimativa eficiente com W=V[{gl}]-1 e
V[qGMM]→G’.W.G/n, onde V[{gl}]~C[gm,gn]
29
Testes Gerais para Estimadores de
Momentos Generalizados
• contrapartida de LR, Wald e LM: Cr[{q}]=cr,
- LR: qU, qU=gU’.WU.gU e qR, qR=gR’.WU.gR;
ln[LR]=qR-qU; T=-2.ln[LR]~Chi2[nr]
- Wald: qU,V[qU],V[C]=C’.V[qU].C c/GMM
W={Cr[{q}]-cr} ’.V[C].{Cr[{q}]-cr}~Chi2[nr]
- LM: qR,P=g’.V[{gl}]-1.g,Q=g’.V[{gl}]-1.g;
LM=n.P.g’.V[{gl}]-1.g.Q~Chi2[nr]
• teste da validade das condições de momento:
com L>K, é possível testar cada restrição ...
Método II: Unificação
• Diversos resultados são similares/equivalentes
– O que garante estimadores justos ou consistentes?
– O que garante estimadores eficientes?
• Diversos estimadores são os mesmos !!!
– LS para modelo linear simples: â=(X’.X)-1.(X’.Y)
– ML para modelo linear simples: â=(X’.X)-1.(X’.Y)
– As propriedades devem ser as mesmas !!!
• Estimadores de Extremo (Máximo/Mínimo)-MM
• ... Equações Estimadoras-EE (Ótimas: EEOp ...)
30
Método II: Estimador de Extremo
(ou Máximo/Mínimo) - MM
• Classe geral: ML, MQ, MG, ... não linear ...
• otimização de uma métrica m[c,Y,X]: se
– m[c,Y,X] converge para uma função m*[c]
– m*[c] é côncava (ou pelo menos contínua) e tem um
um ótimo único em c* (o valor correto de c)
– C é convexo e c* é um ponto interior de C
(ou C é pelo menos compacto, ie fechado e limitado)
então cMM=arg max{c} m[c,Y,X] converge para c*
V[cMM]→... normal
Método II: Equações Estimadoras
• LS e NLS, estimador igual a ML com d.normal:
– b=(X’.X)-1.(X’.Y) ou bg[x,b].(y-g[x,b])=0se o estimador é o mesmo, propriedades iguais !
• ênfase nas equações estimadoras {hk[Y,x,c]=0}
– não viesadas se E[hk[Y,x,c]]=0 para qq c válido
– ótimas se V[hk[Y,x,c]] mínima (hS normalizada)
{hSk[Y,x,c]}={E[chk[Y,x,c]]}-1.{hk[Y,x,c]}=0
C[hS[]]={E[chk]}-1.E[{hk}.{hk}’].{E[chk]}
-1
– cEE é consistente se {hk[Y,x,c*]=0} converge para
h[c] contínua e h[c]=0 apenas p/c* c/V[cEE]→C[hS]
31
Métodos II - Alternativas I
• Quase-verossimilhança: ML com f[e]~N=>LS
mas LS tb é consistente/eficiente sem f[e]~N
Tipo 1: especificação correta de E[Y]=g[x,q],
com f[w]=exp(c[g].w+d[g]+z[y])
Tipo 2: especificação correta de V[Y]=s2[x,q],
tb com f[w]=exp(c[g,s2].w+d[..]+z[y]+h[..].w2)
então, com observações independentes, vale que
q*=arg max Lq é consistente, Lq=Si(ln[f[yi]])
• referências: White ou Gourieroux&Monfort ...
Método II: Modelos Lineares
Generalizados - GLIM
• transformação de variável: link g[Y]=h[X]=a.X
f= normal Poisson Pascal-NB binomial
g[Y]= Y Y ou ln[Y] Y ou ln[Y] ln[p/(1-p)]
• f[y,q/g]=exp(a[y].b[q,g]+c[q,g]+d[y]), tipo 1 ...
parâmetros de interesse:q; parâmetros de rúído:g
forma canônica c/a[y]=y; parâmetro natural:b[q]
propriedade: E[a[y]]=-(b’[q])-1.c’[q], V[a[y]]=...
• procedimento geral de estimativa: ML=IWLS
inferência: deviância=-2.ln[LR∞]~Chi2[n-p]
32
Métodos II - Alternativas II
• Verossimilhança empírica: não paramétrica yi,pi
MEL: máx L[{yi,pi}] s.a. E[{hr[{Yi},{qk}]}]=0
iid: ln[EL]=Siln[pi], E[hr]=Si(pi.hr[{yi},{qk}])
ex.: restrição Sipi=1 => pi=1/n, p[yi]=SiI[yi]/n
• Restrições podem envolver parâmetros (m, s, ...)
E[Y-m]=Sipi.(yi-m),E[(Y-m)2-s2]=Sipi.((y-m)2-s2)
• cMEL consistente, assintoticamente normal ~cEE
Vp[cMEL]→{E[chr]}-1.E[{hr}.{hr}´].{E[chr]}
-1
• referências: Art Owen (tb Hansen ...)
Métodos II - Alternativas III
• Informação: I=Sipi.ln[pi/pi0] (Kulbach, Leibler)
Entropia: S=-Sipi.ln[pi] (Shannon) ... para {pi}
• IKL: estritamente convexa, >=0 (0 se pi=pi0 qq i)
não paramétrica, generaliza critério EL c/{pi0}
• MCE: máxSipi.ln[pi/pi0]s.a.Si(pi.hr[{yi},{qk}])=0
pi=pi0.e-Srlr.hr[{yi},{qk}]/Sj(pj0.e
-Srlr.hr[{yj},{qk}]),Sipi=1
• a distribuição de referência {pi0} pode basear-se
em funções hipotéticas (ex.: {pi0~wi.Zi}) ...
• Golan et al. (1996) ... Wilson (1974),Roy (2004)
33
Regressão Não Paramétrica
• de forma similar, estimativas de outras f’s ...
• estimativa de momentos condicionais: E[yi/xi]
forma não paramétrica E[yi/xi]=m[xi]+ui
onde m[x] não é especificada funcionalmente
(analogia: regressão não paramétrica)
• assumindo também E[u/x]=0 e V[u2/x]=s2[x],
tem-se a estimativa não paramétrica usual
m[x]=Si(yi.K[yi])/SiK[yi], c/yi=(xi-x)/h
• de forma similar, outras estimativas de m[] ...
34
Estimativa da Precisão com
Métodos de Reamostragem
• Reamostragem: inferir propriedades dos
estimadores explorando a amostra de dados
– Jacknife: amostra {xi} com n obs, q[X]~q[{xi}]
qi[{xl≠i}]=>tJ=Siqi/n, s2tJ=Si(qi-tJ)
2/(n-1)/n
– Bootstrap: amostra {xi}, EDF F[X], q[X]~q[{xi}]
{x*i} c/EDF, q*
i[{x*i}]=>tB=Siq
*i/r, s
2tJ=Si(q
*i-tB)2/r2
– Cross-Validation: amostra {xi}, q[X]~q[{xi}], x´=q´
x´=qi[{xl≠i}], ei=xi-x´, ê=Sie´/n, s2tJ=Si(ei-ê)2/(n-1)/n
• Métodos intensivos em computação, aplicáveis
de forma mais geral (mediana, correlação, ...)
35
Abordagem Bayesiana
• Paradigma de Bayes: subjetivista 1. Informação a priori+Informação amostral
=>Informação a posteriori2. Observação: {xk}, amostra gerada (realização) pelo modelo estatístico
=> verossimilhança do modelo3. Inferência bayesiana: valores esperados, intervalos de confiança com modelo a posteriori
• Teorema de Bayes: (chance a posteriori)=(chance a priori).(verossimilhança amostral) ...
Abordagem Bayesiana
Spanos (1999)
• Esquema da Abordagem Bayesiana:
Modelo Estatístico: {F,{X}}
Distribuição a priori:
g[c]
Distribuição a posteriori:
h[c/{xi}]~g[c].f[{xi};c]
Dados observados: {xi}
36
Estimativa (Análise) Bayesiana
• Abordagem bayesiana: acumula evidências ...
– P[c/y1,y2a posteriori]~P[y2/c,y1].P[c/y1], P[y1/c].P[c]
– O[c/y1,y2a posteriori]=R[y2/c,y1].R[y/c].O[c a priori]
– Chance relativa (Odds): O[c]=Pr[c]/Pr[~c] inicial
... O[]=Pr[]/Pr[~]=Pr[]/(1-Pr[])=>Pr[]=O[]/(1+O[])
– Razão verossimilhança: R[y/c]=L[y/c]/L[y/~c]
... R[y2/y1,c]=L[y2/y1,c]/L[y2/~y1,~c] se y1 e y2 indep
• Previsores naturais de c: baseados em F[c/x,...]
média[c/x,...] ... mediana[c,x...] ... moda[c/x,...]
intervalo de confiança a: [F-1[a/2]; F-1[1-a/2]]
Estimativa (Análise) Bayesiana
– Métodos de Decisão
• Melhor Estimativa: melhor Custo/Benefício da
ação decorrente (com distribuição a posteriori!)
• Função Perda (Loss Function): f[R/D[T=t],C=c]
previsão t*=argmín ∫R.f[R/D[t],c].f[c/y].dc ...
• R decorre das decisões tomadas com base na
conjectura C=t e das repercussões de C=c ...
• Exemplo:se C>t decidir intervenção (D[t]=ação)
RetornoLíquido=P[C>t]*(Ra-Ca)+P[C<t]*CNa
Ra-Ca=retorno da ação; CNa=custo da inação!
37
Estimativa (Análise) Bayesiana
- Distribuições Conjugadas• T.Bayes: uma expressão usualmente complexa
P[c/y]=P[y/c].P[c]/P[y], P[y]=∫P[y/c].P[c].dc
• Distribuições conjugadas: formas de P[c], P[y/c]
que determinam a mesma forma de P[c] e P[c/y]
– Normal: conjugada de si própria: C, Y/C => C/Y ...
– K/M=m~Poisson, M~Gamma[a,b] são conjugadas;
P[M/K=k]~Gamma[a+k,b+1] ... Gamma[a+Ski,b+n]
composição: K~Pascal[p,r], p=1/(1+b), r=a ...
– K/Q=q~Binomial, Q~Beta[a,b] são conjugadas ...
• Sem distribuição conjugada: método numérico!
Estimativa (Análise) Bayesiana
- Métodos com Simulação
• Exemplo: média na distribuição a posteriori
f[c/y]=f[y/c].f[c]/f[y], f[y]=∫f[y/c].f[c].dc
E[C]=∫c.f[c/y].dc c/simulação de Monte Carlo
• Dificuldade é simular distribuição a posteriori
• Motivação básica do desenvolvimento dos
métodos de Monte Carlo em Cadeia de Markov
(MCMC: Monte Carlo Markov Chain Methods)
• Amostragem de Gibbs e Metropolis-Hastings
em geral usam f[c/y]~f[y/c].f[c], sem f[y] ...
38
EBM-Método Bayesiano Empírico
• Como definir a distribuição a priori f[C=c]?
• Método Bayesiano Empírico: amostra inicial!
• Exemplo: K/M=m.Q~Poisson, M~Gamma[a,b]
a posteriori P[M/{ki,qi}]~Gamma[a+Ski,b+Sqi]
composição: K~Pascal[p,r], p=1/(1+b), r=a ...
– {ki,qi} permitem obter p=E[K]/V[K], r=E[K].p/(1-p)
– tb{a, b}: b=q*.mk/(q*.sk2-mk), a=mk.b, q*=1/Si(1/qi)
– novo kn,qn: Kn=Mn.qn, Mn~Gamma[a+kn,b+qn]
então E[Mn]=(a+kn)/(b+qn), E[Kn]=E[Mn].qn ... !
Estimativa (Análise) Bayesiana
– Exemplo
• Ocorrência de acidente: distribuição poissoniana
em um dado local, taxas variáveis entre locais ...
• amostra: {ki} acidentes em diversos locais i
• Pr[Ki=ki/mi]=e-mi.miki/ki! => mi: não conhecido
• a priori: Gamma[a,b], fM[m]=ab.e-a.m.mb-1/G[b]
• P[K=k/m].P[m/a,b]=e-m.mk/k!.ab.e-a.m.mb-1/G[b]
para o local i: L[mi/a,b,ki]~e-(a+1).m.mb+ki-1
a posteriori: Gamma[a+1,b+ki],mi=(b+ki)/(a+1)!
• [a,b] podem ser obtidos empiricamente: EBM ...
39
Comparação das Abordagens
• Abordagem clássica: inferir c com amostra y ...
verossimilhança: Pr[y/c] dado c, L[c/y] dado y !
máxima verossimilhança c*=arg max L[c/y]
• Abordagem bayesiana: Pr[c/y]~Pr[y/c]*Pr[c] ...
ou O[c/y a posteriori]=R[y/c].O[c a priori]
Chance relativa (Odds): O[c]=Pr[c]/Pr[~c]
Razão verossimilhança:R[y/c]=L[y/c]/L[y/~c]
• Distribuição a priori não informativa (uniforme)
reproduz a regra de máxima verossilhança ...
Comparação das Abordagens
• Abordagem clássica: L[c/y] dado y ...
máxima verossimilhança c*=arg max L[c/y]
• Abordagem bayesiana: Pr[c/y]~Pr[y/c]*Pr[c] ...
média[c/x,...] ... mediana[c,x...] ... moda[c/x,...]
• Critérios estatísticos podem ser insuficientes ...
adicionar critério baseado em custo benefício ...
decisão: parâmetro c; função perda/retorno R[c]
método de decisão: c*=arg max ∫R[c].f[c/x].dc
• Dificuldades: obter Pr[c], f[c/x], R[c] e c* ...
40
Referências Básicas:
• Trivedi/2002, cap.10 ... ou qq outra fonte usual
... distribuições: Law&Kelton/2000, cap.6 ...
... condicionais: Peracchi/2001, cap.1-2 e 4 ...
• Visão Estatística Clássica:
Kutner et alii (2005), 5thed., cap. 1-3,6-8, 13 ...
• Visão Econométrica Clássica:
Greene (2005), 5thed., cap.16-18,2-4, 9 ...
• Bayesiano: Carlin&Louis (1996)
Reamostragem: Efron&Tibshirani (1993)
41
MODELOS PARA CONTAGENS
• Contagens: a variável dependente é discreta e as
hipóteses usuais dos modelos aplicados para
variáveis contínuas não são válidas
• Caso comum para dados de acidentes ou
contagens em curtos períodos de tempo
• Aproximação contínua: contagem>>0 ... embora
algumas hipóteses específicas sejam necessárias
• Caso especial: Z=0,1 (variável binária)
usada para representar classe(s)/escolha(s) …
Modelo Básico para Contagens
• Regressão poissoniana: contagem y=0,1,2,...
Pr[Y=j|m]=exp(-m).mj/j!, mj=E[Y|{xk}i]=eqxi
• Estimativa usual por Máxima Verossimilhança:
observações independentes: {yi}, i=1, ... n
máx L[{Yi=yi|mi[Xi]}]=Pi(exp(-mi).miyi/yi!)
máx LL[{qk}]=Si(-mi+yi.ln[mi]+ln[yi!]) ...
• Equações Estimadoras: qLL=0
Si(yi-eSk(qk.xki)).xki=0 => solução numérica {qk}
• Chi2= Si(yi-mi)2/mi , R2
P=1-Chi2/Si(yi-my)2/my)
42
Mod.Contagens: Sobre-dispersão
• Regr.negativa binomial: contagem y=0,1,...
(heterogeneidade: mj=E[Y|{xk}i]=eqxi+ei ...)
Pr[Y=j|r,p]=(r+j-1)!/(r-1)!/j!.pr.(1-p)k ,
mi=E[Y|{xk}i]=ebxi , V[Y|{xk}i]>E[Y|{xk}i]
função cedástica: s2=f.m (I), s2=(1+a.m).m (II)
• Estimativa tb por Máxima Verossimilhança
• para NB-I, as estimativas de {qk} são iguais !
estimativa da variância é multiplicada por f!
• estimativa de f: f=Chi2/(n-p) c/regr.poissoniana
Mod.Contagens – Zero Inflado
• Excesso de Zeros: Pr[Y=0|m]=z+(1-z).exp(-m);
Pr[Y=j>0|m]=(1-z).exp(-m).mj/j!, j=1, 2, ...
mi=E[Y|{xk}i]=eqxi e zi=E[Y|{xk}i]=egxi ou cte!
• parametrização alternativa: modelo de Hurdle
Pr[0]=eg=cte; Pr[j>0]=(1-eg)/(1-e-m).e-m.mj/j!
• Estimativa tb por Máxima Verossimilhança ...
pode ser tb aplicado à regr.negativa binomial
• dificuldade é teórica: como justificar e
interpretar a ocorrência excepcional de zeros?
43
Modelos para Duração
• versão desagregada: T entre eventos discretos !
Exemplo: entre falhas, entre chegadas, ...
• função de risco: H[t]=Pr[T=t/T>t]=f[t]/S[t]
função de sobrevivência: S[t]=1-Pr[T<t]
• modelo básico: exponencial Pr[T>t/m]=e-m.t,t>0
observações independentes: {ti}, i=1, ... n
máx L[{Ti=ti|mi[Xi]}]=Pi(mi.exp(-mi.ti))
máx LL[{qk}]=Si(ln[mi]-mi.ti) ... H[t]=cte=m !
• tb Weibul (H cresce ou decresce), Lognormal ...
Referências Básicas:
• Kutner et al. (2005)-AppLiStM, 5th ed., cap.14
– Fleiss et al.(2003)-StMeth.Rat&Pr,3rded., cap.12
• Greene(2005)-EconAn, 5thed., in 21.9, 22.5
– Wooldridge(1999), Cameron&Trivedi (2005)
• Mais sobre contagens:
– Cameron,Trivedi (1998)-Regr.An.ofCountData !!!
– Winkelmann (1997)-EconAn.ofCountData
• Em segurança viária:
– Allain,Bregnac (2001)-RTS 72, pp.3-18, …
44
MODELOS PARA CLASSES OU
ESCOLHAS DISCRETAS
• Classes/Escolha Discretas: variável dependente é a classe (nominal) ou a opção escolhida (uma das alternativas existentes); com representação: binária (0 ou 1) ou como proporção (agregada)
• Exemplo I: Previsão de acidentes fatais, gravesExemplo II: Previsão da gravidade dos acidentes
• Hierárquico (níveis de escolha); Ordinal; MistoExemplo III: Escolha sobre comprar ou não um automóvel (o 1o., o 2o., …) e escolha do tipo de automóvel, ano, … seu uso diário (qtidade …)
Modelo Básico para Proporções
• Regressão Logística: Pr[Y=1|X]=FL[X,q]
onde FL[X,q]=eZ/(1+eZ), com Z=m[X,q]=q’.X
• Estimativa usual por Máxima Verossimilhança:
observações independentes:{yi}ou{pi}, i=1, ... n
máx L[{Yi=oi|Zi]}]=Pi(eZ/(1+eZ))oi(1/(1+eZ))1-oi
máx LL[{qk}]=Si(oi.Zi-(ln[(1+eZ)])), Zi=Skqk.xki
• Equações Estimadoras: qLL=0
Si(yi-eZ/(1+eZ)).xki=0 => solução numérica {qk}
• R2L=Si(oi.ôi+(1-oi).(1-ôi))/n, r2=1-LL[q]/LL[0]
45
Tipos de Modelos Usuais
• Logit Multinomial: Y em {A,B,...} J alternativas
P[Y=j|X]=eZj/Sl(eZl), com Zl=ml[Xl,ql]=ql’.Xl
IIA: P[Y=j|X]/P[Y=l|X]=eZj/eZl, sem demais ...
máx LL[{qk}]=Si(oi.Zi-(ln[Sl(eZl)])), Zi=Skqk.xki
• Logit c/Lista Ordenada: ordenação A,B,C ...
L[A,B,C|X]=Pr[A/{A,B,C}|X].Pr[B/{B,C}|X] !
• Logit Ordenado: Y em {0,1,...} J alternativas
escala Z=q’.X e níveis latentes t1, t2, ... tJ, ... c/
P[0]=Pr[Z<t1],P[1]=Pr[t1<Z<t2]...P[J]=Pr[Z>tJ]
Uso de Dados Agregados
• dados agregados: pi=Si(yi)/n, V[pi]=pi.(1-pi)/n
pi=eZi/(1+eZi), Zi=q’.Xi=>Li=ln[pi/(1-pi)]=q’.Xi
onde Zi=q’.Xi=Sk(qk.Xki) ou Sk(qk.fk[{Xj}i]) ...
• correção de viés: Li=ln[(pi+1/2/n)/(1-pi+1/2/n)]
• Li=q’.Xi, linear c/heterocedasticidade =>WLS
Wi=1/V[Li], V[Li]~(g´)2.V[pi]=>Wi=n.pi.(1-pi)
• tb ML: máx LL[{qk}]=Si(pi.Zi-(ln[Sl(eZl)]))
• caso multinomial: J-1 equações aparentemente
não relacionadas (uma alternativa é a básica) !
46
Análise de Dados Pareados
• Análise de pareamentos: cada par é um estrato
especificação usual: pi=eZi/(1+eZi), Zi=q’.Xi+qi
(uma constante específica para cada par/estrato)
• Para eliminar qi (reduz parâmetros a estimar):
Verossimilhança condicional: dado Yi1+Yi2=TYi
- estudo retrospectivo: X/TYi=1, c/Yi1=1,Yi2 =0
L[X/TYi =1]=Pr[Xi1/1].Pr[Xi2/0]/(Pr[10]+Pr[01])
- estudo prospectivo: Xi1Yi1 e Xi2Yi2, dado TYi
ocorre TYi=0 (00), TYi=2 (11) e TYi=1 (10 ou 01)
Modelos Alternativos para Proporções
• Modelos Alternativos para proporções: Probit ...
outras distribuições (Weibul: FW[X,q]=exp[-eZ])
• Modelo Probit: Pr[Y=1|X]=F[q’.X] c/ Z=q’.X
• Estimativa usual por Máxima Verossimilhança:
observações independentes:{yi}ou{pi}, i=1, ... n
máx L[{Yi=oi|Zi]}]=Pi(FN[q]))oi(1- FN[q])1-oi
máx LL[{qk}]=Si(oi.Fi+(1-oi).(1-Fi)), Fi=F[Zi]
• EE:Si(oi.fi/Fi-(1-oi).fi/(1-Fi)).xki=0, Z=Skqk.xki
• WLS: F-1[pi] aproximado e Wi=n.fi2/Fi.(1-Fi)
47
Teorias e Modelos de Escolha-I
• Modelos de Escolha Discreta baseados na
Teoria da Utilidade Aleatória: Uj=Vj+Ej ...
Vj: parcela sistemática da utilidade da opção j
Ej: parcela aleatória da utilidade da opção j
• Probabilidade de Escolhas: Pr[Y=j]=Pr[Uj>Uk]
Pr[Y=j]=Pr[Vj+Ej>Vk+Ek]=Pr[Ej-Ek>Vk-Vj]
com F[{Ej}] obtém-se Pr[Y=j], condicional a X
• Hipótese usual: F[{Ej}]=PjFW[Ej], Gumbel IID
obtém-se os modelos logit P[Y=j|X]=eZj/Sl(eZl)
Teorias e Modelos de Escolha-II
• Modelos logit multinomiais P[Y=j|X]=eZj/Sl(eZl)
– Vj usualmente linear: Vj=qi0+Skqk.xkj onde
qi0: constante específica da alternativa j
(resume o efeito de variáveis ctes não incluídas)
qk: parâmetro de atributo genérico (igual qq j)
(exemplo: custo monetário é em geral genérico)
qkj : parâmetro de atributo específico da opção j
(exemplo: tempo de viagem, conforto varia ...)
– apenas diferenças: eZj-Z0/(1+Sl(eZl-Z0) e q00=0
– unidade de Vj indefinida ou m*Vi e qk=1 (m=qk)
48
Teorias e Modelos de Escolha-III
• Modelos de Escolhas Discretas Generalizados:
GEV: modelo de valor extremo generalizado
Pr[j]=ViU, U=E[máx{Ui}]=1/m.(ln[G]+g),
onde G[{eVi}]=GEV[m], recursiva ... (g=0,577)
– Cross-nested L: cruzado G=Sm(Siaim.emmVi)m/mm)
– Nested L: aninhado G=Sm(Sidim.emmVi)m/mm), 0/1
• Biogeme: estima MNL, NL, CNL ... RNEV ...
CNL NL0
1 2
A B C
0
1 2
A B C
Referências Básicas:
• Kutner et al. (2005)-AppLiStM, 5th ed., cap.14
– Fleiss et al.(2003), StMeth.Rat&Pr, 3rd ed., cap.11 e
cap.13-14 (pareamentos) ... Kleinbaum
• Greene(2005)-EconAn, 5thed., cap.21
– Wooldridge(1999), Cameron&Trivedi (2005)
• Sobre modelos de escolhas:
– BenAkiva,Lerman (1985)-DiscreteChoiceAn.
– Hensher,Rose,Greene (2005)-AppChAn.Primer
– Train (2003)-DCh.wSimul; (1995)-QualChAn.
– Louviere,Hensher,Swait (2000)-StatedChoiceM.