PROBABILIDADE & PROCESSOS ESTOCÁSTICOS · Russos : Markov, Chebyshev, Liapunov, Kinchine,...
Transcript of PROBABILIDADE & PROCESSOS ESTOCÁSTICOS · Russos : Markov, Chebyshev, Liapunov, Kinchine,...
PROBABILIDADE & PROCESSOS ESTOCÁSTICOS
H. Magalhães de Oliveira, docteur
Programa de pós-graduação em Engenharia Elétrica
DINTER UEA-UFPE
E-mail [email protected] URL http://www2.ee.ufpe.br/codec/deOliveira.html
SUMÁRIO DA PARTE I
Conceitos de Probabilidade
limsup e liminf, classes monotonicas Álgebra e σ-álgebra
Continuidade Independência e probabilidade condicional
Funções mensuráveis e variáveis aleatórias Bernoulli, Binomial, geométrica, Poisson, uniforme, exponencial, gama, beta, normal, chi2, Weilbull... Variáveis conjuntas Transformação de variáveis aleatórias .................................. Vetores aleatórios: Jacobiano Desigualdades: .................................. Jensen, Minkowski, Liapunov, Cr Função característica e suas propriedades .................................. Geradora de momentos
Cotas sobre probabilidades .................................. Chebyshev .................................. Markov .................................. Chernoff Seqüências de variáveis aleatórias Critérios de convergência .................................. em média quadrática .................................. em probabilidade .................................. com probabilidade 1 .................................. em distribuição
Lei dos grandes números .................................. Teorema de Bernoulli .................................. Teorema da Kolmogorov .................................. Teorema de Borel Teorema central do limite .................................. (Lindenberg-Lévy, Lyapunov, etc.) [Médias estatísticas e momentos .................................. Correlações, propriedades...] Estimação e predição: Amostragem
SUMÁRIO DA PARTE II
Processos Estocásticos (contínuos e discretos) Definições e classificação Estacionaridade (sentido amplo e restrito) Passeio aleatório Processo de Wiener-Lévy (movimento Browniano) Onda telegráfica aleatória
Densidade espectral, teorema de Wiener-Kinchine Ergodicidade Processos estocásticos através de Sistemas Lineares .................................. Análise espectral Preditores lineares: Filtragem ótima de Wiener Processos Estocásticos Gaussianos .................................. Normal e log-normal .................................. Vetores gaussianos .................................. Processo banda-estreita
Processo de Poisson .................................. Processo de contagem .................................. Tempo entre chegadas .................................. Tempo de espera .................................. Processo filtrado Cadeias de Markov .................................. Equações de Chapman-Komogorov .................................. Classificação de estados .................................. Probabilidades limites .................................. Teoria das filas .................................. M/G/1, G/M/1, M/M/k ...
REFERÊNCIAS RECOMENDADAS Probability, Random Variables ans Stochastic Processes, A. Papoulis, McGraw-Hill, 1965. Probabilidade, Variáveis Aleatórias e Processos Estocásticos, J. Albuquerque, J.P. Fortes, W. Finamore, Interciencia, 2008.
Introduction to Probability Models, 9th ed. S.M. Ross, Academic Press, 2007. A First Course in Stochastic Processes, S. Karlin & H. Taylor, Academic Press, 1975.
Random Processes: An Introduction for Applied Scientists and Engineers, Davenport Jr, W.B., McGraw-Hill, 1970. Sistemas Probabilisticos, F.M. Campello de Souza, Vade Mecum, Recife, 2006. An introduction to the Theory of Random Signals and Noise, Davenport Jr, W.B. and Root, W.L, McGraw-Hill, 1958.
Probability Theory, M. Loève, Van Nostrand, 1963.
<<Incerteza é a marca indelével do universo.>>
Dennis Poisson. Assim um evento terá, pela sua própria natureza, uma chance, maior ou menor, conhecida ou desconhecida, e sua probabilidade será relativa aos nossos conhecimentos naquilo que lhe diz respeito.” Poisson, 1837. (Sceaux, França)
Probabilitas
PROBABILIDADES ALEATÓRIAS
Modelam o acaso em fenômenos empíricos
PROBABILIDADES ESPISTÊMICAS
Descrevem graus de crença parcial lógicos de pessoa/sistema intencional
Matemática determinismo Aleatório: Taboo Teorema de Gödel e o fim da “certeza matemática”
AXIOMAS 2 (lógica) = Resultados (Proposições) Mundo “real” Explicar resposta ao POR QUÊ?
TELEOLÓGICA (finalista) ESTATÍSTICA (probabilística) GENÉTICA (histórica) NOMOLÓGICA (dedudiva) ** científica
Deus ex-machina, anjos,...
???? Qual a finalidade? Tudo tem uma razão. Qual a utilidade? Por que fazer? Visão pessoal: (interrogações postas no inicio das questões, discordante).
1812 Laplace - escola deterministica (o demônio laplaciano)
Russos : Markov, Chebyshev, Liapunov, Kinchine, Kolmogoroff..
TEORIAS
i) Definição a priori como razão entre casos favoráveis para
total de casos possíveis.
ii) Freqüência relativa (Von Mises)
iii) Axiomática
iv) Medida de crença
Exercício.
Se A e B são eventos certos, i.e., P(A)=P(B)=1, avaliar, usando
apenas os axiomas de Kolmogorov:
P(A∪B) e P(A∩B).
Dicas: problemas 5 e 6.
UNIÕES FINITAS DISJUNTAS
Dados eventos A1, A2, A3..., An todos disjuntos par-a-par, então:
∑==
=n
k
k
n
k
k APAP11
)()(U .
Por indução finita:
P2. P(A1∪A2)=P(A1)+P(A2) (verdade via AX4)
Pn. Admita verdadeira Pn. ∑==
=n
k
k
n
k
k APAP11
)()(U .
Mostrar que Pn ⇒ Pn+1
)()( 11
1
1+
=
+
=
∪= n
n
k
k
n
k
k AAPAP UU ⇒T2 )()()( 1
1
1
1+
=
+
=
+= n
n
k
k
n
k
k APAPAP UU
⇒(via Pn) ∑+
=
+
=
=1
1
1
1
)()(n
k
k
n
k
k APAP U i.e. Pn+1 é verdadeira! Q.E.D.
APLICAÇÕES RECENTES DA TEORIA
• Inteligência artificial • Mecânica Quântica • Algoritmos probabilísticos (e algoritmos genéticos) • Lógica nebulosa • Teoria de informação • Controle estocástico • Redes neuronais • Teoria da evolução e seleção natural • Genética • Otimização • Predição, teoria da decisão, teoria dos jogos…
Etc. etc.
TEORIA DOS CONJUNTOS
Coleção arbitrária de elementos
Conjunto vazio – por abuso, aquele que não contém elementos.
CLASSE: conjuntos cujos elementos são conjuntos.
CONJUNTO DE INDICES = T
At, t ∈T.
Conjunto das partes (é uma classe)
A=w1, w2
℘ (A)= w1, w2, A, ∅
2n
Conjunto finito=
tem um número finito de elementos.
Conjunto enumerável =
se é finito ou
pode ser posto em correspondência biunívoca com .
CARDINALIDADE
|| ||= || ||=ℵ0
cardinalidade 2c (do continuum)
||A||=2c se e só se ∃ f:A → biunívoca.
1,2,3,..., ℵ0 (?) 2c
Paul Cohen (1934-2007), Medalha Fields
Não pode ser deduzido da teoria de conjuntos. ∃?=sim ou não.
Considere uma rede com diferentes caminhos entre os nós 1,2,3,4.
Os caminhos são indicados por letras. Escreva o evento K13, há
uma ligação (caminho fechado) entre o nó 1 e 3, em termos dos
caminhos A, B, C, D, E.
Aplique leis distributivas para mostrar que
K13=A∩ [B ∪C (C∩E)] ∪ D ∩ [E ∪ (B ∩C)].
CAMPO (ALGEBRA) ℑℑℑℑ
É uma classe fechada quando efetuamos um número finito
(arbitrário) de operações entre seus elementos.
i) A,B ∈ ℑ ⇒ A∪B∈ℑ
ii) A,B ∈ ℑ ⇒ A∩B∈ ℑ
iii) A ∈ ℑ ⇒ Ac ∈ ℑ
A,B∈ ℑ Ac,Bc∈ ℑ ⇒ Ac∪Bc∈ ℑ ⇒ [Ac∪B
c]c ∈ ℑ ⇔ A∩B∈ ℑ
Exercício.
Determinar uma álgebra em ΩΩΩΩ contendo A,B∈∈∈∈ΩΩΩΩ.
Use apenas ∪ e (.)c
Mostremos que
ℑ =∅,A, B, Ac, Bc, A∪B, (A∪B)c, A∩B, (A∩B)c, (B-A), (B-A)c,
(A-B), (A-B)c, A∆B, (A∆B)c
DEF. LIMITE INFERIOR
O conjunto de pontos que pertencem a quase todos os elementos Ak
de uma classe (exceto possivelment em um número finito delas) é
chamado de LIMITE INFERIOR de Att∈T
UI∞
=
∞
=
=1
:inflimn nk
kk AA
montar tais uniões e interpretar...
DEF. LIMITE SUPERIOR
O conjunto de pontos que pertencem a um número infinito de
elementos Ak de uma classe é chamado de LIMITE SUPERIOR de
Att∈T
IU∞
=
∞
=
=1
:suplimn nk
kk AA
montar as uniões e interpretar...
Obs-
kAinflim ⊆ kAsuplim
Exemplo (trivia).
Seja w∈Ak se k é ímpar
w∉Ak se k é par.
w∉ kAinflim e w∈ kAsuplim
CONVERGÊNCIA EM CLASSES
Seja Akk=1 uma classe de cardinalidade enumerável.
Dizemos que Ak é uma seqüência convergente e que existe um
limite na classe quando
kAinflim AAk == suplim
Escreve-se AAk =lim .
CLASSES MONOTÔNICAS
• Classe não-decrescente: A1⊆ A2 ⊆ A3 ⊆ A4 ...
notação An↑
• Classe não-crescente: A1⊇ A2 ⊇ A3 ⊇ A4 ...
notação An↓
Classes monotônicas são convergentes! Vejamos.
Se nB é uma seqüência qualquer, então:
I∞
= ≥=
nk
k
k
B
nkB
inf
↑ faça diagramas de Venn...
k
nk
k
B
nkB
≥==
∞
=
supU
↓ faça diagramas de Venn...
Verificação:
I∞
+=+ =
11
nk
kn BD, I 1+= nnn DBD ⇒ 1+⊂ nn DD
U∞
+=+ =
11
nk
kn BE, U 1+= nnn EBE ⇒ 1+⊃ nn EE .
Examinar o tipo e a convergência nas seguintes classes: Ω=[0,1]
≤<+
= 11
1|: x
nxAn e
<<=
nxxBn
10|:
σ-álgebra Álgebra de Borel
Uma σ-álgebra é uma classe não vazia fechada sobre todas as
operações enumeráveis com conjuntos.
Obs- toda σ-álgebra é uma álgebra, mas o inverso não é válido.
Obs- o conjunto das partes ℘(Ω) sempre uma σ-álgebra.
Seja C uma classe. Para que ela seja uma σ-álgebra é necessário e
suficiente que
∈∀ nA C,
1) ∈c
nA C
2) ∈
∞
=U
1n
nAC
Paralelo com o fechamento a.b e a+b
EXEMPLOS TRIVIAIS
ℑ := [0,0.5], (0.5,1), ∅, [0,1] é álgebra e σ-álgebra.
ℑ := [ ], [ ), ( ], ( ), ∅, [0,1] não é σ-álgebra.
Α Α Α Α álgebra de BOREAL na reta real
É a álgebra que contém uma determinada classe de intervalos na
reta real: os intervalos abertos.
Notas:
1) Por causa da regra de dualidade, fechamento sob
complementação e intersecções finitas (enumeráveis)
implica em fechamento sob uniões finitas (enumeráveis).
Podemos então trocar também, nestas propriedades,
intersecções e uniões.
2) A maior σ-álgebra para uma dada classe é o conjunto das
partes desta classe.
PROPOSIÇÃO.
A menor σ-álgebra passível de construção é ∅,Ω.
PROVA.
Se G é uma σ-álgebra e A∈ G, então F definição de σ-álgebra,
Ω,Ac e ∅ ∈ G e, portanto, F ⊂ G. Mas F é uma σ-álgebra, pois se
tomamos complementos ou uniões de conjuntos de F,
invariavelmente obtemos elementos de F. Segue-se que F é uma
σ-álgebra que está contida em qualquer outra σ-álgebra G que
contenha A, daí o resultado.
Classes monotônicas.
1) Ej∈
Ej ⊂Ej+1 e U∞
=
=1
limj
jn EE ∈
2) Ej∈
Ej ⊃Ej+1 e j
j
n EE I∞
=
=1
lim ∈
σσσσ-álgebra mínima
Está contida em qualquer σ-álgebra definida sobre a class.
É única. Fmin=∩F.
TEOREMA.
Toda σ-álgebra é uma álgebra monotônica e vice-versa.
TEOREMA.
A σ-álgebra mínima sobre uma classe e a classe monotônica
mínima sobre a mesma classe coincidem.
Α σΑ σΑ σΑ σ-álgebra de BOREAL
É a σ-álgebra mínima que contém uma determinada classe de
intervalos na reta real: os intervalos abertos.
FUNÇÕES DE CONJUNTO
Seja C uma classe. Considere uma aplicação de C em .
ϕ: C →
)(AA ϕa .
1. Funções de conjunto aditivas
Se C =Aj é uma classe disjunta e ∑==
=
n
j
j
n
j
j AA11
)(ϕϕ U , a função é
dita ser uma função de conjunto aditiva.
Notação: A∪B=A+B se A∩B=∅
Generalizando, tem-se ∑==
=n
j
j
n
j
j AA11
U , se Aj é disjunta.
2. Funções de conjunto σ-aditivas
Se C =Aj é uma classe disjunta e ∑∞
=
∞
=
=
11
)(j
j
j
j AA ϕϕ U , a função é
dita ser uma função de conjunto σ-aditiva.
• Se ∀j, |ϕ(Aj)|<+∞ , então a função de conjunto é dita σ-finita.
Nota. Toda função aditiva (ou σ-aditiva) exige que ϕ(∅)=0.
Prova. A=A+∅ ⇒ ϕ(A)= ϕ(A)+ ϕ(∅), daí o resultado.
TEOREMA.
Seja ϕ uma função de conjunto σ-aditiva tal que +∞<
∞
=U
1
)(j
jAϕ.
Então ∑j
jA )(ϕ converge absolutamente.
Nota.
+∞<∑j
jA )(ϕ (~⇒) +∞<∑j
jA )(ϕ
+∞<∑j
jA )(ϕ (⇐) +∞<∑j
jA )(ϕ .
Separando:
=+jA Aj ou ∅, se 0)( ≥jAϕ
=−jA Aj ou ∅, se 0)( ≤jAϕ .
∑∑∑ −+ += )()()( jj
j
j AAA ϕϕϕ
O primeiro termo converge por hipótese: ∑+ )( jAϕ
O segundo termo exclui -∞.
Sub-σσσσ-aditividade.
TEOREMA
Seja ϕ uma função de conjunto não-negativa, ϕ≥0, e aditiva.
Então:
i) ∀A | ϕ(A)<+∞ (σ-finita), se A⊃B ⇒ ϕ(B)≤ ϕ(A)<+∞
(monotonicidade)
ii) ∑==
≤
n
j
j
n
j
j AA11
)(ϕϕ U (sub-σ-aditividade).
Prova.
i A⊃B
A=B+(A-B) e B∩(A-B)=∅. (i.e. B∩(Bc∩A)).
Pela hipótese de aditividade, ϕ(A)= ϕ(B)+ ϕ(A-B). Mas como a
função é não-negativa, ϕ(A-B)≥0, e a monotonicidade segue.
ii U∞
=
+−−+−+=1
123121 ...)()(j
j AAAAAAA
ou seja, U∞
=
+∩∩+∩+=1
321211 ...)()(j
ccc
j AAAAAAA
Mas jj
c
i AAA ⊆∩ e pela monotonicidade (item i), segue-se:
U∞
=
+++≤1
321 ...)()()()(j
j AAAA ϕϕϕϕ, provando assim a sub-σ-
aditividade.
CONTINUIDADE DE FUNÇÕES DE CONJUNTO
ϕ é contínua por baixo se e só se ∀An↑
)(limlim nn A
n
A
n
ϕϕ
∞→=
∞→
ϕ é contínua por cima se e só se ∀An↓
)(limlim nn A
n
A
n
ϕϕ
∞→=
∞→
DEFINIÇÃO. ϕ é contínua se e só se ela é contínua por baixo e
contínua por cima.
Um exemplo. Seja A=[0,1].
dxeA x
∫−=
1
0
2/2
2
1)(
πµ (integral de Riemman)
Medida An⊂A .
Considere An↑ não decrescente A1⊆ A2 ⊆ A3 ⊆ A4 ... ∞
=
+−≤≤
+∈=
11
11
1
1|:
n
nn
xn
RxA
An →A
dxeA n
n
x
n ∫ +−
+
−= 1
11
1
12/2
2
1)(
πµ
Se µ é contínua, então )()(lim)(lim AAA nn µµµ == .
Mas i) )()(lim AAn µµ =
ii) )(
2
1
2
1lim)(lim
1
0
2/1
11
1
12/ 22
AeeA xn
n
x
n µππ
µ === ∫∫−+
−
+
−
µ parece ser contínua (de fato, ela o é). Porém, verificar
continuidade pela definição, já era!
Mostraremos a continuidade da função Probabilidade.
Probabilidade (Kolmogorov) é uma função de conjunto σ-aditiva
definida na classe de eventos de um espaço amostral. (rigor, escola
formal).
σσσσ-aditividade ⇔⇔⇔⇔ Continuidade.
Nota histórica.
Axiomas: Kolmogorov usou continuidade, ao invés de A5 (dá no
mesmo, são equivalentes). Hoje, usa-se formalmente a σ-
aditividade.
TEOREMA DA CONTINUIDADE DA MEDIDA DE
PROBABILIDADE (siga também Davenport Jr)
Prop(i) Toda função de conjunto σ-aditiva é aditiva e contínua.
Prop(ii) Se uma função de conjunto é aditiva, contínua por baixo,
finita e contínua em ∅, então ela é σ-aditiva.
Nota. Nem é preciso continuidade (por baixo e por cima), porém
leia-se em termos práticos:
i) σ-aditiva ⇒ aditiva e contínua
ii) aditiva e contínua ⇒ σ-aditiva.
PROVA.
(⇒)
Seja An ↑ uma seqüência não-decrescente (arbitrária).
U∞
=
=1
limn
nn AA
...)()(lim 23121 +−+−+= AAAAAAn
∑∞
=−−=
11 )(lim
n
nnn AAA se A0:=∅.
∑=
−−∞→
=n
k
kkn AAn
A1
1)(lim
lim
Aplicado a função de conjunto aos dois membros,
))(lim
()(lim1
1∑=
−−∞→
=n
k
kkn AAn
A ϕϕ. Pela σ-aditividade,
∑=
−−∞→
=n
k
kkn AAn
A1
1)(lim
)(lim ϕϕ.
Mas
)()()(..)()()()()(
)(
123121
11
nnn
n
k
kk
AAAAAAAA
AA
ϕϕϕϕϕϕϕϕ
ϕ
=−++−+−+
=−
−
=−∑
Então )(
lim)(lim nn A
nA ϕϕ
∞→=
é contínua por baixo.
Seja An ↓ uma seqüência não-crescente (arbitrária).
I∞
=
=1
limn
nn AA
Construa uma seqüência (An0-An) ↑ n≥n0, (não-decrescente),
com +∞<)( 0nAϕ . Aplicando a parte anterior da demonstração,
vem:
( ) )(lim)lim( 00 nnnn AAAA −=− ϕϕ
Ou seja, ( ) )(lim)(lim 00 nnnn AAAA ϕϕϕ −=− e finalmente,
( ) )(lim)((lim) 00 nnnn AAAA ϕϕϕϕ −=−
donde a continuidade por cima.
Se ϕ é contínua por baixo e por cima, então ela é contínua.
(⇐)
Parte A ∑ ∑=
∞
+=
∞
=
+=
n
k nk
kk
n
n AAA1 11
)( ϕϕϕ U .
Mas quando n→+∞, 0)(lim1
=∅=
∑
∞
+=
ϕϕnk
kA (use hipótese)
(é claro que assumimos a classse An disjunta, pois queremos
provar a σ-aditividade).
Assim, ∑∞
=
∞
=
=
11
)(k
k
n
n AA ϕϕ U
Outra demonstração.
=
=
∑∑
=
∞
=
∞
=
n
k
k
k
k
n
n AAA111
limϕϕϕ U . Pela continuidade por baixo, se
Bn ↑ então )(lim)(lim nn BB ϕϕ =
A seqüência construída é ∑=
=n
k
kn AB1
:↑ e segue-se
)(lim)(lim11∑∑
==
=n
k
n
n
k
n AA ϕϕ e, portanto,
∑∑∑∞
==
∞
=
==111
)()(lim)(k
n
n
k
n
k
n AAA ϕϕϕ Q.E.D.
TEOREMA (compacticidade).
Se ϕ é contínua, então ∃ C, D tais que
ϕϕ sup)( =C e ϕϕ inf)( =D .
Prova. Tomemos ϕ<∞.
An com An →A.
Cada An escrito como uniões disjuntas de In
k
kA1
'
=, sendo kk AA ='
ou
kk AAA −='.
São 2n subconjuntos. Caso n=2
A1∩A2 (A-A1)∩A2 A1∩(A-A2) (A-A1)∩(A-A2)
Exemplo. Caso n=2 reescrever A2
A2=(A1∩A2)+A2∩(A-A1) = Azul + Cinza
Exemplo. Caso n=3 reescrever A3
A3=
A1∩A2∩A3+(A-A1)∩A2∩A3+(A-A1)∩(A-A2)∩A3+A1∩(A-A2)∩A3.
Vermelho + Cinza + Verde + Azul
Seja U nmn AB =:, Bn=∅ quando 0)( <nmAϕ
Observação: mnmn AA ,'' ⊆ para n’>n.
=∪∪∪∪≤≤
∞
=++ U
nk
knnnnnn BBBBBBA ϕϕϕϕ )...()()( '21
ϕ contínua.
Defina U∞
=
=nk
kBC lim:
n→+∞, )(sup Cϕϕ ≤ , mas )(sup Cϕϕ ≥ (senão não seria sup).
Assim
).(sup Cϕϕ =
Prova nas mesmas linhas para a existência do inf.
Q.E.D.
Resolvendo a questão 11.
⊆kAinflim kAsuplim
An com conjuntos disjuntos para a par, Ai∩Aj=∅.
Calcularemos o lim sup Ak.
IU∞
=
∞
=
=1
suplimn nk
kk AA
...suplim4321UUUU∞
=
∞
=
∞
=
∞
=
∩∩∩=k
k
k
k
k
k
k
kk AAAAA
ou seja,
...)()(suplim 3211
211
111
++−∩
+−∩
−∩=
∞
=
∞
=
∞
=
∞
=
AAAAAAAAAAAk
k
k
k
k
k
k
kk UUUU
Escrevendo em termos de eventos complementares:
...)()(
suplim
3211
211
111
++∩∩
+∩∩
∩∩
=
∑∑∑∑∞
=
∞
=
∞
=
∞
=
c
k
k
c
k
k
c
k
k
k
k
k
AAAAAAAAAA
A
Usando de Morgan,
...)()(
suplim
3211
211
111
∩∩∩∩
∩∩∩
∩∩
=
∑∑∑∑∞
=
∞
=
∞
=
∞
=
ccc
k
k
cc
k
k
c
k
k
k
k
k
AAAAAAAAAA
A
ou seja,
=
∩=
∩= ∑∑∑
∞
=
∞
=
∞
=
∞
=
c
k
k
k
k
k
c
k
k
kk AAAAA1111
suplim I ∅.
Como ⊆kAinflim kAsuplim , então =kAinflim ∅.
De lim inf Ak=lim sup Ak, segue-se que o limite existe e vale ∅.
PROBABILIDADE CONDICIONAL
Dados A,B, com P(A)>0, define-se
)(
)(:)|(
AP
BAPABP
∩= .
Implicações
Se A∩B=∅ P(A∩B)=0 ⇒ P(B|A)=0.
Se A⊂B A∩B=A ⇒ P(B|A)=1
Se A⊃B A∩B=B ⇒ P(B|A)= P(B)/P(A)≥P(B).
Caso limite
P(B|A) com P(A)=0.
Como definir? Abordagem menos comum nos textos básicos.
Tome uma seqüência monotônica An ↓ que converge para A.
Defina então
)(
)(lim
:)|(n
n
AP
ABP
nABP
∩
∞→=
caso o limite exista e independa da escolha da seqüência An.
Probabilidade Total (lei das probabilidades totais)
Seja Bj uma partição de Ω.
∑=
∩=n
j
jBAPAP1
)()(
REGRA DE BAYES
Seja Bj uma partição de Ω, P(Bj)>0 (∀j).
A∈ Ω, P(A)>0.
∑=
=n
k
kk
jj
j
BAPBP
BAPBPABP
1
)|()(
)|()()|(
Nota. A e B mutuamente exclusivos são dependentes.
A∩B=∅ P(A∩B)=0
P(B|A)=0 ≠ P(B) ⇒ não são independentes.
Independência estatística entre eventos
n
kA 1 estatisticamente independentes se e só se para qualquer
subcoleção arbitrária:
Ij
i
j
i
kk iiAPAP
1 1
)()(= =
∏=.
PROVAS DE IGUALDADE ENTRE CONJUNTOS
A guia é estabelecer que
i) Se x∈A ⇒ x∈B. ii) Se x∈B ⇒ x∈A.
A função indicadora de conjunto. Para um conjunto A,
Aw
AwwI A ∉
∈
=0
1)( .
Álgebra de funções indicadoras- operações.
BABA III +=+ se A∩B=∅.
BABA III .=∩
2mod)( BABA III +=∆
Uma seqüência An converge para A
lim An=A ⇔ AA IIn
→ .
Funções mensuráveis e medidas Considerando a reta real . Classe: conjunto das partes de , ℘( ).
Gera-se uma álgebra A na reta que consiste em todos os intervalos
abertos I∈A, I⊂ . Os intervalos são do tipo I=(a,b) ou combinações
(finitas) deles.
A MEDIDA DE RIEMMAN (integral de Riemman)
A medida m de conjuntos na álgebra A é naturalmente (uma função de
conjunto) expressa pelo comprimento do intervalo, i.e.,
m(I):=l(I)=b-a.
(quantos centímetros há em uma régua, no intervalo entre as marcações 4 cm e
7 cm? Naturalmente l(I)=7-4=3 cm. Sabemos medir outros “conjuntos”?).
A extensão natural é passar de uma álgebra A para uma σ-álgebra
B⊂℘( ).
A σ-álgebra de Borel na reta real é aquela que contém todos os intervalos
abertos na reta (B é uma extensão de A, i.e. B ⊃A).
Como estender a medida m para os conjuntos em B? uma medida de extensão
(medida externa) foi utilizada.
A medida de Lebesgue: a caminho de variáveis aleatórias. Dado um conjunto A⊂ , define-se a medida
∑∪⊂
=)(inf
:)( n
n
Il
IAAµ .
Note que esta medida funciona como uma extensão: o caso particular de
conjuntos do tipo intervalos, A=I, e a medida usada não requer uma cobertura
Un
nI e a medida vale l(I)=b-a, coincidindo com a medida de Riemman.
NOTA-A medida de Lebesgue não é uma medida de probabilidade, pois
µ( )≠1 e, portanto, não obedece AX3 (normalização).
VARIÁVEIS ALEATÓRIAS Considere os mapeamentos X (denominados variáveis aleatórias)
)(
:
wXw
RX
a
→Ω
A cada ponto do espaço amostral, atribui-se um número na reta real. Isto
corresponde a transformar o objeto de estudo de um plano abstrato
(espaço amostral) em valores numéricos. Agora saberemos “fazer
contas”.
Conjuntos serão mapeados em intervalos (que são mensuráveis usando
as medidas – Riemman ou Lebesgue).
A variável aleatória é uma “função” (mapeamento): X(w)=x.
As transformações são entre dois sistemas – espaços de probabilidade triplas
(Ω,A,P’) ⇒ ( ,B,P)
Lembre o exemplo trivial: lançamento de um dado
No espaço amostral, há “face do dado caiu exibindo 1”, “face do dado
caiu exibindo 2”,..., “face do dado caiu exibindo 6”. Estes eventos são
mapeados via v.a. nos números reais 1, 2, 3, 4, 5 e 6.
Vejamos a medida de probabilidade: uma função de conjunto
P:AAAA→→→→[0,1]
Para cada subconjunto B na álgebra B
B∈B ⇒ P(B):=P(X-1(B)) se X-1(B)∈A.
Os conjuntos da σ-álgebra de Borel podem ser mensuráveis.
Funções mensuráveis
Dada f função real, contínua Qualquer conjunto do tipo x | f(x)>α α∈ é mensurável. Veja que conjuntos x | f(x)≥α são mensuráveis:
−>=≥+∞
=U
1
1)(|)(|
n nxfxxfx αα
Se x | f(x) ≥α é mensurável, seu complemento também o é: x | f(x) ≥αc= -x | f(x) ≥α = x | f(x)<α. Se x | f(x)<α é mensurável, x | f(x)≤α também o é, pois
+<=≤+∞
=U
1
1)(|)(|
n nxfxxfx αα
Assim, basta considerar conjuntos de um dos tipos: Seja a seleção x | f(x)≤α.
No contexto de variáveis aleatórias, consideram-se:
w ← x X ← f
w | X(w)≤α:=FX(α).
ISTO É a função distribuição da variável aleatória X!
Conhecido FX(.), tem-se informação para calcular a probabilidade de eventos
que representem quaisquer eventos que são meapados em conjuntos da álgebra
de Borel.
NOTAÇÃO
P(B):=Pw∈Ω | w∈X-1(B)⊂A
FX(α):=w | X(w)≤α
Usaremos simplificadamente FX(x)= Pr(X<x)
F é contínua à esquerda.
(observação: definindo-se F(x):=Pr(X≤x), F é contínua à direita).
NOTAS (DE RODAPÉ) SIMPLES
FX(x1)=P(w∈Ω | X(w)<x1)
FX(x2)=P(w∈Ω | X(w)<x2)
Se x1<x2 ⇒ F(x1) ≤ F(x2).
F(-∞)=P(w∈Ω | X(w)<-∞)=P(∅)=0.
F(+∞)=P(w∈Ω | X(w)<+∞)=P(Ω)=1.
Função densidade de Probabilidade
f(x) associada com a função distribuição de probabilidades F(x).
∫ ∞−=
x
dfxF ξξ )()( .
Como F(x) é não decrescente (monotonicidade), 0)(
)( ≥=dx
xdFxf .
Distribuições contínuas e diferenciáveis. Para os demais casos (discretas e
mistas), usam-se impulsos de Dirac.
Interpretando: ∆x suficientemente pequeno
xxfxxXxP ∆≅∆+≤≤ ).()( ou x
xxXxP
xxf ∆
∆+≤≤
→∆=
)(
0
lim)(
Discretas
Assumindo valores x1, x2, x3,... com probabilidade P(xi)
)()()( ∑ −==i
ii xxuxXPxF
Derivando aparecem impulsos. No caso de distribuições mistas:
∑ −=+=i
ii xXxXPdx
xdCxf )()(
)()( δ .
EXPERIMENTOS DE BERNOULLI
(ensaios de Bernoulli)
Um dos experimentos largamente usados é quando ao invés de lidar com
resultados de UM ÚNICO experimento, considera-se o caso e realização
repetida de um mesmo experimento.
Em particular, interessa a probabilidade de o evento ocorrer k vezes nas n
(n>k) realizações do mesmo.
(este é essencialmente o problema de obter k caras em n lançamentos de uma
moeda. O número de repetições do evento “jogar a moeda” é n.)
Se p denota a probabilidade de ocorrer o evento, 1-p é a probabilidade dele não
ocorrer (conseqüência imediata dos axiomas).
A probabilidade de ocorrência de k caras em n jogadas é (experimentos
independentes)
P(A1∩A2∩A3∩...∩An)=P(A1).P(A2).P(A3)...P(An)
p.p.p...p.(1-p).(1-p)....(1-p)
k vezes n-k vezes (total n)
Como os eventos da ocorrência de k caras em n lançamentos são mutuamente
exclusivos e ocorrem em número
k
n
, via AX4 tem-se:
P(k ocorrências em n eventos repetidos)=knk pp
k
n −−
)1(
Note que só podem ocorrer k=0, k=1, k=2, k=3, ou... k=n ocorrências.
MUTUAMENTE EXCLUSIVAS
P(Ω)= knk
n
k
ppk
n −
=
−
∑ )1(
0=[p+(1-p)]n=1 (vale AX3).
A probabilidade de haver a ocorrência entre k1 e k2 vezes o evento nos n
ensaios é dada por:
knkk
kk
ppk
n −
=
−
∑ )1(
2
1.
HIPÓTESES: Variável aleatória binária, n eventos, independencia entre eles.
TEOREMAS ASSINTÓTICOS.
Dá um “trabalhão” calcular estas expressões quando n é grande!
TEOREMA DE “DE MOIVRE-LAPLACE”
Assumindo que n é grande e também de modo que n.p.(1-p)>>1, então
Vale uma aproximação Gaussiana para a Binomial:
)1(2
)( 2
)1(2
1)1( pnp
npk
kke
pnppp
k
n −
−−
−≅−
π
Assim, o cálculo da probabilidade da ocorrência entre k1 e k2 vezes o evento
nos n ensaios pode ser estimado por:
dxepnp
ppk
n k
k
pnp
npx
kkk
kk∫∑ −
−−
= −≅−
2
1
2
2
1
)1(2
)(
)1(2
1)1(
π
Integral Gaussiana – Tabelada. Função Q(.) ou erfc(.).
−
−−
−
−≅−
−
=∑
)1.(.)1.(.)1( 12
2
1ppn
npkerf
ppn
npkerfpp
k
nknk
k
kk
(tirar pirulito de criança!)
Aproximação II. n→∞
A aproximação proposta por De Moivre requer n.p>>1.
Nos casos em que n.p≈1, isto não é válido. Considera-se agora:
TEOREMA DE POISSON n→∞
!
)()1(
k
npepp
k
n knpknk −− ≅−
Se n→∞ e p→0, mas com a relação n.p→a, tem-se
!
)()1(
k
aepp
k
n kaknk −− ≅−
.
Isto definirá a variável aleatória de Poisson e o processo de Poisson.
VARIÁVEIS ALEATÓRIAS USUAIS
Discretas Bernoulli, Binomial, Poisson
Contínuas Gaussiana, exponencial, Cauchy, Laplace,
Uniforme, beta, χ2
Mistas
GAUSSIANA UNIFORME
2
2
2
)(
22
1)( σ
πσ
mx
exf
−−
= contrário caso 0
1)(
bxaabxf
<<
−=
EXPONENCIAL chi2
)(.)( TueaTf aT−= )()2/(2
2)(
22 2/12/
xuexn
xfxn
nn
σ
σ−−
Γ=
BETA
Função fatorial generalizado (função gama de Euler) ∫+∞ − ==Γ
0!:)( xdex x ζζ ζ
Função beta )(
)().(:),(
ba
babaB
+Γ
ΓΓ=
11 )1.(),()( ++ −= βαβα xxBxfX
phibeta t α, β, ( )M α β, ( )
T α β, ( )α β+ 1−
t a α β, ( )−( )α 1−
b α β, ( ) t−( )β 1−
⋅ ⋅:=
Limitada à direita e a esquerda. Pode ser simétrica ou assimétrica. A simetria é controlada pelos parâmetros. MAXWELL
)(21
)(22 2/2
2xuexxf
x
X
σ
πσ−=
VETORES ALEATÓRIOS
O conceito de variável aleatória pode ser estendido para mapeamento no
espaço euclidiano n-dimensional.
X: Ω → n
exemplo: mapeamento em 3.
Um vetor aleatório é um mapeamento vetorial tal que
1) ∀x∈ n, o conjunto no espaço amostral X:=w∈ Ω |X≤x corresponde
a um evento.
O vetor de x:=(x1,x2,x3,...,xn) e
X≤x ⇔ (X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn)
2) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=∞,…, Xn(w) ≤xn)=0 (∀i)
3) P(X1(w) ≤x1, X2(w) ≤x2, …,Xi(w)=-∞,…, Xn(w) ≤xn)=0 (∀i).
FUNÇÃO DISTRIBUIÇÃO DE UM VETOR ALEATÓRIO
A função distribuição de um vetor aleatório é descrita por
FX: n →
x →FX(x).
Lembrete: o resultado é sempre um número real.
FX(x)=P(X≤x)=P(X1(w) ≤x1, X2(w) ≤x2, X3(w) ≤x3,…, Xn(w) ≤xn)
A notação mais usual é: ),...,,( 21,...,, 21 nXnXX xxxF .
PROPRIEDADES DA FUNÇÃO DISTRIBUIÇÃO DE UM VETOR
ALEATÓRIO
i) 0),...,...,,( 21,...,, 21=−∞ nXnXX xxxF
ii) 1),...,,...,,(,...,, 21=∞∞∞∞XnXXF (normalização AX3)
iii) F é monótona não-decrescente em cada argumento.
iv) F é contínua pela direita em cada argumento.
v) ∀i )(),...,,...,,(,...,,...,, 21 iXiXnXXX xFxFii
=∞∞∞ .
O caso usual de (v) é a reobtenção das distribuições marginais em cada
dimensão:
Partindo de ),(, yxF YX :
)(),(, xFxF XYX =∞
)(),(, yFyF YYX =∞ .
A função densidade de um vetor aleatório também pode ser definida por
extensão:
),...,,(...
:)( 21,...,,21
21 nXXX
n
n
X xxxFxxx
xfn∂∂∂
∂=
.
PROPRIEDADES DAS DENSIDADES DE VETORES
∫ ∫ ∫∞− ∞− ∞−=
1 2
2121...),...,(...),...,,( 2121...21...
x x x
nnXXXnXXX
n
nndddfxxxF ξξξξξξ
1) Normalização:
1...),...,(... 2121...21=∫ ∫ ∫
+∞
∞−
+∞
∞−
+∞
∞− nnXXX dddfn
ξξξξξξ
2) Não-negatividade:
0),...,,( 21,...,, 21≥nXXX xxxf
n
3) Distribuição Marginal:
∫ ∫ ∫∫+∞
∞−
+∞
∞−
+∞
∞−∞−= nnXXX
x
iX dddfxFn
i
iξξξξξξ ...),...,(......)( 2121...21
4) Densidade Marginal (caso usual):
∫+∞
∞−= dyyxfxf XYX ),()( e ∫
+∞
∞−= dxyxfyf XYY ),()(
Há que se estudar e ler detalhadamente definição e propriedades de
densidades de probabilidade condicionadas.
Relação entre densidades e INDEPENDÊNCIA ESTATÍSTICA
Independência entre duas v.a.’s X e Y. (desacoplamento)
X e Y Independentes ⇔ )().(),( yFxFyxF YXXY =
De modo equivalente:
Independência entre duas v.a.’s X e Y. (desacoplamento)
X e Y independentes ⇔⇔⇔⇔ )().(),( yfxfyxf YXXY = .
Do ponto de vista de densidades condicionais, a independência implica
em:
)()(| xfxf XyYX == e )()(| yfyf YxXY == .
Def. VETORES ALEATÓRIOS INDEPENDENTES.
No caso mais geral de vetores aleatórios, a independência é definida
quando
∏=
=n
i
iXnXXX xFxxxFin
121... )(),...,,(
21
Independência simplifica substancialmente as coisas! ...
VALOR ESPERADO E MOMENTOS
Uma variável assume valore REAIS. Assim, é possível realizar cálculos,
médias, modas, desvios...
O valor esperado de uma variável aleatória X é definido por
i
n
k
i xxXPXE )(:)(1∑
=
== CASO DISCRETO
∫+∞
∞−= dxxxfXE X )(:)( CASO CONTINUO
Interprete como médias “ponderadas” pela probabilidade de ocorrência.
Isto permite definir uma série de médias (MOMENTOS) de uma v.a.
E(X), E(X2), E(X3),..., E(Xn)
E os respectivos momentos centrais, relativos à média m=E(X)
(funcionam com o cálculo do centro de massa, momentos de inércia
etc.)
E(X-m), E((X-m)2), E((X-m)3),..., E((X-m)n).
Os momentos relevantes são sempre os primeiros, de ordem mais baixa:
E(X), média (m) E(X2), 2º momento
E(X-m)=0 (sem uso), E((X-m)2), variância (σ2)
Primeiro (medida do comportamento médio) Segundo (medida de espalhamento e variação, daí o nome)
O desvio padrão é também largamente usado, expressando idéia similar
à variância, mas com interpretação física atrativa
)(: 22mXE −== σσ
CASO DE DUAS VARIÁVEIS
X, Y
E(XnY
m)
E(X-mX)n(Y-mY)m.
Se n ou m são nulos, os momentos são marginais, não cruzados. Para
momentos “cruzados”, requer-se n,m≠0. Os momentos de menor ordem
deste tipo são
CORRELAÇÃO E(XY):= corr(X,Y)=RX,Y ou
COVARIÂNCIA E(X-mX)(Y-mY):=cov(X,Y)=KX,Y.
Observe o nome co-variância (variância, 2º momento, co=entre
variáveis).
Significado como medida de dependência.
(relação linear => correlação)
INDEPENDÊNCIA E MOMENTOS
X e Y independentes (usando o desacoplamento entre densidades)
E(XnY
m)=E(Xn).E(Ym) ∀n,m
Existem os dois tipos de momentos (cruzados) de 2ª ordem
E(XY)
E(X-mX).(Y-mY)=E(XY)-mXmY.
Cov e corr são relacionados.
Teste preliminar:
Se E(XY)=E(X)E(Y), então há um “desacoplamento parcial”, de 2ª
ordem.
Neste caso, cov(X,Y)=corr(X,Y)-E(X).E(Y)=0
ISTO É REFERIDO (por abuso) como correlação nula.
O coeficiente dito coeficiente de correlação normalizado (deveria ser de
covariância!) é
YX
XYXY
K
σσρ =:
Mostra-se que -1≤ ρ ≤+1.
O caso ρρρρ=0 é definido na literatura como correlação nula.
(não covariacionados, termos mais correto, soa estranho e nunca é usado!)
TRANSFORMAÇÕES DE VARIÁVEIS ALEATÓRIAS
Se existe uma função determinista em cuja entrada é aplicada uma
variável aleatória, a saída TAMBÉM será uma variável aleatória.
Exemplo.
X é v.a.
Uma função quadrática y=x2. (função)
A variável Y=X2 é aleatória. => transformação da v.a. X
Como determinar a distribuição de probabilidades da nova variável
(transformada) Y em termos da distribuição da entrada X, conhecida?
Vejamos. Y=g(X), (em termos de f.D.p)
FX(x)=P(X≤x) FY(y)=P(Y≤y)=P(g(X) ≤y).
[Y≤y] => [X≤x1 ou x2≤X≤x3 ou x4≤X≤x5] disjuntos (P é aditiva)
FY(y)=P(X≤x1)+P(x2≤X≤x3)+P(x4≤X≤x5).
Escrevendo agora em termos de integrais:
dxxfyF X
x
x
x
x
x
Y )()(5
4
3
2
1
++= ∫∫∫ ∞−
Ora, )(11 ygxi
−= (imagem inversa)
EXEMPLO
)()( xuexfx
X
−= . Seja a transformação Y=X2, quem é fY? y>0:
yy
xy
XY edxedxxfyF−− −=== ∫∫ 1)()(
00
u(y)eyFy
Y
−−= 1)( . (deriva-se e obtém-se a densidade).
GENERALIZAÇÃO
dxxfyF X
x
x x
x
x
x
Yn
)(...)(5
4
3
2
1
++++= ∫ ∫∫∫
+∞
∞−
Para a determinação da densidade de probabilidade, usa-se a REGRA
DE LEIBNITZ
( ) ( ) ∫∫ ∂∂
+−=)(
)(
)(
)(),(
)(),(
)(),(),(
α
α
α
αα
ααα
αααα
αααα
a
b
a
bdxxf
d
dbbf
d
daafdxxf
d
d
Aplicando-a na expressão de FY
dy
dxxf
dy
dxxf
dy
dxxf
dy
dxxf
dy
dxxf
dy
dxxf
y
yFyf n
nXXXXXXY
Y )(...)()()()()()(
)( 44
55
22
33
11 −−+−+=
∂
∂=
dy
dxxfyf i
iX
i
Y )()( ∑=
)(
1
1
))((yg
iiX
ii
dy
dxygf
−
−∑.
JACOBIANO da transformação
No caso de vetores aleatórios,
)(
111
||||))(()(yg
iX
i
Yi
Jygfyf−
−−∑=
Funções biunívocas e diferenciáveis:
Y=g(X), Y=(g1(X), g2(X),..., gn(X)).
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂∂
∂
∂
∂
∂
∂
=
n
n
n
n
n
n
n
n
x
g
x
g
x
g
x
g
x
g
x
g
x
g
x
g
x
g
XJ
K
MMKM
K
K
2
2
2
1
2
1
2
1
1
1
)( use |det(J(X))|.
Exemplo resolvido.
A transformação de um vetor bidimensional gaussiano em coordenadas
polares, X e Y independentes.
(X,Y) →(r,θ).
Qual a distribuição conjunta da amplitude e da fase, frθ( r,θ)?
Sejam 22 yxr += ;
= −
x
ytg 1θ
O jacobiano da transformação é 2222
2222
yx
x
yx
y
yx
y
yx
x
yx
y
r
x
r
J
++−
++−
=
∂
∂
∂
∂∂
∂
∂
∂
= θθ
ryxJJ
11det||
22=
+== .
Assim, 2
2
2
22
22
22 22||
),(),( σσ
θ πσπσθ
ryx
XYr e
re
r
J
yxfrf
−+
−
===
Como θ não aparece em frθ, fθ(θ) deve ser constante (v.a. uniforme).
Como a variável fase é distribuida entre (0,2π):
)().(.2
1),(
2
2
22
θσπ
θ θσ
θ frfer
rf r
r
r ==−
As variáveis transformadas são indendentes:
amplitude Rayleigh e fase uniforme.
DESIGUALDADES CLÁSSICAS
“Jensen” CONVEXIDADE
A desigualdade de Jensen estabelece que
∫∫ΩΩ
≤
µµ dgfgdf )( o
f é convexa em (a,b) e g∈L1(µ),
a≤g(x)≤b e µ(Ω)=1.
g é Lebesgue-integrável, i.e., +∞≤∫Ω
µgd
Observação: Se +∞≤
∫Ω
p
p dg
/1
|| µ diz-se que g∈Lp(µ).
DEFINIÇÃO (convexidade)
),(: baf → é dita ser uma função convexa se
∀x<y [ ] )()()1()1( yfxfyxf λλλλ +−≤+− ∀0≤λ≤1.
Ilustração:
• A derivada, se existir, é monotonicamente não-decrescente.
• A 2ª derivada, se existir, é sempre positiva (concavidade)
• ( )bax ,, ∈∀ ζ então )).((')()( ζζζ −+> xffxf
TEOREMA.
Se f é convexa em (a,b), então f é contínua em (a,b).
Exemplo de função convexa: f(x)=ex.
TEOREMA DE JENSEN
Seja µ uma medida em uma álgebra A definida no espaço Ω tal que
µ(Ω)=1. Se g é uma função real em L1(µ), com a<g(x)<b para todo x em
Ω, e se f é uma função convexa em (a,b), então:
∫∫ΩΩ
≤
µµ dgfgdf )( o
.
Observação.
Este teorema não exclui os casos limites a=-∞, b=+∞.
PROVA.
Seja ∫Ω= µgdt : a<t<b.
Tome agora
st
sftf
−
−=
)()(sup:β ( st
sftf
−−
≥)()(
β , pois é o sup).
Concluímos que )()()( tstfsf −+≥ β (a<s<b), em particular, s=g(x),
obtemos
0)()())(( ≥+−− txgtfxgf ββ .
Integrando agora a expressão anterior, chega-se a:
( ) ( ) 0≥+−− ∫∫∫ ∫∫ ΩΩΩ ΩΩµβµβµµµ dtgddgdfdgf o .
Daí ( ) ( ) 0≥+−−∫ ∫∫Ω ΩΩttdgdfdgf ββµµµo donde
( ) ( ) 0≥−∫ ∫∫Ω ΩΩµµµ dgdfdgf o , concluindo a demonstração.
CONSEQUÊNCIAS
1) Se g(x)=x, obtemos a desigualdade:
( ) )(xfEXEf ≤
2) Se f(x)=ex ⇒ ∫∫ ΩΩ≤ µµ degd
gexp .
Suponha agora que Ω=p1,p2,...,pn e que µ(pi)=1/n (equiprováveis) e
tome g(pi)=xi∈ . Então:
( ) ( )nxxxx
n eeeen
xxxn
+++≤
+++ ...
1...
1exp 321
21
Fazendo yi=exp(xi), obtém-se
( ) ( )n
n
n yyyn
yyy +++≤ ...1
..... 21/1
21 importante!
média geométrica × média aritmética.
3) ∫∫ ΩΩ≤ µµ hdhdlogexp (tomando g=log h)
média geométrica média aritmética
Se 0:)( >= iip αµ , ∑ =i
i 1α (distribuição discreta arbitrária)
Chega-se a
nnn yyyyyy n αααααα +++≤ ........ 22112121
Generalização da relação entre médias harmônica & geométrica.
3) Sejam p e q expoentes conjugados, i.e,
111
=+qp ; 1<p<+∞
(ou seja, p+q=p.q)
TEOREMA- DESIGUALDADES BÁSICAS
Sejam p, q expoentes conjugados, 1<p<+∞. Seja X um espaço de
medida, com medida µ. Sejam f e g funções mensuráveis em X, com
valores na faixa [0, +∞]. Então:
(i) Desigualdade de Hölder Otto Hölder
∫ ∫∫≤X
q
X
qp
X
pdgdfgdf
/1/1
.. µµµ
(ii) Desigualdade de Minkowsky Hermann Minkowski
p
X
pp
X
pp
X
p dgdfdgf/1/1/1
)( ∫∫∫ +≤+ µµµ .
Hölder (PROVA)
∫ ∫∫≤X
q
X
qp
X
pdgdfgdf
/1/1
.. µµµ
:=A :=B
(p e q são expoentes conjugados, f≥0, g≥0 mensuráveis)
Sejam A
fF =: e B
gG =: funções
(casos A=0 ou B=0; A=+∞ ou B=+∞ Triviais)
Vejamos que
1=∫XpdF µ e 1=∫X
qdG µ .
substituindo,
11
=⇒=
∫
∫∫∫
X
p
X
p
X
p
pX p
p
df
dfdf
Ad
A
f
µ
µµµ
;
11
=⇒=
∫
∫∫∫
X
q
X
q
X
q
qX q
q
dg
dgdg
Bd
B
g
µ
µµµ
.
Dado x, ∃ s, t | psexF /)( = e qtexG /)( = .
tsqtps eqepe 11// −−+ +≤
eg é convexa, q
t
p
s+ =p
-1s+q
-1t é uma combinação convexa
ts eqepxGxF 11)()( −− +≤
Daí segue-se:
)()()()( 11 xGqxFpxGxF ts −− +≤ ,
pois sp exF =)( e tq exG =)( .
Integrando ambos os membros, deduz-se a desigualdade
∫∫∫−− +≤
X
q
X
p
XdGqdFpdxGxF µµµ 11)()(
Pela normalização, o 2º membro torna-se p-1+q-1. Como os expoentes
são conjugados (por escolha inicial), chega-se a
1)()( ≤∫X dxGxF µ .
Substituindo as expressões de F e G em termos de f e g,
1)()(
≤∫X dB
xg
A
xfµ ∴ BAdxgxf
X.)().( ≤∫ µ
e a demonstração é concluída! Q.E.D.
Para p=q=2, a desigualdade reduz-se à conhecida
DESIGUALDADE DE SCHWARTZ (Hölder p=q=2)
. ∫∫∫ ≤+
XXXdgdfdgf µµµ 22
22 .)(
Aplicação direta para variáveis aleatórias:
HÖLDER PARA V.A.s
Sejam f:=|X| e g:=|Y|
qqpp YEXEXYE ||.|||| /1/1≤ .
Minkowsky (PROVA)
p
X
pp
X
pp
X
pdgdfdgf
/1/1/1
)( ∫∫∫ +≤+ µµµ
Pode ser reescrita de modo compacto como ppp gfgf |||||||||||| +≤+
Partindo de
(f+g)p=f(f+g)p-1+g(f+g)p-1 [**]
Aplicando Hölder a cada das funções do 2º membro:
q
X
qpp
X
p
X
p dgfdfdgff/1)1(/11 )(.)( µµµ ∫∫∫
−− +≤+ (1ª função)
q
X
qpp
X
p
X
p dgfdgdgfg/1)1(/11 )(.)( µµµ ∫∫∫
−− +≤+ (2ª função)
Somando agora as desigualdades membro a membro, usando [**] no
1º membro, tem-se
[ ] [ ] qqpq
X
p
X
pp
X
p
X
p dgfdgdfdgf/1/1/1
)(.)(
++≤+
−
∫∫∫∫ µµµµ .
Dividindo adequadamente, chega-se a
[ ] [ ] p
X
pp
X
p
qp
X
X
p
dgdf
dgf
dgf /1/1
/1
)(
)(∫∫
∫
∫+≤
+
+µµ
µ
µ
e a prova conclui. Q.E.D.
Casos particulares da desigualdade de Minkowsky:
2/12
2/12
2/12)( ∫∫∫ +≤+
XXXdgdfdgf µµµ
Segue a cota:
1
1
1
2)(
1
≤
≥
≥−
r
r
se
sef
r
λ.
Conclusão: 1)( ≥λfCr , ∀r. (1)
Tome agora ||||
||
YX
X
+=λ e daí ||||
||1
YX
Y
+=− λ
Substituindo em (1), obtemos:
( ) ( )1
||||
||
||||
||≥
++
+ r
r
rr
r
rYX
YC
YX
XC .
⇒ ( )rr
r
r
r YXYCXC |||||||| +≥+ .
Tomando o valor esperado:
( )rr
r
r
r YXEYECXEC |||||||| +≥+
Usando finalmente a desigualdade triangular, chega-se a:
( )rr
r
r
r YXEYECXEC |||||| +≥+ ,
Completando a prova. Q.E.D.
DESIGUALDADE DE LYAPUNOV
Teorema. Vale a desigualdade rrssXEXE |||| /1/1 ≤ para r≥≥≥≥s>0.
Isto significa que Lr⊇Ls.
PROVA.
Defina a função tUEtf ||log:)( = , t≥0, função convexa.
Seja 2||:ht
UX
+
= e 2||:ht
UY
−
= , (∀h).
Da desigualdade de Cauchy-Schwartz, tem-se:
222 ||.|||| YEXEXYE ≤
Substituindo as variáveis X e Y em termos de U,
hthtt UEUEUE −+≤ ||.||||2
Tomando log(.) em ambos os membros, chega-se a
)(2
1)(
2
1)( htfhtftf −++≤ ∀∀∀∀h.
Observação. Se f é contínua e a desigualdade anterior se verifica, então f
é convexa.
f(0)=0
t
tf )( declividade, monótona crescente. (antilog=exp)
De t
tf )(↑ , antilog t
tf )(=antilog
ttt
UEt
UE||
||log /1= ↑
Da relação tt UE ||/1 ↑ segue a prova. Q.E.D.
SIMULAÇÃO MONTE CARLO
Estimativa de algibeira para o número de simulações necessárias
para estimar a freqüência relativa de evento de probabilidade p
(p desconhecida).
Suponha que você deseja simular um sistema e avaliar uma taxa de erros
ou taxa de acertos (e.g. de peças em uma linha de montagem, de uma
transmissão digital, taxa de colisão de partículas etc.).
A cada simulação, efetuam-se n repetições do evento e obtendo um
resultado diferente cada vez que a simulação for realizada. O valor
médio é um estimador da probabilidade p (vide anexo).
Embora p<<1 seja desconhecida (típico), deve simular de modo a
garantir um espalhamento pequeno em trono da média, digamos 10%
(ou 1%).
=0,1 (critério 10%)
EXEMPLO. Ao estimar em computador a probabilidade de um evento
que você “desconfia” em uma estimativa grosseira ter probabilidade da
ordem de 10-4, (querendo simular para encontrar uma estimativa
probabilisticamente confiável), use:
N.B. Se o valor da estimativa for , por exemplo, bem inferior
a sua estimativa inicial, refaça as contas sobre n e refaça a simulação...
O método clássico de simulação, chamado MONTE CARLO,
certamente não é indicado para avaliar a taxa de eventos com
probabilidades muito pequenas, e.g., 10-9. (see importance sampling)
ANEXO. Para um experimento de Bernoulli, k sendo o número de sucessos e n o número de repetições do experimento, k é uma variável aleatória com distribuição binomial.
E(k)=np e var(k)=σ2(k)=np(1-p).
Seja a estimativa de freqüência relativa para a probabilidade p do evento estudado (e repetido): . Como
k é uma variável aleatória, também o é.
1. , o estimador é não enviezado.
(o valor médio das diversas simulações tende a fornecer o valor de p)
2. de modo que o espalhamento relativo à média vale .
(p pequeno)
Integração Monte Carlo Hit or miss technique
0≤g(x)≤c em a≤x≤b. Deseja-se avaliar ∫=b
adxxgS )(:
Seja o espaço amostral 0,),(: cybxayx ≤≤≤≤∋=Ω
E uma distribuição 2D-uniforme contrário
yx
caso
seabcyxf YX
Ω∈
−=),(
0)(
1:),(,
)(:
Ω=
area
Sp N realizações aleatória.
estimador de freqüência relativa N
np hits=:ˆ
Convergências – pp =ˆ plim e pp =ˆ l.i.m. (ver-se-á após). ALGORITMO.
1. Gere 2N números aleatórias uniformes Uj 2. Arrange-os em N pares (U1,U’1), ..., (UN,U’N)
3. Calcule )( abUaX ii −+= e )( iXg i=1,2,...,N. 4. Conte o número de casos n hits para os quais g(Xi)>cU’i
5. Estime a integral por N
abcppzpabc
)()1.(ˆ)(
−−±− α
A Função Característica de uma variável aleatória Def. Dada uma v.a. de distribuição FX(.), define-se:
∫∫+∞
∞−
+∞
∞−== dxxfexdFejM X
xj
X
xj
X )()(:)( ννν .
Notações usuais: MX(.) ou (.)Xφ
Isto corresponde a transformada inversa de Fourier da densidade de
probabilidade da variável aleatória: )()( xfjM XX ↔ν .
Nota: MX poderia ter sido mais “naturalmente” definida como a TF da
densidade de probabilidade fX da v.a. X
Exemplo.
1) Variável uniforme X~ UUUU(a,b).
[ ]ajbjb
a
xj
X
xj
X eeabj
dxab
edxxfejM νννν
νν −
−=
−== ∫∫
∞+
∞− )(
11)()( .
A função característica é [ ]ajbj
X eeabj
jMνν
νν −
−=
)(
1)(
2) Variável exponencial . X~EEEE(λλλλ),
∫∫∞+∞
∞−==
0)()( dxeedxxfejM
xjx
X
xj
X
νλν λν .
νλλ
νj
jM X −=)( .
Exemplo: O caso Gaussiano.
1) Para uma v.a. de distribuição Gaussiana normalizada, X~NNNN(0,1)
2/2
2
1)( x
X exf −=π . Tem-se imediatamente
2/2
)( νν −= ejM X .
2) Uma variável gaussiana sob transformação afim,
22 2/)(
2
1)( σµ
σπ−−= x
X exf resulta em
2/22
)( σννµν −= eejMj
X .
3) variável de Poisson
∫ ∑∞+
∞−
∞
=
−
−= dxixi
eejM
i
ixj
X
0
)(!
)( δλ
νλ
ν ( )∑
∞
=
−=0 !i
ij
i
ee
νλ λ
)1()(νλν
je
X ejM −−= .
Propriedades da função característica. (10 propriedades)
i) Para todo ∈ν )0(1|)(| XX MjM =≤ν .
Claro que
∫+∞
∞−= )()0( xdFM XX e ∫∫
+∞
∞−
+∞
∞−=≤= 1)(|||)(||)(| dxxfexdFejM X
xj
X
xj
X
ννν .
ii) =− )( νjM X )(* νjM X óbvio.
iii) MX é uniformemente contínua em .
∫ ∫+∞
∞−
+∞
∞−
+ −=−+ )()()()(| )(xdFexdFejMhjM X
xj
X
xhj
XX
νννν
Mas [ ]∫∫ ∫+∞
∞−
++∞
∞−
+∞
∞−
+ −=− )()()( )()(xdFeexdFexdFe X
xjxhj
X
xj
X
xhj νννν
e
[ ] [ ]∫∫+∞
∞−
+∞
∞−−≤−=−+ )(1)(1)()(| xdFeexdFeejMhjM X
jhxxj
X
jhxxj
XX
νννν
de onde:
0)(1)(1|||)()(| →−=−≤−+ ∫∫+∞
∞−
+∞
∞−xdFexdFeejMhjM X
jhx
X
jhxxj
XX
ννν se h→0.
Assim, ενν ≤−+ |)()(| jMhjM XX h<δ
||.||)(||)()(11 XEhxdFxhxdFhxxdFjhx XXX ===−+= ∫∫∫+∞
∞−
+∞
∞−
+∞
∞−ε
||||
XE
εδ < .
iv) Transformação afim
=− )( νjM X )(* νjM X e =+ )( νjM baX
bj
X ejaM νν ).(
v) Geradora de momentos:
0
)()(=
∂
∂−=
ν
νν
jMjXE Xn
nnn
vi) Fórmula de inversão:
∫∞+
∞−
−= ννπ
ν djMexf X
xj
X )(2
1)(
vii) De )()()Pr( −+ −== xFxFxX XX ,
∫−→==
n
nX
xj djMen
xX ννπν
ν )(2
1
0
lim)Pr( .
viii) MX(.) é semidefinida positiva:
[ ]∑∈
≥−Svu
X uhvhuvjM,
0)(*)()( , ⊂S , finito, h: → qualquer.
ix) iX v.a.’s independentes, e ∑=i
iXY : e a variável soma, então
∏=i
XY jMjMi
)()( νν .
x) Sequências de funções (Gnedenko 1962):
Se ∞
=1)(
nX jMn
ν é uma sequência de funções características, então:
∑ =≥ 1|0 nn λλ ⇒ ∑n
Xn jMn
)(. νλ é também uma função característica.
Teorema da unicidade. Se duas funções distribuição de probabilidade têm
a mesma função característica, então elas são iguais. decorre de Fourier
(as funções características são especialmente úteis nos teoremas limites).
Teorema (convergência de seqüências de distribuições).
(a) Seja nF uma sequência de funções distribuição com funções
características respectivas nM . Se Fn → F, então Mn → M, sendo a
convergência uniforme com respeito a x em qualquer intervalo finito
a<x<b.
(b) Suponhamos que
i) Mn converge em e define a função limite M;
ii) M é contínua na origem. Então:
Fn → F, em que F é uma função distribuição de probabilidade
M é a função característica da variável de distribuição F.
Série de Taylor para a função característica de uma v.a.
Suponha que a expansão em série de Taylor da função característica existe
em algum intervalo que contenha a origem. Então
[ ]∑+∞
=
=0 !
)()(
k
kk
Xk
jXEjM
νν .
A função característica fornece TODOS os momentos da variável aleatória.
Assim, “conhecer momentos” ⇔ “conhecer distribuição”.
Calcular os momentos (não-centrais) de uma distribuição gaussiana de média
nula e variância σ2.
X~ NNNN(0,σσσσ2).
Fazendo
...!2
1)1(...
8
1
2
11)( 2244222/22
+−+++−== − ll
l
l
Xl
ejM σνσνσνν σν
Chega-se a
par
ímpar
n
n
n
nXEn
n
=)!2/(2
!0
2/ .
avaliar: dxex x 4/10 2−+∞
∞−∫ , use σ2=2 n=10.
No caso de funções características conjuntas, seja o caso simples de apenas
duas variáveis X1, X2, com distribuição FX1,X2.
Mostra-se que
[ ]0,0
21,21
21
21
21),()(
==
++
∂∂
∂−=
νν
νννν
jjMjXXE XXmn
mnmnmn
generaliza-se facilmente ...
Função característica de vetor aleatório
X vetor n-dimensional: [ ]Xj
X
T
eEjMrr
rr νν =:)(
As propriedades são semelhantes, e.g., BXAY +=rr
. , A e B matrizes:
)(.)( νν ν T
X
bj
YjAMejM
Tr
rr
= .
Aplicação. Seja X um vetor aleatório bidimensional com função característica:
( )2122
21 .22
21 )),(()( ννννννν ++−== ejMjMXXrr
r.
Deseja-se o vetor média mX e a matriz de covariância KX.
1) )0,0(1
1
=∂
∂−=
νν r
XMjXE ... calculando-se:
[ ] 04)()0,0(211 =−−−=
=νννν r
rjMjXE X .
Idem para EX2.
Resultado:
=
0
0X
m r .
2) [ ] 11)4).(4().()( 1221
)0,0(21
22
21 =−++−=∂∂
∂−=
=
ννννννν
ν
rr
r
jMM
jXXEX
X
e 12112 == XXEXXE .
A VARIÁVEL SOMA
Considere uma v.a. X definida pela soma de N variáveis aleatórias
independentes, N
nnX 1= .
∑=
=N
n
nXX1
: .
A função característica para X é
= ∑
=
N
n
nX XjEjM1
exp)( νν .
Logo, ( )
= ∏
=n
N
n
X XjEjM νν exp)(1
. Desde que as v.a.’s são
independentes, o cálculo da esperança é desacoplado:
( )[ ] ∏∏==
==N
n
X
N
n
nX jMXjEjMn
11
)(exp)( ννν .
∏=
=N
n
XX jMjMn
1
)()( νν
A função característica da variável aleatória soma de
variáveis independentes é o produto das funções
características das variáveis individuais.
TRIVIA:
Z:=X+Y X e Y independentes.
)().()( ννν jMjMjM YXZ = e usando a transformada de Fourier:
)(*)()( zfzfzf YXZ = .
Convolução!
Caso particular— Soma de duas v.a.’s i.i.d. uniformes:
Z:=X+Y ⇒ )(*)()( zfzfzf YXZ = = ∏∏ =)(*)( zz )(zΛ .
VARIÁVEL aleatória CAUCHY
)1(
11)(
2xxfX +
=π e
||)( νν −= ejM X
Sejam N
nnX 1= i.i.d. Cauchy, e ∑=
=N
n
nXX1
: .
Qual a função característica de X?
VARIÁVEL chi-quadrada (qui-quadrada)
)()2/(2
)(2/
2/2/)2(
xun
exxf
n
xn
X Γ=
−−
e 2/)21(
1)(
nXj
jMν
ν−
=
Sejam N
nnX 1= i.i.d. Cauchy, e ∑=
=N
n
nXX1
: .
Qual a função característica de X?
COTAS SOBRE PROBABILIDADES
Desigualdade de Chebyshev (Pafnutti Tchebyscheff).
Dado ε>0 (arbitrariamente pequeno), X variável aleatória de
• Média mX
• Variância σX2
2
2
||Prεσ
ε XmX ≤>− .
Vejamos: )()()( xdFxfXfE X∫+∞
∞−= .
)()()()()( xdFxfxdFxfXfE XI
XI
C∫∫ += ⇒ )()()( xdFxfXfE XI∫≥
≥0
Enfraquecendo a desigualdade: Pr)()( IXaxdFaXfE XI
∈=≥ ∫
Q.E.D.
Aplicação. v.a. X, com média nula EX=0 e EX2=σ2
Seja
22
:)(
+=
axxf
σ.
Para x≥a>0, (intervalo I), 0)(2222
≥
+≥
+=
aa
axxf
σσ.
Esboço:
2
2
2
)(Pr
+
≤≥
aa
xfEaX
σ ou seja,
2
2
2
2422 //2Pr
+
++≤≥
aa
aaXEXEaX
σ
σσ
Logo
22
2
2
2
2
242 /Pr
σσ
σ
σσ+
≤
+
+≤≥
a
aa
aaX
ou 22
2
Prσ
σ+
≤≥a
aX . (cota).
COTA INFERIOR E SUPERIOR
Teorema. X uma variável aleatória e g≥0, g Borel mensurável
(toda imagem inversa é um conjunto na σ-álgebra de Borel)
Se g é par e não-decrescente em [0,∞).
Então ∀a≥0, tem-se
)(
)(||Pr
)(sup..
)()(
ag
XgEaX
xgsa
agXgE≤≥≤
−
Calculando Eg(X):
∫∫∫ ≥+=A
XA
XA
X xdFxgxdFxgxdFxgXgEc
)()()()()()()( ,
pois o 2º termo é positivo.
aXagxdFagxdFxgXgEA
XA
X ≥=≥≥ ∫∫ ||Pr)()()()()()( .
Por outro lado, )()( sup xgxg ≥ ou )()( sup.. xgxgsa ≥ a.e.
aXxgxdFxgxdFxgA
XA
X ≥=≤ ∫∫ ||Pr).( sup)()(sup)()( (I)
)(||Pr).( )()()()( agaXagxdFagxdFxgcc A
XA
X ≤≤=≤ ∫∫ (II)
Somando termo a termo,
)(||Pr).( sup)()( agaXxgxdFxg X +≥≤∫+∞
∞−
E finalmente
aXxgagXgE ≥≤− ||Pr).(sup)()( Q.E.D.
Corolário.
Desigualdade Generalizada de Chebyshev. Dado ε>0 arbitrário, tão
pequeno quanto se queira, g≥0,par não-decrescente em [0,∞).
)(
)(||Pr
εε
g
XgEX ≤≥ .
Com g(x)=x2 2
2
||Prε
εXE
X ≤≥ .
Para X-mx ← X Variável aleatória central
2
var||Pr
εε
XmX X ≤≥−
desigualdade de Chebyshev
DESIGUALDADE DE MARKOV
Tomemos g(x)=|x|r
r
rXE
Xε
ε ≤≥||Pr .
Observação.
Convergência em r-ésima média Xn → X se e só se .0→−r
n XXE
XXésimar
n
−
→ ⇔ .0→−r
n XXE
Exemplo.
Uma visita à versão fraca da LEI DOS GRANDES NÚMEROS
Uma sequência infinita de variáveis aleatórias ∞=1niY , estatisticamente
independentes (e possivelmente identicamente distribuidas)
Definamos ( )∑
=
−=n
i
iin YEYn
X1
)(1
: n=1,2,3,...
Essa nova seqüência de v.a.’s tem
• EXn=0
• Var(Xn)= n
iY
n
22
σσ =
Um esboço da versão fraca da Lei dos grandes números:
2
var||Pr
εε
XmX X ≤≥−
2
2
||Prε
σε
nX n ≤≥ →0 quando n→∞.
0||Pr0
lim=≥
→εnX
n
O estimador de frequência relativa é um estimador consistente (quando ele
converge em Probabilidade). Os conceitos de convergência de sequências de
variáveis aleatórias são requeridos.
COTA (EXPONENCIAL) DE CHERNOFF
Uma cota “apertada” – (tigth upper bound).
Usando a função característica. ∫+∞
∞−= ).(:)( xdFejM X
xj
X
νν
Passando ao plano real:
νjs ←
Seja ∫+∞
∞−= )()( xdFesM X
sx
X , s Real.
(chamemo-la função geradora de momentos, sentido estrito)
sX
X eEsM =)(
Seja sX
X eEsMs ln)(ln:)( ==µ .
∫+∞
∞−= )(ln:)( xdFes X
sxµ pela desigualdade de Jensen
XEsexdFesxxdFs
X
sx X
.ln)(ln:)()(
=∫≥=+∞
∞−∫+∞
∞−µ .
Dado ε>0, Avaliemos agora ε≥XPr :
∫ ∫+∞
∞=∞==≥ε
εεε )(),[),[)(Pr xdFIIExdFX XX
εε
εε εεε s
s
s
sX eEe
IeEe
xdFIX1
),[.1
)(),[Pr ≤∞=∞=≥ ∫
Em termos de µ(s), s≥0
εµµεε sss
see
eX −=≤≥ )()(1
Pr.
Resolvendo agora o problema de programação matemática (minimização)
εµ ss
s
tsMin −
≥
)(
0
.. ⇒ [ ] 0)( =−
∂∂
εµ sss ou seja, ε
µ=
∂∂
s
s)( o que é atingido em um
s=s0 particular.
A cota (exponencial) desejada é
εµε 00 )(Pr sseX
−≤≥
Vejamos agora um caso de interesse.
Seja ∑=
=N
i
iXX1
: , com Xi i.i.d. e avaliemos εNX ≥Pr .
Isto equivale a considerar
≥∑=
εN
i
iXN 1
1Pr .
Da cota de Chernoff básica, εµε 00 )(
1
1Pr Nss
N
i
iXeX
N
−
=
≤
≥∑ .
Mas ( )( ) ( ))(ln)(ln)(lnlnlnln)(11
1 sMNsMeEeEeEeEs Xi
N
Xi
N
i
sxN
i
sxxs
sx
Xii
N
i
i
==
==
∑== ∏∏
==
=µ
A cota de Chernoff no caso de variável soma i.i.d. torna-se:
( ))()(
1
00001Pr
ssNNssNN
i
iiXiX eeX
N
µεεµε −−−
=
=≤
≥∑ .
A cota (exponencial) de CHERNOFF desejada é
( )εε ,
1
01
Pr sNEN
i
i eXN
−
=
≤
≥∑
Esta cota decresce exponencialmente com N, enquanto que a lei fraca dos
grandes números (com base na cota de Chebyshev) decresce apenas com
1/N.
UMA COTA EXPONENCIALMENTE APERTADA!
Pode ser demonstrado que o expoente E(s0,ε) é o maior possível, i.e., inexiste
uma cota exponencial da forma
'
1
1Pr NE
N
i
i eXN
−
=
≤
≥∑ ε
Com E’ independente de N e tal que E’> E(s0,ε).
Por esta razão a cota de Chernoff é dita ser exponencialmente “apertada”
(tight bound).
APLICAÇÃO
Cota para uma variável Gaussiana. 2/2
2
1)( x
X exf −=π
2/2
)( νν −= ejM X . 2/2/)/( 22
)( sjs
X eesM == − ⇒ 2
)(2s
s =µ .
impondo εµ
=∂
∂s
s)(, tem-se ε=0s .
Assim, PrX≥ε pode ser exponencialmente cotada por
2/22
22
Pr εεε
ε −−
=≤≥ eeX
EXEMPLO DOIS.ZERO. (há carro 2.0!)
A cota para a variável ∑=
N
i
iXN 1
1 com Xi variáveis de Bernoulli.
p-1 prob. com
p prob. com
0
1
=iX
)1()( ppesM s
X i−+= ⇒ ( ))1(ln)( ppes s −+=µ .
De εµ
=−+
=∂
∂ s
sep
ppes
s..
)1(
1)( obtém-se
−−
=p
ps
).1(
)1.(ln0 ε
ε
( ) )1ln()1(ln.)1ln()1(ln.)( ..00 εεεεεεµε −−−+−−−=− ppssiX
Definindo:
)1ln()1(ln:)( ppTp −−−−= ααα e
)1ln()1(ln:)( ααααα −−−−=H
Mostra-se que:
( ))()(
1
1Pr εεε HTN
N
i
ipeX
N
−−
=
≤
≥∑ , 1≤< εp .
Ou
( ))()(
1
1Pr εεε HTN
N
i
ipeX
N
−−
=
≤
≤∑ , p<≤ ε0 .
Herman Chernoff (EUA, imigrante russo)
CONVERGÊNCIA DE SEQUÊNCIAS DE VARIÁVEIS ALEATÓRIAS
Sequências de números reais:
∞=1nnr rn→ r (rn converge para r)
se e somente se ∀ε>0 ∃ Nε ∋ | rn - r |<ε ∀ n> Nε
Variável aleatória X:Ω → Função real de variável real.
Conjunto de funções de valores reais:
∞=1nnf fn→ f (fn converge para f ponto a ponto)
Se e somente se ∀ε>0 ∃ Nε,x ∋ | fn (x)- f(x) |<ε ∀ n> Nε,x ∀x.
nf → f
)()( xfxfn → ∀x.
⇑ Seq. de números reais.
Convergência uniforme (já estudada em MMAT):
Usar Nε em lugar de Nε,x
Exemplo 1.
]1,0[∈x nx
n xenxf −= 2:)( claro que 0)(lim =
∞→
xf
n
n
.
0=→ ffn . A convergência é uniforme?
Critério.
Fn converge uniformemente ⇔
0)()(
]1,0[
suplim =−
∈∞→
xfxf
xn
n
.
Temos:
nx
n xen
x
xfxf
x
−
∈
=−
∈
2
]1,0[
sup)()(
]1,0[
sup.
Verificando o máximo: 0232 =+−= −−− nxnxnx enxenxendx
d
[1-n.x]=0 i.e., o ponto de máximo ocorre em nx
1= .
e
nxen
x
nx=
∈
−2
]1,0[
sup
+∞=
∞→
=
∈∞→
n
n
X
n
n lim|)(|
]1,0[
suplim ω
ω .
Exemplo 3. n
n eX /:)( ωω −= , com ].1,0[∈ω
Xn(ω)→ X(ω)=1 (converge uniformemente).
?)()(
]1,0[
suplim =−
∈∞→
ωωω
XX
n
n
nn ee // 1
]1,0[
sup1
]1,0[
sup ωω
ωω
−− −∈
=−∈ . Mas em ]1,0[∈ω , 1//1 ≤≤ −− nn ee ω
e
portanto, 0|1|lim)()(
]1,0[
suplim /1 =−
∞→
=−
∈∞→
− n
n e
n
XX
n
ωωω .
CONVERGÊNCIA COM PROBABILIDADE 1
Def. ∞=1nnX diz-se que Xn→ X c.p.1 (p.s. = a.s.) se e só se
1)()(lim
Pr =
=
∞→∋
ωω XX
nw
n
. Denota-se também XXsa
n
..
→ .
Conseqüencia. 0)()(lim
Pr =
≠
∞→∋
ωω XX
nw
n
.
São equivalentes as seguintes proposições.
Xn→ X c.p.1 se e só se ∀δ>0, ∀ε>0 ∃Nδ,ε ∋
δεωωεδ
−>
<−∋
>
1|)()(|Pr,
XXw n
Nn
I (conjuntos bons)
δδεωωεδ
=−−<
≥−∋
>
)1(1|)()(|Pr,
XXw n
Nn
U (conjuntos ruins)
δεωω
εδ
−>
<−
>∋ 1
|)()(|supPr
,
XX
Nnw
n
.
CONDIÇÕES
I) Necessária
Pr(Bn)→0 quando n→∞
∑>>
→≤
Nn
n
Nn
n BPBP 0)(U
Obs. Suponha que nnBP2
1)( = . Pr(Bn)→0 quando n→∞
mas
>U
Nn
nBP pode não ser menor que um δ>0 arbitrário
Exemplo- bolo à francesa .1=
>U
δNn
nBP
II) Suficiência para convergência cp 1
δδ
<
>U
Nn
nBP Bn = bad sets
Bn ↓ i.e. nB seja sequência monotônica não crescente
Neste caso, Un
Nk
nk BBδ>
= ⇒ 0)( →=
>n
n
Nk
k BPBP Uδ
.
III) outra condição e suficiência com probabilidade 1 (conv. certa)
∑≤
)( nn BPBP U e Pr(Bn)→0 quando n→∞.
Suponha que ∑∞
=1
)(n
nBP seja convergente (cond.)
Então ∑>
<⇒>∋∃δ
δδδNn
nBPNnN )( e, portanto, δδδ
<≤
∑>> Nn
n
Nn
k BPBP )(U .
Convergência em média r-ésima
Definição.
0
lim→
−∞→
r
n XXE
n ∀r>0 .
O espaço Lr é fechado em relação à convergência em média r-ésima
Notação para r=2: XX
n
mil n =
∞→
...
Proposição:
se XXr
n → então rr
n XEXE
n
=∞→
lim
i) para 0<r≤1, usando a desigualdade-Cr
rr
n
r
n
r
n XEXXEXXXEXE +−≤+−=
r
n
r
n
rXEXXEXE +−≤
Denominaremos por
r
n
rr
n XXEXEXEz −≤−=:
r
n
r
n
rXXEXEXEz −≤−=−
0||0 ↓−≤−=≤r
n
rr
n XXEXEXEz pois XXr
n →
ii) r>1 Usar a desigualdade de Minkowsky
Convergência em Probabilidade
Definição. Seja ∞=1nnX uma sequência de variáveis aleatórias. Diz-se que
Xn converge para X em probabilidade se e só se
( ) 0|)()(|Prlim =≥−∋
∞→
εwXwXw
n
n
Notamos por XXP
n → i.e., para convergência em probabillidade exigimos
que
( ) δ≤nBP para todo n>Nδ,ε.
ou seja,
( ) 0Prlim =
∞→nB
n
Bn são “conjuntos ruins”:
ε≥−∋= |)()(|: wXwXwB nn .
Notação: XX
n
p n =
∞→
lim
Proposição. XXr
n → ⇒ XXP
n →
Prova. Pela cota de Markov, ( ) r
r
n
n
XXEXX
εε
−≤≥−≤ Pr0
Mas XXr
n → ⇔
0lim =−∞→
r
n XXE
n
⇒ ( ) 0Prlim =≥−
∞→
εXX
n
n
e logo XXP
n → .
Claro que a inversa não é verdadeira em geral. Mas, sob certas condições,
XXP
n → ⇒ XXr
n → . Vejamos:
Proposição.
Se 0
1lim =
−+
−
∞→r
n
r
n
XX
XXE
n (implica
0lim
→−
∞→
r
n XXE
n ), então
XXP
n → ⇒ XXr
n → .
Prova.
Seja X uma v.a. arbitrária e g em uma função de Borel não-negativa. Se g
é par e não-decrescente em [0,∞), vale ∀a>0
)(
)(||Pr
)(..
)()(
ag
XgEaX
xSupgsa
agXgE≤≥≤
−
Para este caso, tome r
r
X
Xxg
||1
||)(
+= . Chega-se a (a.s. sup g(x)=1):
++
≤≥≤+
−
+ r
r
r
r
r
r
r
r
X
XE
a
aaX
a
a
X
XE
||1
||1||Pr
1||1
||
Substitua X por Xn-X; a por ε, logo
−+
−+≤≥−≤
+−
−+
−r
n
r
n
r
r
nr
r
r
n
r
n
XX
XXEXX
XX
XXE
||1
||1||Pr
1||1
||
εε
εε
ε
01
lim =
−+
−
∞→r
n
r
n
XX
XXE
n ⇔ bad sets de prob. Nula ou XXP
n → .
DISTÂNCIA entre variáveis aleatórias
−+
−=
YX
YXEYXd
1:),( é uma distância, exceto que d(X,Y)=0 ⇒ X=Y p.p.
Teremos um espaço completo de classes equivalentesde variáveis
aleatórias.
Proposição: XXsa
n
..
→ c.p. 1 ⇒ XXP
n →
(convergência forte implica em convergência fraca)
Prova.
Se há c.p.1 então δεδ
≤
>U
,Nn
kBP .
εδ ,Nn >∀ , Uεδ ,Nn
nn BB>
⊂ ⇒
≤
>U
εδ ,
)(Nn
nn BPBP.
Conclui-se então que δ≤)( nBP εδ ,Nn >∀
o que significa que 0)Pr(lim =
∞→nB
n ⇒ XXP
n → Q.E.D.
Convergência em Distribuição
Definição. Seja ∞=1nnX uma sequência de variáveis aleatórias. Diz-se que
Xn converge para X em distribuição se e só se
)()(lim xFxF
n
XX n=
∞→ nos pontos de continuidade de FX.
Notamos isto por XXd
n → .
Teorema. XXP
n → ⇒ XXd
n → .
Prova.
(X<x’)= (Xn<x,X<x’) ∪ ( Xn≥x,X<x’) ⊂ (Xn<x) ∪ ( Xn≥x,X<x’)
Disjuntos
P(X<x’)≤ P(Xn<x) + P( Xn≥x,X<x’).
Consideremos x’<x:
P( Xn≥x,X<x’) ≤ P(|Xn-X|≥x-x’) →0 qdo n →∞, pois XXP
n → .
Assim,
)'|Pr(|)()'( xxXXxFxF nXX n−≥−+≤
donde
)(inflim)'( xFxFnXX ≤ , x’<x.
Similarmente, mostra-se que
)''()(suplim xFxF XX n≤ , x’’>x.
Coletando os resultados, segue-se
)''()(suplim)(inflim)'( xFxFxFxF XXXX nn≤≤≤ para x’<x<x’’
Portanto, se x∈Continua FX, então fazendo x’↑x e x’’↓x, tem-se
)()(lim xFxF
n
XX n=
∞→ Q.E.D.
LEIS DOS GRANDES NÚMEROS
Desejamos examinar a convergência de uma soma de variáveis aleatórias
quando a soma é normalizada subtraindo-se o seu valor esperado e dividindo-
se o resultado pelo número de termos da soma.
Considere a sequência ∞
1iX e defina ∑=
=N
i
iN XS1
: . Queremos examinar a
convergência da sequencia de variáveis ∞•1NS , aonde
[ ]1
: NNN SESN
S −=•.
Tem-se
[ ]∑∑∑===
• −=
−=
N
i
iii
N
i
N
i
iN XEXN
XEXN
S111
1
1
: .
Em particular, temos interesse nas condições exigidas que asseguram que
∞•1NS converge para zero de alguma maneira.
Se a sequência de variáveis aleatórias iX , verificando EXi<∞ para cada i,
é tal que:
a) 0..sa
NS →• então dizemos que a sequência dos iX obedece à Lei
forte dos grandes números.
b) 0P
NS →• então dizemos que a sequência dos iX obedece à Lei
fraca dos grandes números.
c) 0r
NS →• então dizemos que a sequência dos iX obedece à Lei
média r-ésima dos grandes números.
Convergências possíveis para a média amostral.
Efeitos da normalização.
Consider o caso em que os iX são v.a.’s i.i.d. com segundos momentos
finitos. Neste caso, definindo NN SN
S1
:=
∑=
==N
i
iN XEXEN
SE1
1
e 01 2
1
22
2 →== ∑= NN
XN
i
XS iN
σσσ
VERSÕES FRACAS – Weak law of large numbers
Teorema. Para que a sequência de variáveis aleatórias iX , possivelmente
dependentes seja tal que 0P
NS →•, é necessário e suficiente que
0][
][lim
1
2
1
=
−+
−
∞→ ∑
∑
=
=r
N
i
ii
rN
i
ii
XEXN
XEX
E
N para algum r>0.
Prova.
Sabemos que YYP
N → se e somente se 01lim
=
−+
−
∞→r
n
r
n
YY
YYE
N .
Então substituindo nN YS ←• e Y←0 , vem
0P
NS →• ⇔ 01
lim=
+∞→•
•
r
N
r
N
S
SE
N
⇔
( )
( )0
1
1
1
lim
1
1
=
−+
−
∞→ ∑
∑
=
=
rN
i
ii
rN
i
ii
XEXN
XEXN
E
N e o resultado segue.
Gostaríamos de condições estipuladas em termos das variáveis Xi.
Teorema de Markov (condição de suficiência).
Se as variáveis aleatórias iX são tais que 0var
1lim1
2=
∞→∑
N
iXN
N , então
0P
NS →•.
Prova.
r
Nr
N
r
NS
S
S•
•
•
≤+1 ⇒
r
Nr
N
r
NSE
S
SE •
•
•
≤
+≤
10
.
Então 0→• r
NSE (cond. Suf.?) ⇒
01
→
+ •
•
r
N
r
N
S
SE
(cond. nec. e suf.?)
( ) ∑∑==
• −
−=N
i
r
iir
rN
i
ii
r
N XEXEN
XEXN
ESE11
1
1
a
Fazendo r=2, ... ∑=
−N
i
ii XEXEN 1
2
2 1
0
1lim1
2
2 =−
∞→∑
=
N
i
ii XEXEN
N
Observações: casos particulares de interesse.
1) iX i.i.d.
01lim1
var1lim 2
1
22
12 =
∞→==
∞→∑∑ X
N
X
N
iN
NN
XN
Ni
σσ
(esta é uma versão Chebyshev da Lei fraca dos grandes números).
2) Caso sério
iX independentes com médias finitas
0
1lim1
1
1 =−
∞→∑
=
+
+
N
i
ii XEXEN
N
δ
δ
⇒ 0P
NS →•
Organizando o resultado para enunciado formal:
Teorema de Chebyshev (condição suficiente).
Se iX é uma sequência de variáveis aleatórias não-correlacionadas (ou
independentes) par-a-par, com variâncias finitas ∞<2
iXσ e
∑ =∞→
N
X iNN 1
22
01lim σ
, então 0P
NS →•.
Nota. A demonstração é um caso particular, mas pode ser feita mais facilmente via a desigualdade de Chebyshev.
Pafnuty Chebyshev
CONVERGÊNCIA DA FREQUÊNCIA RELATIVA.
Teorema de Bernoulli. Seja K o número de ocorrências de um evento em N
realizações independentes de um experimento e seja p a probabilidade de
ocorrência de A em cada realização. Então:
pN
KZ
P
N →=: , i.e., 0||Prlim
=>−∞→
εpZN
N ∀ε>0.
Em notação simplificada: pZ
N
p N =
∞→
lim
Teorema de Poisson. Se em uma sequência de realizações de um
experimento, a probabilidade de ocorrência de um evento na i-ésima
realização é pi, então se
N
KZ N =: , ∀ε>0, 1|
1|Pr
lim
1
=
<−∞→ ∑
=
εN
i
iN pN
ZN .
(este é um caso mais geral do que aquele do teorema de Bernoulli, que
corresponde ao caso particular pi=p)
Lei Forte dos Grandes Números (Strong Law of large numbers)
RESUMO.
FREQUÊNCIA RELATIVA.
Teorema de Borel. Seja K o número de vezes que um evento A ocorreu em N realizações independentes de um experimento de Bernoulli, sendo a probabilidade de ocorrência em cada realização igual a p. Defina
realização ésima-i naocorreu Se
realização ésima-i naocorreu Se
0
1Ci
A
AX
=
Então
∑=
=N
i
iXNN
K
1
1, e ( ) 0
1:
1
..
∑=
• →−=N
i
sa
iN pXN
S .
[a demonstração usa a desigualdade de Makov com r=4]
Émile Borel
Teorema de Kolmogorov. Se a seqüência de variáveis aleatórias
mutuamente independentes iX satisfaz à condição
∑ ∞<∞→
NX
NN
i
1
2
lim σ
, então 0..sa
NS →•.
ARGUMENTO DO TEOREMA CENTRAL DO LIMITE
Teorema. Para um conjunto de variáveis aleatórias independentes e
identicamente distribuidas (i.i.d.) com os dois primeiros momentos finitos, a
média amostral N
XN
i
i∑==ℵ 1: tende para uma distribuição gaussiana quando o
número de variáveis cresce sem limite.
(imagine a estimativa do comportamento de grandes populações- notas de
exames, altura ou peso de individuos, taxas bioquímicas, ruído provindo de
muitas pequenas fontes etc.) Livro=[Wilbur Davenport]
(elegante) Prova.
Vamos considerar a v.a. normalizada )(
)(:
ℵℵ−ℵ
=σ
EY , com claramente
E(Y)=0 e σ2(Y)=1.
Tomando-se E(Xi)=m<+∞ e σ2(Xi)= σ2<+∞, tem-se:
mN
Nm
N
XE
E
N
i
i
===ℵ∑
=1
)()( (não enviezado)
NN
XN
i
i 2
21
2
2
)()(
σσ
σ ==ℵ∑
= (reduzindo a incerteza pelo aumento da população)
2/11
/
1
N
mXN
Y
N
i
i
σ
−=
∑=
, ou seja, 2/11
/
)(1
N
mXN
Y
N
i
i
σ
−=
∑=
∑=
−=
N
i
i mX
NY
12/1
1
σ .
Definimos uma nova variável aleatória normalizada zeta
σζ
mX ii
−=:
, com 0)( =iE ζ ; 1)(2 =iζσ
Média amostral normalizada ∑=
=N
i
iN
Y1
2/1
1ζ
.
A função característica de Y é
∑
===
2/11
)( Nj
yj
Y
N
i
i
eEeEjM
ζ
ννν
ou
= ∏=
N
i
Nj
Y
i
eEjM1
2/1
)(ζ
ν
ν.
Como os Xi’s são independentes, também o são os ζi’s
N
Nj
NN
i
Nj
YN
jMeEeEjMii
=
=
= ∏
=
)()(2/1
1
2/12/1 νν ζ
ζν
ζν
.
Vamos expandir a função característica M(.) em série de Taylor:
+−=
NA
NNjM
νννζ 2
1)(2
2/1.
(lembrando das propriedades de geração de momentos e que 0)( =ζE ;
1)(2 =ζσ ).
É fácil verificar que 0.lim
2=
+∞→ NA
N
N
ννν
(em particular, quando ν é fixo e N→∞)
Tomando o logaritmo de MY(jν), tem-se:
+−=
NA
NNjMY
ννν
2
1log)(log .
Usando o fato que
)()1log( zBzz +=+ em que ∫ +−=
z
dtt
tzB
0 1)(
.
***
Veja que tomando a derivada, )('11
1zB
z+=
+ ∴ )('1
zBz
z=
+− , com B(0)=0.
***
+−+
+−=
NA
NBN
NANjMY
ννννν
2..
2)(log
22
.
Mas
02
1)(0
→=≤ ∫z
tdtzz
zB z
quando 0→z .
Lembrando que
0. →
NAN
ν quando N→∞, então no limite, o comportamento é ditado por:
2)(log
lim 2νν −=
∞→jM
NY ∴
−=
∞→ 2exp)(
lim 2ννjM
NY .
Como )( νjMY é contínua em ν=0, a transformada )()( yfjM YY ↔ν verifica
−=
∞→ 2exp
2
1)(
lim 2y
yfN
Yπ Q.E.D. linda demonstração .
VERSÕES DO TEOREMA CENTRAL DO LIMITE
• Teorema de Lindenberg-Lévy
• Teorema de Liapunov
• Teorema de Berry-Esseen
Para detalhes, consultar livro do Feller.
TEOREMA CENTRAL DO LIMITE
Soma ∑=
=n
i
in XS1
: e soma normalizada ( )n
nnn
S
SESS
σ
:*−
=
Densidade, distribuição e função característica
)(* spnS ,
)(* sPnS ,
)(* νjMnS
(limite: 2/2
2
1:)( s
S esp −=π e ∫ ∞−
=s
S dpsP ξξ )()()
ESTUDO
1 condições sobre as quais SSd
n →* ?
2 condições sobre as quais )()(lim * spsp
n
SSn
=
∞→
3 quais são os erros envolvidos? (aproximações com n grande, porém finito)
Teorema de Lindenberg-Lévy: Se os termos em iX são
i) identicamente distribuidos
ii) independentes
iii) têm média m finita e variância σ2 finita, não nula
Então
SSd
n →*, i.e., a probabilidade do evento descrito abaixo,
( )
≤−+++
= sn
nmXXXS n
nσ
...21*tende para )(sPS
Teorema de Liapunov. Se os termos em iX são
i) não identicamente distribuidos
ii) independentes
iii) EXi=mi<∞ e momentos centrais absolutamente finitos
)(: 2
2
iii XmXE δδ
µ +
+=− para algum δ>0.
iv) Condição de Liapunov
0)(
lim2
12
=∞→ +
=+∑
δ
δ
σ
µ
nS
n
i
iX
n para algum δ>0.
Então SSd
n →*, i.e.,
( )
≤−+++
= sn
nmXXXS n
nσ
...21*tende para )(sPS
Teorema de Lindenberg: Se os termos em iX são
i) não identicamente distribuídas
ii) independentes
iii) mi<∞ e σ2i<∞
iv) se
0)()(
lim2
1||
2
=−
∞→
∑∫=
>−
n
nSii
S
n
im
Xi dpm
n σ
ξξξεσξ
∀ε>0.
Então SSd
n →*.
Teorema do erro 1.
Se )( 33 XEm = existe e
v
X jM )( ν , para algum v≥1 é integrável, então
)(* spnS existe para n≥v e além disso
+−−=
nspss
n
mspsp SSSn
1)()3(
6)()( 3
33
* οσ .
Teorema do erro 2.
Se 03=m e )( 44 XEm = existe e
v
X jM )( ν , para algum v≥1 é integrável,
então )(* spnS existe para n≥v e além disso
++−−
−=n
spssn
mspsp SSSn
1)()36(
24
3)()( 24
4
44
* οσ
σ.
Teorema de Berry-Esseen.
Se EX=0 e EX3:=µ3 existe, então
nsPsP sSn 3
3
4
33)()(*
σµ
<− ∀n,s
VISÕES MODERNAS
O TEOREMA CENTRAL DO LIMITE:
Uma abordagem via Teoria da Informação
Uma abordagem atipica, porém atrativa e interessante, considera o uso de
ferramentas da Teoria de Shannon para estabelecer teste de hipóteses,
teorema central do limite etc.
Considere a breve revisão dos conceitos de
ENTROPIA e ENTROPIA DIFERENCIAL
ENTROPIA
Distribuição pk ∑−=k
kk ppH 2log:)(p
Distribuição p(x) ∫+∞
∞−−= dxxpxpxpH )(log)(:))(( 2
Desigualdade de potências-entropicas
Sejam X e Y independentes, contínuas e de variância finita. Então a entropia
diferencial diferencial satisfaz
)(2)(2)(2 YHXHYXH eee +≥+.
(prova p.287, R.Blahut, principles and practice of Information Theory, Addison-Wesley)
Digressão: Discriminante de Kulback
Dadas duas distribuições p0 e p1, o discriminante de Kulback é definido pela
relação:
• ∑=
=1 1
0010 ln:);(
k kp
kk
p
ppL pp caso discreto
• ∫∞+
∞−= dx
xp
xpxpppL
)(
)(ln)(:);(
1
0010 caso contínuo
O discriminante é invariante a troca de coordenadas, tais como mudanças de
escala ou rotação dos eixos.
Teorema. (gaussianidade).
Se p1* tem distribuição gaussiana e p0 é arbitrária, então L(p0; p1
*) atinge o
mínimo quando p0 é também gaussiana.
Teorema. (medida de distância para distribuições de probabilidade).
O discriminante é não-negativo, ou nulo somente quando seus argumentos
são idênticos.
Prova.
Segue da desigualdade fundamental da teoria da Informação x
x1
1ln −≥ .
011ln:);(
00|1
11 0
10
1 1
0010 ≥−≥
−≥= ∑∑∑
≠===pkk
k
k
k kp
k
k
k kp
k
k pp
pp
p
ppL pp
.
Teorema (convexidade do discriminante).
O discriminante é convexo em cada dos seus argumentos, i.e., dado um
escalar ]1,0[∈λ , então:
);()1();();)1(( 1010100 pqpppqp LLL λλλλ −+≤−+
);()1();();)1(;( 1110110 qpppqpp LLL λλλλ −+≤−+ .
Definição: o discriminante binário é definido pela relação
βα
αβα
αβα−
−−+=
1
1ln)1(ln:),(L . (convexo e igual a zero sse α=β)
Discriminante: Define uma “Distância entre duas distribuições”
Dada uma sequência de variáveis aleatórias i.i.d. ∞=1llX , Xl~(m,σ2), e a
variável soma normalizada
∑=
=n
l
ln Xn
Y1
1:
∞=1nnY não são identicamente distribuidas, mas sua densidade converge
para uma gaussiana: especificamente, se Z~ N(0,σ2), então
0);( →ZYL n quando n→∞.
Teorema central do limite (segue como corolário).
Teorema 2
|)()(|log2
1
)(
)(ln)(
−≥ ∫∫
∞+
∞−
∞+
∞−dxxqxp
edx
xq
xpxp .
Prova.
Passo1 ]1,0[∈p , pq ≤ , tem-se 2)(
log2
4
1
1ln)1(ln qp
eq
pp
q
pp −≥
−
−−+ .
Considere então a def. 2)(
log2
4
1
1ln)1(ln:),( qp
eq
pp
q
ppqpf −−
−
−−+= com
f(p,q)=0 ⇔ q=p.
A derivada 0<∂∂q
f .pq <∀
Calculando: 0log
1
)1()(4
),(≤
−−
−−=∂
∂eqq
qpqp
q
qpf .pq <∀ .
Portanto, f(p,q)≥0 para 10 ≤≤≤ pq , completando a demonstração.
Passo2.
Seja ).()(|: xqxpx ≥=℘
[ ]2)()(log2
4
)(
)(ln)(
)(
)(ln)();( ℘−℘≥
℘
℘℘+
℘
℘℘≥ qp
eq
pp
q
ppqpL
C
CC
em que ∫℘=℘ dxxpp )(:)( , ∫℘=℘ dxxqq )(:)( .
Agora notando que dxxqxpdxxqxpqpC
)()()()()()( −−=−=℘−℘ ∫∫ ℘℘ ,
dxxqxpqp )()(2
1)()( −=℘−℘ ∫
∞+
∞− , concluindo que 2
)()(log
2);(
−≥ ∫
∞+
∞−dxxqxp
eqpL
Q.E.D.
Teorema (LIMITE CENTRAL).
A variável aleatória soma padronizada ∑=
=n
l
ln Xn
Y1
1:
satisfaz
0);( →ZYL n quando n→∞.
Esboço da prova.
Provaremos apenas que );( ZYL n e monotona, decrescendo a um limite.
A desigualdade de entropia para duas variáveis X e Y independentes é
)(2)(2)(2 YHXHYXH eee +≥+ (igualdade iff X=Y=Z=gaussiana).
Sejam
XX ←α
YY ←−α1 .
De TI, )ln()()( aXHaXH += .
Então:
)(2)(2))1((2 ).1(. YHXHYXHeee αααα −+≥−+
.
Multiplicando por
∫
+∞
∞−dxxx )(ln)(2exp φφ , em que φ~ N(0,σ2), e usando o fato que
∫∫+∞
∞−
+∞
∞−−=− dxxxpdxxx )(ln)()(ln)( φφφ quando p(x) tem a mesma variância que
φ(x), a desigualdade torna-se:
);(2);(2);)1((2 ).1(. ZYLZXLZYXLeee −−−+− −+≥ αααα
A cota pode ser enfraquecida via desigualdade de Jensen, resultando em
[ ]);()1();(2);)1((2 ZYLZXLZYXLee αααα −+−−+− ≥
ou finalmente,
);()1();();)1(( ZYLZXLZYXL αααα −+≤−+ ,
Com igualdade se e só se X e Y são gaussianas.
A conclusão da demonstração é elaboraa: em linhas gerais
XYn ← YYm ←' mn
n
+=α e chega-se a
( ) ( )ZYLZYL rr ;;22 1 ≤+ com igualdade se e só se rY
2 é gaussiana.
Isto permite mostrar que:
( )↓ZYL r ;2 e adicionalmente, sabe-se que ( ) .0;
2≥ZYL r
Nota final.
A conclusão da demonstração requer demonstrar que a sequencia
( ) ∞
=12;
rZYL r não pode se estabilizar (travar, convergir) antes do zero e
continua decrescendo indefinidamente.
Processos Estocásticos: (processos aleatórios)
Coleção indexada de variáveis aleatórias: uma versão “dinâmica”.
T=conjunto de indices
TtX t ∈,
Teoria no Século XX, com base no gigante A. Kolmogorov.
Obs: ⊂− )(1 janelasX t a
( )iti bXai≤≤Pr
≤≤ )(Pr iti
i
bXaiU
CLASSIFICAÇÃO DE PROCESSOS
1. Processo estocástico de parâmetro contínuo ||T||=2c
2. Processo estocástico de parâmetro discreto ||T||<∞ ou ||T||=ℵ0
Fixado w∈∈∈∈ΩΩΩΩ,
X(w,t) são chamadas de “funções amostrais” ou trajetórias de um
processo estocástico
Fixado t1∈∈∈∈T,
X(w,t1) é uma variável aleatória.
Variável aleatória
w X
ΩΩΩΩ x (ΩΩΩΩ, ,P) ( , ,P’)
Teorema de Kolmogorov MAPEAMENTO
w Xt
ΩΩΩΩ (ΩΩΩΩ, ,P) ( , ,P’)
A’⊂ )'(1AXA t
−=
P’(A’):=P(A), desde que A∈
A idéia é usar ( n, ,Π) em lugar de ( , ,P’)
⊂⊂⊂⊂ ⇒⇒⇒⇒ Π é uma restrição de P' a
EQUIVALENCIA DE P.E.’s
Dois processos estocásticos TtX t ∈, e TtYt ∈, são ditos equivalentes
se e só se Xt(w)=Yt(w) c.p.1.
TOPOLOGIA
Intervalos abertos em
Intervalos de Base em n aj<X(tj,w)<bj j=1,2,3,...,n.
Intervalo aberto
Uniões, intersecções e outras operações finitas com intervalos abertos em
formam a álgebra . Tome como a menor σ-álgebra que contém todos os
intervalos abertos.
Função amostral ou Realização de um P.E. (trajetória)
É uma generalização do conceito de variável aleatória (versão dinâmica): a
cada instante, tem-se uma variável aleatória diferente!
t fixo
X(w1,t)
t
X(w2,t)
Figura. Fixado um instante arbitrário de tempo, o processo aleatório torna-se uma simples
variável aleatória.
Xt1 é uma variável aleatória,
⇒ logo tem sentido a distribuição ( )11 11Pr)( xXxF tX t
≤=
Distribuições marginais:
( )11 11Pr)( xXxF tX t
≤=
( )22 22Pr)( xXxF tX t
≤=
...
( )ntnX xXxF
ntn≤= Pr)(
Funções distribuição finito-dimensionais: ∀∀∀∀n, ∀∀∀∀t1,...,tn,
( )ntntttnnXXXX xXxXxXxXxxxxFnntntntt
≤≤≤≤= −− −−,,...,,Pr),,...,,( 121121..., 121,1,2,1
Especificação de ordem m de um P.E.
Um P.E. está especificado até ordem m se todas as funções de distribuição
finito-dimensionais são conhecidas para n=1, 2, ..., m, para instantes de tempo
arbitrários.
Especificação de um P.E.
Para todo n finito, suponha que conhecemos a função distribuição de
probabilidades acima: o Processo Estocástico está especificado.
Condições de Kolmogorov. (sobre as distribuições finito-dimensionais)
1. Condição de simetria:
∀ permutação j1,j2,...,jk dos índices 1,2,..,k,
F(xj1 xj2 ... xjk; tj1 tj2 ... tjk)=F(x1,x2,...;t1,t2...tk).
2. Condição de compatibilidade ∀m<k
F(x1,x2,..xm,+∞,...,+∞ ; t1,t2...tm,...,tk) = F(x1,x2,...xm;t1,t2...tm).
A especificação completa de um processo estocástico geral é, na vasta e
quase totalidade dos casos, excessivamente complexa e frequentemente
impossível.
Alguns processos aleatórios são mais estruturados, mais simples de
serem estudados e muito empregados para modelar situações práticas.
PROCESSO ESTACIONÁRIO SENTIDO ESTRITO
Definição. Um processo aleatório é dito ser estacionário no sentido estrito se
e somente se escolhidos quaisquer instantes finitos, as funções de distribuição
finito-dimensional são invariantes a um deslocamento na origem dos tempos.
t1 t2 t3
Figura. Estacionaridade de funções de distribuição finito-dimensionais (N=3).
Adicionando-se o mesmo incremento aos instantes fixados t1, t2, t3, recai-se sobre os
instantes identificados por (•). A distribuição conjunta permanece a mesma.
Etimologia - Estacionário (de comportamento estacionado), simplificando
sobremaneira a especificação e o tratamento do processo.
∀τ, ∀k,
Fxt1 xt2 ... xtk(x1,x2,...,xk)= Fxt1+τ xt2+τ ... xtk+τ (x1,x2,...,xk).
CONSEQÜENCIAS:
Para k=1
∀τ Fxt1 (x1)= F
xt1+τ (x1), i.e., mesma distribuição mantém-se durante todo o processo.
Por exemplo, para um processo estacionário Gaussiano
Variável Gaussiana, Gaussiana, Gaussiana, ....(indefinidamente...)
Em t1: E(Xt1) ∫+∞
∞−=
1tXxdF ,
Em t2: E(Xt2) ∫+∞
∞−=
2tXxdF .
Logo E(Xt1)= E(Xt2)= ...= E(Xt)=constante.
O processo estocástico (P.E.) estacionário tem média única, constante. De
modo geral, todos os momentos são constantes, invariantes à origem dos
tempos.
Note que – da análise pela função característica – uma forma alternativa
mais simples de especificar uma variável aleatória é através dos seus
momentos.
Ainda assim, o problema é demasiadamente complicado...
Por este motivo, é usual restringir-se a análise até a 2ª ordem, como ver-
se-á na sequência. Trabalhar com momentos é como comer “papa quente”:
atacar “pelas beiradas”...
PROCESSO ESTACIONÁRIO SENTIDO AMPLO
Definição. Um P.E. é dito ser estacionário no sentido amplo se e somente se
1. EX(t)= constante.
2. EX2(t)<+∞ ∀t∈T
3. ∀ t1, t2∈T RX(t1, t2)=RX(t2-t1)=RX(τ).
A função de autocorrelação do processo (ACF) independe
da origem dos tempos.
*Apenas a média e variância permanecem constantes ao longo do tempo.
Estacionaridade: sentido estrito ⇒⇒⇒⇒ sentido amplo
Além de ser mais simples de tratar, são mais gerais e com menor regularidade
que os processos estacionários no sentido estrito. Vale também salientar que
tais processos possuem uma descrição espectral (no domínio frequencial).
EXEMPLOS DE Processos Aleatórios
Xt=at+b a,b~N(0,1)
Xt=2.cos(2π(100+∆)t) ∆~U(-10,10)
Yn = Xn – Xn-1 Xn Bernoulli
∑=
=n
k
kn XY1
Xn Bernoulli
Processo das retas aleatórias
Xt=at+b a,b~N(0,1) a e b independentes.
EXt= mX(t)=E(a)t+E(b)=0. média nula.
RX(t1,t2)=EXt1 Xt2=t1t2E(a2)+2E(ab)t1t2+E(b2).
RX(t1,t2)=t1t2+1 e KX(t1,t2)= t1t2+1.
Ruído discreto – Processo estocástico de Bernoulli
1≥nnX Xn i.i.d. binária com p)(1 com
p com
0
1
−
=adeprobabilid
adeprobabilidX n .
Caso p=1/2. 2/10 ==nXP e 2/11 ==nXP .
trajetória típica (realização)
Análise dos parâmetros:
• Média E Xn =1/2
• Variância var( Xn )=1/4
• Correlação R(Xn,Xn+k)=0,25 δk,0
Seqüência estacionária no sentido amplo.
Xt=at+b a,b~N(0,1)
Calculando a ACF, RX(t1,t2)=t1.t2+b2
Não é estacionário, nem no sentido amplo nem estrito...
PASSEIO ALEATÓRIO (passeio causual)
Considere uma seqüência de v.a.’s i.i.d. 1≥nnX e suponha que
cada Xn possa assumir apenas valores -1 e +1 (passo para tras e
passo para frente, respectivamente), com probabilidades
pXP n =+= 1 e pqXP n −==−= 11 .
Seja a seqüência
∑=
=n
k
kn XY1
Se E Xn =m e var( Xn )=v então é fácil verificar que:
E Yn =n.m e var( Xn )=n.v ⇒ o processo não é estacionário!
Exercício. Demonstrar que a autocovariância do processo é dada
por:
Cov(Xn,Xn+k)=v.[Min(n,n+k)]
Notado também como Cov(Xn1,Xn2)=v.(n1^n2).
Processo de Wiener-Lévy (Movimento Browniano) Botânico Robert Brow 1827
Modelo para o movimento caótico exibido por uma partícula (e.g.
pólem) imersa em um líquido, visto em microscópio.
Norbert Wiener (1864-1964) filho de imigrantes russos
Paul Pierre Lévy (1886-1971) aluno Hadamard, orientador Mandelbrot
O processo X(t), t≥0 é dito ser um processo de Wiener-Lévy se:
i) ∀t>0, X(t)~ N(0,t)
ii) X(0):=0
iii) X(t), t≥0 tem incrementos estacionários e independentes.
Trajetória típica
Incrementos independentes
Para qualquer escolha de instantes arbitrários nttt <<< ...10 ,
as variáveis de incremento
)()( 01 tXtX − , )()( 12 tXtX − , )()( 23 tXtX − ,..., )()( 1−− nn tXtX são:
1) independentes
2) estacionárias )()( 1 kjkj tXtX +−+ − tem mesma distribuição
que )()( 1−− jj tXtX ∀ k
A média do processo é
m(t)=m1=0.
A covariância de processos incrementos-independentes vale
KX(t1,t2)=varmin(t1,t2)=varXt1^t2.
Prova.
Provemos inicialmente que t1≤t2, KX(t1,t2)= varXt1.
A ACF do processo é RX(t1,t2)=EXt1 Xt2.
Truque: RX(t1,t2)= EXt1 (Xt2- Xt1)+X2
t1
(via incrementos independentes) ⇒
RX(t1,t2)=m1(m2-m1)+E X2t1.
Mas KX(t1,t2)= RX(t1,t2)-m1m2 =E X2t1-m2
1 =varXt1.
Se t1=t2, o resultado é imediato. Generalizando, chega-se a
KX(t1,t2)=varXt1^t2. Q.E.D.
O processo definido por i) a iii) é Gaussiano:
−
−
−
=
− )()(
)()(
)()(
.
1111
0
0111
0011
0001
)(
)(
)(
1
12
01
2
1
nnn tXtX
tXtX
tXtX
tX
tX
tX
M
L
LOMM
K
K
K
M .
Como n
kkk tXtX 11)()( =−− são variáveis aleatórias independentes e
gaussianas, o vetor que define o processo corresponde a uma
transformação linear de variáveis gaussianas com distribuição n-
variada.