Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli...
Transcript of Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli...
Distribuições Comuns de Variáveis Aleatórias Discretas
1. Constante
2. Uniforme
3. Bernoulli
4. Binomial
5. Geometrica
6. Poisson
Variável Aleatória Constante
• pmf
• CDF
c
1.0
1.0
c
Distribuição Discreta Uniforme
• A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n
• pmf
• CDF:
contráriocaso
Xxsenxp i
iX ,0
,/1)(
n
tiptF
t
iX
1
)()(
Variável de Bernoulli
– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha}
– A v.a. binária X é chamada variável de Bernoulli tal que:
–Função de massa de probabilidade:
)0(1
)1(
XPpq
XPp
Distribuição de Bernoulli
• CDF
x0.0 1.0
q
p+q=1
Binomial• A v.a. X representa o numero de sucessos em
uma sequencia de experimentos de Bernoulli.• Todos experimentos são independentes.• Cada resultado é um “sucesso” ou “falha”.• A probabilidade de sucesso de um
experimento é dado por p. A probabilidade de uma falha é 1- p.
• Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.
Distribuição Binomial
A distribuição binomial com parâmetros n 0 and 0 < p < 1, is
Qual a média e variância????
p xn
xp px n x( ) ( )
1
Distribuição Binomial
A distribuição binomial com parametros
n 0 and 0 < p < 1, is
A média e variância da binomial são:
p xn
xp px n x( ) ( )
1
np np p2 1( )
V.A. Binomial: pmfpk
0
0.2
0.4
0.6
0.8
1
1.2
0 1 2 3 4 5 6 7 8 9 10
x
CD
F
V.A. Binomial: CDF
Distribuição Geométrica
• Número de experimentos até incluir o 1o sucesso.
• Em geral , S pode ter um tamanho infinitamente contável
• Definir a v.a Z ( S): amostra: 0 i-1 1 = i
• Por causa da independência:
Geométrica• A distribuição geometrica é a única distribuição
discreta que exibe a propriedade MEMORYLESS.
• Resultados futuros são independentes de eventos passados.
• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n
Geométrica: ausência de memória
• Y=Z-n
)()1(1
)(1
)(
)(1
)(
)(
)(
)(
)(
)|(
)|(
)|(
11
ippqq
pq
nF
inp
nF
inZP
nZP
inZP
nZP
nZandinZP
nZinZP
nZinZP
nZiYP
Zi
n
in
Z
Z
Z
V.A. Geometrica
• Exercício: Mostre que
1
1( ) 1 and ( )X
x
P x E xp
VA Poisson• Número de eventos independentes que
ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8)
• Número de chegadas em um servidor em 1 hora
• Número de erros de impressão em uma página de um livro
• = # médio de eventos que ocorrem no período
• Aproximação para VA Binomial com n grande e p pequeno (Ross)
•Se X = Binomial(n,p), X Poisson( = np)
Poisson: propriedades• Considere que um servidor espera receber 100
transações em um minuto: = 100 (constante)
• Espera-se que:– O início de cada transação é independente dos outros;
– Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t
– A probabilidade de chegar duas transações ao mesmo tempo é zero!
• O processo de Poisson tem as propriedades acima• A VA X~Poisson representa o numero de transacoes
que chegam durante um periodo t.
VA Poisson: Aplicacao• A v.a. de Poisson é boa para modelar vários fenômenos, como o
número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo.
• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail
• Sessões são iniciadas por usuários– Chegada de duas sessões tendem a ser independentes: Poisson é uma
boa aproximação
• Contra-exemplo:– Chegada de requisições em um servidor Web
– Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele
• Função de massa de probabilidade (pmf):
• CDF:
k!
)( )(
ktektNPp t
k
k!)(
0
k
x
k
t texF
Distribuição de Poisson
pk
t=1.0
Poisson pmf
t1 2 3 4 5 6 7 8 9 10
0.5
0.1
CDF1
t=1.0
Poisson CDF
t=4.0
pk
t=4.0
Poisson pmf
t
CDF
1 2 3 4 5 6 7 8 9 10
0.5
0.1
1
t=4.0
Poisson CDF
Poisson• Uma v.a. de Poisson X tem sua pmf::
Onde > 0 é uma constante
E(X)= Var(X) =
( ) 0,1,2,...!
x
P X x e xx
Search Algorithms: Is the Web-Graph a Random graph? No!
• Random graph Gn,p:– n nodes– Every directed edge occurs with probability p
• Is the Web-graph a random graph Gn,p?
• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson
distribution
• Therefore: The degree of a random graph does not obey a power law (observed for web graphs)
Exercícios1. Considere que o número de mails que chegam a um servidor de
mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades:
– Exatamente tres mensagens chegarão num intervalo de 10 seg.
– No máximo 20 msgs chegarão num período de 20seg.
– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.
2. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries?
Solução
1)
2) P(X10 = 3) = 0.224
3) P(X20 20) = 0.973
4)
tk
ek
tkXtP 3.0
!
)3.0()(
1909.0!
)5.1()73( )5.1(
7
35
e
kXP
k
k
Solução
• 2) ii
ierrosP
100044
1000
4
)101()10(1000
)3(#
61000443
0
10*825.3)101()10(1000
1)3(#
ii
ierrosP
Distribuições Discretas• Zipf()
– Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia
– 90% dos acessos são para 10% dos arquivos
• Popularidade de palavras na língua inglesa
– Seja i, o elemento que ocupa a i-esima posição no ranking de concentração
C é a constante de normalização
Zipf: lei das Potências
,...2,1)( ii
CiXP
Distribuição Zipf
• Modela popularidade dos remetentes de e-mails para a UFMG
Distribuições de Variáveis Aleatórias Contínuas
• Normal
• Exponencial
• Weibull
• Lognormal
• Pareto
• ....
Distribuições de Variáveis Aleatórias Contínuas
• Variáveis aleatórias contínuas– Assumem um intervalo infinito de diferentes valores
– W=% percentual de crescimento do PIB em 2005
– V=tempo para retornar a resposta de um “query”
– Valores específicos-particulares de uma v.a. contínua tem probabilidade 0
– Intervalos de valores tem probabilidade 0
Função Densidade de Probabilidade
Para f (x) ser uma pdf
1. f (x) > 0 x.
2.A area da região entre o grafico de f e o eixo do x é igual a 1.
Area = 1
( )y f x
Distribuição de Probabilidade
Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b,
( )b
aP a X b f x dx
O gráfico de f é a curva de densidade.
é dada pela área da função sombreada.
( )y f x
ba
( )P a X b
Distribuição Normal (Gaussiana)
• Distribuição mais comum na análise de dados• pdf is:
• -x +• Média é , desvio padrão
f x ex
( )( )
1
2
2
22
Notação para Distribuições Gaussianas
• Geralmente denotada N(,)
• Normal unitária é N(0,1)
• Se x tem N(,), tem N(0,1)
• O -quantil de uma normal unitária z ~ N(0,1) é denotado por ztal que
x
zxPz
xP )()(
Parâmetros
• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela
– Distribuição pode ser expressa pela pdf ou CDF
Parâmetros
• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada
• Quando isso é verdade, nós queremos sumarizar as métricas de informção:– Média
– Variancia
– Mediana
– Percentis
• São também chamados de parâmetros de uma distribuição
Distribuição Normal
• Função de densidade– Dois parâmetros, e – Assim se X é distribuído com uma normal:
2
2,~
XV
XE
NX
Normal
• Função de densidade para =0, =1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-5 -4 -3 -2 -1 -6E-14 1 2 3 4 5
x
f(x)
Normal
• Função de densidade para =1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
=2
=5
Normal
• Funções de densidade para =1
=1
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
=2
Distribuicao Exponencial• Quantidade de tempo até que determinado evento
ocorra
= taxa de chegadas 1/ = tempo médio entre chegadas
0for x 1
0for x -
λx X
λxX
exF
exf
Exemplo: v.a. exponencial
• pdf:• CDF:
• v.a. muito frequentemente usada em computacao• Modelos:
– Tempo entre duas submissões de queries a uma maquina de busca
– Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador
– Tempo entre chegadas de sessões em um servidor
0,)( xexf xxexF 1)(
x
f(x)
Exponential distribution
• Density
0
0.2
0.4
0.6
0.8
1
1.2
0 1 2 3 4 5
Distribuicao Exponencial
P(X 1/ ) = 1 – e-1/ = 1 – 1/e
E(X) = 1/
Var(X) = 1/2 SD(X) = 1/ CV(X) = 1
CV = 1 exponencial
Distribuições Exponencial e Poisson• Seja uma distribuição Poisson que denote o número de eventos
N(t) em um intervalo de tempo t
• Seja T1 o momento do 1o evento
• Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos
• Sequência {Tn, n=1, 2, ...}: tempos entre chegadas
P(T1 t) = P(N(t) = 0) = e -t T1 exponencial()
P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)
= Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes)
= e -t T2 exponencial()
T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial()
Distribuições Exponencial e PoissonProcesso de Chegadas
Poisson
Tempo entreChegadas
Exponencial
Independência entre eventos
Distribuição Exponencial
• Exponencial () :
)(1)1(
11
)1(1
)1(1
)(1
)()(
)(1
)(
)(
])[]([)|(
)(
xXPee
ee
e
eee
e
ee
tXP
tXPxtXP
tXP
xtXtP
tXP
tXxtXPtXxtXP
xt
xt
t
txt
t
txt
Propriedade sem memória(memoryless)
Propriedade Memoryless• Tempo de residência R de um cliente depende do # de
clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço.
– Seja Xi a VA para o tempo de serviço de cliente i na CPU
– Seja Xi: exponencial() para todos os clientes
– Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço
• Y também tem distribuição exponencial com parâmetro
• Tempo que ainda falta independe do tempo que já esteve em serviço
• Estado futuro não depende do estado passado
Propriedade Memoryless
• Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless
• Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless
Outras Distribuições Contínuas
• Weibull
• Lognormal
• Pareto
Distribuição de Weibull
A va contínua T tem uma distribuição de Weibull se a pdf é
Onde os parâmetros satisfazem t0 > 0 > 0
t
t
etF
ettf
1)(
)( 1
Distribuição Lognormal
Uma va X tem uma distribuição lognormal se a va Y = ln(X) tem uma distribuição normal com a pdf resultante com parâmetros e
YeX
00
02
1),;(
)2( 2
2)ln(
x
xexxf
x
Muito utilizada para modelar duracao de sessao de usuarios em servicos web
Média e Variância
A média e variância de uma va X que tem uma distribuição lognormal são:
2 2 2/ 2 2( ) ( ) 1E X e V X e e
Distribuição Lognormal
=1=1=1=1
Distribuição de Pareto
• Uma das distribuições heavy tailed.
1)( )1()1(
xxab
x
abxf aa
a
a
High Variability Phenomena
Walter Willinger
AT&T Labs-Research
Motivation
• Internet is full of “high variability”– Link bandwidth: Kbps – Gbps
– File sizes: a few bytes – Mega/Gigabytes
– Flows: a few packets – 100,000+ packets
– In/out-degree (Web graph): 1 – 100,000+
– Delay: Milliseconds – seconds and beyond
• How to deal with “high variability”– High variability = large, but finite variance
– High variability = infinite variance
A Working Definition
• A distribution function F(x) or random variable X is called heavy-tailed if for some
where c>0 and finite
• F is also called a power law or scaling distribution• The parameter is called the tail index• 1< < 2, F has infinite variance, but finite mean• 0 < < 1, the variance and mean of F are infinite
xcxxFxXP ,)(1][
Some Illustrative Examples
• Some commonly-used plotting techniques– Probability density functions (pdf)– Cumulative distribution functions (CDF)– Complementary CDF (CCDF = 1- CDF)
• Different plots emphasize different features– Main body of the distribution vs. tail– Variability vs. concentration– Uni- vs. multi-modal
Probability density functions
Cumulative Distribution Function
0 2 4 6 8 10 12 14 16 18 200
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
F(x
)
Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)Pareto(1,1.5)
Complementary CDFs
10-1
100
101
102
10-4
10-3
10-2
10-1
100
log(x)
log
(1-F
(x))
Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)ParetoII(1,1.5)ParetoI(0.1,1.5)
Why “Heavy Tails” Matter …
• Risk modeling (insurance)
• Load balancing (CPU, network)
• Job scheduling (Web server design)
• Towards a theory for the Internet …
20th Century’s 100 largest disasters worldwide
10-2
10-1
100
100
101
102
US Power outages (10M of customers)
Natural ($100B)
Technological ($10B)
Log(size)
Log(rank)
Most events are
small
But the large events are huge
Distribuição de Erlang
• Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são:
for x > 0 and r = 1, 2 , …
)!1()(
1
r
exxf
xrr xr
k
k
ek
xxF
1
0 !
)(1)(
Erlang: Soma de Exponenciais• Genericamente: X1, X2, ... Xr, todas independentes e
exponencial(): Z = X1 + X2 + ... Xr Erlang de n estágios
• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo
• Se Xi exponencial (i), onde i são diferentes
Z = X1 + X2 + ... Xr Hipoexponencial
1
0
0!
)()(
r
k
zk
zek
zzZF
Exp() Exp() Exp() Exp()
Erlang(r,)
1 2 3 r
Exercícios
• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.
• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
Solução #1
• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.
9856.0)8
1
2
11(
)1(1)1(1)1(
)!
)((1)(
)2
1(
2
0
e
FXPXP
ei
xxF
X
i
xi
X
Solução #2• O tempo de vida em dias de um componente de software é modelado por
uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro
00008554.0
15.0
)90(1
)90()100(
)90(
)10090(
15.0)90|100(
1)(
2
22
2
)90(
)100()90(
e
ee
F
FF
XP
XP
XXP
exF
X
XX
xX
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z z) = P (pelo menos um Xi z) = ?
P (exatamente um Xi z) = ?
Distribuição dos Mínimos
• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente
• Tempo de falha : X1, X2, ...., Xn exponencial ()
• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)
P(Z z) = P (pelo menos um Xi z) = ?
P (exatamente um Xi z) = ?
1
1
)1(111
)(1)(1
)1(
nzz
nXXi
een
zFzFn
zXexatamenteP
Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)
Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)
nznzn
nn
j
jnj
n
j
jnj
n
j
jnzjz
n
j
jnX
jXi
eep
ppn
ppj
n
ppj
n
eej
n
zFzFj
nzXmenospeloP
1111)1(1
10
1
1
1
)(1)()1(
0
0
1
1
1
p = (1-e-z)
Z tem distribuição exponencial com
parâmetro n
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais longa
Z = max (X1, X2, ...., Xn)
– Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário
Front-end: atraso desprezível
Distribuição dos Máximos
• n tarefas independentes : X1, X2, ...., Xn: exponencial ()
• Tempo de resposta = tempo de execução da tarefa mais longa
Z = max (X1, X2, ...., Xn)
nzzzz
nn
n
i
eeee
zXPzXPzXP
zXzXzXP
zXPzZP
)1()1)...(1)(1(
)()...()(
)...(
))(max()(
2
21
Gerando Distribuições• Como gerar amostras de uma
distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?
Gerando Distribuições Ex: geração de amostras de uma distribuição
exponencialF(X) = 1 – e-x
Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1)
F(Z z) = z
F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y )
= P (ln(1 – Z) -y)
= P( 1 – Z e-y)
= P(Z 1 - e-y ) = 1 - e-y
Y é exponencial
O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada
Gerando Distribuições
0
0.2
0.4
0.6
0.8
1
0 20 40 60 80 100x
F(X
) =
P(X
< x
)
Z:
un
iform
e (
0,1
)
X: distribuição que você quer gerar
Gerador de números aleatóriosretorna valor entre 0 e 1. Ex: 0.52
Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral
Para-Casa (próxima aula!)
• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.