Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli...

Post on 18-Apr-2015

121 views 0 download

Transcript of Distribuições Comuns de Variáveis Aleatórias Discretas 1.Constante 2.Uniforme 3.Bernoulli...

Distribuições Comuns de Variáveis Aleatórias Discretas

1. Constante

2. Uniforme

3. Bernoulli

4. Binomial

5. Geometrica

6. Poisson

Variável Aleatória Constante

• pmf

• CDF

c

1.0

1.0

c

Distribuição Discreta Uniforme

• A v.a. discreta X que assume n valores discretos com probabilidade pX(i) = 1/n, 1 i n

• pmf

• CDF:

contráriocaso

Xxsenxp i

iX ,0

,/1)(

n

tiptF

t

iX

1

)()(

Variável de Bernoulli

– V.A gerada por um experimento único de Bernoulli tem um resultado binário {1, 0} ou {sucesso, falha}

– A v.a. binária X é chamada variável de Bernoulli tal que:

–Função de massa de probabilidade:

)0(1

)1(

XPpq

XPp

Distribuição de Bernoulli

• CDF

x0.0 1.0

q

p+q=1

Binomial• A v.a. X representa o numero de sucessos em

uma sequencia de experimentos de Bernoulli.• Todos experimentos são independentes.• Cada resultado é um “sucesso” ou “falha”.• A probabilidade de sucesso de um

experimento é dado por p. A probabilidade de uma falha é 1- p.

• Uso do modelo: número de processadores “down” num cluster; número de pacotes que chegam ao destino sem erro.

Distribuição Binomial

A distribuição binomial com parâmetros n 0 and 0 < p < 1, is

Qual a média e variância????

p xn

xp px n x( ) ( )

1

Distribuição Binomial

A distribuição binomial com parametros

n 0 and 0 < p < 1, is

A média e variância da binomial são:

p xn

xp px n x( ) ( )

1

np np p2 1( )

V.A. Binomial: pmfpk

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5 6 7 8 9 10

x

CD

F

V.A. Binomial: CDF

Distribuição Geométrica

• Número de experimentos até incluir o 1o sucesso.

• Em geral , S pode ter um tamanho infinitamente contável

• Definir a v.a Z ( S): amostra: 0 i-1 1 = i

• Por causa da independência:

Geométrica• A distribuição geometrica é a única distribuição

discreta que exibe a propriedade MEMORYLESS.

• Resultados futuros são independentes de eventos passados.

• Exemplo: Z: numero de experimentos ate sucesso. Ja observamos n experimentos: todos com falhas. Y: numero de experimentos adicionais necessarios ate que um sucesso ocorra, i.e. Z = n+Y ou Y=Z-n

Geométrica: ausência de memória

• Y=Z-n

)()1(1

)(1

)(

)(1

)(

)(

)(

)(

)(

)|(

)|(

)|(

11

ippqq

pq

nF

inp

nF

inZP

nZP

inZP

nZP

nZandinZP

nZinZP

nZinZP

nZiYP

Zi

n

in

Z

Z

Z

V.A. Geometrica

• Exercício: Mostre que

1

1( ) 1 and ( )X

x

P x E xp

VA Poisson• Número de eventos independentes que

ocorrem em um intervalo de tempo (veja discussão em Ross, 4.8)

• Número de chegadas em um servidor em 1 hora

• Número de erros de impressão em uma página de um livro

• = # médio de eventos que ocorrem no período

• Aproximação para VA Binomial com n grande e p pequeno (Ross)

•Se X = Binomial(n,p), X Poisson( = np)

Poisson: propriedades• Considere que um servidor espera receber 100

transações em um minuto: = 100 (constante)

• Espera-se que:– O início de cada transação é independente dos outros;

– Para cada pequeno intervalo de tempo t, a probabilidade de uma nova transação chegar é t

– A probabilidade de chegar duas transações ao mesmo tempo é zero!

• O processo de Poisson tem as propriedades acima• A VA X~Poisson representa o numero de transacoes

que chegam durante um periodo t.

VA Poisson: Aplicacao• A v.a. de Poisson é boa para modelar vários fenômenos, como o

número de transações que chega num servidor em uma hora, ou o número de queries que chega numa máquina de busca em 1 minuto ou número de pacotes que chega num roteador em 1 segundo.

• Muito comumente usado para modelar chegada de sessões de usuários – servidores Web, multimídia, banco de dados, ftp, e-mail

• Sessões são iniciadas por usuários– Chegada de duas sessões tendem a ser independentes: Poisson é uma

boa aproximação

• Contra-exemplo:– Chegada de requisições em um servidor Web

– Premissa de independência não é válida: existe dependência entre requisições para o arquivo HTML e as imagens embutidas nele

• Função de massa de probabilidade (pmf):

• CDF:

k!

)( )(

ktektNPp t

k

k!)(

0

k

x

k

t texF

Distribuição de Poisson

pk

t=1.0

Poisson pmf

t1 2 3 4 5 6 7 8 9 10

0.5

0.1

CDF1

t=1.0

Poisson CDF

t=4.0

pk

t=4.0

Poisson pmf

t

CDF

1 2 3 4 5 6 7 8 9 10

0.5

0.1

1

t=4.0

Poisson CDF

Poisson• Uma v.a. de Poisson X tem sua pmf::

Onde > 0 é uma constante

E(X)= Var(X) =

( ) 0,1,2,...!

x

P X x e xx

Search Algorithms: Is the Web-Graph a Random graph? No!

• Random graph Gn,p:– n nodes– Every directed edge occurs with probability p

• Is the Web-graph a random graph Gn,p?

• The probability of high degrees decrease exponentially • In a random graph degrees are distributed according to a Poisson

distribution

• Therefore: The degree of a random graph does not obey a power law (observed for web graphs)

Exercícios1. Considere que o número de mails que chegam a um servidor de

mails no intervalo t segundos é distribuído como Poisson com parâmetro 0.3t Calcule a seguintes probabilidades:

– Exatamente tres mensagens chegarão num intervalo de 10 seg.

– No máximo 20 msgs chegarão num período de 20seg.

– O número de msgs num intervalo de 5 seg está entre 3 e 7 mails.

2. A probabilidade de um query falhar (não ser bem sucedido) é 10(-4). Qual a probabilidade de falharem mais de 3 queries numa sequência de 1000 queries?

Solução

1)

2) P(X10 = 3) = 0.224

3) P(X20 20) = 0.973

4)

tk

ek

tkXtP 3.0

!

)3.0()(

1909.0!

)5.1()73( )5.1(

7

35

e

kXP

k

k

Solução

• 2) ii

ierrosP

100044

1000

4

)101()10(1000

)3(#

61000443

0

10*825.3)101()10(1000

1)3(#

ii

ierrosP

Distribuições Discretas• Zipf()

– Comumente usada quando a distribuição é altamente concentrada em poucos valores • Popularidade de arquivos em servidores Web/multimídia

– 90% dos acessos são para 10% dos arquivos

• Popularidade de palavras na língua inglesa

– Seja i, o elemento que ocupa a i-esima posição no ranking de concentração

C é a constante de normalização

Zipf: lei das Potências

,...2,1)( ii

CiXP

Distribuição Zipf

• Modela popularidade dos remetentes de e-mails para a UFMG

Distribuições de Variáveis Aleatórias Contínuas

• Normal

• Exponencial

• Weibull

• Lognormal

• Pareto

• ....

Distribuições de Variáveis Aleatórias Contínuas

• Variáveis aleatórias contínuas– Assumem um intervalo infinito de diferentes valores

– W=% percentual de crescimento do PIB em 2005

– V=tempo para retornar a resposta de um “query”

– Valores específicos-particulares de uma v.a. contínua tem probabilidade 0

– Intervalos de valores tem probabilidade 0

Função Densidade de Probabilidade

Para f (x) ser uma pdf

1. f (x) > 0 x.

2.A area da região entre o grafico de f e o eixo do x é igual a 1.

Area = 1

( )y f x

Distribuição de Probabilidade

Seja X uma va contínua. Então a a função de probabilidade (pdf) de X é uma função f (x) tal que para dois números quaisquer a and b,

( )b

aP a X b f x dx

O gráfico de f é a curva de densidade.

PDF

é dada pela área da função sombreada.

( )y f x

ba

( )P a X b

Distribuição Normal (Gaussiana)

• Distribuição mais comum na análise de dados• pdf is:

• -x +• Média é , desvio padrão

f x ex

( )( )

1

2

2

22

Notação para Distribuições Gaussianas

• Geralmente denotada N(,)

• Normal unitária é N(0,1)

• Se x tem N(,), tem N(0,1)

• O -quantil de uma normal unitária z ~ N(0,1) é denotado por ztal que

x

zxPz

xP )()(

Parâmetros

• A distribuição de v.a. contínua contém toda a informação que a estatística pode descobrir sobre ela

– Distribuição pode ser expressa pela pdf ou CDF

Parâmetros

• Geralmente a informação existente numa distribuição pode ser excessiva para ser processada

• Quando isso é verdade, nós queremos sumarizar as métricas de informção:– Média

– Variancia

– Mediana

– Percentis

• São também chamados de parâmetros de uma distribuição

Distribuição Normal

• Função de densidade– Dois parâmetros, e – Assim se X é distribuído com uma normal:

2

2,~

XV

XE

NX

Normal

• Função de densidade para =0, =1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 -6E-14 1 2 3 4 5

x

f(x)

Normal

• Função de densidade para =1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

=2

=5

Normal

• Funções de densidade para =1

=1

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7

=2

Distribuicao Exponencial• Quantidade de tempo até que determinado evento

ocorra

= taxa de chegadas 1/ = tempo médio entre chegadas

0for x 1

0for x -

λx X

λxX

exF

exf

Exemplo: v.a. exponencial

• pdf:• CDF:

• v.a. muito frequentemente usada em computacao• Modelos:

– Tempo entre duas submissões de queries a uma maquina de busca

– Tempo de execução de processos – Tempo entre chegadas de pacotes em um roteador

– Tempo entre chegadas de sessões em um servidor

0,)( xexf xxexF 1)(

pdf

x

f(x)

Exponential distribution

• Density

0

0.2

0.4

0.6

0.8

1

1.2

0 1 2 3 4 5

Distribuicao Exponencial

P(X 1/ ) = 1 – e-1/ = 1 – 1/e

E(X) = 1/

Var(X) = 1/2 SD(X) = 1/ CV(X) = 1

CV = 1 exponencial

Distribuições Exponencial e Poisson• Seja uma distribuição Poisson que denote o número de eventos

N(t) em um intervalo de tempo t

• Seja T1 o momento do 1o evento

• Seja Tn o tempo entre o (n-1)-esimo e o n-esimo eventos

• Sequência {Tn, n=1, 2, ...}: tempos entre chegadas

P(T1 t) = P(N(t) = 0) = e -t T1 exponencial()

P(T2 t | T1 = s) = Prob (0 eventos em (s, s+t) | T1 = s)

= Prob (0 eventos em (s, s+t)) (eventos Poisson são independentes)

= e -t T2 exponencial()

T1 , T2, ..., Tn são independentes e têm mesma distribuição exponencial()

Distribuições Exponencial e PoissonProcesso de Chegadas

Poisson

Tempo entreChegadas

Exponencial

Independência entre eventos

Distribuição Exponencial

• Exponencial () :

)(1)1(

11

)1(1

)1(1

)(1

)()(

)(1

)(

)(

])[]([)|(

)(

xXPee

ee

e

eee

e

ee

tXP

tXPxtXP

tXP

xtXtP

tXP

tXxtXPtXxtXP

xt

xt

t

txt

t

txt

Propriedade sem memória(memoryless)

Propriedade Memoryless• Tempo de residência R de um cliente depende do # de

clientes na fila quando ele chega ao centro, nos tempos de serviços destes clientes e no tempo que o cliente que está sendo servido no momento de chegada ainda permanecerá em serviço.

– Seja Xi a VA para o tempo de serviço de cliente i na CPU

– Seja Xi: exponencial() para todos os clientes

– Seja Y a VA que denota o tempo residual que o cliente que está em serviço no momento de chegada ainda permanecerá em serviço

• Y também tem distribuição exponencial com parâmetro

• Tempo que ainda falta independe do tempo que já esteve em serviço

• Estado futuro não depende do estado passado

Propriedade Memoryless

• Distribuição exponencial é a única distribuição contínua que tem a propriedade memoryless

• Por sua vez, distribuição geométrica é a única discreta que tem a propriedade memoryless

Outras Distribuições Contínuas

• Weibull

• Lognormal

• Pareto

Distribuição de Weibull

A va contínua T tem uma distribuição de Weibull se a pdf é

Onde os parâmetros satisfazem t0 > 0 > 0

t

t

etF

ettf

1)(

)( 1

Distribuição Lognormal

Uma va X tem uma distribuição lognormal se a va Y = ln(X) tem uma distribuição normal com a pdf resultante com parâmetros e

YeX

00

02

1),;(

)2( 2

2)ln(

x

xexxf

x

Muito utilizada para modelar duracao de sessao de usuarios em servicos web

Média e Variância

A média e variância de uma va X que tem uma distribuição lognormal são:

2 2 2/ 2 2( ) ( ) 1E X e V X e e

Distribuição Lognormal

=1=1=1=1

Distribuição de Pareto

• Uma das distribuições heavy tailed.

1)( )1()1(

xxab

x

abxf aa

a

a

High Variability Phenomena

Walter Willinger

AT&T Labs-Research

walter@research.att.com

Motivation

• Internet is full of “high variability”– Link bandwidth: Kbps – Gbps

– File sizes: a few bytes – Mega/Gigabytes

– Flows: a few packets – 100,000+ packets

– In/out-degree (Web graph): 1 – 100,000+

– Delay: Milliseconds – seconds and beyond

• How to deal with “high variability”– High variability = large, but finite variance

– High variability = infinite variance

A Working Definition

• A distribution function F(x) or random variable X is called heavy-tailed if for some

where c>0 and finite

• F is also called a power law or scaling distribution• The parameter is called the tail index• 1< < 2, F has infinite variance, but finite mean• 0 < < 1, the variance and mean of F are infinite

xcxxFxXP ,)(1][

Some Illustrative Examples

• Some commonly-used plotting techniques– Probability density functions (pdf)– Cumulative distribution functions (CDF)– Complementary CDF (CCDF = 1- CDF)

• Different plots emphasize different features– Main body of the distribution vs. tail– Variability vs. concentration– Uni- vs. multi-modal

Probability density functions

Cumulative Distribution Function

0 2 4 6 8 10 12 14 16 18 200

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

x

F(x

)

Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)Pareto(1,1.5)

Complementary CDFs

10-1

100

101

102

10-4

10-3

10-2

10-1

100

log(x)

log

(1-F

(x))

Lognormal(0,1)Gamma(.53,3)Exponential(1.6)Weibull(.7,.9)ParetoII(1,1.5)ParetoI(0.1,1.5)

Why “Heavy Tails” Matter …

• Risk modeling (insurance)

• Load balancing (CPU, network)

• Job scheduling (Web server design)

• Towards a theory for the Internet …

20th Century’s 100 largest disasters worldwide

10-2

10-1

100

100

101

102

US Power outages (10M of customers)

Natural ($100B)

Technological ($10B)

Log(size)

Log(rank)

Most events are

small

But the large events are huge

Distribuição de Erlang

• Uma variável aleatória X que iguala o comprimento do intervalo até que r contagens ocorram num processo de Poisson com média > 0 tem uma v.a. de Erlang com parâmetros e r. As pdf e CDF de X são:

for x > 0 and r = 1, 2 , …

)!1()(

1

r

exxf

xrr xr

k

k

ek

xxF

1

0 !

)(1)(

Erlang: Soma de Exponenciais• Genericamente: X1, X2, ... Xr, todas independentes e

exponencial(): Z = X1 + X2 + ... Xr Erlang de n estágios

• Ex: tempo de processamento dividido em várias (r) etapas. A duração de cada etapa é exponencialmente distribuída com mesmo

• Se Xi exponencial (i), onde i são diferentes

Z = X1 + X2 + ... Xr Hipoexponencial

1

0

0!

)()(

r

k

zk

zek

zzZF

Exp() Exp() Exp() Exp()

Erlang(r,)

1 2 3 r

Exercícios

• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = 0.5. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.

• O tempo de vida em dias de um componente de software é modelado por uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

Solução #1

• O tempo de CPU de um query típico medida em ms segue uma distribuição de Erlang de três estágios com = ½. Determine qual a probabilidade que a demanda de CPU da query excederá 1 milisegundo.

9856.0)8

1

2

11(

)1(1)1(1)1(

)!

)((1)(

)2

1(

2

0

e

FXPXP

ei

xxF

X

i

xi

X

Solução #2• O tempo de vida em dias de um componente de software é modelado por

uma distribuição de Weibull com = 2. A partir de um grande número de componentes, foi observado que 15% dos componentes que duraram mais de 90 dias falharam antes de 100 dias. Determine o parâmetro

00008554.0

15.0

)90(1

)90()100(

)90(

)10090(

15.0)90|100(

1)(

2

22

2

)90(

)100()90(

e

ee

F

FF

XP

XP

XXP

exF

X

XX

xX

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente

• Tempo de falha : X1, X2, ...., Xn exponencial ()

• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)

P(Z z) = P (pelo menos um Xi z) = ?

P (exatamente um Xi z) = ?

Distribuição dos Mínimos

• Sistema composto de n componentes. Sistema funciona se todos componentes estão operando corretamente

• Tempo de falha : X1, X2, ...., Xn exponencial ()

• Tempo de de vida do sistema Z = min (X1, X2, ...., Xn)

P(Z z) = P (pelo menos um Xi z) = ?

P (exatamente um Xi z) = ?

1

1

)1(111

)(1)(1

)1(

nzz

nXXi

een

zFzFn

zXexatamenteP

Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)

Distribuição dos Mínimos• P(Z z) = P (pelo menos um Xi z)

nznzn

nn

j

jnj

n

j

jnj

n

j

jnzjz

n

j

jnX

jXi

eep

ppn

ppj

n

ppj

n

eej

n

zFzFj

nzXmenospeloP

1111)1(1

10

1

1

1

)(1)()1(

0

0

1

1

1

p = (1-e-z)

Z tem distribuição exponencial com

parâmetro n

Distribuição dos Máximos

• n tarefas independentes : X1, X2, ...., Xn: exponencial ()

• Tempo de resposta = tempo de execução da tarefa mais longa

Z = max (X1, X2, ...., Xn)

– Ex: tempo de resposta de máquina de busca composta de n processadores executando em paralelo. Cada máquina processa consulta em uma partição do dicionário

Front-end: atraso desprezível

Distribuição dos Máximos

• n tarefas independentes : X1, X2, ...., Xn: exponencial ()

• Tempo de resposta = tempo de execução da tarefa mais longa

Z = max (X1, X2, ...., Xn)

nzzzz

nn

n

i

eeee

zXPzXPzXP

zXzXzXP

zXPzZP

)1()1)...(1)(1(

)()...()(

)...(

))(max()(

2

21

Gerando Distribuições• Como gerar amostras de uma

distribuição a partir de um gerador de números aleatórios uniformemente distribuídos (Unix: random(), drand48())?

Gerando Distribuições Ex: geração de amostras de uma distribuição

exponencialF(X) = 1 – e-x

Y = F-1(X) = - 1/ ln(1 – Z), onde Z uniforme(0,1)

F(Z z) = z

F(Y) = P(Y y) = P(- 1/ ln(1 – Z) y )

= P (ln(1 – Z) -y)

= P( 1 – Z e-y)

= P(Z 1 - e-y ) = 1 - e-y

Y é exponencial

O mesmo procedimento pode ser utilizado para gerar amostras de diferentes distribuições, partindo da inversa da CDF da distribuição desejada

Gerando Distribuições

0

0.2

0.4

0.6

0.8

1

0 20 40 60 80 100x

F(X

) =

P(X

< x

)

Z:

un

iform

e (

0,1

)

X: distribuição que você quer gerar

Gerador de números aleatóriosretorna valor entre 0 e 1. Ex: 0.52

Aplicando o número aleatório na função inversa de F(X), consegue-se gerar um ponto amostral

Para-Casa (próxima aula!)

• Converse com seu orientador, e traga um exemplo exepcionalmente bom ou ruim (de preferência) de apresentação e sumarização de dados de proceedings de conferências importantes de sua área. Prepare um texto de no máximo 1 folha com suas críticas e ou elogios ao métodos usados.