Mônica Barros Métodos Estatísticos de · [email protected] 1 Métodos Estatísticos de...
Transcript of Mônica Barros Métodos Estatísticos de · [email protected] 1 Métodos Estatísticos de...
monicamonica@@ele.pucele.puc--rio.brrio.br 1
MMéétodos Estattodos Estatíísticos de sticos de Apoio Apoio àà DecisãoDecisão
AulaAula 1 1 Mônica Barros, Mônica Barros, D.Sc.D.Sc.
Julho de Julho de 20082008
monicamonica@@ele.pucele.puc--rio.brrio.br 2
Quem sou eu?Quem sou eu?
Mônica BarrosDoutora em Séries Temporais – PUC-RioMestre em Estatística – University of Texas at Austin, EUABacharel em Matemática – University of Washington, Seattle, EUAProfessora da PUC-Rio (Depto. De Eng. Elétrica)
E-mails: [email protected], [email protected]
Home page: http://www.mbarros.com
monicamonica@@ele.pucele.puc--rio.brrio.br 3
Programa do CursoPrograma do Curso
Aula Tipo (T-P-C) Tema Descrição1 T, P Estatística Descritiva Gráficos, tabelas e medidas numéricas
2 T Probabilidade: Definições básicasDefinições básicas: probabilidade, espaço amostral, eventos, propriedades das probabilidades, Probabilidade Condicional, Independência;Teorema de Bayes
3 T Probabilidade: Definições básicasVariáveis Aleatórias Contínuas e Discretas , Função de Probabilidade, Função Densidade, Função de Distribuição, Momentos de uma v.a., Média, Variância e Desvio Padrão
4 T, P Probabilidade: Definições básicas Variáveis Discretas: Bernoulli, Binomial, Hipergeométrica, Geométrica, Binomial Negativa, Poisson5 T, P Probabilidade: v.a. Contínuas Variáveis Contínuas: Uniforme, Exponencial, Normal
6 P Pratica 1 Aula de exercícios - As funções do Excel para cálculo de probabilidades para v.a. Contínuas e discretas
7 T, C
Probabilidade: v.a. Contínuas E CASE 1: Simulação - soma de v.a. e o teorema central do limite CASE 2: Otimização de um portfolio simulado - propriedades da média e variância e o uso do Solver
O teorema central do limite e a importância da distribuição Normal.O teorema central do limite na prática - soma de variáveis aleatórias e a convergência para a Normal. Distribuição da soma de v.a. e da média amostral. Propriedades da média e variância de combinações lineares de v.a. - o efeito da correlação. O uso do Solver do Excel
8 T, P Distribuições Amostrais Amostra aleatória simples, distribuição da média amostral, distribuição de p^9 T, P Estatística - estimação pontual Estimação da média da população com sigma conhecido e desconhecido e para proporções
10 T/PEstatística - estimação por intervalos
Intervalos de confiança para amostras Normais e proporção Binomial - Exercícios - intervalos de confiança empregando o Excel
11 T/P Estatística - testes de hipóteses Teste de hipótese para amostrais normais e Exercícios
Ferramentas Excel, @Risk
Disciplina Métodos Estatísticos de Apoio à Decisão - BI MASTER 2008Responsável Mônica Barros
monicamonica@@ele.pucele.puc--rio.brrio.br 4
Nota Nota –– InstalaInstalaçção das ão das Ferramentas de AnFerramentas de Anáálise do Excellise do Excel
Muitas das técnicas descritas aqui requerem a prévia instalação do suplemento (“add-in”) “Ferramentas de Análise” do Excel. O procedimento de instalação édescrito a seguir:
No menu Ferramentas, selecione “Suplementos” e na caixa de diálogo que será aberta marque a opção “Ferramentas de análise”. Se esta opção não estiver presente, clique “procurar” para encontrar o arquivo correspondente (em geral chamado Analys32.xll) ou rode novamente o “set-up” do MS-Office.
monicamonica@@ele.pucele.puc--rio.brrio.br 5
Aula 1Aula 1
Estatística DescritivaDados – o que são, escalas de medidaObjetivos da Estatística DescritivaGráficosTabelasMedidas Numéricas
monicamonica@@ele.pucele.puc--rio.brrio.br 6
Estatística Descritiva
monicamonica@@ele.pucele.puc--rio.brrio.br 7
DadosDados
São fatos e números coletados e sintetizados para apresentação e interpretação. Lembre-se: “muitas vezes os dados não são dados... (são comprados ou a sua coleta é bem difícil, portanto aproveite-os bem).”
DadosQualitativos (ou categóricos)
Geralmente não numéricos, e se numéricos, nas escalas nominal ou ordinal (vide abaixo), indicando rótulos
QuantitativosIndicam quantidades numéricas, por exemplo, preço, volume, densidade, duração, lucro, ...
monicamonica@@ele.pucele.puc--rio.brrio.br 8
DadosDados
Escalas de dadosNominal
Por exemplo:região do país (Sudeste, Sul, Nordeste, Norte, Centro-Oeste). Um código numérico pode ser atribuído a cada região (por exemplo, SE = 1, Sul = 2, ...), mas não faz sentido fazer contas com este código, não existe qualquer ordenação particular neste código (poderíamos ter definido Norte = 1, Sul =2, ...)Sexo do entrevistado, M = 1, F = 0. É óbvio que este código pode ser invertido.
monicamonica@@ele.pucele.puc--rio.brrio.br 9
DadosDados
Escalas de dadosOrdinal
Semelhante aos dados nominais mas existe uma “ordem” intrínseca nos códigos.Por exemplo, “Excelente” = 4, “Bom” = 3, “Regular” = 2, “Ruim” = 1, “Péssimo” = 0.
IntervalarDados ordinais dentro de um intervalo. Por exemplo, scores de um exame padronizado, como o SAT (vestibular americano).
ProporçãoÉ a usual. Por exemplo, o preço de um carro. Se um carro custa R$ 40 mil e outro R$ 20 mil, isto significa que existe uma proporcionalidade entre os preços, o primeiro custa o dobro do segundo.
monicamonica@@ele.pucele.puc--rio.brrio.br 10
DadosDados
Seção TransversalDados obtidos no mesmo instante de tempo (ou quase no mesmo instante)
Séries TemporaisDados obtidos em diferentes instantes de tempo.A idéia principal é observar como a variável evolui ao longo do tempo. A análise e previsão de séries temporais é uma área separada de estatística, com métodos próprios.
monicamonica@@ele.pucele.puc--rio.brrio.br 11
Fontes de DadosFontes de Dados
BrasilIpeadata: www.ipeadata.gov.brBanco Central: www.bcb.gov.brIBGE: www.ibge.gov.brYahoofinance – para histórico cotações de ações na Bovespa – é gratuito – www.yahoofinance.comCVM – Comissão de Valores Mobiliários –www.cvm.gov.br
Você pode encontrar muitas coisas interessantes em “sites” de internet, por exemplo, naqueles de comparação de preços de produtos, como o buscape.com.br, o bondfaro.com.br e o boadica.com.br.
monicamonica@@ele.pucele.puc--rio.brrio.br 12
EstatEstatíísticastica
Coletar dados, como já dissemos, é uma tarefa muitas vezes cara, demorada e árdua.
Logo, na prática seremos obrigados a inferir sobre alguma característica de interesse de uma população a partir de um subconjunto desta, chamado amostra.
monicamonica@@ele.pucele.puc--rio.brrio.br 13
EstatEstatíísticastica
Em geral um número em Estatística não é apenas um número! A ele associamos uma medida de incerteza ou variabilidade.
População e AmostraPopulação = coleção de todos os elementos cujas características desejamos conhecer. Os elementos (ou "indivíduos") na população não são necessariamente pessoas!
Amostra = subconjunto da população cujas características serão medidas. A amostra será usada para descobrir características da população.
monicamonica@@ele.pucele.puc--rio.brrio.br 14
ExemplosExemplos
1) População = eleitores na cidade do Rio de JaneiroAmostra = 650 eleitores escolhidos aleatoriamente (ao acaso)Característica de interesse: percentual de eleitores queplanejam votar num candidato X nas próximas eleições.
2) População = automóveis produzidos no Brasil entre 1997 e2002
Amostra = 10000 carros escolhidos aleatoriamente dentre os sujeitos a “recall” das montadoras
Característica de interesse: verificar se o proprietário do carro respondeu ao chamado de “recall” da fábrica
monicamonica@@ele.pucele.puc--rio.brrio.br 15
ExemplosExemplos
3) População = todos os domicílios com TV na cidade do Rio de JaneiroAmostra = 1000 domicílios com TV escolhidos ao acasoCaracterística de interesse = percentual de audiência de cada emissora de TV num certo diada semana no horário de 18 às 22 horas.
Em resumo:Em resumo: A partir de uma amostra coletamos A partir de uma amostra coletamos informainformaçções que nos permitões que nos permitemem aprender alguma aprender alguma coisa interessante sobre a populacoisa interessante sobre a populaçção.ão.
monicamonica@@ele.pucele.puc--rio.brrio.br 16
Por que fazer isso?Por que fazer isso?
ÉÉ economicamente eficiente!economicamente eficiente! Os custos são infinitamente mais baixos que os de amostrar a população inteira (“censo”).
Pode-se provar que, para populações muito grandes, uma amostra de cerca de 600 ou 1000 "indivíduos" fornece resultados bastante confiáveis sobre as características da população.
monicamonica@@ele.pucele.puc--rio.brrio.br 17
EstatEstatíísticastica
CensoÉ a pesquisa realizada a partir da população inteira.
O censo populacional no Brasil (e na maioria dos países) é feito de 10 em 10 anos. Por que? Porque é caro e demorado. Aliás, na década de 90(?) foi realizado com atraso pois o governo não tina dinheiro....
monicamonica@@ele.pucele.puc--rio.brrio.br 18
E agora?E agora?
Você coletou uma amostra e, dentro desta amostra você coletou dados numéricos (por exemplo, o consumo médio mensal em kWh dos domicílios numa certa área da cidade). O que fazer com isso?
Existem duas possibilidades:Você pode simplesmente descrever estes dados numéricos através de gráficos, tabelas e medidas numéricas. Isto é chamado de estatística descritiva. A maioria das pesquisas de mercado faz só isso, que é sem dúvida, muito importante.
monicamonica@@ele.pucele.puc--rio.brrio.br 19
E agora?E agora?
Você pode tentar tirar conclusõestirar conclusões sobre as características da população a partir dos dados observados na amostra.
Isso se chama estatestatíística inferencialstica inferencial (ou simplesmente estatística!). Para que a gente consiga fazer isso, é necessário ter uma noção bastante abrangente de Probabilidades.
monicamonica@@ele.pucele.puc--rio.brrio.br 20
E agora?E agora?
Na verdade, a estatística descritiva surgiu muito antes da estatística inferencial.
Esta última depende da especificação de modelos matemáticos baseados numa noção fundamental, que é a de "probabilidade".
monicamonica@@ele.pucele.puc--rio.brrio.br 21
EstatEstatíística descritivastica descritiva
Gráficos ("A picture is worth one thousand words")Gráficos da variável ao longo do tempoGráficos de barrasPizzasHistogramaDiagramas de ParetoGráficos de dispersão
monicamonica@@ele.pucele.puc--rio.brrio.br 22
EstatEstatíística descritivastica descritiva
Medidas NuméricasFreqüênciasFreqüências RelativasMédia amostralMediana amostralDesvio padrão amostralVariância amostralAssimetria e Curtose amostraisPercentisCovariância, Correlação amostrais
monicamonica@@ele.pucele.puc--rio.brrio.br 23
Alguns grAlguns grááficos da evoluficos da evoluçção de ão de varivariááveis ao longo do tempoveis ao longo do tempo
monicamonica@@ele.pucele.puc--rio.brrio.br 24
Consumo Total Energia ElConsumo Total Energia EléétricatricaJanJan/1979 a /1979 a AgoAgo/2006/2006
Consumo de Energia Elétrica - Total Brasil (GWh) - Fonte: Eletrobrás
7,000
12,000
17,000
22,000
27,000
32,000
jan/79
jan/80
jan/81
jan/82
jan/83
jan/84
jan/85
jan/86
jan/87
jan/88
jan/89
jan/90
jan/91
jan/92
jan/93
jan/94
jan/95
jan/96
jan/97
jan/98
jan/99
jan/00
jan/01
jan/02
jan/03
jan/04
jan/05
jan/06
monicamonica@@ele.pucele.puc--rio.brrio.br 25
EXEMPLO: EXEMPLO: PrePreçços de Petros de Petróóleo leo Brent e WTI Brent e WTI –– dados didados diáários rios ––02/01/1991 a 03/11/200602/01/1991 a 03/11/2006
Preços de Petróleo (US$/Barril) - Janeiro de 2000 a Novembro de 2006
16
20
24
28
32
36
40
44
48
52
56
60
64
68
72
76
80
84
4/1/20
004/3
/2000
3/5/20
002/7
/2000
31/8/
2000
30/10
/2000
29/12
/2000
27/2/
2001
28/4/
2001
27/6/
2001
26/8/
2001
25/10
/2001
24/12
/2001
22/2/
2002
23/4/
2002
22/6/
2002
21/8/
2002
20/10
/2002
19/12
/2002
17/2/
2003
18/4/
2003
17/6/
2003
16/8/
2003
15/10
/2003
14/12
/2003
12/2/
2004
12/4/
2004
11/6/
2004
10/8/
2004
9/10/2
004
8/12/2
004
6/2/20
057/4
/2005
6/6/20
055/8
/2005
4/10/2
005
3/12/2
005
1/2/20
062/4
/2006
1/6/20
0631
/7/20
0629
/9/20
06
Petróleo WTI Petróleo Brent monicamonica@@ele.pucele.puc--rio.brrio.br 26
EXEMPLO:EXEMPLO: IPCIPC--FFIPEIPEInflação FIPE (% a.m) e quadrissemanas - 01/1995 a 10/2006
-2
-1
0
1
2
3
4
5
jan/95
Inflação - IPC - FIPE Inflação - IPC - FIPE - 1a. quadrissemana
Inflação - IPC - FIPE - 2a. quadrissemana Inflação - IPC - FIPE - 3a. quadrissemana
monicamonica@@ele.pucele.puc--rio.brrio.br 27
EXEMPLO:EXEMPLO: IPCIPC--FFIPEIPE
No gráfico anterior exibimos o IPC-FIPE (o Índice de Preços ao Consumidor da FIPE, um dos mais importantes índices de inflação com suas estimativas quadrissemanais) no período entre 01/1995 e 10/2006.
As prévias quadrissemanais servem como indicadores da inflação do próximo mês medida pelo IPC-FIPE.
No próximo gráfico exibimos os valores mais recentes (desde 2002) do IPC-FIPE.
monicamonica@@ele.pucele.puc--rio.brrio.br 28
IPCIPC--FFIPE IPE desdedesde 20022002
Inflação FIPE (% a.m)- 01/2002 a 10/2006
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
jan/02
abr/0
2
jul/02
out/0
2jan/0
3ab
r/03
jul/03
out/0
3jan/0
4ab
r/04
jul/04
out/0
4jan/0
5ab
r/05
jul/05
out/0
5jan/0
6ab
r/06
jul/06
out/0
6
INFLAÇÃO - IPC - FIPE (% a.m.)
monicamonica@@ele.pucele.puc--rio.brrio.br 29
IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004
0
5,000
10,000
15,000
20,000
25,000
04/07/199403/12/199404/05/199503/10/199503/03/199602/08/199601/01/199702/06/199701/11/199702/04/199801/09/199831/01/199902/07/199901/12/199901/05/200030/09/200001/03/200131/07/200130/12/200131/05/200230/10/200231/03/200330/08/200329/01/200429/06/2004
Índice de ações - Ibovespa - fechamento (07/1994 a 08/2004)
monicamonica@@ele.pucele.puc--rio.brrio.br 30
IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004
Parece que a bolsa subiu muito durante quase todo o Plano Real.
Será que isso é mesmo verdade?
Veja o próximo gráfico, em que comparamos o IBOVESPA em R$ e US$.
monicamonica@@ele.pucele.puc--rio.brrio.br 31
IBOVESPA DiIBOVESPA Diáário rio –– JulhoJulho de 1994 ade 1994 aa a 06/08/200406/08/2004
IBOVESPA em Pontos em Reais e Dólares
2000.00
5000.00
8000.00
11000.00
14000.00
17000.00
20000.00
23000.00
26000.00
04/0
7/19
94
08/1
1/19
94
17/0
3/19
95
25/0
7/19
95
29/1
1/19
95
11/0
4/19
96
14/0
8/19
96
17/1
2/19
96
30/0
4/19
97
03/0
9/19
97
08/0
1/19
98
19/0
5/19
98
22/0
9/19
98
01/0
2/19
99
10/0
6/19
99
14/1
0/19
99
21/0
2/20
00
28/0
6/20
00
31/1
0/20
00
13/0
3/20
01
18/0
7/20
01
22/1
1/20
01
04/0
4/20
02
08/0
8/20
02
10/1
2/20
02
17/0
4/20
03
25/0
8/20
03
26/1
2/20
03
05/0
5/20
04
IBOVESPA em Dólares IBOVESPA em R$
monicamonica@@ele.pucele.puc--rio.brrio.br 32
GrGrááfico de Dispersão fico de Dispersão (uma vari(uma variáável versus outra)vel versus outra)
monicamonica@@ele.pucele.puc--rio.brrio.br 33
Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólarlar
Ibovespa versus Dólar PTAX -10/12/2002 a 12/06/2003
y = -3830.7x + 24366R2 = 0.8954
9,000
9,500
10,000
10,500
11,000
11,500
12,000
12,500
13,000
13,500
14,000
14,500
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Neste período parece fazer sentido ajustar uma reta e poderíamos estipular um modelo que pudesse prever o IBOVESPA em função da taxa de câmbio
monicamonica@@ele.pucele.puc--rio.brrio.br 34
Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados
Ibovespa versus Dólar PTAX -10/12/2002 a 02/03/2004
y = -10612x + 48010R2 = 0.4532
8,000
10,000
12,000
14,000
16,000
18,000
20,000
22,000
24,000
26,000
2.80 2.90 3.00 3.10 3.20 3.30 3.40 3.50 3.60 3.70 3.80 3.90
Claramente, um modelo linear não é mais apropriado quando levamos em consideração os novos dados (entre junho de 2003 e março de 2004) - OU SEJA: O MODELO MUDOU!
monicamonica@@ele.pucele.puc--rio.brrio.br 35
Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados
Por que o modelo anterior não funciona?
No período entre junho de 2003 e março de 2004 o dólar permaneceu praticamente estável, enquanto o índice Bovespa subiu consideravelmente, como podemos verificar no próximo gráfico.
monicamonica@@ele.pucele.puc--rio.brrio.br 36
Exemplo Exemplo -- IBOVESPA e DIBOVESPA e Dóólar lar ––incorporaincorporaçção de novos dadosão de novos dados
IBOVESPA - 10/12/2002 a 02/03/2004
9,000
11,000
13,000
15,000
17,000
19,000
21,000
23,000
25,000
10/12
/0225
/12/02
09/01
/0324
/01/03
08/02
/0323
/02/03
10/03
/0325
/03/03
09/04
/0324
/04/03
09/05
/0324
/05/03
08/06
/0323
/06/03
08/07
/0323
/07/03
07/08
/0322
/08/03
06/09
/0321
/09/03
06/10
/0321
/10/03
05/11
/0320
/11/03
05/12
/0320
/12/03
04/01
/0419
/01/04
03/02
/0418
/02/04
Junho de 2003
monicamonica@@ele.pucele.puc--rio.brrio.br 37
Exemplo Exemplo -- temperaturastemperaturasDados:Temperatura máxima (média das máximas) na estação de Santa Cruz (Rio de Janeiro) entre Jan/1982 e Dez/1991.
O que fazer com todos estes 120 números?
A coisa mais sensata é fazer um gráfico da temperatura versus o índice de tempo (mês e ano). Este gráfico vai revelar o óbvio, isto é, que as temperaturas no verão são mais altas que no inverno!
monicamonica@@ele.pucele.puc--rio.brrio.br 38
Exemplo Exemplo -- temperaturastemperaturas
Além disso, a gente vai perceber que existe um comportamento sazonal nos dados, ou seja, dentro de cada ano a evolução da temperatura se repete mais ou menos da mesma maneira. O gráfico também nos dá uma idéia do quanto a temperatura está variando em todo o período. Por exemplo, pode-severificar que a temperatura máxima nestes 10 anos está sempre acima de 22 graus.
monicamonica@@ele.pucele.puc--rio.brrio.br 39
Exemplo Exemplo -- temperaturastemperaturas
Temperaturas Máximas - 1982 a 1991
23
25
27
29
31
33
35
37
jan/
82
mai
/82
set/8
2
jan/
83
mai
/83
set/8
3
jan/
84
mai
/84
set/8
4
jan/
85
mai
/85
set/8
5
jan/
86
mai
/86
set/8
6
jan/
87
mai
/87
set/8
7
jan/
88
mai
/88
set/8
8
jan/
89
mai
/89
set/8
9
jan/
90
mai
/90
set/9
0
jan/
91
mai
/91
set/9
1
monicamonica@@ele.pucele.puc--rio.brrio.br 40
Exemplo Exemplo -- temperaturastemperaturas
O grO grááfico fico éé muito muito úútil, mas certamente não conta til, mas certamente não conta a esta estóória toda ....ria toda ....
Por exemplo, qual será a temperatura média de todos os meses? Dentre os 120 meses, em quantos a temperatura média esteve entre 28 e 33 graus? Qual o percentual de temperaturas entre 22 e 25 graus? Tomando-se os 120 pontos, quais os valores de temperatura tais que 90% dos meses têm temperaturas entre estes dois valores?
monicamonica@@ele.pucele.puc--rio.brrio.br 41
Exemplo Exemplo -- temperaturastemperaturas
Podemos pensar nestas, e numa infinidade de outras questões. O fato é que um simples gráfico da temperatura versus o tempo não fornece as respostas.
O primeiro passo é fazer a distribuição defreqüência dos seus dados. Isto é simplesmente uma medida mais compacta de representação dos dados. Você divide as temperaturas em intervalos (chamados intervalos de classeintervalos de classe) e conta quantas observações caem em cada intervalo.
monicamonica@@ele.pucele.puc--rio.brrio.br 42
Exemplo Exemplo -- temperaturastemperaturas
A escolha do nA escolha do núúmero de intervalos mero de intervalos éé meio meio arbitrarbitráária.ria. O importante é garantir que o número de classes não seja nem muito grande nem muito pequeno. Se o número de classes for muito pequeno, fica difícil verificar as diferenças entre as classes. Ao contrário, se o número de classes for muito grande, existirão muito poucas observações em cada classe.
O primeiro passo é ordenar os dados pois facilita a colocação dos dados em cada classe.
monicamonica@@ele.pucele.puc--rio.brrio.br 43
Exemplo Exemplo -- temperaturastemperaturas
Escolha do número de classes num diagrama de frequênciaSeja n o número de intervalos num diagrama de frequência. Recomenda-se escolher n entre 5 e 20. Quanto maior o número de observações, maior o número de intervalos.
Geralmente usaGeralmente usa--se n igual se n igual àà raiz quadrada do nraiz quadrada do núúmero total mero total de observade observaççõesões, que neste caso seria aproximadamente 11. Para facilitar a visualização em geral usamos intervalos com o mesmo comprimento. Também muitas vezes o primeiro intervalo é descrito como "abaixo de um certo valor" e o último como "acima de um certo valor".
monicamonica@@ele.pucele.puc--rio.brrio.br 44
Exemplo Exemplo -- temperaturastemperaturas
Neste exemplo usamos n = 7, por uma questão puramente prática, pois este número nos permiteencontrar intervalos de classe de comprimento 1.9 em todas as classes, exceto a primeira, e todas as classes terminam com uma temperatura que é um número inteiro e par.
Neste caso eu decidi considerar 7 classes para as temperaturas. A primeira vai de 24 a 26 graus, a segunda vai de 26.1 a 28 graus e assim sucessivamente. O diagrama de freqüências encontrado está a seguir.
monicamonica@@ele.pucele.puc--rio.brrio.br 45
Exemplo Exemplo -- temperaturastemperaturas
Classe Frequência Frequência Relativa Frequência Relativa
Acumulada24-26 graus 7 7/120 = 5.83 % 5.83%
26.1- 28 graus 31 31/120 = 25.83 % 31.66%
28.1-30 graus 26 26/120 = 21.67 % 53.33%
30.1-32 graus 26 26/120 = 21.67 % 75.00%
32.1-34 graus 25 25/120 = 20.83 % 95.83%
34.1-36 graus 3 3/120 = 2.50 % 98.33%
36.1-38 graus 2 2/120 = 1.67 % 100%
Totais 120 100%
monicamonica@@ele.pucele.puc--rio.brrio.br 46
Exemplo Exemplo –– temperaturastemperaturas
O diagrama de frequências já nos permite responder a diversas outras questões. Por exemplo, a grande maioria (69.17%) das temperaturas máximas está entre 26.1 e 32 graus. Também percebemos que temperaturas máximas acima de 34.1 graus são incomuns (apenas 5 dentre as 120).
Veja que outras conclusões você consegue obter Veja que outras conclusões você consegue obter a partir deste diagrama.a partir deste diagrama.
monicamonica@@ele.pucele.puc--rio.brrio.br 47
Exemplo Exemplo -- temperaturastemperaturas
A partir de um diagrama de frequências podemos facilmente construir um histograma.
HistogramaGráfico de barras, onde o eixo vertical contém as frequências (ou freqüências relativas) e o eixo horizontal contém os intervalos de classes. Muitas vezes faz-se a área de cada barra igual àfreqüência relativa de cada classe, de tal forma que a área total sob o histograma é 1 (100%).
monicamonica@@ele.pucele.puc--rio.brrio.br 48
Histograma Histograma –– produproduçção no Excelão no Excel
É automática, mas você precisa ter instalado antes o suplemento (“add-in”) de ferramentas de análise de dados.
Aliás, este suplemento será muito útil para nós, portanto instale-o.
monicamonica@@ele.pucele.puc--rio.brrio.br 49
Histograma Histograma –– produproduçção no Excelão no Excel
monicamonica@@ele.pucele.puc--rio.brrio.br 50
Histograma Histograma –– produproduçção no Excelão no ExcelCélulas contendo os dados
Células contendo os limites dos intervalos (não precisam ser especificados) – mas geralmente quando não os especificamos o Excel gera uns limites meio “feios”
monicamonica@@ele.pucele.puc--rio.brrio.br 51
HistogramaHistograma –– implementaimplementaççãoãono Excel no Excel emem PortuguêsPortuguês
monicamonica@@ele.pucele.puc--rio.brrio.br 52
Histograma Histograma –– produproduçção no Excelão no Excel
Histograma
0
5
10
15
20
25
30
35
24 26 28 30 32 34 36 38 acima de 38
Intervalo
Freq
üênc
ia
Note que este histograma usa intervalos diferentes dos especificados na tabela de freqüência mostrada anteriormente
monicamonica@@ele.pucele.puc--rio.brrio.br 53
Histograma Histograma –– Retorno diRetorno diáário do rio do prepreçço do petro do petróóleo WTI leo WTI –– 01/1991 a 01/1991 a 08/200608/2006
Histograma - Log Retornos Petróleo WTI - 1991 a 2006
0
100
200
300
400
500
600
700
800
-13.1%
-12.2%
-11.3%
-10.4%-9.5%
-8.6%
-7.7%
-6.8%
-6.0%
-5.1%
-4.2%
-3.3%
-2.4%
-1.5%
-0.6% 0.3
%1.2
%2.0
%2.9
%3.8
%4.7
%5.6
%6.5
%7.4
%8.3
%9.2
%10
.0%10
.9%11
.8%12
.7%13
.6%14
.5% More
Bin
Freq
uenc
y
A grande maioria dos retornos diários (variações diárias) nesta faixa, mas também variações extremas
monicamonica@@ele.pucele.puc--rio.brrio.br 54
Diagrama de ParetoDiagrama de Pareto
Como fazer um diagrama de Pareto?1) Faça um gráfico de barras colocando a freqüência de cada
tipo de evento no eixo vertical, e arranjando os eventos em ordem decrescente de ocorrência. Assim, a primeira barra corresponde ao evento que ocorre com mais freqüência, a segunda barra diz respeito ao segundo evento mais freqüente, e assim por diante.
2) Crie um eixo vertical no lado direito do seu gráfico contendo as freqüências relativas acumuladas. Faça uma linha juntando as frequências relativas acumuladas e a superponha ao gráfico de barras.
monicamonica@@ele.pucele.puc--rio.brrio.br 55
Exemplo Exemplo –– Consumo ResidencialConsumo Residencial
Os dados a seguir representam a distribuição de domicílios residenciais por classe de consumo de energia elétrica na área de concessão de uma certa distribuidora de energia. Os dados referem-se a uma pesquisa realizada em dezembro de 1995 com uma amostra de 1122 domicílios.
Faixas de consumo número de domicílios freqüência relativa
0-50 KWh 127 127/1122 = 11.3 %
51-100 KWh 199 199/1122 = 17.7 %
101-150 KWh 225 20.10%
151-300 KWh 384 34.20%
acima de 300 KWh 187 16.70%
Total: 1122
monicamonica@@ele.pucele.puc--rio.brrio.br 56
Exemplo Exemplo –– Consumo ResidencialConsumo Residencial
O diagrama de Pareto para estes dados é:Diagrama de Pareto
0
50
100
150
200
250
300
350
400
151-300 KWh 101-150 KWh 51-100 KWh acima de 300 KWh 0-50 KWh
monicamonica@@ele.pucele.puc--rio.brrio.br 57
Medidas NumMedidas Numééricasricas
A partir de agora suponha que os dados observados na amostra são x1, x2, ..., xn . n é o tamanho da amostra. A partir dos x's vamos encontrar números que resumem as características da amostra. Vamos estar interessados em dois tipos principais de medidas numéricas: as que caracterizam a localização do centro da amostra e as que caracterizam a dispersão dos dados.
monicamonica@@ele.pucele.puc--rio.brrio.br 58
Medidas NumMedidas Numééricasricas
Medidas de Localização ou de tendência central
dizem onde está o "meio" dos seus dadosexemplo: média e mediana amostrais
Medidas de Dispersãodizem o quanto os seus dados estão “espalhados”exemplo: desvio padrão e variância amostrais, amplitude
amostral
monicamonica@@ele.pucele.puc--rio.brrio.br 59
Medidas de Tendência CentralMedidas de Tendência Central
Média Amostral
No Excel: função Média (....)
Considere agora a amostra x1, x2, ..., xn e suponha que você a ordene, de tal forma que x(1) seja o menor elemento da amostra, x(2) seja o segundo menor elemento, ...., x(n) seja o maior elemento da amostra. Os valores x(1), x(2), ..., x(n) são chamados de estatestatíísticas de ordemsticas de ordem da amostra. Outras medidas de tendência central e de dispersão serão definidas a partir das estatísticas de ordem.
∑=
=n
iiX
nX
1
1
monicamonica@@ele.pucele.puc--rio.brrio.br 60
Medidas de Tendência CentralMedidas de Tendência CentralMedianaÉ definida a partir das estatísticas de ordem.
Por exemplo, se existem 10 observações na amostra, a mediana equivale à média entre x(5) e x(6) . Se a amostra contém 11 elementos, a mediana é x(5) . A mediana amostral é menos influenciada que a média por observações aberrantes (“outliers”).
No Excel é a função med(...)
12 2
1 2
se n, o tamanho da amostra, é par2
ou
se n, o tamanho da amostra, é ímpar
n n
n
X X
mX
⎛ ⎞ ⎛ ⎞+⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠
+⎛ ⎞⎜ ⎟⎝ ⎠
+⎧⎪⎪⎪⎪= ⎨⎪⎪⎪⎪⎩
monicamonica@@ele.pucele.puc--rio.brrio.br 61
Medidas de Tendência CentralMedidas de Tendência Central
Por exemplo, se os seus dados são 1,2,3,4,5, a média amostral é: (1+2+3+4+5)/5 = 3 e a mediana amostral tem o mesmo valor.Se agora os dados são:1,2,3,4,45, a média amostral é:(1+2+3+4+45)/5 = 11, mas a mediana amostral continua sendo 3.Logo, a média amostral foi profundamente influenciada por um único valor, e o mesmo não aconteceu com a mediana amostral.
monicamonica@@ele.pucele.puc--rio.brrio.br 62
Medidas de DispersãoMedidas de Dispersão
As medidas de tendência central não são as únicas medidas necessárias para caracterizar uma amostra (ou população).
Precisamos também saber o quanto as observações na amostra estão " espalhadas".
Por exemplo, no gráfico a seguir as populações têm a mesma média, mas certamente a segunda distribuição tem maior dispersão.
monicamonica@@ele.pucele.puc--rio.brrio.br 63
Medidas de DispersãoMedidas de Dispersão
0.00
0.05
0.10
0.15
0.20
0.25
0.30
2 7 12 17
Tem maior dispersão – émais“espalhada”
monicamonica@@ele.pucele.puc--rio.brrio.br 64
Medidas de DispersãoMedidas de Dispersão
Variância AmostralÉ a medida mais comum de dispersão . A variância amostral, denotada por s2 é definida como:
Onde é a média amostral.Note que, por definição, a variância amostral a variância amostral éésempre não negativa!!!sempre não negativa!!!A unidade de medida da variância é o quadrado da unidade de medida das observações, o que dificulta a sua interpretação.
( )∑=
−−
=n
ii XX
ns
1
22
11
X
monicamonica@@ele.pucele.puc--rio.brrio.br 65
Medidas de DispersãoMedidas de Dispersão
Desvio Padrão AmostralO desvio padrão amostral, denotado por s, édefinido como a raiz quadrada positiva da variância amostral. Pelos comentários anteriores, notamos que s é expresso nas mesmas unidadesexpresso nas mesmas unidadesde medida que as observaque as observaçções na amostraões na amostra.
( )s sn
X Xii
n= =
−−
=∑2 2
1
11
monicamonica@@ele.pucele.puc--rio.brrio.br 66
Medidas de DispersãoMedidas de Dispersão
Coeficiente de variação amostral
É uma medida adimensional, e serve principalmente para comparar duas amostras que foram coletadas em unidades de medida diferentes, por exemplo, uma em cm e outra em polegadas.Amplitude Amostral
XsCV =
mínmáxXXA n −=−= )1()(
monicamonica@@ele.pucele.puc--rio.brrio.br 67
Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?
Opção 1Use as funções apropriadas, por exemplo, média(..), med(...), máximo(...), mínimo(...), desvpad(...), ...
Opção 2Use a ferramenta “estatística descritiva”dentro das opções de “análise de dados”, como indicado na tela a seguir. Várias outras estatísticas, como a curtose (que mede o “peso” das “caudas”(extremos) e a assimetria, são também fornecidas).
monicamonica@@ele.pucele.puc--rio.brrio.br 68
Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?
monicamonica@@ele.pucele.puc--rio.brrio.br 69
Como obter estatComo obter estatíísticas sticas descritivas no Excel?descritivas no Excel?
Células contendo os dados
Indicador de nome da variável na 1a. posição da coluna ou linha
Produzir estatísticas descritivas
monicamonica@@ele.pucele.puc--rio.brrio.br 70
PercentisPercentis
O percentil x% é o ponto tal que, a probabilidade de estar abaixo dele é x%.
O percentil 50% é a MEDIANA de um conjunto de dados, e qualquer percentil entre 0 e 100% pode ser encontrado através da função PERCENTIL do Excel.
monicamonica@@ele.pucele.puc--rio.brrio.br 71
QuartisQuartis
Primeiro Quartil: Q1 – é o percentil 25%, ou seja, 25% das observações estão abaixo de Q1
Segundo Quartil: Q2 - é a mediana
Terceiro Quartil: Q3 – é o percentil 75%
monicamonica@@ele.pucele.puc--rio.brrio.br 72
EstatEstatíísticas Descritivas sticas Descritivas –– Retorno Retorno do Petrdo Petróóleo WTI leo WTI –– 01/1991 a 08/200601/1991 a 08/2006
Estatísticas Descritivas - Retorno WTI - 1991 a agosto 2006
Média 0.017%Mediana 0.071%
Moda 0.000%Desvio Padrão 2.38%
Variância 0.001Curtose 26.338
Assimetria -1.57Amplitude 0.56
Mínimo -40.64%Máximo 15.38%
Número de Obs. 3,836
monicamonica@@ele.pucele.puc--rio.brrio.br 73
Percentis Percentis –– Retorno do PetrRetorno do Petróóleo leo WTI WTI –– 01/1991 a 08/200601/1991 a 08/2006
5% -3.53%10% -2.53%25% -1.17%50% 0.07%75% 1.28%90% 2.51%95% 3.45%
Percentis
5% dos retornos 5% dos retornos abaixo de abaixo de --3.53%3.53%
90% dos retornos 90% dos retornos abaixo de +2.51%abaixo de +2.51%
monicamonica@@ele.pucele.puc--rio.brrio.br 74
AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA
Considere agora os retornos diários do IBOVESPA no período entre 04 de julho de 1994 e 06/08/2004.
Defina o retorno diário entre os dias t e t + 1 como:
Onde log denota o logaritmo natural (base e) e Pte Pt+1 são, respectivamente, os preços nos dias t e t + 1.O retorno definido acima é chamado de retornoretornogeomgeoméétrico.trico.
⎟⎟⎠
⎞⎜⎜⎝
⎛= +
+t
tt P
PR 11 log
monicamonica@@ele.pucele.puc--rio.brrio.br 75
HistogramaHistograma dos dos RetornosRetornosIBOVESPAIBOVESPA
Histograma dos retornos diários do IBOVESPA
0
50
100
150
200
250
300
350
400
450
500
-7.00%-6.50%-6.00%-5.50%-5.00%-4.50%-4.00%-3.50%-3.00%-2.50%-2.00%-1.50%-1.00%-0.50%0.00%0.50%1.00%1.50%2.00%2.50%3.00%3.50%4.00%4.50%5.00%5.50%6.00%6.50%7.00%Mais
Bloco
Freq
üênc
ia
monicamonica@@ele.pucele.puc--rio.brrio.br 76
Percentis dos RetornosPercentis dos Retornos
Percentil Retorno Correspondente1.0% -6.75%5.0% -3.90%
10.0% -2.74%25.0% -1.24%50.0% 0.13%75.0% 1.48%90.0% 2.69%95.0% 3.66%99.0% 6.63%
monicamonica@@ele.pucele.puc--rio.brrio.br 77
AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPAUso da funUso da funçção ão ““freqfreqüüênciaência””Produz a freqüência (número de ocorrências num determinado intervalo).Por exemplo, dentre 2501 retornos diários do IBOVESPA, a referência:
FREQÜÊNCIA(E$3:E$2503;G7) significa:Olhe para todos os dados em E$3 a E$2503 (são os retornos diários) e conte QUANTOS estão ABAIXO do valor em G7.O gráfico destas frequências é mostrado na próxima página.
monicamonica@@ele.pucele.puc--rio.brrio.br 78
AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA
Frequüências Acumuladas - Retornos Diários
-
500
1,000
1,500
2,000
2,500
3,000
-15.00
%-7.
00%
-6.50
%-6.
00%
-5.50
%-5.
00%
-4.50
%-4.
00%
-3.50
%-3.
00%
-2.50
%-2.
00%
-1.50
%-1.
00%
-0.50
%0.0
0%0.5
0%1.0
0%1.5
0%2.0
0%2.5
0%3.0
0%3.5
0%4.0
0%4.5
0%5.0
0%5.5
0%6.0
0%6.5
0%7.0
0% 20%
30%
monicamonica@@ele.pucele.puc--rio.brrio.br 79
AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA
Se dividirmos cada uma destas freqüências por 2501 obtemos as freqüências relativasacumuladas – veremos mais tarde que isso é uma aproximação para a função de distribuição acumulada.
Veja o próximo gráfico.
monicamonica@@ele.pucele.puc--rio.brrio.br 80
AnAnáálise dos Retornos do lise dos Retornos do IBOVESPAIBOVESPA
Frequüências Relativas Acumuladas - Retornos Diários
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
55%
60%
65%
70%
75%
80%
85%
90%
95%
100%
-15.00
%-7.
00%
-6.50
%-6.
00%
-5.50
%-5.
00%
-4.50
%-4.
00%
-3.50
%-3.
00%
-2.50
%-2.
00%
-1.50
%-1.
00%
-0.50
%0.0
0%0.5
0%1.0
0%1.5
0%2.0
0%2.5
0%3.0
0%3.5
0%4.0
0%4.5
0%5.0
0%5.5
0%6.0
0%6.5
0%7.0
0% 20%
30%
monicamonica@@ele.pucele.puc--rio.brrio.br 81
ExemploExemplo
Anderson, Sweeney, Williams – cap.1Norris.xlsAmostra de 200 lâmpadasObjetivo – verificar a duração em horas das lâmpadas
monicamonica@@ele.pucele.puc--rio.brrio.br 82
ExemploExemplo
Estatísticas Descritivas (produzidas através do add-in do Excel)
Duração Lâmpadasmédia 76erro padrão 0.853105mediana 75moda 77desvio padrão 12.06473variância 145.5578curtose 0.036252assimetria 0.288474amplitude 73mínimo 43máximo 116soma 15200número observações 200
monicamonica@@ele.pucele.puc--rio.brrio.br 83
ExemploExemplo
HistogramaHistograma
0
5
10
15
20
25
30
35
40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
intervalo
Freq
uen
cia
monicamonica@@ele.pucele.puc--rio.brrio.br 84
ExemploExemplo
Freqüências AcumuladasFreqüências Acumuladas
0
20
40
60
80
100
120
140
160
180
200
40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120
monicamonica@@ele.pucele.puc--rio.brrio.br 85
ExemploExemplo
Freqüências Acumuladas RelativasFreqüências Relativas
Acumuladas
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 monicamonica@@ele.pucele.puc--rio.brrio.br 86
AssimetriaAssimetria
O coeficiente de assimetria amostral édefinido como:
( )
( )
( )
( )2/3
1
2
1
3
2/3
1
2
1
3
31
1
⎭⎬⎫
⎩⎨⎧
−
⎭⎬⎫
⎩⎨⎧
−=
⎭⎬⎫
⎩⎨⎧
−
⎭⎬⎫
⎩⎨⎧
−=
∑
∑
∑
∑
=
=
=
=
n
ii
n
ii
n
ii
n
ii
XX
XXn
XXn
XXn
γ
Se o coeficiente Se o coeficiente éé zero, seus dados são simzero, seus dados são siméétricos em torno da tricos em torno da mméédia.dia.
Se o coeficiente Se o coeficiente éé positivo (assimetria positiva), existem positivo (assimetria positiva), existem valores valores ““grandesgrandes”” maiores que a mmaiores que a méédia => existe uma cauda dia => existe uma cauda comprida para a direita.comprida para a direita.
monicamonica@@ele.pucele.puc--rio.brrio.br 87
AssimetriaAssimetria
Na curva A acima a assimetria é positiva, a curva B é simétrica e a curva C tem assimetria negativa.
Em geral, se a assimetria é positiva, a média é MAIOR que a mediana.
O oposto ocorre se a assimetria é negativa (em geral média MENOR que a mediana).
monicamonica@@ele.pucele.puc--rio.brrio.br 88
AssimetriaAssimetria
Distribution for PLD/B10
0.000
0.010
0.020
0.030
0.040
0.050
0.060
0.070
0.080
Mean=28.82446
0 35 70 105 1400 35 70 105 140
5% 90% 5% 18.8795 49.7419
Mean=28.82446
Dados com assimetria positiva
Distribution for DEM REAL/B7
Values in 10^ -6
Values in Millions
0123456789
Mean=919999.9
0.75 0.8375 0.925 1.0125 1.10.75 0.8375 0.925 1.0125 1.1
5% 90% 5% .8459 .994
Mean=919999.9
Dados simDados siméétricostricos
monicamonica@@ele.pucele.puc--rio.brrio.br 89
CurtoseCurtose
É uma medida do “achatamento” de uma distribuição de probabilidade.
Como a distribuição Normal tem curtose igual a 3, usualmente define-se o “excesso de curtose”, ou seja, o quanto uma distribuição de probabilidade tem mais curtose que a Normal.
monicamonica@@ele.pucele.puc--rio.brrio.br 90
CurtoseCurtose
Distribuições de retornos de ativos financeiros geralmente tem a “cara” de uma Normal, mas com excesso de curtose!
Ao lado, a curva B é a Normal padrão e a curva A tem excesso de curtose.
monicamonica@@ele.pucele.puc--rio.brrio.br 91
CurtoseCurtose
A fórmula do excesso de curtose é:
Note que, se os seus dados são Normais, esta medida é próxima de zero.
( )
( )
4
14 2
2
1
3
n
ii
n
ii
n X X
X Xκ =
=
−= −⎛ ⎞
−⎜ ⎟⎝ ⎠
∑
∑