Capítulo 7 Conhecendo os Dados
description
Transcript of Capítulo 7 Conhecendo os Dados
![Page 1: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/1.jpg)
Capítulo 7
Conhecendo os Dados
![Page 2: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/2.jpg)
Distribuição das idades dos funcionários
idade
núm
ero
de fu
ncio
nário
s
0
2
4
6
8
10
12
14
10 20 30 40 50 60 70
Técnicas para extrair informações e gerar conhecimento de conjuntos de dados
![Page 3: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/3.jpg)
Conhecendo os Dados
O objetivo da análise exploratória de dados é examinar a estrutura subjacente dos dados e aprender sobre os relacionamentos sistemáticos entre muitas variáveis.
A análise exploratória de dados inclui um conjunto de ferramentas gráficas e descritivas, para explorar os dados, como pré-requisito para uma análise de dados mais formal (Predição e Testes de Hipóteses), e como parte integral formal da construção de modelos.
![Page 4: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/4.jpg)
A AEA facilita a descoberta de conhecimentos não esperados, como também ajuda a confirmar o esperado.
Como uma importante etapa em Data Mining, a AED emprega técnicas estatísticas descritivas e gráficas para estudar um conjunto de dados, detectando outliers e anomalias, e testando as suposições do modelo.
A AED é um importante pré-requisito para se alcançar o sucesso em qualquer projeto de data mining.
![Page 5: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/5.jpg)
Distribuições de Freqüências
organização dos dados de acordo com as
ocorrências dos diferentes resultados
observados.– Pode ser apresentada: em tabela ou em gráfico;– com freqüências absolutas, relativas ou
porcentagens.
![Page 6: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/6.jpg)
Exemplo (com variável qualitativa)
Códigos: 1 - nenhum grau de instrução compl eto, 2 - primeiro grau completo e
3 - segundo grau co mpleto.
Resultados observados em cada fam ília:3 3 2 2 3 1 3 3 3 2 2 1 2 2 3 2 3 3 3 33 3 3 2 2 3 1 3 2 3 3 2 3 1 1 1 3 3 3 3
Grau de instrução do chefe da casa, numa amostra de 40 famí-lias do Conj. Resid. Monte Verde, Florianópolis, SC, 1988.
![Page 7: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/7.jpg)
Distribuição de FreqüênciasGrau de instrução (Conj. Resid. Monte Verde).
Grau de Instrução Freqüência Percentagem nenhum primeiro grau segundo grau
61123
15,027,557,5
Total 40 100,0
![Page 8: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/8.jpg)
0 4 8 12 16 20 24
Gráfico de Barras
nenhum
primeiro grau
segundo grau
número de famílias
Grau de Instrução do Chefe da Casa
![Page 9: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/9.jpg)
4 8 12 16 20 24
Gráfico de Barras
nenhum
primeiro grau
segundo grau
número de famílias
Grau de Instrução do Chefe da Casa
![Page 10: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/10.jpg)
Gráfico em colunasGrau de instrução do chefe da casa
0
5
10
15
20
25
nenhum primeiro grau segundo grau
núm
ero
de f
amília
s
![Page 11: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/11.jpg)
Gráfico de Setores(Proporções)
Grau de Instrução do Chefe da Casanenhum (15,0 %)
primeiro grau(27,5 %)
segundo grau (57,5 %)
![Page 12: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/12.jpg)
Gráfico de Setores Multivariado
Freqüência dor durante semana
Do
r in
com
od
a d
ura
nte
tra
ba
lho
Não
Moderada; 33%
Pouca; 67%
Pouca; 50%Moderada; 50%
Pouca; 100% Moderada; 100%
Uma vez
Sim
Pouca; 29%Muita; 29%
Moderada; 43%
Duas vezes
Pouca; 10%
Muita; 30%
Moderada; 60%
Três vezes
Pouca; 13%
Moderada; 25%
Muita; 63%
Quatro vezes
Pouca; 17%
Muita; 33%
Moderada; 50%
Todos os dias
Pouca; 11%
Moderada; 16%
Muita; 74%
![Page 13: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/13.jpg)
Gráfico de Barras Multivariado
![Page 14: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/14.jpg)
Exemplo (com variável discreta)
Numa rede de computadores, a quantidade de
máquinas que costumam estar ligadas, por dia
20 26 21 21 20 21 23 22 24 2222 22 23 23 23 22 23 22 24
21
![Page 15: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/15.jpg)
Distribuição de FreqüênciasMáquinas
em uso20212223242526
Total
Freqüência(absoluta)
2465201
20
Proporção (%)0,10 (10%)0,20 (20%)0,30 (30%)0,25 (25%)0,10 (10%)
0,00 (0,0%)0,05 ( 5%)
1,00 (100%)
![Page 16: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/16.jpg)
Gráfico de colunas
![Page 17: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/17.jpg)
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,15,5 6,2 4,9 5,7 6,3 5,1 8,4 6,28,9 7,3 5,4 4,8 5,6 6,8 5,0 6,78,2 7,1 4,9 5,0 8,2 9,9 5,4 5,65,7 6,2 4,9 5,1 6,0 4,7 18,1 5,34,9 5,0 5,7 6,3 6,0 6,8 7,3 6,96,5 5,9
Tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações):
Exemplo (com variável contínua)
![Page 18: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/18.jpg)
5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,15,5 6,2 4,9 5,7 6,3 5,1 8,4 6,28,9 7,3 5,4 4,8 5,6 6,8 5,0 6,78,2 7,1 4,9 5,0 8,2 9,9 5,4 5,65,7 6,2 4,9 5,1 6,0 4,7 18,1 5,34,9 5,0 5,7 6,3 6,0 6,8 7,3 6,96,5 5,9
DADOS:
4,7 18,1
4 195 6 7 ...
![Page 19: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/19.jpg)
tempo
núm
ero
de o
bser
vaçõ
es
0
2
4
6
8
10
12
14
16
18
20
4 6 8 10 12 14 16 18
Histograma do tempo (em segundos) para carga de um aplicativo num sistema compartilhado (50 observações).
![Page 20: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/20.jpg)
Conjunto de dados: são 92 observações relativas à preços de automóveis.
![Page 21: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/21.jpg)
X Chart; variable: Y2
Histogram of Observations
05
1015
2025
3035
4045
5055
-20
-10
0
10
20
30
40
50
60
70
X: 19,632 (19,632); Sigma: 0,0000 (9,6590); n: 1,
10 20 30 40 50 60 70 80 90
-9,3455
19,632
48,609
• Verificar a variabilidade
• outliers
OUTLIERS:
SX 2OU
SX 3
![Page 22: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/22.jpg)
Conjunto de dados: preços de fechamento de ações da telebrás
![Page 23: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/23.jpg)
X Chart; variable: Telebras
Histogram of Observations
02
46
810
1214
12
14
16
18
20
22
24
26
28
30
32
34
36
38
X: 25,725 (25,725); Sigma: 0,0000 (4,5080); n: 1,
10 20 30 40 50
16,70916,709
25,725
34,74134,741
Série temporal
S2X
S2X
![Page 24: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/24.jpg)
Medidas Descritivas Existem medidas quantitativas que servem
para descrever, resumidamente, características
das distribuições.
As mais utilizadas são a média e o desvio
padrão.
![Page 25: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/25.jpg)
Média (X)
A média aritmética simples ( X ) é a soma dos
valores dividida pelo número de observações.
X = X
n
![Page 26: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/26.jpg)
Exemplo Deseja-se estudar o número de falhas no envio
de mensagens, considerando três algoritmos
diferentes para o envio dos pacotes:
Algoritmo A (8 observações)
Algoritmo B (8 observações)
Algoritmo C (7 observações)
![Page 27: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/27.jpg)
Exemplo Número de falhas a cada 10.000 mensagens
enviadas.
A: 20 21 21 22 22 23 23 24
B: 16 18 20 22 22 24 26 28
C: 15 22 23 23 23 24 24
![Page 28: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/28.jpg)
Comparação dos três algoritmos pela média
algoritmo falhas média
A 20 21 21 22 22 23 23 24 22
B 16 18 20 22 22 24 26 28 22
C 15 22 23 23 23 24 24 22
![Page 29: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/29.jpg)
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
ABC
Número de falhas
Diagramas de Pontos
Algoritmo
![Page 30: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/30.jpg)
Média Geométrica
A média geométrica é apropriada para médias de taxas ou números índices. Por exemplo: 1) estimar a taxa média de retorno após três anos de investimento, sendo 10% no primeiro, 50% no segundo e 30% no terceiro ano;
nnG xxxx . ... .. 21
%,,,.,., 7242470300500100x 3G
![Page 31: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/31.jpg)
Exemplo
Média de relações:
Empresa Capital Dívida Relação Capital/dívida
A 2500 1000 2,5 B 1000 2000 0,5
Relação média entre capital e dívida é:
11815052xG ,,.,
![Page 32: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/32.jpg)
Exemplo
Média de taxas de variação:
Um investidor aplicou em 2001, R$ 500,00. Após um ano o saldo é de R$ 550,00. Reaplicou esta quantia e, ao final de mais um ano, o montante era de R$ 590,00. Qual a taxa média de aumento?
Período Taxa
2001-2002 550/500=1,1000 2002/2003 590/550=1,0727
0863,10727,1.1000,1 Gx
![Page 33: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/33.jpg)
Medidas Robustas de Locação Média “Winsorized”: a média “winsorized” compensa a presença de valores extremos no cálculo da média, atribuindo a estes, o valor de um determinado percentil da distribuição. Por exemplo: estimando a média “winsorized” de 95%, os 2,5% dos valores menores corresponderão ao 2,5 percentil da distribuição, enquanto os 2,5% dos valores maiores receberão o valor do 97,5 percentil da distribuição.
Média aparada (Trimmed): a média aparada é calculada excluindo-se uma dada percentagem dos valores mais baixos e mais altos e, então, fazer a média com os valores restantes. Por exemplo, excluindo os 2,5% dos valores inferiores e superiores e usando os dados remanescentes, temos a média aparada de 5%. A média aparada não é afetada por valores discrepantes (outliers) como a média aritmética. A média aparada é usada, por exemplo, em classificação em esportes para minimizar as classificações extremas, possivelmente causadas por julgamentos tendenciosos.
![Page 34: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/34.jpg)
Exemplo
Medidas da variável IDADE de funcionários de um empresa:
Média aparada:
Média “winzored:”
![Page 35: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/35.jpg)
Como medir a dispersão? Exemplo: A ( 20 21 21 22 22 23 23 24 )
20 21 22 23 24
distância (desvio) em relação à média
![Page 36: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/36.jpg)
Desvios
Valores X 20 21 21 22 22 23 23 24
Média X 22
Desvios (X - X) -2 -1 -1 0 0 1 1 2
![Page 37: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/37.jpg)
Desvios
20 21 22 23 24
-2 -1 0 1 2Desvios: Soma = 0
![Page 38: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/38.jpg)
Desvios QuadráticosSoma
Valores X 20 21 21 22 22 23 23 24 176
Média X 22 -
Desvios X - X -2 -1 -1 0 0 1 1 2 0
Desviosquadráticos
(X-X)2 4 1 1 0 0 1 1 4 12
![Page 39: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/39.jpg)
Variância (S2) A variância (S2) é uma média dos desvios
quadráticos. Por conveniência, usa-se (n-1) no
denominador ao invés de n.
1
2
2
n
XXS
![Page 40: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/40.jpg)
Exemplo No exemplo apresentado (algoritmo A), a
variância é:
S2 = 7
12= 1,71
![Page 41: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/41.jpg)
Desvio Padrão (S) O desvio padrão (S) é a raiz quadrada da
variância.
S = S2
![Page 42: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/42.jpg)
Exemplo No exemplo apresentado (algoritmo A), o
desvio padrão é:
S = 1,71 = 1,31
![Page 43: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/43.jpg)
Comparação dos três algoritmos pela média e desvio padrão
Algoritmo falhas X S
A 20 21 21 22 22 23 23 24 22 1,31
B 16 18 20 22 22 24 26 28 22 4,00
C 15 22 23 23 23 24 24 22 3,16
![Page 44: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/44.jpg)
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Número de falhas
Algoritmo A(S = 1,31)
Algoritmo B(S = 4,00)
Algoritmo C(S = 3,16)
Diagramas de pontos e valores de S
![Page 45: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/45.jpg)
TABELA Medidas descritivas das notas finais dos alunos de três turmas
Turma Número de alunos
Média Desviopadrão
ABC
204030
6,08,09,0
3,31,52,6
![Page 46: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/46.jpg)
Medida relativade dispersão
Coeficiente de variação:
desvio padrão
média
![Page 47: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/47.jpg)
Medida relativade dispersão -
- ExemploX1: 1 2 3
X2: 100 101 102
X3: 100 200 300
média = 2desvio padrão = 1coeficiente de variação = 0,5
média = 101desvio padrão = 1coeficiente de variação = 0,01
média = 200desvio padrão = 100coeficiente de variação = 0,5
![Page 48: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/48.jpg)
25%25%
25%
25%
Medidas baseadas na ordenação dos dados
QI
Quartilinferior
Md
mediana
QS
Quartilsuperior
![Page 49: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/49.jpg)
Dados:{2, 0, 5, 7, 9, 1, 3, 4, 6, 8}
Md = 4,5
0 1 2 3 4 5 6 7 8 9
Cálculo da mediana
n = 10; (n + 1) / 2 = 5,5
![Page 50: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/50.jpg)
Qi = 2 Qs = 7
0 1 2 3 4 5 6 7 8 9
Md = 4,5
Cálculo dos quartis
Ei = 0 Es = 9
![Page 51: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/51.jpg)
Dados:{2, 0, 5, 7, 9, 1, 3, 4, 6, 8, 100}
Md = 5
0 1 2 3 4 5 6 7 8 9 100
Exercício:Cálculo da mediana
n = 11; (n + 1) / 2 = 6
![Page 52: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/52.jpg)
Qi = 2,5 Qs = 7,5
Exercício:Cálculo dos quartis
Ei = 0 Md = 5
0 1 2 3 4 5 6 7 8 9 100
Es = 100
![Page 53: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/53.jpg)
Medida de dispersão:Distância interquartílica
O desvio inter-quartílico é uma medida robusta de dispersão. Ele é calculado por:
13 QQ Onde Q3 é o percentil 75, também chamado de quartil superior, e o Q1 é o percentil 25, também chamado de quartil inferior. Ele é uma boa medida de dispersão para distribuições assimétricas. Para dados normalmente distribuídos, o desvio inter-quartílico é aproximadamente igual a 1,35 vezes o desvio padrão.
Medidas da variável IDADE de funcionários de um empresa, setor tecidos:
![Page 54: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/54.jpg)
Distribuição da variável IDADE de funcionários de um empresa,seção: tecidos:
![Page 55: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/55.jpg)
0 10 20 30 40 50 60 70
Md = 22,5 X = 24,7
50% dos valores 50% dos valores
Média e mediana
![Page 56: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/56.jpg)
50%50%
média = mediana
(a) distribuiçãosimétrica
50%
50%
medianamédia
(b) distribuiçãoassimétrica
Média e mediana
![Page 57: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/57.jpg)
Diagrama em caixas (Box Plot)
25%
25%25%
25%
25% 25%25%
25%
Ÿ
![Page 58: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/58.jpg)
Diagrama em caixas
3
8
13
18
23
28
MonteVerde
Encostado Morro
Renda
familiar
(sal. mín.)
outlier
![Page 59: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/59.jpg)
Cálculo dos outliers:
ISS
ISI
QQ,Q
QQ,Q
51
51
Onde QI é o quartil inferior ou primeiro quartil da distribuição; QS é o quartil superior ou terceiro quartil da distribuição. O valor 1,5 pode ser alterado.
![Page 60: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/60.jpg)
Gráfico Normal de Probabilidade (Normal Probability Plot)
Normal P-Plot: Preços de automóveis (Y2)
0 10 20 30 40 50 60 70
Valores de preços de automóveis
-3
-2
-1
0
1
2
3
4
5
Exp
ecte
d N
orm
al V
alue
• Verificar assimetria (assimétrico à direita)
• Normalidade da distribuição
• Presença de outliers
• Se há falta de ajuste, e os dados apresentar um padrão (forma de S), então a variável deve ser transformada (log).
![Page 61: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/61.jpg)
Gráfico Normal de Probabilidades:
Os valores de zj para o j-ésimo valor (rank, posto) de uma variável com N observações, é calculado por:
zj = -1 [(3j-1)/(3N+1)]
Onde -1 converte os valores de probabilidade, p, em valores de z. Exemplo: para o arquivo de dados de automóveis, onde N=92 observações.
446,2)0072,0(192*3/11*3
1*3/1*311
1
11
z
Njz
![Page 62: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/62.jpg)
Erro Padrão e Intervalos de Confiança
Erro padrão: erro padrão é o desvio padrão da distribuição amostral de uma dada estatística. Erro padrão mostra a quantidade de flutuação amostral que existe nas estatísticas estimadas em repetidas amostragens. O erro padrão de uma estatística depende do tamanho da amostra. Em geral, quanto maior o tamanho da amostra, menor é o erro padrão.
Intervalo de confiança: o intervalo de confiança fornece uma faixa(amplitude) de valores, dentro da qual esperamos que o valor de um parâmetro desconhecido esteja incluído. Se amostras independentes são tomadas repetidamente de uma mesma população, e o intervalo de confiança é calculado para cada amostra, então, uma alta percentagem dos intervalos irão incluir o parâmetro desconhecido. A amplitude do intervalo fornece uma idéia sobre a incerteza da estimativa do parâmetro. Um intervalo com grande amplitude indica que mais dados devem ser coletados antes de se fazer inferências sobre o parâmetro.
![Page 63: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/63.jpg)
Erro padrão e intervalo de confiança de 95% da variável IDADE de funcionários de um empresa, setor tecidos:
Erro padrão e intervalo de confiança para uma média
n
StXCI
n
SS
n
X
2/;1:;..
t=2,015368
![Page 64: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/64.jpg)
TransformaçõesVários procedimentos estatísticos e as redes neurais, são baseados na suposição de que os dados provêm de uma distribuição normal ou, então, mais ou menos simétrica (redes neurais funcionam melhor para distribuições simétricas). Porém, em muitas situações práticas, a distribuição dos dados da amostra é assimétrica e pode conter valores discrepantes. Pode-se realizar uma transformação nos dados, de forma a se obter uma distribuição mais simétrica.
Uma família de transformação freqüentemente utilizada é:
0
0
0
, se px
p(x), seln
, se px
xp
p
p
![Page 65: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/65.jpg)
Na prática, o que se faz é experimentar uma série de valores p, na seqüência:
..., -3,-2,-1,-1/2,-1/3,-1/4,0,1/4,1/3,1/2,1,2,3,...
e para cada valor de p obtemos gráficos apropriados (histogramas, box plot, etc.) para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p.
Para distribuições assimétricas à direita, a transformação acima com 0<p<1 é apropriada, pois valores grandes de x decrescem mais, relativamente a valores pequenos. Para distribuições assimétricas à esquerda, tome p>1.
![Page 66: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/66.jpg)
Exemplo: consideremos os dados da variável idade dos funcionários de uma empresa, cujo histograma fica:
Distribuição assimétrica à direita, tentar valores de p entre 0 e 1.
![Page 67: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/67.jpg)
Vamos considerar os seguintes valores de p: 0 (transformação logarítmica), ¼, 1/3(transformação raíz cúbica), ½ (transformação raíz quadrada)
![Page 68: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/68.jpg)
Análise de AssociaçãoGeralmente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Os dados aparecem em forma de matriz, onde nas colunas temos as variáveis (campos) e nas linhas as observações (registros).
Variáveis Observações X1 X2 . Xj . Xp
1 x11 x12 . x1j . x1p
2 x21 x22 . x2j . x2p . . . . . . . I xi1 xi2 . xjj . xip . . . . . . . n xn1 xn2 . xnj . xnp
![Page 69: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/69.jpg)
Objetivo: analisar as relações entre as colunas (variáveis), ou algumas vezes entre linhas (observações). O estudo das distribuições conjuntas é um poderoso instrumento para o entendimento do comportamento dos dados.
Estas relações ou associações podem ser detectadas por meio de representações gráficas e medidas numéricas.
Variáveis Qualitativas
Exemplo: desejamos analisar o comportamento conjunto das variáveis sexo do funcionário e setor em que trabalha. A distribuição de freqüência conjunta é apresentada na tabela a seguir.
![Page 70: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/70.jpg)
Existem três possibilidades de expressarmos as proporções das caselas:
• em relação ao total geral
• em relação ao total de cada linha
• em relação ao total de cada coluna
A escolha é feita de acordo com os Objetivos do trabalho
Setor de atuação Feminino Masculino Total setores
Freqüências 1 = Tecidos 32 13 45
Porcentagem 47,76% 39,39% 45%
Count 2 = Tapetes, Cristais 1 4 5
Column Percent 1,49% 12,12% 5%
Count 3 = Lustres, Ferramentas, Brinquedos 8 10 18
Column Percent 11,94% 30,30% 18%
Count 4 = Presentes, Calçados, Confecção 26 6 32
Column Percent 38,81% 18,18% 32%
Count All Grps 67 33 100
![Page 71: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/71.jpg)
Interpretação (foi fixado o total de colunas em 100%): podemos dizer que, entre os funcionários do sexo feminino, 47,76% trabalham as seção de tecidos e 38,81% trabalham na seção de presentes, calçados e confecções e, apenas 1,49% trabalham na seção de tapetes e cristais. Entre os funcionários do sexo masculino, 39,39% trabalham na seção de tecidos e 30,30% trabalham na seção de lustres, ferramentas e brinquedos e, 18,18% trabalham na seção de presentes, calçados e confecções.
![Page 72: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/72.jpg)
Interpretação: parece que estas duas variáveis estão pouco associadas.
1=feminino 2= masculino
![Page 73: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/73.jpg)
Medida de associação: Coeficiente de Contingência
nC
2
2
Onde:
r
i
s
j*ij
*ijij
n
nn
1 1
2
2
nij= número de elementos observados pertencentes à i-ésima categoria de X e j-ésima categoria de Y; r = número de linhas e s = no. de colunas da tabela.
nij*= número de elementos esperados pertencentes à i-ésima categoria de X e j-
ésima categoria de Y.
O valor de C está entre 0 e 1 (porém, para alcançar o valor 1 precisa de uma correção). O valor de 2 varia de 0 até o infinito.
![Page 74: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/74.jpg)
Freqüências esperadas considerando as variáveis como sendo não associadas
ij
j..i*ij n
n*nn Cálculo da freqüência
esperada
![Page 75: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/75.jpg)
02122 , Este valor apresenta uma grandeza considerável.
3301000212
0212,
,
,C
O valor de C deveria variar de 0 a 1. Porém isso não acontece. Para evitar este inconveniente, costuma-se fazer uma correção no valor de C, o qual fica:
t/t
CC*
1
Onde t é o mínimo entre o r e o s
![Page 76: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/76.jpg)
470
212
330,
/
,C*
Interpretação: podemos considerar que as variáveis estão medianamente associadas.
Variáveis Quantitativas
Gráfico de dispersão: indicado para estudar a associação entre duas variáveis quantitativas.
Exemplo: consideremos os dados da variável X:idade e Y: tempo de profissão do funcionário, do setor de tecidos. O gráfico de dispersão está na figura a seguir.
![Page 77: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/77.jpg)
Vemos que, parece haver uma associação direta (positiva) entre idade e tempo de serviço. A medida que aumenta a idade, aumenta o tempo como balconista.
![Page 78: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/78.jpg)
Medida de correlação: Coeficiente de Correlação
n
ii
n
ii
n
iii
yyxx
yyxxr
1
2
1
2
1
Para o exemplo, o coeficiente de correlação vale:
R=0,66
Portanto, as duas variáveis estão correlacionadas. Esta correlação é de grau mediano para forte. Cálculo no próximo slide.
O coeficiente de correlação varia na faixa de:
-1 r 1
![Page 79: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/79.jpg)
Idade (X) Tempo (Y)
(X-média)
(Y-média)
(X-média)2
(Y-média)2
(X-média)(Y-média)
51 25 18,31 16,4 335,30 268,96 300,30 43 7 10,31 -1,6 106,32 2,56 -16,50 32 8 18,31 16,4 335,30 268,96 300,30
. . . . . . .
. . . . . . .
. . . . . . . 33 8 0,31 -0,6 0,10 0,36 -0,19 32 15 -0,69 6,4 0,47 40,96 -4,41 22 2 -10,69 -6,6 114,25 43,56 70,55
SOMAS 0 0 3501,6444 2218,8 1852,4
![Page 80: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/80.jpg)
Matriz de correlação
![Page 81: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/81.jpg)
Variáveis Quantitativas e Qualitativas
Esta análise pode ser conduzida por meio de medidas descritivas (média, mediana, desvio padrão , desvio inter-quartílico), polígonos de freqüências múltiplo, box-plot.
Exemplo: consideremos os dados da variável qualitativa:tipo de carro e a variável quantitativa Y: preço. A representação gráfica, através de box plot múltiplo está na figura a seguir.
![Page 82: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/82.jpg)
O gráfico sugere uma dependência entre tipo de carro e preço dos automóveis. Os preços aumentam do tamanho pequeno (small), após vem os compactos e esportivos e finalmente os grandes, as vans e médios.
![Page 83: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/83.jpg)
Medida de associação: Coeficiente de determinação
Sem usar a informação da variável categorizada(tipo de carro), a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente. Se a variância dentro de cada categoria for pequena e menor do que a global, significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e, portanto, existe uma relação entre as duas variáveis.
Tipo de carro
n x Dp(Preço) Var(Preço)
Midsize 22 27,22 12,26 150,43 Van 9 19,10 1,89 3,53
Compact 16 18,21 6,69 44,71 Sport 14 19,39 7,97 63,60 Small 20 10,26 1,96 3,82 Large 11 24,30 6,34 40,16 Total 92 19,63 9,64 92,93
![Page 84: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/84.jpg)
Observe na tabela que temos uma categoria (Midsize) com variância maior do que a global e cinco categorias com variância menor do que a global. Parece que a variável qualitativa (tipo de carro) melhora a capacidade preditiva da variável quantitativa (preço).
Cálculo da variância entre as categorias da variável qualitativa
k
i i
k
iii
n
varnvarME
1
1
Onde k é o número de categorias (no nosso exemplo k=6) e vari denota a variância dentro da categoria i, onde i=1,2,...,k.
![Page 85: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/85.jpg)
No exemplo, temos:
40459
11922
16401153394315022
1
1 ,...
,...,,
n
varnvarME k
i i
k
iii
Podemos definir o grau de associação através do cálculo do coeficiente de determinação, dado por:
)eçovar(Pr
(var)ME
)eçovar(Pr
(var)ME)eçovar(PrR
12
O coeficiente de determinação varia na faixa de:
0 R2 1
![Page 86: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/86.jpg)
Exemplo: o coeficiente de determinação para o exemplo vale:
360809392
4059112 ,
,
,
)eçovar(Pr
(var)ME
)eçovar(Pr
(var)ME)eçovar(PrR
Podemos dizer que 36,08% da variação dos preços dos automóveis é explicada pelo tipo de carro.
![Page 87: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/87.jpg)
Exemplo: vamos considerar as variáveis: Eficiência no consumo (MPG), Origem e os Preços. Vamos separar os preços por eficiência e origem.
Observamos que para eficiência alta, os preços são similares, tanto para carros domésticos como para estrangeiros. Para eficiência baixa e origem doméstica, têm-se os carros com os maiores preços (porcentagem baixa, apenas 2%).
![Page 88: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/88.jpg)
Diagrama de dispersão tridimensional
![Page 89: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/89.jpg)
![Page 90: Capítulo 7 Conhecendo os Dados](https://reader036.fdocument.pub/reader036/viewer/2022062314/56814903550346895db637ac/html5/thumbnails/90.jpg)
Existem diversos softwares especializados em visualização de dados no mercado, com enfâse em data mining, entre eles:
MineSet
InfoZoon