Estatística Descritiva Thais Rotsen Correa Departamento de Estatística/UFOP.
Transcript of Estatística Descritiva Thais Rotsen Correa Departamento de Estatística/UFOP.
Estatística DescritivaEstatística Descritiva
Thais Rotsen CorreaDepartamento de Estatística/UFOP
Thais Rotsen CorreaDepartamento de Matemática/UFOP
• Variável: quantiifcação da característica de interesse do estudo.
• Exemplos: idade, renda, estado civil, sexo, altura, peso, número de pacientes com determinada carcterística, concentração de uma certa substância no sangue.
• Uma variável pode ser obtida através da manipulação de outras variáveis. Exemplo: ínice de massa corporal = peso/altura^2
Estatística Descritiva
Tabela de dados brutos
Paciente Colesterol (mg/litro) Sexo Idade (anos) Consumo de fritura Peso (kg)
1 278,7 F 19 Alto 68,9
2 182,3 F 23 Baixo 63,4
3 180,9 F 20 Baixo 60,8
4 210,0 F 20 Médio 65,0
5 290,7 M 21 Alto 75,8
6 279,6 M 19 Alto 80,0
7 250,4 M 22 Médio 70,0
8 150,2 M 22 Baixo 55,7
9 179,8 M 19 Alto 60,4
10 233,2 M 20 Médio 72,0
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Classificação das Variáveis
Variável Qualitativa ou Categórica
Nominal
Ex: sexo
Ordinal
Ex: fritura
Variável Quantitativa
Discreta
Ex: idade
Contínua
Ex: colesterol
Thais Rotsen CorreaDepartamento de Matemática/UFOP
• n: frequência absoluta simples
• N: frequência absoluta acumulada
• f: frequência relativa simples
• F: frequência relativa acumulada
Tabelas de Freqüência
Thais Rotsen CorreaDepartamento de Matemática/UFOP
• Gráfico de Pizza ou Setores
• Gráfico de barras
• Histograma
• Diagrama de dispersão
• Boxplot
• Vários outros…
Gráficos
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Gráfico de Pizza ou Setores
FemininoMasculino
60,0%
40,0%
Sexo
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Gráfico de Barras (freqüência absoluta)
AltoMédioBaixo
4
3
2
1
0
Consumo de fritura
Frequenci
a
Consumo de fritura
Thais Rotsen CorreaDepartamento de Matemática/UFOP
2322212019
3,0
2,5
2,0
1,5
1,0
0,5
0,0
Idade
Frequencia
Idade
Thais Rotsen CorreaDepartamento de Matemática/UFOP
2322212019
10
8
6
4
2
0
Idade
Frquenci
a A
cum
ula
da
Cumulative across all data.
Idade
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Gráfico de Barras (freqüência relativa)
AltoMédioBaixo
40
30
20
10
0
Consumo de fritura
%
Percent within all data.
Consumo de fritura
Thais Rotsen CorreaDepartamento de Matemática/UFOP
2322212019
30
25
20
15
10
5
0
Idade
%
Percent within all data.
Idade
Thais Rotsen CorreaDepartamento de Matemática/UFOP
2322212019
100
80
60
40
20
0
Idade
% A
cum
ula
do
Percent within all data.
Idade
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Gráfico de Barras (duas variáveis)
SexoConsumo de fritura
MFMédioBaixoAltoMédioBaixoAlto
3,0
2,5
2,0
1,5
1,0
0,5
0,0
Frequenci
a
Consumo de fritura de acordo com Sexo
Thais Rotsen CorreaDepartamento de Matemática/UFOP
IdadeSexo
2322212019MFMFMFMFMF
20
15
10
5
0
%
Percent within all data.
Idade de acordo com Sexo
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Gráfico de valores individuais
MédioBaixoAlto
300
275
250
225
200
175
150
Consumo de fritura
Cole
stero
l (m
g/lit
ro)
Thais Rotsen CorreaDepartamento de Matemática/UFOP
300275250225200175150
3,0
2,5
2,0
1,5
1,0
0,5
0,0
Colesterol (mg/ litro)
Frequenci
aHistograma: Colesterol (mg/ litro)
Histograma
Thais Rotsen CorreaDepartamento de Matemática/UFOP
300275250225200175150
30
25
20
15
10
5
0
Colesterol (mg/ litro)
%Histograma: Colesterol (mg/ litro)
Thais Rotsen CorreaDepartamento de Matemática/UFOP
807570656055
300
275
250
225
200
175
150
Peso
Cole
stero
l (m
g/lit
ro)
Colesterol (mg/ litro) vs Peso
Diagrama de Dispersão
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Medidas de Posição Central
Considere uma amostra de tamanho n com valores x1,...xn.
1. Média
2. Mediana: valor que ocupa a posição central quando os dados estão ordenados.
50% dos valores são menores ou iguais a mediana, 50% dos valores são maiores ou iguais a mediana.
3. Moda: valor com maior freqüência.
n
xxx n
...1
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Exemplo: Uma pesquisa sobre a remuneração mensal de um bacharel em farmácia entrevistou 15 recém formados e anotou o salário de cada um deles.
Os valores estão em reais:
Calcule o salário médio e o salário mediano. Comente as diferenças encontradas.
Qual deles você acha que representa melhor a remuneração mensal de um
farmaceutico?
2720 2960 3180 3570 3790 3820 3000 2963 3240 3400 22460 15730 2800 2945 3156
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Percentil e Quartil
Percentil: o percentil a é um valor x tal que a% dos valores da amostra são
menores ou iguais a x. Por exemplo: quando dizemos que a altura 1,60 metros
é o percentil 37 da turma significa que 37% da turma mede 1,60 metros ou menos.
Os percentis 25, 50 e 75 dividem a amostra em 4 partes iguais, e por isso são
chamados de quartis. O primeiro quartil (Q1) é o percentil 25, o segundo quartil
(Q2) é o percentil 50 e o terceiro quartil (Q3) é o percentil 75.
Observe que Q2=mediana.
Thais Rotsen CorreaDepartamento de Matemática/UFOP
- 25% dos valores da amostra são menores ou iguais a Q1.
- 50% dos valores da amostra são menores ou iguais a Q2.
- 75% dos valores da amostra são menores ou iguais a Q3.
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Box plot
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Notas dos alunos de duas turmas em uma prova de 30 pontos
Nota
Turma BTurma A
30
25
20
15
10
Thais Rotsen CorreaDepartamento de Matemática/UFOP
- O símbolo * representa um outlier (valor atípico/discrepante).
- DI: distancia interquartílica
DI = Q3 – Q1
- LS = menor valor entre maximo e Q3+(1,5*DI)
- LI = maior valor entre minimo e Q1-(1,5*DI)
Caso não exista nenhum outlier o limite superior LS é igual ao máximo da amostra e o limite inferior LI é igual ao minimo da amostra.
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Considere duas amostras de mesmo tamanho (n=5):
Amostra 1: 17 18 19 20 21
Amostra 2: 1 3 20 34 37
A média amostral das duas amostra é a mesma (19). A mediana também é muito próxima (19 na amostra 1 e 20 na amostra 2). Porém, a dispersão dos valores é extremamente diferente (na amostra 2 é muito maior).
Para descrever bem uma amostra não basta olharmos para as medidas de tendência central. Precisamos também de medidas para a dispersão/variabilidade.
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Medidas de Dispersão
1. Variância (medida adimensional)
2. Desvio-padrão: distância média entre cada valor e a média amostral.
1
...22
12
n
xxxxs n
1
...22
12
n
xxxxss n
Thais Rotsen CorreaDepartamento de Matemática/UFOP
3. Coeficiente de variação (medida adimensional)
CV < 0,1: variabilidade baixa
0,1 < CV < 0,2: variabilidade intermediária
0,2 < CV < 0,3: variabilidade alta
CV > 0,3: variabilidade muito alta
xsCV /
Thais Rotsen CorreaDepartamento de Matemática/UFOP
3. Escore padronizado
Útil para comparar um valor da amostra com os demais. Fornece a distancia entre o valor e a média amostral em desvios padrão.
Exemplo: Um aluno com nota 7 numa prova em que a média da turma foi 5 teve melhor desempenho que um aluno com nota 8 quando a média da turma foi 9.
s
xxz ii
Thais Rotsen CorreaDepartamento de Matemática/UFOP
Exemplo
Peso ao nascer para uma amostra de 11 bebes (em kg):
a) Classifique a variável de interesse (peso ao nascer).
b) Calcule média, mediana e desvio padrão do peso ao nascer.
c) Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do sexo feminino.
d) Calcule média, mediana, desvio padrão e CV do peso ao nascer para bebes do sexo masculino.
e) Faca um gráfico box-plot duplo para peso ao nascer feminino e masculino.
f) Calcule o escore padronizado para um bebe do sexo feminino com peso ao nascer igual a 3,5 kg.
g) Calcule o escore padronizado para um bebe do sexo masculino com peso ao nascer igual a 2,95 kg.
Peso (kg) 3,00 3,10 2,80 2,90 3,00 3,20 3,50 3,70 3,10 3,40 2,90Sexo F F F F F M M M M M M