Módulo I – Unidade 1: Definição Estatística
Transcript of Módulo I – Unidade 1: Definição Estatística
7
Módulo I – Unidade 1: Definição Estatística
Para muitos a estatística não passa de um conjunto de tabelas e gráficos
ou, simplesmente, um aglomerado de números. Na verdade, o campo científico
que corresponde à estatística é uma excelente ferramenta na interpretação de
dados coletados para qualquer ciência incluindo a ciência química.
A estatística historicamente tem nos ajudado na compreensão de
diversas informações. A palavra estatística vem de „status‟ (estado em latim).
Sob essa palavra acumulam-se descrições e dados relativos ao estado. A
estatística, nas mãos dos estadistas, constitui-se, no passado, uma verdadeira
ferramenta administrativa através da coleta e construção de tabelas de dados
para o governo. A situação evoluiu e esta coleta de dados de dados representa
somente um dos aspectos da estatística como será descrito no decorrer do
texto.
A estatística é um conjunto de técnicas que permite, de forma
sistemática, organizar, descrever, analisar e interpretar dados oriundos
de estudos ou experimentos, realizados em qualquer área do
conhecimento.
Dentre as diversas áreas da estatística nosso estudo se limitará a que é
chamada estatística descritiva:
É utilizada para descrever e resumir os dados. A disponibilidade de uma
grande quantidade de dados e de métodos computacionais muito
eficientes revigorou está área da estatística.
As informações em análise podem ser resumidas qualitativa ou
quantitativamente (medidas de posição e de dispersão). As medidas de
posição podem ser subdivididas em: moda, média, mediana, percentis, quartis.
E as medidas de dispersão em: desvio – padrão, variância e coeficiente de
variação. Medias estas que serão abordadas mais profundamente nas
unidades seguintes, assim como sistemas de regressão linear simples e
análise hierárquica de agrupamentos (cluster).
8
Módulo I - Unidade 2: População e Amostragem
POPULAÇÃO
População ou universo é qualquer conjunto de informações que
tenham, entre si, uma característica comum.
As pessoas de uma comunidade pode ser estudadas sob diversos
ângulos. Por exemplo, podem ser classificadas quanto ao sexo (masculino e
feminino), quanto à estatura (baixa, média, alta), quanto à renda (pobres,
ricas), etc.
Sexo, estatura, renda são variáveis, isto é, são propriedades às quais
podemos associar conceitos ou números e assim expressar, de certa
maneira, informações sob a forma de medidas.
Por exemplo, observe a seguinte tabela 1:
Tabela 1: Nomes associados aos sexos.
Nome Sexo
Paulo Masculino
Silvana Feminino
Jhon Masculino
Heloísa Feminino
Na tabela, os nomes estão associados ao sexo (masculino, feminino).
Esta é uma forma de medida, a chamada medida qualitativa. Pode-se ainda
associar a masculino o número 1 e a feminino o número 2, e a tabela 1
transforma-se em:
9
Tabela 2: Nomes relacionados ao sexo masculino (1) e feminino (2).
Nome Sexo
Paulo 1
Silvana 2
Jhon 1
Heloísa 2
Se o conjunto de todas as estaturas das pessoas da comunidade citada
constitui uma população de estaturas, o conjunto de todas as cores de olhos
constitui uma população de cores de olhos, e assim sucessivamente. Desta
forma, o termo população não está associado pessoa, gente e sim a variável
estudada (estatura, cor dos olhos, etc).
Entretanto, população muito grande como, por exemplo, a população
eleitoral brasileira (cerca de 128 milhões de eleitores aptos a votar, estimativa
do TSE – Tribunal Superior Eleitoral). Como fazer uma pesquisa de opinião
sobre a popularidade de determinado político brasileiro sem ter que entrevistar
cada uma das pessoas e garantir um resultado confiável? Neste Caso, recorre-
se a uma amostra que, basicamente, constitui uma redução da população a
dimensões menores, sem ter perda das características essências.
Por exemplo, tem-se da vila São José com população de 400 pessoas.
Se for realizado um estudo das idades dos habitantes desta vila, o trabalho
pode ser simplificado colhendo uma amostra de 40 pessoas e estudar o
comportamento da variável idade apenas nesta amostra.
No entanto, para se ter uma boa amostra, esta deve ser
representativa, ou seja, deve conter em proporção tudo o que a população
possui qualitativa e quantitativamente. E tem que ser imparcial, isto é, todos
os elementos devem ter igual oportunidade de fazer parte da amostra.
10
Voltando ao exemplo da vila. Observe as tabelas 3 e 4:
Tabela 3: Quantidade de Pessoas da vila São José em relação à idade em
anos.
Idade (anos) Qtd. de
pessoas
2 30
10 40
18 40
26 40
32 50
40 60
52 70
65 70
Total 400
Tabela 4: Quantidade de Pessoas da vila São José em percentagem em
relação à idade em anos.
Idade (anos) Qtd. de
pessoas %
2 30 7,5
10 40 10,0
18 40 10,0
26 40 10,0
32 50 12,5
40 60 15,0
52 70 17,5
65 70 17,5
Total 400 100
11
A tabela 4 especifica que 50 pessoas da vila com idade de 32 anos
correspondem a 7,5% do total dos habitantes desta vila. Então, para haver
representatividade, é preciso garantir que, na amostra de 40 pessoas,
também haverá 7,5% de pessoas idade igual a 32 anos, ou seja, 3 pessoas
com idade igual a 32 anos.
MÉTODOS DE AMOSTRAGEM
Serão abordados 3 tipos de amostragem, mas é importante notar que estes
métodos são válidos somente se a amostra for puramente aleatória. Um bom
exemplo de uma amostra não aleatória é a pesquisa para a eleição
presidencial estampada no Literary Digest de 1936. O Litery ouviu a opinião de
2 milhões de pessoas, o que é uma cifra muito maior do que seria necessário
para proporcionar um resultado preciso, se a amostra tivesse sido selecionada
aleatoriamente. A pesquisa predice uma fácil vitória para Alfred Landon,
quando, na realidade, Franklin D. Roosevelt venceu por uma ampla margem. O
problema é que a amostra do Digest não foi aleatória. A revista enviou fichas a
pessoas cujos nomes foram tirados de listas telefônicas e outras fontes, mas as
pessoas que tinha telefone naquela época não representavam adequadamente
a população como um todo. Se uma amostra não é extraída aleatoriamente,
não há maneira de prever o quanto se afastará da realidade.
AMOSTRAGEM POR CONGLOMERADO
De acordo com este método, a população é dividida em
diferentes conglomerados, extraindo-se uma amostra apenas dos
conglomerados selecionados, e não de toda a população. O ideal seria que
cada conglomerado representasse tanto quanto fosse possível o total da
população. Na prática, selecionam-se os conglomerados geograficamente.
Escolhem-se aleatoriamente algumas regiões, em seguida algumas sub-
regiões e, finalmente, alguns lares. Esse processo assegura que as pessoas
12
da amostra vivam em conglomerados, possibilitando ao pesquisador entrevistar
apenas poucas pessoas.
AMOSTRAGEM ESTRATIFICADA
Outro método de amostragem é a amostragem
estratificada. Se a população pode ser dividida em sub-grupos que
consistem, todos eles, em indivíduos bastante semelhantes entre si, pode-
se obter uma amostra representativa entrevistando-se uma amostra aleatória
de pessoas de cada grupo. Esse processo pode gerar amostras bastante
precisas, mas só é viável quando a população pode dividida em grupos
homogêneos.
AMOSTRAGEM DE CONVENIÊNCIA
Há muitos outros tipos de métodos de amostragem. Não
raro aplica-se incorretamente a análise estatística a essas amostras, como se
tratasse de amostra puramente aleatórias. Poderíamos chamar tais métodos de
métodos de amostragem de conveniência. Por exemplo, certas universidades
costumam fazer experimentos psicológicos em amostras dos calouros dos
cursos de psicologia. Como não há razão para esperar que tais calouros
sejam representativos de toda a população de calouros (para só falar da
população como um todo), não é adequado fazer inferência sobre a
população com base em tais experimentos. Outro exemplo: Se colocarmos
uma mesa na entrada de um shopping center e pedirmos a cada passante que
se detenha um momento e preencha um formulário de pesquisa, é pouco
provável que consigamos uma amostra realmente aleatória da população.
Analogamente, as revistas costumam publicar estatísticas chocantes; mas,
como os assinantes não constituem uma amostra aleatória da população, é
impossível fazer inferências estatísticas válidas sobre a população como um
todo, a partir dessas pesquisas.
13
Tendo uma amostra representativa da população inicial, os dados
obtidos podem dar origem a diversas relações estatísticas, como por
exemplo, Média aritmética, mediana, moda, variância, desvio padrão, etc.
que serão abordados no decorrer do curso.
14
Módulo I – Unidade 3: Coleta e Análise de Dados
A fase de coleta e análise dos dados é de grande importância na
elaboração da pesquisa científica, portanto, é necessário manter alguns
cuidados para que se possa garantir a fidedignidade dos resultados.
COLETA DE DADOS
O primeiro cuidado que se deve tomar ao se iniciar a fase de coleta de
dados é quanto à preparação das pessoas responsáveis por ela. É
importante a supervisão para que não se coletem dados errados, ou
desnecessários para a pesquisa realizada. Do mesmo modo, todos os dados
coletados devem estar sendo observados, pois, se necessário, deve-se fazer a
reaplicação do instrumento.
Já na pesquisa experimental, o essencial é controlar as variáveis
estranhas que possam estar interferindo, para que o ambiente se torne o mais
adequado possível, manipular certas condições e observar os efeitos
produzidos. Contudo, para esse tipo de pesquisa, existe uma variedade de
recursos mecânicos, elétricos, eletrônicos que auxiliam nessa etapa da
pesquisa.
A coleta de dados pode ser feita por meio de: observações, entrevistas
e história de vida, pesquisa bibliográfica, questionários, observação
empírica, entre outros.
É importante ressaltar que, existem diversos procedimentos utilizados
para este fim, no entanto, cabe ao pesquisador decidir qual o procedimento que
mais de adequada ao tipo de pesquisa realizada.
15
ANÁLISE DOS DADOS
Após a coleta de dado, faz-se necessário a análise dos mesmos.
Entretanto, o planejamento anterior dessa análise deve teve ter sido feita
antes mesmo da coleta dos dados. Este procedimento auxilia o pesquisador e
evita que sejam feitos trabalhos desnecessários, além do que, possibilita o
pesquisador prever os gastos necessários para a realização da pesquisa.
Para a pesquisa experimental, a análise estatística é essencial e a
prática mais adequada. No entanto, existem inúmeros testes de significância,
sendo necessário que o pesquisador estude e então escolha o teste que mais
se adequada à pesquisa em questão.
É importante observar que, os testes estatísticos constituem apenas
instrumentos que facilitam a interpretação dos resultados, sendo
necessário uma fundamentação teórica que permita ao pesquisador traçar um
paralelo entre os resultados obtidos empiricamente e as teorias já existentes.
16
Módulo I – Unidade 4: Distribuição de Frequência
O que vem a ser uma distribuição de frequência?
Uma distribuição de freqüência (absoluta ou relativa) é um
método de agrupar dados por classes de ocorrência de modo a
fornecer a quantidade de dados em cada classe.
Em outras palavras, este tipo de análise estatística permite verificar a
freqüência (o quanto se repete) de determinado dado em um determinado
intervalo de estudo. Com isso podemos resumir e visualizar um conjunto de
dados sem precisar levar em conta os valores individuais. Este tipo de
distribuição pode ser representado em forma de tabelas e gráficos.
Representar graficamente significa fazer um desenho que sintetize de
maneira clara o comportamento de uma ou mais variáveis e para representar
graficamente a distribuição de freqüência serão utilizados gráficos planos
(duas dimensões: altura e largura).
Diagrama de colunas;
Diagrama de barras;
Histograma;
Polígono de freqüência
O ponto de partida desses quatro gráficos é sempre o mesmo: dois
segmentos que têm origem comum e formam entre si um ângulo reto, isto é,
um ângulo de 90º formando um sistema de coordenadas cartesianas
ortogonais. O segmento vertical chama-se eixo das coordenadas e o
segmento horizontal, eixo das abscissas.
17
REPRESENTAÇÃO TABULAR
Um outro tipo de representação que ajuda a compreender um
determinado fenômeno é a representação tabular que compacta as
informações utilizando intervalos de estudo que apresenta dados tabelados de
forma bem mais resumida.
Intervalos de classe: conjunto de observações contidas entre dois
valores limites (limite inferior e limite superior).
Por exemplo
Dada a seqüência: 1, 2, 3, 4, 5, 6, 8. Temos:
Intervalo aberto: 1 ─ 8 = 2, 3, 4, 5, 6, 7 (não contém nem o valor
1,limite inferior, e nem o valor 8, limite superior);
Intervalo fechado: 1├ ┤8 = 1, 2, 3, 4, 5, 6, 7, 8 (contém tanto o valor
1,limite inferior, como o valor 8, limite superior);
Intervalo fechado à esquerda: 1├ 8 = 1, 2, 3, 4, 5, 6, 7 (não contém o
valor 8, limite superior);
Intervalo fechado à direita: 1┤8 = 2, 3, 4, 5, 6, 7, 8 (não contém o valor
1,limite inferior,).
Os intervalos de classes devem ser mutuamente exclusivos (um
indivíduo não pode ser classificado em dois intervalos ao mesmo tempo) e
exaustivos (nenhum indivíduo pode ficar sem classificação).
Amplitude do intervalo (representado simbolicamente pela letra h): É o
tamanho do intervalo de classe. A amplitude do intervalo e o número de
intervalos dependem basicamente do problema específico.
E o ponto médio do intervalo: É calculado pela média entre os limites inferior
e superior.
Por exemplo
18
Preocupados com o acesso nos serviços de saúde e educação dos
moradores da cidade de Castanhal, localizada no Estado Pará, seus
governantes fizeram um levantamento da renda mensal dos habitantes da
cidade que tem cerca de 150 mil habitantes, mas o estudo foi feito sobre uma
amostra de 340 pessoas. Tal estudo revelou que mais de 35% dos habitantes
(121 pessoas) da cidade de Castanhal vive com renda inferior a dois salários
mínimos. Enquanto que uma minoria de 0,59% (2 pessoas) tem renda superior
a 8 salários mínimos. O que evidencia a má distribuição de renda na cidade e,
conseqüentemente, dificultada a o acesso a educação e a saúde de qualidade.
Os dados obtidos foram:
Tabela 1: Renda mensal da população da cidade de Castanhal.
Renda mensal
Quantidade de
Pessoas (agrupados
por classe)
%
De 0 a 1 salário mínimo 53 15,59
De 1 a 2 salários mínimos 121 35,59
De 2 a 3 salários mínimos 67 19,71
De 3 a 4 salários mínimos 15 4,42
De 4 a 5 salários mínimos 30 8,82
De 5 a 6 salários mínimos 19 5,59
De 6 a 7 salários mínimos 20 5,88
De 7 a 8 salários mínimos 13 3,82
De 8 a 9 salários mínimos 2 0,58
Total 340 100
A tabela 1 pode ser representada com intervalos de classe sendo a renda
(quantidade de salários mínimos) simbolizada por X e a quantidade de pessoas
por ni. Então:
19
Tabela 2: Renda mensal da população da cidade de Castanhal em intervalos
de classes.
X (salários
mínimos) ni
0 ├ 1 53
1 ├ 2 121
2 ├ 3 67
3 ├ 4 15
4 ├ 5 30
5 ├ 6 19
6 ├ 7 20
7 ├ 8 13
8 ├ 9 2
Total 340
FREQUÊNCIA ABSOLUTA
ni é uma variável que também pode ser chamada freqüência absoluta
(Fa) e o subscrito i representa a classe à qual n se refere. Na tabela 2, por
exemplo, n1 = 53, n2 = 121,..., n9 = 2. Sendo que a soma de todos os ni‟s deve
ser igual a amostra estudada, neste caso são 340 pessoas.
∑ ni = 340 = Fa
Este exemplo tem uma amplitude (h) igual a 1, isto é, igual a um salário
mínimo, entretanto, h pode assumir qualquer tamanho depende apenas do
problema trabalhado. Veja o que ocorre com a tabela 2 se o intervalo for de
tamanho 2.
20
Tabela 3: Renda mensal da população da cidade de Castanhal em intervalos
de classes com h = 2.
X (salários mínimos) ni
0 ├ 2 174
2 ├ 4 82
4 ├ 6 49
6 ├ 8 33
8 ├ 10 2
Total 340
Observe o último intervalo da tabela 3 (8 ├ 10), é fechado somente a
esquerda, logo, significa que há moradores na cidade de Castanhal com renda
maior ou igual a 8 salários mínimos, mas não igual a 10 salários mínimos.
O mesmo vale para os demais intervalos. Observe ainda, que à medida que h
se torna maior a tabela diminui, isto é, vai ficando com menor número de
classes (categorias, intervalos).
A freqüência absoluta pode ser também representada graficamente com
diagrama de colunas, onde no eixo vertical é observada a freqüência
absoluta por classe e no eixo horizontal, os intervalos de classe. Ou ainda
em um diagrama de barras, onde no eixo y será representado o intervalo de
classe, e no eixo x, a freqüência absoluta.
Por exemplo
Dada a seguinte tabela que representa as notas de uma amostra de 32
alunos em um teste de estatística com nota mínima igual a 0 (zero) e nota
máxima igual a 10 (dez), represente-a em um diagrama de colunas e em um
diagrama de barras.
Tabela 4: Representação das notas (de 0 a 10) de 32 alunos em um teste de
estatística.
Notas Fa
0 2
21
1 3
2 5
3 8
4 8
5 3
6 2
7 1
Resposta
Para construção do diagrama de colunas desenhe o eixo cartesiano (x,
y). No eixo y represente a freqüência e no eixo x, as notas (ou classes de
notas). As colunas devem ficar separadas umas das outras. E para a
construção de um diagrama de barras faz-se o inverso: na vertical
representam-se as notas e na horizontal a Fa. Observe os gráficos a e b:
a) Gráfico de colunas Notas do teste de estatística
b) Gráfico de barras Notas do teste de estatística
22
FREQUÊNCIA RELATIVA
Outro tipo de freqüência é a freqüência relativa (fri): é o valor das
razões entre as freqüências simples (fi) e a freqüência total (freqüência
absoluta, Fa).
fri = fi / Fa
Por exemplo
A freqüência relativa da terceira classe do exemplo anterior é:
fri = 49/ 340 = 0,14
Evidentemente, a soma de todos fri ‘s deve ser igual a 1 ou 100 %.
FREQUÊNCIA ACUMULADA
Tem-se ainda a freqüência acumulada (Fi): é o total das freqüências de
todos os valores inferiores ao limite superior do intervalo de uma dada classe:
Fk = f1 + f2 + ... + fk ou Fk = ∑ fi (i = 1, 2, ..., k)
Por exemplo
Usando os dados da tabela 3, a freqüência acumulada das classes da
tabela 5, abaixo, é:
Tabela 5: Freqüência acumulada (Fk) da renda mensal da população da cidade
de Castanhal.
(Salários mínimos) ni = Fa Fk
0 ├ 2 174 174
2 ├ 4 82 174 + 82 = 256
4 ├ 6 49 256 + 49 = 305
6 ├ 8 33 305 + = 338
8 ├ 10 2 338 + 2 = 340
Total 340
23
FREQUÊNCIA ACUMULADA RELATIVA
E por fim, tem-se a freqüência acumulada relativa (Fri): de uma classe
é a freqüência acumulada da classe, dividida pela freqüência total da
distribuição:
Fri = Fi / Fa
Por exemplo
A freqüência acumulada relativa da quarta classe da tabela 4 é:
Fri = 33/ 340 = 0,097
HISTOGRAMA
Um outro exemplo representando a distribuição de freqüência num
histograma. Em uma escola onde 500 alunos da classe A – 2000 participam da
disciplina de Estatística Básica. Num teste de múltipla escolha contendo 100
questões que visava verificar a aprendizagem destes na referida disciplina,
obteve-se a seguinte freqüência de notas (correspondente à quantidade de
acertos).
Tabela 6: Classe A-2000 com 500 alunos participantes da disciplina Estatística
Básica.
Intervalo de Classe Frequência
0 ├ 10 5
10 ├ 20 15
20 ├ 30 20
30 ├ 40 45
40 ├ 50 100
50 ├ 60 130
60 ├70 100
70 ├ 80 60
80 ├ 90 15
90 ├ 100 10
Total 500
24
Resposta
Para construção do histograma, desenhe o eixo cartesiano (x, y), onde
na abscissa serão representadas as classes, que neste caso tem uma
amplitude h igual a 10, e na ordenada, a freqüência dos dados. A área de cada
retângulo do gráfico representa a freqüência de cada nota.
POLÍGONO DE FREQÜÊNCIAS
Na construção de um polígono de freqüências primeiramente constrói-se
um histograma; depois marcamos no „telhado„ de cada coluna o ponto central
(ponto médio) e unimos sequencialmente estes pontos. Devem existir dois
pontos na abscissa (eixo horizontal), um na lateral esquerda e outro na lateral
direita, ligado aos pontos das barras das extremidades.
Por exemplo
Represente em um polígono de freqüência os dados da tabela abaixo
referente ao tempo em minutos que uma amostra de 550 pessoas levou para
realizar uma prova de estatística.
25
Tabela 7: Tempo em minutos gasto por 550 pessoas para realizar uma prova
de Estatística.
Classes
(minutos) Fa
2 ├ 4 70
4 ├ 6 160
6 ├ 8 210
8 ├ 10 80
10 ├ 12 20
Total 550
Polígono de freqüência do teste de Estatística
26
Módulo 1 – Unidade 5: Medidas de Tendência Central
Como o próprio nome sugere, medidas de tendência central são
medidas, Isto é, estatísticas, cujos valores estão próximos do centro.
MÉDIA ARITMÉTICA
A média aritmética (Ma) de um conjunto de dados ou valores é igual à
razão da soma de todos estes valores pela quantidade de valores, isto é, o
número de parcelas.
Ma = ∑xi/ n
Onde n refere-se a quantidade de elementos presente na amostra, mas
se o objeto de estudo é sobre uma população, o denominador passa a ser
representado por N, tendo ,então a chamada média populacional (μ).
μ = ∑xi/ N
Por exemplo
A tabela 1 revela a produção mundial de café no período de 1946-89.
Onde o Brasil aparece como grande líder na produção do grão. Qual dentre os
quatro anos estudos, em média, a produção de café mundial foi mais próspera
em relação à quantidade de grãos produzidos?
Dado: Indonésia, Costa do Marfim e Etiópia tiveram produções pouco
significativas no ano de 1946.
27
Tabela 1: Podução mundial de café no período de 1946-1989.
Países
produtores
Produção (1.000 t)
1946 1955 1968 1989
Brasil 917 1.370 1.398 1.510
Colômbia 365 335 474 664
Indonésia __ 63 150 390
México 57 88 180 312
Costa do
Marfim __ 85 258 265
Guatemala 70 66 108 220
Etiópia __ 54 250 200
Uganda 26 63 170 188
El Salvador 62 75 138 97
Fonte: Imagens Économiques du Monde, 1977 e 1990.
Resposta
a) Para o ano de 1946
Ma = 917 + 365 + 0 + 57 + 0 + 70 + 0 + 26 + 62/ 5 = 163,33. 1000 t = 163330 t
b) Para o ano de 1955
Ma= 1370 + 335 + 63 + 88 + 85 + 66 + 54 + 63 + 75/ 9 = 244,33. 1000t =
244330 t
c) Para o ano de 1968
Ma = 1398 + 474 + 150 + 180 + 258 + 108 + 250 + 170 + 138 / 9= 347,33. 1000
t = 347330 t
d) Para o ano de 1989
Ma = 1510 + 664 + 390 + 312 + 265 + 220 + 200 + 188 + 97 / 9 = 427,33. 1000
t = 427330t.
28
Pelas médias das produções mundiais de café nos quatro anos estudos,
1989 foi o ano mais próspero.
MÉDIA PONDERADA
Ao calcularmos uma média, podemos cometer sério engano, se
ignorarmos o fato de que as grandezas em jogo não têm todas a mesma
importância em relação ao fenômeno que está sendo estudado.
Consideremos, por exemplo, os seguintes dados sobre a percentagem de
casas de residência ocupadas pelos proprietários respectivos, nas vizinhanças
de três cidades da Califórnia.
Tabela 2: Percentagem de casas de residência ocupadas por proprietários em
três cidades do Estado do Pará .
Porcentagem ocupada pelo proprietário
Santarém 40,3
Salva-Terra 56,4
Castanhal 62,1
A média entre essa três percentagens é:
Ma = 40,3 + 56,4 + 62,1 / 3 = 52,9
Mas não podemos afirmar que essa seja a ocupação média de casa
pelos seus proprietários nas três cidades. As três cifras não têm todas o
mesmo peso, porque há grandes diferenças entre os tamanhos das três
cidades.
Para dar a quantidades sujeitas ao processo de média o grão correto de
importância, é preciso atribuir-lhe pesos (importância relativa) e então calcular
uma média ponderada. De modo geral, a média ponderada Maw de um
conjunto de números x1, x2,..., xn, cuja importância relativa é expressa
29
numericamente por um conjunto correspondente de números w1, w2,...,wn, é
dada por :
Maw = ∑w.x/ ∑w
Aqui, ∑w.x é a soma dos produtos de x pelo peso correspondente, e ∑w
é simplesmente a soma dos pesos. Note que quando os pesos são todos
iguais, a fórmula da média ponderada se reduz a média aritmética usual.
Por exemplo
Considerando que, nos bairros selecionados de Santarém, há 1135
unidades residenciais, 113 em Salva-Terra e 210 em Castanhal, utilize essa
cifras e as percentagens do texto acima para determinar a taxa de ocupação
pelos proprietários nas três cidades.
Resposta
Fazendo x1 = 40,3, x2 = 56,4, x3 = 62,1, w1 = 1135, w2 = 113, w3 =210 na
fórmula de Maw, obtemos
Maw = (1135)(40,3) + (113)(56,4) + (210)(62,1) /(1135 + 113 + 210) =
44,7
Note que o valor obtido para Maw é muito menor que Ma, 44,7
comparado com 52,9, e isto é devido exclusivamente ao grande tamanho de
Santarém e sua baixa taxa de ocupação pelos proprietários.
A MEDIANA (Md)
Para evitar a possibilidade de sermos enganados por valores muito
pequenos ou muito grandes, ocasionalmente descrevemos o „meio‟ ou o
„centro‟ de um conjunto de dados com outras medidas estatísticas que não a
média. Uma dessas medidas, a mediana de n valores, exige que os
ordenemos, e se defina como:
30
O valor do elemento do meio se n é impar, ou a média dos dois
elementos do meio se n é par.
Por exemplo
Em um mês recente, o Departamento de Caça e Pesca de um estado
reportou 53, 31, 67, 53 e 36 violações em atividades de caça e pesca em cinco
regiões diferentes. Ache a mediana do número de violações para esses meses.
Resposta
A mediana não é 67, o valor do meio, porque primeiro devemos ordenar
as cifras de acordo com o valor (da menor para o maior). Obtemos, então: 31,
36, 53, 53 e 67; pode-se ver que a mediana é 53.
Note neste exemplo que há dois 53‟s entre os dados, e que não nos
referimos especificamente a nenhum deles como a mediana – a mediana é um
número e não necessariamente uma medida ou observação.
POSIÇÃO MEDIANA
A mediana é o valor do [(n + 1)/ 2]-ésimo elemento.
Quando n é impar, [(n + 1)/ 2] é um número inteiro e dá a posição da mediana;
quando n é par, [(n + 1)/ 2] está a meio caminho entre os dois inteiros e a
mediana é a média dos valores dos elementos correspondentes.
Por exemplo
Determine a posição para (a) n = 15 e (b) n = 48.
Resposta
Com os dados ordenados (e contando a partir de qualquer extremidade)
a) [(n + 1)/ 2] = [(15 + 1)/ 2] = 8, e a mediana é o valor do 8º elemento;
31
b) [(n + 1)/ 2] = [(48 + 1)/ 2] = 24,5, e assim a mediana é a média dos
valores dos 24º e 25º elementos.
É importante ter em mente que [(n + 1)/ 2] é uma fórmula da posição da
mediana, e não a mediana em si.
CÁLCULO DA MEDIANA DE UMA DISTRIBUIÇÃO COM DADOS
AGRUPADOS
Quando queremos calcular a mediana de uma distribuição com dados
agrupados, precisamos juntar ao quadro de distribuição de freqüências a
coluna referente às freqüências acumuladas.
Por exemplo
A tabela 3 representa a distribuição das alturas de 200 jovens com
idades entre 15 e 20 anos.
Tabela 3: Distribuição das alturas de 200 jovens com idades entre 15 e 20
anos.
Altura em
cm Fa Fa acum.
160 ├ 165 8 8
165 ├ 170 15 8 + 15 =23
170 ├ 175 10 23 + 10 = 33
175 ├ 180 40 33 + 40 = 73
180 ├ 185 90 73 + 90 = 163
185 ├ 190 20 163 + 20 = 183
190 ├ 195 15 183 + 15 = 198
195 ├ 200 2 198 + 2 = 200
32
Resposta
Considerando a definição de mediana, podemos dizer que ela se
encontra na classe que contém o elemento 200/2 = 100; observando a coluna
de freqüências absolutas acumuladas, esse elemento se encontra na classe
correspondente a 180 ├ 185.
Esta classe é chamada classe mediana.
Quando, além de identificar a classe mediana, queremos determinar o
valor da mediana, devemos fazer uma interpolação:
163 – 73 = 90 ----------- 185 – 180 = 5
100 – 73 = 27 ----------- X
Isso nos ´eva a seguinte regra de três simples e direta:
90 ---- 5
27 ---- X
X = (27 . 5)/ 90 = 135/ 90 = 1,5
O valor da mediana é obtido da seguinte maneira:
Md = 180 + 1,5 = 181,5 cm
Desse resultado podemos dizer que 50 % dos jovens têm altura menor
que 181,5.
MODA
Outra medida por vezes utilizada para descrever o „meio‟ ou „centro‟ de
um conjunto de dados é a moda, definida simplesmente como o valor que
ocorre com maior freqüência e mais de uma vez. Suas duas vantagens
principais são: não exige cálculo, apenas uma contagem, e pode ser
determinada também para dados qualitativos ou nominais.
33
Por exemplo
Uma amostra de registro de uma inspetoria de veículos revela que 18
motoristas em certa faixa etária receberam 3, 2, 0, 0, 2, 3, 3, 1, 0, 1, 0, 3, 4, 0,
3, 2, 3 e 0 notificações por infração durante os três últimos anos. Determine a
moda.
Resposta
Vê-se que o número 4 ocorre uma vez, o número 1, duas vezes, o
número 2, três vezes e os números 0 e 3 ocorrem seis vezes cada um. Há
então duas modas, 0 e 3.
Tabela 4: Comparação entre Média, Mediana e moda.
Medida
Definição
Vantagens
Desvantagens
Média
Centro da distribuição de freqüências.
1. reflete cada valor; 2. possui propriedades
matemáticas atraentes.
1. é afetada por valores extremos.
Mediana
Metade dos valores são maiores, metade menores.
1. menos sensível a valores extremos do que a média
1. difícil de determinar para grande quantidade de dados.
Moda
Valor mais frequente
1. valor “típico”: maior quantidade de valores concentrados neste ponto.
1. não se presta a análise matemática; 2. Pode não ter moda para certos conjuntos de dados.
PERCENTIL
O percentil de ordem px100 (0<p<1), em um conjunto de dados de
tamanho n, é o valor da variável que ocupa a posição px(n+1) do conjunto de
dados ordenados. O percentil de ordem p (ou p-quantil) deixa px100% das
observações abaixo dele na amostra ordenada.
34
Casos Particulares:
Percentil 50 = mediana, segundo quartil(md,Q2,q(0,5))
Percentil 25= primeiro quartil (Q1), q(0,25)
Percentil 75= terceiro quartil (Q3) , q(0,75)
Exemplo 1
Dada a sequência 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6. E
sabendo que n = 11, encontre o Md, Q1 e Q3.
Resposta: Md=5,3 ; Q1=1,7 ; Q3=12,9
35
Módulo I – Unidade 6: Medidas de Dispersão
As medidas de dispersão são de grande importância na interpretação de
dados. Resumidamente elas medem o quanto uma determinada variável se
afasta de uma outra variável. Tais medidas podem dizer em quanto um
determinado dado se afasta se afasta da idealidade, por exemplo. A seguir
serão abordadas de maneira abrangente o que vem a ser cada uma dessas
medidas.
DESVIO PADRÃO
Para definir desvio padrão, sem dúvida a medida de variação mais útil e
mais largamente utilizada, notemos que a dispersão de um conjunto de dados
é pequena se os dados estão concentrados em torno da média, e é grande
se os dados estão muito afastados da média. Poderia, assim, parecer
razoável medir a variação de um conjunto de dados em termos do desvio dos
valores respectivos a contar a média. Se um conjunto de números x1, x2,..., xn,
constituindo uma amostra, tem média Ma, as diferenças x1 - Ma, x2 - Ma,..., xn
- Ma, são chamadas desvio a contar da média, o que sugere que podemos
tomar sua média como medida da variação da amostra. Infelizmente, não
podemos fazê-lo. A menos que os x‟s sejam todos iguais, alguns desvios
sertão positivos, outros serão negativos.
VARIÂNCIA
O desvio médio absoluto é uma boa medida de dispersão porque dá a
distância média de cada número em relação à média. Todavia, para muitos
propósitos, é mais conveniente elevar ao quadrado cada desvio e tomar a
média de todos esses quadrados. Essa grandeza é chamada variância. Esta é
uma boa medida de dispersão, mas tem uma desvantagem: é difícil interpretar
o valor numérico da variância.
36
Por exemplo
Uma variância de 76,222 significa uma grande dispersão ou uma
pequena dispersão? Parte do problema se deve a questão das unidades: a
variância é medida em uma unidade que é o quadrado da unidade de medida
x. Em geral, é mais conveniente calcular a raiz quadrada da variância,
chamada desvio padrão.
Temos, então, a fórmula para o desvio padrão.
a) Desvio padrão amostral
s = √(∑(x - Ma)2 / (n - 1))→ para a amostra
b) Desvio padrão populacional
δ = √(∑(x - μ)2 / N)→ para a população
E o quadrado do desvio padrão nos revela a fórmula para a variância.
a) Variância amostral
s2 = (∑(x - Ma)2 / (n - 1))→ para a amostra
b) Variância populacional
δ2 = (∑(x - μ)2 / N)→ para a população
Por exemplo
Em seis domingos consecutivos, um motorista de caminhão - reboque
recebeu 9, 7, 11, 10, 13 e 7 chamadas de serviço. Calcule s.
Resposta
37
Calculando inicialmente a média, obtemos:
Ma = 9 + 7 + 11 + 10 + 13 + 7/ 6 = 9,5
e o cálculo de ∑(x - Ma)2 pode ser feito como na tabela 1:
Tabela 1: Distribuição das chamadas de serviço recebidas por um motorista de
caminhão – reboque em seis domingos consecutivos.
x X - Ma (x - Ma)2
9 - 0,5 0,25
7 - 2,5 6,25
11 1,5 2,25
10 0,5 0,25
13 3,5 12,25
7 -2,5 6,25
Total 0,0 27,50
Dividindo por (6 – 1) e tomando a raiz quadrada, vem:
s = √(∑(x - Ma)2 / (n - 1))
s = √ (27,50/ (6 – 1)) = √(5,5) ≈ 2,3
O resultado encontrado neste ultimo exemplo significa que os valores de
x (chamadas de serviço) se afastam, desviam em 2,3 da média destes mesmos
valores.
Note, na tabela acima, que o total da coluna do meio é zero; isto deve
ocorrer sempre, constituindo, assim, uma verificação dos cálculos.
INTERVALO INTERQUARTIL (d)
É a diferença entre o terceiro quartil e o primeiro quartil, ou seja,
d= Q3-Q1
38
Por exemplo
Dada a seguinte sequência 15,5,3,8,10,2,7,11,12, encontre d.
Resposta:
Q1 = (3 + 5)/2 = 4 e Q3 = (11 + 12)/2 = 11,5
d = Q3 - Q1 = 11,5 - 4 = 7,5
COEFICIENTE DE VARIAÇÃO (CV) OU COEFICIENTE DE REGRESSÃO (R2)
É a medida de dispersão relativa que elimina o efeito da magnitude dos dados.
Exprime a variabilidade dos dados em relação a média e é muito útil para
comparar duas ou mais variáveis.
Por exemplo
Na tabela abaixo estão dispostos a média e o desvio padrão da altura e
do peso de alguns alunos do Curso de Química. E ainda seus respectivos
coeficientes de variação. Explique tais dados de acordo com sua variação em
relação a média e desvio padrão dos mesmos.
Média Desvio
padrão CV
Altura 1,143 m 0,063 m 5,5 %
Peso 50 Kg 6 Kg 12 %
Resposta: Com relação às médias, os alunos são, aproximadamente,
duas vezes mais dispersos quanto ao peso do que quanto à altura.
%100X
SCV
39
OUTRA FORMA DE ANALISAR A DISPERÇÃO
Nesta parte mostraremos outra forma de avaliar a forma de distribuição
de freqüência de uma variável ou amostra.
Exemplo 1
A tabela seguinte registra as amostras A e B. Analisar as distribuições
de freqüências das amostras aplicando somente as medidas estatísticas
conhecidas.
A 100 120 120 120 120 120 120 140 140 140 140 160 160 160
B 88,6 108,5 108,6 128,5 128,6 128,5 128,6 148,6 148,5 148,6 148,6 148,6 148,6 168,6
Verifique também as medidas estatísticas registradas na tabela seguinte:
A B
Ma 134,3 134,3
s 21,4 21,4
Md 130,0 138,6
Resposta
Verificamos pela segunda tabela que as amostras A e B têm medianas
diferentes, porém as mesmas medidas estatísticas Ma = 134,3 e s = 21,4.
Pelas medidas da média aritmética (Ma) e do desvio padrão (s),
aparentemente, se trata da mesma amostra; entretanto, essa igualdade não é
sustentada pelas seguintes comparações:
As medianas mostram que não se trata da mesma amostra;
Nas linhas da primeira tabela estão registrados os resultados: mínimo,
Q1, mediana, Q3 e máximo. Perceba o leitor que as cinco medidas estão
registradas em ordem crescente dos valores ordenados.
Analisando os resultados temos:
40
Os intervalos das 2 amostra são iguais: 80 = 180 – 100 = 168,8 –
88,6.
A diferença dos quartis das duas amostras é a mesma e igual a 20 =
Q3 – Q1. Em cada amostra este resultado indica que 50% dos valores
se distribuem entre dois quartis.
A mediana de cada amostra está situada no centro dos dois quartis.
A diferença entre Q1 e o mínimo da amostra A é 20, entanto que a da
amostra B é 40.
A B
Mínimo 100 88,6
Q1 120 128,5
Md 130,0 138,6
Q3 140 148,6
Máximo 180 168,6
Os resultados acima ajudam a compreender o alcance do intervalo entre
quartis IEQ e as vantagens do diagrama boxplot que será apresentado. O
primeiro quartil, a mediana e o terceiro quartil avaliam a forma da parte central
e a variabilidade da distribuição de freqüência da amostra. O IEQ é o resultado
da diferença entre o terceiro quartil Q3 e o primeiro quartil Q1:
IEQ = Q3 - Q1
As características do IEQ são:
É uma medida resistente, pois não é afetado pelos valores extremos da
distribuição.
É uma medida simples, fácil de ser calculada e automatizada e mede a
distribuição da metade dos valores da amostra situados ao redor da
mediana. O IEQ não é suficiente para avaliar a variabilidade de uma
amostra ou variável, pois envolve apenas os valores centrais, deixando
de considerar os valores extremos que também são importantes.
É parecido com o intervalo, entretanto, as três medidas Q1, mediana e
Q3 dão mais informações.
41
DADOS SUSPEITOS
São denominados dados suspeitos os valores extremos de uma amostra
completamente diferente da maioria; isto é, valores mais do que extremos.
Como qualquer amostra pode conter dados suspeitos devemos estar
preparados para detectá-los e analisar suas causas.
Se o valor suspeito for originado de um erro de registro, por exemplo, o
valor medido 135 foi registrado como 2135. Neste caso, o erro pode ser
corrigido e eliminada a característica suspeita do valor amostrado.
QUE FAZER SE O VALOR SUSPEITO FOI CORRETAMENTE
AMOSTRADO E REGISTRADO?
Se a população está sendo amostrada através de uma pesquisa de
pessoas de uma determinada população, um valor suspeito poderá ser
originado por uma pessoa que não pertence à população definida. O valor
suspeito também poderá ser evidencia de um acontecimento extraordinário ou
a variabilidade não esperada de uma variável. Em qualquer caso os valores
suspeitos sem causa aparente associada a população devem ser retirados da
amostra.
Uma estratégia para tratar dados suspeitos e outras irregularidades é
utilizar métodos numéricos que pouco são afetados pelos valores suspeitos.
Uma das aplicações do IEQ é detecção de dados suspeitos de uma variável.
Observe as condições abaixo:
O valor X de uma amostra é considerado possível suspeito se estiver
no intervalo
Q1 – 3xIEQ < X < Q1 – 1,5xIEQ
ou
Q3 + 1,5xIEQ < X < Q3 + 3xIEQ
O valor X de uma amostra é considerado suspeito se
X < Q1 – 3xIEQ
ou
X > Q3 + 1,5xIEQ
42
Observação: Embora o IEQ ajude a retirar um valor da amostra por
considerá-lo suspeito essa decisão deve ser acompanhada de um criterioso
julgamento.
Por exemplo
Dada a seguinte sequência 15,5,3,8,10,2,7,11,12, verifique se há
possíveis suspeitos.
Resposta
Temos da sequência acima que Q1 = 4 e Q3 = 11,5.
E o IEQ é igual:
IEQ = Q3 - Q1 = 11,5 – 4
IEQ = 7,5
Então os intervalos são:
Q1 – 3xIEQ < X < Q1 – 1,5xIEQ
4 – 3x7,5 < X < 4 – 1,5x7,5
-18,5 < X < -7,25
Conclusão: Não existe nenhum valor na sequência de dados que seja
maior que -18,5 e menor que -7,25, logo não há valores possíveis suspeitos.
43
Módulo 1 – Unidade 7: Boxplot
Boxplot
Ao utilizar apenas os valores extremos o intervalo não auxilia na
determinação da forma da distribuição de uma variável ou amostra, informando
apenas sobre caudas da distribuição. Os três resultados Q1, mediana, Q3
mostram a forma de distribuição de cinqüenta por cento dos valores de uma
variável ou amostra. Agrupando os cinco resultados da distribuição: mínimo,
Q1, mediana,Q3 e máximo conseguiremos obter mais informações sobre a
forma da distribuição de freqüência de variável.
O boxplot é a forma gráfica de se compor os cinco resultados mínimo,
Q1, mediana,Q3 e máximo e obter informações diretas sobre a da distribuição
de freqüência da variável. Resumidamente, representa os dados através de um
retângulo construído com os quartis e fornece informação sobre valores
extremos. (veja o esquema embaixo):
Exemplo 1
Com a finalidade de aumentar o peso (em Kg) um regime alimentar foi
aplicado em 12 pessoas. Os resultados (ordenados) foram:
-0,7 2,5 3,0 3,6 4,6 5,3 5,9 6,0 6,2 6,3 7,8 11,2.
44
1º passo
Calculando as medidas temos:
Mediana (Md ou Q2) = 5,6kg
1º.quartil (Q1) = 3,3kg
3º.quartil (Q3) = 6,25kg
2º passo
d=intervalo interquartil = Q3-Q1 =2,95kg
Logo as linhas auxiliares correspondem aos pontos:
Q1-1,5d = -1,25kg
Q3+1,5d = 10,675kg
3º passo
Construção do gráfico.
45
Módulo I – Unidade 8: Análise de Correlação - Regressão Linear Simples
Um problema frequente em estatística consiste em investigar questões
como estas: há alguma relação entre duas grandezas? As variações em uma
das grandezas acarretam variações na outra grandeza? O termo correlação
significa „relação em dois sentidos‟ (co + relação) e é usado para designar a
„força‟ mantêm „unidos‟ os valores dois conjuntos de valores.
ANÁLISE DE CORRELEÇÃO
Para entendermos melhor a análise de regressão usaremos o seguinte
exemplo.
Por exemplo
O fenômeno da bioacumulação em peixes é verificado quando a
concentração do metal a ser analisado cresce proporcionalmente com a massa
do peixe. Análises realizadas pelo Laboratório de Química Analítica e
Ambiental da UFPA forneceram dados da concentração de Al (Alumínio) em
peixes da espécie Cichla spp. (Tucunaré), mostradas na tabela abaixo e a
massa de peixes grandes após a biometria.
Admitamos que as respostas obtidas tenham sido:
Amostras de Tucunaré A B C D E ∑
Massa da amostra (g): Xi 5 8 10 12 15 50
[Al] (mg/Kg): Yi 10 30 45 50 75 210
1º passo
Calcule X (variável independente, que permite prever) e Y (variável
dependente, que é a resposta ou o predito) da seguinte maneira:
XM = ∑ Xi / n sendo n = quantidade de amostras
XM = 50 anos / 5 = 10 g de Tucunaré
YM = ∑ Yi / n
46
YM = 210 anos / 5 = 42 mg/Kg de Alumínio
Xi representa a massa de cada amostra de Tucunaré.
Por exemplo: O sujeito C Xi=3 = X3 = 10 g
Yi representa a massa de Alumínio bioacumulados nas amostra de Tucunaré.
Por exemplo: O Sujeito C Yi=3 = Y3 = 45 livros
XM e YM são na verdade médias dos sujeitos estudados. E observando
os valores de X e Y acima, verificamos que para cada 10 g (em média) de
Tucunaré, a amostra de peixe correspondente possui 42 mg/Kg de Al
bioacumulados (também em média).
A média aritmética (Ma) sozinha é insuficiente para explicar bem a força que
mantém unidas as variáveis X e Y. Por isso, usa-se uma estatística
desenvolvida por Person chamada coeficiente de correlação linear (rxy).
2º passo
Para o cálculo de rxy é necessário primeiro encontrar o valor das
seguintes quantidades:
∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi
2 . Vamos a tabela e calculemos essas
quantidades:
Sujeito Massa (g) Al (mg/Kg) XiYi Xi2 Yi
2
A 5 10 50 25 100
B 8 30 240 64 900
C 10 45 450 100 2025
D 12 50 600 144 2500
E 15 75 1125 225 5625
∑ 50 210 2465 558 11150
3º passo
Cálculo de rxy feito através da fórmula:
2222 )()(
)()(
iiii
iiii
xy
YYnXXn
YXYXnr
47
Onde n corresponde ao número de pares de informações. Neste
exemplo, n = 5. Então:
4º passo
Interpretação do rxy.
Quanto mais próximo de 1 maior a correlação positiva.
Quanto mais próximo de - 1 maior será a correlação negativa.
Os valores de + 1 e – 1 significam respectivamente, correlação perfeita
positiva e correlação perfeita negativa.
r = +1 correlação positiva (as duas variáveis aumentam no mesmo
sentido)
r = 0 ausência de correlação (valores muito dispersos)
r = -1 correlação negativa (uma variável aumenta e a outra diminui)
0,6 ≥ r ≤ 1 correlação forte “significativa”
0,3 ≥ r ≤ 0,6 correlação fraca
0 ≥ r ≤ 0,3 correlação muito fraca
22210111505505585
)210)(50()2465(5xyr
)4410055750)(25002790(
1050012325xyr
99,0xyr
48
TIPOS DE DIAGRAMAS
Relação Linear direta Relação Linear Indireta rxy > 0 rxy < 0 Relação curvilínea direta Não há correlação rxy = 0 Outros exemplos Exemplo 1
Xi Yi
0 0 1 2 2 4 3 6 4 8
1º passo
Calcular ∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi
2 .
Xi Yi Xi2 Yi
2 XiYi
0 0 0 0 0 1 2 1 4 2 2 4 4 16 8 3 6 9 36 18 4 8 16 64 32 ∑ 10 20 30 120 60
49
2º passo Calcular rxy
3º passo
Interpretação do resultado.
Foi encontrado um rxy igual a 1, isto é, a correlação entre os dados é
perfeita.
Exemplo 2
Xi Yi
4 5 3 3 5 5 5 4 4 4 3 6 2 5 3 6 2 5 4 2
1º passo
Calcular ∑ XiYi , ∑ Xi , ∑ Yi , ∑ Xi2 , ∑ Yi
2 .
Xi Yi Xi2 Yi
2 XiYi
4 5 4 25 10
3 3 4 25 10
5 5 9 9 9
2201205210305
)20)(10()60(5xyr
1xyr
2)(
2.
2)(
2
)()(
iYiYniXiXn
iYiXiYiXnxyr
50
5 4 9 36 18
4 4 9 36 18
3 6 16 25 20
2 5 16 16 16
3 6 16 4 8
2 5 25 25 25
4 2 25 16 20
∑ 35 45 133 217 154
2º passo Calcular rxy
Interpretação do resultado: Foi encontrado um rxy de,
aproximadamente, -0,28, isto é, a correlação entre os dados é fraca.
SIGNIFICÂNCIA DE rxy
Voltemos ao exemplo inicial onde Xi = massa (g) de Tucunaré e Yi =
quantidade de Alumino (mg/Kg) bioacumulados.
Vamos imaginar que a população de peixes de onde a amostra foi tirada
fosse tal que a sua representação gráfica desse o seguinte diagrama de
disperção:
22 )45()217(12[)35(1330(10[
)45)(35()154(10xyr
28,0xyr
2)(
2.
2)(
2
)()(
iYiYniXiXn
iYiXiYiXn
xyr
51
Mas, como os 5 sujeitos foram sorteados, os valores assim obtidos
poderiam, por puro acaso, estar simulando uma disposição retilínea, quando,
na verdade, essa configuração sequer existisse. O diagrama de dispersão
seguinte mostra isso:
Os pontos da amostra lembram uma reta, mas os pontos da
população têm uma disposição circular. Como saber se a correlação, na
população, é diferente de zero? Vimos no gráfico acima que rxy é diferente de
zero (no caso específico rxy > 0) não é garantia de que o mesmo ocorra na
população da qual se extraiu a amostra.
O nosso problema poderia se assim colocado: já que na amostra rxy é diferente
de zero, será que na população (indicada pela letra grega rô: ρxy ) a correlação
é também diferente de zero?
Então:
Se rxy ≠ 0, então:
Ho: ρxy = 0
Ha: ρxy ≠ 0 sendo, α = 5%
Para resolver este problema, vamos usar seguinte estatística t de Student
com (n- 2) graus de liberdade:
Onde:
to = t observado(calculado);
rxy = coeficiente de correlação linear (Pearson) obtido;
(n-2) = número de graus de liberdade.
20
)(1
2
xy
xy
r
nrt
52
1º passo Para o exemplo da quantidade de Alumínio bioacumulado no Tucunaré to é: 2º passo
O valor de to deve ser comparado com o valor de t tabelado, chamado „t
crítico’ (tc). E dessa comparação resultam as seguintes conclusões
(mutuamente excludentes). Mas para isso devemos encontra o número de
graus de liberdade (GLIB).Observe o extrato da tabela de tc abaixo:
Graus de
liberdade (GLIB)
α
5% 1%
3 3,182 5,847
4 2,776 4,604
… … …
8 3,355
… … …
10 3,169
… … …
20 2,845
Para o nosso exemplo, n = 5, portanto o GLIB é:
GLIB = n – 2 = 5 – 2 = 3 graus de liberdade
Então, o tc , para o nosso exemplo com 3 graus de liberdade, é igual a
3,182.
3º passo
Temos, então: (to = 12,1382) > (tc = 3,182)
Possibilidades para análise da significância da amostra:
I- Se to > tc Rejeita a Ho ( e aceita Ha)
II- Se tc > to Não rejeita a Ho (mas rejeita Ha)
1382,12)99,0(1
2599,0
)(1
2
220
xy
xy
r
nrt
53
Pelas possibilidades de análise de significância, Ho é rejeitada, isto é,
com 95% de certeza, podemos concluir que a correlação na população não é
zero.
Para esclarecer melhor, vamos aplicar o t de Student ao exemplo 2
desta unidade.
1º passo
Temos to para este exemplo é igual a:
2º passo
Para o exemplo 2, n = 10, portanto o GLIB é:
GLIB = n – 2 = 10 – 2 = 8 graus de liberdade
Então, o tc , para o nosso exemplo com 8 graus de liberdade, é igual a
2,306.
3º passo
Lembrando que: Ho: ρxy = 0 Não existe correlação linear;
Ha: ρxy ≠ 0 Existe correlação linear. (α = 5%)
Temos, então: (to = 0,825) < (tc = 2,306).
Logo, Ho não é rejeitada, isto é, com 95% de certeza, podemos afirmar
que não existe correlação linear na população. Então: ρxy = 0.
825,00784,01
828,0
)28,0(1
21028,0
)(1
2
20
2t
r
nrt
xy
xy
o
54
COEFICIENTE DE DETERMINAÇÃO (CD) OU EXPLICAÇÃO (R2)
Então, se rxy = 0,548
Isto significa que numa proporção de aproximadamente 30,03% das
variações em Y podem ser explicadas pelas variações em X.
RECOMENDAÇÕES IMPORTANTES
1. Já que o cálculo de rxy é trabalhoso é conveniente fazer o gráfico antes
de começar qualquer cálculo. Basta fazer um gráfico xy unindo o ponto
Xi com Yi, isto é: se Xi = 5 e Yi = 2, teremos o ponto (5,2) no gráfico e
assim por diante. Se os pontos do gráfico distribuírem-se de tal forma
que lembrem uma reta, convém calcular rxy; se os pontos estivem
dispersos de modo não-linear, não convém clacular rxy.
2. O coeficiente de correlação linear de Pearson pode ser calculado por
uma fórmula alternativa que é:
REGRESSÃO LINEAR SIMPLES
A regressão, que traduz a lei segundo a qual as variáveis „caminham
juntas‟, é expressa por meio de uma relação matemática. É a chamada
yx
iixy
SSn
yxr
22 100 )(r=R xy
22 )548,0(100R
03.302R
55
equação de regressão. Resumidamente, a regressão linear simples é a
expressão matemática que expressa as varáveis que se correlacionam.
Na verdade, correlação e regressão são conceitos logicamente inseparáveis.
Uma não pode existir sem a outra. Então, neste caso, fala-se em regressão
linear simples:
LINEAR: porque a disposição dos pontos permite interpolar-lhes uma
reta; e;
SIMPLES: porque só há 2 variáveis envolvidas no processo.
De todas as retas possíveis para uma nuvem de dados, somente a que
apresente melhor ajustamento a todos os pontos é que deve ser escolhida.
A escolha dessa reta obedece a um critério chamado método dos
mínimos quadrados calculado pelas seguintes equações:
Onde:
Sx = desvio padrão de X
Sy = desvio padrão de Y
^ = indica que se trata de uma valor teórico próximo da
realidade.
As equações acima são chamadas de equações normais de
regressão. A primeira delas (X - chapéu) chama-se equação normal de
regressão dos X sobre os Y e permite calcular um X desconhecido a partir de
um Y conhecido. A segunda equação (Y - chapéu) equação normal de
regressão dos Y sobre os X e permite calcular um Y desconhecido a partir de
um X conhecido.
)(
)(
_
2
_
2
^
2
11
^
1
XKYXKYKS
Sr
YKXYKXKS
Sr
ii
x
y
xy
ii
y
xxy
56
Para entender melhor como utilizar essas equações retornemos ao
exemplo onde X = massa (g) de Tucunaré e Y = massa (mg/Kg)de Al
bioacumulados, e mostrar como se faz para interpolar aos pontos amostrais
uma reta.
1º passo
Sabendo que:
Sx = 3,4 XM = 10 g
Sy = 21,6 YM = 42 mg/Kg
rxy = 0,99
Calcule K1 e substitua os valores de K1, XM, YM na equação normal de
regressão dos X sobre os Y para encontra a equação de X – chapéu.
2º passo
Calcule K2 e substitua os valores de K2, XM, YM na equação normal de
regressão dos Y sobre os X para encontra a equação de Y – chapéu.
28,316,0
)]42)(16,0(10[16,0
16,06,21
4,399,0
^
^
1
ii
ii
y
xxy
YX
YX
S
SrK
9,2029,6
)]10)(29,6(42[29,6
29,64,3
6,2199,0
^
^
2
ii
ii
x
y
xy
XY
XY
S
SrK
57
3º passo
Vamos supor agora que tivéssemos perdido a notação do valor de X2
(recorra tabela no início desta unidade). Como recuperá-lo a partir de seu
parceiro Y2 = 30?
Resposta: Basta substitui o valor 30 (Y2) em Yi na fórmula de X –
chapéu que encontramos no 1º passo. Se você realizar os cálculos encontrará
um valor de X – chapéu aproximadamente igual a 8,08. Observe que o valor
não é 10. Isso acontece porque X – chapéu produz apenas uma estimativa
razoável que leva em conta o conjunto de dados da tabela.
4º passo
Sabemos que por 2 pontos passa uma e uma só reta. Então, se
quisermos saber qual a reta de X que apresenta o melhor ajuste a todos os
pontos, basta calcular dois valores extremos, por exemplo: X – chapéu para Y1
= 10 e X – chapéu para Y5 = 75.
Fazendo os cálculos temos que X – chapéu = 4,88 e Y – chapéu = 15,28. Tais
valores nos levam ao seguinte diagrama:
5º passo
O mesmo raciocínio vale para a equação de Y – chapéu.
OBSERVAÇÃO: As figuras ilustradas na unidade 7 foram adaptadas de: COSTA, S. F. Introdução Ilustrada á
Estatística. 3º Ed. São Paulo: Ed. HARBRA LTDA, 1998. p.
58
Módulo I – Unidade 9: Análise Hierárquica de Agrupamentos
A análise hierárquica de agrupamentos tem por objetivo agrupar dados
em „clusters‟ com atributos semelhantes. Os resultados aparecem em formas
de dendogramas onde podem visualizar as correlações as amostras ou
variáveis. O importante aqui é a distância entre as amostras: amostras
próximas (distâncias pequenas) são aproximadamente semelhantes.
Para a Química este tipo de análise auxilia na interpretação dados
experimentais ou teóricos. Por exemplo, se temos um grupo de dados que
correspondem às concentrações de Ferro (Fe), coletados do solo de diferentes
bairros de Belém. A análise hierárquica de agrupamentos é recurso que
poderia dizer o quanto estes bairros estão próximos ou distantes em relação a
quantidade de Ferro presente nos solos de cada uma ou se é possível
distinguir uma localidade da outra analisando a concentração de Fe em seus
respectivos solos.
No decorrer desta unidade serão descritos alguns exemplos para melhor
ilustração
FUNDAMENTOS MATEMÁTICOS – MEDIDAS DE DISTÂNCIA
Nesta fase da análise, as distâncias entre as amostras e variáveis são
calculadas e comparadas.
dab distância entre a e b.
Tais distâncias podem ser calculadas pela fórmula:
59
AGRUPAMENTO
Distância entre o cluster A – B que acaba de ser formado e outro C já
formado.
1. CONEXÃO SIMPLES:
2. CONEXÃO COMPLETA
3. CONEXÃO POR MEIO DE MEDIANA
Depois de se obter o valor das distâncias faz-se o cálculo da
similaridade pela seguinte equação:
Exemplo 1
Em 2007, um grupo de químicos da UFPA resolveu analisar as
concentrações, em ppb (partes por bilhão), de 4 elementos (Cl, Ca, Mg e Na)
presentes em águas salobras de dois diferentes bairros da cidade. Para cada
bairro, coletou-se 4 amostras de água em diferentes pontos. Considere a tabela
abaixo e verifique, através da análise de agrupamento, se é possível distinguir
as localidades com base nos valores de concentrações dos elementos.
60
N° amostra
Amostras Cl Ca Mg Na
Bairro Terra firme
1 TF 01 2067,1 315,9 73,7 1857,7
2 TF 02 2074,9 311,7 73,9 1754,7
Bairro Nazaré
3 NZ 01 2134,7 292,7 70,3 1504,7
4 NZ 02 2163,8 295,6 70,1 1499,9
1º passo
Calcule as distâncias da seguinte forma:
d12 = (2074,9 - 2067,1)2 + (311,7 – 315,9)2 + (73,9 – 73,7)2 + (1754,7 + 1857,7)2 =
103,38
d13 = (2134,7 – 2067.1)2 + (292,7 – 315,9)2 + (70,3 – 73,7)2 + (1504,7 + 1857,7)2 =
360,18
d14 = (2163,8 – 2067.1)2 + (295,6 – 315,9)2 + (70,1 – 73,7)2 + (1499,9+ 1857,7)2 =
371,21
d23 = (2134,7 – 2074,9)2 + (292,7 – 311,7)2 + (70,3 – 73,9)2 + (1504,7 + 1754,7)2 =
257,78
d24 = (2163,8 – 2074,9)2 + (295,6 – 311,7)2 + (70,1 – 73,9)2 + (1499,9 + 1754,7)2 =
270,37
d34 = (2163,8 – 2134,7)2 + (295,6 – 292,7)2 + (70,1 – 70,3)2 + (1499,9 + 1504,7)2 =
29,64
Se você realizar os cálculos verá que os valores de d11, d22, d33, d44 são
iguais à zero.
2º passo
Organize os resultados das distâncias encontradas em forma de uma matriz
de forma que d12 estará na primeira linha e segunda coluna, d24 estará na segunda
linha e quarta coluna, d44 (igual a zero) estará na quanta linha e quarta coluna e
assim sucessivamente. Então temos:
61
1 2 3 4
1 0 103,38 360,18 371,21
2 0 257,78 270,37
3 0 29,64
4 0
3º passo
Com um grupo já formado (grupo 3,4 = 29,64) que é a menor distância
da matriz, através de cálculos verifica-se a existência de outros grupos que
poderão ainda ser encontrados ou ainda se a pontos similares ao 1º já
formado.
Cálculo da distância entre o grupo formado (3,4) e os demais (1 e 2).
Para elaboração do dendrograma utilizaremos à conexão simples.
Então:
d1 3,4 = 0,5.d13 + 0,5.d14 – 0,5│ d13 - d14│
d1 3,4 = 0,5.360,18 + 0,5.371,21 - 0,5│ 360,18 – 371,21│= 360,18
d2 3,4 = 0,5.d23 + 0,5.d24 – 0,5│ d23 – d24│
d2 3,4 = 0,5.257,78 + 0,5.270,37 – 0,5│ 257,78 – 270,37│= 257,78
Agora com os novos valores de distâncias, vamos construir uma
segunda matriz distância:
1 2 3,4
1 0 103,38 360,18
2 0 257,78
3,4 0
4º passo:
Com outro grupo já formado (1 e 2), busca-se encontrar pontos similares
ou distintos.
62
Calcula-se a distância entre os grupos formados e os que ainda poderão
ser encontrados. E com isso efetua-se o cálculo da distância, usando agora os
pontos (3 e 4 com 1 e 2 já formados). Pela fórmula de conexão simples temos:
d1,2 3,4 = 0,5.d1 3,4 + 0,5.d2 3,4 – 0,5│ d1 3,4 – d2 3,4│
d1,2 3,4 = 0,5.360,18 + 0,5.257,78 – 0,5│360,18 – 257,78│= 257,78
As distâncias d1,2 1,2; d3,4 3,4 são iguais a zero. Desta forma temos a
matriz:
1,2 3,4
1,2 0 257,78
3,4 0
5º passo:
Realizado os cálculos das distâncias para formação de grupos e a
similaridade entre esses grupos formados é possível um gráfico para melhor
visualizar as informações. Fazendo uso do programa MINITAB, utilizaram-se
gráficos em Dendrograma.
Para construção do dendograma é necessário o cálculo da
similaridade.
S1,2 = 60%
S3,4 = 88%
S(1,2),(3,4) = 0%
Utilizando o valor da distância máxima padronizada temos que:
dmáx = d(1,2),(3,4) = 257.78
A dmáx não padronizada seria igual a 360,18.
63
6º passo
Análise do dendograma obtido com os dados de distância.
Dendrograma 1 - distância
Dendrograma 2 obtido com os dados de similaridade.
Terra Firme
Nazaré
Nazaré
Terra Firme
64
Conclusões: É possível distinguir os bairros Terra Firme e Nazaré com base
nas concentrações de Cl, Ca, Mg e Na. As duas localidades estão
notavelmente separadas dendogramas. As amostras 1 e 2 formam um grupo e
as amostras 3 e 4 também se agrupam, e, posteriormente esses dois grupos
são agrupados.
65
EXERCÍCIOS DE APLICAÇÃO
Lista de Exercícios de Estatística Descritiva
1- Calcular o coeficiente de variação de cada variável, verificar a presença
de outlines e fazer a comparação entre a umidade e as cinzas das folhas
de jambú.
UMIDADE % CINZAS %
88,68 2,16
88,57 1,74
88,70 1,76
87,18 1,91
88,49 1,50
89,14 2,13
2- Na tabela abaixo são apresentados valores de peso fresco dos calos por
explante obtidos em cultura de tecidos in vitro de diferentes cultos de
trigo. Utilize os conhecimentos estatísticos e responda:
a) Qual a característica apresentou maior variabilidade;
b) Compare os pesos obtidos dos embriões maduros com imaturos e
verifique a presença de outlines.
Fw –Imaturos Fw-Maturos
48,4 70,0
45,0 56,7
40,4 65,6
53,6 127,7
60,0 74,4
63,5 63,0
64,2 153,4
72,7 44,2
62,6 74,9
59,8 105,4
Média do peso fresco dos calos por explante (mg)
66
3- Na tabela abaixo é apresentado os valores referentes as diferenças de
calos e regeneração de plantas entre cinco tipos de trigo de fontes de
embriões maduros e imaturos. Compare usando medidas estatísticas
(médias, mediana, desvio padrão e coeficiente de variação) os valores
apresentados dos embriões maduros e imaturos.
Embriões Imaturos Maduros
A 38,1 51,5
B 34,3 50,7
C 52,5 82,0
D 30,0 58,9
E 60,3 56,7
4- Na tabela abaixo são apresentados valores de algumas propriedades
físico-químicas (pH, acidez livre, umidade e Hidroximetilfurfural-HMF)
determinadas em méis de abelha com ferrão (Apis mellifera) e sem
ferrão (Mellipona fasciculata). Através de medidas de tendência central e
análise de Box-plot, verificar qual (is) das propriedades estudadas é
mais importante para separar abelhas com ferrão de abelha sem ferrão.
Amostras pH Acidez
livre
Umidade HMF Abelhas
1 3,57 69,95 10,63 16,7 Com ferrão
2 3,84 18,52 18,14 10,36 Com ferrão
3 3,84 19,52 16,26 10,75 Com ferrão
4 4,20 23,00 20,00 8,10 Com ferrão
5 3,54 33,47 22,80 21,93 Sem ferrão
6 4,20 15,22 22,47 19,63 Sem ferrão
7 3,85 52,56 27,37 18,27 Sem ferrão
8 3,40 15,90 28,00 0,00 Sem ferrão
SOUZA (2008)
5- Os resultados dos elementos químicos Pb, Zn e Cd, em mg/Kg ,
analisados em amostras de peixes médios e grandes, da Cichla spp.
67
(Tucunaré), capturados na represa de Tucuruí, no projeto desenvolvido
pelo laboratório de Química Analítica e Ambiental da UFPA em parceria
com a ELETRONORTE, são encontrados na tabela abaixo:
Pb Zn Cd Tamanho do peixe
0,05 20,43 1,41 Médio
0,09 20,19 1,31 Médio
0,19 21,77 0,74 Médio
0,05 23,36 0,83 Médio
0,00 15,88 0,62 Grande
0,54 17,94 0,94 Grande
0,01 13,35 0,33 Grande
0,06 22,21 0,70 Grande
Mostrar através do Boxplot, qual(is) do(s) metal(is) separa(m) melhor os
peixes médios e grandes.
6- Em um estudo realizado na Universidade Federal do Pará (UFPa) foram
analisadas 6 sementes de cupuaçu e determinou-se a dimensão das
sementes (comprimento, largura e espessura). Calcule o coeficiente de
variação das variáveis. Observar a presença de outlines e analisar as
variáveis através do Boxplot.
Sementes Comp. (cm) Larg. (cm) Espes. (cm)
1 2,9 2,2 1,1
2 2,4 1,9 1,2
3 2,7 2,2 1,1
4 2,6 2,0 0,9
5 2,1 1,8 1,1
6 2,2 1,6 1,5
68
Exercício de Regressão Linear
1- Nos laboratórios de Química da UFPA, são realizados vários experimentos
de grande importância, uma delas é a determinação da curva de calibração em
relação as concentrações de cálcio. No quadro abaixo são mostrados as
concentrações de padrões analíticos de cálcio, (em mg/l) e as absorvâncias
desses padrões, determinadas por espectrometria no UV-Visível. Ajuste um
modelo linear a estes dados, calcule os valores de R2 e t0, e diga se o modelo é
significativo. Dado tc = 0,7914
Amostra Ca (mg/l) Absorvância
A 0,6 0,043
B 0,7 0,079
C 1,00 0,133
D 1,6 0,142
E 0,78 0,081
2- Na tabela abaixo, são apresentados valores de concentrações de metais na
polpa do açaí, de cinco regiões diferentes. (Os metais são cálcio e magnésio).
Ajuste um modelo linear a estes dados, calcule os valores de R2 e t0, e diga se
o modelo é significativo. Dado tc = 1,5472
Amostra Ca (mg/ml) Magnésio (mg/ml)
A 0,048 0,13
B 0,018 0,08
C 0,11 0,09
D 0,21 0,19
E 0,13 0,21
3- Na tabela abaixo são apresentados os dados obtidos da extração do
óleo/oleoresina de quatro amostras diferentes de gengibre, onde sofreram dois
69
tipos de tratamento: métodos físicos (R1) e de secagem ao calor do fogo (R2).
Calcule:
a) O coeficiente de correlação (r).
b) A significância de r (teste t0).
c) Verificar se o modelo é ajustável (R2).
N° experimental R1 R2
Gengibre inteiro não discascado. 4,7 4,9
Gengibre inteiro descascado. 4,5 4,6
Gengibre dividido não descascado. 5,8 6,1
Gengibre dividido descascado. 2,8 2,6
4- Fazer uma análise de regressão entre a concentração real Fe (mg/Kg) e a
concentração real de Zn (mg/Kg) presente nas folhas do jambú. Saber se o
modelo é ajustável e se tem significância. tc = 3,182
Conc. Real Fe (mg/Kg)-Xi Conc. Real Zn (mg/Kg)-Yi
146,61 62,79
191,88 64,81
111,84 87,74
177,81 74,08
303,43 74,71
309,31 49,64
5- Um procedimento importante num laboratório é a construção de curvas de
quantificação, isto é, a determinação da concentração de uma determinada
espécie, através de modelos construídos através dos dados obtidos
experimentalmente. Normalmente, essa relação é determinada empregando-se
o ajuste por mínimos quadrados ou regressão linear. Considere a matriz obtida
num experimento visando à concentração de uma curva de quantificação para
determinação de taninos em resíduo de açaí. Na tabela abaixo são mostradas
as concentrações de ácido tânico (mg/mL) e as absorvâncias determinadas por
70
espectrofotometria de UV_vísivel. Ajuste um modelo linear a estes dados.
Calcule os valores de R2 e to. Sendo que o valor de tc=3,182.
Ácido tânico
(mg/mL) Absorvância
0,50 0,063
0,75 0,074
0,80 0,085
0,90 0,099
1,25 0,109
1,30 0,112
6- O fenômeno da bioacumulação em peixes é verificado quando a
concentração do metal a ser analisado cresce proporcionalmente com a massa
do peixe. Análises realizadas pelo Laboratório de Química Analítica e
Ambiental da UFPA forneceram dados da concentração de Al em peixes da
espécie Cichla spp. (Tucunaré), mostradas na tabela abaixo e a massa de
peixes grandes após a biometria. Calcule os valores de R2 e t0.
Massa (g) [Al](mg/Kg)
2500 23,69
3500 75,38
2750 19,14
2000 13,81
71
Exercício de Cluster
1) FARNHAM ET AL, (2000) obtiveram dados hidrogeoquímicos
proveniente de duas regiões no Estado norte-americano de Nevada: amostras
1,2 e 3 onde o governo federal local efetuou explosões atômicas subterrâneas;
outra adjacente, Oásis Valley/ OV: amostras 4 e 5. No total são 5 análises,
concentrações em ppb, para 7 elementos. Utilize a análise de agrupamentos
(conexão simples e completa) e diga se é possível à separação, distinção,
dessas localidades com base nos valores de concentrações dos metais.
Li Ti V Cr Mn Ni Ge
1 9,3 1,11 1,30 2,42 1,15 1,12 1,32
2 10,3 1,27 1,96 2,67 1,09 1,18 1,26
3 10,4 1,24 1,07 5,67 1,09 1,18 1,27
4 16,6 1,07 1,67 2,80 1,34 2,20 1,55
5 17,9 1,04 1,16 2,37 1,49 2,39 2,36
2) Calcule as matrizes de distâncias utilizando o método e conexão simples
e monte os dendogramas de distâncias e similaridades para as amostras.
Compare os resultados.
Amostra
s
Variedade
1
Variedade
2
Variedade
3
Variedade
4
Variedade
5
1 7 9 10 17 29
2 5 12 14 12 35
3 3 8 20 15 37
4 8 7 8 14 26
5 2 11 5 19 34
3) Os alunos de química da UFPA com o auxilio de seu professor analisaram
dois tipos de aguardente, um tipo armazenado em barris de vidro e o outro
armazenados em barris de carvalho. Foram analisados os seguintes
72
compostos, Acetaldeido e compostos Fenólicos. Com bases na tabela abaixo
compare as concentrações desses compostos através de Boxplots.
Barris de Carvalho
Concentração
Tempo (meses) Compostos Fenólicos Acetaldeido
0 5,63 7,63
6 31,01 7,97
12 35,90 8,41
18 38,18 8,86
24 44,01 8,92
Barris de Vidro
Concentração
Tempo (meses) Compostos Fenólicos Acetaldeido
0 5,63 7,63
6 3,70 8,00
12 3,09 8,13
18 3,30 8,12
24 3,45 8,14
73
Módulo I - Apêndice 1: Gráficos e Tabelas
GRÁFICOS E TABELAS
Fatos ou fenômenos da natureza podem se representados de várias
formas e diferentes linguagens. E duas dessas linguagens são os gráficos e
tabelas. As informações tabeladas podem ser facilmente representadas através
de gráficos ou vice-versa sendo que a função de ambos é expor de maneira
simples e resumida as informações de determinado fato. Uma tabela tem a
vantagem de poder apresentar todos os dados mesmo que sejam diferentes
em seus valores. Já um gráfico tem a vantagem de tornar visível não só os
dados, mas também o comportamento das grandezas ou dados envolvidos no
fato ou fenômeno a ser tratado.
Neste texto serão abordadas algumas regras simples para construção de
gráficos e tabelas.
TABELAS
Passos para Construção de Tabelas
1. Uma tabela pode ser representada na forma horizontal ou vertical,
dependendo número de grandezas ou dados a serem representados;
2. Os números devem vir preferencialmente na forma inteira, mas quando
estiverem na forma decimal pode-se usar notação científica;
3. Deve contar no espaço superior da tabela um título informando de forma
sucinta o esta representa;
4. O topo da tabela deve representar as grandezas por meio de símbolos
e entre parênteses a sua unidade;
5. Inclua totais de linhas e/ou colunas para facilitar as comparações;
6. Ordene colunas e/ou linhas quando possível. Se não houver
impedimentos, ordene-as segundo os valores, crescente ou
decrescentemente;
7. Tente trocar de orientação (linhas por colunas) para melhorar a
apresentação. É mais fácil fazer comparações ao longo das linhas do
que das colunas;
74
8. Altere a disposição e o espaçamento das linhas e colunas para facilitar a
leitura. Inclua um maior espaçamento a cada grupo de linhas e/ou
colunas em tabelas muito extensas.
9. Não analise a tabela descrevendo-a, mas sim comentando as principais
tendências sugeridas pelos dados.
Por exemplo:
Tabela 1: Concentração Ferro (g/mL) presente em amostras do Rio
Tocantins em mL.
[Fe] (g/mL) Amostras (mL) %
2 30 25,00
10 40 33,33
18 50 41,67
Total 120 100
Interpretações: Pela Tabela 1 podemos perceber que quanto maior a
amostra das águas do Rio Tocantins maior é a concentração de Ferro presente
nas mesmas.
Como fazer Tabelas Usando o Programa Word?
1. Abra o programa Word e na barra de ferramentas clic em
Tabela. Em seguida clic em Inserir e, por fim, em Tabela;
2. Determine o tamanho da tabela ou peça autoformatação e clic
em OK;
75
3. Finalmente sua tabela está pronta. Basta inserir os valores que
irão compor sua tabela;
4. Para aperfeiçoar sua tabela, pode-se formatá-la. Clic na barra
de ferramenta em Tabela e em seguida na opção Desenhar
tabela;
5. Utilize a caixa de ferramentas Tabelas e bordas para formatar
sua tabela.
76
GRÁFICOS
Os gráficos não seguem somente um comportamento linear. Eles podem ter
comportamento exponencial, logaritmo, correlaciona. Isto depende das
varáveis, grandezas e dados estudados. Serão descritos a seguir três tipos de
gráficos muito utilizados em estatística (gráficos de barra e coluna, gráficos
de linhas e gráficos de setores ou pizza).
Gráficos de barras / colunas: é usado para apresentar séries
cronológicas, geográficas e categóricas.
Um gráfico de barras ilustra comparações entre itens individuais. As
categorias são organizadas verticalmente e os valores horizontalmente para
focalizar a comparação de valores e para dar menos ênfase ao tempo.
77
É adequado quando as variáveis forem qualitativas ou quantitativas
discretas.
Vendas de Petróleo (em R$ milhares/ano)
0 50 100 150 200
Extremo Oriente
América do Sul
Europa
Interpretações do Gráfico: As vendas de petróleo por ano no Extremo Oriente
ultrapassam as vendas na Europa e a América do Sul teve uma quantidade
menor de vendas anual.
Um gráfico de colunas exibe as alterações dos dados em um período de
tempo ou ilustra comparações entre itens. As categorias são organizadas
horizontalmente e os valores verticalmente para enfatizar a variação ao longo
do tempo.
Qtd. de Cloro em % amostras de águas
0
10
20
30
40
50
60
70
1 2 3 4
Amostras
Interpretações do Gráfico: o gráfico revela que a amostra de água 2
apresenta maior quantidade de cloro dissolvido com, aproximadamente, 58%.
Gráficos de linhas: é usada para apresentar séries cronológicas.
Representa observações feitas ao longo do tempo, em intervalos iguais ou não.
Mostra a tendência dos dados no decorrer do tempo. No eixo vertical
78
descreve-se o valor observado para a variável e não a freqüência. A variável
deve ser quantitativa.
Qtd. de Cloro (%) em amostras de água do Rio
Tocantins
0
10
20
30
40
50
60
70
1 2 3 4
Local de coleta
Amostra 1
Amostra 2
Amostra 3
Interpretações do Gráfico: No primeiro ponto de coleta as amostras 2 e 3
apresentaram uma quantidade de cloro aproximadamente igual, já a amostra 1
tinha uma quantidade de Cl levemente maior. No segundo ponto de coleta a
quantidade de cloro presente na amostra 3 caiu bruscamente. No ultimo ponto
de coleta, as amostras 1 e 3 apresentam % de Cl quase iguais. E a mostra 2,
no ponto de coleta 4, tem quantidade de cloro superior as demais amostras.
Gráfico de setores (pizza): Um gráfico de pizza mostra o tamanho
proporcional de itens que compõem uma seqüência de dados à soma dos
itens. Ele sempre mostra apenas uma seqüência de dados e é útil quando você
deseja enfatizar um elemento importante.
79
Interpretações do Gráfico: As informações contidas no gráfico revelam
que formam vendidas mais unidades de sanduíches, enquanto que as sopas
apresentaram menor número de unidades vendidas.
Passos para Construção de Gráficos
1. Desenhar o plano cartesiano (X, Y) e associar aos eixos X e Y as
grandezas ou dados estudados;
2. Estabelecer um título de fácil entendimento;
3. Nomear eixos.
4. Observar o comportamento do gráfico para fazer as possíveis
interpretações.
Como Fazer Gráficos Usando o Programa Excel?
1. Abra o programa Excel e em colunas diferentes e paralelas
insira os dados referentes aos eixos X e Y. Dê nomes aos
eixos;
80
Na primeira linha estão dispostos os parâmetros físico-químicos
utilizados para avaliar a qualidade da água de três lagos distintos. E na
segunda linha, as suas unidades. A qualidade dos mesmos será determinada
por comparação a padrões pré – estabelecidos, neste caso os padrões
dispostos pelo Conselho Nacional do Meio Ambiente – CONAMA. É o órgão
consultivo e deliberativo do Sistema Nacional do Meio Ambiente-SISNAMA, foi
instituído pela Lei 6.938/81, que dispõe sobre a Política Nacional do Meio
Ambiente, regulamentada pelo Decreto 99.274/90.*
13
Unidades dos parâmetrosparâmetros
*Fonte: Site do CONAMA: http://www.mma.gov.br/port/conama/estr.cfm
81
2. Selecione todos os dados que irão compor o gráfico e na barra
de ferramentas, clic em Inserir e selecione o tipo de gráfico
desejado, neste caso para melhor comparação dos dados será
utilizado um gráficos de barras;
3. Após selecionar o gráfico desejado clic nos eixos x e y e dê
nome aos mesmos, ajuste a legenda e crie um título para seu
gráfico;
82
Para as interpretações do gráfico verifique quais parâmetros estão de
acordo com o observado pelos dados pré – estabelecidos, neste exemplo:
CONAMA. E atribua interpretações as possíveis variações existentes entre os
dados coletados e os padronizados. Lembre-se ainda que os dados
representados em um gráfico podem ter cunho comparativo, como foi
construído acima, verificar o crescimento ou decaimento de uma determinada
variável em relação a outra, sendo que esta variação pode ser linear,
exponencial, logaritmo, etc.
83
RESPOSTAS DOS EXERXÍCIOS DE APLICAÇÃO
Estatística Descritiva
1.
Umidade Cinzas
Média= 88,46 Média= 1,87
Desvio Padrão= 0,67 Desvio Padrão= 0,25
CV= 0,75 CV= 13,87
Q1(25%)=88,49 Q1(25%)=1,74
Q2(50%)= 88,63 Q2(50%)=1,84
Q3(75%)=88,70 Q3(75%)=2,13
d = Q3-Q1 = 0,21 d = Q3-Q1 = 0,39
Máx: Q3+1,5d= 89,015 Máx: Q3+1,5d=2,72
Mín: Q1- 1,5d = 88,18 Mín: Q1- 1,5d = 1,16
2.
Fw Imaturos Fw Maturos
Média= 57,02 Média= 83,53
Desvio Padrão=9,97 Desvio Padrão=34,42
CV= 17,48 CV= 41,20
Q1(25%)=48,4 Q1(25%)=63
Q2(50%)=59,90 Q2(50%)=72,2
Q3(75%)=63,5 Q3(75%)=105,4
d = Q3-Q1 = 15,1 d = Q3-Q1 =42,4
Máx: Q3+1,5d= 86,15 Máx: Q3+1,5d=169
Mín: Q1- 1,5d = 25,73 Mín: Q1- 1,5d = -0,6
3.
Imaturos Maduros
Média= 43,04 Média= 59,96
Desvio Padrão=12,83 Desvio Padrão=12,79
CV= 29,80 CV= 21,34
Q1(25%)=34,3 Q1(25%)=51,5
Q2(50%)=38,1 Q2(50%)=56,70
Q3(75%)=52,5 Q3(75%)=58,9
d = Q3-Q1 = 18,2 d = Q3-Q1 =7,4
Máximo= 79,8 Máximo=70
Mínimo = 7,1 Mínimo= 40,4
84
4.
Para abelhas com ferrão
pH Acidez livre Umidade HMF
3,57 18,52 10,63 8,10 3,84 19,52 16,26 10,36 3,84 23,00 18,14 10,75 4,20 69,95 20,00 16,47
X 3,86 32,75 16,26 11,42
Md 3,84 21,26 17,20 10,56
Para abelhas sem ferrão
pH Acidez livre Umidade HMF
3,40 15,4 22,47 0,00 3,54 15,22 22,80 18,27 3,85 3,47 27,37 19,63 4,20 52,56 28,00 21,93
X 3,75 21,66 25,16 14,96
Md 3,70 15,31 25,09 18,95
Cálculos estatísticos para construção dos Box-Plots
Para abelhas com ferrão.
Parâmetros pH Acidez Umidade HMF
Q1(25%) 3,71 19,02 13,45 9,14 Q2(50%) 3,84 21,26 17,20 10,56 Q3(75%) 4,02 46,48 19,07 13,61
d = Q3-Q1 0,31 27,46 5,62 4,38 Mín: Q1- 1,5d 3,25 -22,17 5,02 2,66 Máx:Q3+1,5d 4,49 87,67 27,50 20,18
Para abelhas sem ferrão.
Parâmetros pH Acidez Umidade HMF
Q1(25%) 3,47 9,35 22,64 9,13 Q2(50%) 3,70 15,31 25,09 18,95 Q3(75%) 4,03 33,98 27,69 20,78
d = Q3-Q1 0,56 24,63 5,05 11,65 Mín: Q1- 1,5d 2,63 -27,60 15,07 -8,35 Máx:Q3+1,5d 4,87 70,93 35,26 38,26
85
5.
Para peixes médios
Pb Zn Cd
0,05 20,19 0,54 0,05 20,43 0,83 0,09 21,77 1,31 0,19 23,36 1,41
Para peixes grandes
Pb Zn Cd
0,00 13,35 0,33 0,01 15,88 0,62 0,06 17,94 0,70 0,54 22,21 0,94
[Pb] para peixe médio Q1(25%)=0,05 Q2(50%)=0,07 Q3(75%)=0,14 d = Q3-Q1 = 0,09 Máx: Q3+1,5d= 0,28 Mín: Q1- 1,5d = -0,085
[Pb] para peixe grande Q1(25%)=0,005 Q2(50%)=0,035 Q3(75%)=0,3 d = Q3-Q1 = 0,295 Máx: Q3+1,5d=0,74 Mín: Q1- 1,5d = -0,44
[Zn] para peixe médio Q1(25%)=20,31 Q2(50%)=21,1 Q3(75%)=22,57 d = Q3-Q1 = 2,26 Máx: Q3+1,5d= 25,96 Mín: Q1- 1,5d = 16,92
[Zn] para peixe grande Q1(25%)=14,61 Q2(50%)=16,91 Q3(75%)=20,08 d = Q3-Q1 = 5,47 Máx: Q3+1,5d=28,28 Mín:Q1-1,5d=6,41
[Cd] para peixe médio Q1(25%)=0,69 Q2(50%)=1,07 Q3(75%)=1,36 d = Q3-Q1 = 0,67 Máx: Q3+1,5d= 2,37 Mín: Q1- 1,5d = -0,32
[Cd] para peixe grande Q1(25%)=0,48 Q2(50%)=0,66 Q3(75%)=0,82 d = Q3-Q1 = 0,34 Máx: Q3+1,5d=1,33 Mín: Q1- 1,5d = -0,03
86
6.
Regressão Linear
1. rxy = 0,866 ; to = 2,999648 ; CD = R2 = 74,9956%
Equação da reta : Yi = 0,08947Xi + 0,01186.
2. rxy = 0,717 ; to = 1,781564 ; CD = R2 = 51,4089%
Equação da reta : Yi = 0,5579Xi + 0,08242.
3. rxy = 1 ; to = 0 ; CD = R2 = 100%
Equação da reta : Yi = 1,171Xi - 0,6626.
4. rxy = - 0,551 ; to = - 1,32054 ; CD = R2 = 30,3601%
Equação da reta : Yi = - 0,08714Xi + 86,98.
5. rxy = 0,907 ; to = 4,307452 ; CD = R2 = 82,2649%
Equação da reta : Yi = 0,06151Xi - 0,03395.
6. rxy = 0,962; to = 4,982517 ; CD = R2 = 92,5444%
Equação da reta : Yi = 0,04139Xi – 78,24.
Comprimento Largura Espessura
Média 2,48 1,95 1,15
D. P. 0,31 0,23 0,19
CV 12,5 11,8 16,52
Mínimo 2,1 1,6 0,9
Q1 2,2 1,9 1,1
Q2 2,5 1,95 1,1
Q3 2,7 2,2 1,2
Máximo 2,9 2,2 1,5
d 0,5 0,3 0,1
87
Exercício Cluster
1.
a) Cálculo das distâncias
d 1,2= 1,24
d 1,3= 3,44
d 1,4= 7,40
d 1,5= 8,76
d 2,3= 3,13
d 2,4= 6,40
d 2,5=7,83
d 3,4=6,95
d 3,5=8,37
d 4,5=1,69
b) Cálculo da Conexão Simples
13,332,1d
40,642,1d
83,752,1d
36,8, 35,4d
Distância Máxima
40,6, 5,42,1d
Similaridade
Grupo 1,2= 80%
Grupo 4,5 = 73%
Grupo 1,2 4,5 = 0%
88
2.
a) Cálculo das distâncias
d 1,2= 4,98
d 1,3=13,60
d 1,4= 5,19
d 1,5= 9,11
d 2,3= 8,30
d 2,4= 12,44
d 2,5=11,87
d 3,4=17,08
d 3,5= 16,12
d 4,5= 12,24
b) Cálculo da Conexão Simples
60,1313,2d
08,1743,2d
10,1653,2d
11,9, 51,4d
Distância Máxima
60,13, 1,43,2d
Fórmula da similaridade:
Grupo 2,3= 39%
Grupo 4,1 =62
Grupo 2,3 4,1 = 0%
89
BIBLIOGRAFIA
1. Estatística Aplicada. São Paulo: Editora Saraiva, 2003. DOUGLAS
DOWNING & JEFFREY CLARK.
2. Estatística Aplicada. Porto Alegre: Bookman, 2000. JOHN E. FREUND &
GARY A. SIMON.
3. Introdução Ilustrada à Estatística. São Paulo: Editora Harbra, 1998.
SÉRGIO FRANCISCO COSTA.
4. ALDRIGUE, M. L. Caracterização física, química e físico-química do cajá
(Spondias lutea L.). In: SEMINÁRIO AGROPECUÁRIO DO ACRE, 2.,
1986, Rio Branco. Anais. Brasília: Embrapa-UEPAE de Rio Branco,
1988.p. 323-327.
5. BOSCO, J.; SOARES, K. T.; AGUIAR FILHO, S. P. de; BARROS, R. V.
A cultura da cajazeira. João Pessoa: Emepa, 2000. 229 p. (Documentos,
28).
6. Li, W; Cheng-Hui, ZH; Wei, L; Guang-Quin, G. Relationship between
tissue culture and agronomic traits of spring wheat. Plant Science. v.164,
1079-1085p., 2003.