8/17/2019 Livro de Estatística.pdf
1/155
Instituto Federal de Educação,Ciência e Tecnologia
de Pernambuco
2010Recife-PE
Licenciatura em MatemáticaEstatística
Karin Elisabeth Von Schamlz Peixoto
8/17/2019 Livro de Estatística.pdf
2/155
Presidência da República Federativa do Brasil
Ministério da Educação
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
Este Caderno foi elaborado em parceria entre o Instituto Federal de Educação,
Ciência e Tecnologiade Pernambuco - IFPE e a Universidade Aberta do Brasil - UAB
Equipe de Elaboração
Coordenação do CursoMaria de Fátima Neves CabralSupervisão de TutoriaSônia Quintela CarneiroLogística de Conteúdo
Clayson Pereira da SilvaGiselle Tereza Cunha de AraújoMaridiane VianaVerônica Emília Campos Freire
Coordenação InstitucionalReitoria Pró-Reitoria de Ensino Diretoria de Educação a DistânciaPró-Reitoria de ExtensãoPró-Reitoria de Pesquisa e InovaçãoPró-Reitoria de Administração e Planejamento
DiagramaçãoRafaela Pereira Pimenta de Oliveira
Edição de ImagensVerônica Emília Campos Freire
Revisão de Conteúdo
Moacyr Cunha Filho
Revisão LinguísticaIvone Lira de Araújo
8/17/2019 Livro de Estatística.pdf
3/155
8/17/2019 Livro de Estatística.pdf
4/155
8/17/2019 Livro de Estatística.pdf
5/155
Sumário
Sumário 5
Palavra do professor-autor 7
Apresentação da Disciplina 9
Aula 1 11
Aula 2 31
Aula 3 61
Aula 4 85
Aula 5 103
Aula 6 127
8/17/2019 Livro de Estatística.pdf
6/155
8/17/2019 Livro de Estatística.pdf
7/155
Palavra do professor-autor
Olá!
Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatística. Sou
graduada em Ciências Biológicas pela Universidade Federal de Pernambu-
co, mestre em Zoologia pela Universidade Federal da Paraíba e doutora em
Zoologia Numérica pela University of Oxford, na Inglaterra. Comecei a ver
a beleza da Estatística ainda na graduação e, desde 1995, ministro cursos
voltados à aplicação do método estatístico na Biologia, Arqueologia e Ciên-
cias Sociais. Fui professora da Universidade Federal Rural de Pernambuco,ensinando Genética Quantitativa, e hoje sou consultora da área, ajudando
pesquisadores, laboratórios e empresas a entender como longas listas de
números podem, na verdade, deixar suas vidas mais fáceis.
Espero passar a vocês a admiração e entusiasmo que tenho por este ramo
da Matemática.
Bom estudo!
UABEstatística 7
8/17/2019 Livro de Estatística.pdf
8/155
8/17/2019 Livro de Estatística.pdf
9/155
Apresentação da Disciplina
Caros alunos!
Vamos, a partir de agora, estudar a Estatística, que talvez seja a face mais
popular das Ciências Matemáticas, além dos cálculos básicos que fazemos
diariamente.
A Estatística nos ajuda a entender como nos comportamos, votamos e o
que escolhemos enquanto população, e nos faz compreender como esco-
lhas individuais, quando frequentes, mudam a face de uma multidão.
A Estatística nos mostra, também, o poder das massas e como as tendên-
cias, quando populares, superam os interesses individuais.
Essa é a ferramenta que nos permite entender as grandes quantidades, de
pessoas, eventos, opiniões ou características, sem que nos percamos em
uma floresta de números.
Neste curso, vamos aprender todo o necessário para que possamos coletardados, analisá-los através de métodos estatísticos e, mais importante, inter-
pretemos seus resultados com a confiança de entender como chegamos lá.
Bons estudos!
UABEstatística 9
8/17/2019 Livro de Estatística.pdf
10/155
8/17/2019 Livro de Estatística.pdf
11/155
Aula 1
Objetivos
• Entender o que é a Estatística, quais suas origens e diferentes
abordagens;
• Compreender os conceitos básicos em Estatística;
• Aprender a fazer as aplicações da Estatística no estudo de po -
pulações;
• Entender os diferentes métodos de amostragem e suas aplica-
ções.
AssuntosNesta aula, veremos como surgiu a Estatística, quais são seus objetivos e
conceitos básicos e quais são os métodos utilizados na primeira etapa de um
trabalho estatístico: a amostragem.
Introdução: Breve História da Estatística
O que é a Estatística?Estatística é um ramo da matemática aplicada que visa à descrição e suma-
rização das características de uma população.
O nome “Estatística” vem do latim Statisticum collegium, que significa“conselho de estado”, e da palavra Statista, estadista ou político.
A palavra (em alemão, Statistik ) foi usada pela primeira vez pelo filósofo
alemão Gottfried Achenwalt (1719-1772), em 1749, para descrever os mé-
todos usados pelos governos para analisar dados de censos demográficos
e conhecer a situação econômica, social e política das populações de seus
estados.
UABEstatística 11
8/17/2019 Livro de Estatística.pdf
12/155
Por isso, Achenwalt é considerado um dos “pais” da Estatística, sendo o
primeiro a ensinar a disciplina na Universidade de Göttingen, na Alemanha,
em meados do Século XVIII.
De uma forma geral, a Estatística divide-se em duas áreas básicas:
A Estatística Descritiva que lida com a coleta, organização, sumarização,
descrição e apresentação dos dados representativos de uma população. Os
resultados de uma análise de Estatística Descritiva são apresentados através
de tabelas de frequências e gráficos, como o gráfico de barras e a curva de
frequências acumuladas, que veremos mais tarde.
Já a Estatística Inferencial, também chamada Indutiva, lida com o teste
de hipóteses e a interpretação dos fatores que afetam os dados representa-
tivos de uma população.
Como surgiu a Estatística?A partir do crescimento dos grandes aglomerados humanos e da formação
de Estados, governos sentiram a necessidade de saber as características de
suas populações.
Quantos súditos há no reino? Com quantos soldados podemos contar?
Quais as principais atividades econômicas em nossas fronteiras? Qual a posi-
ção política ou a religião da maioria dos habitantes? Como devemos cobrarimpostos dessa população?
Essas perguntas são de importância crucial para a manutenção de um go-
verno e assim os regentes passaram a organizar grandes pesquisas, como os
censos demográficos, na tentativa de respondê-las.
Censos demográficos são a forma mais antiga de aplicação da matemática
na descrição de uma população. O mais antigo censo que se tem conheci-
mento foi realizado pelos babilônios em 3800 AC que era atualizado a cadaseis ou sete anos, quando representantes do rei contabilizavam a população,
o gado, os estoques de manteiga, mel, leite, lã e vegetais.
No Egito, faraós realizaram censos entre 3340 e 3050 AC. O primeiro censo,
documentado total e matematicamente mais elaborado, foi realizado pelos
militares do Império Persa no ano 500 e serviu como base para distribuição
de terras e cobrança de impostos.
Licenciatura em MatemáticaUAB 12
8/17/2019 Livro de Estatística.pdf
13/155
Governos da Grécia Antiga usavam métodos matemáticos simples para con-
tabilizar seus potenciais exércitos. No Oriente, imperadores chineses faziam
censos agrícolas e industriais, como os descritos por Confúcio no Século V
a.C. No período medieval, o mais famoso censo realizado foi o Domesday
Book (que pode ser traduzido como o “Livro do Juízo Final”), encomendado,
em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britâ-nicas, e queria saber quanta riqueza estava sobre seu comando. O relatório
resultante ficou pronto em 1086 e até hoje, é o melhor retrato da população
britânica daquela época (fig. 1).
Figura 1: Domesday Book, o “Livro do Juízo Final” do Rei Guilherme I. Fonte: ArquivoNacional do Reino Unido.
Mas os censos demográficos antigos usavam, basicamente, as quatro ope-
rações matemáticas básicas para seus fins. Usava-se a soma dos habitantes
das vilas e províncias para saber a população geral do reino; ao se subtrair
do total as mulheres, crianças e os idosos, era possível saber qual o tamanho
potencial dos exércitos. Calculava-se o quanto um reino poderia produzir,
multiplicando-se a área cultivável total pela produção de, por exemplo, tri-go ou beterraba em uma área menor; e os impostos eram calculados pela
divisão da riqueza individual em partes iguais: uma parte era mantida pelo
súdito, outra iria para o regente.
A Estatística, como se conhece hoje, baseia-se, principalmente, nos concei-
tos da Teoria das Probabilidades, que iremos ver mais adiante em nosso
curso. Com base em trabalhos anteriores que tentavam entender a nature-
UABEstatística 13
8/17/2019 Livro de Estatística.pdf
14/155
za dos jogos de dados e cartas, o matemático holandês Christian Huygens
(1629-1695) foi o primeiro a descrever as propriedades probabilísticas em
um livro de 1657. A partir daí, a Estatística moderna começou a se formar.
Muitos estudiosos citam o trabalho do demógrafo inglês John Graunt (1620-
1674) como um dos primeiros trabalhos formais de Estatística, apesar desteramo da ciência só ter se estabelecido um século mais tarde. Graunt (fig. 2)
utilizou os dados coletados pelos censos britânicos para preparar “tabelas
de vida”, em que estimava a expectativa de vida das várias faixas etárias nas
diversas regiões do país.
Figura 2: O demógrafo John Graunt, capitão do exército britânico. Fonte: Universi-dade de York, Inglaterra.
O trabalho de Gottfried Achenwall ainda era voltado ao estudo demográ-
fico, tanto que, além do nome “Estatística” relacionar a ciência aos dados
estatais, o termo foi traduzido para o inglês como “aritmética política”. Ape-
nas no século XIX, o termo passou a abranger a coleta, classificação e análise
de dados de qualquer origem.
Foi durante o século XX, no entanto, que a Estatística provou ser um instru-
mento fundamental para todas as ciências quantitativas e qualitativas.
O desenvolvimento, no início do século, de fórmulas matemáticas especiais
para lidar com questões agrícolas, de saúde pública e de controle de qua-
lidade industrial, entre outros, levou a Estatística para fora de sua área de
Licenciatura em MatemáticaUAB 14
8/17/2019 Livro de Estatística.pdf
15/155
origem e hoje ela é instrumento fundamental para as ciências sociais, am-
bientais, médicas, humanas e econômicas.
Conceitos BásicosA Estatística usa termos que estamos acostumados a usar em nosso dia-a-
dia, como “amostra”, “população” e “dados”, mas os significados desses
termos em são bem claros e, por vezes, diferentes do significado coloquial. A
Atenção!
Basicamente, a Estatística se presta a responder as perguntasdos pesquisadores em relação a um conjunto de dados que fo-
ram coletados de uma população.
As duas abordagens estatísticas, a descritiva e a inferencial, res-
pondem a perguntas bem diferentes.
Abaixo estão alguns exemplos do que cada abordagem pode
investigar.
Estatística Descritiva:
• Qual o valor mínimo e máximo?
• Qual o valor mais comum?
• Como difere um indivíduo em particular da população como
um todo?
• Quantos tipos diferentes existem?
• Quais os tipos mais frequentes?
• Qual evento é mais provável de ocorrer no futuro?
Estatística Inferencial:
• Como se relacionam duas características de uma população?
• Há diferenças entre grupos dentro da população?
• Qual a diferença entre grupos?
• Como a variação de um elemento afeta o outro?
• Quais elementos têm inuência sobre uma característica?
• Quão forte é a inuência de uma característica sobre a outra?
UABEstatística 15
8/17/2019 Livro de Estatística.pdf
16/155
seguir, veremos os termos mais comuns que usaremos em nosso curso, seus
significados e suas variações.
• População: Para a Estatística, população é uma coleção completa de
pessoas, animais, plantas ou coisas da qual nós podemos coletar dados
(fig. 3). É o grupo inteiro, ou “universo”, no qual estamos interessados eo qual desejamos descrever ou tirar conclusões sobre um aspecto em par-
ticular. De forma, ao fazer qualquer generalização sobre uma população,
devemos estudar, geralmente, uma amostra, que deve ser representati-
va da mesma, como um todo. Para cada população há muitas amostras
possíveis.
Uma amostra estatística fornece informação sobre um parâmetro corres-
pondente da população. Por exemplo, a média da amostra de um conjunto
de dados deve fornecer informação sobre a média geral da população. Éimportante que o pesquisador defina a população, cuidadosa e completa-
mente, antes de coletar a amostra, incluindo uma descrição dos membros a
ser inseridos.
Um exemplo: a população, em um estudo de saúde infantil, poderia ser to-
das as crianças nascidas no Brasil na década de 90. Uma amostra seria todas
as crianças nascidas no dia seis de junho de qualquer um dos anos.
Figura 3: Uma “população”. Fonte: www.freefoto.com
• Amostra: Uma amostra (fig. 4) é um grupo de unidades selecionado de
um grupo maior (a população). Ao se estudar uma amostra, espera-se
que ela forneça conclusões válidas sobre o grupo maior. Pois, ela é, geral-
Licenciatura em MatemáticaUAB 16
8/17/2019 Livro de Estatística.pdf
17/155
mente, selecionada, porque a população é grande demais para ser estu-
dada por inteiro. Assim, deve ser representativa da população em geral.
Isso é, geralmente, alcançado com sucesso ao se fazer uma amostragem
aleatória, ou seja, ao acaso. Contudo, é importante definir a população
antes de fazer a amostragem, ou corre-se o risco de produzir uma amos-
tra enviesada, ou seja, tendenciosa.
Por exemplo, se numa pesquisa sobre a qualidade da água que a população
de um município consome forem entrevistadas apenas as pessoas que mo-
ram em ruas pavimentadas, a amostra será enviesada, pois essas residências
tendem a ser servidas pelo sistema de abastecimento de água tratada e não
representará os indivíduos que consomem água de poço ou outras fontes.
Mais adiante, veremos os diversos métodos de amostragem.
Figura 4: Uma “amostra” da população acima. Fonte: www.freefoto.com
• Parâmetro: Um parâmetro é um valor, geralmente, desconhecido (e o
qual deve ser estimado), usado para representar certa característica de
uma população. Por exemplo, a média de uma população é um parâ-
metro que é, em geral, usado para indicar o valor médio, ou tendência
central, de uma quantidade.
Dentro de uma população, o parâmetro é um valor fixo, que não varia. Cada
amostra tirada da população tem seu próprio valor de qualquer estatística
que é usada para estimar esse parâmetro. Por exemplo, a média dos da-
dos, em uma amostra, é usada para dar informação sobre a média geral na
população da qual foi tirada. Parâmetros são, comumente, designados por
caracteres gregos (como ou µ), enquanto estatísticas são designadas por
caracteres romanos (como s ou x).
UABEstatística 17
8/17/2019 Livro de Estatística.pdf
18/155
• Estatística: com a inicial maiúscula, é o ramo da ciência que estamos es-
tudando, uma estatística é o valor que é calculado a partir de uma amos-
tra de dados. É usada para dar informação sobre valores (ou parâmetros)
desconhecidos na população correspondente.
Por exemplo, a média de um grupo de dados (estatística) fornece informaçãosobre a média geral (parâmetro) da população da qual se coletou a amostra.
É possível tirar mais de uma amostra da mesma população e o valor da esta-
tística, geralmente, vai variar de uma amostra para outra.
• Variável: Uma variável é qualquer atributo ou característica medida que
difere para diferentes indivíduos, ou objetos. Por exemplo, se o peso de
30 indivíduos foi medido, então o peso é uma variável. Variáveis podem
ser classificadas em grupos distintos de várias formas. Para entendermosmelhor a diferenciação dos tipos de variáveis, teremos primeiro que en-
tender as escalas de mensuração que podem ser usadas. Mais adiante,
veremos os tipos diferentes de variáveis.
Escalas de Mensuração ou Níveis de MedidasUma das formas de se classificar as variáveis é de acordo com o nível de
medida que utilizamos. Há quatro níveis possíveis de medidas que podemos
coletar em uma amostra, cada uma um pouco mais refinada que a anterior.
Os níveis ou escalas de medidas são a nominal, a ordinal, a intervalar e aescala de razão.
• Nominal: A mais simples medida que pode ser tomada de uma carac-
terística é da escala nominal. Uma variável nominal possui classes, ou
categorias, podemos descrever um atributo de cada indivíduo ou obje-
to. No nível nominal, todas as categorias são iguais, ou têm o mesmo
“peso”. Exemplos de variáveis medidas em escala nominal são o gênero
de um indivíduo (masculino ou feminino), a cor de um objeto (verde,
azul, amarelo, etc.) ou a espécie de uma planta de uma área (coqueiro,babaçu, etc.). Variáveis nominais fornecem frequências em vez de me-
didas propriamente ditas. Por exemplo, uma população humana pode
ter 49% de homens e 51% de mulheres; uma área pode ter 20% de
coqueiros, 40% de palmeiras, 30% de um tipo de grama e 10% de
cajueiros. Como vemos, todas as categorias têm igual importância e o
mesmo “valor” para o pesquisador.
Glossário
Se usarmos as espécies deplantas de uma área paradescrever uma população(nesse caso, de vegetais),estaremos criando umavariável nominal.
O tamanho dos sapatos,apesar de representado pornúmeros inteiros, é umavariável ordinal.
Temperatura em grausCelsius é um dos poucosexemplos de uma variávelintervalar.
Qualquer medida de pesoé uma variável em escalade razão. Um objeto podeser duas vezes mais pesadoque outro e zero quer dizerausência.
Licenciatura em MatemáticaUAB 18
8/17/2019 Livro de Estatística.pdf
19/155
• Ordinal: A escala ordinal também possui categorias, ou classes, e tam-
bém vai fornecer frequências. Mas, na escala ordinal, aparece mais uma
informação sobre as características de uma população: o valor ou “peso”
das categorias cresce gradualmente, ou seja, há uma ordem de impor-
tância das classes. Exemplos de variáveis ordinais são o nível de escolari-
dade (primário, médio, superior), o porte de um vegetal (erva, arbusto,árvore) ou a escala de Mohs para identificar a dureza de um mineral (indo
de 1(um) para minerais macios como o talco, até 10(dez) para minerais
duros como o diamante). Apesar de classes ordinais ser organizadas em
uma ordem graduada, não fornecem informação sobre o tamanho da
diferença entre as classes. Por exemplo, na variável ordinal “classe social”
(baixa, média e alta), a diferença entre a classe baixa e a média não é a
mesma entre a média e a alta.
• Intervalar: Se uma variável apresenta classes que, além de poder ser or-ganizadas de forma graduada, apresentam intervalos iguais entre si, essa
variável foi medida em uma escala intervalar. Um exemplo clássico da
escala de medida intervalar é a temperatura em graus Celsius: as classes
(o valor da temperatura) são, homogeneamente, distantes entre si; em
intervalos regulares. Outra característica das variáveis intervalares é que
o valor de “zero” não significa ausência da característica, mas é apenas
um ponto de referência arbitrário e valores negativos também podem ser
usados. Zero grau Celsius não quer dizer ausência de temperatura, mas
é um ponto de referência, indicando a temperatura de congelamentoda água. Outro exemplo de medida intervalar é o calendário Gregoriano
(que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e
datas anteriores são “negativas”, e designadas por a.C. (antes de Cristo).
Além desses exemplos, escalas intervalares são raras.
• Escala de razão: Variáveis medidas em escala de razão têm as mesmas
características da escala intervalar, com a diferença que o valor de zero
significa ausência do atributo medido. Por exemplo, na escala de tempe-
ratura Kelvin, o valor de zero, realmente, significa ausência de tempera-tura: quando a -273,15 °C, ou zero kelvin, não há nenhuma transferên-
cia de energia térmica. Todas as variáveis “de contagem”, que incluam
o valor de zero significando ausência, são em escala de razão. Exemplos
são tamanho, peso, número de vezes que um evento ocorre, quantidade
de substâncias, etc. A escala de razão é assim chamada, porque se pode
descrever a relação entre medidas através de frações: José pesa duas ve-
zes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo
Glossário
Os quatro níveis demensuração fornecem,gradualmente, maisinformação com precisãocrescente. Enquanto o nívelnominal só permite quecalculemos as frequênciasdos tipos, o nível ordinal
já fornece a ideia degradação, o intervalar dá otamanho da diferença entreclasses, e o de razão dá aideia de ausência.
UABEstatística 19
8/17/2019 Livro de Estatística.pdf
20/155
de Joana é três vezes mais longo que o de Josefa. Escalas de razão não
têm valores negativos.
Ferramentas do estatísticoAnálises estatísticas podem ser feitas manualmente ou com a ajuda de umcomputador. Na pesquisa manual, o estatístico precisa de:
– Calculadora: para facilitar o cálculo das frequências;
– Papel milimetrado: para desenhar os gráficos com mais precisão;
– Tabelas estatísticas: contêm os valores de significância de testes de
estatística inferencial.
Ao usar o computador, há dois tipos básicos de programas:
– Editores de planilhas: como o Excel; servem para organizar e ar-
mazenar os dados, criar gráficos de frequências e calcular algumas
estatísticas descritivas.
– Programas de estatística: Realizam tarefas complexas como testes
de significância, criam gráficos elaborados e já possuem as tabelas
estatísticas incluídas.
Os editores de planilhas são suficientes para a preparação de relatórios des-
critivos. Já análises inferenciais precisam de programas estatísticos. Usar ocomputador como ferramenta estatística permite a análise de uma grande
quantidade de dados sem medo de cometer pequenos erros.
Os quatro níveis de mensuração fornecem, gradualmente, mais informação
com precisão crescente. Enquanto o nível nominal só permite que calcule-
mos frequências dos tipos; o nível ordinal já fornece a ideia de gradação, o
intervalar dá o tamanho da diferença entre classes e o de razão dá a ideia
de ausência.
Tipos de VariáveisComo foi dito antes, podemos classificar as variáveis de diversas maneiras.
Se nos basearmos nos níveis de mensuração, as variáveis podem ser quali-
tativas ou quantitativas. Variáveis qualitativas são também chamadas ca-
tegóricas e são medidas em escala nominal, ou escala ordinal não numérica
(como “classe baixa”, “classe média” e “classe alta”). Variáveis quantitativas
Licenciatura em MatemáticaUAB 20
8/17/2019 Livro de Estatística.pdf
21/155
são medidas em escalas ordinal numérica, intervalar ou de razão. Por exem-
plo, se perguntarmos aos alunos do jardim de infância qual a sua cor favo-
rita, a resposta seria uma variável categórica, ou qualitativa. Se medirmos o
tempo de resposta de cada um a essa pergunta, a variável será quantitativa.
Variáveis quantitativas podem ser subdivididas em discretas, também cha-madas descontínuas e contínuas.
Variáveis discretas podem apresentar qualquer valor entre zero e infinito,
desde que seja um número inteiro. Por exemplo, se contarmos o número de
pessoas em cada cidade de um país, todos os valores serão números intei-
ros, pois não podemos ter “meio habitante”. Assim, as contagens em geral,
como censos e levantamentos, produzem variáveis discretas.
Já as variáveis contínuas podem ter qualquer valor entre dois valores previa-mente estabelecidos, mesmo números não inteiros. Por exemplo, a altura
dos soldados de um batalhão pode ser qualquer medida entre as alturas
mínima e a máxima permitidas: 1,61m; 1,87m; 1,76m; etc.
Do ponto de vista da Estatística Inferencial, podemos dividir as variáveis entre
independentes e dependentes.
Variáveis independentes são selecionadas e medidas pelo pesquisador na
amostra de uma população e não são passíveis de controle, ou seja, suasvariações são aleatórias.
Já as variáveis dependentes têm sua variação atrelada à diversificação de
uma variável independente. Se pensarmos em termos de causa e efeito, as
variáveis independentes são causa da variação de uma variável dependente.
Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o
chumbo, no peso dos peixes de um rio. Não podemos controlar a quantida-
de de chumbo absorvida por cada peixe que pesarmos, então a exposição
ao chumbo, medida pelo nível do metal em cada peixe, é uma variável in-dependente.
Já o peso dos peixes é o efeito da exposição ao chumbo, sendo então a va-
riável dependente. Variáveis independentes são chamadas, quando usamos
um programa de computador para cálculos estatísticos, de fatores e as de-
pendentes, de respostas.
UABEstatística 21
8/17/2019 Livro de Estatística.pdf
22/155
Amostragem“Amostragem” é a parte da prática da Estatística que se refere à seleção de
uma amostra, ou subconjunto, de observações individuais com as quais se
pretende estimar parâmetros de uma população de interesse.
O processo de amostragem é fundamental para a coleta de dados e contémdiversos estágios:
– Definição da população de interesse;
– Especificação da “base de sondagem”, ou conjunto de itens ou even-
tos mensuráveis;
– Especificação do método de amostragem para selecionar itens ou
eventos da base de sondagem;
– Definição do tamanho da amostra;
– Implementação do plano de amostragem; – Amostragem e coleta de dados;
– Revisão do processo de amostragem.
A razão pela qual o processo de amostragem é tão rigoroso se deve ao fato
de que um erro nesse processo pode invalidar toda a análise estatística, tor-
nando o trabalho do pesquisador inútil. Como já vimos, as amostras devem
representar a população de interesse e uma amostragem desleixada vai nos
prover uma amostra não representativa da população, cheia de vieses que
levarão a conclusões erradas.
A seguir, olharemos cada uma das etapas em maiores detalhes.
Para que se realize a prática estatística com sucesso, é necessário que a po-
pulação de interesse seja definida com cuidado. Uma população pode ser
vista como um conjunto que inclui todas as pessoas, itens ou eventos que
possuem uma característica que desejamos compreender. Como vimos, é,
geralmente, impossível coletar todos os dados de toda uma população de
interesse, então devemos almejar a coleta de uma amostra representativa damesma.
Às vezes, é fácil definir uma população. Em uma indústria, por exemplo, que
se deseje verificar a qualidade de uma remessa de material, que é a “popu-
lação” da qual será retirada a amostra. Em outras ocasiões, a população de
interesse pode ser menos tangível e não envolver um conjunto de objetos.
Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-
Licenciatura em MatemáticaUAB 22
8/17/2019 Livro de Estatística.pdf
23/155
cado durante as várias horas do dia, ou o comportamento de um animal nas
várias estações do ano, o tempo vira o foco dessa população e as amostras
deverão ser coletadas dentro de determinados períodos de tempo.
Em alguns casos, a “população” estudada é ainda mais abstrata. Um estu-
do famoso, feito pelo engenheiro britânico Joseph Jagger (1830-1892) nocassino de Monte Carlo em 1873, teve como “população” o desempenho
de seis rodas de roleta. Jagger contratou seis pessoas para anotar todos os
resultados dessas seis rodas de roleta e descobriu que, em algumas delas,
alguns números ocorriam com maior frequência que outros. Assim, ele pas-
sou a apostar nos números que ocorriam com maior frequência e se tornou
conhecido como o homem que “quebrou a banca” em Monte Carlo. Jagger
investigou a distribuição de probabilidades dos resultados das roletas em
tentativas infinitas e assim conseguiu identificar que roletas estavam enviesa-
das. O mesmo se aplica a qualquer pesquisa que envolva medições repetidasde alguma característica física, como quando os dados de jogar são testa-
dos, ou estuda-se a condutividade elétrica de materiais.
Em certos casos, é possível ter acesso a toda uma população de interesse,
como os materiais de uma fábrica, nos quais podemos retirar amostras de
cada lote. Em outros casos, não é possível ter acesso imediato a toda a popu-
lação, seja por que ela não é conhecida, ou por que não é possível identificar
todos os indivíduos. Assim, é necessário o uso de uma base de sondagem,
na qual podemos identificar todos os elementos em que podemos selecionarqualquer um para nossa amostra.
Por exemplo, em pesquisas de opinião, podemos usar listas telefônicas como
uma base de sondagem, da qual podemos selecionar, aleatoriamente, indi-
víduos para nossa pesquisa. Dependendo do tipo de estudo, podemos usar
mapas de ruas (de que selecionamos as ruas que serão visitadas), listas de
eleitores (para pesquisas eleitorais), listas de usuários do SUS (para pesqui-
sas de saúde), registros de crianças matriculadas em escolas públicas (para
pesquisas sobre educação), etc. As bases de sondagem devem ser escolhidascom cuidado para incluir toda a população de interesse, sem que haja repe-
tições, de modo que a amostra coletada a partir dessa base seja, realmente,
representativa da população a ser estudada.
Após definir a base de sondagem, o pesquisador deve escolher o método de
amostragem. Como vimos, na maioria dos casos, é importante que a amos-
tra seja aleatória. Isso garante que cada um dos elementos da população
UABEstatística 23
8/17/2019 Livro de Estatística.pdf
24/155
tenha uma probabilidade maior que zero de ser escolhida, aleatoriamente,
para uma amostra. Esse tipo de amostragem é chamado de amostragem
probabilística e permite que calculemos a probabilidade exata de cada ele-
mento da população de ser escolhido. Tal abordagem é a comumente usada
em estudos gerais, que pedem uma amostra não enviesada de uma popula-
ção, como os censos demográficos.
A amostragem probabilística permite que sejam calculados os erros que po-
deriam alterar os resultados da análise e levá-los em consideração quando
da interpretação dos mesmos.
A amostragem não probabilística é qualquer método em que alguns ele-
mentos da população não têm nenhuma chance de serem selecionados, ou
quando não se pode calcular com precisão qual a probabilidade de seleção
dos elementos. Por causa de sua natureza não aleatória, a amostragem nãoprobabilística não permite o cálculo de erros de amostragem e essa abor-
dagem deve ser especificada, quando os resultados são apresentados. Por
exemplo, se estivermos usando um mapa de ruas como base de sondagem
e formos visitar cada uma das casas das ruas escolhidas, para entrevistar a
pessoa que abrir a porta, durante o horário de trabalho, entrevistaremos
apenas as pessoas desempregadas, excluindo todos os trabalhadores que
não faltaram. Essa é uma abordagem não probabilística, pois é impossível
calcular a probabilidade de entrevistarmos um trabalhador e assim não po-
deremos calcular possíveis erros de amostragem.
Métodos de AmostragemDentro das duas abordagens de amostragem, existem vários métodos que
podem ser empregados, sozinhos ou em conjunto, dependendo de fato-
res como a natureza e qualidade da base de sondagem, disponibilidade de
informações auxiliares sobre os elementos da população, necessidade de
acurácia de mensuração, nível de detalhe da análise e custos operacionais.
A seguir, veremos brevemente os métodos mais comuns de amostragem,tanto da abordagem probabilística quanto da não probabilística
Métodos Probabilísticos: Em que todos os elementos têm uma probabili-
dade maior que zero de ser escolhidos e envolvem seleção aleatória:
• Amostragem Aleatória Simples – Todos os elementos da base de son-
dagem têm igual probabilidade de ser escolhidos para uma amostra, pois
Licenciatura em MatemáticaUAB 24
8/17/2019 Livro de Estatística.pdf
25/155
a base não é subdividida ou particionada. Além disso, qualquer par de
elementos tem a mesma chance de seleção que outro, o que minimiza
o risco de um viés na amostra. No entanto, esse método é vulnerável a
erros de amostragem, pois uma amostra pode não representar a cons-
tituição da população. Por exemplo, uma amostra de uma população
humana pode não representar a real proporção entre homens e mulheresde uma população. Tal método pode ser inadequado para populações
muito grandes.
• Amostragem Sistemática – Envolve organizar a população-alvo em al-
gum sistema de ordenação antes de selecionar os elementos, em interva-
los, através da lista ordenada.
Nesse método, o início da “lista” é aleatório, mas selecionam-se os ele-
mentos em intervalos k, definidos pela fórmula , em que:
N = tamanho da população;
n = tamanho da amostra.
É importante que o início da “lista” seja aleatório e não seja escolhido
o primeiro elemento, o que tiraria o caráter probabilístico do método.
Amostragens sistemáticas não podem ser usadas em bases de sondagem
que possuem alguma periodicidade, pois se o valor k for um múltiplo ou
fator do valor de periodicidade da lista, o método torna-se menos acura-do que a amostragem aleatória simples.
• Amostragem Estratificada – Usada quando a população possui catego-
rias distintas, dentro das quais a base de sondagem pode ser organizada,
criando “estratos” separados. Cada estrato é então amostrado como
uma população independente, no qual elementos são escolhidos alea-
toriamente.
Um exemplo seria a estratificação da população estudantil por séries,sendo as amostras coletadas, aleatoriamente, dentro de cada série. Esse
método oferece vantagens quando a base de sondagem permite que
os elementos sejam estratificados, desde que haja pouca variabilidade
dentro dos estratos e grande variabilidade entre os estratos. Na, prática,
algumas vezes, esse método pode ser mais oneroso que a amostragem
simples.
UABEstatística 25
8/17/2019 Livro de Estatística.pdf
26/155
Métodos não probabilísticos: Quando não há probabilidade de se esco-
lher alguns membros da população, ou quando outras variáveis ligadas aos
elementos afetam a probabilidade de que sejam escolhidos.
• Amostragem em cotas – A população é separada em grupos, mutua-
mente, excludentes, como na amostragem estratificada, mas a etapa se-guinte não é aleatória, pois alguns elementos são excluídos da amostra.
Exemplos comuns são as pesquisas de opinião que abordam um número
determinado de homens e mulheres (os ‘estratos’), mas em que pessoas
com aparência “simpática” são mais frequentemente entrevistadas do
que as que parecem “antipáticas”. As amostras podem se tornar envie-
sadas nesse caso e seu uso, por misturar uma abordagem aleatória com
uma não aleatória, é motivo de controvérsia.
• Amostragem Acidental – Nesse método, a amostra é colhida da parte
da população que está mais próxima, ou disponível, ao pesquisador. Tam-
bém é chamada de “amostragem de conveniência”. Muito utilizada em
pesquisas socioculturais, a amostra não é representativa da população
e não é possível estimar parâmetros populacionais gerais a partir dela.
Ainda assim, é um método útil para “pesquisas-piloto”, que verificam a
viabilidade da pesquisa antes que a coleta de dados válida seja iniciada.
• Amostragem em “Bola-de-neve” – Nesse método, entrevista-se umapessoa aleatoriamente, que se refere a um amigo que também é entre-
vistado e recomenda outro amigo, assim por diante. É comumente usada
nas pesquisas de mercado, quando se está interessado em entender a
aceitação de um produto dentro de determinados grupos sociais.
Além dos métodos probabilísticos e não probabilísticos mais comuns, vários
métodos já foram desenvolvidos para endereçar problemas encontrados em
pesquisas específicas. Casos especiais são comuns nas ciências experimen-
tais, em que os elementos são conhecidos e em pequeno número (comoratos de laboratório, por exemplo). Por exemplo, quando testando um novo
medicamento em animais de laboratório, a amostra contém todos os animais
usados, sendo assim não aleatória. Nesse caso, devem-se controlar todas as
variáveis possíveis dos elementos, para examinar possíveis efeitos cruzados
que alterariam ou confundiriam os resultados da pesquisa.
Licenciatura em MatemáticaUAB 26
8/17/2019 Livro de Estatística.pdf
27/155
Os dados da amostra, uma vez coletados, devem ser organizados em bases
de dados, que servirão para a análise estatística. A pesquisa estatística con-
ta, basicamente, de seis etapas distintas:
1) Coleta de dados: Nessa fase, define-se qual é a população de interesse
e toma-se cuidado para que o método de coleta forneça uma amostra querepresente a população.
2) Avaliação dos dados: Antes de iniciar os trabalhos estatísticos propria-
mente ditos, os dados devem ser avaliados quanto a possíveis erros de cole-
ta, falhas e lacunas.
3) Descrição dos dados: Após verificar-se que os dados são válidos, pode-
se descrever a amostra através de estatísticas descritivas.
4) Análise dos dados: Quando testando hipóteses, cálculos específicos po-
dem ser usados para análises inferenciais.
5) Apresentação dos dados: Tanto as estatísticas descritivas quanto as in-
ferenciais podem ser representadas por gráficos, que têm impacto maior na
hora de se explicar os resultados da pesquisa. A descrição de uma amostra
também deve ser feita através de tabelas.
6) Análise dos resultados: As estatísticas descritivas devem ser suficientespara descrever uma população através da amostra coletada; os resultados
podem ser interpretados dentro dos limites de qualidade dos dados. Esta-
tísticas inferenciais devem ser interpretadas com mais cuidados, mas podem
servir para ilustrar as interações complexas entre fatores presentes em uma
população.
Na próxima aula, veremos como utilizaremos, na prática, os conceitos e mé-
todos que vimos aqui, e começaremos a trabalhar, matematicamente, os
dados.
Até lá!
UABEstatística 27
8/17/2019 Livro de Estatística.pdf
28/155
ResumoA Estatística é um ramo da Matemática que surgiu da necessidade dos go-
vernos de conhecer suas populações. Hoje é uma ciência fundamental para
campos tão diversos quanto as Ciências Econômicas e Sociais, a Medicina e
a pesquisa científica, a indústria e o comércio.
Os conceitos básicos da Estatística são conhecidos coloquialmente, mas têm
significados bem específicos dentro desse ramo do conhecimento, incluindo
palavras comuns como “amostra”, “população” e “variável”.
A primeira etapa de uma pesquisa estatística envolve a coleta de uma amos-
tra que represente uma população de interesse, em que características es-
pecíficas dos indivíduos, as variáveis, servirão para se calcular os parâmetros
populacionais.
Há duas abordagens básicas de amostragem: a probabilística, onde todos
os elementos de uma população têm uma probabilidade maior que zero
de ser escolhidos para uma amostra, e a não probabilística, na qual essa
probabilidade é igual a zero para alguns elementos, ou não pode ser calcu-
lada. Há métodos probabilísticos e não probabilísticos de amostragem, que
podem ser usados isoladamente ou em conjunto, para evitar problemas com
a validade da amostra.
Cara Colega, o resumo deve conter todo teor da aula, de forma concisae objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece,
Ivone Lira (revisora linguística e textual).
Referências
LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.
LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DOBRASIL. 1978.
SPIEGEL, MURRAY R, Estatística. MAKRON. 1994.
8/17/2019 Livro de Estatística.pdf
29/155UABEstatística 29
8/17/2019 Livro de Estatística.pdf
30/155
8/17/2019 Livro de Estatística.pdf
31/155
Aula 2 - Distribuição de Frequências
Objetivos
• Aprender a descrever as frequências absolutas e relativas em
uma amostra;
• Compreender as medidas de tendência central de uma popula-
ção e como determinar essas estatísticas em uma amostra;
• Entender as medidas de dispersão de uma variável e como medir
as estatísticas em uma amostra;
• Aprender a usar as ferramentas estatísticas do Excel da Micro-
soft.
Assuntos
Nesta aula vamos entender como podemos descrever a distribuição de umaamostra, usando técnicas simples, que fornecem uma visão geral dos dados
coletados. Sendo a amostra válida e representativa de uma população, a
estatística descritiva permite que sejam estimados os parâmetros populacio-
nais. Vamos entender o que significam as estatísticas amostrais e como cal-
culá-la através de fórmulas ou usando um editor de planilhas como o Excel.
Introdução
Os métodos de amostragem, que vimos na nossa primeira aula, nos permi-tem coletar dados confiáveis que serão representativos de uma população
de interesse. Com esses dados amostrais, poderemos calcular suas estatísti-
cas e assim estimar os parâmetros da população. Mas a coleta de dados é
apenas o primeiro passo de uma pesquisa estatística e os passos seguintes
são cruciais para que um estudo tenha validade.
O principal objetivo de uma pesquisa dessa natureza é descobrir como os
dados estão distribuídos, ou seja, quais são os valores extremos, que valores
UABEstatística 31
8/17/2019 Livro de Estatística.pdf
32/155
ocorrem mais frequentemente e que intervalos de valores englobam a maior
parte da população. Para descrever uma distribuição de frequências, o pes-
quisador necessita organizar os dados de uma forma prática, tornando mais
fácil o trabalho de calcular a repetição de ocorrência dos eventos em ques-
tão. Para isso, é preciso organizar tabelas de frequências, gráficos e planilhas
de análise, de que possam ser retirados os valores necessários para o cálculodas estatísticas amostrais.
Tabelas de FrequênciasO primeiro passo de um pesquisador, que pretende descrever uma popula-
ção através de uma amostra, é descobrir a distribuição dos dados amostrais.
Pode-se descrever uma amostra através de tabelas de frequência ou de
gráficos.
Uma tabela de frequência é uma forma de organizar os dados, listando to-
dos os valores possíveis como uma coluna de números e a frequência de
ocorrência de cada valor como outra.
Assim, para se calcular a frequência absoluta de um valor ou categoria,
deve-se apenas contar quantas vezes cada um desses valores ou categorias
aparece em um grupo de dados. Na maioria dos casos, devemos incluir valo-
res que não aparecem no conjunto de dados, que irão ser assinalados com a
frequência absoluta de zero. Isso é importante para se entender a populaçãoatravés de uma amostra.
Por exemplo, se estamos estudando a frequência da cor de olhos em uma
população e ninguém tem olhos azuis, essa informação é relevante e deve
ser incluída, pois azul é uma cor de olhos possível nos humanos.
Ao criarmos uma tabela de frequências, entendemos a distribuição de fre-
quências dos valores de uma variável, ou seja, quantas vezes cada valor ou
classe aparece na amostra que estudamos.
Logo, a distribuição de frequências é importante para entendermos não ape-
nas quantas vezes cada valor ou classe de uma variável é representado, mas
fornece informação sobre a amplitude de variação dessa variável e sobre a
natureza dessa variação, como veremos mais tarde.
Licenciatura em MatemáticaUAB 32
8/17/2019 Livro de Estatística.pdf
33/155
Criando uma tabela de frequênciasVamos imaginar que um fabricante de sapatos femininos quer saber quais
os tamanhos deve fabricar para suprir a demanda em uma cidade como,
digamos, Recife. Para isso, ele coleta uma amostra do tamanho dos pés das
mulheres da cidade, perguntando a vinte mulheres qual o número de seus
sapatos e consegue os seguintes valores (tabela 1):
Tabela 1: Tamanho dos sapatos de 20 mulheres de Recife – PE.
37 35
36
37
34
38 39 37 36 35
37 36 38 33 34
36 37 37 35 36
Digamos que o fabricante tem, em sua linha de produtos, uma numeração
de sapatos femininos que vai do 32 ao 40. Para ajudarmos ao fabricante,
devemos organizar os dados que ele coletou em relação às linhas de sapatos
femininos que já tem.
Vamos, então, criar uma tabela de frequências, usando os números disponí-
veis em sua fábrica e contaremos quantas vezes esses números ocorrem na
amostra que ele coletou na cidade (tabela 2):
Tabela 2: Frequências absolutas dos números de sapatos usados por 20 mu-
lheres da cidade de Recife – PE.
Número do sapato
Frequência absoluta (f)
32 0
33 1
34 2
35 336 5
37 6
38 2
39 1
40 0
Total
20
UABEstatística 33
8/17/2019 Livro de Estatística.pdf
34/155
Podemos logo avisar ao fabricante de sapatos que, na amostra que ele cole-
tou, não há nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho
mais comum é o 37. O fabricante, então, nos pergunta qual a proporção de
cada número de sapatos que deveria fabricar, para que não tenha números
pouco procurados, encalhados em suas lojas.
Podemos responder a sua pergunta, calculando as frequências relativas
dos tamanhos de sapatos da amostra, em valores proporcionais expressos
em proporções (que vão de 0 a 1) ou porcentagens (que vão de 0 a 100).
Assim, acrescentaremos mais uma coluna na tabela que já vimos (tabela 3):
Tabela 3: Frequências absolutas e relativas dos números de sapatos de 20
mulheres de Recife – PE.
Número do sapato
Frequência absoluta (f) Frequência relativa (fr)
32
0
0
33 1 0,05
34 2 0,1
35 3 0,15
36 5 0,25
37 6 0,3
38 2 0,1
39 1 0,05
40 0 0
Total
20
1
As frequências relativas são calculadas como se calculam proporções: divide-
se a frequência absoluta da classe em questão pelo total de dados da amos-tra. Mas, se quisermos representar as frequências absolutas em porcenta-
gens, é só multiplicar a proporção por 100.
Assim, teríamos a tabela de frequências representada um pouco diferente
(tabela 4):
Licenciatura em MatemáticaUAB 34
8/17/2019 Livro de Estatística.pdf
35/155
Tabela 4: Frequências absolutas e frequências relativas proporcionais e per-
centuais dos números de sapatos de 20 mulheres de Recife – PE.
Número do sapato
Frequência absoluta (f)
Frequência relativa (%)
32
0
033 1 5
34 2 10
35 3 15
36 5 25
37 6 30
38 2 10
39 1 5
40 0 0
Total
20
100
Nosso amigo fabricante ficará feliz em saber que 30% das mulheres da
amostra calçam sapatos tamanho 37, que 25% calçam 36 e assim por dian-
te. Então, poderá ajustar a sua produção para atender a demanda do mer-
cado.
Outra forma de representar a distribuição das frequências é através das fre-
quências acumuladas ou cumulativas. Para se conseguir isso, devemos
apenas somar as frequências absolutas ou relativas de cada classe com a
seguinte. Esse tipo de representação tem diversas aplicações que veremos
nas próximas aulas, mas, de forma geral, serve para termos uma ideia de
onde a maioria dos valores se encontra. No exemplo que estamos usando,
poderíamos acrescentar uma coluna de frequências relativas acumuladas à
nossa tabela (tabela 5):
Tabela 5: Frequências absolutas, relativas proporcionais e percentuais, e fre-
quências cumulativas percentuais dos números de sapatos de 20 mulheres
de Recife – PE.
UABEstatística 35
8/17/2019 Livro de Estatística.pdf
36/155
Número do sapato
Frequênciaabsoluta (f)
Frequênciarelativa (%)
Frequência
cumulativa (F)
32 0
0
0
33 1 5 5
34 2 10 1535 3 15 30
36 5 25 55
37 6 30 85
38 2 10 95
39 1 5 100
40 0 0 100
Total
20 100
100
Para o fabricante de calçados, é relevante saber que 95% das mulheres da
cidade calçam sapatos de número 38 ou menor. Se precisar reduzir a produ-
ção, ele não terá grandes prejuízos se parar, temporariamente, de fabricar
números maiores que 38.
O tamanho do calçado, que utilizamos no exemplo, é uma variável em esca-
la ordinal. Os números dos sapatos não são representativos de uma medida,como centímetros, mas são categorias criadas em cima de medidas. Se os
fabricantes de sapatos fossem usar centímetros como base para seus produ-
tos, seria impossível cobrir toda a variação milimétrica que encontramos nas
pessoas. Assim, foram criadas medidas relativas que podem ser usadas por
pessoas com tamanhos de pés próximos, mas não, necessariamente iguais.
Por isso, às vezes, um calçado do número que usamos, normalmente, não
fica perfeito. Os tamanhos de calçados são categorias que podem ser orde-
nadas por ordem de tamanho (o 36 é menor que o 37, etc.), mas a diferença
entre os tamanhos não é exatamente igual.
Quando lidamos com variáveis medidas em escala de razão, fica muito
difícil criar tabelas de frequências. Uma forma, que temos para lidar com
isso, é classificar os dados de uma variável contínua, em escala de razão, em
intervalos que cobrirão toda a variação encontrada na amostra.
Vamos imaginar que um médico decidiu ver a frequência da altura dos sol-
dados de um batalhão do exército. Ele mediu um soldado a cada cinco que
Licenciatura em MatemáticaUAB 36
8/17/2019 Livro de Estatística.pdf
37/155
passavam em frente à porta do consultório e assim, conseguiu uma amostra
aleatória (tabela 6). No fim do dia, ele tinha a altura, em metros, de 30 sol-
dados.
Tabela 6: Altura, em metros, de 30 soldados de um batalhão do Exército
Brasileiro.
1,81 1,61 1,75
1,84
1,67
1,60 1,77 1,66 1,61 1,75
1,72 1,62 1,94 1,72 1,62
1,80 1,74 1,68 1,83 1,70
1,88 1,85 1,79 1,73 1,76
1,73 1,65 1,69 1,65 1,80
Vemos que há dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a
maioria das medidas ocorre uma só vez. Assim, se fôssemos criar uma tabela
de frequências como a que fizemos com o tamanhos dos sapatos, teríamos
um monte de medidas com a frequência absoluta de 1 e não chegaríamos
a qualquer conclusão. Desse modo, podemos criar intervalos de medidas
que cubram a variação das medidas e ainda assim nos dê uma ideia de qual
intervalo de altura é o mais frequente no batalhão. Devemos, em primeirolugar, verificar qual o valor mínimo e máximo, e assim, decidiremos quantas
classes de intervalos serão criadas.
Digamos que seria interessante fazer um intervalo de cinco centímetros: o
primeiro cobriria alturas de 1,60m até 1,649m (o médico não mediu com
essa acurácia, mas devemos deixar bem claro, quais são os limites de nossos
intervalos); o segundo, de 1,65m até 1,699m; o terceiro iria de 1,70m até
1,749m, e assim por diante. Nossa tabela de frequências ficaria assim (tabela
7):
Tabela 7: Frequências absoluta, relativas e cumulativa da altura de 30 solda-
dos do Exército Brasileiro, em intervalos de 5 cm.
UABEstatística 37
8/17/2019 Livro de Estatística.pdf
38/155
Altura (m)
Frequênciaabsoluta
Frequência
relativaFrequênciarelativa (%)
Frequência
cumulativa (%)1,60 – 1,649
5
0,17
17
17
1,65 – 1,699 6 0,2 20 37
1,70 – 1,749 6 0,2 20 571,75 – 1,799 5 0,17 17 74
1,80 – 1,849 5 0,17 17 91
1,85 – 1,899 2 0,06 6 97
1,90 – 1,949 1 0,03 3 100
Total
30 1
100
100
Veremos na próxima aula como podemos montar gráficos, usando as tabelas
de frequência e como essas informações podem nos ajudar a entender uma
população que estamos estudando.
Como apresentar uma tabela de frequênciasHá regras bem estabelecidas sobre como uma tabela de frequências deve ser
apresentada em um trabalho acadêmico ou relatório profissional.
Uma tabela deve ser apresentada com um título explicativo do seu conte-údo e deve ser, devidamente, numerada dentro do trabalho. Também no
título, entram as notas que elucidam detalhes de abreviaturas ou métodos
utilizados.
No cabeçalho, vão as informações sobre os dados contidos nas colunas,
verticais. A primeira coluna é denominada coluna indicadora e contém in-
formação sobre os dados contidos nas linhas, horizontais. O corpo da colu-
na é formado pelas células, que são a intercessão entre as linhas e colunas.
No rodapé, deve-se indicar a fonte da informação, quando necessário.
O formato usado deve ser o de duas barras, separando o cabeçalho e uma
linha contendo a tabela na parte inferior. Se usarmos uma linha final para
indicar totais, deve ser destacada e separada por duas barras, como o ca-
beçalho. No editor de texto Word, da Microsoft, deve-se usar o formato
“Tabela clássica”. Verifiquem a tabela 7, acima, para ver como o formato
final deve ser.
Licenciatura em MatemáticaUAB 38
8/17/2019 Livro de Estatística.pdf
39/155
Tal formato deve ser usado em toda a extensão de um relatório ou trabalho
acadêmico, tendo-se o cuidado com a numeração das tabelas apresentadas.
Esse é o primeiro passo para um bom trabalho descritivo de Estatística apli-
cada a qualquer área do conhecimento.
Medidas de Tendência CentralComo vimos, podemos descrever uma amostra representativa de uma po-
pulação através das frequências das classes, ou valores, de uma variável,
criando uma distribuição de frequências. Para entendermos a distribuição
dos dados de uma variável, precisamos resumir a variável em medidas que
representem seus valores centrais e sua amplitude.
Assim, temos as medidas de tendência central, que representam os valo-
res centrais de uma distribuição e as medidas de dispersão, que represen-tam sua amplitude, as quais estudaremos mais tarde.
As medidas de tendência central são medidas da localização do “meio” ou
“centro” de uma distribuição. A definição de “meio” ou “centro” é deixada
um tanto quanto vaga de propósito, de modo que o termo “tendência cen-
tral” pode se referir a uma larga variedade de medidas.
A média aritmética é a medida de tendência central mais comum e a que
estamos mais acostumados a usar: das nossas notas em uma disciplina aténotícias nos jornais, fala-se sempre nessa medida. As outras duas medidas
de tendência central são a mediana e a moda.
Média aritméticaA média aritmética é, simplesmente, a soma de todos os números dividida
pela quantidade dos mesmos. O símbolo µ (a letra grega mu) é usado para
representar a média de uma população, que é um parâmetro. Os símbolos
(pronunciado “xis barra”) ou M representam a média de uma amostra, que
é uma estatística.
A fórmula para a média aritmética é a mesma para uma amostra ou popu-
lação, é muito simples. Abaixo, podemos ver a fórmula da média aritmética
de uma amostra ( ):
UABEstatística 39
8/17/2019 Livro de Estatística.pdf
40/155
Em que x é a soma de todos os números, ou valores, em uma amostra e n é
a quantidade de números, ou valores, nessa amostra.
Por exemplo, a média dos números 1, 2, 3, 6 e 8 é igual a 4, pois a soma dos
cinco números é 20, então 20/5 = 4.
Podemos coletar dados sobre o número de chutes a gol de cada um dos 31
times de um campeonato de futebol (tabela 8); os dados estão no quadro
abaixo, organizados do maior para o menor valor:
Tabela 8: Número de chutes a gol de 31 times de futebol durante um cam-
peonato.
37 33
33
32
29
28
28
2322 22 22 21 21 21 20 20
19 19 18 18 18 18 16 15
14 14 14 12 12 9 6
Com esses valores, podemos calcular a média de chutes a gol dos times nes-
se campeonato, usando a fórmula acima:
Mas devemos prestar atenção quando o uso da média aritmética é válido
e o quanto ela representa a realidade. Sabemos que o número de chutes
a gol é uma variável descontínua, ou seja, não existem números decimais,
apenas inteiros. Não é possível que exista meio chute a gol. Devemos, então,
lembrar que o valor 20,4516 é uma aproximação da realidade, já que esse
valor não é inteiro.
A média aritmética, obviamente, não pode ser usada em variáveis categóri-cas, pois não podemos somar, por exemplo, azul, vermelho e verde.
Para valores contínuos, que possuem números não inteiros (como altura ou
peso), a média aritmética é muito mais acurada, representando um valor
possível de ocorrer. Em muitos casos, a melhor medida de tendência central
para uma variável discreta, como a acima, não é a média, mas uma das ou-
tras medidas que veremos a seguir.
Licenciatura em MatemáticaUAB 40
8/17/2019 Livro de Estatística.pdf
41/155
MedianaA mediana também é uma medida de tendência central, frequentemente,
usada. É o ponto central de uma distribuição: se ordenarmos os dados, há a
mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos,
novamente, os dados dos chutes a gol dos times em um campeonato, no
quadro acima, sabemos que há 31 valores. O 16º valor mais alto, que corres-ponde a 20, é a mediana, pois há 15 valores maiores e 15 valores menores
que ele. Assim, a mesma divide a amostra em duas partes iguais.
A mediana independe da amplitude da amostra. Por exemplo, se temos os
valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana será 76, pois há três
valores menores e três maiores que esse número. Ainda, na série 1, 16, 53,
76, 82, 90 e 92, ela será 76, pois também há três valores maiores e menores
que ele.
No primeiro exemplo, a amplitude dos dados é maior, indo de 1 a 1098.
No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra
consiste de sete números, com o valor de 76 caindo, exatamente, no meio
da distribuição.
A mediana, no entanto, é dependente do tamanho da amostra, pois divide
a distribuição em duas partes iguais. Quanto maior a amostra, mais alta a
posição da mesma.
Para calcularmos a mediana, devemos organizar os dados por ordem de
tamanho. Se tivermos uma amostra com um número ímpar de dados, ela
será aquele, exatamente, do meio. E a sua posição pode ser calculada pela
fórmula:
Em que Me é a mediana e n o número de dados em uma variável.
Por exemplo, na distribuição 11, 12, 13, 16, 17, 20 e 25, a mediana é igual
a 16, pois é o valor que está, exatamente, no meio da distribuição:
4a posição.
Mas atenção: essa fórmula serve para localizar a posição da mediana e não,
o seu valor que se encontrará na posição indicada pela fórmula, quando os
dados forem organizados em ordem crescente.
UABEstatística 41
8/17/2019 Livro de Estatística.pdf
42/155
Se o número de dados da amostra é par, a mediana é o ponto da distribui-
ção que é antecedido e precedido por igual número de dados, mesmo que
seu valor específico não figure entre os dados, pois em um número par de
dados, há dois valores centrais. Por exemplo, na distribuição 11, 12, 13, 16,
17, 20, 25 e 26, podemos usar a fórmula acima:
Isso significa que a mediana se encontra entre o quarto e o quinto valor da
série, que na quarta posição é 16 e na quinta, 17. E para achá-la , tiramos a
média aritmética desses dois valores:
Assim, a mediana da série é 16,5, apesar desse valor não existir na série emquestão.
O fato de a mediana ser uma posição a torna inadequada para certas bases
de dados. Por exemplos, para a série 1, 2, 3, 100, 200, 300, a mediana seria
3+100/2 = 51,5, o que a deixa muito mais perto dos valores menores da
série e bem distante dos maiores.
Já a média aritmética seria 606/6 = 101 e dá uma ideia mais adequada desse
grupo de dados. A mediana é ideal, no entanto, para descrever a tendênciacentral de um grupo de dados proporcionais ou em porcentagem, já que
esses ficarão entre 0 e 1 ou 0 e 100.
ModaA terceira é última medida de tendência central é a moda, que consiste sim-
plesmente no valor que ocorre mais frequentemente.
Assim, no nosso exemplo, lá em cima, dos chutes a gol dos 31 times em um
campeonato d futebol, a moda é 18, pois, pois quatro dos 31 times fizeram18 chutes a gol. Para dados contínuos, que possuem valores decimais, é mui-
to difícil que se encontrem vários valores iguais, e geralmente acabamos com
vários valores da frequência de ocorrência 1, ou seja, cada valor só ocorre
uma vez. Nesses casos, o que se pode fazer é agrupar os dados em intervalos
e criar uma distribuição de frequências agrupadas.
Vejamos um exemplo: um pesquisador mediu o tempo de resolução de 20
alunos para um quebra-cabeça. Os valores, medidos em segundo, variaram
Licenciatura em MatemáticaUAB 42
8/17/2019 Livro de Estatística.pdf
43/155
entre 500 e 1100, e nenhum aluno resolveu o quebra-cabeça, exatamen-
te, no mesmo tempo. Assim, podemos criar uma distribuição de frequência
agrupada (tabela 9).
Tabela 9: Frequência absoluta dos intervalos de tempo de resolução de um
quebra-cabeça, em segundos, por 20 alunos de uma escola.
Amplitude de tempo (segundos) Frequência absoluta
500 – 599 3
600 – 699 6
700 – 799 5
800 – 899 5
900 – 999 01000 – 1100 1
Nessa amostra, a amplitude de tempo que contém o maior número de regis-
tros é a de 600 a 699 segundos, com seis estudantes resolvendo o problema
nesse intervalo de tempo. A moda estará no meio do intervalo e correspon-
derá a 650 segundos.
A moda é a única medida de tendência central que pode ser utilizada emdados categóricos, nominais ou ordinais não numéricos. Moda quer dizer
apenas o que é mais comum, e assim, o termo estatístico tem um significado
bem diferente do sentido coloquial da palavra.
Enquanto no nosso dia-a-dia, os estilistas criam peças exclusivas que poucas
pessoas vão usar e chamam isso de “moda”, já a moda estatística é o que a
maioria das pessoas está vestindo. Assim, calças jeans e camiseta formam a
moda estatística na maioria dos países ocidentais.
Medidas de dispersãoVimos como podemos verificar quais os valores mais comuns em uma variá-
vel, usando as medidas de tendência central. Mas sem sabermos algo sobre
como os dados estão dispersos, as medidas de tendência central podem dar
uma impressão errada da variável.
UABEstatística 43
8/17/2019 Livro de Estatística.pdf
44/155
Por exemplo, uma rua residencial há 20 casas com um valor médio de R$
200.000,00, mas com pouca variação entre os preços, seria muito diferente
de uma rua cujas 20 casas têm o mesmo valor médio, mas que três casas
valem R$1.000.000,00 e as outras 17 custam cerca de R$ 60.000,00.
As medidas de dispersão dão uma visão mais completa e nos fazem enten-der melhor o tamanho da variação dos dados. Elas incluem a amplitude, o
desvio médio, a variância e o desvio padrão.
AmplitudeA mais simples medida de dispersão é a amplitude que é calculada, sim-
plesmente, tomando-se a diferença entre os valores máximo e mínimo do
conjunto de dados.
No entanto, a amplitude só fornece informação sobre os valores extremos enão diz nada sobre os valores entre eles, ou seja, se a variação é homogênea
ou se os valores estão mais agrupados próximos aos extremos. Ela é usada
apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados
se encontra.
Desvio médioPara se ter uma melhor compreensão da distribuição dos dados em uma
amostra, os valores residuais são utilizados para calcular o quanto cada
ponto de dados está afastado dos valores esperados em uma distribuição.Esses resíduos podem ser calculados com base nas diferenças entre cada
ponto de dados e a média, ou através de valores estimados através de, por
exemplo, um cálculo de regressão, que veremos mais tarde.
Um método para calcular o desvio, ou resíduo, em uma amostra é o desvio
médio, que calcula a diferença média entre cada ponto de dados (cada va-
lor da variável) e a média dos pontos de dados, e a divide pelo número de
dados.
Ao se fazer esse cálculo, no entanto, o resultado será um desvio igual a zero,
pois os valores acima da média irão cancelar aqueles abaixo. Se esse método
for usado, o valor absoluto da diferença deve ser medido, de modo, que
apenas valores positivos são obtidos e o resultado é chamado de “desvio
médio absoluto”:
ou
Licenciatura em MatemáticaUAB 44
8/17/2019 Livro de Estatística.pdf
45/155
Em que:
= desvio médio absoluto;
= cada ponto de dados;
= média da amostra;
n = total de pontos de dados na amostra.
O desvio médio não é difícil de calcular e tem certo apelo intuitivo.
No entanto, quando é utilizado para análises estatísticas subsequentes, os
cálculos matemáticos se tornam muito complexos, pois a maior parte dos
teoremas estatísticos se baseia na minimização da soma dos resíduos aoquadrado, em vez da soma dos resíduos absolutos. Por causa dessa com-
plexidade, o desvio médio não é, comumente, usado como uma medida de
dispersão.
VariânciaUma maneira de resolver o problema que o desvio médio apresenta é usar a
variância como medida de dispersão.
A variância de uma variável é uma medida de dispersão estatística que tira amédia da distância ao quadrado entre todos os valores possíveis e a média
aritmética da variável. Desse modo, todos os valores são positivos e a unida-
de da variância é o quadrado da unidade da variável.
Para usarmos a medida de dispersão mais comum, o desvio padrão, que
veremos a seguir, precisamos primeiro calcular a variância.
A variância de uma população é um parâmetro representado por 2; a vari-
ância de uma amostra é representada por s2.
Geralmente, trabalhamos com amostras que representam uma população;
por isso, devemos usar a fórmula da variância amostral:
UABEstatística 45
8/17/2019 Livro de Estatística.pdf
46/155
Lemos a fórmula como o somatório da diferença entre cada valor e a média,
ao quadrado, dividida pelo número de valores, menos um.
O cálculo da variância resolve um problema que o desvio médio apresenta,
que é o de criar valores residuais muito diversos. A aplicação da potência
quadrática funciona como se utiliza um logaritmo, homogeneizando as dife-renças quando forem calculadas outras estatísticas, como o desvio padrão,
que veremos a seguir. Por esse motivo, a medida de dispersão é usada como
base na maioria dos cálculos estatísticos, inclusive em análises avançadas.
Vamos aplicar essa fórmula a um exemplo. Queremos entender quantos
quilos de detritos são produzidos em média pela indústria de tecelagem. Co-
letamos informação de dez tecelagens e conseguimos a seguinte amostra,
em toneladas de detritos por ano (tabela 10).
Tabela 10: Toneladas de detritos produzidos, por ano, em dez tecelagens.
60 74
58
61
56
55 54 57 65 42
Vamos, então, produzir uma tabela para calcular a variância.
O primeiro passo é calcular a média. A soma dos valores de nossa amostra é
582. A média será 582/10 + 58,2. A partir desse resultado, podemos calcular
a diferença entre cada valor e a média. Por exemplo, se subtrairmos a média
do primeiro número, 60, teremos 1,8.
As fábricas, que produziram menos que 58,2 toneladas de detritos por ano,
terão desvios da média com valores negativos; esse é o problema que vimos
sobre o uso do desvio médio como uma medida de dispersão: se somarmos
todos os valores da coluna preenchida, a soma será zero.
Mas sabemos que, se multiplicarmos um valor negativo por ele mesmo, ou
seja, se o fazemos ao quadrado, esse valor se tornará positivo. Por exemplo,
(-0,02) x (-0,02) = 0,04. Vamos então preencher a última coluna e fazer a
soma dos desvios ao quadrado que precisamos para calcular a variância (ta-
bela 11).
Licenciatura em MatemáticaUAB 46
8/17/2019 Livro de Estatística.pdf
47/155
Tabela 11: Desvio da média e desvio da média ao quadrado da produção de
detritos em dez tecelagens.
Detritos
(Toneladas/ano)Desvio da média
(Xi - )
Desvio da média aoquadrado (Xi - )2
60 1,8 3,24
74 15,8 249,64
58 -0,2 0,04
61 2,8 7,84
56 -2,20 4,84
55 -3,20 10,24
54 -4,20 17,64
57 -1,20 1,4465 6,8 46,24
42 -16,20 262,44
Média: 58,2 Soma: 603,60
Agora que temos a soma de todos os desvios da média ao quadrado e sabe-
mos que (n-1) = 10-1 = 9, podemos substituir os termos da fórmula:
Nesse caso, como vimos, a unidade da variância é uma quantidade ao qua-
drado. Dizemos, então, que a variância na quantidade de detritos produzida
pelas indústrias da tecelagem é de 67,07 toneladas por ano ao quadrado.
Quando calculamos a variância de uma população, usamos a mesma fórmu-
la. A diferença é que usaremos a média da população (µ), que é um parâme-
tro, em vez da média amostral ( ), que é uma estatística.
Desvio PadrãoA variância dá a ideia da amplitude da distribuição, mas como seu resultado
é um valor ao quadrado, precisamos saber qual o desvio da média em geral,
usando uma unidade igual à unidade da variável.
UABEstatística 47
8/17/2019 Livro de Estatística.pdf
48/155
No nosso exemplo, precisamos saber qual o desvio geral da média em tone-
ladas de detritos por ano. Assim, devemos usar o desvio padrão, cujo resul-
tado é dado na mesma unidade da variável.
O desvio padrão é, simplesmente, a raiz quadrada da variância, sendo repre-
sentado por , quando representando um parâmetro populacional, ou pors, quando representando uma estatística amostral. Novamente, usaremos a
estatística amostral como exemplo em nossa fórmula:
A raiz quadrada anula a potência de dois, então temos o desvio padrão.
Seguindo o exemplo que usamos até agora, teremos:
Podemos então dizer que, usando nossa amostra de indústrias de tecela-
gem, a quantidade média de resíduos é de 58,2 toneladas por ano e o des-
vio padrão é de 8,19 toneladas por ano. Para resumir, nós apresentamos os
resultados da seguinte forma: a quantidade média de resíduos da indústria
de tecelagem é de 58,2 ± 8,19 toneladas por ano.
Quando apresentamos os resultados dessa forma, damos duas ideias bási-
cas: uma é a da tendência central da variável, dada nesse caso pela média. Aoutra é a ideia de dispersão, fornecida pelo desvio padrão.
Com estas duas medidas, estamos descrevendo a maioria dos dados que
analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padrão da
média, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o
resultado é de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados
estão entre 50,01 e 66,39:
42 – 54 – 55 – 56 – 57 – 58 – 60 – 61 – 65 – 74
Nesse caso, subtraindo ou adicionando o desvio padrão, a média é suficiente
para cobrir 80% dos dados. Por isso, o formato ± s ou µ ± serve bem
para descrever os dados de uma amostra ou população.
Licenciatura em MatemáticaUAB 48
8/17/2019 Livro de Estatística.pdf
49/155
Estatística no ExcelOs programas de computador podem economizar muito tempo de uma pes-
quisa estatística e os editores de planilhas são ideais para a organização das
bases de dados.
Alguns desses editores servem apenas como base para que sejam listados osdados, para depois serem transferidos a programas estatísticos, que realizam
os cálculos. Outros editores possuem funções que permitem o cálculo de
estatísticas básicas, como as medidas de tendência central e de dispersão. O
mais popular dos editores de planilhas é o Excel da Microsoft, que apresenta
várias funções estatísticas.
É muito provável que a maioria de vocês já esteja familiarizada com esse pro-
grama, que em muito facilita a vida de quem trabalha com números. Criado,
inicialmente, para a área financeira, os editores de planilhas como o Excelsão hoje utilizados em todas as áreas do conhecimento que apresentem
dados quantificáveis.
A seguir, veremos como criar uma pequena base de dados no Excel e como
calcular as principais estatísticas de uma amostra.
O primeiro passo é criar um novo arquivo. A primeira linha será sua linha de
título, conterá o nome e a unidade de medida das variáveis. (figura 1).
Figura 1: Aparência de um novo arquivo no editor de planilhas do Excel.
UABEstatística 49
8/17/2019 Livro de Estatística.pdf
50/155
A partir da linha 2, comece a colocar os valores da variável, uma célula para
cada indivíduo e uma abaixo da outra. Se houver mais de uma medida de
cada indivíduo, usam-se as colunas seguintes, sempre mantendo os valores
para um mesmo indivíduo na mesma linha (figura 2).
Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dosolhos de 12 indivíduos.
Os dados inseridos nas planilhas de Excel podem ser, facilmente, organizados
em ordem crescente ou decrescente, permitindo que, em um lance, possa-
mos ver que características são mais frequentes, ou mesmo qual o intervalo
(amplitude) de dados numéricos. Para isso, devemos selecionar toda a tabela
(pois se selecionarmos apenas a variável, só ela será classificada) e usar a
ferramenta “classificar dados” (Dados => Classificar) para organizá-los em
ordem crescente ou decrescente. Temos a opção de “avisar” ao programa se
temos ou não uma linha de cabeçalho (figura 3).
Licenciatura em MatemáticaUAB 50
8/17/2019 Livro de Estatística.pdf
51/155
Figura 3: Usando a ferramenta “Classificar dados” do Excel para ordenar, alfabetica-mente, os dados pela variável “Cor dos olhos”.
A ordenação dos dados é importante em vários testes estatísticos, como as
chamadas “correlações de postos”. Mesmo que eles não sejam realizados
pelo Excel da Microsoft, a simples ordenação automática dos dados já remo-
ve a fase mais demorada desse tipo de teste.
Medidas de tendência central no ExcelPodemos calcular as medidas de tendência central com a ajuda do programa
Excel, de forma rápida e fácil.
Média aritmética
O Excel possui um sistema de fórmulas que podemos utilizar. Por exemplo,
para calcular a média da altura dos indivíduos da tabela vista na figura 2,
devemos ir até o fim da coluna em questão e digitar a seguinte fórmula:
=média(b2:b13)
O Excel reconhece o sinal de “=” como um aviso que vamos usar uma fór-
mula e, entre parênteses, devemos inserir o intervalo de células que contém
a variável, separado por dois pontos. No caso, da célula 2 da coluna B (b2)
até a célula 18 da coluna B (b18)( figura 4).
UABEstatística 51
8/17/2019 Livro de Estatística.pdf
52/155
Figura 4: Calculando a média de uma variável no Excel.
O programa, automaticamente, calcula a média dos dados em questão, bas-
tando para isso que pressionemos a tecla “enter”. O valor da média aparece-
rá, de forma automática, na célula em que escrevemos a fórmula (figura 5).
Figura 5: O valor da média da variável “Altura (cm)” é calculado, automaticamente,pelo Excel.
Licenciatura em MatemáticaUAB 52
8/17/2019 Livro de Estatística.pdf
53/155
Mediana
Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos
indivíduos. Há uma fórmula para isso e seu comando, no Excel, é MED.
Assim, para que possamos calcular a mediana de nossa variável, devemos
escrever, em uma célula livre, a fórmula “=med(b2:b13)”, como pode ser
visto na figura 6.
Figura 6: A fórmula para a mediana no Excel.
Novamente, pressionando-se a tecla “enter”, o valor da mediana é, automa-
ticamente, calculado (figura 7).
Figura 7: A mediana dos valores de altura de uma amostra com 20 indivíduos.
UABEstatística 53
8/17/2019 Livro de Estatística.pdf
54/155
Moda
Para calcular a moda, vamos usar a variável categórica nominal “cor dos
olhos”, que possui três classes (azul, castanho e verde) e está representada
na figura 2.
Como fizemos para a organização dos dados, vamos selecionar toda a tabe-la e pedir que o programa classifique os dados pela variável “cor dos olhos”,
da mesma forma como foi vista naffigura 3. Com as classes ordenadas, po-
demos, facilmente, contar qual a classe mais abundante. Castanho é a moda
para a cor dos olhos dos indivíduos da amostra, com sete indivíduos, em
uma amostra de 12, apresentando olhos castanhos ffigura 8).
Figura 8: Dados nominais ordenados permitem a identificação da classe modal noExcel.
Variância e desvio padrão com ExcelPodemos usar o Excel para calcular a variância de uma variável bem rapida-
mente; isso é muito útil, principalmente, com grandes bases de dados. O
Excel possui um comando para calcular a variância: VAR. Então, vamos usar
nosso exemplo da altura de um grupo de indivíduos, com a mesma tabelaque estamos utilizando, inserindo a fórmula “=var (b2:b13)” em uma célula
livre ffigura 9).
Licenciatura em MatemáticaUAB 54
8/17/2019 Livro de Estatística.pdf
55/155
Figura 9: A fórmula para calcular a variância em Excel.
Novamente, o valor é calculado, automaticamente, ao se pressionar “enter”
ffigura 10).
Figura 10: A variância dos valores de altura de uma amostra com 20 indivíduos.
Há duas maneiras de se calcular o desvio padrão a partir de agora: pode-
mos, simplesmente, tirar a raiz quadrada da variância em uma calculadora
comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).
UABEstatística 55
8/17/2019 Livro de Estatística.pdf
56/155
Figura 11: A fórmula do desvio padrão no Excel.
A vantagem de se utilizar a fórmula na planilha do Excel é que podemos ter
todos os cálculos em um único luga (ffigura 12). Não há problema se termi-
namos com uma sequência de valores, aparentemente, desconhecidos abai-
xo de nossos dados, pois, quando selecionamos a célula, a fórmula utilizada
aparece na caixa de função (fx) no alto da janela do Excel.
Figura 12: O desvio padrão dos valores de altura de uma amostra com 20 indivíduos.
Licenciatura em MatemáticaUAB 56
8/17/2019 Livro de Estatística.pdf
57/155
8/17/2019 Livro de Estatística.pdf
58/155
Referências
LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.
LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO
BRASIL. 1978.SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
SPIEGELRRAY R, Estatística. MAKRON. 1994
Licenciatura em MatemáticaUAB 58
8/17/2019 Livro de Estatística.pdf
59/155UABEstatística 59
8/17/2019 Livro de Estatística.pdf
60/155Licenciatura em MatemáticaUAB 60
8/17/2019 Livro de Estatística.pdf
61/155
Aula 3 - Representações gráficas
Objetivos
• Conhecer a apresentação visual de dados amostrais e sua aplica-
ção na pesquisa estatística;
• Aprender a construir os tipos mais comuns de representações
gráficas na Estatística;
• Conhecer alguns tipos de grácos para variáveis múltiplas;
• Usar o Excel na elaboração de grácos.
AssuntoNesta aula, veremos como é possível representar um conjunto de dados
amostrais visualmente, de forma a permitir uma rápida compreensão da
informação coletada. Veremos os formatos de gráficos mais comuns para re-
presentar uma única variável e algumas maneiras de trabalhar com múltiplasinformações visíveis, assim como aprenderemos a aplicar esse conhecimento
nas pesquisas estatísticas.
IntroduçãoUma forma simples de sumarizar uma variável é através das representações
gráficas. Gráficos e diagramas ajudam a visualizar os dados imediatamen-
te - entende-se, de pronto, a distribuição das frequências, ajudando-nos a
reconhecer padrões já existentes.
Há dezenas de possíveis representações gráficas na Estatística. Nesta aula, no
entanto, vamos nos ater às formas mais utilizadas em relatórios e trabalhos
acadêmicos, de forma a permitir a descrição adequada de dados amostrais.
O uso de gráficos em trabalhos estatísticos cresceu a partir da popularização
dos computadores: gráficos que eram, penosamente, desenhados a mão
UABEstatística 61
8/17/2019 Livro de Estatística.pdf
62/155
podem ser feitos, hoje em dia, em segundos, e com possibilidades infinitas
de cores e formas. Porém, há um lado bom e um lado mau no uso crescente
de representações gráficas.
No lado bom, os gráficos fáceis de fazer incentivam a impo
Top Related