Download - Livro de Estatística.pdf

Transcript

8/17/2019 Livro de Estatística.pdf

1/155

Instituto Federal de Educação,Ciência e Tecnologia

de Pernambuco

2010Recife-PE

Licenciatura em MatemáticaEstatística

Karin Elisabeth Von Schamlz Peixoto
8/17/2019 Livro de Estatística.pdf

2/155

Presidência da República Federativa do Brasil

Ministério da Educação

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES

Este Caderno foi elaborado em parceria entre o Instituto Federal de Educação,

Ciência e Tecnologiade Pernambuco - IFPE e a Universidade Aberta do Brasil - UAB

Equipe de Elaboração

Coordenação do CursoMaria de Fátima Neves CabralSupervisão de TutoriaSônia Quintela CarneiroLogística de Conteúdo

Clayson Pereira da SilvaGiselle Tereza Cunha de AraújoMaridiane VianaVerônica Emília Campos Freire

Coordenação InstitucionalReitoria Pró-Reitoria de Ensino Diretoria de Educação a DistânciaPró-Reitoria de ExtensãoPró-Reitoria de Pesquisa e InovaçãoPró-Reitoria de Administração e Planejamento

DiagramaçãoRafaela Pereira Pimenta de Oliveira

Edição de ImagensVerônica Emília Campos Freire

Revisão de Conteúdo

Moacyr Cunha Filho

Revisão LinguísticaIvone Lira de Araújo
8/17/2019 Livro de Estatística.pdf

3/155
8/17/2019 Livro de Estatística.pdf

4/155
8/17/2019 Livro de Estatística.pdf

5/155

Sumário

Sumário 5

Palavra do professor-autor 7

Apresentação da Disciplina 9

Aula 1 11

Aula 2 31

Aula 3 61

Aula 4 85

Aula 5 103

Aula 6 127
8/17/2019 Livro de Estatística.pdf

6/155
8/17/2019 Livro de Estatística.pdf

7/155

Palavra do professor-autor

Olá!

Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatística. Sou

graduada em Ciências Biológicas pela Universidade Federal de Pernambu-

co, mestre em Zoologia pela Universidade Federal da Paraíba e doutora em

Zoologia Numérica pela University of Oxford, na Inglaterra. Comecei a ver

a beleza da Estatística ainda na graduação e, desde 1995, ministro cursos

voltados à aplicação do método estatístico na Biologia, Arqueologia e Ciên-

cias Sociais. Fui professora da Universidade Federal Rural de Pernambuco,ensinando Genética Quantitativa, e hoje sou consultora da área, ajudando

pesquisadores, laboratórios e empresas a entender como longas listas de

números podem, na verdade, deixar suas vidas mais fáceis.

Espero passar a vocês a admiração e entusiasmo que tenho por este ramo

da Matemática.

Bom estudo!

UABEstatística 7
8/17/2019 Livro de Estatística.pdf

8/155
8/17/2019 Livro de Estatística.pdf

9/155

Apresentação da Disciplina

Caros alunos!

Vamos, a partir de agora, estudar a Estatística, que talvez seja a face mais

popular das Ciências Matemáticas, além dos cálculos básicos que fazemos

diariamente.

A Estatística nos ajuda a entender como nos comportamos, votamos e o

que escolhemos enquanto população, e nos faz compreender como esco-

lhas individuais, quando frequentes, mudam a face de uma multidão.

A Estatística nos mostra, também, o poder das massas e como as tendên-

cias, quando populares, superam os interesses individuais.

Essa é a ferramenta que nos permite entender as grandes quantidades, de

pessoas, eventos, opiniões ou características, sem que nos percamos em

uma floresta de números.

Neste curso, vamos aprender todo o necessário para que possamos coletardados, analisá-los através de métodos estatísticos e, mais importante, inter-

pretemos seus resultados com a confiança de entender como chegamos lá.

Bons estudos!

UABEstatística 9
8/17/2019 Livro de Estatística.pdf

10/155
8/17/2019 Livro de Estatística.pdf

11/155

Aula 1

Objetivos

• Entender o que é a Estatística, quais suas origens e diferentes

abordagens;

• Compreender os conceitos básicos em Estatística;

• Aprender a fazer as aplicações da Estatística no estudo de po -

pulações;

• Entender os diferentes métodos de amostragem e suas aplica-

ções.

AssuntosNesta aula, veremos como surgiu a Estatística, quais são seus objetivos e

conceitos básicos e quais são os métodos utilizados na primeira etapa de um

trabalho estatístico: a amostragem.

Introdução: Breve História da Estatística

O que é a Estatística?Estatística é um ramo da matemática aplicada que visa à descrição e suma-

rização das características de uma população.

O nome “Estatística” vem do latim Statisticum collegium, que significa“conselho de estado”, e da palavra Statista, estadista ou político.

A palavra (em alemão, Statistik ) foi usada pela primeira vez pelo filósofo

alemão Gottfried Achenwalt (1719-1772), em 1749, para descrever os mé-

todos usados pelos governos para analisar dados de censos demográficos

e conhecer a situação econômica, social e política das populações de seus

estados.

UABEstatística 11
8/17/2019 Livro de Estatística.pdf

12/155

Por isso, Achenwalt é considerado um dos “pais” da Estatística, sendo o

primeiro a ensinar a disciplina na Universidade de Göttingen, na Alemanha,

em meados do Século XVIII.

De uma forma geral, a Estatística divide-se em duas áreas básicas:

A Estatística Descritiva que lida com a coleta, organização, sumarização,

descrição e apresentação dos dados representativos de uma população. Os

resultados de uma análise de Estatística Descritiva são apresentados através

de tabelas de frequências e gráficos, como o gráfico de barras e a curva de

frequências acumuladas, que veremos mais tarde.

Já a Estatística Inferencial, também chamada Indutiva, lida com o teste

de hipóteses e a interpretação dos fatores que afetam os dados representa-

tivos de uma população.

Como surgiu a Estatística?A partir do crescimento dos grandes aglomerados humanos e da formação

de Estados, governos sentiram a necessidade de saber as características de

suas populações.

Quantos súditos há no reino? Com quantos soldados podemos contar?

Quais as principais atividades econômicas em nossas fronteiras? Qual a posi-

ção política ou a religião da maioria dos habitantes? Como devemos cobrarimpostos dessa população?

Essas perguntas são de importância crucial para a manutenção de um go-

verno e assim os regentes passaram a organizar grandes pesquisas, como os

censos demográficos, na tentativa de respondê-las.

Censos demográficos são a forma mais antiga de aplicação da matemática

na descrição de uma população. O mais antigo censo que se tem conheci-

mento foi realizado pelos babilônios em 3800 AC que era atualizado a cadaseis ou sete anos, quando representantes do rei contabilizavam a população,

o gado, os estoques de manteiga, mel, leite, lã e vegetais.

No Egito, faraós realizaram censos entre 3340 e 3050 AC. O primeiro censo,

documentado total e matematicamente mais elaborado, foi realizado pelos

militares do Império Persa no ano 500 e serviu como base para distribuição

de terras e cobrança de impostos.

Licenciatura em MatemáticaUAB 12
8/17/2019 Livro de Estatística.pdf

13/155

Governos da Grécia Antiga usavam métodos matemáticos simples para con-

tabilizar seus potenciais exércitos. No Oriente, imperadores chineses faziam

censos agrícolas e industriais, como os descritos por Confúcio no Século V

a.C. No período medieval, o mais famoso censo realizado foi o Domesday

Book (que pode ser traduzido como o “Livro do Juízo Final”), encomendado,

em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britâ-nicas, e queria saber quanta riqueza estava sobre seu comando. O relatório

resultante ficou pronto em 1086 e até hoje, é o melhor retrato da população

britânica daquela época (fig. 1).

Figura 1: Domesday Book, o “Livro do Juízo Final” do Rei Guilherme I. Fonte: ArquivoNacional do Reino Unido.

Mas os censos demográficos antigos usavam, basicamente, as quatro ope-

rações matemáticas básicas para seus fins. Usava-se a soma dos habitantes

das vilas e províncias para saber a população geral do reino; ao se subtrair

do total as mulheres, crianças e os idosos, era possível saber qual o tamanho

potencial dos exércitos. Calculava-se o quanto um reino poderia produzir,

multiplicando-se a área cultivável total pela produção de, por exemplo, tri-go ou beterraba em uma área menor; e os impostos eram calculados pela

divisão da riqueza individual em partes iguais: uma parte era mantida pelo

súdito, outra iria para o regente.

A Estatística, como se conhece hoje, baseia-se, principalmente, nos concei-

tos da Teoria das Probabilidades, que iremos ver mais adiante em nosso

curso. Com base em trabalhos anteriores que tentavam entender a nature-

UABEstatística 13
8/17/2019 Livro de Estatística.pdf

14/155

za dos jogos de dados e cartas, o matemático holandês Christian Huygens

(1629-1695) foi o primeiro a descrever as propriedades probabilísticas em

um livro de 1657. A partir daí, a Estatística moderna começou a se formar.

Muitos estudiosos citam o trabalho do demógrafo inglês John Graunt (1620-

1674) como um dos primeiros trabalhos formais de Estatística, apesar desteramo da ciência só ter se estabelecido um século mais tarde. Graunt (fig. 2)

utilizou os dados coletados pelos censos britânicos para preparar “tabelas

de vida”, em que estimava a expectativa de vida das várias faixas etárias nas

diversas regiões do país.

Figura 2: O demógrafo John Graunt, capitão do exército britânico. Fonte: Universi-dade de York, Inglaterra.

O trabalho de Gottfried Achenwall ainda era voltado ao estudo demográ-

fico, tanto que, além do nome “Estatística” relacionar a ciência aos dados

estatais, o termo foi traduzido para o inglês como “aritmética política”. Ape-

nas no século XIX, o termo passou a abranger a coleta, classificação e análise

de dados de qualquer origem.

Foi durante o século XX, no entanto, que a Estatística provou ser um instru-

mento fundamental para todas as ciências quantitativas e qualitativas.

O desenvolvimento, no início do século, de fórmulas matemáticas especiais

para lidar com questões agrícolas, de saúde pública e de controle de qua-

lidade industrial, entre outros, levou a Estatística para fora de sua área de

Licenciatura em MatemáticaUAB 14
8/17/2019 Livro de Estatística.pdf

15/155

origem e hoje ela é instrumento fundamental para as ciências sociais, am-

bientais, médicas, humanas e econômicas.

Conceitos BásicosA Estatística usa termos que estamos acostumados a usar em nosso dia-a-

dia, como “amostra”, “população” e “dados”, mas os significados desses

termos em são bem claros e, por vezes, diferentes do significado coloquial. A

Atenção!

Basicamente, a Estatística se presta a responder as perguntasdos pesquisadores em relação a um conjunto de dados que fo-

ram coletados de uma população.

As duas abordagens estatísticas, a descritiva e a inferencial, res-

pondem a perguntas bem diferentes.

Abaixo estão alguns exemplos do que cada abordagem pode

investigar.

Estatística Descritiva:

• Qual o valor mínimo e máximo?

• Qual o valor mais comum?

• Como difere um indivíduo em particular da população como

um todo?

• Quantos tipos diferentes existem?

• Quais os tipos mais frequentes?

• Qual evento é mais provável de ocorrer no futuro?

Estatística Inferencial:

• Como se relacionam duas características de uma população?

• Há diferenças entre grupos dentro da população?

• Qual a diferença entre grupos?

• Como a variação de um elemento afeta o outro?

• Quais elementos têm inuência sobre uma característica?

• Quão forte é a inuência de uma característica sobre a outra?

UABEstatística 15
8/17/2019 Livro de Estatística.pdf

16/155

seguir, veremos os termos mais comuns que usaremos em nosso curso, seus

significados e suas variações.

• População: Para a Estatística, população é uma coleção completa de

pessoas, animais, plantas ou coisas da qual nós podemos coletar dados

(fig. 3). É o grupo inteiro, ou “universo”, no qual estamos interessados eo qual desejamos descrever ou tirar conclusões sobre um aspecto em par-

ticular. De forma, ao fazer qualquer generalização sobre uma população,

devemos estudar, geralmente, uma amostra, que deve ser representati-

va da mesma, como um todo. Para cada população há muitas amostras

possíveis.

Uma amostra estatística fornece informação sobre um parâmetro corres-

pondente da população. Por exemplo, a média da amostra de um conjunto

de dados deve fornecer informação sobre a média geral da população. Éimportante que o pesquisador defina a população, cuidadosa e completa-

mente, antes de coletar a amostra, incluindo uma descrição dos membros a

ser inseridos.

Um exemplo: a população, em um estudo de saúde infantil, poderia ser to-

das as crianças nascidas no Brasil na década de 90. Uma amostra seria todas

as crianças nascidas no dia seis de junho de qualquer um dos anos.

Figura 3: Uma “população”. Fonte: www.freefoto.com

• Amostra: Uma amostra (fig. 4) é um grupo de unidades selecionado de

um grupo maior (a população). Ao se estudar uma amostra, espera-se

que ela forneça conclusões válidas sobre o grupo maior. Pois, ela é, geral-

Licenciatura em MatemáticaUAB 16
8/17/2019 Livro de Estatística.pdf

17/155

mente, selecionada, porque a população é grande demais para ser estu-

dada por inteiro. Assim, deve ser representativa da população em geral.

Isso é, geralmente, alcançado com sucesso ao se fazer uma amostragem

aleatória, ou seja, ao acaso. Contudo, é importante definir a população

antes de fazer a amostragem, ou corre-se o risco de produzir uma amos-

tra enviesada, ou seja, tendenciosa.

Por exemplo, se numa pesquisa sobre a qualidade da água que a população

de um município consome forem entrevistadas apenas as pessoas que mo-

ram em ruas pavimentadas, a amostra será enviesada, pois essas residências

tendem a ser servidas pelo sistema de abastecimento de água tratada e não

representará os indivíduos que consomem água de poço ou outras fontes.

Mais adiante, veremos os diversos métodos de amostragem.

Figura 4: Uma “amostra” da população acima. Fonte: www.freefoto.com

• Parâmetro: Um parâmetro é um valor, geralmente, desconhecido (e o

qual deve ser estimado), usado para representar certa característica de

uma população. Por exemplo, a média de uma população é um parâ-

metro que é, em geral, usado para indicar o valor médio, ou tendência

central, de uma quantidade.

Dentro de uma população, o parâmetro é um valor fixo, que não varia. Cada

amostra tirada da população tem seu próprio valor de qualquer estatística

que é usada para estimar esse parâmetro. Por exemplo, a média dos da-

dos, em uma amostra, é usada para dar informação sobre a média geral na

população da qual foi tirada. Parâmetros são, comumente, designados por

caracteres gregos (como ou µ), enquanto estatísticas são designadas por

caracteres romanos (como s ou x).

UABEstatística 17
8/17/2019 Livro de Estatística.pdf

18/155

• Estatística: com a inicial maiúscula, é o ramo da ciência que estamos es-

tudando, uma estatística é o valor que é calculado a partir de uma amos-

tra de dados. É usada para dar informação sobre valores (ou parâmetros)

desconhecidos na população correspondente.

Por exemplo, a média de um grupo de dados (estatística) fornece informaçãosobre a média geral (parâmetro) da população da qual se coletou a amostra.

É possível tirar mais de uma amostra da mesma população e o valor da esta-

tística, geralmente, vai variar de uma amostra para outra.

• Variável: Uma variável é qualquer atributo ou característica medida que

difere para diferentes indivíduos, ou objetos. Por exemplo, se o peso de

30 indivíduos foi medido, então o peso é uma variável. Variáveis podem

ser classificadas em grupos distintos de várias formas. Para entendermosmelhor a diferenciação dos tipos de variáveis, teremos primeiro que en-

tender as escalas de mensuração que podem ser usadas. Mais adiante,

veremos os tipos diferentes de variáveis.

Escalas de Mensuração ou Níveis de MedidasUma das formas de se classificar as variáveis é de acordo com o nível de

medida que utilizamos. Há quatro níveis possíveis de medidas que podemos

coletar em uma amostra, cada uma um pouco mais refinada que a anterior.

Os níveis ou escalas de medidas são a nominal, a ordinal, a intervalar e aescala de razão.

• Nominal: A mais simples medida que pode ser tomada de uma carac-

terística é da escala nominal. Uma variável nominal possui classes, ou

categorias, podemos descrever um atributo de cada indivíduo ou obje-

to. No nível nominal, todas as categorias são iguais, ou têm o mesmo

“peso”. Exemplos de variáveis medidas em escala nominal são o gênero

de um indivíduo (masculino ou feminino), a cor de um objeto (verde,

azul, amarelo, etc.) ou a espécie de uma planta de uma área (coqueiro,babaçu, etc.). Variáveis nominais fornecem frequências em vez de me-

didas propriamente ditas. Por exemplo, uma população humana pode

ter 49% de homens e 51% de mulheres; uma área pode ter 20% de

coqueiros, 40% de palmeiras, 30% de um tipo de grama e 10% de

cajueiros. Como vemos, todas as categorias têm igual importância e o

mesmo “valor” para o pesquisador.

Glossário

Se usarmos as espécies deplantas de uma área paradescrever uma população(nesse caso, de vegetais),estaremos criando umavariável nominal.

O tamanho dos sapatos,apesar de representado pornúmeros inteiros, é umavariável ordinal.

Temperatura em grausCelsius é um dos poucosexemplos de uma variávelintervalar.

Qualquer medida de pesoé uma variável em escalade razão. Um objeto podeser duas vezes mais pesadoque outro e zero quer dizerausência.

Licenciatura em MatemáticaUAB 18
8/17/2019 Livro de Estatística.pdf

19/155

• Ordinal: A escala ordinal também possui categorias, ou classes, e tam-

bém vai fornecer frequências. Mas, na escala ordinal, aparece mais uma

informação sobre as características de uma população: o valor ou “peso”

das categorias cresce gradualmente, ou seja, há uma ordem de impor-

tância das classes. Exemplos de variáveis ordinais são o nível de escolari-

dade (primário, médio, superior), o porte de um vegetal (erva, arbusto,árvore) ou a escala de Mohs para identificar a dureza de um mineral (indo

de 1(um) para minerais macios como o talco, até 10(dez) para minerais

duros como o diamante). Apesar de classes ordinais ser organizadas em

uma ordem graduada, não fornecem informação sobre o tamanho da

diferença entre as classes. Por exemplo, na variável ordinal “classe social”

(baixa, média e alta), a diferença entre a classe baixa e a média não é a

mesma entre a média e a alta.

• Intervalar: Se uma variável apresenta classes que, além de poder ser or-ganizadas de forma graduada, apresentam intervalos iguais entre si, essa

variável foi medida em uma escala intervalar. Um exemplo clássico da

escala de medida intervalar é a temperatura em graus Celsius: as classes

(o valor da temperatura) são, homogeneamente, distantes entre si; em

intervalos regulares. Outra característica das variáveis intervalares é que

o valor de “zero” não significa ausência da característica, mas é apenas

um ponto de referência arbitrário e valores negativos também podem ser

usados. Zero grau Celsius não quer dizer ausência de temperatura, mas

é um ponto de referência, indicando a temperatura de congelamentoda água. Outro exemplo de medida intervalar é o calendário Gregoriano

(que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e

datas anteriores são “negativas”, e designadas por a.C. (antes de Cristo).

Além desses exemplos, escalas intervalares são raras.

• Escala de razão: Variáveis medidas em escala de razão têm as mesmas

características da escala intervalar, com a diferença que o valor de zero

significa ausência do atributo medido. Por exemplo, na escala de tempe-

ratura Kelvin, o valor de zero, realmente, significa ausência de tempera-tura: quando a -273,15 °C, ou zero kelvin, não há nenhuma transferên-

cia de energia térmica. Todas as variáveis “de contagem”, que incluam

o valor de zero significando ausência, são em escala de razão. Exemplos

são tamanho, peso, número de vezes que um evento ocorre, quantidade

de substâncias, etc. A escala de razão é assim chamada, porque se pode

descrever a relação entre medidas através de frações: José pesa duas ve-

zes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo

Glossário

Os quatro níveis demensuração fornecem,gradualmente, maisinformação com precisãocrescente. Enquanto o nívelnominal só permite quecalculemos as frequênciasdos tipos, o nível ordinal

já fornece a ideia degradação, o intervalar dá otamanho da diferença entreclasses, e o de razão dá aideia de ausência.

UABEstatística 19
8/17/2019 Livro de Estatística.pdf

20/155

de Joana é três vezes mais longo que o de Josefa. Escalas de razão não

têm valores negativos.

Ferramentas do estatísticoAnálises estatísticas podem ser feitas manualmente ou com a ajuda de umcomputador. Na pesquisa manual, o estatístico precisa de:

– Calculadora: para facilitar o cálculo das frequências;

– Papel milimetrado: para desenhar os gráficos com mais precisão;

– Tabelas estatísticas: contêm os valores de significância de testes de

estatística inferencial.

Ao usar o computador, há dois tipos básicos de programas:

– Editores de planilhas: como o Excel; servem para organizar e ar-

mazenar os dados, criar gráficos de frequências e calcular algumas

estatísticas descritivas.

– Programas de estatística: Realizam tarefas complexas como testes

de significância, criam gráficos elaborados e já possuem as tabelas

estatísticas incluídas.

Os editores de planilhas são suficientes para a preparação de relatórios des-

critivos. Já análises inferenciais precisam de programas estatísticos. Usar ocomputador como ferramenta estatística permite a análise de uma grande

quantidade de dados sem medo de cometer pequenos erros.

Os quatro níveis de mensuração fornecem, gradualmente, mais informação

com precisão crescente. Enquanto o nível nominal só permite que calcule-

mos frequências dos tipos; o nível ordinal já fornece a ideia de gradação, o

intervalar dá o tamanho da diferença entre classes e o de razão dá a ideia

de ausência.

Tipos de VariáveisComo foi dito antes, podemos classificar as variáveis de diversas maneiras.

Se nos basearmos nos níveis de mensuração, as variáveis podem ser quali-

tativas ou quantitativas. Variáveis qualitativas são também chamadas ca-

tegóricas e são medidas em escala nominal, ou escala ordinal não numérica

(como “classe baixa”, “classe média” e “classe alta”). Variáveis quantitativas

Licenciatura em MatemáticaUAB 20
8/17/2019 Livro de Estatística.pdf

21/155

são medidas em escalas ordinal numérica, intervalar ou de razão. Por exem-

plo, se perguntarmos aos alunos do jardim de infância qual a sua cor favo-

rita, a resposta seria uma variável categórica, ou qualitativa. Se medirmos o

tempo de resposta de cada um a essa pergunta, a variável será quantitativa.

Variáveis quantitativas podem ser subdivididas em discretas, também cha-madas descontínuas e contínuas.

Variáveis discretas podem apresentar qualquer valor entre zero e infinito,

desde que seja um número inteiro. Por exemplo, se contarmos o número de

pessoas em cada cidade de um país, todos os valores serão números intei-

ros, pois não podemos ter “meio habitante”. Assim, as contagens em geral,

como censos e levantamentos, produzem variáveis discretas.

Já as variáveis contínuas podem ter qualquer valor entre dois valores previa-mente estabelecidos, mesmo números não inteiros. Por exemplo, a altura

dos soldados de um batalhão pode ser qualquer medida entre as alturas

mínima e a máxima permitidas: 1,61m; 1,87m; 1,76m; etc.

Do ponto de vista da Estatística Inferencial, podemos dividir as variáveis entre

independentes e dependentes.

Variáveis independentes são selecionadas e medidas pelo pesquisador na

amostra de uma população e não são passíveis de controle, ou seja, suasvariações são aleatórias.

Já as variáveis dependentes têm sua variação atrelada à diversificação de

uma variável independente. Se pensarmos em termos de causa e efeito, as

variáveis independentes são causa da variação de uma variável dependente.

Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o

chumbo, no peso dos peixes de um rio. Não podemos controlar a quantida-

de de chumbo absorvida por cada peixe que pesarmos, então a exposição

ao chumbo, medida pelo nível do metal em cada peixe, é uma variável in-dependente.

Já o peso dos peixes é o efeito da exposição ao chumbo, sendo então a va-

riável dependente. Variáveis independentes são chamadas, quando usamos

um programa de computador para cálculos estatísticos, de fatores e as de-

pendentes, de respostas.

UABEstatística 21
8/17/2019 Livro de Estatística.pdf

22/155

Amostragem“Amostragem” é a parte da prática da Estatística que se refere à seleção de

uma amostra, ou subconjunto, de observações individuais com as quais se

pretende estimar parâmetros de uma população de interesse.

O processo de amostragem é fundamental para a coleta de dados e contémdiversos estágios:

– Definição da população de interesse;

– Especificação da “base de sondagem”, ou conjunto de itens ou even-

tos mensuráveis;

– Especificação do método de amostragem para selecionar itens ou

eventos da base de sondagem;

– Definição do tamanho da amostra;

– Implementação do plano de amostragem; – Amostragem e coleta de dados;

– Revisão do processo de amostragem.

A razão pela qual o processo de amostragem é tão rigoroso se deve ao fato

de que um erro nesse processo pode invalidar toda a análise estatística, tor-

nando o trabalho do pesquisador inútil. Como já vimos, as amostras devem

representar a população de interesse e uma amostragem desleixada vai nos

prover uma amostra não representativa da população, cheia de vieses que

levarão a conclusões erradas.

A seguir, olharemos cada uma das etapas em maiores detalhes.

Para que se realize a prática estatística com sucesso, é necessário que a po-

pulação de interesse seja definida com cuidado. Uma população pode ser

vista como um conjunto que inclui todas as pessoas, itens ou eventos que

possuem uma característica que desejamos compreender. Como vimos, é,

geralmente, impossível coletar todos os dados de toda uma população de

interesse, então devemos almejar a coleta de uma amostra representativa damesma.

Às vezes, é fácil definir uma população. Em uma indústria, por exemplo, que

se deseje verificar a qualidade de uma remessa de material, que é a “popu-

lação” da qual será retirada a amostra. Em outras ocasiões, a população de

interesse pode ser menos tangível e não envolver um conjunto de objetos.

Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-

Licenciatura em MatemáticaUAB 22
8/17/2019 Livro de Estatística.pdf

23/155

cado durante as várias horas do dia, ou o comportamento de um animal nas

várias estações do ano, o tempo vira o foco dessa população e as amostras

deverão ser coletadas dentro de determinados períodos de tempo.

Em alguns casos, a “população” estudada é ainda mais abstrata. Um estu-

do famoso, feito pelo engenheiro britânico Joseph Jagger (1830-1892) nocassino de Monte Carlo em 1873, teve como “população” o desempenho

de seis rodas de roleta. Jagger contratou seis pessoas para anotar todos os

resultados dessas seis rodas de roleta e descobriu que, em algumas delas,

alguns números ocorriam com maior frequência que outros. Assim, ele pas-

sou a apostar nos números que ocorriam com maior frequência e se tornou

conhecido como o homem que “quebrou a banca” em Monte Carlo. Jagger

investigou a distribuição de probabilidades dos resultados das roletas em

tentativas infinitas e assim conseguiu identificar que roletas estavam enviesa-

das. O mesmo se aplica a qualquer pesquisa que envolva medições repetidasde alguma característica física, como quando os dados de jogar são testa-

dos, ou estuda-se a condutividade elétrica de materiais.

Em certos casos, é possível ter acesso a toda uma população de interesse,

como os materiais de uma fábrica, nos quais podemos retirar amostras de

cada lote. Em outros casos, não é possível ter acesso imediato a toda a popu-

lação, seja por que ela não é conhecida, ou por que não é possível identificar

todos os indivíduos. Assim, é necessário o uso de uma base de sondagem,

na qual podemos identificar todos os elementos em que podemos selecionarqualquer um para nossa amostra.

Por exemplo, em pesquisas de opinião, podemos usar listas telefônicas como

uma base de sondagem, da qual podemos selecionar, aleatoriamente, indi-

víduos para nossa pesquisa. Dependendo do tipo de estudo, podemos usar

mapas de ruas (de que selecionamos as ruas que serão visitadas), listas de

eleitores (para pesquisas eleitorais), listas de usuários do SUS (para pesqui-

sas de saúde), registros de crianças matriculadas em escolas públicas (para

pesquisas sobre educação), etc. As bases de sondagem devem ser escolhidascom cuidado para incluir toda a população de interesse, sem que haja repe-

tições, de modo que a amostra coletada a partir dessa base seja, realmente,

representativa da população a ser estudada.

Após definir a base de sondagem, o pesquisador deve escolher o método de

amostragem. Como vimos, na maioria dos casos, é importante que a amos-

tra seja aleatória. Isso garante que cada um dos elementos da população

UABEstatística 23
8/17/2019 Livro de Estatística.pdf

24/155

tenha uma probabilidade maior que zero de ser escolhida, aleatoriamente,

para uma amostra. Esse tipo de amostragem é chamado de amostragem

probabilística e permite que calculemos a probabilidade exata de cada ele-

mento da população de ser escolhido. Tal abordagem é a comumente usada

em estudos gerais, que pedem uma amostra não enviesada de uma popula-

ção, como os censos demográficos.

A amostragem probabilística permite que sejam calculados os erros que po-

deriam alterar os resultados da análise e levá-los em consideração quando

da interpretação dos mesmos.

A amostragem não probabilística é qualquer método em que alguns ele-

mentos da população não têm nenhuma chance de serem selecionados, ou

quando não se pode calcular com precisão qual a probabilidade de seleção

dos elementos. Por causa de sua natureza não aleatória, a amostragem nãoprobabilística não permite o cálculo de erros de amostragem e essa abor-

dagem deve ser especificada, quando os resultados são apresentados. Por

exemplo, se estivermos usando um mapa de ruas como base de sondagem

e formos visitar cada uma das casas das ruas escolhidas, para entrevistar a

pessoa que abrir a porta, durante o horário de trabalho, entrevistaremos

apenas as pessoas desempregadas, excluindo todos os trabalhadores que

não faltaram. Essa é uma abordagem não probabilística, pois é impossível

calcular a probabilidade de entrevistarmos um trabalhador e assim não po-

deremos calcular possíveis erros de amostragem.

Métodos de AmostragemDentro das duas abordagens de amostragem, existem vários métodos que

podem ser empregados, sozinhos ou em conjunto, dependendo de fato-

res como a natureza e qualidade da base de sondagem, disponibilidade de

informações auxiliares sobre os elementos da população, necessidade de

acurácia de mensuração, nível de detalhe da análise e custos operacionais.

A seguir, veremos brevemente os métodos mais comuns de amostragem,tanto da abordagem probabilística quanto da não probabilística

Métodos Probabilísticos: Em que todos os elementos têm uma probabili-

dade maior que zero de ser escolhidos e envolvem seleção aleatória:

• Amostragem Aleatória Simples – Todos os elementos da base de son-

dagem têm igual probabilidade de ser escolhidos para uma amostra, pois

Licenciatura em MatemáticaUAB 24
8/17/2019 Livro de Estatística.pdf

25/155

a base não é subdividida ou particionada. Além disso, qualquer par de

elementos tem a mesma chance de seleção que outro, o que minimiza

o risco de um viés na amostra. No entanto, esse método é vulnerável a

erros de amostragem, pois uma amostra pode não representar a cons-

tituição da população. Por exemplo, uma amostra de uma população

humana pode não representar a real proporção entre homens e mulheresde uma população. Tal método pode ser inadequado para populações

muito grandes.

• Amostragem Sistemática – Envolve organizar a população-alvo em al-

gum sistema de ordenação antes de selecionar os elementos, em interva-

los, através da lista ordenada.

Nesse método, o início da “lista” é aleatório, mas selecionam-se os ele-

mentos em intervalos k, definidos pela fórmula , em que:

N = tamanho da população;

n = tamanho da amostra.

É importante que o início da “lista” seja aleatório e não seja escolhido

o primeiro elemento, o que tiraria o caráter probabilístico do método.

Amostragens sistemáticas não podem ser usadas em bases de sondagem

que possuem alguma periodicidade, pois se o valor k for um múltiplo ou

fator do valor de periodicidade da lista, o método torna-se menos acura-do que a amostragem aleatória simples.

• Amostragem Estratificada – Usada quando a população possui catego-

rias distintas, dentro das quais a base de sondagem pode ser organizada,

criando “estratos” separados. Cada estrato é então amostrado como

uma população independente, no qual elementos são escolhidos alea-

toriamente.

Um exemplo seria a estratificação da população estudantil por séries,sendo as amostras coletadas, aleatoriamente, dentro de cada série. Esse

método oferece vantagens quando a base de sondagem permite que

os elementos sejam estratificados, desde que haja pouca variabilidade

dentro dos estratos e grande variabilidade entre os estratos. Na, prática,

algumas vezes, esse método pode ser mais oneroso que a amostragem

simples.

UABEstatística 25
8/17/2019 Livro de Estatística.pdf

26/155

Métodos não probabilísticos: Quando não há probabilidade de se esco-

lher alguns membros da população, ou quando outras variáveis ligadas aos

elementos afetam a probabilidade de que sejam escolhidos.

• Amostragem em cotas – A população é separada em grupos, mutua-

mente, excludentes, como na amostragem estratificada, mas a etapa se-guinte não é aleatória, pois alguns elementos são excluídos da amostra.

Exemplos comuns são as pesquisas de opinião que abordam um número

determinado de homens e mulheres (os ‘estratos’), mas em que pessoas

com aparência “simpática” são mais frequentemente entrevistadas do

que as que parecem “antipáticas”. As amostras podem se tornar envie-

sadas nesse caso e seu uso, por misturar uma abordagem aleatória com

uma não aleatória, é motivo de controvérsia.

• Amostragem Acidental – Nesse método, a amostra é colhida da parte

da população que está mais próxima, ou disponível, ao pesquisador. Tam-

bém é chamada de “amostragem de conveniência”. Muito utilizada em

pesquisas socioculturais, a amostra não é representativa da população

e não é possível estimar parâmetros populacionais gerais a partir dela.

Ainda assim, é um método útil para “pesquisas-piloto”, que verificam a

viabilidade da pesquisa antes que a coleta de dados válida seja iniciada.

• Amostragem em “Bola-de-neve” – Nesse método, entrevista-se umapessoa aleatoriamente, que se refere a um amigo que também é entre-

vistado e recomenda outro amigo, assim por diante. É comumente usada

nas pesquisas de mercado, quando se está interessado em entender a

aceitação de um produto dentro de determinados grupos sociais.

Além dos métodos probabilísticos e não probabilísticos mais comuns, vários

métodos já foram desenvolvidos para endereçar problemas encontrados em

pesquisas específicas. Casos especiais são comuns nas ciências experimen-

tais, em que os elementos são conhecidos e em pequeno número (comoratos de laboratório, por exemplo). Por exemplo, quando testando um novo

medicamento em animais de laboratório, a amostra contém todos os animais

usados, sendo assim não aleatória. Nesse caso, devem-se controlar todas as

variáveis possíveis dos elementos, para examinar possíveis efeitos cruzados

que alterariam ou confundiriam os resultados da pesquisa.

Licenciatura em MatemáticaUAB 26
8/17/2019 Livro de Estatística.pdf

27/155

Os dados da amostra, uma vez coletados, devem ser organizados em bases

de dados, que servirão para a análise estatística. A pesquisa estatística con-

ta, basicamente, de seis etapas distintas:

1) Coleta de dados: Nessa fase, define-se qual é a população de interesse

e toma-se cuidado para que o método de coleta forneça uma amostra querepresente a população.

2) Avaliação dos dados: Antes de iniciar os trabalhos estatísticos propria-

mente ditos, os dados devem ser avaliados quanto a possíveis erros de cole-

ta, falhas e lacunas.

3) Descrição dos dados: Após verificar-se que os dados são válidos, pode-

se descrever a amostra através de estatísticas descritivas.

4) Análise dos dados: Quando testando hipóteses, cálculos específicos po-

dem ser usados para análises inferenciais.

5) Apresentação dos dados: Tanto as estatísticas descritivas quanto as in-

ferenciais podem ser representadas por gráficos, que têm impacto maior na

hora de se explicar os resultados da pesquisa. A descrição de uma amostra

também deve ser feita através de tabelas.

6) Análise dos resultados: As estatísticas descritivas devem ser suficientespara descrever uma população através da amostra coletada; os resultados

podem ser interpretados dentro dos limites de qualidade dos dados. Esta-

tísticas inferenciais devem ser interpretadas com mais cuidados, mas podem

servir para ilustrar as interações complexas entre fatores presentes em uma

população.

Na próxima aula, veremos como utilizaremos, na prática, os conceitos e mé-

todos que vimos aqui, e começaremos a trabalhar, matematicamente, os

dados.

Até lá!

UABEstatística 27
8/17/2019 Livro de Estatística.pdf

28/155

ResumoA Estatística é um ramo da Matemática que surgiu da necessidade dos go-

vernos de conhecer suas populações. Hoje é uma ciência fundamental para

campos tão diversos quanto as Ciências Econômicas e Sociais, a Medicina e

a pesquisa científica, a indústria e o comércio.

Os conceitos básicos da Estatística são conhecidos coloquialmente, mas têm

significados bem específicos dentro desse ramo do conhecimento, incluindo

palavras comuns como “amostra”, “população” e “variável”.

A primeira etapa de uma pesquisa estatística envolve a coleta de uma amos-

tra que represente uma população de interesse, em que características es-

pecíficas dos indivíduos, as variáveis, servirão para se calcular os parâmetros

populacionais.

Há duas abordagens básicas de amostragem: a probabilística, onde todos

os elementos de uma população têm uma probabilidade maior que zero

de ser escolhidos para uma amostra, e a não probabilística, na qual essa

probabilidade é igual a zero para alguns elementos, ou não pode ser calcu-

lada. Há métodos probabilísticos e não probabilísticos de amostragem, que

podem ser usados isoladamente ou em conjunto, para evitar problemas com

a validade da amostra.

Cara Colega, o resumo deve conter todo teor da aula, de forma concisae objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece,

Ivone Lira (revisora linguística e textual).

Referências

LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DOBRASIL. 1978.

SPIEGEL, MURRAY R, Estatística. MAKRON. 1994.
8/17/2019 Livro de Estatística.pdf

29/155UABEstatística 29
8/17/2019 Livro de Estatística.pdf

30/155
8/17/2019 Livro de Estatística.pdf

31/155

Aula 2 - Distribuição de Frequências

Objetivos

• Aprender a descrever as frequências absolutas e relativas em

uma amostra;

• Compreender as medidas de tendência central de uma popula-

ção e como determinar essas estatísticas em uma amostra;

• Entender as medidas de dispersão de uma variável e como medir

as estatísticas em uma amostra;

• Aprender a usar as ferramentas estatísticas do Excel da Micro-

soft.

Assuntos

Nesta aula vamos entender como podemos descrever a distribuição de umaamostra, usando técnicas simples, que fornecem uma visão geral dos dados

coletados. Sendo a amostra válida e representativa de uma população, a

estatística descritiva permite que sejam estimados os parâmetros populacio-

nais. Vamos entender o que significam as estatísticas amostrais e como cal-

culá-la através de fórmulas ou usando um editor de planilhas como o Excel.

Introdução

Os métodos de amostragem, que vimos na nossa primeira aula, nos permi-tem coletar dados confiáveis que serão representativos de uma população

de interesse. Com esses dados amostrais, poderemos calcular suas estatísti-

cas e assim estimar os parâmetros da população. Mas a coleta de dados é

apenas o primeiro passo de uma pesquisa estatística e os passos seguintes

são cruciais para que um estudo tenha validade.

O principal objetivo de uma pesquisa dessa natureza é descobrir como os

dados estão distribuídos, ou seja, quais são os valores extremos, que valores

UABEstatística 31
8/17/2019 Livro de Estatística.pdf

32/155

ocorrem mais frequentemente e que intervalos de valores englobam a maior

parte da população. Para descrever uma distribuição de frequências, o pes-

quisador necessita organizar os dados de uma forma prática, tornando mais

fácil o trabalho de calcular a repetição de ocorrência dos eventos em ques-

tão. Para isso, é preciso organizar tabelas de frequências, gráficos e planilhas

de análise, de que possam ser retirados os valores necessários para o cálculodas estatísticas amostrais.

Tabelas de FrequênciasO primeiro passo de um pesquisador, que pretende descrever uma popula-

ção através de uma amostra, é descobrir a distribuição dos dados amostrais.

Pode-se descrever uma amostra através de tabelas de frequência ou de

gráficos.

Uma tabela de frequência é uma forma de organizar os dados, listando to-

dos os valores possíveis como uma coluna de números e a frequência de

ocorrência de cada valor como outra.

Assim, para se calcular a frequência absoluta de um valor ou categoria,

deve-se apenas contar quantas vezes cada um desses valores ou categorias

aparece em um grupo de dados. Na maioria dos casos, devemos incluir valo-

res que não aparecem no conjunto de dados, que irão ser assinalados com a

frequência absoluta de zero. Isso é importante para se entender a populaçãoatravés de uma amostra.

Por exemplo, se estamos estudando a frequência da cor de olhos em uma

população e ninguém tem olhos azuis, essa informação é relevante e deve

ser incluída, pois azul é uma cor de olhos possível nos humanos.

Ao criarmos uma tabela de frequências, entendemos a distribuição de fre-

quências dos valores de uma variável, ou seja, quantas vezes cada valor ou

classe aparece na amostra que estudamos.

Logo, a distribuição de frequências é importante para entendermos não ape-

nas quantas vezes cada valor ou classe de uma variável é representado, mas

fornece informação sobre a amplitude de variação dessa variável e sobre a

natureza dessa variação, como veremos mais tarde.

Licenciatura em MatemáticaUAB 32
8/17/2019 Livro de Estatística.pdf

33/155

Criando uma tabela de frequênciasVamos imaginar que um fabricante de sapatos femininos quer saber quais

os tamanhos deve fabricar para suprir a demanda em uma cidade como,

digamos, Recife. Para isso, ele coleta uma amostra do tamanho dos pés das

mulheres da cidade, perguntando a vinte mulheres qual o número de seus

sapatos e consegue os seguintes valores (tabela 1):

Tabela 1: Tamanho dos sapatos de 20 mulheres de Recife – PE.

37 35

36

37

34

38 39 37 36 35

37 36 38 33 34

36 37 37 35 36

Digamos que o fabricante tem, em sua linha de produtos, uma numeração

de sapatos femininos que vai do 32 ao 40. Para ajudarmos ao fabricante,

devemos organizar os dados que ele coletou em relação às linhas de sapatos

femininos que já tem.

Vamos, então, criar uma tabela de frequências, usando os números disponí-

veis em sua fábrica e contaremos quantas vezes esses números ocorrem na

amostra que ele coletou na cidade (tabela 2):

Tabela 2: Frequências absolutas dos números de sapatos usados por 20 mu-

lheres da cidade de Recife – PE.

Número do sapato

Frequência absoluta (f)

32 0

33 1

34 2

35 336 5

37 6

38 2

39 1

40 0

Total

20

UABEstatística 33
8/17/2019 Livro de Estatística.pdf

34/155

Podemos logo avisar ao fabricante de sapatos que, na amostra que ele cole-

tou, não há nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho

mais comum é o 37. O fabricante, então, nos pergunta qual a proporção de

cada número de sapatos que deveria fabricar, para que não tenha números

pouco procurados, encalhados em suas lojas.

Podemos responder a sua pergunta, calculando as frequências relativas

dos tamanhos de sapatos da amostra, em valores proporcionais expressos

em proporções (que vão de 0 a 1) ou porcentagens (que vão de 0 a 100).

Assim, acrescentaremos mais uma coluna na tabela que já vimos (tabela 3):

Tabela 3: Frequências absolutas e relativas dos números de sapatos de 20

mulheres de Recife – PE.

Número do sapato

Frequência absoluta (f) Frequência relativa (fr)

32

0

0

33 1 0,05

34 2 0,1

35 3 0,15

36 5 0,25

37 6 0,3

38 2 0,1

39 1 0,05

40 0 0

Total

20

1

As frequências relativas são calculadas como se calculam proporções: divide-

se a frequência absoluta da classe em questão pelo total de dados da amos-tra. Mas, se quisermos representar as frequências absolutas em porcenta-

gens, é só multiplicar a proporção por 100.

Assim, teríamos a tabela de frequências representada um pouco diferente

(tabela 4):

Licenciatura em MatemáticaUAB 34
8/17/2019 Livro de Estatística.pdf

35/155

Tabela 4: Frequências absolutas e frequências relativas proporcionais e per-

centuais dos números de sapatos de 20 mulheres de Recife – PE.

Número do sapato

Frequência absoluta (f)

Frequência relativa (%)

32

0

033 1 5

34 2 10

35 3 15

36 5 25

37 6 30

38 2 10

39 1 5

40 0 0

Total

20

100

Nosso amigo fabricante ficará feliz em saber que 30% das mulheres da

amostra calçam sapatos tamanho 37, que 25% calçam 36 e assim por dian-

te. Então, poderá ajustar a sua produção para atender a demanda do mer-

cado.

Outra forma de representar a distribuição das frequências é através das fre-

quências acumuladas ou cumulativas. Para se conseguir isso, devemos

apenas somar as frequências absolutas ou relativas de cada classe com a

seguinte. Esse tipo de representação tem diversas aplicações que veremos

nas próximas aulas, mas, de forma geral, serve para termos uma ideia de

onde a maioria dos valores se encontra. No exemplo que estamos usando,

poderíamos acrescentar uma coluna de frequências relativas acumuladas à

nossa tabela (tabela 5):

Tabela 5: Frequências absolutas, relativas proporcionais e percentuais, e fre-

quências cumulativas percentuais dos números de sapatos de 20 mulheres

de Recife – PE.

UABEstatística 35
8/17/2019 Livro de Estatística.pdf

36/155

Número do sapato

Frequênciaabsoluta (f)

Frequênciarelativa (%)

Frequência

cumulativa (F)

32 0

0

0

33 1 5 5

34 2 10 1535 3 15 30

36 5 25 55

37 6 30 85

38 2 10 95

39 1 5 100

40 0 0 100

Total

20 100

100

Para o fabricante de calçados, é relevante saber que 95% das mulheres da

cidade calçam sapatos de número 38 ou menor. Se precisar reduzir a produ-

ção, ele não terá grandes prejuízos se parar, temporariamente, de fabricar

números maiores que 38.

O tamanho do calçado, que utilizamos no exemplo, é uma variável em esca-

la ordinal. Os números dos sapatos não são representativos de uma medida,como centímetros, mas são categorias criadas em cima de medidas. Se os

fabricantes de sapatos fossem usar centímetros como base para seus produ-

tos, seria impossível cobrir toda a variação milimétrica que encontramos nas

pessoas. Assim, foram criadas medidas relativas que podem ser usadas por

pessoas com tamanhos de pés próximos, mas não, necessariamente iguais.

Por isso, às vezes, um calçado do número que usamos, normalmente, não

fica perfeito. Os tamanhos de calçados são categorias que podem ser orde-

nadas por ordem de tamanho (o 36 é menor que o 37, etc.), mas a diferença

entre os tamanhos não é exatamente igual.

Quando lidamos com variáveis medidas em escala de razão, fica muito

difícil criar tabelas de frequências. Uma forma, que temos para lidar com

isso, é classificar os dados de uma variável contínua, em escala de razão, em

intervalos que cobrirão toda a variação encontrada na amostra.

Vamos imaginar que um médico decidiu ver a frequência da altura dos sol-

dados de um batalhão do exército. Ele mediu um soldado a cada cinco que

Licenciatura em MatemáticaUAB 36
8/17/2019 Livro de Estatística.pdf

37/155

passavam em frente à porta do consultório e assim, conseguiu uma amostra

aleatória (tabela 6). No fim do dia, ele tinha a altura, em metros, de 30 sol-

dados.

Tabela 6: Altura, em metros, de 30 soldados de um batalhão do Exército

Brasileiro.

1,81 1,61 1,75

1,84

1,67

1,60 1,77 1,66 1,61 1,75

1,72 1,62 1,94 1,72 1,62

1,80 1,74 1,68 1,83 1,70

1,88 1,85 1,79 1,73 1,76

1,73 1,65 1,69 1,65 1,80

Vemos que há dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a

maioria das medidas ocorre uma só vez. Assim, se fôssemos criar uma tabela

de frequências como a que fizemos com o tamanhos dos sapatos, teríamos

um monte de medidas com a frequência absoluta de 1 e não chegaríamos

a qualquer conclusão. Desse modo, podemos criar intervalos de medidas

que cubram a variação das medidas e ainda assim nos dê uma ideia de qual

intervalo de altura é o mais frequente no batalhão. Devemos, em primeirolugar, verificar qual o valor mínimo e máximo, e assim, decidiremos quantas

classes de intervalos serão criadas.

Digamos que seria interessante fazer um intervalo de cinco centímetros: o

primeiro cobriria alturas de 1,60m até 1,649m (o médico não mediu com

essa acurácia, mas devemos deixar bem claro, quais são os limites de nossos

intervalos); o segundo, de 1,65m até 1,699m; o terceiro iria de 1,70m até

1,749m, e assim por diante. Nossa tabela de frequências ficaria assim (tabela

7):

Tabela 7: Frequências absoluta, relativas e cumulativa da altura de 30 solda-

dos do Exército Brasileiro, em intervalos de 5 cm.

UABEstatística 37
8/17/2019 Livro de Estatística.pdf

38/155

Altura (m)

Frequênciaabsoluta

Frequência

relativaFrequênciarelativa (%)

Frequência

cumulativa (%)1,60 – 1,649

5

0,17

17

17

1,65 – 1,699 6 0,2 20 37

1,70 – 1,749 6 0,2 20 571,75 – 1,799 5 0,17 17 74

1,80 – 1,849 5 0,17 17 91

1,85 – 1,899 2 0,06 6 97

1,90 – 1,949 1 0,03 3 100

Total

30 1

100

100

Veremos na próxima aula como podemos montar gráficos, usando as tabelas

de frequência e como essas informações podem nos ajudar a entender uma

população que estamos estudando.

Como apresentar uma tabela de frequênciasHá regras bem estabelecidas sobre como uma tabela de frequências deve ser

apresentada em um trabalho acadêmico ou relatório profissional.

Uma tabela deve ser apresentada com um título explicativo do seu conte-údo e deve ser, devidamente, numerada dentro do trabalho. Também no

título, entram as notas que elucidam detalhes de abreviaturas ou métodos

utilizados.

No cabeçalho, vão as informações sobre os dados contidos nas colunas,

verticais. A primeira coluna é denominada coluna indicadora e contém in-

formação sobre os dados contidos nas linhas, horizontais. O corpo da colu-

na é formado pelas células, que são a intercessão entre as linhas e colunas.

No rodapé, deve-se indicar a fonte da informação, quando necessário.

O formato usado deve ser o de duas barras, separando o cabeçalho e uma

linha contendo a tabela na parte inferior. Se usarmos uma linha final para

indicar totais, deve ser destacada e separada por duas barras, como o ca-

beçalho. No editor de texto Word, da Microsoft, deve-se usar o formato

“Tabela clássica”. Verifiquem a tabela 7, acima, para ver como o formato

final deve ser.

Licenciatura em MatemáticaUAB 38
8/17/2019 Livro de Estatística.pdf

39/155

Tal formato deve ser usado em toda a extensão de um relatório ou trabalho

acadêmico, tendo-se o cuidado com a numeração das tabelas apresentadas.

Esse é o primeiro passo para um bom trabalho descritivo de Estatística apli-

cada a qualquer área do conhecimento.

Medidas de Tendência CentralComo vimos, podemos descrever uma amostra representativa de uma po-

pulação através das frequências das classes, ou valores, de uma variável,

criando uma distribuição de frequências. Para entendermos a distribuição

dos dados de uma variável, precisamos resumir a variável em medidas que

representem seus valores centrais e sua amplitude.

Assim, temos as medidas de tendência central, que representam os valo-

res centrais de uma distribuição e as medidas de dispersão, que represen-tam sua amplitude, as quais estudaremos mais tarde.

As medidas de tendência central são medidas da localização do “meio” ou

“centro” de uma distribuição. A definição de “meio” ou “centro” é deixada

um tanto quanto vaga de propósito, de modo que o termo “tendência cen-

tral” pode se referir a uma larga variedade de medidas.

A média aritmética é a medida de tendência central mais comum e a que

estamos mais acostumados a usar: das nossas notas em uma disciplina aténotícias nos jornais, fala-se sempre nessa medida. As outras duas medidas

de tendência central são a mediana e a moda.

Média aritméticaA média aritmética é, simplesmente, a soma de todos os números dividida

pela quantidade dos mesmos. O símbolo µ (a letra grega mu) é usado para

representar a média de uma população, que é um parâmetro. Os símbolos

(pronunciado “xis barra”) ou M representam a média de uma amostra, que

é uma estatística.

A fórmula para a média aritmética é a mesma para uma amostra ou popu-

lação, é muito simples. Abaixo, podemos ver a fórmula da média aritmética

de uma amostra ( ):

UABEstatística 39
8/17/2019 Livro de Estatística.pdf

40/155

Em que x é a soma de todos os números, ou valores, em uma amostra e n é

a quantidade de números, ou valores, nessa amostra.

Por exemplo, a média dos números 1, 2, 3, 6 e 8 é igual a 4, pois a soma dos

cinco números é 20, então 20/5 = 4.

Podemos coletar dados sobre o número de chutes a gol de cada um dos 31

times de um campeonato de futebol (tabela 8); os dados estão no quadro

abaixo, organizados do maior para o menor valor:

Tabela 8: Número de chutes a gol de 31 times de futebol durante um cam-

peonato.

37 33

33

32

29

28

28

2322 22 22 21 21 21 20 20

19 19 18 18 18 18 16 15

14 14 14 12 12 9 6

Com esses valores, podemos calcular a média de chutes a gol dos times nes-

se campeonato, usando a fórmula acima:

Mas devemos prestar atenção quando o uso da média aritmética é válido

e o quanto ela representa a realidade. Sabemos que o número de chutes

a gol é uma variável descontínua, ou seja, não existem números decimais,

apenas inteiros. Não é possível que exista meio chute a gol. Devemos, então,

lembrar que o valor 20,4516 é uma aproximação da realidade, já que esse

valor não é inteiro.

A média aritmética, obviamente, não pode ser usada em variáveis categóri-cas, pois não podemos somar, por exemplo, azul, vermelho e verde.

Para valores contínuos, que possuem números não inteiros (como altura ou

peso), a média aritmética é muito mais acurada, representando um valor

possível de ocorrer. Em muitos casos, a melhor medida de tendência central

para uma variável discreta, como a acima, não é a média, mas uma das ou-

tras medidas que veremos a seguir.

Licenciatura em MatemáticaUAB 40
8/17/2019 Livro de Estatística.pdf

41/155

MedianaA mediana também é uma medida de tendência central, frequentemente,

usada. É o ponto central de uma distribuição: se ordenarmos os dados, há a

mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos,

novamente, os dados dos chutes a gol dos times em um campeonato, no

quadro acima, sabemos que há 31 valores. O 16º valor mais alto, que corres-ponde a 20, é a mediana, pois há 15 valores maiores e 15 valores menores

que ele. Assim, a mesma divide a amostra em duas partes iguais.

A mediana independe da amplitude da amostra. Por exemplo, se temos os

valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana será 76, pois há três

valores menores e três maiores que esse número. Ainda, na série 1, 16, 53,

76, 82, 90 e 92, ela será 76, pois também há três valores maiores e menores

que ele.

No primeiro exemplo, a amplitude dos dados é maior, indo de 1 a 1098.

No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra

consiste de sete números, com o valor de 76 caindo, exatamente, no meio

da distribuição.

A mediana, no entanto, é dependente do tamanho da amostra, pois divide

a distribuição em duas partes iguais. Quanto maior a amostra, mais alta a

posição da mesma.

Para calcularmos a mediana, devemos organizar os dados por ordem de

tamanho. Se tivermos uma amostra com um número ímpar de dados, ela

será aquele, exatamente, do meio. E a sua posição pode ser calculada pela

fórmula:

Em que Me é a mediana e n o número de dados em uma variável.

Por exemplo, na distribuição 11, 12, 13, 16, 17, 20 e 25, a mediana é igual

a 16, pois é o valor que está, exatamente, no meio da distribuição:

4a posição.

Mas atenção: essa fórmula serve para localizar a posição da mediana e não,

o seu valor que se encontrará na posição indicada pela fórmula, quando os

dados forem organizados em ordem crescente.

UABEstatística 41
8/17/2019 Livro de Estatística.pdf

42/155

Se o número de dados da amostra é par, a mediana é o ponto da distribui-

ção que é antecedido e precedido por igual número de dados, mesmo que

seu valor específico não figure entre os dados, pois em um número par de

dados, há dois valores centrais. Por exemplo, na distribuição 11, 12, 13, 16,

17, 20, 25 e 26, podemos usar a fórmula acima:

Isso significa que a mediana se encontra entre o quarto e o quinto valor da

série, que na quarta posição é 16 e na quinta, 17. E para achá-la , tiramos a

média aritmética desses dois valores:

Assim, a mediana da série é 16,5, apesar desse valor não existir na série emquestão.

O fato de a mediana ser uma posição a torna inadequada para certas bases

de dados. Por exemplos, para a série 1, 2, 3, 100, 200, 300, a mediana seria

3+100/2 = 51,5, o que a deixa muito mais perto dos valores menores da

série e bem distante dos maiores.

Já a média aritmética seria 606/6 = 101 e dá uma ideia mais adequada desse

grupo de dados. A mediana é ideal, no entanto, para descrever a tendênciacentral de um grupo de dados proporcionais ou em porcentagem, já que

esses ficarão entre 0 e 1 ou 0 e 100.

ModaA terceira é última medida de tendência central é a moda, que consiste sim-

plesmente no valor que ocorre mais frequentemente.

Assim, no nosso exemplo, lá em cima, dos chutes a gol dos 31 times em um

campeonato d futebol, a moda é 18, pois, pois quatro dos 31 times fizeram18 chutes a gol. Para dados contínuos, que possuem valores decimais, é mui-

to difícil que se encontrem vários valores iguais, e geralmente acabamos com

vários valores da frequência de ocorrência 1, ou seja, cada valor só ocorre

uma vez. Nesses casos, o que se pode fazer é agrupar os dados em intervalos

e criar uma distribuição de frequências agrupadas.

Vejamos um exemplo: um pesquisador mediu o tempo de resolução de 20

alunos para um quebra-cabeça. Os valores, medidos em segundo, variaram

Licenciatura em MatemáticaUAB 42
8/17/2019 Livro de Estatística.pdf

43/155

entre 500 e 1100, e nenhum aluno resolveu o quebra-cabeça, exatamen-

te, no mesmo tempo. Assim, podemos criar uma distribuição de frequência

agrupada (tabela 9).

Tabela 9: Frequência absoluta dos intervalos de tempo de resolução de um

quebra-cabeça, em segundos, por 20 alunos de uma escola.

Amplitude de tempo (segundos) Frequência absoluta

500 – 599 3

600 – 699 6

700 – 799 5

800 – 899 5

900 – 999 01000 – 1100 1

Nessa amostra, a amplitude de tempo que contém o maior número de regis-

tros é a de 600 a 699 segundos, com seis estudantes resolvendo o problema

nesse intervalo de tempo. A moda estará no meio do intervalo e correspon-

derá a 650 segundos.

A moda é a única medida de tendência central que pode ser utilizada emdados categóricos, nominais ou ordinais não numéricos. Moda quer dizer

apenas o que é mais comum, e assim, o termo estatístico tem um significado

bem diferente do sentido coloquial da palavra.

Enquanto no nosso dia-a-dia, os estilistas criam peças exclusivas que poucas

pessoas vão usar e chamam isso de “moda”, já a moda estatística é o que a

maioria das pessoas está vestindo. Assim, calças jeans e camiseta formam a

moda estatística na maioria dos países ocidentais.

Medidas de dispersãoVimos como podemos verificar quais os valores mais comuns em uma variá-

vel, usando as medidas de tendência central. Mas sem sabermos algo sobre

como os dados estão dispersos, as medidas de tendência central podem dar

uma impressão errada da variável.

UABEstatística 43
8/17/2019 Livro de Estatística.pdf

44/155

Por exemplo, uma rua residencial há 20 casas com um valor médio de R$

200.000,00, mas com pouca variação entre os preços, seria muito diferente

de uma rua cujas 20 casas têm o mesmo valor médio, mas que três casas

valem R$1.000.000,00 e as outras 17 custam cerca de R$ 60.000,00.

As medidas de dispersão dão uma visão mais completa e nos fazem enten-der melhor o tamanho da variação dos dados. Elas incluem a amplitude, o

desvio médio, a variância e o desvio padrão.

AmplitudeA mais simples medida de dispersão é a amplitude que é calculada, sim-

plesmente, tomando-se a diferença entre os valores máximo e mínimo do

conjunto de dados.

No entanto, a amplitude só fornece informação sobre os valores extremos enão diz nada sobre os valores entre eles, ou seja, se a variação é homogênea

ou se os valores estão mais agrupados próximos aos extremos. Ela é usada

apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados

se encontra.

Desvio médioPara se ter uma melhor compreensão da distribuição dos dados em uma

amostra, os valores residuais são utilizados para calcular o quanto cada

ponto de dados está afastado dos valores esperados em uma distribuição.Esses resíduos podem ser calculados com base nas diferenças entre cada

ponto de dados e a média, ou através de valores estimados através de, por

exemplo, um cálculo de regressão, que veremos mais tarde.

Um método para calcular o desvio, ou resíduo, em uma amostra é o desvio

médio, que calcula a diferença média entre cada ponto de dados (cada va-

lor da variável) e a média dos pontos de dados, e a divide pelo número de

dados.

Ao se fazer esse cálculo, no entanto, o resultado será um desvio igual a zero,

pois os valores acima da média irão cancelar aqueles abaixo. Se esse método

for usado, o valor absoluto da diferença deve ser medido, de modo, que

apenas valores positivos são obtidos e o resultado é chamado de “desvio

médio absoluto”:

ou

Licenciatura em MatemáticaUAB 44
8/17/2019 Livro de Estatística.pdf

45/155

Em que:

= desvio médio absoluto;

= cada ponto de dados;

= média da amostra;

n = total de pontos de dados na amostra.

O desvio médio não é difícil de calcular e tem certo apelo intuitivo.

No entanto, quando é utilizado para análises estatísticas subsequentes, os

cálculos matemáticos se tornam muito complexos, pois a maior parte dos

teoremas estatísticos se baseia na minimização da soma dos resíduos aoquadrado, em vez da soma dos resíduos absolutos. Por causa dessa com-

plexidade, o desvio médio não é, comumente, usado como uma medida de

dispersão.

VariânciaUma maneira de resolver o problema que o desvio médio apresenta é usar a

variância como medida de dispersão.

A variância de uma variável é uma medida de dispersão estatística que tira amédia da distância ao quadrado entre todos os valores possíveis e a média

aritmética da variável. Desse modo, todos os valores são positivos e a unida-

de da variância é o quadrado da unidade da variável.

Para usarmos a medida de dispersão mais comum, o desvio padrão, que

veremos a seguir, precisamos primeiro calcular a variância.

A variância de uma população é um parâmetro representado por 2; a vari-

ância de uma amostra é representada por s2.

Geralmente, trabalhamos com amostras que representam uma população;

por isso, devemos usar a fórmula da variância amostral:

UABEstatística 45
8/17/2019 Livro de Estatística.pdf

46/155

Lemos a fórmula como o somatório da diferença entre cada valor e a média,

ao quadrado, dividida pelo número de valores, menos um.

O cálculo da variância resolve um problema que o desvio médio apresenta,

que é o de criar valores residuais muito diversos. A aplicação da potência

quadrática funciona como se utiliza um logaritmo, homogeneizando as dife-renças quando forem calculadas outras estatísticas, como o desvio padrão,

que veremos a seguir. Por esse motivo, a medida de dispersão é usada como

base na maioria dos cálculos estatísticos, inclusive em análises avançadas.

Vamos aplicar essa fórmula a um exemplo. Queremos entender quantos

quilos de detritos são produzidos em média pela indústria de tecelagem. Co-

letamos informação de dez tecelagens e conseguimos a seguinte amostra,

em toneladas de detritos por ano (tabela 10).

Tabela 10: Toneladas de detritos produzidos, por ano, em dez tecelagens.

60 74

58

61

56

55 54 57 65 42

Vamos, então, produzir uma tabela para calcular a variância.

O primeiro passo é calcular a média. A soma dos valores de nossa amostra é

582. A média será 582/10 + 58,2. A partir desse resultado, podemos calcular

a diferença entre cada valor e a média. Por exemplo, se subtrairmos a média

do primeiro número, 60, teremos 1,8.

As fábricas, que produziram menos que 58,2 toneladas de detritos por ano,

terão desvios da média com valores negativos; esse é o problema que vimos

sobre o uso do desvio médio como uma medida de dispersão: se somarmos

todos os valores da coluna preenchida, a soma será zero.

Mas sabemos que, se multiplicarmos um valor negativo por ele mesmo, ou

seja, se o fazemos ao quadrado, esse valor se tornará positivo. Por exemplo,

(-0,02) x (-0,02) = 0,04. Vamos então preencher a última coluna e fazer a

soma dos desvios ao quadrado que precisamos para calcular a variância (ta-

bela 11).

Licenciatura em MatemáticaUAB 46
8/17/2019 Livro de Estatística.pdf

47/155

Tabela 11: Desvio da média e desvio da média ao quadrado da produção de

detritos em dez tecelagens.

Detritos

(Toneladas/ano)Desvio da média

(Xi - )

Desvio da média aoquadrado (Xi - )2

60 1,8 3,24

74 15,8 249,64

58 -0,2 0,04

61 2,8 7,84

56 -2,20 4,84

55 -3,20 10,24

54 -4,20 17,64

57 -1,20 1,4465 6,8 46,24

42 -16,20 262,44

Média: 58,2 Soma: 603,60

Agora que temos a soma de todos os desvios da média ao quadrado e sabe-

mos que (n-1) = 10-1 = 9, podemos substituir os termos da fórmula:

Nesse caso, como vimos, a unidade da variância é uma quantidade ao qua-

drado. Dizemos, então, que a variância na quantidade de detritos produzida

pelas indústrias da tecelagem é de 67,07 toneladas por ano ao quadrado.

Quando calculamos a variância de uma população, usamos a mesma fórmu-

la. A diferença é que usaremos a média da população (µ), que é um parâme-

tro, em vez da média amostral ( ), que é uma estatística.

Desvio PadrãoA variância dá a ideia da amplitude da distribuição, mas como seu resultado

é um valor ao quadrado, precisamos saber qual o desvio da média em geral,

usando uma unidade igual à unidade da variável.

UABEstatística 47
8/17/2019 Livro de Estatística.pdf

48/155

No nosso exemplo, precisamos saber qual o desvio geral da média em tone-

ladas de detritos por ano. Assim, devemos usar o desvio padrão, cujo resul-

tado é dado na mesma unidade da variável.

O desvio padrão é, simplesmente, a raiz quadrada da variância, sendo repre-

sentado por , quando representando um parâmetro populacional, ou pors, quando representando uma estatística amostral. Novamente, usaremos a

estatística amostral como exemplo em nossa fórmula:

A raiz quadrada anula a potência de dois, então temos o desvio padrão.

Seguindo o exemplo que usamos até agora, teremos:

Podemos então dizer que, usando nossa amostra de indústrias de tecela-

gem, a quantidade média de resíduos é de 58,2 toneladas por ano e o des-

vio padrão é de 8,19 toneladas por ano. Para resumir, nós apresentamos os

resultados da seguinte forma: a quantidade média de resíduos da indústria

de tecelagem é de 58,2 ± 8,19 toneladas por ano.

Quando apresentamos os resultados dessa forma, damos duas ideias bási-

cas: uma é a da tendência central da variável, dada nesse caso pela média. Aoutra é a ideia de dispersão, fornecida pelo desvio padrão.

Com estas duas medidas, estamos descrevendo a maioria dos dados que

analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padrão da

média, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o

resultado é de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados

estão entre 50,01 e 66,39:

42 – 54 – 55 – 56 – 57 – 58 – 60 – 61 – 65 – 74

Nesse caso, subtraindo ou adicionando o desvio padrão, a média é suficiente

para cobrir 80% dos dados. Por isso, o formato ± s ou µ ± serve bem

para descrever os dados de uma amostra ou população.

Licenciatura em MatemáticaUAB 48
8/17/2019 Livro de Estatística.pdf

49/155

Estatística no ExcelOs programas de computador podem economizar muito tempo de uma pes-

quisa estatística e os editores de planilhas são ideais para a organização das

bases de dados.

Alguns desses editores servem apenas como base para que sejam listados osdados, para depois serem transferidos a programas estatísticos, que realizam

os cálculos. Outros editores possuem funções que permitem o cálculo de

estatísticas básicas, como as medidas de tendência central e de dispersão. O

mais popular dos editores de planilhas é o Excel da Microsoft, que apresenta

várias funções estatísticas.

É muito provável que a maioria de vocês já esteja familiarizada com esse pro-

grama, que em muito facilita a vida de quem trabalha com números. Criado,

inicialmente, para a área financeira, os editores de planilhas como o Excelsão hoje utilizados em todas as áreas do conhecimento que apresentem

dados quantificáveis.

A seguir, veremos como criar uma pequena base de dados no Excel e como

calcular as principais estatísticas de uma amostra.

O primeiro passo é criar um novo arquivo. A primeira linha será sua linha de

título, conterá o nome e a unidade de medida das variáveis. (figura 1).

Figura 1: Aparência de um novo arquivo no editor de planilhas do Excel.

UABEstatística 49
8/17/2019 Livro de Estatística.pdf

50/155

A partir da linha 2, comece a colocar os valores da variável, uma célula para

cada indivíduo e uma abaixo da outra. Se houver mais de uma medida de

cada indivíduo, usam-se as colunas seguintes, sempre mantendo os valores

para um mesmo indivíduo na mesma linha (figura 2).

Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dosolhos de 12 indivíduos.

Os dados inseridos nas planilhas de Excel podem ser, facilmente, organizados

em ordem crescente ou decrescente, permitindo que, em um lance, possa-

mos ver que características são mais frequentes, ou mesmo qual o intervalo

(amplitude) de dados numéricos. Para isso, devemos selecionar toda a tabela

(pois se selecionarmos apenas a variável, só ela será classificada) e usar a

ferramenta “classificar dados” (Dados => Classificar) para organizá-los em

ordem crescente ou decrescente. Temos a opção de “avisar” ao programa se

temos ou não uma linha de cabeçalho (figura 3).

Licenciatura em MatemáticaUAB 50
8/17/2019 Livro de Estatística.pdf

51/155

Figura 3: Usando a ferramenta “Classificar dados” do Excel para ordenar, alfabetica-mente, os dados pela variável “Cor dos olhos”.

A ordenação dos dados é importante em vários testes estatísticos, como as

chamadas “correlações de postos”. Mesmo que eles não sejam realizados

pelo Excel da Microsoft, a simples ordenação automática dos dados já remo-

ve a fase mais demorada desse tipo de teste.

Medidas de tendência central no ExcelPodemos calcular as medidas de tendência central com a ajuda do programa

Excel, de forma rápida e fácil.

Média aritmética

O Excel possui um sistema de fórmulas que podemos utilizar. Por exemplo,

para calcular a média da altura dos indivíduos da tabela vista na figura 2,

devemos ir até o fim da coluna em questão e digitar a seguinte fórmula:

=média(b2:b13)

O Excel reconhece o sinal de “=” como um aviso que vamos usar uma fór-

mula e, entre parênteses, devemos inserir o intervalo de células que contém

a variável, separado por dois pontos. No caso, da célula 2 da coluna B (b2)

até a célula 18 da coluna B (b18)( figura 4).

UABEstatística 51
8/17/2019 Livro de Estatística.pdf

52/155

Figura 4: Calculando a média de uma variável no Excel.

O programa, automaticamente, calcula a média dos dados em questão, bas-

tando para isso que pressionemos a tecla “enter”. O valor da média aparece-

rá, de forma automática, na célula em que escrevemos a fórmula (figura 5).

Figura 5: O valor da média da variável “Altura (cm)” é calculado, automaticamente,pelo Excel.

Licenciatura em MatemáticaUAB 52
8/17/2019 Livro de Estatística.pdf

53/155

Mediana

Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos

indivíduos. Há uma fórmula para isso e seu comando, no Excel, é MED.

Assim, para que possamos calcular a mediana de nossa variável, devemos

escrever, em uma célula livre, a fórmula “=med(b2:b13)”, como pode ser

visto na figura 6.

Figura 6: A fórmula para a mediana no Excel.

Novamente, pressionando-se a tecla “enter”, o valor da mediana é, automa-

ticamente, calculado (figura 7).

Figura 7: A mediana dos valores de altura de uma amostra com 20 indivíduos.

UABEstatística 53
8/17/2019 Livro de Estatística.pdf

54/155

Moda

Para calcular a moda, vamos usar a variável categórica nominal “cor dos

olhos”, que possui três classes (azul, castanho e verde) e está representada

na figura 2.

Como fizemos para a organização dos dados, vamos selecionar toda a tabe-la e pedir que o programa classifique os dados pela variável “cor dos olhos”,

da mesma forma como foi vista naffigura 3. Com as classes ordenadas, po-

demos, facilmente, contar qual a classe mais abundante. Castanho é a moda

para a cor dos olhos dos indivíduos da amostra, com sete indivíduos, em

uma amostra de 12, apresentando olhos castanhos ffigura 8).

Figura 8: Dados nominais ordenados permitem a identificação da classe modal noExcel.

Variância e desvio padrão com ExcelPodemos usar o Excel para calcular a variância de uma variável bem rapida-

mente; isso é muito útil, principalmente, com grandes bases de dados. O

Excel possui um comando para calcular a variância: VAR. Então, vamos usar

nosso exemplo da altura de um grupo de indivíduos, com a mesma tabelaque estamos utilizando, inserindo a fórmula “=var (b2:b13)” em uma célula

livre ffigura 9).

Licenciatura em MatemáticaUAB 54
8/17/2019 Livro de Estatística.pdf

55/155

Figura 9: A fórmula para calcular a variância em Excel.

Novamente, o valor é calculado, automaticamente, ao se pressionar “enter”

ffigura 10).

Figura 10: A variância dos valores de altura de uma amostra com 20 indivíduos.

Há duas maneiras de se calcular o desvio padrão a partir de agora: pode-

mos, simplesmente, tirar a raiz quadrada da variância em uma calculadora

comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).

UABEstatística 55
8/17/2019 Livro de Estatística.pdf

56/155

Figura 11: A fórmula do desvio padrão no Excel.

A vantagem de se utilizar a fórmula na planilha do Excel é que podemos ter

todos os cálculos em um único luga (ffigura 12). Não há problema se termi-

namos com uma sequência de valores, aparentemente, desconhecidos abai-

xo de nossos dados, pois, quando selecionamos a célula, a fórmula utilizada

aparece na caixa de função (fx) no alto da janela do Excel.

Figura 12: O desvio padrão dos valores de altura de uma amostra com 20 indivíduos.

Licenciatura em MatemáticaUAB 56
8/17/2019 Livro de Estatística.pdf

57/155
8/17/2019 Livro de Estatística.pdf

58/155

Referências

LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.1967.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO

BRASIL. 1978.SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.

SPIEGELRRAY R, Estatística. MAKRON. 1994

Licenciatura em MatemáticaUAB 58
8/17/2019 Livro de Estatística.pdf

59/155UABEstatística 59
8/17/2019 Livro de Estatística.pdf

60/155Licenciatura em MatemáticaUAB 60
8/17/2019 Livro de Estatística.pdf

61/155

Aula 3 - Representações gráficas

Objetivos

• Conhecer a apresentação visual de dados amostrais e sua aplica-

ção na pesquisa estatística;

• Aprender a construir os tipos mais comuns de representações

gráficas na Estatística;

• Conhecer alguns tipos de grácos para variáveis múltiplas;

• Usar o Excel na elaboração de grácos.

AssuntoNesta aula, veremos como é possível representar um conjunto de dados

amostrais visualmente, de forma a permitir uma rápida compreensão da

informação coletada. Veremos os formatos de gráficos mais comuns para re-

presentar uma única variável e algumas maneiras de trabalhar com múltiplasinformações visíveis, assim como aprenderemos a aplicar esse conhecimento

nas pesquisas estatísticas.

IntroduçãoUma forma simples de sumarizar uma variável é através das representações

gráficas. Gráficos e diagramas ajudam a visualizar os dados imediatamen-

te - entende-se, de pronto, a distribuição das frequências, ajudando-nos a

reconhecer padrões já existentes.

Há dezenas de possíveis representações gráficas na Estatística. Nesta aula, no

entanto, vamos nos ater às formas mais utilizadas em relatórios e trabalhos

acadêmicos, de forma a permitir a descrição adequada de dados amostrais.

O uso de gráficos em trabalhos estatísticos cresceu a partir da popularização

dos computadores: gráficos que eram, penosamente, desenhados a mão

UABEstatística 61
8/17/2019 Livro de Estatística.pdf

62/155

podem ser feitos, hoje em dia, em segundos, e com possibilidades infinitas

de cores e formas. Porém, há um lado bom e um lado mau no uso crescente

de representações gráficas.

No lado bom, os gráficos fáceis de fazer incentivam a impo