A Distribuição Normal
-
Upload
eduardo-coraca -
Category
Documents
-
view
18 -
download
5
Transcript of A Distribuição Normal
1
Capítulo 3 – A Distribuição Normal
3.1 - Introdução
Experimentos compostos pela repetição, sucessiva e independente de um mesmo experimento básico
geram sequências de variáveis aleatórias X1, X2, X3, … independentes entre si, mas identicamente
distribuídas. Tal é o caso, por exemplo, da repetição de um mesmo experimento binário Ep, ou do nosso
conhecido D5, o arremesso de um dado não viciado de cinco lados. Uma questão que surge
naturalmente, nesses casos, se refere à distribuição de probabilidades da soma Sn, dos n primeiros
valores observados: o número de sucessos em n repetições de Ep, ou a pontuação total acumulada em n
arremessos sucessivos e independentes de um dado.
No primeiro caso, já temos a resposta formal rigorosa. O número de sucessos em n repetições
independentes e sucessivas de Ep, o experimento composto Epn, tem distribuição binomial com
parâmetros n e p, que representamos por Sn~b(n, p), com
Como, nesse caso, E(Xi)=p e V(Xi)=p(1-p), esperança e variância de Sn são determinadas diretamente das
propriedades básicas: E(Sn)=np e
V(Sn)=np(1-p). A figura ao lado é uma
representação gráfica da b(100, 0,2),
na faixa de 30 a 70, com
probabilidades não extremamente
pequenas. Para valores de n muito
elevados, os cálculos podem ser
complicados, mesmo com o uso de
computador.
Nos casos como o D5, ou mais gerais,
como Dm, de um dado hipotético de m lados, os cálculos diretos de probabilidade de Sn, a soma dos
primeiros n resultados individuais em repetições sucessivas do experimento aleatório elementar ainda
podem ser feitas com o auxílio de
algoritmos como o apresentado no
Capítulo 2 para D5n, embora, para m e
n grandes os valores envolvidos para a
cardinalidade de eventos como {Sn=s}
se agigantem muito rapidamente. A
figura abaixo é uma representação
gráfica de P{S20=s}. Como na figura
acima, a representação se restringiu à
faixa relevante de valores possíveis.
A semelhança de forma geral das duas figuras não é, de forma alguma, acidental, mas se constitui na
manifestação de uma das propriedades mais interessantes de toda a Matemática e, certamente, um dos
resultados mais importantes da Teoria da Probabilidade: O Teorema Central do Limite. Este teorema,
em uma de suas versões mais simples, assegura que se uma variável aleatória, como Sn, é a soma de um
número n de observações sucessivas e independentes de uma variável aleatória X, com esperança e
variância 2, então, na medida em que n cresce, a sua distribuição se aproxima cada vez mais da
distribuição normal (ou gaussiana), de esperança ne variância n2. Assim, no primeiro caso, com o
número de sucessos em 100 repetições de um mesmo Ep com p=0,2, devemos esperar uma distribuição
2
aproximadamente igual a uma normal, de esperança 20 e variância 16. No segundo caso, de 20
repetições de D5, o resultado acumulado deve ter distribuição aproximadamente Normal, com
esperança 60 e variância 40.
3.2 - A Distribuição Normal
Uma variável aleatória contínua X é dita ter distribuição Normal, com esperança e variância 2, que se
representa por X~N(, 2), se sua f.d.p. for
Com esperança 0 e variância 1, tem-se a Normal padrão, geralmente representada por Z, isto é, Z~N(0,
1), é dita ter distribuição normal padrão. Sua função
de densidade de probabilidades, representada por
(z), é
, para z real. A figura ao lado
representa a f.d.p. da normal padrão. Como se vê, a
normal padrão concentra praticamente toda a
probabilidade no intervalo (-3, 3). A tabela abaixo dá
a probabilidade de eventos do tipo {-i<Z<i}, para i=1,
2, 3, 4 e 5.
Ao final deste
capítulo uma tabela mais completa traz a distribuição acumulada da
normal padrão
para z=0 até z=3,99, a passos de 0,01. A figura abaixo representa
(z), a função de distribuição acumulada de uma variável aleatória distribuída segundo uma normal
padrão.
A transformação
reduz uma variável
aleatória X~N(, 2) à sua forma padrão Z~N(0, 1).
Assim, a probabilidade de eventos como {X<a} pode
ser extraída da tabela para a normal padrão, pois
Exemplo 3.2.1 – Uma variável aleatória X tem distribuição Normal, com esperança 100 e variância 100,
portanto desvio padrão 10. Calcule:
a- P{X<100}
Evento probabilidade
{ <Z < } 0,68268949
{< Z < } 0,95449974
{< Z < } 0,99730020
{< Z < 0,99993666
{-5 < Z < 0,99999943
3
Como a normal é simétrica em torno da esperança, então P{X<100}= P{X>100}=0,5.
b- P{X<110} e P{X<90}
Ora, o valor 110 está exatamente a um desvio padrão acima
da esperança, logo
Da tabela tiramos (1)=0,84134, portanto P{X>110)=0,1587, e, por simetria P{X<90)=0,1587.
c- P{90<X<110}
Transformando para a normal padrão, temos:
Como, por simetria, temos:
Aplicação do Teorema Central do Limite, na versão apresentada, para soma de variáveis aleatórias
independentes e identicamente distribuídas, nos permite resolver, de forma muito simples, uma
variedade surpreendente de problemas práticos antes intratáveis. Vejamos alguns exemplos:
Exemplo 3.2.2 – Seja Ep, um experimento aleatório binário, com P{s}=p, o qual é repetido sucessiva e
independentemente, gerando resultados parciais X1, X2, X3, …, variáveis aleatórias independentes e
identicamente distribuídas, com distribuição binária de P{X=1}=p. Vamos definir e
, respectivamente a soma e a média aritmética dos n primeiros valores
observados. Neste caso particular, Sn é o número total de sucessos obtidos e a freqüência de
sucessos, nas n primeiras repetições. Vamos considerar valores grandes de n.
a- Seja p=0,50 (como no arremesso de uma moeda) e n=10000. Calcule P{4.900<Sn<5.100}.
A variável aleatória X, correspondente ao resultado parcial em cada repetição, tem distribuição B(0,5),
portanto E(X)=0,5 e V(X)=0,25. Sendo a soma de 10 mil observações independentes de X, Sn tem
esperança 5000 e variância 2500, logo:
Portanto
Como se pode ver, a faixa de valores realmente possíveis para o número total de Caras em dez mil
arremessos de uma moeda é surpreendentemente estreito e se situa em torno do valor médio
esperado, 5000.
4
A propósito, através de sequência análoga de operações, obtém-se P{4850<Sn<5150} 0,9973.
b- Seja p=0,20 (como na obtenção de um 5 em D5) e n=1000. Calcule .
Neste caso, X tem esperança 0,2 e variância 0,16, logo Sn tem esperança 200 e variância 160. Sendo a
soma de mil resultados parciais, a distribuição de Sn , uma b(1000, 0,2) é bem próxima da normal de
mesma esperança e mesma variância. Ora, se Sn~N(200, 160), então sendo igual a Sn dividido por n,
tem também distribuição aproximadamente normal, com esperança e variância iguais a 0,2 e 0,00016,
respectivamente. Assim,
Portanto,
Exemplo 3.2.3 – Consideremos agora sequências de repetições independentes de D5, com X1, X2, X3, …,
Sn e definidos da forma usual. Agora, E(X)=3 e V(X)=2, portanto E(Sn)=3n e V(Sn)=2n. Lembrando que
, temos e
. Com n não muito pequeno podemos aproximar as
distribuições, tanto de Sn como de , à Normal, com esperanças e variâncias correspondentes. Assim,
com n=100, E(Sn)=300, V(Sn)=200, e . Desta forma, embora o conjunto de
valores possíveis para S100 seja o dos inteiros de 100 a 500, a probabilidade de S100 cair no intervalo
fechado de 270 a 330 é superior a 0,95. O cálculo mental rápido segue o roteiro: (1) O desvio padrão de
Sn é raiz de 200, ou 14,1; (2) portanto o intervalo considerado, [270, 330] se estende, simetricamente
em torno de E(Sn), por mais que dois desvios padrões de Sn de cada lado; (3) sendo a soma de 100
resultados intermediários, igualmente distribuídos e independentes, a distribuição de Sn pode ser
considerada aproximadamente Normal; (4) logo um intervalo de dois desvios padrões em torno de E(Sn)
terá probabilidade um pouco acima de 0,95. Um cálculo mais cuidadoso, extraindo resultados da tabela,
nos leva a P{270Sn 330}=0,965994. Um refinamento ainda usando a aproximação pela normal,
conforme discutiremos adiante, resulta P{270Sn 330} = 0,967847. O valor exato, calculado através do
algoritmo desenvolvido no Capítulo 2, estendido até n=100, é 0,969155739. O melhor resultado obtido
através da aproximação pela distribuição Normal apresentou, portanto, uma subavaliação relativa de
0,019%, desprezível para a maioria dos fins. A propósito, existem exatamente 764.529.073.299.384x1055
maneiras diferentes – cada uma com a mesma probabilidade, 5-100
– de se obter a soma dos 100
resultados parciais no intervalo [270, 330]. Vejamos outras questões.
a- Calcule P{S1000>3100}.
Com n=1000, E(Sn)=3000 e V(Sn)=2000. Assumindo a aproximação Normal para a distribuição de
S1000, temos:
Como se vê, em 1000 arremessos de um dado não viciado de cinco lados, o total esperado é 3000, e
a probabilidade do total superar 3100 é de apenas 1,29%.
b- Se o dado for ligeiramente tendencioso, (ver tabela),
calcule P(S1000)>3100
A distorção nas probabilidades altera a esperança e a variância de X. Agora, E(X)=3,04 e
V(X)=1,9984, portanto,
1 2 3 4 5
0,19 0,20 0,20 0,20 0,21
5
A distorção no dado, favorecendo ligeiramente o resultado 5 em detrimento do 1, aumenta a
esperança de S1000, elevando a probabilidade de um valor superior a 3100 de 1,29% para 9,01%.
c- De volta ao D5 não tendencioso e n=1000, determine um inteiro m, tal que P{3000–
mSn3000+m}=0,99.
O intervalo em questão é, portanto, simétrico em torno de E(Sn), com meia amplitude igual a m.
Numa normal, o intervalo simétrico em torno da esperança de probabilidade 0,99, tem meia largura
igual a 2,58 desvios padrões (da tabela, (2,58)=0,995), logo 2,58 desvios padrões de S1000 é igual a
m, portanto .
d- Dois amigos, A e B disputam uma corrida de dados (para maior agilidade do processo, vamos
supor que o jogo é feito com dados simulados no computador). Em rodadas sucessivas, eles vão
arremessando seus dados e acumulando os resultados:
A X1, X2, X3, … , Sn e
B Y1, Y2, Y3, … , Tn e
Qual a probabilidade de que, após 100 rodadas, B esteja liderando a corrida por mais que 10
pontos?
A solução é simples e começa com a definição de Dn = Tn – Sn, a vantagem de B sobre A após n
rodadas. Como E(Sn)=E(Tn), E(Dn)=0 enquanto que V(Dn)=V(Sn)+V(Tn)=4n. Admitindo-se que Sn e
Tn tem distribuição Normal, conclui-se que Dn~N(0, 4n) e, portanto, D100~N(0, 400); logo:
Por simetria, esta é também a probabilidade de que, após 100 rodadas, A esteja liderando por
mais que 10 pontos.
e- Na corrida acima, vamos agora supor que os dados sejam ligeiramente distorcidos em favor do
jogador B, como mostra a tabela ao lado. Qual a
probabilidade de B ganhar uma corrida de 1000
rodadas?
Agora E(Sn)=2,96 e E(Tn)=3,04, enquanto as duas
variância são iguais a 1,9984, portanto E(Dn)=0,08 e V(Dn)=3,9968n. Com 1000 rodadas,
teremos E(D1000)=80 e V(D1000)=3996,8 e
Como se vê, a ligeira distorção dá a B enorme vantagem em uma corrida prolongada. Nessas
condições vantajosas, sua probabilidade de vencer uma corrida de dez mil rodadas é
(4,00)=0,999968.
1 2 3 4 5
A 0,21 0,20 0,20 0,20 0,19
B 0,19 0,20 0,20 0,20 0,21
6
A qualidade da aproximação da distribuição de probabilidades de Sn associadas a D5n por N(3n, 2n) pode
ser bem apreciada através da figura abaixo. Nela as barras verticais representam os valores exatos de
P{S100=s}, para valores de d na região relevante, de 250 a 350, calculados através do algoritmo
apresentado no Capítulo 2,
são sobrepostos por uma
linha envoltória contínua
corresponde à f.d.p. da
normal com esperança 300 e
variância 200. A quase
perfeita coincidência entre
valores exatos e aproximados
pode ser apreciada. A tabela
abaixo apresenta os dois
grupos de valores da
probabilidade – exato e aproximado – para um conjunto selecionado de valores de d.
P{S100=s} s
250 260 270 280 290 300
Valor exato 5,196E-05 0,0005113 0,0029794 0,0104059 0,0219665 0,0281636
Aproximação Normal 5,446E-05 0,0005167 0,0029733 0,0103777 0,0219696 0,0282095
Erro percentual 4,81 1,06 -0,20 -0,27 0,01 0,16
Exemplo 3.2.4 – As ideias acima são agora aplicadas ao problema geral de amostragem em populações
muito grandes. Quer-se estimar a taxa de ocorrência (p) de determinada característica genética em uma
população de dezenas de milhões de indivíduos. O teste é preciso, mas caro e intrusivo, portanto a
amostra deve ser a menor possível. Sabe-se que p deve estar na faixa de 10 a 25%. Uma amostra de
1200 indivíduos é inicialmente considerada.
Considerando-se o pior caso em termos da variância, qual seria a probabilidade de um erro superior a 2
pontos percentuais na estimativa de p?
Primeiro vamos definir como Xi o resultado relativo ao i-ésimo indivíduo sorteado: Xi=1 se o indivíduo
apresenta a característica genética estudada, e Xi=0, caso contrário. Assim, Xi~B(p), e E(Xi)=p e V(Xi)=p(1-
p), onde p é a fração de indivíduos com a característica genética estudada, na população.
Com uma amostra aleatória de tamanho n, teremos X1, X2, …, Xn, independentes e com a mesma
distribuição B(p), a distribuição binária ou de Bernoulli. A soma Sn tem, então, distribuição binomial com
parâmetros n e p: Sn~b(n, p). A esperança e a variância de Sn são, respectivamente, np e np(1-p).
Pelo teorema central do limite, podemos aproximar S1200~N(1200p, 1200p(1-p)), logo
Portanto,
7
O pior caso (com maior probabilidade de erro superior a 2 pontos percentuais), ocorre quando a
variância é máxima. A variância depende de p e, como se sabe que p está no intervalo (0,10, 0,25), o
pior caso, em termos de variância ocorre em p=0,25, com V(X)=0,1875. Então
Portanto, nas condições e hipóteses do exercício, com uma amostra de tamanho n=1200, e sabendo a
priori que p se situa entre 10 e 25%, a probabilidade de um erro de estimativa superior a 2 pontos
percentuais é, no máximo, 10,96%. Com amostra duas vezes maior este limite superior cai – você pode
fazer as contas – para 2,36%. No outro extremo, a menor variância possível, correspondente a p=0,10, é
V(X)=0,09 e V(S1200)=7510-6. Neste caso, com n=1200, ou 2,09%; com
n=2400 essa probabilidade cai para 0,1%. Fazer todas essas contas é um bom exercício.
Exercício 3.2.5 – Diversos aspectos importantes relativos às condições gerais de uma grande população
podem ser monitoradas com precisão e objetividade através de pesquisas nas quais apenas uma fração
ínfima dos indivíduos da população – selecionados por
sorteio aleatório – precisam ser avaliados. Este
exemplo, com dados simulados, mostra como a
escolaridade média de jovens brasileiros de 15 anos de
idade, pode ser estimada de forma rápida, econômica e
muito precisa. Suponhamos inicialmente a
subpopulação de jovens de 15 anos, distribuída, por
anos de escolaridade formal completados com sucesso,
como na tabela ao lado. Nela, a escolaridade média é:
anos, onde Nx é o número de
indivíduos na subpopulação estudada, com x anos de
escolaridade, e N é o tamanho total da subpopulação.
Nesse exemplo, com dados fictícios (mas não de todo
dessemelhantes da situação real) . O desvio
quadrático médio de X na subpopulação, definido como
, pode ser, neste caso,
reescrito como
, é igual a 2,745, e mede o quão espalhados os indivíduos estão,
em termos de escolaridade, em torno da escolaridade média, 8,30.
Suponha agora um experimento aleatório: sorteio aleatório de um dos indivíduos daquele grupo. Por
sorteio aleatório, aqui, nos referimos ao sorteio no qual cada um dos indivíduos da população
amostrada tem a mesma chance de vir a ser o escolhido. Seja X, agora, a variável aleatória
correspondente ao número de anos de escolaridade do jovem selecionado. A distribuição deS
probabilidades de X pode então ser derivada da tabela à esquerda, com
. A esperança de X pode
então ser calculada:
. A esperança de X é
Anos de escola
População
0 5.147 1 13.511 2 21.875 3 32.812 4 46.644 5 261.208 6 38.280 7 76.560 8 513.233 9 1.924.812
10 256.061 11 26.056 12 643
Total 3.216.842
x P{X=x}
0 0,0016 1 0,0042 2 0,0068 3 0,0102 4 0,0145 5 0,0812 6 0,0119 7 0,0238 8 0,1595 9 0,5984
10 0,0796 11 0,0081 12 0,0002
8
igual à média populacional de x, e isto decorre do sorteio aleatório, que dá a cada indivíduo na
população a mesma chance se ser sorteado. De forma análoga pode-se mostrar que .
Estes dois resultados são importantes e abrem o caminho para a estimativa de , a média populacional
de x. Para isto vamos repetir o experimento acima, n vezes. Os resultados parciais são X1, X2, …, Xn,
independentes e identicamente distribuídos, com esperança e variância .
Fazendo
temos ,
e, se n não for muito pequeno,
terá distribuição aproximadamente normal. Seja, por exemplo, uma amostra de n=275 indivíduos. Nesse
caso,
e N(8,30, 0,01), portanto o desvio padrão de é 0,10 e, ao realizar a
amostra, a média amostral cairá a menos de 0,2 ano de distância do alvo, a média populacional
, com probabilidade 0,95.
Este exemplo ilustra o poder da amostragem aleatória: com uma amostra de apenas 275 indivíduos, a
média de x em uma população de mais de três milhões de jovens pode ser estimada com grande
precisão. Com uma amostra quatro vezes maior, n-1100, o desvio padrão de cairia à metade, e o
intervalo em torno de com probabilidade 0,95 seria teria largura total de apenas 2 décimos de ano, ou
. Não é um mau resultado, considerando que a população estudada tem mais que
três milhões e duzentos mil indivíduos.
Exemplo 3.2.5 – Considere o , experimento composto, formado por 50 arremessos sucessivos e
independentes de um dado comum de 6 lados. Sejam X1, X2, …, X50 os cinquenta resultados parciais
independentes e o resultado acumulado é dado por
Como E(X)=3,5 e V(X)= 2,916667, temos V(T)=175 e V(T)=145,83333. As probabilidades de P{T=t} foram calculadas
usando algoritmo já descrito, para t de 0 a 300. Para P{T=175}, por exemplo primeiro determinamos o número de
maneiras diferentes existem de se obter 175 pontos em 50 arremessos de um dado. Esse número é
26.617.249.029.052.500.000.000.000.000.000.000.000, o qual, dividido por 650 resulta em P{T=175}=0,032930676.
O valor da f.d.p. da normal correspondente, em t=175 é 0,033035559, uma diferença de 0,32%. Este erro relativo
tende a crescer em direção às caudas da distribuição, na medida em que se afasta da esperança.
Essa distribuição de probabilidades está representada na figura abaixo.
Para comparação, o gráfico acima e a curva correspondente à função de densidade de probabilidades da normal
correspondente, N(175, 145,83333), são sobrepostos na mesma figura abaixo. A quase perfeita sobreposição das
0,000
0,005
0,010
0,015
0,020
0,025
0,030
0,035
12
0
12
5
13
0
13
5
14
0
14
5
15
0
15
5
16
0
16
5
17
0
17
5
18
0
18
5
19
0
19
5
20
0
20
5
21
0
21
5
22
0
22
5
23
0
9
duas distribuições de probabilidades atesta a convergência do total de n arremessos de um dado à normal
correspondente (de mesma esperança e mesma variância), quando n é grande.
Cálculos precisos podem ser feitos para probabilidades como P{T<180}, usando-se, em lugar dos cálculos exatos
(mas numericamente laboriosos), a aproximação normal:
P{T<180}P{Y<179,5} com Y~N(175, 145,83333). Para este caso, temos o valor exato P{T<180}=0,644909, que bem
aproximado por P{Y<179,5}=0,64529, com um erro relativo de apenas 0,059%
Exercício 3.2.6 – Na figura abaixo está representada a função de distribuição de probabilidades da
pontuação total em 100 arremessos de um dado comum de 6 lados. Mostre com argumentos numéricos
que essa distribuição pode ser aproximada com grande precisão da normal correspondente.
0,000
0,005
0,010
0,015
0,020
0,025
0,030
0,035
12
0
12
5
13
0
13
5
14
0
14
5
15
0
15
5
16
0
16
5
17
0
17
5
18
0
18
5
19
0
19
5
20
0
20
5
21
0
21
5
22
0
22
5
23
0
0,000
0,005
0,010
0,015
0,020
0,025
29
0
29
5
30
0
30
5
31
0
31
5
32
0
32
5
33
0
33
5
34
0
34
5
35
0
35
5
36
0
36
5
37
0
37
5
38
0
38
5
39
0
39
5
40
0
40
5
41
0
10
3.4 – Construindo intervalos de confiança para a esperança de X
Seja X uma variável aleatória de esperança , desconhecida. Considere o problema de construir um
intervalo de confiança para , com base em n observações independentes de X. Primeiro vamos
considerar a situação mais favorável em que a variância, 2, é conhecida. De X1, X2, X3, …, Xn tiramos
. Vamos admitir que n é grande o suficiente para que a distribuição de possa,
com segurança, ser aproximada pela Normal de esperança m e variância
. Sabemos então que
Portanto
Podemos então concluir que, ao realizar as n observações independentes, a probabilidade do intervalo
incluir o parâmetro é 0,95. Uma vez realizadas as n observações e
calculado poderemos afirmar, com 95% de confiança que,
.
Exemplo 3.3.1 – Uma variável aleatória X tem variância conhecida, 2=12, mas esperança
desconhecida. Com o objetivo de se estimar , 300 observações independentes são feitas da variável X.
A soma dos 300 valores observados resultou em 7725, portanto
A variância de A
variância de é, portanto, igual a 0,04; seu desvio padrão, 0,20. Embora, inicialmente, nada se
soubesse de m, podemos agora afirmar, com 95% de confiança, que é algum valor no intervalo (25,75-
1,960,20 , 25,75+1,960,20) = (25,358 , 26,142).
Diz-se então que (25,358 , 26,142) é um intervalo de 95% de confiança (resumidamente, um i95%c) para
.
3.4 – Construção de intervalos de confiança com a distribuição t de Student
Numa classe mais geral de problemas, quer-se fazer inferências sobre a esperança de uma variável
aleatória, como na seção anterior, mas a variância de X é desconhecida. Assim, intervalos de confiança
do tipo
não poderão ser construídos, simplesmente porque o parâmetro é
desconhecido.
A saída foi encontrada por W. Gosset, que em um artigo de 1.904, sob o pseudônimo Student, deduziu a
expressão algébrica da distribuição da estatística
. Vamos a este resultado.
11
Seja X~N(, 2), e sejam X1, X2, …, Xn, n observações independentes de X, com
. Já
sabemos que
tem distribuição N(0, 1) e utilizamos este fato para construir intervalos de
confiança para em situações em que é conhecido.
Com desconhecido, lançamos mão de
como substituto para2. De fato, da
mesma forma como converge para na medida em que n cresce, s2 converge para
2. A prova deste
resultado não será feita neste capítulo.
A ideia de usar intervalos da forma
, com s no lugar de ocorre naturalmente,
mas depara com uma dificuldade: a distribuição de
não é N(0, 1). Desta forma, não podemos
tirar a constante k da tabela da normal padrão, como fizemos com k=1,96, para i95%c.
Student resolveu o problema deduzindo a
expressão da função de densidade de
probabilidades da variável aleatória
.
Ela depende de n; sua dedução é trabalhosa, mas
elegante e relativamente simples. Ela demanda
alguns conceitos que ainda não foram tratados e
será apresentada em capítulo mais adiante. A
função de densidade de probabilidades de Tn é
, para -<t<
A função gama que aparece na expressão acima é
definida como
. Em justa
homenagem a Gosset, a variável aleatória Tn é
dita ter distribuição t de Student, com (n-1) graus de liberdade.
A figura ao lado, representa f.d.p. da t de Student com 5 graus de liberdade, superposta à f.d.p. da
normal padrão. As semelhanças são óbvias, mas a t tem uma cauda mais pesada. Na medida em que os
graus de liberdade vão aumentando, a t vai se aproximando da normal padrão, de forma que para 100
ou mais graus de liberdade, as diferenças são irrelevantes para a maioria das aplicações práticas. Uma
tabela no final deste capítulo dá valores críticos para a t de Student, para a construção de intervalos de
90, 95 e 99%, para graus de liberdade indo de 1 a 100. Para tamanhos amostrais grandes, usa-se os
valores críticos da N(0,1).
Exemplo 3.4.1 – Numa inspeção regular de rotina, técnicos do IMETRO, percorrendo vários pontos de
venda na cidade, selecionam uma amostra aleatória de 16 pacotes de determinado detergente, com
peso líquido nominal de 1000 g. Levadas ao
laboratório e analisadas, as amostras
apresentaram os pesos líquidos reais na tabela
ao lado. Vamos construir um i95%c para o peso
médio real com que os pacotes estão sendo produzidos pelo fabricante. Temos =15.928 e
=15.858.572, logo
e
=
149,87g2. Da tabela, tiramos F-1(0,975)=2,131, onde F-1 é a inversa da função acumulada de distribuição
1024 988 985 1000 981 1006 999 986
992 975 1001 987 1012 995 998 999
12
de probabilidades de uma t de Student com 15 graus de liberdade. Logo, o i95%c para a média é
, ou (989,8, 1002,0).
Com base na amostra, podemos afirmar, com 95% de confiança, que os pacotes vêm sendo produzidos
com peso líquido médio no intervalo (989,8, 1002,0). Não dá, portanto, para descartar a hipótese de
que a calibração na fábrica esteja correta, ou seja, que os pacotes vem sendo produzidos com peso
médio igual a 1000 g, como declarado no rótulo do pacote.
Exemplo 3.4.1 – O tempo de resposta de um motorista de caminhão a determinado estímulo visual é
medido, em milésimos de segundo, quatorze vezes, independentemente, e em condições bem
controladas. Os resultados são dados na tabela abaixo, e são representados no diagrama de pontos.
Queremos aqui construir um intervalo de confiança para , o tempo médio de resposta para o
motorista, sob as condições gerais do experimento. Sabendo que
tem distribuição t de
Student, com n-1 graus de liberdade, podemos então afirmar que
Logo,
Multiplicando os termos a desigualdade por -1, temos que inverter os sinais de desigualdade. Assim:
E, portanto
Sabemos então que a probabilidade do intervalo aleatório
vir a conter
o parâmetro desconhecido é igual a 0,95.
Dos valores observados, t1, t2, ..., t14, tiramos:
188 187 210 190 177 192 192 180 173 179 191 187 198 170
13
Daí, construímos um intervalo de 95% de confiança para :
, ou (180,7 , 192,8).
Afirmamos, então, com 95% de confiança, que – sob as condições gerais definidas para o experimento –
o tempo médio de respostado motorista, , está contido no intervalo (180,7 , 192,7) milissegundos.
Sobre a questão da divisão por (n-1)
No cálculo de s2, como no exemplo acima, usamos a expressão
. A soma de n
parcelas e a divisão por (n-1), e não por n, sempre causa dúvida e desconforto. Vamos explicar, primeiro
no contexto de uma população finita.
Suponha uma população de N indivíduos, aos quais estão associados valores de uma variável
quantitativa, X. Sejam X1, X2, …, XN os valores de X associados aos indivíduos 1, 2, …, N, respectivamente.
Definimos agora dois parâmetros populacionais, , respectivamente a média e o desvio quadrático
médio, populacionais, de X:
Devemos resistir à tendência de chamar S2 de variância de X, uma vez que esta é um parâmetro
associado a uma variável aleatória e, até o momento não há nada aleatório no esquema montado: Uma
população, uma variável quantitativa e dois parâmetros populacionais dessa variável.
Vamos agora introduzir certo esquema probabilístico: a seleção aleatória de um dos indivíduos da
população e a determinação do valor de X para esse indivíduo; seja x esse valor. Agora, x é uma variável
aleatória. Se o esquema de sorteio aleatório adotado foi tal que qualquer dos N indivíduos da população
teve a mesma chance 1/N de ser sorteado, então
Vemos agora a associação entre V(x) e S2: se um indivíduo for selecionado ao acaso, de forma que cada
indivíduo na população tenha a mesma chance de vir a ser sorteado, e, fazendo x igual ao valor da
14
variável X para aquele indivíduo, então V(x)=S2. Vamos então, respeitando a convenção, representar
por e 2, respectivamente.
Suponha agora um sorteio se n indivíduos da população, sendo n<N. Aos valores observados de X,
denominaremos x1, x2, … , xn, e seja
. Para garantir a independência entre os xi’s, podemos
adotar o sorteio com reposição: cada indivíduo selecionado é reposto na população, podendo inclusive
vir a ser selecionado novamente. Desta forma, após cada sorteio a população é restaurada à sua
integridade, e o novo indivíduo sorteado o será em condições exatamente idêntica às do anterior,
garantindo a independência entre os resultados. Sabemos, então, que
Agora, vejamos o que acontece com o desvio quadrático médio amostral,
. Como
veremos, sua esperança não é 2, logo, se o utilizarmos como o estimador da variância, teremos um
estimador viciado. Vejamos:
Separando os termos em colchete:
Precisamos agora determinar . Ora,
Como os xi’s são independentes entre si, então E(xixj) é igual a 2 para ij, e 2+2 para i=j. Logo,
Podemos então concluir que
Portanto,
15
Ou seja,
Diferente de 2, portanto. Por outro lado,
Usamos, então,
como o estimador mais apropriado (não tendencioso) de 2.
Note que E(xi - )2=
2. Portanto, se não fosse desconhecido, poderíamos estimar
2 pelo desvio
quadrático amostral médio,
, cuja esperança é exatamente 2, um estimador não
tendencioso, portanto. Por não conhecer , calculamos os desvios quadráticos das observações, não em
torno de , mas de seu estimador,
. Isto reduz um pouco a soma de quadrados pois, como é
simples provar, dado um conjunto de valores reais, x1, x2, … , xn, a soma de desvios quadráticos destes
valores em torno de um número arbitrário c, é mínima quando
.
Portanto,
, com a igualdade valendo apenas quando coincidir .
Como a esperança da somatória ao lado direito da desigualdade é 2, a da esquerda tem que ser menor
que 2. E é, como vimos:
. Multiplicando ambos os lados por
,
restauramos o “equilíbrio”, com
.
Pronto, está explicado.
Testando hipóteses simples sobre a esperança de uma variável aleatória X
Um dos recursos básicos mais poderosos da Estatística com peça central do Método Científico, é a
possibilidade que ele oferece para se testar (cientificamente) hipóteses sobre a esperança desconhecida
de uma variável aleatória. Seja a variável aleatória
X ~ N(, 2)
e n observações independentes de X:
X1, X2, … , Xn
Sejam as estatísticas Z e T definidas como:
16
onde
A estatística Z tem distribuição N(0, 1) enquanto T tem distribuição t de Student, com n-1 graus de
liberdade.
Considere agora que a esperança seja desconhecida, e que se queira testar, contra a hipótese nula
H0: =0
a hipótese alternativa
H1: >0
Consideremos primeiro o caso em que o desvio padrão é conhecido. É claro que um valor de grande
demais é evidência contra H0, e em favor de H1. O questão aqui é, o que é “grande demais”?
Para um tratamento objetivo deste caso, devemos definir um valor crítico c tal que, se for maior que c,
consideraremos que é grande demais, e rejeitaremos H0 em favor de H1. Por outro lado, se não for
maior que c, consideraremos que os dados experimentais não trouxeram evidência suficiente contra H0,
e não rejeitaremos, então a hipótese nula.
Como escolher o valor crítico c? Se escolhermos c grande demais, será quase impossível rejeitar
indevidamente a hipótese nula quando ela for verdadeira, mas a probabilidade de não rejeitá-la quando
ela for falsa poderá ser muito elevada. Dizemos que o critério de decisão fica conservador demais. Por
outro lado, se escolhermos um valor crítico c pequeno, teremos o problema oposto, com elevada
probabilidade de rejeitar H0 sendo esta hipótese verdadeira. A solução é adotar uma solução de
compromisso, balanceando as probabilidades dos dois erros opostos possíveis: rejeitar uma hipótese
nula verdadeira, ou não rejeitar uma hipótese nula falsa.
Para isto, vamos fixar um valor suficientemente baixo para a probabilidade de rejeitarmos H0 quando
esta hipótese for verdadeira, isto é, a esperança de X for, de fato, igual ao valor fixado 0. Seja este
valor “suficientemente baixo”. A constante c é então escolhida para garantir que, se H0 for verdadeira,
então
Ora, se H0 for verdadeira, a estatística Z terá distribuição N(0, 1), então
17
Portanto,
Podemos então extrair o valor crítico c, em função de 0, , n e :
.
Fica então completamente definida uma abordagem para o problema de testar a hipótese H0: =0 ,
contra a hipótese alternativa H1: >0 :
1. Escolhe-se , um valor suficientemente pequeno para a probabilidade de se rejeitar
indevidamente a hipótese nula H0;
2. Define-se n, o número de observações a serem feitas da variável aleatória X;
3. Faz-se as n observações independentes de X;
4. Calcula-se a estatística T;
5. Rejeita-se H0 se T for maior do que c.
Vejamos um exemplo:
Seja X uma variável aleatória com distribuição Normal, com média e desvio padrão . A esperança de é
desconhecida, mas acredita-se que seja igual a 100. Contudo, existe uma corrente de opinião que afirma que
afirma que é, na verdade, maior que 100. O desvio padrão de X, é =4, conhecido. Para se testar a hipótese
conservadora H0: =100, contra a hipótese alternativa, H0: >100, decide-se pela abordagem experimental:
serão feitas n observações independentes de X, rejeitando-se H0 se for muito grande. Como proteção contra
a rejeição de H0 quando esta hipótese for verdadeira, arbitrou-se um valor =0,05.
Neste caso,
Através de experimentos cuidadosamente
controlados, realiza-se n=30 observações independentes de X, portanto o valor crítico c é igual a 101,2. Os 30
valores observados estão listados na tabela abaixo. obtendo-se os valores dados na tabela ao abaixo, cuja
média é , que, sendo maior
que o valor crítico c=101,2, leva à
rejeição de H0.
Testando hipótese simples sobre uma média
101,7 98,3 94,8 102,1 103,7 99,4 104,0 98,7 101,3 99,9
106,2 101,5 104,2 107,0 106,0 102,1 102,1 110,2 94,5 102,6
104,5 103,0 99,5 104,3 91,5 100,3 99,4 103,6 106,7 100,2
18
1. O teste de tempo de resposta a objeto em queda, realizado em sala, as distâncias percorridas pela régua desde o repouso até a reação, em 16 medições sucessivas com o mesmo estudante, são dadas abaixo, em cm.
observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Distância (cm) 13 17 15 13 15 15 10 13 15 11 16 13 13 11 14 13
Seja o tempo médio de resposta do aluno, em milissegundos (ms). Teste
H0: =150 ms versus H1: >150 ms ao nível de significância =0,05
2.
19
Exercícios
1. Em duas regiões R1 e R2 distintas estão cinco cidades, sendo duas em R1 e três em R2. Em cada cidade existe
certo número de estudantes concluindo o
ensino fundamental. Uma prova de três
questões será aplicada a esses estudantes. Seja
N o número de questões que um estudante
sabe resolver; N pode, então, valer 0, 1, 2 ou 3.
A distribuição dos estudantes, por
cidade/região e nota é como mostra a Tabela 1.
Um experimento aleatório consiste em sortear
um aluno ao acaso, e aplicar-lhe a prova e
registrando em X o número de questões que
soube responder corretamente, isto é, fazer
X=N. Este experimento é repetido sucessiva e
independentemente, n vezes, gerando X1, X2, X3, … , Xn e, daí, e Sn e conforme definidos.
a. Considerando todos os alunos como um único grupo, sem distinção de região e cidade, calcule e
S2, respectivamente a média e o desvio quadrático médio de N.
b. Calcule E(X) e V(X).
c. Calcule P{X=0}\C1, isto é, a probabilidade condicional de o aluno tirar 0 dado que é da cidade 1.
d. Calcule E(X) dado C1.
e. Calcule E(X) dado R2.
f. Calcule V(X) dado R1.
g. Calcule a probabilidade que dos primeiros 20 alunos selecionados, exatamente seis respondam
corretamente as três questões.
h. Qual a probabilidade que o trigésimo aluno sorteado seja de C2, dado que ele acertou as três
questões?
i. Qual a probabilidade do oitavo aluno sorteado não ser de C5, dado que ele não acertou as três
questões.
j. Para n=400, calcule a probabilidade de que, usando como estimador de , se cometa um erro
absoluto superior a 1% de ; isto é, que caia fora do intervalo
k. Nesta amostra de 400 alunos, seja n3 o número de alunos com nota perfeita. Calcule P{n3=150}
l. Ainda com n=400, construa um intervalo de probabilidade 0,95 para n0.
m. Qual deveria ser o tamanho amostral n para que =0,05?
2. A tabela contém dados simulados, porém com características semelhantes à situação real. Imagine que para
uma prova do ENEM, com 180 questões, hajam 4.817.768 alunos inscritos, e que esses alunos, distribuídos por
número de questões que conseguem resolver corretamente na prova, formam a tabela apresentada abaixo
(ela pode ser copiada e colada numa planilha Excel; ou pode ser copiada diretamente de EnemSimula no
Teleduc). Numa prova frequentemente o aluno não tira a nota que merece por errar – por algum descuido –
alguma questão que sabe resolver bem, ou, principalmente em provas com questões de múltipla escolha,
acertar, por sorte no ‘chute’ questões que não sabe resolver. Vamos admitir que com as questões sendo
corrigidas individualmente, com avaliação completa de todo o desenvolvimento apresentado, esses problemas
podem ser completamente eliminados. Use computador para os cálculos.
3. Em média, quantas questões os alunos resolverão na prova? Denomine-a M.
4. Numa escala de 0 a 100, qual será a nota média geral? Denomine-a .
5. Se um aluno for sorteado ao acaso e submetido à prova, seja X o número de questões que saberá responder
corretamente. Calcule E(X) e V(X).
6. Se uma amostra aleatória de n estudantes for sorteada do universo e submetida à prova, gerando X1, X2, X3, … ,
Xn e, daí, e Sn e conforme definidos, determine e .
Tabela 1 – Número de alunos por cidade e número de questões que
consegue resolver corretamente
Região e Cidade
Número de questões da plrova que o aluno sabe responder corretamente
Total por cidade e
por região 0 1 2 3
R1 C1 1.200 1.950 2.870 2.220 8.240 R1 C2 4.200 8.330 2.140 830 15.500
Total R1 5.400 10.280 5.010 3.050 23.740
R2 C3 1.260 4.320 6.950 5.370 17.900 R2 C4 827 2.895 12.840 6.870 23.432 R2 C5 120 840 5.540 12.640 19.140
Total R2 2.207 8.055 25.330 24.880 60.472
Total 7.607 18.335 30.340 27.930 84.212
20
7. Para n=1000, calcule , a probabilidade que caia a mais que dois pontos (duas questões
certas) de distância de M.
8. Para n=1000, calcule .
9. Qual deve ser n para que ?
10. E no caso acima, quanto seria
11. Considerando os resultados acima, comente sobre as virtudes de como um estimador barato e preciso de
M.
Tabela: Distribuição geral dos alunos por número de questões da prova que sabe resolver
nota número
de alunos
nota número
de alunos
nota número
de alunos
nota número
de alunos
nota número
de alunos
nota número
de alunos
0 0
30 48693
60 67899
90 36539
120 7832
150 404
1 142
31 51362
61 63942
91 33353
121 7692
151 344
2 522
32 52836
62 67424
92 33603
122 7375
152 306
3 1188
33 52438
63 62679
93 31162
123 6683
153 251
4 1944
34 55470
64 61224
94 30006
124 5950
154 214
5 3010
35 58156
65 60830
95 30163
125 5907
155 168
6 4021
36 56250
66 64751
96 28851
126 5367
156 140
7 5643
37 60134
67 60285
97 27193
127 4918
157 122
8 6799
38 58713
68 59942
98 26928
128 4364
158 97
9 8880
39 62721
69 56661
99 24009
129 4154
159 75
10 10423
40 62675
70 56570
100 24010
130 3879
160 58
11 11765
41 61629
71 56645
101 22722
131 3650
161 46
12 13530
42 62800
72 54812
102 22432
132 3386
162 37
13 15949
43 68441
73 55950
103 21826
133 3066
163 28
14 17305
44 69439
74 52262
104 20278
134 2784
164 21
15 20079
45 65852
75 53477
105 19179
135 2363
165 16
16 21631
46 65925
76 49361
106 17448
136 2312
166 11
17 24971
47 65397
77 52459
107 17540
137 2129
167 7
18 27549
48 69677
78 47002
108 16609
138 1759
168 5
19 27425
49 70524
79 49981
109 16004
139 1729
169 3
20 31799
50 66006
80 45242
110 14834
140 1421
170 2
21 31519
51 69201
81 45360
111 14014
141 1371
171 1
22 36194
52 66818
82 43634
112 13770
142 1169
172 1
23 35284
53 71403
83 45433
113 12435
143 1037
173 0
24 38375
54 70700
84 43774
114 11564
144 892
174 0
25 43203
55 70770
85 40566
115 11048
145 838
175 0
26 42531
56 67419
86 41851
116 11037
146 744
176 0
27 45963
57 68550
87 37850
117 10408
147 651
177 0
28 44525
58 67948
88 38946
118 9081
148 516
178 0
29 49498
59 69660
89 36070
119 8788
149 474
179 0
180 0
0
10.000
20.000
30.000
40.000
50.000
60.000
70.000
80.000
0
10
20
30
40
50
60
70
80
90
10
0
11
0
12
0
13
0
14
0
15
0
16
0
17
0
18
0
21
Tabelas de probabilidades na Normal Padrão
(z) = P{ Z < z } , para Z~N(0, 1)
z 0,00 0,01 0,02 0,03 0.04 0,05 0,06 0,07 0,08 0,09
0,0 0,50000 0,50399 0,50798 0,51197 0,51595 0,51994 0,52392 0,52790 0,53188 0,53586
0,1 0,53983 0,54380 0,54776 0,55172 0,55567 0,55962 0,56356 0,56750 0,57142 0,57535
0,2 0,57926 0,58317 0,58706 0,59095 0,59484 0,59871 0,60257 0,60642 0,61026 0,61409
0,3 0,61791 0,62172 0,62552 0,62930 0,63307 0,63683 0,64058 0,64431 0,64803 0,65173
0,4 0,65542 0,65910 0,66276 0,66640 0,67003 0,67365 0,67724 0,68082 0,68439 0,68793
0,5 0,69146 0,69497 0,69847 0,70194 0,70540 0,70884 0,71226 0,71566 0,71904 0,72241
0,6 0,72575 0,72907 0,73237 0,73565 0,73891 0,74215 0,74537 0,74857 0,75175 0,75490
0,7 0,75804 0,76115 0,76424 0,76731 0,77035 0,77337 0,77637 0,77935 0,78231 0,78524
0,8 0,78815 0,79103 0,79389 0,79673 0,79955 0,80234 0,80511 0,80785 0,81057 0,81327
0,9 0,81594 0,81859 0,82121 0,82381 0,82639 0,82894 0,83147 0,83398 0,83646 0,83891
1,0 0,84135 0,84375 0,84614 0,84850 0,85083 0,85314 0,85543 0,85769 0,85993 0,86214
1,1 0,86433 0,86650 0,86864 0,87076 0,87286 0,87493 0,87698 0,87900 0,88100 0,88298
1,2 0,88493 0,88686 0,88877 0,89065 0,89251 0,89435 0,89617 0,89796 0,89973 0,90148
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91309 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92786 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93575 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95544 0,95637 0,95728 0,95819 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97671
2,0 0.977250 0,97778 0,97831 0,97882 0,97933 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98746 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99586 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99737
2,8 0,99745 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99897 0,99900
3,1 0,99903 0,99907 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99982 0,99982 0,99983 0,99984
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99993
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
22
Tabela Normal Extrema: Valores de P{Z>z}=1-(z) para z de 2,50 a 4,69 em ppm (partes por milhão); de 4,00 a 4,99
em ppb (partes por bilhão) e de 5,00 a 7,09, em ppt (partes por trilhão)
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,50 6 210 6 037 5 868 5 703 5 543 5 386 5 234 5 085 4 940 4 799 2,60 4 661 4 527 4 396 4 269 4 145 4 025 3 907 3 793 3 681 3 573 2,70 3 467 3 364 3 264 3 167 3 072 2 980 2 890 2 803 2 718 2 635 2,80 2 555 2 477 2 401 2 327 2 256 2 186 2 118 2 052 1 988 1 926 2,90 1 866 1 807 1 750 1 695 1 641 1 589 1 538 1 489 1 441 1 395 3,00 1 350 1 306 1 264 1 223 1 183 1 144 1 107 1 070 1 035 1 001
3,10 968 935 904 874 845 816 789 762 736 711 3,20 687 664 641 619 598 577 557 538 519 501 3,30 483 466 450 434 419 404 390 376 362 349 3,40 337 325 313 302 291 280 270 260 251 242 3,50 233 224 216 208 200 193 185 178 172 165
3,60 159 153 147 142 136 131 126 121 117 112 3,70 108 104 100 96 92 88 85 82 78 75 3,80 72 69 67 64 62 59 57 54 52 50 3,90 48 46 44 42 41 39 37 36 34 33 4,00 32 30 29 28 27 26 25 24 23 22
4,10 21 20 19 18 17 17 16 15 15 14 4,20 13 13 12 12 11 11 10 10 9 9 4,30 9 8 8 7 7 7 7 6 6 6 4,40 5 5 5 5 4 4 4 4 4 4 4,50 3 3 3 3 3 3 3 2 2 2
4,60 2 2 2 2 2 2 2 2 1 1
4,00 31 671 30 359 29 099 27 888 26 726 25 609 24 536 23 507 22 518 21 569 4,10 20 658 19 783 18 944 18 138 17 365 16 624 15 912 15 230 14 575 13 948 4,20 13 346 12 769 12 215 11 685 11 176 10 689 10 221 9 774 9 345 8 934 4,30 8 540 8 163 7 801 7 455 7 124 6 807 6 503 6 212 5 934 5 668 4,40 5 413 5 169 4 935 4 712 4 498 4 294 4 098 3 911 3 732 3 561 4,50 3 398 3 241 3 092 2 949 2 813 2 682 2 558 2 439 2 325 2 216
4,60 2 112 2 013 1 919 1 828 1 742 1 660 1 581 1 506 1 434 1 366 4,70 1 301 1 239 1 179 1 123 1 069 1 017 968 921 876 834 4,80 793 755 718 683 649 617 587 558 530 504 4,90 479 455 433 411 391 371 352 335 318 302
5,00 286 652 272 150 258 357 245 240 232 766 220 905 209 628 198 908 188 717 179 032 5,10 169 827 161 079 152 768 144 871 137 369 130 243 123 475 117 047 110 943 105 147 5,20 99 644 94 420 89 462 84 755 80 288 76 050 72 028 68 212 64 592 61 158 5,30 57 901 54 813 51 884 49 106 46 473 43 977 41 611 39 368 37 243 35 229 5,40 33 320 31 512 29 800 28 177 26 640 25 185 23 807 22 502 21 266 20 097 5,50 18 990 17 942 16 950 16 012 15 124 14 283 13 489 12 737 12 026 11 353
5,60 10 718 10 116 9 548 9 010 8 503 8 022 7 569 7 140 6 735 6 352 5,70 5 990 5 649 5 326 5 022 4 734 4 462 4 206 3 964 3 735 3 519 5,80 3 316 3 124 2 942 2 771 2 610 2 458 2 314 2 179 2 051 1 931 5,90 1 818 1 711 1 610 1 515 1 425 1 341 1 261 1 186 1 116 1 049 6,00 986,6 927,6 872,1 819,8 770,6 724,2 680,6 639,6 600,9 564,6
6,10 530,3 498,2 467,9 439,4 412,6 387,4 363,7 341,4 320,5 300,8 6,20 282,3 264,9 248,6 233,2 218,8 205,2 192,5 180,5 169,3 158,7 6,30 148,8 139,5 130,8 122,6 114,9 107,7 100,9 94,51 88,54 82,94 6,40 77,69 72,76 68,14 63,80 59,74 55,93 52,35 49,00 45,86 42,92 6,50 40,16 37,58 35,15 32,88 30,76 28,77 26,90 25,16 23,52 21,99
6,60 20,56 19,22 17,96 16,78 15,68 14,65 13,69 12,79 11,95 11,16 6,70 10,42 9,731 9,086 8,483 7,919 7,392 6,900 6,439 6,009 5,607 6,80 5,231 4,880 4,552 4,246 3,960 3,692 3,443 3,210 2,993 2,790 6,90 2,600 2,423 2,258 2,104 1,960 1,826 1,701 1,585 1,476 1,374 7,00 1,280 1,192 1,109 1,033 0,961 0,895 0,833 0,775 0,721 0,671
23
TABELA COMPLEMENTAR Valores Especiais ou Extremos
z (z) 1-(z)
0,00000 0,500000000 50%
0,25335 0,600000000 40%
0,52440 0,700000000 30%
0,67449 0,750000000 25%
0,84162 0,800000000 20%
1,28155 0,900000000 10%
1,64485 0,950000000 5%
1,95996 0,975000000 2.5%
2,32635 0,990000000 1%
2,57583 0,995000000 0,5%
3,09023 0,999000000 0,1%
3,29053 0,999500000 500 ppm*
3,71902 0,999900000 100 ppm
3,89059 0,999950000 50 ppm
4,26489 0,999990000 10 ppm
4,41717 0,999995000 5 ppm
4,75342 0,999999000 1 ppm
4,89164 0,999999500 500 ppb**
5,19934 0,999999900 100 ppb
5,32672 0,999999950 50 ppb
5,61200 0,999999990 10 ppb
5,73073 0,999999995 5 ppb
5,99781 0,999999999 1 ppb
24
Tabela t de Student
Valores de t, para P{T<t} iguais a 0,90, 0,95, 09,75 e 0,995, para t de Student com 1 a 140 graus de
liberdade. Para infinitos graus de liberdade, a t de Student coincide com a N(0, 1).
Exemplo de uso da tabela: Numa t de Stutent com 10 graus de liberdade, P{T<2,228}=0,95.
g.l. P{T<t}
g.l. P{T<t}
0,900 0,950 0,975 0,990 0,995
0,9 0,95 0,975 0,990 0,995
1 3,078 6,314 12,71 31,821 63,66
31 1,309 1,696 2,040 2,453 2,744 2 1,886 2,920 4,303 6,965 9,925
32 1,309 1,694 2,037 2,449 2,738
3 1,638 2,353 3,182 4,541 5,841
33 1,308 1,692 2,035 2,445 2,733 4 1,533 2,132 2,776 3,747 4,604
34 1,307 1,691 2,032 2,441 2,728
5 1,476 2,015 2,571 3,365 4,032
35 1,306 1,690 2,030 2,438 2,724 6 1,440 1,943 2,447 3,143 3,707
36 1,306 1,688 2,028 2,434 2,719
7 1,415 1,895 2,365 2,998 3,499
37 1,305 1,687 2,026 2,431 2,715 8 1,397 1,860 2,306 2,896 3,355
38 1,304 1,686 2,024 2,429 2,712
9 1,383 1,833 2,262 2,821 3,250
39 1,304 1,685 2,023 2,426 2,708 10 1,372 1,812 2,228 2,764 3,169
40 1,303 1,684 2,021 2,423 2,704
11 1,363 1,796 2,201 2,718 3,106
50 1,299 1,676 2,009 2,412 2,678 12 1,356 1,782 2,179 2,681 3,055
55 1,297 1,673 2,004 2,403 2,668
13 1,350 1,771 2,160 2,650 3,012
60 1,296 1,671 2,000 2,396 2,660 14 1,345 1,761 2,145 2,624 2,977
65 1,295 1,669 1,997 2,390 2,654
15 1,341 1,753 2,131 2,602 2,947
70 1,294 1,667 1,994 2,385 2,648 16 1,337 1,746 2,120 2,583 2,921
75 1,293 1,665 1,992 2,381 2,643
17 1,333 1,740 2,110 2,567 2,898
80 1,292 1,664 1,990 2,377 2,639 18 1,330 1,734 2,101 2,552 2,878
85 1,292 1,663 1,988 2,374 2,635
19 1,328 1,729 2,093 2,539 2,861
90 1,291 1,662 1,987 2,371 2,632 20 1,325 1,725 2,086 2,528 2,845
95 1,291 1,661 1,985 2,368 2,629
21 1,323 1,721 2,080 2,518 2,831
100 1,290 1,660 1,984 2,366 2,626 22 1,321 1,717 2,074 2,508 2,819
105 1,290 1,660 1,983 2,364 2,623
23 1,319 1,714 2,069 2,500 2,807
110 1,289 1,659 1,982 2,362 2,621 24 1,318 1,711 2,064 2,492 2,797
115 1,289 1,658 1,981 2,361 2,619
25 1,316 1,708 2,060 2,485 2,787
120 1,289 1,658 1,980 2,359 2,617 26 1,315 1,706 2,056 2,479 2,779
125 1,288 1,657 1,979 2,358 2,616
27 1,314 1,703 2,052 2,473 2,771
130 1,288 1,657 1,978 2,357 2,614 28 1,313 1,701 2,048 2,467 2,763
135 1,288 1,656 1,978 2,355 2,613
29 1,311 1,699 2,045 2,462 2,756
140 1,288 1,656 1,977 2,354 2,611 30 1,310 1,697 2,042 2,457 2,750
∞ 1,282 1,645 1,960 2,353 2,576