Analise de Regressao Linear Simples
-
Upload
ludmila-piassi -
Category
Documents
-
view
35 -
download
0
Transcript of Analise de Regressao Linear Simples
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 1/108
1
Regressão Linear SimplesIntroduçãoAnálise de regressão é uma metodologia estatística que utiliza a relação entre duas oumais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras. Exemplos:
y A população de bactérias pode ser predita a partir da relação entre
população e o tempo de armazenamento.
y Concentrações de soluções de proteína de arroz integral e absorbâncias
médias corrigidas.
y Relação entre textura e aparência.
y Temperatura usada num processo de desodorização de um produto e cor do
produto final.
y A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 2/108
2
A análise de regressão, assim como a anova, também representa os dadosatravés de um modelo linear aditivo, onde o modelo inclui um componentesistemático e um aleatório.
y Número de acessos ao disco (disk I/O) e o tempo de processamento para
vários programas.
y A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A métrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vários tamanhos de arquivos de
dados.
(1) X f Y I! )(
f descreve a relação entre X e Y. I são os erros aleatórios. Y = variável resposta ou dependente; X = variável independente, concomitante, covariável ou variável preditora.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 3/108
3
Cenário
Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y .Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los para dizer alguma coisa sobre a relação.
O caso mais simples de regressão é quando temos duas variáveis e a relaçãoentre elas pode ser representada por uma linha reta Regressão linear
simples.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 4/108
4
Como sabemos os dados podem ser obtidos a partir de duas situações:
1) dados experimentais: as observações X e Y são planejadas como o resultado de umexperimento, exemplo:
X = tamanhos de cache e Y = porcentagem de acerto
X = doses de starter (microorganismos [bactérias lácticas]) , Y= tempo de maturação do salametipo italiano.
Nesse exemplo, os valores de X estão sob controle do pesquisador, ou seja, ele escolheu as dosese observou o resultado, Y .
2) dados observacionais: observa-se os valores de X e Y , nenhuma delas sob controle, exemplo: população de coliformes e população de staphilococus;
média das alturas de plantas numa área e produção.
O tempo para criptografar um registro com k -byte usando uma técnica para este fim foiavaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 5/108
5
Problema prático: os valores observados de Y (e algumas vezesde X ) não são exatos. Devido a variações biológicas, de
amostragem e de precisão das medidas e outros fatores, só podemos observar valores de Y (e possivelmente de X ) com algumerro. Assim, com base numa amostra de valores ( X,Y ) a exatarelação entre X e Y é mascarada pelos erros aleatórios.
X Fixo vs Aleatório:
Dados experimentais: Geralmente X (doses, tempo, tamanhoda cache) é determinado pelo pesquisador p X é fixo. Y estásujeito à variações físicas, biológicas, tipos de objetos numa
página da Web, usuários, de amostragem, de medidas p Y éuma variável aleatória.
Dados observacionais: geralmente X e Y são variáveisaleatórias.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 6/108
6
A distribuição normal bivariada
Com dados observacionais, geralmente X e Y são v. a. e , dealguma forma, relacionadas.
Lembrete: uma distribuição de probabilidades dá uma descrição
formal (matemática) dos valores possíveis da população que podem ser observados para a variável. Quando temos duasvariáveis a distribuição é denominada bivariada. A f XY (x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuição normal é freqüentemente uma descrição razoávelde uma população com medidas contínuas. Quando X e Y são v.
a. contínuas, uma suposição razoável é que ambas sejamnormalmente distribuídas. Entretanto, espera-se que elas sedistribuam conjuntamente.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 7/108
7
A distribuição normal bivariada é uma distribuição de probabilidades com uma função densidadede probabilidade f(x,y) para X e Y , tal que:
X e Y apresentam, cada uma, distribuição normal com médias QX e QY, e variâncias W2
X e W2Y,respectivamente;
o relacionamento entre X e Y é medido pela quantidade VXY tal que -1 e VXY e 1.
VXY é o coeficiente de correlação entre as variáveis aleatórias X e Y e mede a associação linear entre elas.
nulacorrelação
perfeitanegativacorrelação
perfeita positivacorrelação
XY
XY
XY
0
1
1
!
!
!
V
V
V
Objetivo: com os dados observados (X i ,Y i ), desejamos quantificar o grau de associação. Paraisso estimamos VXY.
Comparação entre os modelos de regressão e correlação Dois modelos:
X fixo: ajusta-se um modelo para a média da v. aleatória Y como uma função de X fixo (linha reta).Estima-se os parâmetros do modelo para caracterizar o relacionamento.
X aleatório: caracteriza-se o relacionamento (linear) entre X e Y através da correlação entre elas eestima-se o parâmetro de correlação.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 8/108
8
S utileza: em situações onde X é uma variável aleatória, muitos investigadores desejamajustar um modelo de regressão tratando X como fixo. Isto porque, embora o coef. decorrelação descreve o grau de associação entre X e Y , ele não caracteriza o
relacionamento através de um modelo de regressão.Exemplo: um pesquisador pode desejar estimar a produção com base na média dealturas de plantas da unidade experimental. O coef. de correlação não permite isso.Ele, então, prefere ajustar um modelo de regressão, mesmo X sendo aleatório.
Isso é legítimo? Se tomarmos cuidado na
interpretação, sim.
Se X e Y são variáveis aleatórias, e nós ajustarmos um modelo de regressão paracaracterizar o relacionamento, tecnicamente, todas as análises posteriores sãoconsideradas como sendo condicionais aos valores de X presentes no estudo.Isto significa que nós consideramos X fixo, embora ele não seja. Entretanto, é
válido fazer-se previsões. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produção. O pesquisador não está dizendo que ele pode controlar as alturas e, assim,influenciar as produções.
Vale para os dados da amostra.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 9/108
9
Causalidade versos correlação
Pesquisadores freqüentemente são ³tentados´ a inferir uma relação de causa e efeito entre X e Y
quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Umaassociação significativa entre X e Y em ambas as situações não necessariamente implica numarelação de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a populaçãode Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas(pássaros) naquele ano ( X).
Interpretação: existe associaçãoentre X e Y.
Freqüentemente, quando duas v. X e
Y parecem estar fortementeassociadas, pode ser porque X e Y
estão, de fato, associadas com uma
terceira variável , W. No exemplo, X e Y aumentam com W = tempo.
Correlação não necessariamente implica em causalidade
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 10/108
10
Construção de Modelos de Regressão
I. Seleção das variáveis preditorasII. Escolha do modelo de regressão
III. Abrangência do modelo
i. O problema, em estudos observacionais, é escolher um conjunto devariáveis que podem ou devem ser incluídas no modelo;
ii. Pode-se usar um modelo teórico; Usar aproximações por modelos polinomiais;
iii. Geralmente é necessário restringir a abrangência do modelo paraalguns valores ou região da(s) variável(is) preditora(s).
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 11/108
11
Modelo de regressão linear simples
( S em especificação da distribuição de probabilidades para o erro)
Considere o modelo com uma variável preditora e que a função de regressão é linear. O modelo édado por:
n1,2,...,i !
! i i i X Y I F F10 (2)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 12/108
12
Onde:
Y i é o i-ésimo valor da variável resposta; F0 e F1 são os parâmetros (coeficientes de regressão);
X i é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).
Ii é o termo do erro aleatório com E ( Ii)=0 e W2(Ii)= W2;
Ii e I j não são correlacionados W(Ii, I j)=0 para todo i,j; i{ j; (covariância é nula).
i=1,2,...,n.
Os dados são usados para estimar F0 e F1, isto é, ajustar o modelo aos dados, para:
quantificar a relação entre Y e X;
usar a relação para predizer uma nova resposta Y 0 para um dado valor de X 0 (não incluído noestudo);
calibração ± ou capacidade de predição de novas observações, pode ser feita usando uma novaamostra e comparando os valores estimados com os observados.
- dado um valor de Y 0 , para o qual o correspondente valor de X 0 é desconhecido ,estimar o valor de X 0.
Covariância (o resultado em qualquer experimento não temefeito no termo do erro de qualquer outro experimento)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 13/108
13
Características do modelo:
nadoscorrelacio sãonãoY eY
constantevariância X Y
X X E E (Y
X v.a.(Y umaéY
ji
iiii
2
iiiii
iiii
.4
)()()()(.3
)().2
).1
22
10
2
1010
10
WIWI F FWW
F FQI F F
I F F
!!!
!!!
!
aleatório
O modelo de regressão (2) mostra que as respostas Y i são oriundas de umadistribuição de probabilidades com média E (Y i ) = F0 + F1 X i e cujas variâncias são W2,a mesma para todos os valores de X. Além disso, quaisquer duas respostas Y i e Y j não
são correlacionadas.
constante
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 14/108
14
A figura mostra a distribuição de Y para vários valores de X . Mostra onde cai a observação Y 1.
Mostra que o erro é a diferença entre Y 1 e E
(Y 1 ). Observe que as distribuições de probabilidade apresentam a mesma variabilidade.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 15/108
15
Resumo da situação: para qualquer valor X i , a média de Y i é Qi = F0 + F1 X i. As médias estãosobre a linha reta para todos os valores de X . Devido aos erros aleatórios, os valores de Y i sedistribuem ao redor da reta.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 16/108
16
Outro exemplo.44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
Porcentagem de acerto
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 17/108
17
E (Y)=27,836+0,00006423X
Média:
Para X i=300.000 bytes observou-se Y i=46,26. O valor estimado édado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor dotermo do erro é I
i
=46,26-47,11=-0,845.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 18/108
18
Significado dos parâmetros do modelo de regressão linear simples
F0
U
x x+1
( x=1
( y yi = F0 + F1 xi
x
y
((!1 F
F0 (intercepto); quando a região experimental inclui X=0, F0 é o valor da média da distribuiçãode Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; F1
(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre amudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidadede Y por unidade de acréscimo em X.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 19/108
19
Exemplo: os dados abaixo indicam o número de bytes transferidos (Y) e otamanho da cache (X).
Equação de regressão:
x 64927 10 7634y 7 ,. ,Ö !
Faça o gráfico dos pontos e da retaajustada. Você acha que o modeloadotado é razoável?
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 20/108
20
y=4,763e7-27,649*x+eps
TAMANHO DA CACHE
3e7
3,2e7
3,4e7
3,6e7
3,8e7
4e7
4,2e7
4,4e7
4,6e7
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
O que significa o coeficiente angular neste caso? E o coeficientelinear?
Faça uma predição para o número de bytes transferidos para tamanhode cache igual a 270.000 bytes.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 21/108
21
Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.
x 10 13 5 7 20
y 4 3 6 5 2
Equação de regressão: x y 261,087,6Ö !
Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?
O que significa o coeficienteangular neste caso? E o coeficientelinear?
Faça uma previsão para o valor doaluguel para idade de 13 anos.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 22/108
22
Observações:
um modelo de regressão pode conter duas ou mais variáveis preditoras ( X 1 , X 2 ,...,X p-1 );
o modelo de regressão não precisa ser uma linha reta:
I F F F ! 2
210 X X Y
Chama-se modelo quadrático ou de 20 grau, cuja figura é uma parábola. Esse modelo, embora nãoseja uma linha reta, continua sendo um modelo linear nos parâmetros. O método que será discutido
para o modelo de regressão linear simples aplica-se diretamente aos demais modelos lineares nos parâmetros.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 23/108
23
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.
Scatterplot (GARBAGE.STA 10v*10c)
y=1321,483-2,208*x+0,001*x^2+eps
HEAP SIZES
0
100
200
300
400
500
600
400 600 800 1000 1200 1400 1600
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 24/108
24
Modelo não linear nos parâmetros. Exemplo: modelo de crescimento logístico, onde X é otempo.
I F F
F
! X eY
32
1
1
É necessário estudar métodos para modelos não lineares.
Exemplo computação: modelo potência, y=bxa , onde X é a velocidade do processador e Y éa taxa I/O.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 25/108
25
Modelos de regressão alternativos
As vezes torna-se conveniente (p.e. facilidade de cálculos) escrever o modelo deregressão linear (2) de forma diferente, embora equivalentes. Seja X 0 uma
variável dummy identicamente igual a 1. Então, temos o modelo que associauma variável X a cada parâmetro do modelo:
11100 |! 0ii X onde X X Y I F F
Uma outra alternativa é usar para a v. preditora os desvios ( X i-Média(X)) ao invésde X i. Para não modificarmos o modelo (2), escrevemos:
X
X X Y
X X X Y
10 0
i i 10 i
i 1i 10 i
F F F
I F F
I F F F
!
!
!
*
* )(
)(
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 26/108
26
Estimação da função de regressão
Denotamos as observações ( X i ,Y i ) para a primeira repetição como ( X 1 ,Y 1 ), para a segunda como(X 2 ,Y 2 ), e para a i-ésima como (X i ,Y i ), com i=1,2,..,n.
E xemplo: uma pesquisadora está estudando o comportamento de S taphilococcus aureus (Y) emfrango, mantido sob condições de congelamento doméstico (-18oC) ao longo do tempo ( X ) (dias).
Tempo 0 7 14 21 28 35
População 3,114 3,568 2,845 3,079 2,699 2,663
Notação: temos n=6 observações. O tamanho da população (ufc/cm2) é dado em log10.
Método dos mínimos quadrados
Para observações (X i ,Y i ) i=1,..,n, temos o modelo
n1,..,i X Y iii !! I F F 10
Desejamos ajustar o modelo, estimando os parâmetros F0 e F1.
O método de mínimos quadrados considera os desvios de Y i em relação ao seu valor esperado(E(Y i )):
)(10 ii
X Y F F
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 27/108
27
Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q
(10) X Y Qn
i
ii§!
!
1
2
10 F F
De acordo com o método de mínimos quadrados, os estimadores de F0 e F1 são os valores b0 e b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).
IDADE
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
e5
e2
e1
e3
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 28/108
28
Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de F
0
e F1
que minimizam Q.
§
§
!x
x
!x
x
!
!
n
i
iii
Q
n
i
ii
Q
X Y X
X Y
110
110
)(2
)(2
1
0
F F
F F
F
F
Estimadores de mínimos quadrados
Os valores de F0 e F1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em
relação a F0 e F1 , portanto, obtemos:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 29/108
29
0
0
0)(
0)(
:obtemos,expandindoendosimplifica0)(
2
0)(2
1
2
1
1
0
1
110
1
110
110
1 10
110
!
!
!
!
!
!
§§§
§§
§
§
§
§
!!!
!!
!
!
!
!
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
iii
n
i
ii
n
iiii
n
i
ii
X b X bY X
X bnbY
X bbY X
X bbY
X bbY X
X bbY
Daí, obtemos o sistema de equações normais, dado por :
§§ §
§§
!! !
!!
!
!
n
i
i
n
i
n
i
iii
n
i
i
n
i
i
X b X bY X
X bnbY
1
2
1
1
1
0
11
10
Fazendo-se as derivadas parciais de segunda ordem,indicará que um mínimo foiencontrado com os estimadores
b0 e b1.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 30/108
30
As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):
X bY X bY b
b
iin
X X
Y Y X X
i
ii
111
0
)())((
1 2
!!
§§!
§ §
n
X 2
n
Y X
1 2
X
XY b
§
§ §!
§
§
Outra forma de escrevermos:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 31/108
31
Exemplo: a pesquisadora deseja encontrar o modelo de regressão da porcentagem de acertos sobre o tamanho da cache.
Tamanho dacache (X)
Porcentagemde acertos (Y)
)( X X i )( Y Y i )(( Y X X ii 2)( X X i 2)( Y Y i
Total = 3900000 584,52 0 0 2408500 37500000000 181,438
Média = 325000 48,71
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 32/108
32
8 45 27 325000 0000642 0 7148 X bY
0000642 0 b
1
0 3750000000 240 8 500
X X
Y Y X X
1 2
i
i i
, ) )( ,( ,b
,
0
)(
) )( (
!!!
!!
§
§!
Assim, estimamos que a porcentagem de acerto da cacheaumenta cerca de 0,00006 % para cada byte do tamanho dacache.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 33/108
33
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 34/108
34
Saída do Statistica:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 35/108
35
Tempo (X) População (Y) )( X X i )( Y Y
i ))(( Y Y X X
ii
2)( X X i
2)( Y Y i
0 3,114 -17,5 0,119 -2,088 306,250 ,014
7 3,568 -10,5 0,573 -6,020 110,250 ,329
14 2,845 -3,5 -0,150 0,524 12,250 ,022
21
3,0
79 3,5
0,084
0,295
12
,25
0 ,007
28 2,699 10,5 -0,296 -3,105 110,250 ,087
35 2,663 17,5 -0,332 -5,805 306,250 ,110
Total = 105 17,968 0 0 -16,199 857,5 0,569
Média = 17,5 2,9947
3,32545)5,17)(0189,0(9947,2 b-0,01
8890
10
5,857
199,16
)(
))((
1 2
!!!
!!§
§
!
X bY
b X X
Y Y X X
i
ii
Assim, estimamos que o tamanho da população de bactérias diminui cercade 0,0189 ufc/cm2 para cada dia.
Exemplo: a pesquisadora deseja encontrar o modelo de regressão do temposobre a população de bactérias.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 36/108
36
Regression Summary for Dependent Variable: POPR = ,73274116 R²= ,53690961 Adjusted R²= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err. St. Err.BETA of BETA B of B t(4) p-level
Intercpt 3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
Saída do STATISTICA:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 37/108
37
Propriedades dos estimadores de mínimos quadrados
T eorema de Gauss-Markov: Se as pressuposições do modelo de regressão linear (2) forematendidas, os estimadores de mínimos quadrados b0 e b1 são não tendenciosos (unbised) e comvariância mínima, entre todos os estimadores lineares não tendenciosos. Primeiro, o teoremadiz que:
E(b0)= F0 e E(b1)= F1.
Segundo, o teorema diz que os estimadores b0 e b1 são mais precisos (isto é, as suas distribuiçõesamostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classedos estimadores não tendenciosos que são funções lineares das observações Y 1 , Y 2 ,...,Y n. Osestimadores b0 e b1 são tais funções lineares das observações. Considere, por exemplo, b1,
§!
!§§!
§§!
§
2
22
)(
)(
)(
)(
)(
))((
1
X X
X X
i
ii X X
Y X X
X X
Y Y X X
i
i
i
ii
i
ii
k
Y k b
Como k i são constantes (pois X i são constantes conhecidas), b1 é uma combinação linear de Y i e, assim, é um estimador linear . Da mesma forma, b0 também é um estimador linear. Entre todos os estimadores lineares não tendenciosos, b0 e b1 tem menor
variabilidade (demonstração adiante) em repetidas amostras nas quais os níveis de X são
constante.
(Demonstração adiante)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 38/108
38
Estimação pontual da resposta média
Estimação da função de regressão
A média do modelo de regressão linear é dada por:
X Y E 10)( F F !
Estima-se a função de regressão por:
X bbY 10
Ö
!Onde Y (chapéu) é o valor estimado da função no nível X da variável preditora.
A resposta média ( E (Y )), corresponde a média da distribuição de probabilidade de Y no nível X
da variável preditora. Pode-se demonstrar, como uma extensão do teorema de Gauss-Markovque Y (chapéu) é um estimador não tendencioso de E (Y), com variância mínima dentro daclasse dos estimadores lineares não tendenciosos. Temos:
n1,2,...,i X bbY ii !! 10Ö
como sendo o valor ajustado para o i-ésimo caso.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 39/108
39
Exemplo: para os dados de porcentagem de acerto na cache, osvalores estimados da função de regressão são dados por:
X 0000642 0 8 363327 Y , ,Ö !
Suponha que estejamos interessados na porcentagem médiade acerto na cache para X=300.000 bytes (muitas amostrascom 300.000 bytes sob as mesmas condições que a equação
foi estimada); a estimativa pontual vale:
10 47 300000 0000642 0 8 363327 y , )( , ,Ö !!
Valores ajustados dos dados da amostra são obtidossubstituindo-se os correspondentes valores da variável preditora X na função de regressão.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 40/108
40
Saída do Statistica:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 41/108
41
Suponha que estejamos interessados na população média (muitas amostras com 21 dias de
armazenamento sob as mesmas condições que a equação foi estimada) de bactérias para X=21 dias de armazenamento; a estimativa pontual vale:c
926 2 210190 325 3y , )( , ,Ö !!
Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valoresda variável preditora X na função de regressão.
Saída do STATISTICA:
Predicted & Residual Values (staphilo.sta)Dependent variable: POP
Observed Predictd Standard Standard Std.Err. Mahalns. Cook'sValue Value Residual Pred. v. Residual Pred.Val Distance Distance
1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,781146
2 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,633439
3 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,095181
4 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,0462695 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,042668
6 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146
Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454
Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725
X Y 019,0325,3Ö !
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da função deregressão são dados por:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 42/108
42
Modelo alternativo
Quando o modelo utilizado é:ii
X X Y I F F ! )(1
*
0
O estimador b1 de F1 permanece o mesmo. O estimador de
Y X b X bY X bbb: por dadoé X
*
0 !!!!
1110
10
*
0
)( F F F
Temos: )(Ö1 X X bY Y !
Exemplo: para os dados de staphilococcus aureus em frangoobter o valor ajustado para X 1=0 dia de armazenamento..
Exemplo: obter o valor ajustado para X=300.000 bytes decache..
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 43/108
43
Resíduos
O i-ésimo resíduo é a diferença entre o valor Y i e o
correspondente valor ajustado Y (chapéu)i.
iii Y Y e Ö!
Vemos que o resíduo para o primeiro caso, exemplo de pop. de Staphilococcus, saída do statistica, é dado por:
-,2112383,325238-3,114000Y Y e !!! 111Ö
Exemplo: para os dados de porcentagem de acerto na cache, o resíduo para o primeiro caso vale:
0,56443,886 - ,Ö !!! 45 44Y Y e 111
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 44/108
44
) E (Y Y iii !I
Os resíduos são extremamente úteis para verificar se um determinado modelo de regressão éapropriado para os dados. Este assunto será tratado mais adiante neste curso.
Distinção:
p é o desvio de Y i da verdadeira equação de regressão (desconhecida)e assim é desconhecido.
iii Y Y e Ö! p é o desvio de Y i do valor ajustado Y i (chapéu) na equação de regressãoestimada, portanto, é conhecido.
Regression
95% confid.
TEMPO
-0,30
-0,15
0,00
0,15
0,30
0,45
-5 0 5 10 15 20 25 30 35 40
para os dados de staphilococcus aureus
em frango
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 45/108
45
Regression
95% confid.
Raw residuals vs. TAMANHOC
Raw residuals = -,0000 + 0,0000 * TAMANHOC
Correlation: r = ,00000
TAMANHO DA CACHE
-3
-2
-1
0
1
2
3
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 46/108
46
Propriedades do modelo ajustado:
) )Y ; X ( ponto pelo passa sempreregressãodelinha(
) X X (para )( )( bY Y Ö .
s)(ponderado Y Ö
.
s)(ponderado X .
A)ST ATISTIC doa(Veja saíd Ö Y 3.
MQO )demétododo(condiçãomínimaée .
A)ST ATISTIC doa(Veja said )normal equação primeiraadevido(
)( .
1
n
1ii
n
1i
i
n
1i
i
n
1i
2
i
a
Y X X bY X X 6
0 e5
0 e4
Y
2
0 X bnbY X bbY e1
1
i
i
n
1i
i
n
1i
i 10 i i 10 i i
!!!!
!
!
!
!!!
§
§
§§
§
§ § §§
!
!
!!
!
!
X bbY 10Ö !
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 47/108
47
Estimação da variância (W2)
A variância, W2, dos erros, Ii, no modelo de regressão (2) precisa ser estimado para obter uma
indicação da variabilidade da distribuição de probabilidade de Y . Necessário para inferências.Lembrete: a variância de cada observação Y i para o nosso modelo de regressão é W2, a mesma decada Ii.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Y i veêm de diferentesdistribuições de probabilidade com diferentes médias que dependem do nível de X i; as médias sãoestimadas por Y i(chapéu). Assim os desvios são os resíduos:
iii Y Y e Ö!
A soma de quadrados do erro (resíduo), SQE, é dada por:
§§!!
!!n
i
i
n
i
ii eY Y S Q E 1
2
1
2)Ö(
Dois graus de liberdade são perdidos para estimar os parâmetros F0
e F1. O quadrado médio do
erro é dado por (QME):
2!
n
S Q E QM E
Temos que o QME é um estimador não tendencioso de W2 (prova adiante) pois2)( W!QM E E
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 48/108
48
Exemplo: para os dados de S taphilococcus aureus em frango, temos:
X)qual quer paraY deãodistribuiçda padrão( Desvio
padrão)(desvio ufc , ,
variância)daa( E stimativ , / ,QM E
assimliberdade,de graus2-6
,
2567 0 06590 d eEstimativ a
06590 426390
4com
26390 SQE
!!
!!
!
!
W
Exemplo: para os dados de tamanho de cache, temos:
X)qualquer paraYdeãodistribuiçda padrão(Desvio
padrão)(desvio %6043,157385,2é 57385,210/7385,25QME
assimliberdade,degraus102-12
7385,25
!!!
!
!
Wde E stimativa
com
S Q E
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 49/108
49
Modelo de regressão com erros normais
Para construir intervalos de confiança e fazer testes de hipóteses nós devemosconsiderar alguma distribuição de probabilidade para os Ii. Uma distribuiçãoque tem um apelo prático e teórico bastante grande é a distribuição normal eque será utilizada neste curso.
O modelo de regressão é dado por:
n1,..,i X Y iii !! I F F 10
Y i é o i-ésimo valor observado da variável resposta;
F0 e F1 são os parâmetros;
Xi é o i-ésimo valor da variável preditora (é uma constanteconhecida, fixo).
Ii é o termo do erro aleatório, independentes com distribuição N (0, W2).
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 50/108
50
Como assumimos para o modelo de regressão que os erros são normalmente distribuídos, asuposição que os erros Ii não são correlacionados, feita no modelo inicial, transforma-se nasuposição de independência no modelo com distribuição normal.
O modelo implica que Y i são variáveis aleatórias independentemente distribuídas segundo umanormal com média E (Y i )= F0+ F1 X i e variância W2. Para cada valor X i , podemos pensar em todosos valores possíveis de Y i e sobre a sua variabilidade. Esta suposição diz que, seja qual for ovalor de X i, a variabilidade nos possíveis valores de Y é a mesma.
Para cada valor X i, podemos pensar que todos os valores assumidos por Y podem ser bemrepresentados por uma distribuição normal.
Independentes: no sentido que eles não são relacionados de qualquer modo, por exemplo, são provenientes de diferentes cpu¶s, diferentes indivíduos, diferentes animais, etc. Os registros
num banco de dados são independentes.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 51/108
51
Estimação dos parâmetros pelo método da máxima
verossimilhança
Como foi especificado uma distribuição de probabilidades para os erros podemos obter estimadores para F0, F1 e W2 pelo MMV.
O método de máxima verossimilhança determina como estimativas de máxima verossimilhança,os valores de F0, F1 e W2 os quais produzem o maior valor para a verossimilhança.
Em geral, a densidade de uma observação Y i para o modelo de regressão com erros normais,utilizando o fato de que E (Y i )= F0+ F1 X i e variância W2 é dada por :
? A2
21
2
1 10expW
F F
WT
ii X Y
i f
!
A função de verossimilhança para n observações Y 1 , Y 2 ,...,Y n , é o produto das densidadesindividuais (é a conjunta). Como a variância W2 dos erros é desconhecida, a conjunta é uma funçãode três parâmetros, F0, F1 e W2 :
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 52/108
52
? A
¼½
»¬-
«!
!
§
!
!
n
i
ii ) (
ii
n
i
) X (Y
X Y L
n/
1
2
10212 1
2
102
1
1)2(
12
10
222
22/12
exp
)(exp),,( F FW F FWTW
Devemos encontrar valores de F0, F1 e W2 que maximizam a função de verossimilhança L,
calculando-se as derivadas parciais de L com respeito a F0, F1 e W2 e igualando cada derivada parcial a zero e resolvendo o sistema de equações obtido. Podemos trabalhar com log e L ao invés de
L, pois ambos são maximizadas para os mesmos valores de F0, F1 e W2
:
§ ! 2
102
12
22)(log2loglog 2 iie
ne
ne X Y L F FWT
W
As derivadas parciais do logaritmo da função de verossimilhança, são dadas por:
§
§
§
!x
x
!x
x
!x
x
2
10422
102
1
1020
)(2
1
2
)(log
)(1)(log
)(
1)(log
iie
iiie
ii
e
X Y n L
X Y X L
X Y
L
F F W W W
F F W F
F F W F
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 53/108
53
Agora, fazemos as derivadas parciais iguais a zero, substituindo F0, F1 e W2 pelos estimadores
2
10 ÖÖ,Ö W F F e
Obtemos:
2)ÖÖ(
10
10
Ö
0)ÖÖ(
0)ÖÖ(
2
10 W
F F
F F
F F!
!
!
§
§
§
n
X Y
iii
ii
ii
X Y X
X Y
As duas primeiras equações são idênticas as equações normais encontradas pelo método demínimos quadrados. O MMV produz um estimador viesado para W2.
Parâmetro Estimador de máxima verossimilhança
0 F00
Ö b! F
1 F11
Ö b! F
2Wn
Y Y ii§! 2)Ö(2ÖW
Os estimadores de F0, e F1 são os mesmos do método de mínimos quadrados. O estimador demáxima verossimilhança de W2 é viesado,ou seja,.
n
1nE
2 2 W
W )(
)Ö (
!
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 54/108
54
Comentários:
1) como os estimadores de máxima verossimilhança de F0,e F1 são os mesmos do métodode mínimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mínimos quadrados:a) são não viesados;
b) tem variância mínima entre todos os estimadores lineares não tendenciosos;
além disso, os estimadores de máxima verossimilhança b0 e b1 para o modelo deregressão com erros normais tem outras propriedades desejáveis:
c) são consistentes;
d) são suficientes;
*** Fazer lista de exercícios número1.
0 )|Ö (|lim "!ugp
II U U 0 P n
.dedependenão )Ö |( Ö | U U U !y f Y
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 55/108
55
Inferência na análise de regressão
Assumimos o modelo: n1,..,i X Y iii !! I F F 10
F0 e F1 são os parâmetros;
Xi são constantes conhecidas, fixas.
Ii são independentes com distribuição N (0, W2).
(3)
Intervalos de confiança
Testes de hipóteses:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 56/108
56
Inferências para F1
y encontrar intervalos de confiança para F1
yfazer testes de hipóteses com relação a F1, por exemplo:
0:
0:
1
10
{
!
F
F
a H
H Não há associaçãoentre X e Y.
Para realizar inferências sobre F1
, precisamos conhecer a distribuição amostral de b1
, o estimador pontual de F1.
Distribuição amostral de b1
O estimador pontual é dado por:
§
§
!
2
)(
))((
1 X X
Y Y X X
i
ii
b
A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos commuitas amostras para um mesmo nível da variável preditora X (constante).
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 57/108
57
Normalidade: a normalidade da distribuição amostral de b1 segue do fato de que b1 é umacombinação linear dos Y i.Os Y i são independentes, com distribuição normal. Uma combinação linear de variáveis aleatórias independentes, com distribuição normal, também tem distribuição normal.
b1 como combinação linear de Y i.
§!
!
§§!
§§ §!
§§ §!
§§!
§
2
2
2
2
2
)(
)(
1
)(
)(
1
)()()(1
)(
)()(
1
)(
))((
1
X X
X X
i
ii
X X
Y X X
X X X X Y Y X X
X X
Y X X Y X X
X X
Y Y X X
i
i
i
ii
i
iii
i
iii
i
ii
k
Y k b
b
b
b
b
Portanto, k i são funções de X i que são valoresfixos.
Média:
viesado)(não b E
X k k b E
X k k b E
X k b E
Y E k Y k E b E
iii
iii
ii
iiii
11
101
101
101
1
)(
)(
)(
)()(
)()(
F
F F
F F
F F
!
!
!
!
!!
§§
§§
§
§§
Pois,
)( Demonstre X k
k
ii
i
1
0
!
!
§
§
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 58/108
58
Variância:
? A ? A
§
§
§§
§
§ §§
!
!
¼¼½
»
¬¬-
«
!
2
2
2
22
2
2
2
2
1
1
X X
k
X X X X
k
X X
X X k
i
i
i
i
i
i
i
i
§!
!
!
!!
§
§
§§
2
12
12
22
12
22
12
222
12
)(
)(
)(
)()(
X X
i
i
iiii
i
b
k b
k b
Y k Y k b
WW
WW
WW
WWW
Podemos estimar a variância da distribuição amostral de b1 substituindo W2 pelo quadrado médioresidual (QME). O estimador s2(b1 ) é um estimador não tendencioso de W2 (b1 ).
§! 2)( 1
2
X X
QM E
ib s
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 59/108
59
Na seção propriedades dos estimadores de mínimos quadrados dissemos que b1 tem amenor variância entre todos os estimadores lineares não tendenciosos da forma
§! iiY c1Ö F
:otendenciosnãoé1Ö F
110101 )()()()Ö( F F F F F F !!!!! § §§§§ iiiiiiiii X cc X cY E cY c E E
Restrições: § § !! 10 iii X c e c
:Ö1 deVariância F § § §!!! 222222
12
)()Ö( iiii ccY c WWW FW
Seja ci=k i + d i , onde k i são como anteriormente e os d i são constantes arbitrárias.
Então:
§ §§§ ! iiiiii d k d k d k 2)( 22
22
2 WW
Zero (Verifique)
)( 1
2
bW
Nota:
ci são constantes arbitrárias11 b! FÖ
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 60/108
60
Finalmente, temos: §! 22
12
12 )()Ö( id b WW FW
Observamos que a menor variância do estimador ( ) é obtida quando .Istoocorre quando todos os d
i=0, isto implica que c
i| k
i. Assim, o estimador de mínimos
quadrados b1 tem variância mínima entre todos os estimadores lineares não tendenciosos.
Distribuição amostral de ( b1- F1 )/s( b1 )
Como b1 tem distribuição normal, sabemos que a estatística padronizada (b1- F1 )/ W(b1 ) é uma
variável aleatória com distribuição normal padrão. Para estimar W(b1 ) usamos s(b1 ) e, assim
precisamos conhecer a distribuição da estatística (b1- F1 )/s(b1 ) [estatística studentizada].
Teorema:2)-t(n~
b s
b
)( 1
11 F
Demonstração:
Podemos escrever a estatística como:
)()(
)( 1
1
1
11
b
b s
b
b
WW
Fz
O numerador é uma variável normal padrão z. Para o denominador, temos:
para o modelo (3)
1Ö F § ! 02
id
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 61/108
61
)2()2()(
)(2
)2(
22
2
2
2)(
2
2)(
12
12
~
!!!
§
§!nn
S Q E QM E
b
b s nn
S Q E
X i X
X i X
QM E
G
WWWW W
Portanto,
)2(
)2(21
11 ~)(
n
n
zb s
b
G
F
Como z e G2 são independentes pois z é uma função de b1 e b1 é independente de SQE/W2 ~ G2.Assim (A definição está no apêndice):
).2(~)( 1
11
nt b s
b F
Teorema: para o modelo (3),SQE/W2 é distribuído comoG2 com n-2 gl e éindependente de b0 e b1.
Agora podemos fazer inferências sobre F1.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 62/108
62
E/2=0,25E/2=0,25 1-E=0,50
t=1t=-1
Intervalo de confiança para F1
Desde que (b1- F1 )/s(b1 ) tem distribuição t, podemos fazer a seguinte afirmação probabilística:
EE FE !ee 1)}2;2/1()(/)()2;2/({ 111 nt b sbnt P
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 63/108
63
t( E /2;n-2) representa o ( E /2)100 percentil da distribuiçãot com n-2 g.l.
t( E /2;n-2) = - t(1-E /2;n-2) (devido a simetria da distribuição t )
Rearranjando as desigualdades obtemos:
.1))()2;2/1()()2;2/1(( 11111 EE FE !ee b snt bb snt b P
O intervalo de confiança é dado por:
)()2;2/1( 11 b snt b s E
Exemplo: considere os dados de população de S taphilococcus aureus, a pesquisadora desejaencontrar o intervalo para F1 com confiança de 95%.
0623,00434,0
)008772,0(776,2019,0)008772,0(776,2019,0776,2)4;975,0(
008772,0)(
0000769,0)(
1
1
1
5,857
0659,0
)(1
2
2
ee
ee
!
!
!!§
!
F
F
t
b s
b s X X
QM R
Muito importante
Usar software
Interpretação: estimamos que a população de S taphilococcus ³cresce´ entre -0,0434 e
0,0623 unidade/dia.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 64/108
64
Exemplo: considere os dados de porcentagem de acerto nacache, a pesquisadora deseja encontrar o intervalo para F1 com
confiança de 95%.
0000 8 27 0 0000457 0
00000 8 30 22 8 2 0000642 0 00000 8 30 22 8 2 0000642 0
22 8 2 10 975 0 t 00000 8 30 bs
6 8 635 0000000000 0 bs
1
1
1
0 3750000000 5738 2
X X
QMR 1
2 2
, ,
) ,( , , ) ,( , ,
, ); ,( , )(
, )( ,
)(
ee
ee
!!
!!§
!
F
F
Muito importante
Usar software
Interpretação: estimamos que a porcentagem de acertosaumenta entre 0,0000457 e 0,0000827 % por byte dotamanho da cache.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 65/108
65
Teste de hipóteses para F1
T este bilateral
0:
0:
1
10
{
!
F
F
a H
H
Hipóteses:
Vimos que (b1- F1 )/s(b1 ) tem distribuição t (n-2).O teste de hipótesesobre F1 pode ser feito de maneira padrão usando a distribuição deStudent.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 66/108
66
Exemplo: a pesquisadora deseja saber se existe regressão linear entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se F1{0 ou não.
[Como o intervalo de confiança construído anteriormente nãoinclui o valor 0 (o valor da hipótese nula), devemos rejeitar ahipótese nula ( H 0 ). Isto é válido quando o teste é bilateral].
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 67/108
670
*
0*
Hse-rejeita ),2;2/1(||
Hse-rejeitanão ),2;2/1(||
"
e
nt t S e
nt t S e
E
E
Critério do teste: estamos controlando a probabilidade de errotipo I (E).
)(*
1
11
b s
bt
F!
Teste estatístico formal:
[Como o intervalo de confiança construído anteriormente inclui ovalor 0 (o valor da hipótese nula), devemos aceitar a hipótese nula( H 0 )].
Exemplo: a pesquisadora deseja saber se existe regressão linear entre população de bactérias e o tempo de armazenamento, ou
seja, se F1{0 ou não.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 68/108
68
Exemplo: para os dados de porcentagem de acerto na cache,com E=0,05, b1=0,0000642 e s(b1 )=0,0000083, temos:
,735 ,
,* 7 t 00000 8 30 0 0000642 0 !!
O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| é maior
do que 2,228 rejeita-se a hipótese nula e concluímos que existe umaassociação linear entre a porcentagem de acertos na cache e otamanho da cache.
E l d d d l ã d St hil
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 69/108
69
Exemplo: para os dados de população de S taphilococcus
aureus, com E=0,05, b1=-0,019 e s(b1 )=0,008772, temos:
2,166 t !!
008772,00019,0*
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| é menor do que 2,776 aceita-se a hipótese nula e concluímos que não existe
uma associação linear entre a população de S taphilococcus aureus eo tempo de armazenamento.
Valor p: é o menor valor de E para o qual rejeitamos a hipótesenula. Se o pesquisador fixar E=0,05, então, para um valor p u 0,05 não rejeita-se H0, caso contrário, rejeita-se H0. Formalmente fica:
Valor p é também denominado de nível descritivo ou nível de
significância observado.
pvalor t t P )( * !"
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 70/108
70
Saída do Statistica: dados de porcentagem de acertos na cache. Asdiferenças verificadas são devidas às aproximações nos cálculos.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 71/108
71
* * Com o uso do Statistica, para os dados de porcentagem de
acerto na cache, encontrar a probabilidade de se rejeitar ahipótese nula, quando ela é verdadeira.
000016,0,0000080,0000080)7525,7()7525,7(
000015,0)7525,7|(|
$$"
!"
t pt P
t P
Atenção: verificar se o software dá o valor p para o teste uniou bilateral
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 72/108
72
Saída do Statistica: dados de populações de S taphilococcus a diferença verificada entre -2,166 e -2,15351 é devido à aproximações nos cálculos.
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é
verdadeira.
09624,004812,004812,0)166,2()166,2(
0962,0)166,2|(|
!!"
!e
t pt P
t P Atenção: verificar se osoftware dá o valor p parao teste uni ou bilateral
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 73/108
73
T este unilateral:
0:
0:
1
10
u
F
F
a H
H
O pesquisador deseja, por exemplo, testar se F1 é negativo,
controlando o nível de significância E=
0,05
.
Regra de decisão:
0*
0*
H se-rejeitat
H se-rejeitanãot
),n;( t S e
),n;( t S e
2
2
u
E
E
E xemplo: para os dados de S taphilococcus temos, para E=0,05,t(0.05;4)=-2,132. Como t *=-2,166, rejeita-se a hipótese denulidade, portanto F1 é negativo.
*t t P p !V al or
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 74/108
74
Nas publicações, indicar o nível descritivo juntamente com o valor da estatística teste. Podemos realizar o teste estatístico para
qualquer nível de significância E, comparando o nível descritivocom o valor desejado de E.
Comentário: pode-se testar as seguintes hipóteses:
101
1010
:
:
F F
F F
{
!
a H
H
Onde F10 é um valor diferente de zero.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 75/108
75
A estatística teste é dada por:
1
101
b s
bt F!
Critério do teste:
Se |t *| e t(1- E /2;n-2) não se rejeita H 0
Se |t *| > t(1- E /2;n-2) rejeita-se H 0
I f ê i F
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 76/108
76
Inferências para F0
Só tem interesse quando os níveis de X incluem X=0 (o que é raro).
Distribuição amostral de b0
O estimador pontual b0 é dado por: X bY b 10 !
A distribuição amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos comdiferentes amostras para o mesmo valor de X (constante).
A distribuição amostral de b0 é normal
Média:00 )( F!b E
Variância: ¹ º ¸©
ª¨
§!
2
2
)(
12
0
2 )( X X
X n
i
b WW
A normalidade é verificada pois b0 é uma combinação linear das observações Y i.
Um estimador para W2(b0 ) é obtido substituindo-se W2 pelo seu estimador pontual, QM E .
Distribuição amostral de ( b0- F0 )/s( b0 )Teorema:
)2(~)( 0
00
nt b s
b F@ podemos usar a distribuição t para construir os IC e fazer os testes de hipóteses.
(Demonstração próxima página)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 77/108
77
(cqd).
)(
)( )( )( )(
0 F
F F F
!
!!
!!
110 1
110
X X bE X Y
X bE Y E X bY E bE
Demonstração:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 78/108
78
Intervalo de confiança para F0
)()2;2/1( 00 b snt b s E
E xemplo: para os dados de S taphilococcus, como temos tempo=0 ( X=0), podemos estar interessados em encontrar o IC para F0.
8410,38094,2
)1858,0(776,23252,3)1858,0(776,23252,3
776,2)4;975,0(
1858,0)(
0,03456
10659,0
)()(
0
0
0
5,857
5,17
2
2
10
22
ee
ee
!
!
!¼½
»¬-
«!
¼¼½
»
¬¬-
«
!
§
F
F
t
b s
X X
X QM E b s
i
n
Como o intervalo de confiança não inclui o valor zero (0), rejeitamos a hipótese:
0:
0:
0
00
{
!
F
F
aH
H
Estimação intervalar para E(Y )
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 79/108
79
Estimação intervalar para E(Yh)
Freqüentemente, numa análise de regressão, deseja-se estimar amédia de uma ou mais distribuições de probabilidade de Y.
Exemplo: No estudo da relação entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem média de acerto paratamanhos maiores de cache pode ser de interesse. Outro exemplo,um agrônomo pode estar interessado na produção média paradiversas doses de um nutriente, com o objetivo de encontrar a doseótima.
X h p representa o nível da variável preditora para a qual se desejaestimar a resposta média.A resposta média para X=X
h
é representada por: E (Y h
)
hh X bbY 10Ö !
Sabemos que o estimador pontual de E (Y h ) é dado por:hY Ö
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 80/108
80
Distribuição normal: para o modelo de regressão com erros normais, a
distribuição amostral de Y(chapéu)h é normal. A normalidade seguediretamente do fato que Y(chapéu)h , assim como b0 e b1 , é uma combinaçãolinear das observações Y i.
Média
)()()()()Ö( 101010 hhhhh Y E X b E X b E X bb E Y E !!!! F F
Distribuição amostral de Y( chapéu)h
Diferentes valores de Y(chapéu)h que seriam obtidos se repetidas amostrasfossem selecionadas, para X constante, e calculando Y(chapéu)h para cadaamostra.
Variância
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 81/108
81
Variância
Para obter W2(Y(chapéu)h ), primeiro mostraremos que b1 e não são correlacionados e sob omodelo de regressão com erros normais, independentes:
0);( 1 !Y bWDefinimos:
2)(
1
§!!!
§§ X X
X X
iii1ini
ik Y k b Y Y
Através do teorema A.32 (Neter et al., página 668, 1996) com ai=1/n e ci=k i e lembrando queY i são variáveis aleatórias independentes:
§ § !!! 0)()();(221
1 iniink Y k bY WWW
Para a demonstração da variância de Y(chapéu)h vamos utilizar o modelo:
iii X X Y I F F ! )(1*
0
Y
Ö
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 82/108
82
¼½»
¬-«
§!
§!@
!!§
!
!
!
2
2
2
22
22
2
2
)(
)(122
)(
22
)(2
)(12
n1
12222
122
)Ö(
)()Ö(
)( )()constantesXeXtes;independensão beY(
)()()()Ö(
))(()Ö(
X X
X X
nh
X X hnh
nn
Y
X X
hh
hh
i
h
i
i
h
Y
X X Y
Y b
b X X Y Y
X X bY Y
WW
W
WW
WWW
WW
WW
WWW
Distribuição amostral de
)2(~)
Ö
(
)(Ö
nt
h
hh
Y s
Y E Y
Intervalo de confiança para E(Yh)
)Ö()2;2/1(Öhh Y snt Y s E
)Ö(/))(Ö( hhh Y sY E Y
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 83/108
83
Exemplo: vamos encontrar um intervalo com confiança de 95% para E (Y h ) para tamanho decache X=300.000 bytes. Temos:
? A
230348 Y E 9697 45 50732630 22 8 2 10 47 Y E 50732630 22 8 2 10 47
22 8 2 10 975 0 t
50732630 Y s
25738 0 5738 2 Y s
10 47 300000 0000642 0 8 363327 Y
300000
300000
h
0 3750000000
325000 300000
12 1
h
2
300000
2
, )( , ) ,( , , )( ) ,( , ,
, ); ,(
, )Ö (
, , )Ö (
, )( , ,Ö
)(
eeee
!
!
!!
!!
I nterpretação: temos 95% de confiança que a porcentagem média de acertos, com 300.000 bytesde tamanho de cache, está entre 45,9697 e 48,2003%. Um intervalo com boa precisão.
Exercício: encontrar o intervalo com confiança de 95% para E (Y h ) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 84/108
84
Exemplo: para os dados de população de bactérias, vamos encontrar um intervalo comconfiança de 95% para E (Y h ) para tempo X=14 dias. Temos:
? A
3619,3)(7561,2)10
91,0(
776,
20
59,
3)()10
91,0(
776,
20
59,
3
776,2)4;975,0(
1091,0)Ö(
0119,00659,0)Ö(
0593)14(019,0325,3Ö
14
14
5,857
)5,1714(
6
12
14
2
eeee
!
!
!!
!!
Y E Y E
t
Y s
Y s
,Y
h
h
I nterpretação: temos 95% de confiança que a população média de bactérias, com 14 dias dearmazenamento, está entre 2,7561 e 3,3619 ufc (em log base e).
Exercício: encontrar o intervalo com confiança de 95% para E (Y h ) para tempo X=0.Compare as amplitudes dos intervalos.
Predição de uma nova observação
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 85/108
85
Predição de uma nova observação
Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertosna cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a população de bactérias para um tempoespecífico igual a 15 dias.
Portanto, desejamos predizer uma nova observação, Y , vista comoresultado de um novo ensaio, independente dos ensaios nos quaisanálise de regressão foi feita.
Notação: denotamos o nível de X para o novo ensaio como X h e anova observação em Y como Y h(novo). Assumimos que o modelo deregressão continua válido para a nova observação.
A diferença entre estimar uma resposta média, E (Y h ) e fazer a predição de uma nova observação, Y h(novo), é que no primeiro casoestimamos a média da distribuição de Y. Agora, vamos predizer umaresposta individual da distribuição de Y.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 86/108
86
Intervalo de predição para Yh(novo)
Os limites de predição para uma nova observação Y h(nova) para um dado X h são obtidos através do
do seguinte teorema : )2(~)(
Ö)(
nt pred s
Y Y hnovoh
Isto para o modelo de regressão com erros normais.
Note que a estatística usa Y(chapéu)h no numerador ao invés de E (Y h ). O desvio padrão estimado, s(pred), é obtido como segue:
A diferença no numerador, Y h(novo) - Y(chapéu)h, pode ser visto como um erro de predição, comY(chapéu)h sendo a melhor estimativa pontual do valor da nova observação, Y h(novo) . A variânciadesse erro pode ser obtida considerando que a nova observação e as n observações, sobre as quaisY(chapéu)h está baseada, são independentes. Considerando o teorema A.31b (Neter et. Al., página668, 1996), temos:
¼½»
¬-«
§!
!
!!!
2
2
)(
)(1
22
222
)(2
)(22
1)(
)Ö())(
)Ö()Ö()()Ö()(
X X
X X
n
2
h
hhnovohhnovoh
i
hQM E pred s
o)tendenciosnão(estimador Y sQM E pred s
Y Y Y Y Y pred WWWWWW
)()2;2/1(Ö pred snt Y h s E
O intervalo fica:
Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes e que a pesquisadora
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 87/108
87
Exemplo: suponha que um novo tamanho de cache seja X h 375000 bytes,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 375000(novo).
? A
7445 55 Y 07 8 2 48
720436 122 8 2 9113351Y 720436 122 8 2 9113351
720436 1 pr ed s95992 38 610 5738 2 pr ed s
22 8 2 10 975 0 t
5738 2 QM E
38 610 5738 2 Y s
9113351375000 0000642 0 8 363327 Y
nov o375000
nov o375000
2
0 3750000000
325000 375000
12 1
375000
2
375000
2
, ,
) ,( , , ) ,( , ,
, )( , , , )(
, ); ,(
,
, , )Ö (
, )( , ,Ö
)(
)(
)(
ee
ee
!!!
!
!
!!
!!
I nterpretação: podemos afirmar com 95% de confiança que o valor predito de porcentagem deacertos, para tamanho de cache igual a 375000 bytes, está entre 48,0782 e 55,7445%.
O intervalo de predição é similar ao intervalo de estimação, a diferença é conceitual . Um intervalode estimação é uma inferência sobre um parâmetro e é um intervalo que procura conter o valor do
parâmetro. O intervalo de predição, por outro lado, é um conhecimento formal sobre um valor deuma variável aleatória, a nova observação Y h(novo).
Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias e que a pesquisadora
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 88/108
88
Exemplo: suponha que um novo tempo de armazenamento seja X h 15 dias,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 15(novo).
? A
8123,32677,2
)2782,0(776,2040,3)2782,0(776,2040,3
2782,0)(0774,00115,00659,0)(
776,2)4;975,0(
0659,0
0115,00659,0)Ö(
040,3)15(019,0325,3Ö
)(15
)(15
2
5,857
)5,1715(61
15
2
15
2
ee
ee
!!!
!
!
!!
!!
novo
novo
Y
Y
pred s pred s
t
QM E
Y s
Y
I nterpretação: podemos afirmar com 95% de confiança que o valor predito de população de bactérias, para tempo igual a 15 dias, está entre 2,2677 e 3,8123 ufc/cm2.
Faixa de confiança para a equação de regressão
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 89/108
89
Faixa de confiança para a equação de regressão
Útil para verificar o ajuste da equação de regressão.
A faixa de confiança (1-E) para a equação da reta correspondente ao modelo de regressão comerros normais tem dois limites para qualquer nível de X h, cujos valores são dados por:
¼½»
¬-«
§!
!
!
s
2
2
)(
)(12
10
2
)Ö(
Ö
)2,2;1(2
)Ö(Ö
X X
X X
nh
hh
hh
i
hQM E Y s
X bbY
n F W
Y WsY
E
Calcula-se os valores dos limites para diversos níveis de X h e após faz-se o gráfico.
Distribuição de F,
com 2 gl nonumerador e n-2 no
denominador, com
grau de confiança 1-
E
Scatterplot (CACHE.STA 9v 12c)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 90/108
90
Scatterplot (CACHE.STA 9v*12c)
y=27,836+6,423e-5*x+eps
TAMANHO DA CACHE
40
42
44
46
48
50
52
54
56
58
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
Percebe-se que os valores da linha de regressão são estimados com boa precisão.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 91/108
91
Análise de variância da regressão
É importante para análise de regressão linear múltipla e outros modelos lineares. Para análise deregressão linear simples não traz nenhuma novidade.
Partição da soma de quadrados total
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 92/108
92
Partição da soma de quadrados total
)Ö ( )Ö ( i i i i
Y Y Y Y Y Y !
Desviototal
Desvio daequação
ajustada emtorno da média
Desvio emtorno daequaçãoajustada
X
Y
X i
Y i
TR
E
D t ã §§ !nn
YYYYYY2
2 )Ö()Ö()(
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 93/108
93
Soma de quadrados total:
Soma de quadrados do erro (ou resíduo): §!
!n
i
ii Y Y S Q E 1
2)Ö(
Soma de quadrados da regressão: §!
!n
i
i Y Y S Q R1
2)Ö(
§!
!n
i
i Y Y S QT 1
2)(
Demonstração:
§ §§
§ §§
§ § §
§
§§
! !!
! !!
! ! !
!
!!
!@
!!
!
n
i
n
i
iii
n
i
n
i
n
i
iiiii
n
i
iii
n
i
n
i
n
i
iiiiii
n
i
iiiiii
i
iii
i
Y Y Y Y Y Y
Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y
1 1
22
1
2
1 11
1 1 1
22
1
22
11
)Ö()Ö()(
0)Ö(2)Ö(Ö2)Ö)(Ö(2
)Ö)(Ö(2)Ö()Ö(
)Ö)(Ö(2)Ö()Ö(
)()()(
(Parte da variabilidade de Y i que está associada com a regressão)
G d lib d d
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 94/108
94
Graus de liberdade
A S QT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a somados desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a
média da amostra é usada para estimar a média populacional.
A S Q E tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros sãoestimados para obter Y(chapéu)i.
A S Q R tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um delesé perdido devido a restrição:
Os graus de liberdade são aditivos: (n-1)=1+(n-2)
Quadrados médios
A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.
1S Q RQM R ! )2( ! n
S Q E QM E )1( ! n
S QT
QM T
.0)Ö( !§ Y Y i
Tabela da análise de variância
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 95/108
95
Tabela da análise de variância para regressão linear simples
Causas de variação Soma de quadrados Graus de liberdade Quadrado médio
Regressão SQR 1 SQR/1Erro SQE n-2 SQE/(n-2)
Total SQT n-1
T abela modificada (soma de quadrados total não corrigida)
Baseado no fato de que:
§§§
!
!!2
222
)(
i
ii
Y S QT N C
Y nY Y Y S QT
Tabela da análise de variância para regressão linear simples
Causas de variação Soma de quadrados Graus de liberdade Quadrado médio
Regressão SQR 1 SQR/1
Erro SQE n-2 SQE/(n-2)Total SQT n-1
Correção para a média SQ(devido a média)= 2Y n 1
Total não corrigido SQTNC=§2
iY n
E í i bt h d d d t d t h SQR QMR
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 96/108
96
Exercício: obtenha para os dados de pop. de S taphilococcus a SQR e o QMR.
Esperanças dos quadrados médiosPara realizar inferências na análise de variância, precisamos conhecer as esperanças dosquadrados médios. Os valores esperados dos quadrados médios é a média de suas distribuiçõesamostrais e nos mostram o que está sendo estimado pelo quadrado médio.
Teorema 2.11 (página 49, Neter et al., 1996) diz que: )2(~/22 nS Q E GW
Das propriedades da distribuição de G2 (apêndice) temos:
imparcial)estimador éQM E ( O QM E E E
n E
nS Q E
S Q E
22 )()(
2)( 2
W
W
!!
!
Para encontrar a E(QMR), partimos de:
22
1)(§ ! X X bS Q R
i
Sabemos que a variância de uma variável aleatória é dada por:
(para o modelo com erros com distribuição normal).
Exercício: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.
! 2
1
2
11
2
bE
bE bE b
)(
))( ( )( )(
F
W
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 97/108
97
§ !!@
§ !
§ !
§ !@
!@
!
!
§
§
§
2
i
2
1
2
1SQR
2
i
2
1
2
2
i
2
1 X X
2
i
2
1
2
1 X X
2
1
X X 1
2
11
X X QMR E E
X X SQR E
X X SQR E
X X bE SQR E
bE
b
bE
2
i
2
2 i
2
2
i
2
)( )( )(
)( )(
)( )(
)( )( )(
)(
)(
)(
FW
FW
F
F
W
F
W
W
W
Teste F para F1
Na análise de variância testa-se as seguintes hipóteses:
0:
0:
1
10
{
!
F
F
a H
H
A estatística utilizada para testar essas hipóteses é dada por:QM E
QM R F !*
Para estabelecer uma regra de decisão do teste de hipóteses devemos conhecer adistribuição amostral de F *.
Valores altos de F * favorecem H a; F *=1 favorece H 0; é um teste unilateral.
Di t ib i ã t l d F*
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 98/108
98
Distribuição amostral de F
Vamos considerar a distribuição amostral de F * quando a hipótese nula for verdadeira, isto é,sob H 0.
T eorema de C ochran: se as n observações Y i são identicamente distribuídas de acordo comuma distribuição normal com média Q e variância W2 e a soma de quadrados total édecomposta em k somas de quadrados S Qr , cada uma com gl r graus de liberdade, então, ostermos S Qr / W2 , são variáveis independentemente distribuídas como G2 com gl r graus deliberdade se:
§!!
k
ir n gl
1 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e osseus graus de liberdade são aditivos.
Sob H 0 , de modo que os Y i tem distribuição normal com a mesma média Q =0 e mesmavariância W2 , S Q E / W2 e S Q R / W2 são variáveis independentemente distribuídas como G2.
Podemos escrever F * como:
)2()2(
1)1(
)2(1)2/(* 22
221
z!z!!!n
n
nnS Q E QM E
QM RS Q E S Q R
S Q R
F GGWW
Assim, sob H0, F * é o quociente entre duas variáveis independentes com distribuição de G2,
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 99/108
99
portanto, a estatística F * é uma variável aleatória com distribuição F(1,n-2) (apêndice-distribuição F).
Quando rejeita-se H 0 , pode-se mostrar que F * segue uma distribuição de F não central.
Regra de decisão do teste de hipóteses:
0
0
H
H reje
ser ejeit a )n,;( F F
seit anão )n,;( F F
*
*
"
e
211
211
E
E
Saída do STATISTICA: dados de porcentagem de acerto na cache.
F(95%;1,10)=4,96, portanto, F *> F e, assim, rejeita-se a hipótese nula.
Conclusão: existe uma associação linear entre porcentagem de acerto e o tamanho da cache.Mesmo resultado do teste t.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 100/108
100
Saída do STATISTICA: dados de população de S taphilococcus.
F(95%;1,4)=7,71, portanto, F *< F e, assim, não
rejeita-se a hipótese nula.
Conclusão: não existe uma associação linear entre pop. e otempo de armazenamento. Mesmo resultado do teste t.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 101/108
101
Teste geral para o modelo linear
T rês etapas:
1) Modelo completo
Este modelo é considerado adequado para os dados e chama-se modelo completo ou sem
restrição (superparametrizado). No caso de regressão linear simples temos:
iii X Y I F F ! 10 Modelo completo
A soma de quadrados do erro do modelo completo (SQE(C)), é dada por:
? A S Q E Y Y X bbY C S Q E iiii !!! §§22
10 )Ö()()(
2) Modelo reduzido
Vamos considerar as hipóteses:
0:
0:
1
10
{
!
F
F
a H
H Modelo reduzido:
iiY I F ! 0
Sob H0
A soma de quadrados do erro do modelo reduzido (SQE(R)), é dada por:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 102/108
102
? A S QT otal Y Y bY RS Q E ii !!! §§22
0 )()(
3) Teste estatísticoDevemos comparar as duas somas de quadrados dos erros.
)()( RS Q E C S Q E e Sempre
Mais parâmetros
C onclusão: se a S Q E ( C ) não é muito menor do que a S Q E ( R ), indica que o modelo reduzido é
adequado, isto é, não rejeita-se H 0.
Exercício: encontre o estimador de F0 pelo método de mínimos quadrados.
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 103/108
103
O teste estatístico é dado por:
),;1(~)()()(*ccr gl
C S Q E gl gl
C S Q E RS Q E gl gl gl F F ccr
z! E
Decisão:
0ccr
0ccr
H serejeita gl gl gl F F
H seaceita gl gl gl F F
"
e
),;1(
),;1(
*
*
E
E
Exercício: para os dados de porcentagem de acertos na cache, verifique a as hipóteses:
0:
0:
1
10
{
!
F
F
a H
H
. , **
,
, , , ,* 10 60 F 5738 5 2 6 8 99154
10 738 5 25
10 11738 5 25 42 8 418 0 !!z!
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 104/108
104
Exercício: para os dados de pop. de staphilococcus,verifique se as hipóteses:
0:
0:
1
10
{
!
F
F
a H
H
. , ,
, , , ,* N S
065977 0 305977 0
426390 8 0
45 26390 8 0 56988 5 0 644F !!z!
i i i i i
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 105/108
105
y
y
Medidas descritivas do grau de associação linear
entre X e Y .
X
Coeficiente de determinação (r2)
10
12
2
ee
!!
r
r S QT S Q E
S QT S Q R
Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão.Quanto maior o r 2 mais a variação total de Y é reduzida pela introdução da v. preditora X no modelo.
y
y
y
y
yyy
X bbY 10Ö !
r 2=1Y
X
Y
y
yy
yy
y
y
y
r 2=0
Y Y |Ö
A variável preditora X é responsável por toda
a variação nas observações Y i.
A v. X não ajuda na redução davariação de Y i com a Reg. Linear
y y y
y
y
yy y
yy
y y
y
yy
yy
y
Coeficiente de correlação (r)
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 106/108
106
Coeficiente de correlação (r)
11
2
ee
s!
r
r r
Exemplo: para os dados de população de S taphilococcus, temos:
Exemplo: para os dados de porcentagem de acertos na cache, temos:
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 107/108
107
Interpretações errôneas dos coeficientes de determinação e
correlação:1) Um alto coeficiente de correlação indica que predições úteis
podem ser feitas. Isto não é necessariamente correto. Observese as amplitudes dos intervalos de confiança são grandes, isto
é, não são muito precisos.2) Um alto coeficiente de correlação indica que a equação deregressão estimada está bem ajustada aos dados. Isto tambémnão é necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlação próximo de zero indica que X
e Y não são correlacionadas. Idem (veja figura a seguir).
5/12/2018 Analise de Regressao Linear Simples - slidepdf.com
http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 108/108
yy
yy
y
y
yy
yyy
y
y
y
y
y
yy
y
y
y
yy
Tem um alto valor de r ; o ajuste deuma equação de regressão linear não é adequada
Tem um baixo valor de r;
porém existe uma forte relaçãoentre X e Y .
*** Fazer lista de exercícios número2.
y
yy
y
y
yy
y
y
yyy
y
yy
yy
y
y yy
y