Analise de Regressao Linear Simples

108
 1 Regressão Linear Simples Introdução Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal fo rma que uma variável pode ser  predita a partir da outra o u outras. Exemplos: y A população de bactérias pode ser predita a partir da relação entre  população e o tempo de armazenamento. y Concentrações de soluções de proteína de arroz integral e absorbâncias médias corrigidas. y Relação entre textura e aparência. y T emperatura usada num processo de desodorização de um produto e cor do  produto final. y A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para u m determinado tipo de  pré-carregamento.

Transcript of Analise de Regressao Linear Simples

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 1/108

1

Regressão Linear SimplesIntroduçãoAnálise de regressão é uma metodologia estatística que utiliza a relação entre duas oumais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser  predita a partir da outra ou outras. Exemplos:

y A população de bactérias pode ser predita a partir da relação entre

 população e o tempo de armazenamento.

y Concentrações de soluções de proteína de arroz integral e absorbâncias

médias corrigidas.

y Relação entre textura e aparência.

y Temperatura usada num processo de desodorização de um produto e cor do

 produto final.

y A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 2/108

2

A análise de regressão, assim como a anova, também representa os dadosatravés de um modelo linear aditivo, onde o modelo inclui um componentesistemático e um aleatório.

y Número de acessos ao disco (disk I/O) e o tempo de processamento para

vários programas.

y A performance de um procedimento remoto foi comparado em dois

sistemas operacionais: UNIX e ARGUS. A métrica utilizada foi o tempo

total transcorrido, o qual foi avaliado para vários tamanhos de arquivos de

dados.

(1)  X  f Y  I! )(

 f descreve a relação entre X e Y. I são os erros aleatórios. Y = variável resposta ou dependente; X = variável independente, concomitante, covariável ou variável preditora.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 3/108

3

Cenário

Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y .Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los para dizer alguma coisa sobre a relação.

O caso mais simples de regressão é quando temos duas variáveis e a relaçãoentre elas pode ser representada por uma linha reta  Regressão linear 

 simples.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 4/108

4

Como sabemos os dados podem ser obtidos a partir de duas situações:

1) dados experimentais: as observações X e Y são planejadas como o resultado de umexperimento, exemplo:

 X = tamanhos de cache e Y = porcentagem de acerto

 X = doses de starter (microorganismos [bactérias lácticas]) , Y= tempo de maturação do salametipo italiano.

 Nesse exemplo, os valores de X estão sob controle do pesquisador, ou seja, ele escolheu as dosese observou o resultado, Y .

2) dados observacionais: observa-se os valores de X e Y , nenhuma delas sob controle, exemplo: população de coliformes e população de staphilococus;

média das alturas de plantas numa área e produção.

O tempo para criptografar um registro com k -byte usando uma técnica para este fim foiavaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 5/108

5

Problema prático: os valores observados de Y (e algumas vezesde X ) não são exatos. Devido a variações biológicas, de

amostragem e de precisão das medidas e outros fatores, só podemos observar valores de Y (e possivelmente de X ) com algumerro. Assim, com base numa amostra de valores ( X,Y ) a exatarelação entre X e Y é mascarada pelos erros aleatórios.

 X Fixo vs Aleatório:

 Dados experimentais: Geralmente X (doses, tempo, tamanhoda cache) é determinado pelo pesquisador p X é fixo. Y estásujeito à variações físicas, biológicas, tipos de objetos numa

 página da Web, usuários, de amostragem, de medidas p Y éuma variável aleatória.

 Dados observacionais: geralmente X e Y são variáveisaleatórias.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 6/108

6

A distribuição normal bivariada

Com dados observacionais, geralmente X e Y são v. a. e , dealguma forma, relacionadas.

 Lembrete: uma distribuição de probabilidades dá uma descrição

formal (matemática) dos valores possíveis da população que podem ser observados para a variável. Quando temos duasvariáveis a distribuição é denominada bivariada. A f  XY (x,y)

descreve como os valores de X e Y se comportam conjuntamente.

A distribuição normal é freqüentemente uma descrição razoávelde uma população com medidas contínuas. Quando X e Y são v.

a. contínuas, uma suposição razoável é que ambas sejamnormalmente distribuídas. Entretanto, espera-se que elas sedistribuam conjuntamente.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 7/108

7

A distribuição normal bivariada é uma distribuição de probabilidades com uma função densidadede probabilidade f(x,y) para X e Y , tal que:

 X e Y apresentam, cada uma, distribuição normal com médias QX e QY, e variâncias W2

X e W2Y,respectivamente;

o relacionamento entre X e Y é medido pela quantidade  VXY tal que -1 e VXY e 1.

 VXY é o coeficiente de correlação entre as variáveis aleatórias X e Y e mede a associação linear entre elas.

nulacorrelação

 perfeitanegativacorrelação

 perfeita positivacorrelação

 XY 

 XY 

 XY 

0

1

1

!

!

!

 V

 V

 V

Objetivo: com os dados observados (X i ,Y i ), desejamos quantificar o grau de associação. Paraisso estimamos  VXY.

Comparação entre os modelos de regressão e correlação Dois modelos:

X fixo: ajusta-se um modelo para a média da v. aleatória Y como uma função de X fixo (linha reta).Estima-se os parâmetros do modelo para caracterizar o relacionamento.

X aleatório: caracteriza-se o relacionamento (linear) entre X e Y através da correlação entre elas eestima-se o parâmetro de correlação.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 8/108

8

S utileza: em situações onde X é uma variável aleatória, muitos investigadores desejamajustar um modelo de regressão tratando X como fixo. Isto porque, embora o coef. decorrelação descreve o grau de associação entre X e Y , ele não caracteriza o

relacionamento através de um modelo de regressão.Exemplo: um pesquisador pode desejar estimar a produção com base na média dealturas de plantas da unidade experimental. O coef. de correlação não permite isso.Ele, então, prefere ajustar um modelo de regressão, mesmo X sendo aleatório.

Isso é legítimo? Se tomarmos cuidado na

interpretação, sim.

Se X e Y são variáveis aleatórias, e nós ajustarmos um modelo de regressão paracaracterizar o relacionamento, tecnicamente, todas as análises posteriores sãoconsideradas como sendo condicionais aos valores de X  presentes no estudo.Isto significa que nós consideramos X fixo, embora ele não seja. Entretanto, é

válido fazer-se previsões. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produção. O pesquisador não está dizendo que ele pode controlar as alturas e, assim,influenciar as produções.

Vale para os dados da amostra.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 9/108

9

Causalidade versos correlação

Pesquisadores freqüentemente são ³tentados´ a inferir uma relação de causa e efeito entre  X e Y 

quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Umaassociação significativa entre X e Y em ambas as situações não necessariamente implica numarelação de causa e efeito.

Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a populaçãode Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas(pássaros) naquele ano ( X).

Interpretação: existe associaçãoentre X e Y.

Freqüentemente, quando duas v. X e

Y  parecem estar fortementeassociadas, pode ser porque X e Y 

estão, de fato, associadas com uma

terceira variável , W. No exemplo, X e Y aumentam com W = tempo.

Correlação não necessariamente implica em causalidade

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 10/108

10

Construção de Modelos de Regressão

I. Seleção das variáveis preditorasII. Escolha do modelo de regressão

III. Abrangência do modelo

i. O problema, em estudos observacionais, é escolher um conjunto devariáveis que podem ou devem ser incluídas no modelo;

ii. Pode-se usar um modelo teórico; Usar aproximações por modelos polinomiais;

iii. Geralmente é necessário restringir a abrangência do modelo paraalguns valores ou região da(s) variável(is) preditora(s).

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 11/108

11

Modelo de regressão linear simples

( S em especificação da distribuição de probabilidades para o erro)

Considere o modelo com uma variável preditora e que a função de regressão é linear. O modelo édado por:

n1,2,...,i !

! i i i  X Y  I F F10 (2)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 12/108

12

Onde:

Y i é o i-ésimo valor da variável resposta; F0 e  F1 são os parâmetros (coeficientes de regressão);

 X i é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).

Ii é o termo do erro aleatório com  E ( Ii)=0 e W2(Ii)= W2;

Ii e I j não são correlacionados W(Ii, I j)=0 para todo i,j; i{ j; (covariância é nula).

i=1,2,...,n.

Os dados são usados para estimar  F0 e  F1, isto é, ajustar o modelo aos dados, para:

quantificar a relação entre Y e X;

usar a relação para predizer uma nova resposta Y 0 para um dado valor de X 0 (não incluído noestudo);

calibração ± ou capacidade de predição de novas observações, pode ser feita usando uma novaamostra e comparando os valores estimados com os observados.

- dado um valor de Y 0 , para o qual o correspondente valor de X 0 é desconhecido ,estimar o valor de X 0.

Covariância (o resultado em qualquer experimento não temefeito no termo do erro de qualquer outro experimento)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 13/108

13

Características do modelo:

nadoscorrelacio sãonãoY eY 

constantevariância X Y 

 X  X  E  E (Y 

 X v.a.(Y umaéY 

 ji

iiii

2

iiiii

iiii

.4

)()()()(.3

)().2

).1

22

10

2

1010

10

WIWI F FWW

 F FQI F F

I F F

!!!

!!!

!

aleatório

O modelo de regressão (2) mostra que as respostas Y i são oriundas de umadistribuição de probabilidades com média  E (Y i ) = F0 + F1 X i e cujas variâncias são W2,a mesma para todos os valores de X. Além disso, quaisquer duas respostas Y i e Y  j não

são correlacionadas.

constante

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 14/108

14

A figura mostra a distribuição de Y  para vários valores de X . Mostra onde cai a observação Y 1.

Mostra que o erro é a diferença entre Y 1 e E 

(Y 1 ). Observe que as distribuições de probabilidade apresentam a mesma variabilidade.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 15/108

15

 Resumo da situação: para qualquer valor  X i , a média de Y i é Qi =  F0 +  F1 X i. As médias estãosobre a linha reta para todos os valores de X . Devido aos erros aleatórios, os valores de Y i sedistribuem ao redor da reta.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 16/108

16

Outro exemplo.44,45

42,10

44,68

46,99

46,26

48,82

50,66

47,68

52,44

53,21

51,85

55,38

Porcentagem de acerto

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 17/108

17

 E (Y)=27,836+0,00006423X 

Média:

Para X i=300.000 bytes observou-se Y i=46,26. O valor estimado édado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor dotermo do erro é I

i

=46,26-47,11=-0,845.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 18/108

18

Significado dos parâmetros do modelo de regressão linear simples

 F0

 U

 x  x+1

( x=1

( y yi =  F0 + F1 xi

 x

 y

((!1 F

 F0 (intercepto); quando a região experimental inclui X=0, F0 é o valor da média da distribuiçãode Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; F1

(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre amudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidadede Y  por unidade de acréscimo em X.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 19/108

19

Exemplo: os dados abaixo indicam o número de bytes transferidos (Y) e otamanho da cache (X).

Equação de regressão:

 x 64927 10 7634y  7  ,. ,Ö  !

Faça o gráfico dos pontos e da retaajustada. Você acha que o modeloadotado é razoável?

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 20/108

20

y=4,763e7-27,649*x+eps

TAMANHO DA CACHE

3e7

3,2e7

3,4e7

3,6e7

3,8e7

4e7

4,2e7

4,4e7

4,6e7

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

O que significa o coeficiente angular neste caso? E o coeficientelinear?

Faça uma predição para o número de bytes transferidos para tamanhode cache igual a 270.000 bytes.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 21/108

21

Exemplo: os dados abaixo indicam o valor  y do aluguel e a idade x de 5 casas.

 x 10 13 5 7 20

 y 4 3 6 5 2

Equação de regressão: x y 261,087,6Ö !

Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?

O que significa o coeficienteangular neste caso? E o coeficientelinear?

Faça uma previsão para o valor doaluguel para idade de 13 anos.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 22/108

22

Observações:

um modelo de regressão pode conter duas ou mais variáveis preditoras ( X 1 , X 2 ,...,X  p-1 );

o modelo de regressão não precisa ser uma linha reta:

I F F F ! 2

210  X  X Y 

Chama-se modelo quadrático ou de 20 grau, cuja figura é uma parábola. Esse modelo, embora nãoseja uma linha reta, continua sendo um modelo linear nos parâmetros. O método que será discutido

 para o modelo de regressão linear simples aplica-se diretamente aos demais modelos lineares nos parâmetros.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 23/108

23

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.

Scatterplot (GARBAGE.STA 10v*10c)

y=1321,483-2,208*x+0,001*x^2+eps

HEAP SIZES

0

100

200

300

400

500

600

400 600 800 1000 1200 1400 1600

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 24/108

24

Modelo não linear nos parâmetros. Exemplo: modelo de crescimento logístico, onde X é otempo.

I F F

 F

!  X eY 

32

1

1

É necessário estudar métodos para modelos não lineares.

Exemplo computação: modelo potência, y=bxa , onde X é a velocidade do processador e Y éa taxa I/O.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 25/108

25

Modelos de regressão alternativos

As vezes torna-se conveniente (p.e. facilidade de cálculos) escrever o modelo deregressão linear (2) de forma diferente, embora equivalentes. Seja X 0 uma

variável dummy identicamente igual a 1. Então, temos o modelo que associauma variável X a cada parâmetro do modelo:

11100 |! 0ii  X onde  X  X Y  I F F

Uma outra alternativa é usar para a v. preditora os desvios ( X i-Média(X)) ao invésde X i. Para não modificarmos o modelo (2), escrevemos:

 X 

 X  X Y 

 X  X  X Y 

10 0 

i i 10 i 

i 1i 10 i 

 F F F

I F F

I F F F

!

!

!

*

*  )( 

 )( 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 26/108

26

Estimação da função de regressão

Denotamos as observações ( X i ,Y i ) para a primeira repetição como ( X 1 ,Y 1 ), para a segunda como(X 2 ,Y 2 ), e para a i-ésima como (X i ,Y i ), com i=1,2,..,n.

 E  xemplo: uma pesquisadora está estudando o comportamento de S taphilococcus aureus (Y) emfrango, mantido sob condições de congelamento doméstico (-18oC) ao longo do tempo ( X ) (dias).

Tempo 0 7 14 21 28 35

População 3,114 3,568 2,845 3,079 2,699 2,663

 Notação: temos n=6 observações. O tamanho da população (ufc/cm2) é dado em log10.

Método dos mínimos quadrados

Para observações (X i ,Y i ) i=1,..,n, temos o modelo

n1,..,i  X Y  iii !! I F F 10

Desejamos ajustar o modelo, estimando os parâmetros  F0 e F1.

O método de mínimos quadrados considera os desvios de Y i em relação ao seu valor esperado(E(Y i )):

)(10 ii

X Y  F F

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 27/108

27

Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q

(10)  X Y Qn

i

ii§!

!

1

2

10 F F

De acordo com o método de mínimos quadrados, os estimadores de  F0 e F1 são os valores b0 e b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).

IDADE

1,5

2,5

3,5

4,5

5,5

6,5

2 6 10 14 18 22

e5

e2

e1

e3

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 28/108

28

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de F

0

e  F1

que minimizam Q.

§

§

!x

x

!x

x

!

!

n

i

iii

Q

n

i

ii

Q

 X Y  X 

 X Y 

110

110

)(2

)(2

1

0

 F F

 F F

 F

 F

Estimadores de mínimos quadrados

Os valores de F0 e F1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em

relação a  F0 e  F1 , portanto, obtemos:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 29/108

29

0

0

0)(

0)(

:obtemos,expandindoendosimplifica0)(

2

0)(2

1

2

1

1

0

1

110

1

110

110

1 10

110

!

!

!

!

!

!

§§§

§§

§

§

§

§

!!!

!!

!

!

!

!

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

iii

n

i

ii

n

iiii

n

i

ii

 X b X bY  X 

 X bnbY 

 X bbY  X 

 X bbY 

 X bbY  X 

 X bbY 

Daí, obtemos o sistema de equações normais, dado por :

§§ §

§§

!! !

!!

!

!

n

i

i

n

i

n

i

iii

n

i

i

n

i

i

 X  b X  bY  X  

 X  bnbY 

1

2

1

1

1

0

11

10

Fazendo-se as derivadas parciais de segunda ordem,indicará que um mínimo foiencontrado com os estimadores

 b0 e b1.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 30/108

30

As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

 X bY  X bY b

b

iin

 X  X 

Y Y  X  X 

i

ii

111

0

)())((

1 2

!!

§§!

§ §

n

 X 2 

n

Y  X 

1 2 

 X 

 XY b

§

§ §!

§

§

Outra forma de escrevermos:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 31/108

31

Exemplo: a pesquisadora deseja encontrar o modelo de regressão da porcentagem de acertos sobre o tamanho da cache.

Tamanho dacache (X)

Porcentagemde acertos (Y)

)(  X  X i )( Y Y i )(( Y  X  X  ii 2)(  X  X i 2)( Y Y i

Total = 3900000 584,52 0 0 2408500 37500000000 181,438

Média = 325000 48,71

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 32/108

32

8 45 27 325000 0000642 0 7148  X bY 

0000642 0 b

1

0 3750000000 240 8 500 

 X  X 

Y Y  X  X 

1 2 

i i 

 , ) )(  ,(  ,b

 ,

0

 )( 

 ) )( ( 

!!!

!!

§

§!

Assim, estimamos que a porcentagem de acerto da cacheaumenta cerca de 0,00006 % para cada byte do tamanho dacache.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 33/108

33

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 34/108

34

Saída do Statistica:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 35/108

35

Tempo (X) População (Y) )( X  X i )( Y Y 

i ))(( Y Y  X  X 

ii

2)( X  X i

2)( Y Y i

0 3,114 -17,5 0,119 -2,088 306,250 ,014

7 3,568 -10,5 0,573 -6,020 110,250 ,329

14 2,845 -3,5 -0,150 0,524 12,250 ,022

21

3,0

79 3,5

0,084

0,295

12

,25

0 ,007

28 2,699 10,5 -0,296 -3,105 110,250 ,087

35 2,663 17,5 -0,332 -5,805 306,250 ,110

Total = 105 17,968 0 0 -16,199 857,5 0,569

Média = 17,5 2,9947

3,32545)5,17)(0189,0(9947,2 b-0,01

8890

10

5,857

199,16

)(

))((

1 2

!!!

!!§

§

!

 X bY 

b  X  X 

Y Y  X  X 

i

ii

Assim, estimamos que o tamanho da população de bactérias diminui cercade 0,0189 ufc/cm2 para cada dia.

Exemplo: a pesquisadora deseja encontrar o modelo de regressão do temposobre a população de bactérias.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 36/108

36

Regression Summary for Dependent Variable: POPR = ,73274116 R²= ,53690961 Adjusted R²= ,42113702

F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686

St. Err. St. Err.BETA of BETA B of B t(4) p-level

Intercpt 3,325238 ,185902 17,88708 ,000057

TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596

Saída do STATISTICA:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 37/108

37

Propriedades dos estimadores de mínimos quadrados

T eorema de Gauss-Markov: Se as pressuposições do modelo de regressão linear (2) forematendidas, os estimadores de mínimos quadrados b0 e b1 são não tendenciosos (unbised) e comvariância mínima, entre todos os estimadores lineares não tendenciosos. Primeiro, o teoremadiz que:

E(b0)= F0 e E(b1)= F1.

Segundo, o teorema diz que os estimadores b0 e b1 são mais precisos (isto é, as suas distribuiçõesamostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classedos estimadores não tendenciosos que são funções lineares das observações Y 1 , Y 2 ,...,Y n. Osestimadores b0 e b1 são tais funções lineares das observações. Considere, por exemplo, b1,

§!

!§§!

§§!

§

2

22

)(

)(

)(

)(

)(

))((

1

 X  X 

 X  X 

i

ii X  X 

Y  X  X 

 X  X 

Y Y  X  X 

i

i

i

ii

i

ii

Y k b

Como k i são constantes (pois X i são constantes conhecidas), b1 é uma combinação linear de Y i e, assim, é um estimador linear . Da mesma forma, b0 também é um estimador linear. Entre todos os estimadores lineares não tendenciosos, b0 e b1 tem menor 

variabilidade (demonstração adiante) em repetidas amostras nas quais os níveis de  X são

constante.

(Demonstração adiante)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 38/108

38

Estimação pontual da resposta média

Estimação da função de regressão

A média do modelo de regressão linear é dada por:

 X Y  E  10)( F F !

Estima-se a função de regressão por:

 X bbY  10

Ö

!Onde Y (chapéu) é o valor estimado da função no nível X da variável preditora.

A resposta média ( E (Y )), corresponde a média da distribuição de probabilidade de Y no nível X 

da variável preditora. Pode-se demonstrar, como uma extensão do teorema de Gauss-Markovque Y (chapéu) é um estimador não tendencioso de  E (Y), com variância mínima dentro daclasse dos estimadores lineares não tendenciosos. Temos:

n1,2,...,i  X bbY  ii !! 10Ö

como sendo o valor ajustado para o i-ésimo caso.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 39/108

39

Exemplo: para os dados de porcentagem de acerto na cache, osvalores estimados da função de regressão são dados por:

 X 0000642 0 8 363327 Y   , ,Ö  !

Suponha que estejamos interessados na porcentagem médiade acerto na cache para X=300.000 bytes (muitas amostrascom 300.000 bytes sob as mesmas condições que a equação

foi estimada); a estimativa pontual vale:

10 47 300000 0000642 0 8 363327 y   , )(  , ,Ö  !!

Valores ajustados dos dados da amostra são obtidossubstituindo-se os correspondentes valores da variável preditora X na função de regressão.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 40/108

40

Saída do Statistica:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 41/108

41

Suponha que estejamos interessados na população média (muitas amostras com 21 dias de

armazenamento sob as mesmas condições que a equação foi estimada) de bactérias para X=21 dias de armazenamento; a estimativa pontual vale:c

926 2 210190 325 3y   , )(  , ,Ö  !!

Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valoresda variável preditora X na função de regressão.

Saída do STATISTICA:

Predicted & Residual Values (staphilo.sta)Dependent variable: POP

Observed Predictd Standard Standard Std.Err. Mahalns. Cook'sValue Value Residual Pred. v. Residual Pred.Val Distance Distance

1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,781146

2 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,633439

3 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,095181

4 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,0462695 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,042668

6 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146

Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454

Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725

 X Y  019,0325,3Ö !

Exemplo: para os dados de  staphilococcus aureus em frango, os valores estimados da função deregressão são dados por:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 42/108

42

Modelo alternativo

Quando o modelo utilizado é:ii

 X  X Y  I F F ! )(1

*

0

O estimador b1 de  F1 permanece o mesmo. O estimador de

Y  X b X bY  X bbb: por dadoé  X 

*

0 !!!!

1110

10

*

0

)( F F F

Temos: )(Ö1  X  X bY Y  !

Exemplo: para os dados de staphilococcus aureus em frangoobter o valor ajustado para X 1=0 dia de armazenamento..

Exemplo: obter o valor ajustado para X=300.000 bytes decache..

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 43/108

43

Resíduos

O i-ésimo resíduo é a diferença entre o valor Y i e o

correspondente valor ajustado Y (chapéu)i.

iii Y Y e Ö!

Vemos que o resíduo para o primeiro caso, exemplo de pop. de Staphilococcus, saída do statistica, é dado por:

-,2112383,325238-3,114000Y Y e !!! 111Ö

Exemplo: para os dados de porcentagem de acerto na cache, o resíduo para o primeiro caso vale:

0,56443,886 - ,Ö  !!! 45 44Y Y e 111

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 44/108

44

 ) E (Y Y  iii !I

Os resíduos são extremamente úteis para verificar se um determinado modelo de regressão éapropriado para os dados. Este assunto será tratado mais adiante neste curso.

Distinção:

p é o desvio de Y i da verdadeira equação de regressão (desconhecida)e assim é desconhecido.

iii Y Y e Ö! p é o desvio de Y i do valor ajustado Y i (chapéu) na equação de regressãoestimada, portanto, é conhecido.

Regression

95% confid.

TEMPO

-0,30

-0,15

0,00

0,15

0,30

0,45

-5 0 5 10 15 20 25 30 35 40

 para os dados de staphilococcus aureus

em frango

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 45/108

45

Regression

95% confid.

Raw residuals vs. TAMANHOC

Raw residuals = -,0000 + 0,0000 * TAMANHOC

Correlation: r = ,00000

TAMANHO DA CACHE

-3

-2

-1

0

1

2

3

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 46/108

46

Propriedades do modelo ajustado:

 ) )Y ; X (  ponto pelo passa sempreregressãodelinha( 

 ) X  X (para )(  )( bY Y Ö  .

 s)(ponderado Y Ö 

 .

 s)(ponderado  X  .

 A)ST  ATISTIC doa(Veja saíd  Ö Y  3.

 MQO )demétododo(condiçãomínimaée .

 A)ST  ATISTIC doa(Veja said  )normal equação primeiraadevido( 

 )(  .

1

n

1ii

n

1i

i

n

1i

i

n

1i

2

i

a

Y  X  X bY  X  X 6 

0 e5 

0 e4

0  X bnbY  X bbY e1

1

n

1i 

n

1i 

i 10 i i 10 i i 

!!!!

!

!

!

!!!

§

§

§§

§

§ § §§

!

!

!!

!

!

 X bbY  10Ö !

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 47/108

47

Estimação da variância (W2)

A variância, W2, dos erros, Ii, no modelo de regressão (2) precisa ser estimado para obter uma

indicação da variabilidade da distribuição de probabilidade de Y . Necessário para inferências.Lembrete: a variância de cada observação Y i para o nosso modelo de regressão é W2, a mesma decada Ii.

Precisamos calcular a soma de quadrados de desvios, considerando que cada Y i veêm de diferentesdistribuições de probabilidade com diferentes médias que dependem do nível de X i; as médias sãoestimadas por Y i(chapéu). Assim os desvios são os resíduos:

iii Y Y e Ö!

A soma de quadrados do erro (resíduo), SQE, é dada por:

§§!!

!!n

i

i

n

i

ii eY Y S Q E 1

2

1

2)Ö(

Dois graus de liberdade são perdidos para estimar os parâmetros  F0

e F1. O quadrado médio do

erro é dado por (QME):

2!

n

S Q E QM  E 

Temos que o QME é um estimador não tendencioso de W2  (prova adiante) pois2)( W!QM  E  E 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 48/108

48

Exemplo: para os dados de S taphilococcus aureus em frango, temos:

 X)qual quer  paraY deãodistribuiçda padrão(  Desvio

 padrão)(desvio ufc , ,

variância)daa(  E  stimativ  , /  ,QM  E 

assimliberdade,de graus2-6 

 ,

2567 0 06590 d eEstimativ a

06590 426390 

4com

26390 SQE 

!!

!!

!

!

W

Exemplo: para os dados de tamanho de cache, temos:

X)qualquer  paraYdeãodistribuiçda padrão(Desvio

 padrão)(desvio %6043,157385,2é 57385,210/7385,25QME

assimliberdade,degraus102-12

7385,25

!!!

!

!

Wde E  stimativa

com

S Q E 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 49/108

49

Modelo de regressão com erros normais

Para construir intervalos de confiança e fazer testes de hipóteses nós devemosconsiderar alguma distribuição de probabilidade para os Ii. Uma distribuiçãoque tem um apelo prático e teórico bastante grande é a distribuição normal eque será utilizada neste curso.

O modelo de regressão é dado por:

n1,..,i  X Y  iii !! I F F 10

Y i é o i-ésimo valor observado da variável resposta;

 F0 e  F1 são os parâmetros;

Xi é o i-ésimo valor da variável preditora (é uma constanteconhecida, fixo).

Ii é o termo do erro aleatório, independentes com distribuição N (0, W2).

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 50/108

50

Como assumimos para o modelo de regressão que os erros são normalmente distribuídos, asuposição que os erros Ii não são correlacionados, feita no modelo inicial, transforma-se nasuposição de independência no modelo com distribuição normal.

O modelo implica que Y i são variáveis aleatórias independentemente distribuídas segundo umanormal com média  E (Y i )= F0+  F1 X i e variância W2. Para cada valor  X i , podemos pensar em todosos valores possíveis de Y i e sobre a sua variabilidade. Esta suposição diz que, seja qual for ovalor de X i, a variabilidade nos possíveis valores de Y é a mesma.

Para cada valor  X i, podemos pensar que todos os valores assumidos por Y  podem ser bemrepresentados por uma distribuição normal.

Independentes: no sentido que eles não são relacionados de qualquer modo, por exemplo, são provenientes de diferentes cpu¶s, diferentes indivíduos, diferentes animais, etc. Os registros

num banco de dados são independentes.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 51/108

51

Estimação dos parâmetros pelo método da máxima

verossimilhança

Como foi especificado uma distribuição de probabilidades para os erros podemos obter estimadores para  F0, F1 e W2 pelo MMV.

O método de máxima verossimilhança determina como estimativas de máxima verossimilhança,os valores de  F0, F1 e W2 os quais produzem o maior valor para a verossimilhança.

Em geral, a densidade de uma observação Y i para o modelo de regressão com erros normais,utilizando o fato de que  E (Y i )= F0+  F1 X i e variância W2 é dada por :

? A2

21

2

1 10expW

 F F

WT

ii  X Y 

i f 

!

A função de verossimilhança para n observações Y 1 , Y 2 ,...,Y n , é o produto das densidadesindividuais (é a conjunta). Como a variância W2 dos erros é desconhecida, a conjunta é uma funçãode três parâmetros,  F0, F1 e W2 :

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 52/108

52

? A

¼½

»¬-

«!

!

§

!

!

n

i

ii  ) ( 

ii

n

i

 ) X     (Y  

 X Y  L

n/ 

1

2

10212 1

2

102

1

1)2(

12

10

222

22/12

exp

)(exp),,( F FW F FWTW

Devemos encontrar valores de  F0, F1 e W2 que maximizam a função de verossimilhança  L,

calculando-se as derivadas parciais de L com respeito a  F0, F1 e W2 e igualando cada derivada parcial a zero e resolvendo o sistema de equações obtido. Podemos trabalhar com log e L ao invés de

 L, pois ambos são maximizadas para os mesmos valores de  F0, F1 e W2

:

§ ! 2

102

12

22)(log2loglog 2 iie

ne

ne  X Y  L F FWT

W

As derivadas parciais do logaritmo da função de verossimilhança, são dadas por:

§

§

§

!x

x

!x

x

!x

x

2

10422

102

1

1020

)(2

1

2

)(log

)(1)(log

)(

1)(log

iie

iiie

ii

e

 X Y n L

 X Y  X  L

 X Y 

 L

 F F W W W

 F F W F

 F F W F

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 53/108

53

Agora, fazemos as derivadas parciais iguais a zero, substituindo  F0, F1 e W2 pelos estimadores

2

10 ÖÖ,Ö W F F  e

Obtemos:

2)ÖÖ(

10

10

Ö

0)ÖÖ(

0)ÖÖ(

2

10 W

 F F

 F F

 F F!

!

!

§

§

§

n

 X Y 

iii

ii

ii

 X Y  X 

 X Y 

As duas primeiras equações são idênticas as equações normais encontradas pelo método demínimos quadrados. O MMV produz um estimador viesado para W2.

Parâmetro Estimador de máxima verossimilhança

0 F00

Ö b! F

1 F11

Ö b! F

2Wn

Y Y  ii§! 2)Ö(2ÖW

Os estimadores de F0, e  F1 são os mesmos do método de mínimos quadrados. O estimador demáxima verossimilhança de W2 é viesado,ou seja,.

n

1nE 

2 2  W

W )( 

 )Ö ( 

!

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 54/108

54

Comentários:

1) como os estimadores de máxima verossimilhança de F0,e F1 são os mesmos do métodode mínimos quadrados, eles tem as mesmas propriedades de todos os estimadores de

mínimos quadrados:a) são não viesados;

 b) tem variância mínima entre todos os estimadores lineares não tendenciosos;

além disso, os estimadores de máxima verossimilhança b0 e b1  para o modelo deregressão com erros normais tem outras propriedades desejáveis:

c) são consistentes;

d) são suficientes;

***  Fazer lista de exercícios número1.

0  )|Ö (|lim "!ugp

II U U 0 P n

.dedependenão )Ö |( Ö | U U U !y f Y 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 55/108

55

Inferência na análise de regressão

Assumimos o modelo: n1,..,i  X Y  iii !! I F F 10

 F0 e  F1 são os parâmetros;

Xi são constantes conhecidas, fixas.

Ii são independentes com distribuição  N (0, W2).

(3)

Intervalos de confiança

Testes de hipóteses:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 56/108

56

Inferências para  F1

y encontrar intervalos de confiança para  F1

yfazer testes de hipóteses com relação a  F1, por exemplo:

0:

0:

1

10

{

!

 F

 F

a H 

 H   Não há associaçãoentre X e Y.

Para realizar inferências sobre  F1

, precisamos conhecer a distribuição amostral de b1

, o estimador  pontual de F1.

Distribuição amostral de b1

O estimador pontual é dado por:

§

§

!

2

)(

))((

1  X  X 

Y Y  X  X 

i

ii

b

A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos commuitas amostras para um mesmo nível da variável preditora X (constante).

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 57/108

57

Normalidade: a normalidade da distribuição amostral de b1 segue do fato de que b1 é umacombinação linear dos Y i.Os Y i são independentes, com distribuição normal. Uma combinação linear de variáveis aleatórias independentes, com distribuição normal, também tem distribuição normal.

b1 como combinação linear de Y i.

§!

!

§§!

§§ §!

§§ §!

§§!

§

2

2

2

2

2

)(

)(

1

)(

)(

1

)()()(1

)(

)()(

1

)(

))((

1

 X  X 

 X  X 

i

ii

 X  X 

Y  X  X 

 X  X  X  X Y Y  X  X 

 X  X 

Y  X  X Y  X  X 

 X  X 

Y Y  X  X 

i

i

i

ii

i

iii

i

iii

i

ii

Y k b

b

b

b

b

Portanto, k i são funções de X i que são valoresfixos.

Média:

viesado)(não b E 

 X k k b E 

 X k k b E 

 X k b E 

Y  E k Y k  E b E 

iii

iii

ii

iiii

11

101

101

101

1

)(

)(

)(

)()(

)()(

 F

 F F

 F F

 F F

!

!

!

!

!!

§§

§§

§

§§

Pois,

 )(  Demonstre  X k 

ii

i

1

0

!

!

§

§

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 58/108

58

Variância:

? A ? A

§

§

§§

§

§ §§

!

!

¼¼½

»

¬¬-

«

!

2

2

2

22

2

2

2

2

1

1

 X  X 

 X  X  X  X 

 X  X 

 X  X k 

i

i

i

i

i

i

i

i

§!

!

!

!!

§

§

§§

2

12

12

22

12

22

12

222

12

)(

)(

)(

)()(

 X  X 

i

i

iiii

i

b

k b

k b

Y k Y k b

WW

WW

WW

WWW

Podemos estimar a variância da distribuição amostral de b1 substituindo W2 pelo quadrado médioresidual (QME). O estimador  s2(b1 ) é um estimador não tendencioso de W2 (b1 ).

§! 2)( 1

2

 X  X 

QM  E 

ib s

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 59/108

59

 Na seção propriedades dos estimadores de mínimos quadrados dissemos que b1 tem amenor variância entre todos os estimadores lineares não tendenciosos da forma

§! iiY c1Ö F

:otendenciosnãoé1Ö F

110101 )()()()Ö( F F F F F F !!!!! § §§§§ iiiiiiiii  X cc X cY  E cY c E  E 

Restrições: § § !! 10 iii  X c e c

:Ö1 deVariância F § § §!!! 222222

12

)()Ö( iiii ccY c WWW FW

Seja ci=k i + d i , onde k i são como anteriormente e os d i são constantes arbitrárias.

Então:

§ §§§ ! iiiiii d k d k d k  2)( 22

22

2 WW

Zero (Verifique)

)( 1

2

bW

Nota:

ci são constantes arbitrárias11 b! FÖ 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 60/108

60

Finalmente, temos: §! 22

12

12 )()Ö( id b WW FW

Observamos que a menor variância do estimador ( ) é obtida quando .Istoocorre quando todos os d 

i=0, isto implica que c

i| k 

i. Assim, o estimador de mínimos

quadrados b1 tem variância mínima entre todos os estimadores lineares não tendenciosos.

Distribuição amostral de ( b1- F1 )/s( b1 )

Como b1 tem distribuição normal, sabemos que a estatística padronizada (b1- F1 )/ W(b1 ) é uma

variável aleatória com distribuição normal padrão. Para estimar W(b1 ) usamos s(b1 ) e, assim

 precisamos conhecer a distribuição da estatística (b1- F1 )/s(b1 ) [estatística studentizada].

Teorema:2)-t(n~

b s

b

)( 1

11 F

Demonstração:

Podemos escrever a estatística como:

)()(

)( 1

1

1

11

b

b s

b

b

WW

 Fz

O numerador é uma variável normal padrão z. Para o denominador, temos:

 para o modelo (3)

1Ö F § ! 02

id 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 61/108

61

)2()2()(

)(2

)2(

22

2

2

2)(

2

2)(

12

12

~

!!!

§

§!nn

S Q E QM  E 

b

b s nn

S Q E 

 X i X 

 X i X 

QM  E 

G

WWWW W

Portanto,

)2(

)2(21

11 ~)(

n

n

 zb s

b

G

 F

Como z e G2 são independentes pois z é uma função de b1 e b1 é independente de SQE/W2 ~ G2.Assim (A definição está no apêndice):

).2(~)( 1

11

nt b s

b F

Teorema: para o modelo (3),SQE/W2 é distribuído comoG2 com n-2 gl e éindependente de b0 e b1.

Agora podemos fazer inferências sobre  F1.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 62/108

62

E/2=0,25E/2=0,25 1-E=0,50

t=1t=-1

Intervalo de confiança para  F1

Desde que (b1- F1 )/s(b1 ) tem distribuição t, podemos fazer a seguinte afirmação probabilística:

EE FE !ee 1)}2;2/1()(/)()2;2/({ 111 nt b sbnt  P 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 63/108

63

t( E /2;n-2) representa o ( E /2)100  percentil da distribuiçãot com n-2 g.l.

t( E  /2;n-2) = - t(1-E /2;n-2) (devido a simetria da distribuição t )

Rearranjando as desigualdades obtemos:

.1))()2;2/1()()2;2/1(( 11111 EE FE !ee b snt bb snt b P 

O intervalo de confiança é dado por:

)()2;2/1( 11 b snt b s E

Exemplo: considere os dados de população de S taphilococcus aureus, a pesquisadora desejaencontrar o intervalo para  F1 com confiança de 95%.

0623,00434,0

)008772,0(776,2019,0)008772,0(776,2019,0776,2)4;975,0(

008772,0)(

0000769,0)(

1

1

1

5,857

0659,0

)(1

2

2

ee

ee

!

!

!!§

!

 F

 F

b s

b s X  X 

QM  R

Muito importante

Usar software

Interpretação: estimamos que a população de S taphilococcus ³cresce´ entre -0,0434 e

0,0623 unidade/dia.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 64/108

64

Exemplo: considere os dados de porcentagem de acerto nacache, a pesquisadora deseja encontrar o intervalo para F1 com

confiança de 95%.

0000 8 27 0 0000457 0 

00000 8 30 22 8 2 0000642 0 00000 8 30 22 8 2 0000642 0 

22 8 2 10 975 0 t 00000 8 30 bs

6 8 635 0000000000 0 bs

1

1

1

0 3750000000 5738 2 

 X  X 

QMR 1

2 2 

 , ,

 ) ,(  , , ) ,(  , ,

 , ); ,(  , )( 

 , )(   ,

 )( 

ee

ee

!!

!!§

!

 F

 F

Muito importante

Usar software

Interpretação: estimamos que a porcentagem de acertosaumenta entre 0,0000457 e 0,0000827 % por byte dotamanho da cache.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 65/108

65

Teste de hipóteses para  F1

T este bilateral 

0:

0:

1

10

{

!

 F

 F

a H 

 H 

Hipóteses:

Vimos que (b1- F1 )/s(b1 ) tem distribuição t (n-2).O teste de hipótesesobre F1 pode ser feito de maneira padrão usando a distribuição deStudent.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 66/108

66

Exemplo: a pesquisadora deseja saber se existe regressão linear entre a porcentagem de acertos na cache e o tamanho da cache,

ou seja, se  F1{0 ou não.

[Como o intervalo de confiança construído anteriormente nãoinclui o valor 0 (o valor da hipótese nula), devemos rejeitar ahipótese nula ( H 0 ). Isto é válido quando o teste é bilateral].

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 67/108

670

*

0*

Hse-rejeita ),2;2/1(|| 

Hse-rejeitanão ),2;2/1(|| 

"

e

nt t S e

nt t S e

E

E

Critério do teste: estamos controlando a probabilidade de errotipo I (E).

)(*

1

11

b s

bt 

F!

Teste estatístico formal:

[Como o intervalo de confiança construído anteriormente inclui ovalor 0 (o valor da hipótese nula), devemos aceitar a hipótese nula( H 0 )].

Exemplo: a pesquisadora deseja saber se existe regressão linear entre população de bactérias e o tempo de armazenamento, ou

seja, se  F1{0 ou não.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 68/108

68

Exemplo: para os dados de porcentagem de acerto na cache,com E=0,05, b1=0,0000642 e s(b1 )=0,0000083, temos:

 ,735 ,

 ,* 7 t  00000 8 30 0 0000642 0  !!

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| é maior 

do que 2,228 rejeita-se a hipótese nula e concluímos que existe umaassociação linear entre a porcentagem de acertos na cache e otamanho da cache.

E l d d d l ã d St hil

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 69/108

69

Exemplo: para os dados de população de S taphilococcus

aureus, com E=0,05, b1=-0,019 e s(b1 )=0,008772, temos:

2,166 t  !!

008772,00019,0*

O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| é menor do que 2,776 aceita-se a hipótese nula e concluímos que não existe

uma associação linear entre a população de S taphilococcus aureus eo tempo de armazenamento.

Valor p: é o menor valor de E para o qual rejeitamos a hipótesenula. Se o pesquisador fixar E=0,05, então, para um valor p u 0,05 não rejeita-se H0, caso contrário, rejeita-se H0. Formalmente fica:

Valor p é também denominado de nível descritivo ou nível de

 significância observado.

 pvalor t t  P   )( * !"

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 70/108

70

Saída do Statistica: dados de porcentagem de acertos na cache. Asdiferenças verificadas são devidas às aproximações nos cálculos.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 71/108

71

* * Com o uso do Statistica, para os dados de porcentagem de

acerto na cache, encontrar a probabilidade de se rejeitar ahipótese nula, quando ela é verdadeira.

000016,0,0000080,0000080)7525,7()7525,7(

000015,0)7525,7|(|

$$"

!"

t  pt  P 

t  P 

Atenção: verificar se o software dá o valor p para o teste uniou bilateral

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 72/108

72

Saída do Statistica: dados de populações de S taphilococcus a diferença verificada entre -2,166 e -2,15351 é devido à aproximações nos cálculos.

* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é

verdadeira.

09624,004812,004812,0)166,2()166,2(

0962,0)166,2|(|

!!"

!e

t  pt  P 

t  P Atenção: verificar se osoftware dá o valor p parao teste uni ou bilateral

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 73/108

73

T este unilateral:

0:

0:

1

10

u

 F

 F

a H 

 H 

O pesquisador deseja, por exemplo, testar se F1 é negativo,

controlando o nível de significância E=

0,05

.

Regra de decisão:

0*

0*

 H  se-rejeitat 

 H  se-rejeitanãot 

 ),n;( t S e

 ),n;( t S e

2

2

u

E

E

 E  xemplo:  para os dados de S taphilococcus temos, para E=0,05,t(0.05;4)=-2,132. Como t *=-2,166, rejeita-se a hipótese denulidade, portanto F1 é negativo.

*t t  P  p !V al or 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 74/108

74

 Nas publicações, indicar o nível descritivo juntamente com o valor da estatística teste. Podemos realizar o teste estatístico para

qualquer nível de significância E, comparando o nível descritivocom o valor desejado de E.

Comentário: pode-se testar as seguintes hipóteses:

101

1010

:

:

 F F

 F F

{

!

a H 

 H 

Onde F10 é um valor diferente de zero.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 75/108

75

A estatística teste é dada por:

1

101

b s

bt  F!

Critério do teste:

Se |t *| e t(1- E /2;n-2) não se rejeita H 0

Se |t *| > t(1- E /2;n-2) rejeita-se H 0

I f ê i F

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 76/108

76

Inferências para  F0

Só tem interesse quando os níveis de X incluem X=0 (o que é raro).

Distribuição amostral de b0

O estimador pontual b0 é dado por: X bY b 10 !

A distribuição amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos comdiferentes amostras para o mesmo valor de X (constante).

A distribuição amostral de b0 é normal 

Média:00 )( F!b E 

Variância: ¹ º ¸©

ª¨

§!

2

2

)(

12

0

2 )( X  X 

 X n

i

b WW

A normalidade é verificada pois b0 é uma combinação linear das observações Y i.

Um estimador para W2(b0 ) é obtido substituindo-se W2 pelo seu estimador pontual, QM  E .

Distribuição amostral de ( b0- F0 )/s( b0 )Teorema:

)2(~)( 0

00

nt b s

b F@ podemos usar a distribuição t  para construir os IC e fazer os testes de hipóteses.

(Demonstração próxima página)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 77/108

77

(cqd). 

 )(  

 )(  )(  )(  )( 

0 F

 F F F

!

!!

!!

110 1

110 

 X  X bE  X Y 

 X bE Y E  X bY E bE 

Demonstração:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 78/108

78

Intervalo de confiança para  F0

)()2;2/1( 00 b snt b s E

 E  xemplo: para os dados de S taphilococcus, como temos tempo=0 ( X=0), podemos estar interessados em encontrar o IC para F0.

8410,38094,2

)1858,0(776,23252,3)1858,0(776,23252,3

776,2)4;975,0(

1858,0)(

0,03456

10659,0

)()(

0

0

0

5,857

5,17

2

2

10

22

ee

ee

!

!

!¼½

»¬-

«!

¼¼½

»

¬¬-

«

!

§

 F

 F

b s

 X  X 

 X QM  E b s

i

n

Como o intervalo de confiança não inclui o valor zero (0), rejeitamos a hipótese:

0:

0:

0

00

{

!

 F

 F

aH 

Estimação intervalar para E(Y )

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 79/108

79

Estimação intervalar para E(Yh)

Freqüentemente, numa análise de regressão, deseja-se estimar amédia de uma ou mais distribuições de probabilidade de Y.

Exemplo: No estudo da relação entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem média de acerto paratamanhos maiores de cache pode ser de interesse. Outro exemplo,um agrônomo pode estar interessado na produção média paradiversas doses de um nutriente, com o objetivo de encontrar a doseótima.

 X h p representa o nível da variável preditora para a qual se desejaestimar a resposta média.A resposta média para X=X 

h

é representada por:  E (Y h

 )

hh  X bbY  10Ö !

Sabemos que o estimador pontual de  E (Y h ) é dado por:hY Ö

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 80/108

80

Distribuição normal: para o modelo de regressão com erros normais, a

distribuição amostral de Y(chapéu)h é normal. A normalidade seguediretamente do fato que Y(chapéu)h , assim como b0 e b1 , é uma combinaçãolinear das observações Y i.

Média

)()()()()Ö( 101010 hhhhh Y  E  X b E  X b E  X bb E Y  E  !!!! F F

Distribuição amostral de Y( chapéu)h

Diferentes valores de Y(chapéu)h que seriam obtidos se repetidas amostrasfossem selecionadas, para X constante, e calculando Y(chapéu)h para cadaamostra.

Variância

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 81/108

81

Variância

Para obter W2(Y(chapéu)h ), primeiro mostraremos que b1 e não são correlacionados e sob omodelo de regressão com erros normais, independentes:

0);( 1 !Y bWDefinimos:

2)(

1

§!!!

§§ X  X 

 X  X 

iii1ini

ik  Y k b Y Y 

Através do teorema A.32 (Neter et al., página 668, 1996) com ai=1/n e ci=k i e lembrando queY i são variáveis aleatórias independentes:

§ § !!! 0)()();(221

1 iniink Y k bY  WWW

Para a demonstração da variância de Y(chapéu)h vamos utilizar o modelo:

iii  X  X Y  I F F ! )(1*

0

Ö

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 82/108

82

¼½»

¬-«

§!

§!@

!!§

!

!

!

2

2

2

22

22

2

2

)(

)(122

)(

22

)(2

)(12

n1

12222

122

)Ö(

)()Ö( 

)( )()constantesXeXtes;independensão beY( 

)()()()Ö(

))(()Ö(

 X  X 

 X  X 

nh

 X  X hnh

nn

 X  X 

hh

hh

i

h

i

i

h

 X  X Y 

Y b

b X  X Y Y 

 X  X bY Y 

WW

W

WW

WWW

WW

WW

WWW

Distribuição amostral de

)2(~)

Ö

(

)(Ö

nt 

h

hh

Y  s

Y  E Y 

Intervalo de confiança para E(Yh)

)Ö()2;2/1(Öhh Y  snt Y  s E

)Ö(/))(Ö( hhh Y  sY  E Y 

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 83/108

83

Exemplo: vamos encontrar um intervalo com confiança de 95% para  E (Y h ) para tamanho decache  X=300.000 bytes. Temos:

? A

230348 Y E 9697 45 50732630 22 8 2 10 47 Y E 50732630 22 8 2 10 47 

22 8 2 10 975 0 t 

50732630 Y s

25738 0 5738 2 Y s

10 47 300000 0000642 0 8 363327 Y 

300000 

300000 

h

0 3750000000 

325000 300000 

12 1

h

300000 

 , )(  , ) ,(  , , )(  ) ,(  , ,

 , ); ,( 

 , )Ö ( 

 , , )Ö ( 

 , )(  , ,Ö 

 )( 

eeee

!

!

!!

!!

 I nterpretação: temos 95% de confiança que a porcentagem média de acertos, com 300.000 bytesde tamanho de cache, está entre 45,9697 e 48,2003%. Um intervalo com boa precisão.

Exercício: encontrar o intervalo com confiança de 95% para  E (Y h ) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 84/108

84

Exemplo: para os dados de população de bactérias, vamos encontrar um intervalo comconfiança de 95% para  E (Y h ) para tempo X=14 dias. Temos:

? A

3619,3)(7561,2)10

91,0(

776,

20

59,

3)()10

91,0(

776,

20

59,

3

776,2)4;975,0(

1091,0)Ö(

0119,00659,0)Ö(

0593)14(019,0325,3Ö

14

14

5,857

)5,1714(

6

12

14

2

eeee

!

!

!!

!!

Y  E Y  E 

Y  s

Y  s

 ,Y 

h

h

 I nterpretação: temos 95% de confiança que a população média de bactérias, com 14 dias dearmazenamento, está entre 2,7561 e 3,3619 ufc (em log base e).

Exercício: encontrar o intervalo com confiança de 95% para  E (Y h ) para tempo X=0.Compare as amplitudes dos intervalos.

Predição de uma nova observação

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 85/108

85

Predição de uma nova observação

Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertosna cache para um tamanho de cache igual a 375.000 bytes; 2) a

 pesquisadora deseja predizer a população de bactérias para um tempoespecífico igual a 15 dias.

Portanto, desejamos predizer uma nova observação, Y , vista comoresultado de um novo ensaio, independente dos ensaios nos quaisanálise de regressão foi feita.

 Notação: denotamos o nível de X  para o novo ensaio como X h e anova observação em Y como Y h(novo). Assumimos que o modelo deregressão continua válido para a nova observação.

A diferença entre estimar uma resposta média,  E (Y h ) e fazer a predição de uma nova observação, Y h(novo), é que no primeiro casoestimamos a média da distribuição de Y. Agora, vamos predizer umaresposta individual da distribuição de Y.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 86/108

86

Intervalo de predição para Yh(novo)

Os limites de predição para uma nova observação Y h(nova) para um dado X h são obtidos através do

do seguinte teorema : )2(~)(

Ö)(

nt  pred  s

Y Y  hnovoh

Isto para o modelo de regressão com erros normais.

 Note que a estatística usa Y(chapéu)h no numerador ao invés de  E (Y h ). O desvio padrão estimado, s(pred), é obtido como segue:

A diferença no numerador, Y h(novo) - Y(chapéu)h, pode ser visto como um erro de predição, comY(chapéu)h sendo a melhor estimativa pontual do valor da nova observação, Y h(novo) . A variânciadesse erro pode ser obtida considerando que a nova observação e as n observações, sobre as quaisY(chapéu)h está baseada, são independentes. Considerando o teorema A.31b (Neter et. Al., página668, 1996), temos:

¼½»

¬-«

§!

!

!!!

2

2

)(

)(1

22

222

)(2

)(22

1)(

)Ö())(

)Ö()Ö()()Ö()(

 X  X 

 X  X 

n

2

h

hhnovohhnovoh

i

hQM  E  pred  s

o)tendenciosnão(estimador  Y  sQM  E  pred  s

Y Y Y Y Y  pred  WWWWWW

)()2;2/1(Ö  pred  snt Y h s E

O intervalo fica:

Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes e que a pesquisadora

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 87/108

87

Exemplo: suponha que um novo tamanho de cache seja X h 375000 bytes,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 375000(novo).

? A

7445 55 Y 07 8 2 48 

720436 122 8 2 9113351Y 720436 122 8 2 9113351

720436 1 pr ed s95992 38 610 5738 2  pr ed s

22 8 2 10 975 0 t 

5738 2 QM E 

38 610 5738 2 Y s

9113351375000 0000642 0 8 363327 Y 

nov o375000 

nov o375000 

0 3750000000 

325000 375000 

12 1

375000 

375000 

 , ,

 ) ,(  , , ) ,(  , ,

 , )(  , , , )( 

 , ); ,( 

 ,

 , , )Ö ( 

 , )(  , ,Ö 

 )( 

 )( 

 )( 

ee

ee

!!!

!

!

!!

!!

 I nterpretação: podemos afirmar com 95% de confiança que o valor predito de porcentagem deacertos, para tamanho de cache igual a 375000 bytes, está entre 48,0782 e 55,7445%.

O intervalo de predição é similar ao intervalo de estimação, a diferença é conceitual . Um intervalode estimação é uma inferência sobre um parâmetro e é um intervalo que procura conter o valor do

 parâmetro. O intervalo de predição, por outro lado, é um conhecimento formal sobre um valor deuma variável aleatória, a nova observação Y h(novo).

Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias e que a pesquisadora

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 88/108

88

Exemplo: suponha que um novo tempo de armazenamento seja X h 15 dias,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 15(novo).

? A

8123,32677,2

)2782,0(776,2040,3)2782,0(776,2040,3

2782,0)(0774,00115,00659,0)(

776,2)4;975,0(

0659,0

0115,00659,0)Ö(

040,3)15(019,0325,3Ö

)(15

)(15

2

5,857

)5,1715(61

15

2

15

2

ee

ee

!!!

!

!

!!

!!

novo

novo

 pred  s pred  s

QM  E 

Y  s

 I nterpretação: podemos afirmar com 95% de confiança que o valor predito de população de bactérias, para tempo igual a 15 dias, está entre 2,2677 e 3,8123 ufc/cm2.

Faixa de confiança para a equação de regressão

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 89/108

89

Faixa de confiança para a equação de regressão

Útil para verificar o ajuste da equação de regressão.

A faixa de confiança (1-E) para a equação da reta correspondente ao modelo de regressão comerros normais tem dois limites para qualquer nível de X h, cujos valores são dados por:

¼½»

¬-«

§!

!

!

s

2

2

)(

)(12

10

2

)Ö(

Ö

)2,2;1(2

)Ö(Ö

 X  X 

 X  X 

nh

hh

hh

i

hQM  E Y  s

 X bbY 

n F W 

Y WsY 

E

Calcula-se os valores dos limites para diversos níveis de X h e após faz-se o gráfico.

Distribuição de F,

com 2 gl nonumerador e n-2 no

denominador, com

 grau de confiança 1-

E

Scatterplot (CACHE.STA 9v 12c)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 90/108

90

Scatterplot (CACHE.STA 9v*12c)

y=27,836+6,423e-5*x+eps

TAMANHO DA CACHE

 

40

42

44

46

48

50

52

54

56

58

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

Percebe-se que os valores da linha de regressão são estimados com boa precisão.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 91/108

91

Análise de variância da regressão

É importante para análise de regressão linear múltipla e outros modelos lineares. Para análise deregressão linear simples não traz nenhuma novidade.

Partição da soma de quadrados total

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 92/108

92

Partição da soma de quadrados total

 )Ö (  )Ö ( i i i i 

Y Y Y Y Y Y  !

Desviototal

Desvio daequação

ajustada emtorno da média

Desvio emtorno daequaçãoajustada

 X 

 X i

Y i

TR 

E

D t ã §§ !nn

YYYYYY2

2 )Ö()Ö()(

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 93/108

93

Soma de quadrados total:

Soma de quadrados do erro (ou resíduo): §!

!n

i

ii Y Y S Q E 1

2)Ö(

Soma de quadrados da regressão: §!

!n

i

i Y Y S Q R1

2)Ö(

§!

!n

i

i Y Y S QT 1

2)(

Demonstração:

§ §§

§ §§

§ § §

§

§§

! !!

! !!

! ! !

!

!!

!@

!!

!

n

i

n

i

iii

n

i

n

i

n

i

iiiii

n

i

iii

n

i

n

i

n

i

iiiiii

n

i

iiiiii

i

iii

i

Y Y Y Y Y Y  

Y Y Y Y Y Y Y Y Y Y 

Y Y Y Y Y Y Y Y 

Y Y Y Y Y Y Y Y 

Y Y Y Y Y Y 

1 1

22

1

2

1 11

1 1 1

22

1

22

11

)Ö()Ö()(

0)Ö(2)Ö(Ö2)Ö)(Ö(2

)Ö)(Ö(2)Ö()Ö(

)Ö)(Ö(2)Ö()Ö(

)()()(

(Parte da variabilidade de Y i que está associada com a regressão)

G d lib d d

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 94/108

94

Graus de liberdade

A S QT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a somados desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a

média da amostra é usada para estimar a média populacional.

A S Q E tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros sãoestimados para obter Y(chapéu)i.

A S Q R tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um delesé perdido devido a restrição:

Os graus de liberdade são aditivos: (n-1)=1+(n-2)

Quadrados médios

A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.

1S Q RQM  R ! )2( ! n

S Q E QM  E  )1( ! n

S QT 

QM T 

.0)Ö( !§ Y Y i

Tabela da análise de variância

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 95/108

95

Tabela da análise de variância para regressão linear simples

Causas de variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1Erro SQE n-2 SQE/(n-2)

Total SQT n-1

T abela modificada (soma de quadrados total não corrigida)

Baseado no fato de que:

§§§

!

!!2

222

)(

i

ii

Y S QT  N C 

Y nY Y Y S QT 

Tabela da análise de variância para regressão linear simples

Causas de variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1

Erro SQE n-2 SQE/(n-2)Total SQT n-1

Correção para a média SQ(devido a média)= 2Y n 1

Total não corrigido SQTNC=§2

iY  n

E í i bt h d d d t d t h SQR QMR

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 96/108

96

Exercício: obtenha para os dados de pop. de S taphilococcus a SQR e o QMR.

Esperanças dos quadrados médiosPara realizar inferências na análise de variância, precisamos conhecer as esperanças dosquadrados médios. Os valores esperados dos quadrados médios é a média de suas distribuiçõesamostrais e nos mostram o que está sendo estimado pelo quadrado médio.

Teorema 2.11 (página 49, Neter et al., 1996) diz que: )2(~/22 nS Q E  GW

Das propriedades da distribuição de G2 (apêndice) temos:

imparcial)estimador éQM  E ( O QM  E  E  E 

n E 

nS Q E 

S Q E 

22 )()(

2)( 2

W

W

!!

!

Para encontrar a E(QMR), partimos de:

22

1)(§ !  X  X bS Q R

i

Sabemos que a variância de uma variável aleatória é dada por:

(para o modelo com erros com distribuição normal).

Exercício: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.

! 2 

1

11

bE

bE bE b

)(

 ))( (  )(  )( 

F

W

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 97/108

97

§ !!@

§ !

§ !

§ !@

!@

!

!

§

§

§

1

1SQR 

1

1 X  X 

1

1 X  X 

1

 X  X 1

11

 X  X QMR E E 

 X  X SQR E 

 X  X SQR E 

 X  X bE SQR E 

bE 

b

bE 

2 i 

 )(  )(  )( 

 )(  )( 

 )(  )( 

 )(  )(  )( 

 )( 

 )( 

 )( 

 FW

 FW

 F

 F

W

 F

W

W

W

Teste  F para  F1

 Na análise de variância testa-se as seguintes hipóteses:

0:

0:

1

10

{

!

 F

 F

a H 

 H 

A estatística utilizada para testar essas hipóteses é dada por:QM  E 

QM  R F  !*

Para estabelecer uma regra de decisão do teste de hipóteses devemos conhecer adistribuição amostral de F *.

Valores altos de F * favorecem  H a; F *=1 favorece H 0; é um teste unilateral.

Di t ib i ã t l d F*

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 98/108

98

Distribuição amostral de  F   

Vamos considerar a distribuição amostral de F * quando a hipótese nula for verdadeira, isto é,sob H 0.

T eorema de C ochran: se as n observações Y i são identicamente distribuídas de acordo comuma distribuição normal com média Q e variância W2 e a soma de quadrados total édecomposta em k somas de quadrados S Qr , cada uma com gl r graus de liberdade, então, ostermos S Qr / W2 , são variáveis independentemente distribuídas como G2 com gl r graus deliberdade se:

§!!

ir  n gl 

1 1

 Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e osseus graus de liberdade são aditivos.

Sob H 0 , de modo que os Y i tem distribuição normal com a mesma média Q =0 e mesmavariância W2 , S Q E  / W2 e S Q R / W2 são variáveis independentemente distribuídas como G2.

Podemos escrever  F * como:

)2()2(

1)1(

)2(1)2/(* 22

221

z!z!!!n

n

nnS Q E QM  E 

QM  RS Q E S Q R

S Q R

 F  GGWW

Assim, sob H0, F * é o quociente entre duas variáveis independentes com distribuição de G2,

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 99/108

99

  portanto, a estatística F * é uma variável aleatória com distribuição  F(1,n-2) (apêndice-distribuição F).

Quando rejeita-se H 0 , pode-se mostrar que F * segue uma distribuição de F não central.

Regra de decisão do teste de hipóteses:

0

0

 H 

 H reje

ser ejeit a )n,;( F F 

seit anão )n,;( F F 

*

*

"

e

211

211

E

E

Saída do STATISTICA: dados de porcentagem de acerto na cache.

 F(95%;1,10)=4,96, portanto, F *> F e, assim, rejeita-se a hipótese nula.

Conclusão: existe uma associação linear entre porcentagem de acerto e o tamanho da cache.Mesmo resultado do teste t.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 100/108

100

Saída do STATISTICA: dados de população de S taphilococcus.

 F(95%;1,4)=7,71, portanto, F *< F e, assim, não

rejeita-se a hipótese nula.

Conclusão: não existe uma associação linear entre pop. e otempo de armazenamento. Mesmo resultado do teste t.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 101/108

101

Teste geral para o modelo linear

T rês etapas:

1) Modelo completo

Este modelo é considerado adequado para os dados e chama-se modelo completo ou sem

restrição (superparametrizado). No caso de regressão linear simples temos:

iii  X Y  I F F ! 10 Modelo completo

A soma de quadrados do erro do modelo completo (SQE(C)), é dada por:

? A S Q E Y Y  X bbY C S Q E  iiii !!! §§22

10 )Ö()()(

2) Modelo reduzido

Vamos considerar as hipóteses:

0:

0:

1

10

{

!

 F

 F

a H 

 H Modelo reduzido:

iiY  I F ! 0

Sob H0

A soma de quadrados do erro do modelo reduzido (SQE(R)), é dada por:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 102/108

102

? A S QT otal Y Y bY  RS Q E  ii !!! §§22

0 )()(

3) Teste estatísticoDevemos comparar as duas somas de quadrados dos erros.

)()( RS Q E C S Q E  e Sempre

Mais parâmetros

C onclusão: se a S Q E ( C  ) não é muito menor do que a S Q E (  R ), indica que o modelo reduzido é

adequado, isto é, não rejeita-se H 0.

Exercício: encontre o estimador de  F0 pelo método de mínimos quadrados.

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 103/108

103

O teste estatístico é dado por:

),;1(~)()()(*ccr  gl 

C S Q E  gl  gl 

C S Q E  RS Q E   gl  gl  gl  F  F ccr 

z! E

Decisão:

0ccr 

0ccr 

 H   serejeita gl  gl  gl  F  F 

 H   seaceita gl  gl  gl  F  F 

"

e

),;1(

),;1(

*

*

E

E

Exercício: para os dados de porcentagem de acertos na cache, verifique a as hipóteses:

0:

0:

1

10

{

!

 F

 F

a H 

 H 

. , **

 ,

 , , , ,* 10 60 F  5738 5 2 6 8 99154

10 738 5 25 

10 11738 5 25 42 8 418 0  !!z!

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 104/108

104

Exercício: para os dados de pop. de staphilococcus,verifique se as hipóteses:

0:

0:

1

10

{

!

 F

 F

a H 

 H 

. , ,

 , , , ,* N S 

065977 0 305977 0 

426390 8 0 

45 26390 8 0 56988 5 0  644F  !!z!

i i i i i

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 105/108

105

y

y

Medidas descritivas do grau de associação linear

entre  X  e Y .

X

Coeficiente de determinação (r2)

10

12

2

ee

!!

r  S QT S Q E 

S QT S Q R

Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão.Quanto maior o r 2 mais a variação total de Y é reduzida pela introdução da v. preditora  X no modelo.

y

y

y

y

yyy

 X bbY  10Ö !

r 2=1Y

X

Y

y

yy

yy

y

y

y

r 2=0

Y Y |Ö

A variável preditora X é responsável por toda

a variação nas observações Y i.

A v. X não ajuda na redução davariação de Y i com a Reg. Linear 

y y y

y

y

yy y

yy

y y

y

yy

yy

y

Coeficiente de correlação (r)

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 106/108

106

Coeficiente de correlação (r)

11

2

ee

s!

r r 

Exemplo: para os dados de população de S taphilococcus, temos:

Exemplo: para os dados de porcentagem de acertos na cache, temos:

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 107/108

107

Interpretações errôneas dos coeficientes de determinação e

correlação:1) Um alto coeficiente de correlação indica que predições úteis

 podem ser feitas. Isto não é necessariamente correto. Observese as amplitudes dos intervalos de confiança são grandes, isto

é, não são muito precisos.2) Um alto coeficiente de correlação indica que a equação deregressão estimada está bem ajustada aos dados. Isto tambémnão é necessariamente correto (veja figura a seguir).

3) Um coeficiente de correlação próximo de zero indica que X 

e Y não são correlacionadas. Idem (veja figura a seguir).

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 108/108

yy

yy

y

y

yy

yyy

y

y

y

y

y

yy

y

y

y

yy

Tem um alto valor de r ; o ajuste deuma equação de regressão linear não é adequada

Tem um baixo valor de r;

 porém existe uma forte relaçãoentre X e Y .

*** Fazer lista de exercícios número2.

y

yy

y

y

yy

y

y

yyy

y

yy

yy

y

y yy

y