Analise de Regressao Linear Simples

5/12/2018 Analise de Regressao Linear Simples - slidepdf.com

http://slidepdf.com/reader/full/analise-de-regressao-linear-simples-55a4d2deb5e5c 1/108

1

Regressão Linear SimplesIntroduçãoAnálise de regressão é uma metodologia estatística que utiliza a relação entre duas oumais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras. Exemplos:

y A população de bactérias pode ser predita a partir da relação entre

população e o tempo de armazenamento.

y Concentrações de soluções de proteína de arroz integral e absorbâncias

médias corrigidas.

y Relação entre textura e aparência.

y Temperatura usada num processo de desodorização de um produto e cor do

produto final.

y A porcentagem de acerto ou, então, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pré-carregamento.



2

A análise de regressão, assim como a anova, também representa os dadosatravés de um modelo linear aditivo, onde o modelo inclui um componentesistemático e um aleatório.

y Número de acessos ao disco (disk I/O) e o tempo de processamento para

vários programas.

y A performance de um procedimento remoto foi comparado em dois

sistemas operacionais: UNIX e ARGUS. A métrica utilizada foi o tempo

total transcorrido, o qual foi avaliado para vários tamanhos de arquivos de

dados.

(1) X f Y I! )(

f descreve a relação entre X e Y. I são os erros aleatórios. Y = variável resposta ou dependente; X = variável independente, concomitante, covariável ou variável preditora.



3

Cenário

Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y .Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los para dizer alguma coisa sobre a relação.

O caso mais simples de regressão é quando temos duas variáveis e a relaçãoentre elas pode ser representada por uma linha reta Regressão linear

simples.



4

Como sabemos os dados podem ser obtidos a partir de duas situações:

1) dados experimentais: as observações X e Y são planejadas como o resultado de umexperimento, exemplo:

X = tamanhos de cache e Y = porcentagem de acerto

X = doses de starter (microorganismos [bactérias lácticas]) , Y= tempo de maturação do salametipo italiano.

Nesse exemplo, os valores de X estão sob controle do pesquisador, ou seja, ele escolheu as dosese observou o resultado, Y .

2) dados observacionais: observa-se os valores de X e Y , nenhuma delas sob controle, exemplo: população de coliformes e população de staphilococus;

média das alturas de plantas numa área e produção.

O tempo para criptografar um registro com k -byte usando uma técnica para este fim foiavaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.



5

Problema prático: os valores observados de Y (e algumas vezesde X ) não são exatos. Devido a variações biológicas, de

amostragem e de precisão das medidas e outros fatores, só podemos observar valores de Y (e possivelmente de X ) com algumerro. Assim, com base numa amostra de valores ( X,Y ) a exatarelação entre X e Y é mascarada pelos erros aleatórios.

X Fixo vs Aleatório:

Dados experimentais: Geralmente X (doses, tempo, tamanhoda cache) é determinado pelo pesquisador p X é fixo. Y estásujeito à variações físicas, biológicas, tipos de objetos numa

página da Web, usuários, de amostragem, de medidas p Y éuma variável aleatória.

Dados observacionais: geralmente X e Y são variáveisaleatórias.



6

A distribuição normal bivariada

Com dados observacionais, geralmente X e Y são v. a. e , dealguma forma, relacionadas.

Lembrete: uma distribuição de probabilidades dá uma descrição

formal (matemática) dos valores possíveis da população que podem ser observados para a variável. Quando temos duasvariáveis a distribuição é denominada bivariada. A f XY (x,y)

descreve como os valores de X e Y se comportam conjuntamente.

A distribuição normal é freqüentemente uma descrição razoávelde uma população com medidas contínuas. Quando X e Y são v.

a. contínuas, uma suposição razoável é que ambas sejamnormalmente distribuídas. Entretanto, espera-se que elas sedistribuam conjuntamente.



7

A distribuição normal bivariada é uma distribuição de probabilidades com uma função densidadede probabilidade f(x,y) para X e Y , tal que:

X e Y apresentam, cada uma, distribuição normal com médias QX e QY, e variâncias W2

X e W2Y,respectivamente;

o relacionamento entre X e Y é medido pela quantidade VXY tal que -1 e VXY e 1.

VXY é o coeficiente de correlação entre as variáveis aleatórias X e Y e mede a associação linear entre elas.

nulacorrelação

perfeitanegativacorrelação

perfeita positivacorrelação

XY

XY

XY

0

1

1

!

!

!

V

V

V

Objetivo: com os dados observados (X i ,Y i ), desejamos quantificar o grau de associação. Paraisso estimamos VXY.

Comparação entre os modelos de regressão e correlação Dois modelos:

X fixo: ajusta-se um modelo para a média da v. aleatória Y como uma função de X fixo (linha reta).Estima-se os parâmetros do modelo para caracterizar o relacionamento.

X aleatório: caracteriza-se o relacionamento (linear) entre X e Y através da correlação entre elas eestima-se o parâmetro de correlação.



8

S utileza: em situações onde X é uma variável aleatória, muitos investigadores desejamajustar um modelo de regressão tratando X como fixo. Isto porque, embora o coef. decorrelação descreve o grau de associação entre X e Y , ele não caracteriza o

relacionamento através de um modelo de regressão.Exemplo: um pesquisador pode desejar estimar a produção com base na média dealturas de plantas da unidade experimental. O coef. de correlação não permite isso.Ele, então, prefere ajustar um modelo de regressão, mesmo X sendo aleatório.

Isso é legítimo? Se tomarmos cuidado na

interpretação, sim.

Se X e Y são variáveis aleatórias, e nós ajustarmos um modelo de regressão paracaracterizar o relacionamento, tecnicamente, todas as análises posteriores sãoconsideradas como sendo condicionais aos valores de X presentes no estudo.Isto significa que nós consideramos X fixo, embora ele não seja. Entretanto, é

válido fazer-se previsões. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produção. O pesquisador não está dizendo que ele pode controlar as alturas e, assim,influenciar as produções.

Vale para os dados da amostra.



9

Causalidade versos correlação

Pesquisadores freqüentemente são ³tentados´ a inferir uma relação de causa e efeito entre X e Y

quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. Umaassociação significativa entre X e Y em ambas as situações não necessariamente implica numarelação de causa e efeito.

Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O gráfico mostra a populaçãode Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o número de cegonhas(pássaros) naquele ano ( X).

Interpretação: existe associaçãoentre X e Y.

Freqüentemente, quando duas v. X e

Y parecem estar fortementeassociadas, pode ser porque X e Y

estão, de fato, associadas com uma

terceira variável , W. No exemplo, X e Y aumentam com W = tempo.

Correlação não necessariamente implica em causalidade



10

Construção de Modelos de Regressão

I. Seleção das variáveis preditorasII. Escolha do modelo de regressão

III. Abrangência do modelo

i. O problema, em estudos observacionais, é escolher um conjunto devariáveis que podem ou devem ser incluídas no modelo;

ii. Pode-se usar um modelo teórico; Usar aproximações por modelos polinomiais;

iii. Geralmente é necessário restringir a abrangência do modelo paraalguns valores ou região da(s) variável(is) preditora(s).



11

Modelo de regressão linear simples

( S em especificação da distribuição de probabilidades para o erro)

Considere o modelo com uma variável preditora e que a função de regressão é linear. O modelo édado por:

n1,2,...,i !

! i i i X Y I F F10 (2)



12

Onde:

Y i é o i-ésimo valor da variável resposta; F0 e F1 são os parâmetros (coeficientes de regressão);

X i é o i-ésimo valor da variável preditora (é uma constante conhecida, fixo).

Ii é o termo do erro aleatório com E ( Ii)=0 e W2(Ii)= W2;

Ii e I j não são correlacionados W(Ii, I j)=0 para todo i,j; i{ j; (covariância é nula).

i=1,2,...,n.

Os dados são usados para estimar F0 e F1, isto é, ajustar o modelo aos dados, para:

quantificar a relação entre Y e X;

usar a relação para predizer uma nova resposta Y 0 para um dado valor de X 0 (não incluído noestudo);

calibração ± ou capacidade de predição de novas observações, pode ser feita usando uma novaamostra e comparando os valores estimados com os observados.

- dado um valor de Y 0 , para o qual o correspondente valor de X 0 é desconhecido ,estimar o valor de X 0.

Covariância (o resultado em qualquer experimento não temefeito no termo do erro de qualquer outro experimento)



13

Características do modelo:

nadoscorrelacio sãonãoY eY

constantevariância X Y

X X E E (Y

X v.a.(Y umaéY

ji

iiii

2

iiiii

iiii

.4

)()()()(.3

)().2

).1

22

10

2

1010

10

WIWI F FWW

F FQI F F

I F F

!!!

!!!

!

aleatório

O modelo de regressão (2) mostra que as respostas Y i são oriundas de umadistribuição de probabilidades com média E (Y i ) = F0 + F1 X i e cujas variâncias são W2,a mesma para todos os valores de X. Além disso, quaisquer duas respostas Y i e Y j não

são correlacionadas.

constante



14

A figura mostra a distribuição de Y para vários valores de X . Mostra onde cai a observação Y 1.

Mostra que o erro é a diferença entre Y 1 e E

(Y 1 ). Observe que as distribuições de probabilidade apresentam a mesma variabilidade.



15

Resumo da situação: para qualquer valor X i , a média de Y i é Qi = F0 + F1 X i. As médias estãosobre a linha reta para todos os valores de X . Devido aos erros aleatórios, os valores de Y i sedistribuem ao redor da reta.



16

Outro exemplo.44,45

42,10

44,68

46,99

46,26

48,82

50,66

47,68

52,44

53,21

51,85

55,38

Porcentagem de acerto



17

E (Y)=27,836+0,00006423X

Média:

Para X i=300.000 bytes observou-se Y i=46,26. O valor estimado édado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor dotermo do erro é I

i

=46,26-47,11=-0,845.



18

Significado dos parâmetros do modelo de regressão linear simples

F0

U

x x+1

( x=1

( y yi = F0 + F1 xi

x

y

((!1 F

F0 (intercepto); quando a região experimental inclui X=0, F0 é o valor da média da distribuiçãode Y em X=0, cc, não tem significado prático como um termo separado (isolado) no modelo; F1

(inclinação) expressa a taxa de mudança em Y, isto é, é a mudança em Y quando ocorre amudança de uma unidade em X. Ele indica a mudança na média da distribuição de probabilidadede Y por unidade de acréscimo em X.



19

Exemplo: os dados abaixo indicam o número de bytes transferidos (Y) e otamanho da cache (X).

Equação de regressão:

x 64927 10 7634y 7 ,. ,Ö !

Faça o gráfico dos pontos e da retaajustada. Você acha que o modeloadotado é razoável?



20

y=4,763e7-27,649*x+eps

TAMANHO DA CACHE

3e7

3,2e7

3,4e7

3,6e7

3,8e7

4e7

4,2e7

4,4e7

4,6e7

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

O que significa o coeficiente angular neste caso? E o coeficientelinear?

Faça uma predição para o número de bytes transferidos para tamanhode cache igual a 270.000 bytes.



21

Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.

x 10 13 5 7 20

y 4 3 6 5 2

Equação de regressão: x y 261,087,6Ö !

Faça o gráfico dos pontos e da reta ajustada. Você acha que o modelo adotado é razoável?

O que significa o coeficienteangular neste caso? E o coeficientelinear?

Faça uma previsão para o valor doaluguel para idade de 13 anos.



22

Observações:

um modelo de regressão pode conter duas ou mais variáveis preditoras ( X 1 , X 2 ,...,X p-1 );

o modelo de regressão não precisa ser uma linha reta:

I F F F ! 2

210 X X Y

Chama-se modelo quadrático ou de 20 grau, cuja figura é uma parábola. Esse modelo, embora nãoseja uma linha reta, continua sendo um modelo linear nos parâmetros. O método que será discutido

para o modelo de regressão linear simples aplica-se diretamente aos demais modelos lineares nos parâmetros.



23

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.

Scatterplot (GARBAGE.STA 10v*10c)

y=1321,483-2,208*x+0,001*x^2+eps

HEAP SIZES

0

100

200

300

400

500

600

400 600 800 1000 1200 1400 1600



24

Modelo não linear nos parâmetros. Exemplo: modelo de crescimento logístico, onde X é otempo.

I F F

F

! X eY

32

1

1

É necessário estudar métodos para modelos não lineares.

Exemplo computação: modelo potência, y=bxa , onde X é a velocidade do processador e Y éa taxa I/O.



25

Modelos de regressão alternativos

As vezes torna-se conveniente (p.e. facilidade de cálculos) escrever o modelo deregressão linear (2) de forma diferente, embora equivalentes. Seja X 0 uma

variável dummy identicamente igual a 1. Então, temos o modelo que associauma variável X a cada parâmetro do modelo:

11100 |! 0ii X onde X X Y I F F

Uma outra alternativa é usar para a v. preditora os desvios ( X i-Média(X)) ao invésde X i. Para não modificarmos o modelo (2), escrevemos:

X

X X Y

X X X Y

10 0

i i 10 i

i 1i 10 i

F F F

I F F

I F F F

!

!

!

*

* )(

)(



26

Estimação da função de regressão

Denotamos as observações ( X i ,Y i ) para a primeira repetição como ( X 1 ,Y 1 ), para a segunda como(X 2 ,Y 2 ), e para a i-ésima como (X i ,Y i ), com i=1,2,..,n.

E xemplo: uma pesquisadora está estudando o comportamento de S taphilococcus aureus (Y) emfrango, mantido sob condições de congelamento doméstico (-18oC) ao longo do tempo ( X ) (dias).

Tempo 0 7 14 21 28 35

População 3,114 3,568 2,845 3,079 2,699 2,663

Notação: temos n=6 observações. O tamanho da população (ufc/cm2) é dado em log10.

Método dos mínimos quadrados

Para observações (X i ,Y i ) i=1,..,n, temos o modelo

n1,..,i X Y iii !! I F F 10

Desejamos ajustar o modelo, estimando os parâmetros F0 e F1.

O método de mínimos quadrados considera os desvios de Y i em relação ao seu valor esperado(E(Y i )):

)(10 ii

X Y F F



27

Elevando-se ao quadrado esses desvios e aplicando-se o somatório, temos o critério Q

(10) X Y Qn

i

ii§!

!

1

2

10 F F

De acordo com o método de mínimos quadrados, os estimadores de F0 e F1 são os valores b0 e b1, respectivamente, que minimizam o critério Q para a amostra (X1,Y1),..,(Xn,Yn).

IDADE

1,5

2,5

3,5

4,5

5,5

6,5

2 6 10 14 18 22

e5

e2

e1

e3



28

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de F

0

e F1

que minimizam Q.

§

§

!x

x

!x

x

!

!

n

i

iii

Q

n

i

ii

Q

X Y X

X Y

110

110

)(2

)(2

1

0

F F

F F

F

F

Estimadores de mínimos quadrados

Os valores de F0 e F1 que minimizam o critério Q podem ser obtidos diferenciando-se (10) em

relação a F0 e F1 , portanto, obtemos:



29

0

0

0)(

0)(

:obtemos,expandindoendosimplifica0)(

2

0)(2

1

2

1

1

0

1

110

1

110

110

1 10

110

!

!

!

!

!

!

§§§

§§

§

§

§

§

!!!

!!

!

!

!

!

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

iii

n

i

ii

n

iiii

n

i

ii

X b X bY X

X bnbY

X bbY X

X bbY

X bbY X

X bbY

Daí, obtemos o sistema de equações normais, dado por :

§§ §

§§

!! !

!!

!

!

n

i

i

n

i

n

i

iii

n

i

i

n

i

i

X b X bY X

X bnbY

1

2

1

1

1

0

11

10

Fazendo-se as derivadas parciais de segunda ordem,indicará que um mínimo foiencontrado com os estimadores

b0 e b1.



30

As equações normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

X bY X bY b

b

iin

X X

Y Y X X

i

ii

111

0

)())((

1 2

!!

§§!

§ §

n

X 2

n

Y X

1 2

X

XY b

§

§ §!

§

§

Outra forma de escrevermos:



31

Exemplo: a pesquisadora deseja encontrar o modelo de regressão da porcentagem de acertos sobre o tamanho da cache.

Tamanho dacache (X)

Porcentagemde acertos (Y)

)( X X i )( Y Y i )(( Y X X ii 2)( X X i 2)( Y Y i

Total = 3900000 584,52 0 0 2408500 37500000000 181,438

Média = 325000 48,71



32

8 45 27 325000 0000642 0 7148 X bY

0000642 0 b

1

0 3750000000 240 8 500

X X

Y Y X X

1 2

i

i i

, ) )( ,( ,b

,

0

)(

) )( (

!!!

!!

§

§!

Assim, estimamos que a porcentagem de acerto da cacheaumenta cerca de 0,00006 % para cada byte do tamanho dacache.



33



34

Saída do Statistica:



35

Tempo (X) População (Y) )( X X i )( Y Y

i ))(( Y Y X X

ii

2)( X X i

2)( Y Y i

0 3,114 -17,5 0,119 -2,088 306,250 ,014

7 3,568 -10,5 0,573 -6,020 110,250 ,329

14 2,845 -3,5 -0,150 0,524 12,250 ,022

21

3,0

79 3,5

0,084

0,295

12

,25

0 ,007

28 2,699 10,5 -0,296 -3,105 110,250 ,087

35 2,663 17,5 -0,332 -5,805 306,250 ,110

Total = 105 17,968 0 0 -16,199 857,5 0,569

Média = 17,5 2,9947

3,32545)5,17)(0189,0(9947,2 b-0,01

8890

10

5,857

199,16

)(

))((

1 2

!!!

!!§

§

!

X bY

b X X

Y Y X X

i

ii

Assim, estimamos que o tamanho da população de bactérias diminui cercade 0,0189 ufc/cm2 para cada dia.

Exemplo: a pesquisadora deseja encontrar o modelo de regressão do temposobre a população de bactérias.



36

Regression Summary for Dependent Variable: POPR = ,73274116 R²= ,53690961 Adjusted R²= ,42113702

F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686

St. Err. St. Err.BETA of BETA B of B t(4) p-level

Intercpt 3,325238 ,185902 17,88708 ,000057

TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596

Saída do STATISTICA:



37

Propriedades dos estimadores de mínimos quadrados

T eorema de Gauss-Markov: Se as pressuposições do modelo de regressão linear (2) forematendidas, os estimadores de mínimos quadrados b0 e b1 são não tendenciosos (unbised) e comvariância mínima, entre todos os estimadores lineares não tendenciosos. Primeiro, o teoremadiz que:

E(b0)= F0 e E(b1)= F1.

Segundo, o teorema diz que os estimadores b0 e b1 são mais precisos (isto é, as suas distribuiçõesamostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classedos estimadores não tendenciosos que são funções lineares das observações Y 1 , Y 2 ,...,Y n. Osestimadores b0 e b1 são tais funções lineares das observações. Considere, por exemplo, b1,

§!

!§§!

§§!

§

2

22

)(

)(

)(

)(

)(

))((

1

X X

X X

i

ii X X

Y X X

X X

Y Y X X

i

i

i

ii

i

ii

k

Y k b

Como k i são constantes (pois X i são constantes conhecidas), b1 é uma combinação linear de Y i e, assim, é um estimador linear . Da mesma forma, b0 também é um estimador linear. Entre todos os estimadores lineares não tendenciosos, b0 e b1 tem menor

variabilidade (demonstração adiante) em repetidas amostras nas quais os níveis de X são

constante.

(Demonstração adiante)



38

Estimação pontual da resposta média

Estimação da função de regressão

A média do modelo de regressão linear é dada por:

X Y E 10)( F F !

Estima-se a função de regressão por:

X bbY 10

Ö

!Onde Y (chapéu) é o valor estimado da função no nível X da variável preditora.

A resposta média ( E (Y )), corresponde a média da distribuição de probabilidade de Y no nível X

da variável preditora. Pode-se demonstrar, como uma extensão do teorema de Gauss-Markovque Y (chapéu) é um estimador não tendencioso de E (Y), com variância mínima dentro daclasse dos estimadores lineares não tendenciosos. Temos:

n1,2,...,i X bbY ii !! 10Ö

como sendo o valor ajustado para o i-ésimo caso.



39

Exemplo: para os dados de porcentagem de acerto na cache, osvalores estimados da função de regressão são dados por:

X 0000642 0 8 363327 Y , ,Ö !

Suponha que estejamos interessados na porcentagem médiade acerto na cache para X=300.000 bytes (muitas amostrascom 300.000 bytes sob as mesmas condições que a equação

foi estimada); a estimativa pontual vale:

10 47 300000 0000642 0 8 363327 y , )( , ,Ö !!

Valores ajustados dos dados da amostra são obtidossubstituindo-se os correspondentes valores da variável preditora X na função de regressão.



40

Saída do Statistica:



41

Suponha que estejamos interessados na população média (muitas amostras com 21 dias de

armazenamento sob as mesmas condições que a equação foi estimada) de bactérias para X=21 dias de armazenamento; a estimativa pontual vale:c

926 2 210190 325 3y , )( , ,Ö !!

Valores ajustados dos dados da amostra são obtidos substituindo-se os correspondentes valoresda variável preditora X na função de regressão.

Saída do STATISTICA:

Predicted & Residual Values (staphilo.sta)Dependent variable: POP

Observed Predictd Standard Standard Std.Err. Mahalns. Cook'sValue Value Residual Pred. v. Residual Pred.Val Distance Distance

1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,781146

2 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,633439

3 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,095181

4 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,0462695 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,042668

6 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146

Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454

Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725

X Y 019,0325,3Ö !

Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da função deregressão são dados por:



42

Modelo alternativo

Quando o modelo utilizado é:ii

X X Y I F F ! )(1

*

0

O estimador b1 de F1 permanece o mesmo. O estimador de

Y X b X bY X bbb: por dadoé X

*

0 !!!!

1110

10

*

0

)( F F F

Temos: )(Ö1 X X bY Y !

Exemplo: para os dados de staphilococcus aureus em frangoobter o valor ajustado para X 1=0 dia de armazenamento..

Exemplo: obter o valor ajustado para X=300.000 bytes decache..



43

Resíduos

O i-ésimo resíduo é a diferença entre o valor Y i e o

correspondente valor ajustado Y (chapéu)i.

iii Y Y e Ö!

Vemos que o resíduo para o primeiro caso, exemplo de pop. de Staphilococcus, saída do statistica, é dado por:

-,2112383,325238-3,114000Y Y e !!! 111Ö

Exemplo: para os dados de porcentagem de acerto na cache, o resíduo para o primeiro caso vale:

0,56443,886 - ,Ö !!! 45 44Y Y e 111



44

) E (Y Y iii !I

Os resíduos são extremamente úteis para verificar se um determinado modelo de regressão éapropriado para os dados. Este assunto será tratado mais adiante neste curso.

Distinção:

p é o desvio de Y i da verdadeira equação de regressão (desconhecida)e assim é desconhecido.

iii Y Y e Ö! p é o desvio de Y i do valor ajustado Y i (chapéu) na equação de regressãoestimada, portanto, é conhecido.

Regression

95% confid.

TEMPO

-0,30

-0,15

0,00

0,15

0,30

0,45

-5 0 5 10 15 20 25 30 35 40

para os dados de staphilococcus aureus

em frango



45

Regression

95% confid.

Raw residuals vs. TAMANHOC

Raw residuals = -,0000 + 0,0000 * TAMANHOC

Correlation: r = ,00000

TAMANHO DA CACHE

-3

-2

-1

0

1

2

3

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5



46

Propriedades do modelo ajustado:

) )Y ; X ( ponto pelo passa sempreregressãodelinha(

) X X (para )( )( bY Y Ö .

s)(ponderado Y Ö

.

s)(ponderado X .

A)ST ATISTIC doa(Veja saíd Ö Y 3.

MQO )demétododo(condiçãomínimaée .

A)ST ATISTIC doa(Veja said )normal equação primeiraadevido(

)( .

1

n

1ii

n

1i

i

n

1i

i

n

1i

2

i

a

Y X X bY X X 6

0 e5

0 e4

Y

2

0 X bnbY X bbY e1

1

i

i

n

1i

i

n

1i

i 10 i i 10 i i

!!!!

!

!

!

!!!

§

§

§§

§

§ § §§

!

!

!!

!

!

X bbY 10Ö !



47

Estimação da variância (W2)

A variância, W2, dos erros, Ii, no modelo de regressão (2) precisa ser estimado para obter uma

indicação da variabilidade da distribuição de probabilidade de Y . Necessário para inferências.Lembrete: a variância de cada observação Y i para o nosso modelo de regressão é W2, a mesma decada Ii.

Precisamos calcular a soma de quadrados de desvios, considerando que cada Y i veêm de diferentesdistribuições de probabilidade com diferentes médias que dependem do nível de X i; as médias sãoestimadas por Y i(chapéu). Assim os desvios são os resíduos:

iii Y Y e Ö!

A soma de quadrados do erro (resíduo), SQE, é dada por:

§§!!

!!n

i

i

n

i

ii eY Y S Q E 1

2

1

2)Ö(

Dois graus de liberdade são perdidos para estimar os parâmetros F0

e F1. O quadrado médio do

erro é dado por (QME):

2!

n

S Q E QM E

Temos que o QME é um estimador não tendencioso de W2 (prova adiante) pois2)( W!QM E E



48

Exemplo: para os dados de S taphilococcus aureus em frango, temos:

X)qual quer paraY deãodistribuiçda padrão( Desvio

padrão)(desvio ufc , ,

variância)daa( E stimativ , / ,QM E

assimliberdade,de graus2-6

,

2567 0 06590 d eEstimativ a

06590 426390

4com

26390 SQE

!!

!!

!

!

W

Exemplo: para os dados de tamanho de cache, temos:

X)qualquer paraYdeãodistribuiçda padrão(Desvio

padrão)(desvio %6043,157385,2é 57385,210/7385,25QME

assimliberdade,degraus102-12

7385,25

!!!

!

!

Wde E stimativa

com

S Q E



49

Modelo de regressão com erros normais

Para construir intervalos de confiança e fazer testes de hipóteses nós devemosconsiderar alguma distribuição de probabilidade para os Ii. Uma distribuiçãoque tem um apelo prático e teórico bastante grande é a distribuição normal eque será utilizada neste curso.

O modelo de regressão é dado por:

n1,..,i X Y iii !! I F F 10

Y i é o i-ésimo valor observado da variável resposta;

F0 e F1 são os parâmetros;

Xi é o i-ésimo valor da variável preditora (é uma constanteconhecida, fixo).

Ii é o termo do erro aleatório, independentes com distribuição N (0, W2).



50

Como assumimos para o modelo de regressão que os erros são normalmente distribuídos, asuposição que os erros Ii não são correlacionados, feita no modelo inicial, transforma-se nasuposição de independência no modelo com distribuição normal.

O modelo implica que Y i são variáveis aleatórias independentemente distribuídas segundo umanormal com média E (Y i )= F0+ F1 X i e variância W2. Para cada valor X i , podemos pensar em todosos valores possíveis de Y i e sobre a sua variabilidade. Esta suposição diz que, seja qual for ovalor de X i, a variabilidade nos possíveis valores de Y é a mesma.

Para cada valor X i, podemos pensar que todos os valores assumidos por Y podem ser bemrepresentados por uma distribuição normal.

Independentes: no sentido que eles não são relacionados de qualquer modo, por exemplo, são provenientes de diferentes cpu¶s, diferentes indivíduos, diferentes animais, etc. Os registros

num banco de dados são independentes.



51

Estimação dos parâmetros pelo método da máxima

verossimilhança

Como foi especificado uma distribuição de probabilidades para os erros podemos obter estimadores para F0, F1 e W2 pelo MMV.

O método de máxima verossimilhança determina como estimativas de máxima verossimilhança,os valores de F0, F1 e W2 os quais produzem o maior valor para a verossimilhança.

Em geral, a densidade de uma observação Y i para o modelo de regressão com erros normais,utilizando o fato de que E (Y i )= F0+ F1 X i e variância W2 é dada por :

? A2

21

2

1 10expW

F F

WT

ii X Y

i f

!

A função de verossimilhança para n observações Y 1 , Y 2 ,...,Y n , é o produto das densidadesindividuais (é a conjunta). Como a variância W2 dos erros é desconhecida, a conjunta é uma funçãode três parâmetros, F0, F1 e W2 :



52

? A

¼½

»¬-

«!

!

§

!

!

n

i

ii ) (

ii

n

i

) X (Y

X Y L

n/

1

2

10212 1

2

102

1

1)2(

12

10

222

22/12

exp

)(exp),,( F FW F FWTW

Devemos encontrar valores de F0, F1 e W2 que maximizam a função de verossimilhança L,

calculando-se as derivadas parciais de L com respeito a F0, F1 e W2 e igualando cada derivada parcial a zero e resolvendo o sistema de equações obtido. Podemos trabalhar com log e L ao invés de

L, pois ambos são maximizadas para os mesmos valores de F0, F1 e W2

:

§ ! 2

102

12

22)(log2loglog 2 iie

ne

ne X Y L F FWT

W

As derivadas parciais do logaritmo da função de verossimilhança, são dadas por:

§

§

§

!x

x

!x

x

!x

x

2

10422

102

1

1020

)(2

1

2

)(log

)(1)(log

)(

1)(log

iie

iiie

ii

e

X Y n L

X Y X L

X Y

L

F F W W W

F F W F

F F W F



53

Agora, fazemos as derivadas parciais iguais a zero, substituindo F0, F1 e W2 pelos estimadores

2

10 ÖÖ,Ö W F F e

Obtemos:

2)ÖÖ(

10

10

Ö

0)ÖÖ(

0)ÖÖ(

2

10 W

F F

F F

F F!

!

!

§

§

§

n

X Y

iii

ii

ii

X Y X

X Y

As duas primeiras equações são idênticas as equações normais encontradas pelo método demínimos quadrados. O MMV produz um estimador viesado para W2.

Parâmetro Estimador de máxima verossimilhança

0 F00

Ö b! F

1 F11

Ö b! F

2Wn

Y Y ii§! 2)Ö(2ÖW

Os estimadores de F0, e F1 são os mesmos do método de mínimos quadrados. O estimador demáxima verossimilhança de W2 é viesado,ou seja,.

n

1nE

2 2 W

W )(

)Ö (

!



54

Comentários:

1) como os estimadores de máxima verossimilhança de F0,e F1 são os mesmos do métodode mínimos quadrados, eles tem as mesmas propriedades de todos os estimadores de

mínimos quadrados:a) são não viesados;

b) tem variância mínima entre todos os estimadores lineares não tendenciosos;

além disso, os estimadores de máxima verossimilhança b0 e b1 para o modelo deregressão com erros normais tem outras propriedades desejáveis:

c) são consistentes;

d) são suficientes;

*** Fazer lista de exercícios número1.

0 )|Ö (|lim "!ugp

II U U 0 P n

.dedependenão )Ö |( Ö | U U U !y f Y



55

Inferência na análise de regressão

Assumimos o modelo: n1,..,i X Y iii !! I F F 10

F0 e F1 são os parâmetros;

Xi são constantes conhecidas, fixas.

Ii são independentes com distribuição N (0, W2).

(3)

Intervalos de confiança

Testes de hipóteses:



56

Inferências para F1

y encontrar intervalos de confiança para F1

yfazer testes de hipóteses com relação a F1, por exemplo:

0:

0:

1

10

{

!

F

F

a H

H Não há associaçãoentre X e Y.

Para realizar inferências sobre F1

, precisamos conhecer a distribuição amostral de b1

, o estimador pontual de F1.

Distribuição amostral de b1

O estimador pontual é dado por:

§

§

!

2

)(

))((

1 X X

Y Y X X

i

ii

b

A distribuição amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos commuitas amostras para um mesmo nível da variável preditora X (constante).



57

Normalidade: a normalidade da distribuição amostral de b1 segue do fato de que b1 é umacombinação linear dos Y i.Os Y i são independentes, com distribuição normal. Uma combinação linear de variáveis aleatórias independentes, com distribuição normal, também tem distribuição normal.

b1 como combinação linear de Y i.

§!

!

§§!

§§ §!

§§ §!

§§!

§

2

2

2

2

2

)(

)(

1

)(

)(

1

)()()(1

)(

)()(

1

)(

))((

1

X X

X X

i

ii

X X

Y X X

X X X X Y Y X X

X X

Y X X Y X X

X X

Y Y X X

i

i

i

ii

i

iii

i

iii

i

ii

k

Y k b

b

b

b

b

Portanto, k i são funções de X i que são valoresfixos.

Média:

viesado)(não b E

X k k b E

X k k b E

X k b E

Y E k Y k E b E

iii

iii

ii

iiii

11

101

101

101

1

)(

)(

)(

)()(

)()(

F

F F

F F

F F

!

!

!

!

!!

§§

§§

§

§§

Pois,

)( Demonstre X k

k

ii

i

1

0

!

!

§

§



58

Variância:

? A ? A

§

§

§§

§

§ §§

!

!

¼¼½

»

¬¬-

«

!

2

2

2

22

2

2

2

2

1

1

X X

k

X X X X

k

X X

X X k

i

i

i

i

i

i

i

i

§!

!

!

!!

§

§

§§

2

12

12

22

12

22

12

222

12

)(

)(

)(

)()(

X X

i

i

iiii

i

b

k b

k b

Y k Y k b

WW

WW

WW

WWW

Podemos estimar a variância da distribuição amostral de b1 substituindo W2 pelo quadrado médioresidual (QME). O estimador s2(b1 ) é um estimador não tendencioso de W2 (b1 ).

§! 2)( 1

2

X X

QM E

ib s



59

Na seção propriedades dos estimadores de mínimos quadrados dissemos que b1 tem amenor variância entre todos os estimadores lineares não tendenciosos da forma

§! iiY c1Ö F

:otendenciosnãoé1Ö F

110101 )()()()Ö( F F F F F F !!!!! § §§§§ iiiiiiiii X cc X cY E cY c E E

Restrições: § § !! 10 iii X c e c

:Ö1 deVariância F § § §!!! 222222

12

)()Ö( iiii ccY c WWW FW

Seja ci=k i + d i , onde k i são como anteriormente e os d i são constantes arbitrárias.

Então:

§ §§§ ! iiiiii d k d k d k 2)( 22

22

2 WW

Zero (Verifique)

)( 1

2

bW

Nota:

ci são constantes arbitrárias11 b! FÖ



60

Finalmente, temos: §! 22

12

12 )()Ö( id b WW FW

Observamos que a menor variância do estimador ( ) é obtida quando .Istoocorre quando todos os d

i=0, isto implica que c

i| k

i. Assim, o estimador de mínimos

quadrados b1 tem variância mínima entre todos os estimadores lineares não tendenciosos.

Distribuição amostral de ( b1- F1 )/s( b1 )

Como b1 tem distribuição normal, sabemos que a estatística padronizada (b1- F1 )/ W(b1 ) é uma

variável aleatória com distribuição normal padrão. Para estimar W(b1 ) usamos s(b1 ) e, assim

precisamos conhecer a distribuição da estatística (b1- F1 )/s(b1 ) [estatística studentizada].

Teorema:2)-t(n~

b s

b

)( 1

11 F

Demonstração:

Podemos escrever a estatística como:

)()(

)( 1

1

1

11

b

b s

b

b

WW

Fz

O numerador é uma variável normal padrão z. Para o denominador, temos:

para o modelo (3)

1Ö F § ! 02

id



61

)2()2()(

)(2

)2(

22

2

2

2)(

2

2)(

12

12

~

!!!

§

§!nn

S Q E QM E

b

b s nn

S Q E

X i X

X i X

QM E

G

WWWW W

Portanto,

)2(

)2(21

11 ~)(

n

n

zb s

b

G

F

Como z e G2 são independentes pois z é uma função de b1 e b1 é independente de SQE/W2 ~ G2.Assim (A definição está no apêndice):

).2(~)( 1

11

nt b s

b F

Teorema: para o modelo (3),SQE/W2 é distribuído comoG2 com n-2 gl e éindependente de b0 e b1.

Agora podemos fazer inferências sobre F1.



62

E/2=0,25E/2=0,25 1-E=0,50

t=1t=-1

Intervalo de confiança para F1

Desde que (b1- F1 )/s(b1 ) tem distribuição t, podemos fazer a seguinte afirmação probabilística:

EE FE !ee 1)}2;2/1()(/)()2;2/({ 111 nt b sbnt P



63

t( E /2;n-2) representa o ( E /2)100 percentil da distribuiçãot com n-2 g.l.

t( E /2;n-2) = - t(1-E /2;n-2) (devido a simetria da distribuição t )

Rearranjando as desigualdades obtemos:

.1))()2;2/1()()2;2/1(( 11111 EE FE !ee b snt bb snt b P

O intervalo de confiança é dado por:

)()2;2/1( 11 b snt b s E

Exemplo: considere os dados de população de S taphilococcus aureus, a pesquisadora desejaencontrar o intervalo para F1 com confiança de 95%.

0623,00434,0

)008772,0(776,2019,0)008772,0(776,2019,0776,2)4;975,0(

008772,0)(

0000769,0)(

1

1

1

5,857

0659,0

)(1

2

2

ee

ee

!

!

!!§

!

F

F

t

b s

b s X X

QM R

Muito importante

Usar software

Interpretação: estimamos que a população de S taphilococcus ³cresce´ entre -0,0434 e

0,0623 unidade/dia.



64

Exemplo: considere os dados de porcentagem de acerto nacache, a pesquisadora deseja encontrar o intervalo para F1 com

confiança de 95%.

0000 8 27 0 0000457 0

00000 8 30 22 8 2 0000642 0 00000 8 30 22 8 2 0000642 0

22 8 2 10 975 0 t 00000 8 30 bs

6 8 635 0000000000 0 bs

1

1

1

0 3750000000 5738 2

X X

QMR 1

2 2

, ,

) ,( , , ) ,( , ,

, ); ,( , )(

, )( ,

)(

ee

ee

!!

!!§

!

F

F

Muito importante

Usar software

Interpretação: estimamos que a porcentagem de acertosaumenta entre 0,0000457 e 0,0000827 % por byte dotamanho da cache.



65

Teste de hipóteses para F1

T este bilateral

0:

0:

1

10

{

!

F

F

a H

H

Hipóteses:

Vimos que (b1- F1 )/s(b1 ) tem distribuição t (n-2).O teste de hipótesesobre F1 pode ser feito de maneira padrão usando a distribuição deStudent.



66

Exemplo: a pesquisadora deseja saber se existe regressão linear entre a porcentagem de acertos na cache e o tamanho da cache,

ou seja, se F1{0 ou não.

[Como o intervalo de confiança construído anteriormente nãoinclui o valor 0 (o valor da hipótese nula), devemos rejeitar ahipótese nula ( H 0 ). Isto é válido quando o teste é bilateral].



670

*

0*

Hse-rejeita ),2;2/1(||

Hse-rejeitanão ),2;2/1(||

"

e

nt t S e

nt t S e

E

E

Critério do teste: estamos controlando a probabilidade de errotipo I (E).

)(*

1

11

b s

bt

F!

Teste estatístico formal:

[Como o intervalo de confiança construído anteriormente inclui ovalor 0 (o valor da hipótese nula), devemos aceitar a hipótese nula( H 0 )].

Exemplo: a pesquisadora deseja saber se existe regressão linear entre população de bactérias e o tempo de armazenamento, ou

seja, se F1{0 ou não.



68

Exemplo: para os dados de porcentagem de acerto na cache,com E=0,05, b1=0,0000642 e s(b1 )=0,0000083, temos:

,735 ,

,* 7 t 00000 8 30 0 0000642 0 !!

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| é maior

do que 2,228 rejeita-se a hipótese nula e concluímos que existe umaassociação linear entre a porcentagem de acertos na cache e otamanho da cache.

E l d d d l ã d St hil



69

Exemplo: para os dados de população de S taphilococcus

aureus, com E=0,05, b1=-0,019 e s(b1 )=0,008772, temos:

2,166 t !!

008772,00019,0*

O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| é menor do que 2,776 aceita-se a hipótese nula e concluímos que não existe

uma associação linear entre a população de S taphilococcus aureus eo tempo de armazenamento.

Valor p: é o menor valor de E para o qual rejeitamos a hipótesenula. Se o pesquisador fixar E=0,05, então, para um valor p u 0,05 não rejeita-se H0, caso contrário, rejeita-se H0. Formalmente fica:

Valor p é também denominado de nível descritivo ou nível de

significância observado.

pvalor t t P )( * !"



70

Saída do Statistica: dados de porcentagem de acertos na cache. Asdiferenças verificadas são devidas às aproximações nos cálculos.



71

* * Com o uso do Statistica, para os dados de porcentagem de

acerto na cache, encontrar a probabilidade de se rejeitar ahipótese nula, quando ela é verdadeira.

000016,0,0000080,0000080)7525,7()7525,7(

000015,0)7525,7|(|

$$"

!"

t pt P

t P

Atenção: verificar se o software dá o valor p para o teste uniou bilateral



72

Saída do Statistica: dados de populações de S taphilococcus a diferença verificada entre -2,166 e -2,15351 é devido à aproximações nos cálculos.

* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hipótese nula, quando ela é

verdadeira.

09624,004812,004812,0)166,2()166,2(

0962,0)166,2|(|

!!"

!e

t pt P

t P Atenção: verificar se osoftware dá o valor p parao teste uni ou bilateral



73

T este unilateral:

0:

0:

1

10

u

F

F

a H

H

O pesquisador deseja, por exemplo, testar se F1 é negativo,

controlando o nível de significância E=

0,05

.

Regra de decisão:

0*

0*

H se-rejeitat

H se-rejeitanãot

),n;( t S e

),n;( t S e

2

2

u

E

E

E xemplo: para os dados de S taphilococcus temos, para E=0,05,t(0.05;4)=-2,132. Como t *=-2,166, rejeita-se a hipótese denulidade, portanto F1 é negativo.

*t t P p !V al or



74

Nas publicações, indicar o nível descritivo juntamente com o valor da estatística teste. Podemos realizar o teste estatístico para

qualquer nível de significância E, comparando o nível descritivocom o valor desejado de E.

Comentário: pode-se testar as seguintes hipóteses:

101

1010

:

:

F F

F F

{

!

a H

H

Onde F10 é um valor diferente de zero.



75

A estatística teste é dada por:

1

101

b s

bt F!

Critério do teste:

Se |t *| e t(1- E /2;n-2) não se rejeita H 0

Se |t *| > t(1- E /2;n-2) rejeita-se H 0

I f ê i F



76

Inferências para F0

Só tem interesse quando os níveis de X incluem X=0 (o que é raro).

Distribuição amostral de b0

O estimador pontual b0 é dado por: X bY b 10 !

A distribuição amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos comdiferentes amostras para o mesmo valor de X (constante).

A distribuição amostral de b0 é normal

Média:00 )( F!b E

Variância: ¹ º ¸©

ª¨

§!

2

2

)(

12

0

2 )( X X

X n

i

b WW

A normalidade é verificada pois b0 é uma combinação linear das observações Y i.

Um estimador para W2(b0 ) é obtido substituindo-se W2 pelo seu estimador pontual, QM E .

Distribuição amostral de ( b0- F0 )/s( b0 )Teorema:

)2(~)( 0

00

nt b s

b F@ podemos usar a distribuição t para construir os IC e fazer os testes de hipóteses.

(Demonstração próxima página)



77

(cqd).

)(

)( )( )( )(

0 F

F F F

!

!!

!!

110 1

110

X X bE X Y

X bE Y E X bY E bE

Demonstração:



78

Intervalo de confiança para F0

)()2;2/1( 00 b snt b s E

E xemplo: para os dados de S taphilococcus, como temos tempo=0 ( X=0), podemos estar interessados em encontrar o IC para F0.

8410,38094,2

)1858,0(776,23252,3)1858,0(776,23252,3

776,2)4;975,0(

1858,0)(

0,03456

10659,0

)()(

0

0

0

5,857

5,17

2

2

10

22

ee

ee

!

!

!¼½

»¬-

«!

¼¼½

»

¬¬-

«

!

§

F

F

t

b s

X X

X QM E b s

i

n

Como o intervalo de confiança não inclui o valor zero (0), rejeitamos a hipótese:

0:

0:

0

00

{

!

F

F

aH

H

Estimação intervalar para E(Y )



79

Estimação intervalar para E(Yh)

Freqüentemente, numa análise de regressão, deseja-se estimar amédia de uma ou mais distribuições de probabilidade de Y.

Exemplo: No estudo da relação entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem média de acerto paratamanhos maiores de cache pode ser de interesse. Outro exemplo,um agrônomo pode estar interessado na produção média paradiversas doses de um nutriente, com o objetivo de encontrar a doseótima.

X h p representa o nível da variável preditora para a qual se desejaestimar a resposta média.A resposta média para X=X

h

é representada por: E (Y h

)

hh X bbY 10Ö !

Sabemos que o estimador pontual de E (Y h ) é dado por:hY Ö



80

Distribuição normal: para o modelo de regressão com erros normais, a

distribuição amostral de Y(chapéu)h é normal. A normalidade seguediretamente do fato que Y(chapéu)h , assim como b0 e b1 , é uma combinaçãolinear das observações Y i.

Média

)()()()()Ö( 101010 hhhhh Y E X b E X b E X bb E Y E !!!! F F

Distribuição amostral de Y( chapéu)h

Diferentes valores de Y(chapéu)h que seriam obtidos se repetidas amostrasfossem selecionadas, para X constante, e calculando Y(chapéu)h para cadaamostra.

Variância



81

Variância

Para obter W2(Y(chapéu)h ), primeiro mostraremos que b1 e não são correlacionados e sob omodelo de regressão com erros normais, independentes:

0);( 1 !Y bWDefinimos:

2)(

1

§!!!

§§ X X

X X

iii1ini

ik Y k b Y Y

Através do teorema A.32 (Neter et al., página 668, 1996) com ai=1/n e ci=k i e lembrando queY i são variáveis aleatórias independentes:

§ § !!! 0)()();(221

1 iniink Y k bY WWW

Para a demonstração da variância de Y(chapéu)h vamos utilizar o modelo:

iii X X Y I F F ! )(1*

0

Y

Ö



82

¼½»

¬-«

§!

§!@

!!§

!

!

!

2

2

2

22

22

2

2

)(

)(122

)(

22

)(2

)(12

n1

12222

122

)Ö(

)()Ö(

)( )()constantesXeXtes;independensão beY(

)()()()Ö(

))(()Ö(

X X

X X

nh

X X hnh

nn

Y

X X

hh

hh

i

h

i

i

h

Y

X X Y

Y b

b X X Y Y

X X bY Y

WW

W

WW

WWW

WW

WW

WWW

Distribuição amostral de

)2(~)

Ö

(

)(Ö

nt

h

hh

Y s

Y E Y

Intervalo de confiança para E(Yh)

)Ö()2;2/1(Öhh Y snt Y s E

)Ö(/))(Ö( hhh Y sY E Y



83

Exemplo: vamos encontrar um intervalo com confiança de 95% para E (Y h ) para tamanho decache X=300.000 bytes. Temos:

? A

230348 Y E 9697 45 50732630 22 8 2 10 47 Y E 50732630 22 8 2 10 47

22 8 2 10 975 0 t

50732630 Y s

25738 0 5738 2 Y s

10 47 300000 0000642 0 8 363327 Y

300000

300000

h

0 3750000000

325000 300000

12 1

h

2

300000

2

, )( , ) ,( , , )( ) ,( , ,

, ); ,(

, )Ö (

, , )Ö (

, )( , ,Ö

)(

eeee

!

!

!!

!!

I nterpretação: temos 95% de confiança que a porcentagem média de acertos, com 300.000 bytesde tamanho de cache, está entre 45,9697 e 48,2003%. Um intervalo com boa precisão.

Exercício: encontrar o intervalo com confiança de 95% para E (Y h ) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.



84

Exemplo: para os dados de população de bactérias, vamos encontrar um intervalo comconfiança de 95% para E (Y h ) para tempo X=14 dias. Temos:

? A

3619,3)(7561,2)10

91,0(

776,

20

59,

3)()10

91,0(

776,

20

59,

3

776,2)4;975,0(

1091,0)Ö(

0119,00659,0)Ö(

0593)14(019,0325,3Ö

14

14

5,857

)5,1714(

6

12

14

2

eeee

!

!

!!

!!

Y E Y E

t

Y s

Y s

,Y

h

h

I nterpretação: temos 95% de confiança que a população média de bactérias, com 14 dias dearmazenamento, está entre 2,7561 e 3,3619 ufc (em log base e).

Exercício: encontrar o intervalo com confiança de 95% para E (Y h ) para tempo X=0.Compare as amplitudes dos intervalos.

Predição de uma nova observação



85

Predição de uma nova observação

Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertosna cache para um tamanho de cache igual a 375.000 bytes; 2) a

pesquisadora deseja predizer a população de bactérias para um tempoespecífico igual a 15 dias.

Portanto, desejamos predizer uma nova observação, Y , vista comoresultado de um novo ensaio, independente dos ensaios nos quaisanálise de regressão foi feita.

Notação: denotamos o nível de X para o novo ensaio como X h e anova observação em Y como Y h(novo). Assumimos que o modelo deregressão continua válido para a nova observação.

A diferença entre estimar uma resposta média, E (Y h ) e fazer a predição de uma nova observação, Y h(novo), é que no primeiro casoestimamos a média da distribuição de Y. Agora, vamos predizer umaresposta individual da distribuição de Y.



86

Intervalo de predição para Yh(novo)

Os limites de predição para uma nova observação Y h(nova) para um dado X h são obtidos através do

do seguinte teorema : )2(~)(

Ö)(

nt pred s

Y Y hnovoh

Isto para o modelo de regressão com erros normais.

Note que a estatística usa Y(chapéu)h no numerador ao invés de E (Y h ). O desvio padrão estimado, s(pred), é obtido como segue:

A diferença no numerador, Y h(novo) - Y(chapéu)h, pode ser visto como um erro de predição, comY(chapéu)h sendo a melhor estimativa pontual do valor da nova observação, Y h(novo) . A variânciadesse erro pode ser obtida considerando que a nova observação e as n observações, sobre as quaisY(chapéu)h está baseada, são independentes. Considerando o teorema A.31b (Neter et. Al., página668, 1996), temos:

¼½»

¬-«

§!

!

!!!

2

2

)(

)(1

22

222

)(2

)(22

1)(

)Ö())(

)Ö()Ö()()Ö()(

X X

X X

n

2

h

hhnovohhnovoh

i

hQM E pred s

o)tendenciosnão(estimador Y sQM E pred s

Y Y Y Y Y pred WWWWWW

)()2;2/1(Ö pred snt Y h s E

O intervalo fica:

Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes e que a pesquisadora



87

Exemplo: suponha que um novo tamanho de cache seja X h 375000 bytes,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 375000(novo).

? A

7445 55 Y 07 8 2 48

720436 122 8 2 9113351Y 720436 122 8 2 9113351

720436 1 pr ed s95992 38 610 5738 2 pr ed s

22 8 2 10 975 0 t

5738 2 QM E

38 610 5738 2 Y s

9113351375000 0000642 0 8 363327 Y

nov o375000

nov o375000

2

0 3750000000

325000 375000

12 1

375000

2

375000

2

, ,

) ,( , , ) ,( , ,

, )( , , , )(

, ); ,(

,

, , )Ö (

, )( , ,Ö

)(

)(

)(

ee

ee

!!!

!

!

!!

!!

I nterpretação: podemos afirmar com 95% de confiança que o valor predito de porcentagem deacertos, para tamanho de cache igual a 375000 bytes, está entre 48,0782 e 55,7445%.

O intervalo de predição é similar ao intervalo de estimação, a diferença é conceitual . Um intervalode estimação é uma inferência sobre um parâmetro e é um intervalo que procura conter o valor do

parâmetro. O intervalo de predição, por outro lado, é um conhecimento formal sobre um valor deuma variável aleatória, a nova observação Y h(novo).

Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias e que a pesquisadora



88

Exemplo: suponha que um novo tempo de armazenamento seja X h 15 dias,e que a pesquisadoradeseja construir um intervalo de predição com 95% de confiança para Y 15(novo).

? A

8123,32677,2

)2782,0(776,2040,3)2782,0(776,2040,3

2782,0)(0774,00115,00659,0)(

776,2)4;975,0(

0659,0

0115,00659,0)Ö(

040,3)15(019,0325,3Ö

)(15

)(15

2

5,857

)5,1715(61

15

2

15

2

ee

ee

!!!

!

!

!!

!!

novo

novo

Y

Y

pred s pred s

t

QM E

Y s

Y

I nterpretação: podemos afirmar com 95% de confiança que o valor predito de população de bactérias, para tempo igual a 15 dias, está entre 2,2677 e 3,8123 ufc/cm2.

Faixa de confiança para a equação de regressão



89

Faixa de confiança para a equação de regressão

Útil para verificar o ajuste da equação de regressão.

A faixa de confiança (1-E) para a equação da reta correspondente ao modelo de regressão comerros normais tem dois limites para qualquer nível de X h, cujos valores são dados por:

¼½»

¬-«

§!

!

!

s

2

2

)(

)(12

10

2

)Ö(

Ö

)2,2;1(2

)Ö(Ö

X X

X X

nh

hh

hh

i

hQM E Y s

X bbY

n F W

Y WsY

E

Calcula-se os valores dos limites para diversos níveis de X h e após faz-se o gráfico.

Distribuição de F,

com 2 gl nonumerador e n-2 no

denominador, com

grau de confiança 1-

E

Scatterplot (CACHE.STA 9v 12c)



90

Scatterplot (CACHE.STA 9v*12c)

y=27,836+6,423e-5*x+eps

TAMANHO DA CACHE

40

42

44

46

48

50

52

54

56

58

2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5

Percebe-se que os valores da linha de regressão são estimados com boa precisão.



91

Análise de variância da regressão

É importante para análise de regressão linear múltipla e outros modelos lineares. Para análise deregressão linear simples não traz nenhuma novidade.

Partição da soma de quadrados total



92

Partição da soma de quadrados total

)Ö ( )Ö ( i i i i

Y Y Y Y Y Y !

Desviototal

Desvio daequação

ajustada emtorno da média

Desvio emtorno daequaçãoajustada

X

Y

X i

Y i

TR

E

D t ã §§ !nn

YYYYYY2

2 )Ö()Ö()(



93

Soma de quadrados total:

Soma de quadrados do erro (ou resíduo): §!

!n

i

ii Y Y S Q E 1

2)Ö(

Soma de quadrados da regressão: §!

!n

i

i Y Y S Q R1

2)Ö(

§!

!n

i

i Y Y S QT 1

2)(

Demonstração:

§ §§

§ §§

§ § §

§

§§

! !!

! !!

! ! !

!

!!

!@

!!

!

n

i

n

i

iii

n

i

n

i

n

i

iiiii

n

i

iii

n

i

n

i

n

i

iiiiii

n

i

iiiiii

i

iii

i

Y Y Y Y Y Y

Y Y Y Y Y Y Y Y Y Y

Y Y Y Y Y Y Y Y

Y Y Y Y Y Y Y Y

Y Y Y Y Y Y

1 1

22

1

2

1 11

1 1 1

22

1

22

11

)Ö()Ö()(

0)Ö(2)Ö(Ö2)Ö)(Ö(2

)Ö)(Ö(2)Ö()Ö(

)Ö)(Ö(2)Ö()Ö(

)()()(

(Parte da variabilidade de Y i que está associada com a regressão)

G d lib d d



94

Graus de liberdade

A S QT tem n-1 graus de liberdade; um grau de liberdade é perdido devido a restrição de que a somados desvios em torno da média é zero. De outra forma: um grau de liberdade é perdido porque a

média da amostra é usada para estimar a média populacional.

A S Q E tem n-2 graus de liberdade. Dois graus de liberdade são perdidos pois dois parâmetros sãoestimados para obter Y(chapéu)i.

A S Q R tem 1 grau de liberdade. Dois g.l. estão associados com a regressão (2 parâmetros); um delesé perdido devido a restrição:

Os graus de liberdade são aditivos: (n-1)=1+(n-2)

Quadrados médios

A soma de quadrados dividida pelos graus de liberdade é chamada de quadrado médio.

1S Q RQM R ! )2( ! n

S Q E QM E )1( ! n

S QT

QM T

.0)Ö( !§ Y Y i

Tabela da análise de variância



95

Tabela da análise de variância para regressão linear simples

Causas de variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1Erro SQE n-2 SQE/(n-2)

Total SQT n-1

T abela modificada (soma de quadrados total não corrigida)

Baseado no fato de que:

§§§

!

!!2

222

)(

i

ii

Y S QT N C

Y nY Y Y S QT

Tabela da análise de variância para regressão linear simples

Causas de variação Soma de quadrados Graus de liberdade Quadrado médio

Regressão SQR 1 SQR/1

Erro SQE n-2 SQE/(n-2)Total SQT n-1

Correção para a média SQ(devido a média)= 2Y n 1

Total não corrigido SQTNC=§2

iY n

E í i bt h d d d t d t h SQR QMR



96

Exercício: obtenha para os dados de pop. de S taphilococcus a SQR e o QMR.

Esperanças dos quadrados médiosPara realizar inferências na análise de variância, precisamos conhecer as esperanças dosquadrados médios. Os valores esperados dos quadrados médios é a média de suas distribuiçõesamostrais e nos mostram o que está sendo estimado pelo quadrado médio.

Teorema 2.11 (página 49, Neter et al., 1996) diz que: )2(~/22 nS Q E GW

Das propriedades da distribuição de G2 (apêndice) temos:

imparcial)estimador éQM E ( O QM E E E

n E

nS Q E

S Q E

22 )()(

2)( 2

W

W

!!

!

Para encontrar a E(QMR), partimos de:

22

1)(§ ! X X bS Q R

i

Sabemos que a variância de uma variável aleatória é dada por:

(para o modelo com erros com distribuição normal).

Exercício: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.

! 2

1

2

11

2

bE

bE bE b

)(

))( ( )( )(

F

W



97

§ !!@

§ !

§ !

§ !@

!@

!

!

§

§

§

2

i

2

1

2

1SQR

2

i

2

1

2

2

i

2

1 X X

2

i

2

1

2

1 X X

2

1

X X 1

2

11

X X QMR E E

X X SQR E

X X SQR E

X X bE SQR E

bE

b

bE

2

i

2

2 i

2

2

i

2

)( )( )(

)( )(

)( )(

)( )( )(

)(

)(

)(

FW

FW

F

F

W

F

W

W

W

Teste F para F1

Na análise de variância testa-se as seguintes hipóteses:

0:

0:

1

10

{

!

F

F

a H

H

A estatística utilizada para testar essas hipóteses é dada por:QM E

QM R F !*

Para estabelecer uma regra de decisão do teste de hipóteses devemos conhecer adistribuição amostral de F *.

Valores altos de F * favorecem H a; F *=1 favorece H 0; é um teste unilateral.

Di t ib i ã t l d F*



98

Distribuição amostral de F

Vamos considerar a distribuição amostral de F * quando a hipótese nula for verdadeira, isto é,sob H 0.

T eorema de C ochran: se as n observações Y i são identicamente distribuídas de acordo comuma distribuição normal com média Q e variância W2 e a soma de quadrados total édecomposta em k somas de quadrados S Qr , cada uma com gl r graus de liberdade, então, ostermos S Qr / W2 , são variáveis independentemente distribuídas como G2 com gl r graus deliberdade se:

§!!

k

ir n gl

1 1

Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e osseus graus de liberdade são aditivos.

Sob H 0 , de modo que os Y i tem distribuição normal com a mesma média Q =0 e mesmavariância W2 , S Q E / W2 e S Q R / W2 são variáveis independentemente distribuídas como G2.

Podemos escrever F * como:

)2()2(

1)1(

)2(1)2/(* 22

221

z!z!!!n

n

nnS Q E QM E

QM RS Q E S Q R

S Q R

F GGWW

Assim, sob H0, F * é o quociente entre duas variáveis independentes com distribuição de G2,



99

portanto, a estatística F * é uma variável aleatória com distribuição F(1,n-2) (apêndice-distribuição F).

Quando rejeita-se H 0 , pode-se mostrar que F * segue uma distribuição de F não central.

Regra de decisão do teste de hipóteses:

0

0

H

H reje

ser ejeit a )n,;( F F

seit anão )n,;( F F

*

*

"

e

211

211

E

E

Saída do STATISTICA: dados de porcentagem de acerto na cache.

F(95%;1,10)=4,96, portanto, F *> F e, assim, rejeita-se a hipótese nula.

Conclusão: existe uma associação linear entre porcentagem de acerto e o tamanho da cache.Mesmo resultado do teste t.



100

Saída do STATISTICA: dados de população de S taphilococcus.

F(95%;1,4)=7,71, portanto, F *< F e, assim, não

rejeita-se a hipótese nula.

Conclusão: não existe uma associação linear entre pop. e otempo de armazenamento. Mesmo resultado do teste t.



101

Teste geral para o modelo linear

T rês etapas:

1) Modelo completo

Este modelo é considerado adequado para os dados e chama-se modelo completo ou sem

restrição (superparametrizado). No caso de regressão linear simples temos:

iii X Y I F F ! 10 Modelo completo

A soma de quadrados do erro do modelo completo (SQE(C)), é dada por:

? A S Q E Y Y X bbY C S Q E iiii !!! §§22

10 )Ö()()(

2) Modelo reduzido

Vamos considerar as hipóteses:

0:

0:

1

10

{

!

F

F

a H

H Modelo reduzido:

iiY I F ! 0

Sob H0

A soma de quadrados do erro do modelo reduzido (SQE(R)), é dada por:



102

? A S QT otal Y Y bY RS Q E ii !!! §§22

0 )()(

3) Teste estatísticoDevemos comparar as duas somas de quadrados dos erros.

)()( RS Q E C S Q E e Sempre

Mais parâmetros

C onclusão: se a S Q E ( C ) não é muito menor do que a S Q E ( R ), indica que o modelo reduzido é

adequado, isto é, não rejeita-se H 0.

Exercício: encontre o estimador de F0 pelo método de mínimos quadrados.



103

O teste estatístico é dado por:

),;1(~)()()(*ccr gl

C S Q E gl gl

C S Q E RS Q E gl gl gl F F ccr

z! E

Decisão:

0ccr

0ccr

H serejeita gl gl gl F F

H seaceita gl gl gl F F

"

e

),;1(

),;1(

*

*

E

E

Exercício: para os dados de porcentagem de acertos na cache, verifique a as hipóteses:

0:

0:

1

10

{

!

F

F

a H

H

. , **

,

, , , ,* 10 60 F 5738 5 2 6 8 99154

10 738 5 25

10 11738 5 25 42 8 418 0 !!z!



104

Exercício: para os dados de pop. de staphilococcus,verifique se as hipóteses:

0:

0:

1

10

{

!

F

F

a H

H

. , ,

, , , ,* N S

065977 0 305977 0

426390 8 0

45 26390 8 0 56988 5 0 644F !!z!

i i i i i



105

y

y

Medidas descritivas do grau de associação linear

entre X e Y .

X

Coeficiente de determinação (r2)

10

12

2

ee

!!

r

r S QT S Q E

S QT S Q R

Interpretação: é o quanto da variabilidade total dos dados é explicada pelo modelo de regressão.Quanto maior o r 2 mais a variação total de Y é reduzida pela introdução da v. preditora X no modelo.

y

y

y

y

yyy

X bbY 10Ö !

r 2=1Y

X

Y

y

yy

yy

y

y

y

r 2=0

Y Y |Ö

A variável preditora X é responsável por toda

a variação nas observações Y i.

A v. X não ajuda na redução davariação de Y i com a Reg. Linear

y y y

y

y

yy y

yy

y y

y

yy

yy

y

Coeficiente de correlação (r)



106

Coeficiente de correlação (r)

11

2

ee

s!

r

r r

Exemplo: para os dados de população de S taphilococcus, temos:

Exemplo: para os dados de porcentagem de acertos na cache, temos:



107

Interpretações errôneas dos coeficientes de determinação e

correlação:1) Um alto coeficiente de correlação indica que predições úteis

podem ser feitas. Isto não é necessariamente correto. Observese as amplitudes dos intervalos de confiança são grandes, isto

é, não são muito precisos.2) Um alto coeficiente de correlação indica que a equação deregressão estimada está bem ajustada aos dados. Isto tambémnão é necessariamente correto (veja figura a seguir).

3) Um coeficiente de correlação próximo de zero indica que X

e Y não são correlacionadas. Idem (veja figura a seguir).



yy

yy

y

y

yy

yyy

y

y

y

y

y

yy

y

y

y

yy

Tem um alto valor de r ; o ajuste deuma equação de regressão linear não é adequada

Tem um baixo valor de r;

porém existe uma forte relaçãoentre X e Y .

*** Fazer lista de exercícios número2.

y

yy

y

y

yy

y

y

yyy

y

yy

yy

y

y yy

y

Analise de Regressao Linear Simples

Documents

Transcript of Analise de Regressao Linear Simples