Analise de Regressao Linear Simples

download Analise de Regressao Linear Simples

of 108

Transcript of Analise de Regressao Linear Simples

  • Regresso Linear SimplesIntroduoAnlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser predita a partir da outra ou outras. Exemplos: A populao de bactrias pode ser predita a partir da relao entre populao e o tempo de armazenamento. Concentraes de solues de protena de arroz integral e absorbncias mdias corrigidas. Relao entre textura e aparncia. Temperatura usada num processo de desodorizao de um produto e cor do produto final. A porcentagem de acerto ou, ento, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pr-carregamento.

  • A anlise de regresso, assim como a anova, tambm representa os dados atravs de um modelo linear aditivo, onde o modelo inclui um componente sistemtico e um aleatrio. Nmero de acessos ao disco (disk I/O) e o tempo de processamento para vrios programas. A performance de um procedimento remoto foi comparado em dois sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de dados.f descreve a relao entre X e Y. so os erros aleatrios. Y = varivel resposta ou dependente; X = varivel independente, concomitante, covarivel ou varivel preditora.

  • CenrioEstamos interessados na relao entre duas variveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los para dizer alguma coisa sobre a relao.O caso mais simples de regresso quando temos duas variveis e a relao entre elas pode ser representada por uma linha reta Regresso linear simples.

  • Como sabemos os dados podem ser obtidos a partir de duas situaes:1) dados experimentais: as observaes X e Y so planejadas como o resultado de um experimento, exemplo: X = tamanhos de cache e Y = porcentagem de acerto X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame tipo italiano.Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses e observou o resultado, Y.2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo: populao de coliformes e populao de staphilococus; mdia das alturas de plantas numa rea e produo. O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.

  • Problema prtico: os valores observados de Y (e algumas vezes de X) no so exatos. Devido a variaes biolgicas, de amostragem e de preciso das medidas e outros fatores, s podemos observar valores de Y (e possivelmente de X) com algum erro. Assim, com base numa amostra de valores (X,Y) a exata relao entre X e Y mascarada pelos erros aleatrios.X Fixo vs Aleatrio: Dados experimentais: Geralmente X (doses, tempo, tamanho da cache) determinado pelo pesquisador X fixo. Y est sujeito variaes fsicas, biolgicas, tipos de objetos numa pgina da Web, usurios, de amostragem, de medidas Y uma varivel aleatria. Dados observacionais: geralmente X e Y so variveis aleatrias.

  • A distribuio normal bivariadaCom dados observacionais, geralmente X e Y so v. a. e, de alguma forma, relacionadas.Lembrete: uma distribuio de probabilidades d uma descrio formal (matemtica) dos valores possveis da populao que podem ser observados para a varivel. Quando temos duas variveis a distribuio denominada bivariada. A fXY(x,y) descreve como os valores de X e Y se comportam conjuntamente.A distribuio normal freqentemente uma descrio razovel de uma populao com medidas contnuas. Quando X e Y so v. a. contnuas, uma suposio razovel que ambas sejam normalmente distribudas. Entretanto, espera-se que elas se distribuam conjuntamente.

  • A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade de probabilidade f(x,y) para X e Y, tal que:X e Y apresentam, cada uma, distribuio normal com mdias X e Y, e varincias 2X e 2Y, respectivamente; o relacionamento entre X e Y medido pela quantidade XY tal que -1 XY 1. XY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear entre elas.Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associao. Para isso estimamos XY. Comparao entre os modelos de regresso e correlaoDois modelos: X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta). Estima-se os parmetros do modelo para caracterizar o relacionamento. X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e estima-se o parmetro de correlao.

  • Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de correlao descreve o grau de associao entre X e Y, ele no caracteriza o relacionamento atravs de um modelo de regresso.Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de alturas de plantas da unidade experimental. O coef. de correlao no permite isso. Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.Isso legtimo? Se tomarmos cuidado na interpretao, sim.Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso para caracterizar o relacionamento, tecnicamente, todas as anlises posteriores so consideradas como sendo condicionais aos valores de X presentes no estudo. Isto significa que ns consideramos X fixo, embora ele no seja. Entretanto, vlido fazer-se previses. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produo. O pesquisador no est dizendo que ele pode controlar as alturas e, assim, influenciar as produes.Vale para os dados da amostra.

  • Causalidade versos correlaoPesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma associao significativa entre X e Y em ambas as situaes no necessariamente implica numa relao de causa e efeito.Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas (pssaros) naquele ano (X).Interpretao: existe associao entre X e Y.Freqentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y esto, de fato, associadas com uma terceira varivel, W. No exemplo, X e Y aumentam com W = tempo.Correlao no necessariamente implica em causalidade

  • Construo de Modelos de RegressoSeleo das variveis preditorasEscolha do modelo de regressoAbrangncia do modeloO problema, em estudos observacionais, escolher um conjunto de variveis que podem ou devem ser includas no modelo;Pode-se usar um modelo terico; Usar aproximaes por modelos polinomiais;Geralmente necessrio restringir a abrangncia do modelo para alguns valores ou regio da(s) varivel(is) preditora(s).

  • Modelo de regresso linear simples (Sem especificao da distribuio de probabilidades para o erro)Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo dado por:(2)

  • Onde:Yi o i-simo valor da varivel resposta;0 e 1 so os parmetros (coeficientes de regresso); Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo).i o termo do erro aleatrio com E(i)=0 e 2(i)= 2;i e j no so correlacionados (i, j)=0 para todo i,j; i j; (covarincia nula).i=1,2,...,n.Os dados so usados para estimar 0 e 1, isto , ajustar o modelo aos dados, para: quantificar a relao entre Y e X; usar a relao para predizer uma nova resposta Y0 para um dado valor de X0 (no includo no estudo); calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova amostra e comparando os valores estimados com os observados. - dado um valor de Y0, para o qual o correspondente valor de X0 desconhecido, estimar o valor de X0. Covarincia (o resultado em qualquer experimento no tem efeito no termo do erro de qualquer outro experimento)

  • Caractersticas do modelo: aleatrioO modelo de regresso (2) mostra que as respostas Yi so oriundas de uma distribuio de probabilidades com mdia E(Yi) = 0 +1Xi e cujas varincias so 2, a mesma para todos os valores de X. Alm disso, quaisquer duas respostas Yi e Yj no so correlacionadas. constante

  • A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1. Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de probabilidade apresentam a mesma variabilidade.

  • Resumo da situao: para qualquer valor Xi, a mdia de Yi i = 0 + 1Xi. As mdias esto sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se distribuem ao redor da reta.

  • Outro exemplo.44,4542,1044,6846,9946,2648,8250,6647,6852,4453,2151,8555,38Porcentagem de acerto

  • E(Y)=27,836+0,00006423XMdia:Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do termo do erro i=46,26-47,11=-0,845.

  • Significado dos parmetros do modelo de regresso linear simples0xx+1x=1yyi = 0 + 1xi 0 (intercepto); quando a regio experimental inclui X=0, 0 o valor da mdia da distribuio de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; 1 (inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade de Y por unidade de acrscimo em X.

  • Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o tamanho da cache (X).Equao de regresso:Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?

  • O que significa o coeficiente angular neste caso? E o coeficiente linear?Faa uma predio para o nmero de bytes transferidos para tamanho de cache igual a 270.000 bytes.

  • Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.Equao de regresso:Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?O que significa o coeficiente angular neste caso? E o coeficiente linear?Faa uma previso para o valor do aluguel para idade de 13 anos.

    x

    10

    13

    5

    7

    20

    y

    4

    3

    6

    5

    2

  • Observaes: um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1); o modelo de regresso no precisa ser uma linha reta:Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos parmetros.

  • Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.

  • Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o tempo. necessrio estudar mtodos para modelos no lineares. Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y a taxa I/O.

  • Modelos de regresso alternativosAs vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo de regresso linear (2) de forma diferente, embora equivalentes. Seja X0 uma varivel dummy identicamente igual a 1. Ento, temos o modelo que associa uma varivel X a cada parmetro do modelo:Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs de Xi. Para no modificarmos o modelo (2), escrevemos:

  • Estimao da funo de regressoDenotamos as observaes (Xi,Yi) para a primeira repetio como (X1,Y1), para a segunda como (X2,Y2), e para a i-sima como (Xi,Yi), com i=1,2,..,n.Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em frango, mantido sob condies de congelamento domstico (-18oC) ao longo do tempo (X) (dias).Notao: temos n=6 observaes. O tamanho da populao (ufc/cm2) dado em log10.Mtodo dos mnimos quadradosPara observaes (Xi,Yi) i=1,..,n, temos o modeloDesejamos ajustar o modelo, estimando os parmetros 0 e 1.O mtodo de mnimos quadrados considera os desvios de Yi em relao ao seu valor esperado (E(Yi)):

    Tempo

    0

    7

    14

    21

    28

    35

    Populao

    3,114

    3,568

    2,845

    3,079

    2,699

    2,663

  • Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio QDe acordo com o mtodo de mnimos quadrados, os estimadores de 0 e 1 so os valores b0 e b1, respectivamente, que minimizam o critrio Q para a amostra (X1,Y1),..,(Xn,Yn).e5e2e1e3

  • Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de 0 e 1que minimizam Q. Estimadores de mnimos quadradosOs valores de 0 e 1 que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em relao a 0 e 1 , portanto, obtemos:

  • Da, obtemos o sistema de equaes normais, dado por:Fazendo-se as derivadas parciais de segunda ordem, indicar que um mnimo foi encontrado com os estimadores b0 e b1.

  • As equaes normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):Outra forma de escrevermos:

  • Exemplo: a pesquisadora deseja encontrar o modelo de regresso da porcentagem de acertos sobre o tamanho da cache.

    Tamanho da cache (X)

    Porcentagem de acertos (Y)

    Total = 3900000

    584,52

    0

    0

    2408500

    37500000000

    181,438

    Mdia = 325000

    48,71

    _923932388.unknown

    _923932796.unknown

    _923933350.unknown

    _923933375.unknown

    _923932410.unknown

    _923932246.unknown

  • Assim, estimamos que a porcentagem de acerto da cache aumenta cerca de 0,00006 % para cada byte do tamanho da cache.

  • Sada do Statistica:

  • Assim, estimamos que o tamanho da populao de bactrias diminui cerca de 0,0189 ufc/cm2 para cada dia.Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo sobre a populao de bactrias.

    Tempo (X)

    Populao (Y)

    0

    3,114

    -17,5

    0,119

    -2,088

    306,250

    ,014

    7

    3,568

    -10,5

    0,573

    -6,020

    110,250

    ,329

    14

    2,845

    -3,5

    -0,150

    0,524

    12,250

    ,022

    21

    3,079

    3,5

    0,084

    0,295

    12,250

    ,007

    28

    2,699

    10,5

    -0,296

    -3,105

    110,250

    ,087

    35

    2,663

    17,5

    -0,332

    -5,805

    306,250

    ,110

    Total = 105

    17,968

    0

    0

    -16,199

    857,5

    0,569

    Mdia = 17,5

    2,9947

    _923932388.unknown

    _923932796.unknown

    _923933350.unknown

    _923933375.unknown

    _923932410.unknown

    _923932246.unknown

  • Regression Summary for Dependent Variable: POPR= ,73274116 R= ,53690961 Adjusted R= ,42113702F(1,4)=4,6376 p
  • Propriedades dos estimadores de mnimos quadrados Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem atendidas, os estimadores de mnimos quadrados b0 e b1 so no tendenciosos (unbised) e com varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema diz que:E(b0)=0 e E(b1)=1.Segundo, o teorema diz que os estimadores b0 e b1 so mais precisos (isto , as suas distribuies amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe dos estimadores no tendenciosos que so funes lineares das observaes Y1, Y2,...,Yn. Os estimadores b0 e b1 so tais funes lineares das observaes. Considere, por exemplo, b1,Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de Yi e, assim, um estimador linear. Da mesma forma, b0 tambm um estimador linear. Entre todos os estimadores lineares no tendenciosos, b0 e b1 tem menor variabilidade (demonstrao adiante) em repetidas amostras nas quais os nveis de X so constante.(Demonstrao adiante)

  • Estimao pontual da resposta mdiaEstimao da funo de regressoA mdia do modelo de regresso linear dada por:Estima-se a funo de regresso por:Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe dos estimadores lineares no tendenciosos. Temos:como sendo o valor ajustado para o i-simo caso.

  • Exemplo: para os dados de porcentagem de acerto na cache, os valores estimados da funo de regresso so dados por:Suponha que estejamos interessados na porcentagem mdia de acerto na cache para X=300.000 bytes (muitas amostras com 300.000 bytes sob as mesmas condies que a equao foi estimada); a estimativa pontual vale:Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores da varivel preditora X na funo de regresso.

  • Sada do Statistica:

  • Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para X=21 dias de armazenamento; a estimativa pontual vale:cValores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores da varivel preditora X na funo de regresso.Sada do STATISTICA:Predicted & Residual Values (staphilo.sta)Dependent variable: POPObservedPredictd StandardStandardStd.Err.Mahalns. Cook's Value Value ResidualPred. v.ResidualPred.ValDistanceDistance13,1140003,325238-,2112381,33631-,822385,1859021,785714,78114623,5680003,193010,374990,801781,459902,139567,642857,63343932,8450003,060781-,215781,26726-,840072,109264,071429,09518143,0790002,928552,150448-,26726,585718,109264,071429,04626952,6990002,796324-,097324-,80178-,378898,139567,642857,04266862,6630002,664095-,001095-1,33631-,004263,1859021,785714,000021Minimum2,6630002,664095-,215781-1,33631-,840072,109264,071429,000021Maximum3,5680003,325238,3749901,336311,459902,1859021,785714,781146Mean2,9946672,994667,000000-,00000,000000,144911,833333,266454Median2,9620002,994667-,0492090,00000-,191581,139567,642857,070725Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de regresso so dados por:

  • Modelo alternativoQuando o modelo utilizado :O estimador b1 de 1 permanece o mesmo. O estimador deTemos:Exemplo: para os dados de staphilococcus aureus em frango obter o valor ajustado para X1=0 dia de armazenamento..Exemplo: obter o valor ajustado para X=300.000 bytes de cache..

  • ResduosO i-simo resduo a diferena entre o valor Yi e o correspondente valor ajustado Y (chapu)i.Vemos que o resduo para o primeiro caso, exemplo de pop. de Staphilococcus, sada do statistica, dado por:Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o primeiro caso vale:

  • Os resduos so extremamente teis para verificar se um determinado modelo de regresso apropriado para os dados. Este assunto ser tratado mais adiante neste curso.Distino: o desvio de Yi da verdadeira equao de regresso (desconhecida) e assim desconhecido. o desvio de Yi do valor ajustado Yi (chapu) na equao de regresso estimada, portanto, conhecido.para os dados de staphilococcus aureus em frango

  • Propriedades do modelo ajustado:

  • Estimao da varincia (2)A varincia, 2, dos erros, i, no modelo de regresso (2) precisa ser estimado para obter uma indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.Lembrete: a varincia de cada observao Yi para o nosso modelo de regresso 2, a mesma de cada i. Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes distribuies de probabilidade com diferentes mdias que dependem do nvel de Xi; as mdias so estimadas por Yi(chapu). Assim os desvios so os resduos: A soma de quadrados do erro (resduo), SQE, dada por:Dois graus de liberdade so perdidos para estimar os parmetros 0 e 1. O quadrado mdio do erro dado por (QME):Temos que o QME um estimador no tendencioso de 2 (prova adiante) pois

  • Exemplo: para os dados de Staphilococcus aureus em frango, temos:Exemplo: para os dados de tamanho de cache, temos:

  • Modelo de regresso com erros normaisPara construir intervalos de confiana e fazer testes de hipteses ns devemos considerar alguma distribuio de probabilidade para os i. Uma distribuio que tem um apelo prtico e terico bastante grande a distribuio normal e que ser utilizada neste curso. O modelo de regresso dado por:Yi o i-simo valor observado da varivel resposta;0 e 1 so os parmetros; Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo).i o termo do erro aleatrio, independentes com distribuio N(0, 2).

  • Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a suposio que os erros i no so correlacionados, feita no modelo inicial, transforma-se na suposio de independncia no modelo com distribuio normal.

    O modelo implica que Yi so variveis aleatrias independentemente distribudas segundo uma normal com mdia E(Yi)=0+ 1Xi e varincia 2. Para cada valor Xi, podemos pensar em todos os valores possveis de Yi e sobre a sua variabilidade. Esta suposio diz que, seja qual for o valor de Xi, a variabilidade nos possveis valores de Y a mesma.

    Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem representados por uma distribuio normal.

    Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros num banco de dados so independentes.

  • Estimao dos parmetros pelo mtodo da mxima verossimilhanaComo foi especificado uma distribuio de probabilidades para os erros podemos obter estimadores para 0, 1 e 2 pelo MMV. O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana, os valores de 0, 1 e 2 os quais produzem o maior valor para a verossimilhana.Em geral, a densidade de uma observao Yi para o modelo de regresso com erros normais, utilizando o fato de que E(Yi)=0+ 1Xi e varincia 2 dada por :A funo de verossimilhana para n observaes Y1, Y2,...,Yn, o produto das densidades individuais ( a conjunta). Como a varincia 2 dos erros desconhecida, a conjunta uma funo de trs parmetros, 0, 1 e 2 :

  • Devemos encontrar valores de 0, 1 e 2 que maximizam a funo de verossimilhana L, calculando-se as derivadas parciais de L com respeito a 0, 1 e 2 e igualando cada derivada parcial a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com logeL ao invs de L, pois ambos so maximizadas para os mesmos valores de 0, 1 e 2 :As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:

  • Agora, fazemos as derivadas parciais iguais a zero, substituindo 0, 1 e 2 pelos estimadores Obtemos:As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de mnimos quadrados. O MMV produz um estimador viesado para 2. Os estimadores de 0, e 1 so os mesmos do mtodo de mnimos quadrados. O estimador de mxima verossimilhana de 2 viesado,ou seja,.

    Parmetro

    Estimador de mxima verossimilhana

    _924024619.unknown

    _924024648.unknown

    _924024673.unknown

    _924024781.unknown

    _924024632.unknown

    _924024601.unknown

  • Comentrios:1) como os estimadores de mxima verossimilhana de 0,e 1 so os mesmos do mtodo de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de mnimos quadrados:a) so no viesados;b) tem varincia mnima entre todos os estimadores lineares no tendenciosos; alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso com erros normais tem outras propriedades desejveis:c) so consistentes;

    d) so suficientes;*** Fazer lista de exerccios nmero 1.

  • Inferncia na anlise de regressoAssumimos o modelo:0 e 1 so os parmetros; Xi so constantes conhecidas, fixas.i so independentes com distribuio N(0, 2).(3)Intervalos de confianaTestes de hipteses:

  • Inferncias para 1 encontrar intervalos de confiana para 1fazer testes de hipteses com relao a 1, por exemplo:No h associao entre X e Y.Para realizar inferncias sobre 1, precisamos conhecer a distribuio amostral de b1, o estimador pontual de 1.Distribuio amostral de b1 O estimador pontual dado por:A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nvel da varivel preditora X (constante).

  • Normalidade: a normalidade da distribuio amostral de b1 segue do fato de que b1 uma combinao linear dos Yi.Os Yi so independentes, com distribuio normal. Uma combinao linear de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal. b1 como combinao linear de Yi.Portanto, ki so funes de Xi que so valores fixos. Mdia: Pois,

  • Varincia:Podemos estimar a varincia da distribuio amostral de b1 substituindo 2 pelo quadrado mdio residual (QME). O estimador s2(b1) um estimador no tendencioso de 2 (b1).

  • Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a menor varincia entre todos os estimadores lineares no tendenciosos da forma Restries:Seja ci=ki + di, onde ki so como anteriormente e os di so constantes arbitrrias. Ento:Zero (Verifique)Nota:ci so constantes arbitrrias

  • Finalmente, temos:Observamos que a menor varincia do estimador ( ) obtida quando .Isto ocorre quando todos os di=0, isto implica que ci ki. Assim, o estimador de mnimos quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.Distribuio amostral de (b1-1)/s(b1)Como b1 tem distribuio normal, sabemos que a estatstica padronizada (b1-1)/(b1) uma varivel aleatria com distribuio normal padro. Para estimar (b1) usamos s(b1) e, assim precisamos conhecer a distribuio da estatstica (b1-1)/s(b1) [estatstica studentizada].Teorema:Demonstrao:Podemos escrever a estatstica como:O numerador uma varivel normal padro z. Para o denominador, temos:para o modelo (3)

  • Portanto,Como z e 2 so independentes pois z uma funo de b1 e b1 independente de SQE/2 ~ 2. Assim (A definio est no apndice):Teorema: para o modelo (3), SQE/2 distribudo como 2 com n-2 gl e independente de b0 e b1.Agora podemos fazer inferncias sobre 1.

  • /2=0,25/2=0,251-=0,50t=1t=-1

  • t(/2;n-2) representa o (/2)100 percentil da distribuio t com n-2 g.l. t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuio t)Rearranjando as desigualdades obtemos:O intervalo de confiana dado por:Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja encontrar o intervalo para 1 com confiana de 95%.Muito importanteUsar softwareInterpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e 0,0623 unidade/dia.

  • Exemplo: considere os dados de porcentagem de acerto na cache, a pesquisadora deseja encontrar o intervalo para 1 com confiana de 95%.Muito importanteUsar softwareInterpretao: estimamos que a porcentagem de acertos aumenta entre 0,0000457 e 0,0000827 % por byte do tamanho da cache.

  • Teste de hipteses para 1Teste bilateralHipteses:Vimos que (b1-1)/s(b1) tem distribuio t(n-2).O teste de hiptese sobre 1 pode ser feito de maneira padro usando a distribuio de Student.

  • Exemplo: a pesquisadora deseja saber se existe regresso linear entre a porcentagem de acertos na cache e o tamanho da cache, ou seja, se 10 ou no. [Como o intervalo de confiana construdo anteriormente no inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a hiptese nula (H0). Isto vlido quando o teste bilateral].

  • Critrio do teste: estamos controlando a probabilidade de erro tipo I ().Teste estatstico formal:[Como o intervalo de confiana construdo anteriormente inclui o valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula (H0)]. Exemplo: a pesquisadora deseja saber se existe regresso linear entre populao de bactrias e o tempo de armazenamento, ou seja, se 10 ou no.

  • Exemplo: para os dados de porcentagem de acerto na cache, com =0,05, b1=0,0000642 e s(b1)=0,0000083, temos:O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma associao linear entre a porcentagem de acertos na cache e o tamanho da cache.

  • Valor p: o menor valor de para o qual rejeitamos a hiptese nula. Se o pesquisador fixar =0,05, ento, para um valor p 0,05 no rejeita-se H0, caso contrrio, rejeita-se H0. Formalmente fica:Valor p tambm denominado de nvel descritivo ou nvel de significncia observado.

  • Sada do Statistica: dados de porcentagem de acertos na cache. As diferenas verificadas so devidas s aproximaes nos clculos.

  • * * Com o uso do Statistica, para os dados de porcentagem de acerto na cache, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira.Ateno: verificar se o software d o valor p para o teste uni ou bilateral

  • Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e -2,15351 devido aproximaes nos clculos.* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira.Ateno: verificar se o software d o valor p para o teste uni ou bilateral

  • Teste unilateral:O pesquisador deseja, por exemplo, testar se 1 negativo, controlando o nvel de significncia =0,05.Regra de deciso:Exemplo: para os dados de Staphilococcus temos, para =0,05, t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de nulidade, portanto 1 negativo.

  • Nas publicaes, indicar o nvel descritivo juntamente com o valor da estatstica teste. Podemos realizar o teste estatstico para qualquer nvel de significncia , comparando o nvel descritivo com o valor desejado de .Comentrio: pode-se testar as seguintes hipteses:Onde 10 um valor diferente de zero.

  • A estatstica teste dada por:Critrio do teste:Se |t*| t(1- /2;n-2) no se rejeita H0Se |t*| > t(1- /2;n-2) rejeita-se H0

  • Inferncias para 0S tem interesse quando os nveis de X incluem X=0 (o que raro).Distribuio amostral de b0 O estimador pontual b0 dado por:A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com diferentes amostras para o mesmo valor de X (constante).A distribuio amostral de b0 normalMdia: Varincia:A normalidade verificada pois b0 uma combinao linear das observaes Yi. Um estimador para 2(b0) obtido substituindo-se 2 pelo seu estimador pontual, QME.Distribuio amostral de (b0-0)/s(b0)Teorema: podemos usar a distribuio t para construir os IC e fazer os testes de hipteses.(Demonstrao prxima pgina)

  • Demonstrao:

  • Intervalo de confiana para 0Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar interessados em encontrar o IC para 0.Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:

  • Estimao intervalar para E(Yh)Freqentemente, numa anlise de regresso, deseja-se estimar a mdia de uma ou mais distribuies de probabilidade de Y. Exemplo: No estudo da relao entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem mdia de acerto para tamanhos maiores de cache pode ser de interesse. Outro exemplo, um agrnomo pode estar interessado na produo mdia para diversas doses de um nutriente, com o objetivo de encontrar a dose tima. Xh representa o nvel da varivel preditora para a qual se deseja estimar a resposta mdia.A resposta mdia para X=Xh representada por: E(Yh)

  • Distribuio normal: para o modelo de regresso com erros normais, a distribuio amostral de Y(chapu)h normal. A normalidade segue diretamente do fato que Y(chapu)h , assim como b0 e b1, uma combinao linear das observaes Yi. MdiaDistribuio amostral de Y(chapu)hDiferentes valores de Y(chapu)h que seriam obtidos se repetidas amostras fossem selecionadas, para X constante, e calculando Y(chapu)h para cada amostra.

  • VarinciaPara obter 2(Y(chapu)h), primeiro mostraremos que b1 e no so correlacionados e sob o modelo de regresso com erros normais, independentes:Definimos:Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que Yi so variveis aleatrias independentes:Para a demonstrao da varincia de Y(chapu)h vamos utilizar o modelo:

  • Distribuio amostral de Intervalo de confiana para E(Yh)

  • Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de cache X=300.000 bytes. Temos:Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.

  • Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana de 95% para E(Yh) para tempo X=14 dias. Temos:Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e). Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare as amplitudes dos intervalos.

  • Predio de uma nova observaoExemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos na cache para um tamanho de cache igual a 375.000 bytes; 2) a pesquisadora deseja predizer a populao de bactrias para um tempo especfico igual a 15 dias.Portanto, desejamos predizer uma nova observao, Y, vista como resultado de um novo ensaio, independente dos ensaios nos quais anlise de regresso foi feita.Notao: denotamos o nvel de X para o novo ensaio como Xh e a nova observao em Y como Yh(novo). Assumimos que o modelo de regresso continua vlido para a nova observao.A diferena entre estimar uma resposta mdia, E(Yh) e fazer a predio de uma nova observao, Yh(novo), que no primeiro caso estimamos a mdia da distribuio de Y. Agora, vamos predizer uma resposta individual da distribuio de Y.

  • Intervalo de predio para Yh(novo)Os limites de predio para uma nova observao Yh(nova) para um dado Xh so obtidos atravs do do seguinte teorema :Isto para o modelo de regresso com erros normais. Note que a estatstica usa Y(chapu)h no numerador ao invs de E(Yh). O desvio padro estimado, s(pred), obtido como segue:A diferena no numerador, Yh(novo) - Y(chapu)h, pode ser visto como um erro de predio, com Y(chapu)h sendo a melhor estimativa pontual do valor da nova observao, Yh(novo) . A varincia desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais Y(chapu)h est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina 668, 1996), temos:O intervalo fica:

  • Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%.O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de uma varivel aleatria, a nova observao Yh(novo).

  • Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y15(novo).Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.

  • Faixa de confiana para a equao de regressotil para verificar o ajuste da equao de regresso.A faixa de confiana (1-) para a equao da reta correspondente ao modelo de regresso com erros normais tem dois limites para qualquer nvel de Xh, cujos valores so dados por:Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico. Distribuio de F, com 2 gl no numerador e n-2 no denominador, com grau de confiana 1-

  • Percebe-se que os valores da linha de regresso so estimados com boa preciso.

  • Anlise de varincia da regresso importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de regresso linear simples no traz nenhuma novidade.

  • Partio da soma de quadrados totalDesvio totalDesvio da equao ajustada em torno da mdiaDesvio em torno da equao ajustadaXiYiTRE

  • (Parte da variabilidade de Yi que est associada com a regresso)

  • Graus de liberdadeA SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a mdia da amostra usada para estimar a mdia populacional.A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so estimados para obter Y(chapu)i.A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles perdido devido a restrio:Os graus de liberdade so aditivos: (n-1)=1+(n-2)Quadrados mdiosA soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.

  • Tabela da anlise de varinciaTabela modificada (soma de quadrados total no corrigida)Baseado no fato de que:

    Tabela da anlise de varincia para regresso linear simples

    Causas de variao

    Soma de quadrados

    Graus de liberdade

    Quadrado mdio

    Regresso

    SQR

    1

    SQR/1

    Erro

    SQE

    n-2

    SQE/(n-2)

    Total

    SQT

    n-1

    Tabela da anlise de varincia para regresso linear simples

    Causas de variao

    Soma de quadrados

    Graus de liberdade

    Quadrado mdio

    Regresso

    SQR

    1

    SQR/1

    Erro

    SQE

    n-2

    SQE/(n-2)

    Total

    SQT

    n-1

    Correo para a mdia

    SQ(devido a mdia)=

    1

    Total no corrigido

    SQTNC=

    n

    _1016399169.unknown

    _1016399230.unknown

  • Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.Esperanas dos quadrados mdiosPara realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies amostrais e nos mostram o que est sendo estimado pelo quadrado mdio.Teorema 2.11 (pgina 49, Neter et al., 1996) diz que:Das propriedades da distribuio de 2 (apndice) temos:Para encontrar a E(QMR), partimos de:Sabemos que a varincia de uma varivel aleatria dada por:(para o modelo com erros com distribuio normal).Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.

  • Teste F para 1Na anlise de varincia testa-se as seguintes hipteses:A estatstica utilizada para testar essas hipteses dada por:Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a distribuio amostral de F*.Valores altos de F* favorecem Ha; F*=1 favorece H0; um teste unilateral.

  • Distribuio amostral de F*Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob H0.Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com uma distribuio normal com mdia e varincia 2 e a soma de quadrados total decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os termos SQr/ 2 , so variveis independentemente distribudas como 2 com glr graus de liberdade se:Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os seus graus de liberdade so aditivos.Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia =0 e mesma varincia 2 , SQE/2 e SQR/2 so variveis independentemente distribudas como 2. Podemos escrever F* como:

  • Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de 2, portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndice-distribuio F).Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.Regra de deciso do teste de hipteses:Sada do STATISTICA: dados de porcentagem de acerto na cache.F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hiptese nula.Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache. Mesmo resultado do teste t.

  • Sada do STATISTICA: dados de populao de Staphilococcus.F(95%;1,4)=7,71, portanto, F*< F e, assim, no rejeita-se a hiptese nula.Concluso: no existe uma associao linear entre pop. e o tempo de armazenamento. Mesmo resultado do teste t.

  • Teste geral para o modelo linearTrs etapas:1) Modelo completoEste modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio (superparametrizado). No caso de regresso linear simples temos:Modelo completoA soma de quadrados do erro do modelo completo (SQE(C)), dada por:2) Modelo reduzidoVamos considerar as hipteses:Modelo reduzido:Sob H0

  • A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:3) Teste estatsticoDevemos comparar as duas somas de quadrados dos erros.SempreMais parmetrosConcluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido adequado, isto , no rejeita-se H0. Exerccio: encontre o estimador de 0 pelo mtodo de mnimos quadrados.

  • O teste estatstico dado por:Deciso:Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:

  • Exerccio: para os dados de pop. de staphilococcus, verifique se as hipteses:

  • Medidas descritivas do grau de associao linear entre X e Y.XCoeficiente de determinao (r2)Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso. Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.r2=1YXYr2=0A varivel preditora X responsvel por toda a variao nas observaes Yi.A v. X no ajuda na reduo da variao de Yi com a Reg. Linear

  • Coeficiente de correlao (r)Exemplo: para os dados de populao de Staphilococcus, temos:Exemplo: para os dados de porcentagem de acertos na cache, temos:

  • Interpretaes errneas dos coeficientes de determinao e correlao:1) Um alto coeficiente de correlao indica que predies teis podem ser feitas. Isto no necessariamente correto. Observe se as amplitudes dos intervalos de confiana so grandes, isto , no so muito precisos.2) Um alto coeficiente de correlao indica que a equao de regresso estimada est bem ajustada aos dados. Isto tambm no necessariamente correto (veja figura a seguir).3) Um coeficiente de correlao prximo de zero indica que X e Y no so correlacionadas. Idem (veja figura a seguir).

  • Tem um alto valor de r; o ajuste de uma equao de regresso linear no adequadaTem um baixo valor de r; porm existe uma forte relao entre X e Y. *** Fazer lista de exerccios nmero 2.