Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de...
Transcript of Estatística Regressão 1 -objectivo -regressão linear -distribuição dos estimadores, limites de...
EstatísticaRegressão
Regressão
1
-objectivo
-regressão linear
-distribuição dos estimadores, limites de confiança para os coeficientes
-limite de confiança para o valor previsto
-coeficiente de correlação amostral
-analise dos erros
-transformação para um modelo linear
-regressão polinomial
-regressão linear múltipla
Pontos mais importantes:
EstatísticaRegressão
2
Uma tarefa frequente é determinar a relação matemática entre as variáveis de interesse:
Objectivo da regressão
{x} {y}{y}=f{x}
f{x}=?
sistema
e.g.
2
v
D
Lfp
2
-escoamento horizontal numa conduta:
-desactivação dos microorganismos: N t N e kt( ) 0
-temperatura num cilindro (condução): -log(TR-T(t))= -(1/fh)t-log(jh(TR-T0))
EstatísticaRegressão
3
Modelos matemáticos
Determinação dos parâmetros (e.g. propriedades físicas)
previsão
experiência
Objectivo da regressão: 1) estimação dos parâmetros dos modelos matemáticos
2) verificar se o modelo é adequado
Condição: os dados são sujeitos a erros (aleatórios).
EstatísticaRegressão
4
regressão
f(x)
x
f(x)=ax+b a=?
b=?
EstatísticaRegressão
5
Regressão linear
Seja Y uma função de x1, x2,..., xr variáveis independentes. A relação entre eles segue um modelo linear (múltiplo) quando a variável dependente (Y) pode ser escrita:
ex...xxY rr22110
Onde: -i (i=0, 1,..., r) são os coeficientes de regressão
-”e” representa o erro aleatório com N(0,2)
O caso mais simples é quando temos só uma variável independente:
exY
EstatísticaRegressão
6
Suponha, que temos n conjuntos de pontos (xi,yi), i=1,2,...,n.
X
20018016014012010080
Y 160
140
120
100
80
60
Agora sejam: -A estimador de
-B estimador de
Assim:
BxAY estimador de Y
Escolhemos A e B tal que a soma dos quadrados dos resíduos,
n
iii
n
iiiR BxAYYYSS
1
2
1
2ˆ
seja mínimo.
EstatísticaRegressão
7
Para encontrar o mínimo da SSR, temos,
0BxAY2A
SS n
1iii
R
0BxAYx2B
SS n
1iiii
R
ou
n
1ii
n
1ii xBnAY
n
1i
2i
n
1ii
n
1iii xBxAYx
Aplicando,
n
YY
n
1ii
n
xx
n
1ii
temos da primeira equação, xBYA
1)
2)
EstatísticaRegressão
y = 0.8893x - 26.65
.00
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
90 110 130 150 170 190 210
x
y
8
Substituindo o resultado na segunda equação:
2
n
1i
2i
n
1iiin
1i
2i
n
1iii
xnx
YxnYxBxBxnxBYYx
X Y
1 0 0 6 3 . 6 4
1 1 0 6 8 . 8 6
1 2 0 8 7 . 7 1
1 3 0 8 7 . 0 1
1 4 0 9 7 . 2 1
1 5 0 1 0 0 . 3 6
1 6 0 1 0 9 . 9 0
1 7 0 1 2 8 . 5 5
1 8 0 1 3 5 . 9 4
1 9 0 1 4 3 . 8 4
EstatísticaRegressão
9
Distribuição dos estimadores, limites de confiança para os coeficientes de regressão
Para determinar a distribuição A e B, vamos supor que,
),x(N~Y 2ii
B pode ser escrito,
n
1iii
2n
1i
2i
n
1iii
2n
1i
2i
n
1ii
n
1iii
nYY
2n
1i
2i
n
1iii Y
xnx
Yxx
xnx
YxYx
xnx
YxnYxB i
onde e são constantes.
EstatísticaRegressão
10
Porque Y tem uma distribuição normal, B também tem com N(B2B
2n
1i
2i
2n
1i
2i
2n
1i
2i
n
1iii
2n
1i
2i
n
1ii
2n
1i
2i
n
1iii
2n
1i
2i
n
1iii
B
xnx
xnx
0xnx
xxx
xnx
xx
xnx
xxx
xnx
YExxBE
A variância de B sem prova,
2n
1i
2i
22B
xnx
n
1ii xnx
EstatísticaRegressão
11
Da mesma forma podemos ver que A também segue uma distribuição normal com os seguintes parâmetros:
xn
xx
n
YExBEYEAE
n
1i
in
1i
i
A variância de A sem prova,
2n
1i
2i
n
1i
2i
2
2A
xnxn
x
EstatísticaRegressão
12
Assim, A e B são v.a. normais:
2n
1i
2i
2
xnx,N~B
2n
1i
2i
n
1i
2i
2
xnxn
x,N~A ,
Antes de determinar os intervalos de confiança para os parâmetros de regressão, vamos definir:
YxnYxSn
1iiixY
2n
1i
2ixx xnxS
2n
1i
i2
YY YnYS
xx
xY
2n
1i
2i
n
1iii
S
S
xnx
YxnYxB
xBYA
xx
2xYYYxx
R S
SSSSS
EstatísticaRegressão
13
Para determinar os intervalos de confiança para , temos que ter uma estimativa da 2 (desconhecida). Mas como,
2RE22n2
R
2n
SSE~
SS 2
assim a distribuição
2n
xx
R
t~
)2n(SSS
B
xx
2
S,N~B
O intervalo de confiança (com nível de conf. 1-) é dada pela:
2n,2xx
R2n,2
xx
R tS)2n(
SSBt
S)2n(
SSB
EstatísticaRegressão
14
Pela a mesma razão, a distribuição,
2n
xx
R
n
1i
2i
t~
)2n(nS
SSx
A
xx
n
1i
2i
2
nS
x,N~A
Assim o intervalo de confiança (com nível de conf. 1-) é dada pela:
2n,2xx
R
n
1i
2i
2n,2xx
R
n
1i
2i
tS)2n(n
SSxAt
S)2n(n
SSxA
EstatísticaRegressão
15
y = 0.8893x - 26.65
.00
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
90 110 130 150 170 190 210
x
y
Coefficientsa
-26.650 7.464 -3.570 .007 -43.863 -9.438
.889 .050 .987 17.612 .000 .773 1.006
A
B
Model1
B Std. Error
UnstandardizedCoefficients
Beta
Standardized
Coefficients
t Sig. Lower Bound Upper Bound
95% Confidence Interval for
Dependent Variable: Ya.
EstatísticaRegressão
16
Limites de confiança para o valor previsto
Para fazer uma previsão de Y para um dado valor de x0, talvez a melhor opção seja:
0BxAY
Geralmente, temos mais interesse em definir um intervalo onde Y ocorre com um dado grau de confiança. Sem prova,
2n
R
xx
20
0 t~
)2n(SS
Sxx
n1n
BxAY
EstatísticaRegressão
17
O intervalo de confiança para Y é dado por,
2n,2
R
xx
20
02n,2R
xx
20
0 t )2n(
SS
S
xx
n
1nBxAYt
)2n(
SS
S
xx
n
1nBxA
20018016014012010080
160
140
120
100
80
60
Observed
Linear
95% intervalode confiança
Y
x
EstatísticaRegressão
18
Coeficiente de correlação amostral, R
No caso de duas v.a.s X e Y, a dependência linear entre eles é dada pela:
1)Y,X(Corr1Y
2X
2
XYy,x
A estimativa de
2n
1i
i2
n
1i
2
iYYY2
2n
1i
2i
n
1i
2ixxX
2
n
1i
n
1iiiiixYXY
YnYYYS
xnxxxS
YxnYxxxYYS
Assim 1SS
SR1
YYxx
xY
EstatísticaRegressão
19
|R| alto (1) significa uma forte dependência linear entre Y e x
y = 0.8893x - 26.65
R2 = 0.9749
.00
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
90 110 130 150 170 190 210
x
y
EstatísticaRegressão
20
Analise dos erros
O modelo linear de forma, exY
é um modelo adequado para descrever a relação entre Y~x se,
1) 0 (R é alto)
2) e tem IIDN(0,2)
A avaliação do segundo termo é através de visualização dos resíduos com alguns gráficos diagnósticos e o cálculo de coeficientes de auto-correlação
EstatísticaRegressão
Scatterplot
Dependent Variable: Y
Y
1601401201008060
Re
gre
ssio
n S
tan
da
rdiz
ed
Re
sid
ua
l2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
- resíduos vs. Y:
21
EstatísticaRegressão
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: Y
Observed Cum Prob
1.00.75.50.250.00
Exp
ect
ed
Cu
m P
rob
1.00
.75
.50
.25
0.00
-resíduos sobre uma curva de distribuição normal:
22
EstatísticaRegressão
-resíduos vs. x
X
20018016014012010080
Sta
nd
ard
ize
d R
esi
du
al
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
23
EstatísticaRegressão
2
12n
kt
ktkt
2
12n
1t
tt
n
kt
ktkttt
k
)ee()ee(
)ee)(ee(r
Coeficiente de auto-correlação de “lag” k.
Unstandardized Residual
Lag Number
87654321
AC
F
1.0
.5
0.0
-.5
-1.0
Confidence Limits
Coefficient
24
EstatísticaRegressão
Transformação para um modelo linear
Muitas as vezes a relação entre duas variáveis, não pode ser escrita com uma função linear. E.g. cinética de degradação:
kte)t(
Tirando o logaritmo ktln)t(ln
Assim escolhendo:
k
ln
)t(lnY
temos um problema de regressão linear exY 25
EstatísticaRegressão
-exemplo
X
1000080006000400020000-2000
Y
6
5
4
3
2
1
0
X
1000080006000400020000-2000L
NY
2
1
0
-1
-2
-3
26
EstatísticaRegressão
y = -0.0005x + 1.6323
R2 = 0.9967
-4.00
-3.00
-2.00
-1.00
.00
1.00
2.00
3.00
0 2000 4000 6000 8000
LNY
"-95% conf int"
"95% conf int"
Linear (LNY)
ln Y x
Observed Cum Prob
1.00.75.50.250.00
Exp
ect
ed
Cu
m P
rob
1.00
.75
.50
.25
0.00
ln
X
1000080006000400020000-2000
Un
sta
nd
ard
ize
d R
esi
du
al
.4
.3
.2
.1
-.0
-.1
-.2
-.3
27
EstatísticaRegressão
Regressão polinomial
ex...xxY nn
2210 Modelo
Para estimar os coeficientes desta equação, temos que minimizar,
2nin
2i2i10i xB...xBxBBY
igualando as respectivas derivadas de esta função a zero. O resultado é um sistema de equações lineares. A maior parte dos softwares oferecem a opção regressão polinomial.
[A]{B}={f}- [A] é uma função de xi
- {f} é uma função de xi e Yi. 28
EstatísticaRegressão
-exemplo
y = 1E-07x2 - 0.0014x + 4.6125
R2 = 0.9756
.00
1.00
2.00
3.00
4.00
5.00
6.00
0 2000 4000 6000 8000 10000
Y
Poly. (Y)
X
1000080006000400020000-2000
Y
6
5
4
3
2
1
0
Observed Cum Prob
1.00.75.50.250.00
Exp
ect
ed
Cu
m P
rob
1.00
.75
.50
.25
0.00
X
1000080006000400020000-2000
resí
du
o
.6
.4
.2
-.0
-.2
-.4
-.6 29
EstatísticaRegressão
30
Regressão linear múltipla
ex...xxY rr22110 Modelo:
Para estimar os coeficientes da equação, temos que minimizar,
2irr2i21i10i xB...xBxBBY
O resultado é um sistema de equações com r+1 incógnitas de forma:
YXBXX TT
nr
r2
r1
2n1n
2221
1211
x
x
x
xx1
xx1
xx1
x
r
1
0
B
B
B
B
n
2
1
Y
Y
Y
Y
EstatísticaRegressão
31
10000
8000
6000
V4
4000
2000
200180
X
160
-30
0140
120
-20
100
Y
-10
0
10
20
30
21 x00902.0x202.0168.0Y
R=1
Observed Cum Prob
1.00.75.50.250.00
Exp
ect
ed
Cu
m P
rob
1.00
.75
.50
.25
0.00
X
20018016014012010080
Un
sta
nd
ard
ize
d R
esi
du
al
.2
.1
0.0
-.1
-.2