Marco Reis:2014 ©
Modelação matemática de base estatística/empírica:
Construção de modelos empíricos usandometodologias de regressão linear
I
Engenharia de Processos e Sistemas
Marco S. [email protected]
Construção de modelos empíricos
usando metodologias de regressão
linear
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 3
Objectivos:
• Identificar a componente estrutural/determinística e aleatória/estocástica do
modelo de RL;
• Compreender o que é um modelo de RL e o seu âmbito de aplicação;
• Perceber como se estimam os parâmetros de um modelo de RL e saber quais os
pressupostos subjacentes ao modelo estimado;
• Interpretar os IC para os coeficientes do modelo (parte estrutural);
• Interpretar os IC para a resposta média e de previsão;
• Saber como validar um modelo de RL;
• Compreender a origem do problema da colinearidade e como o diagnosticar;
• Saber os passos a seguir na construção de uma modelo de RL
• Distinguir os vários métodos de selecção de variáveis
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 4
Metodologias de Modelação
Processo Genérico
Variáveis
associadas ao
que entra no
processo (x’s)
Variáveis
associadas ao
que sai do
processo (y’s)
Variáveis ligadas a
parâmetros do processo (x’s)
Objectivo: construir um modelo que relacione as variáveis de entrada (x’s) com as de saída (y’s).
X’s“Inputs”PredictoresRegressores Variáveis de entradaVariáveis independentes
Y’s“Outputs”Respostas
Variáveis de saídaVariáveis dependentes
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 5
Metodologias de Modelação
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
LC
TC
F0, T0, CA0
F, T, CA
Fcj, Tcj,0
Fcj, Tcj
0
dVF F
dt= −
/0 0 0
E RTAA A A
dVCF C FC k e C V
dt−= − −
/0 0 0 ( )E RT
A cjp p
dVT H UAF T FT k e C V T T
dt C Cρ ρ−∆= − − − −
,0,
( ) ( )cj cjcj cj cj cj
j p cj
dV T UAF T T T T
dt Cρ= − + −
( )2set c setF F K V V= − −
( ), 1cj cj set c setF F K T T= − − X
Y
x
E(Y|x)
X
Y
x
E(Y|x)
Modelos baseados em primeiros princípios → Estrutura completamente definida
“Knowledge intensive” “Data intensive”
Modelos empíricos → Algumas restrições quanto à estrutura do modelo
Modelos baseados em dados
→ muito poucas hipóteses são colocadas
quanto à estrutura do modelo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 6
Recolha de dados
Activa (DoE) vs Passiva (Observacional)
DoE – Design of Experiments (Planeamento Estatístico de Experiências)
Matrix of scatter plotsRa_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
Index
C9
513456399342285228171114571
500
400
300
200
100
0
Time Series Plot of C9
403020100
98
95
90
85
80
70
60
50
40
30
20
100
Absolute Effect
Pe
rce
nt
A A
B B
C C
D D
E E
F F
Factor Name
Not Significant
Significant
Effect Type
ACD
AD
AB
B
A
Half Normal Plot of the Effects(response is Encolhimento, Alpha = 0,05)
Lenth's PSE = 0,9375
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 7
Recolha de dados
Activa (DoE) vs Passiva (Observacional)
Teorema:
Não se conseguem as respostas certas,a menos que se façam as perguntas certas.
Corolário:
Não se conseguem as respostas certas, a menos que se façam perguntas.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 8
Recolha de dados
Activa (DoE)
One-factor-at-a-time approach Statistical DOE approach
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 9
Recolha de dados
Activa (DoE)
� Basic types of DoE problems
� Screening
� Process characterization (modelling)
� Optimization
� Robustness
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 10
Recolha de dados
Activa (DoE)
� Basic principles of DOE
� Replication
� Randomization
� Blocking
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 11
� 1D: Com N pontos, consegue-se a seguinte taxa de cobertura, numa linha de comprimento L:
1 2 3 … … N
0 L
NTA
L=
Recolha de dados passiva:
“The curse of dimensionality”
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 12
“The curse of dimensionality”
� 2D: Com N pontos, consegue-se a seguinte taxa de cobertura, num quadrado de lado L:
2
NTA
L=
Para garantir igual cobertura, ter-se-ia de usar N2 pontos
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 13
“The curse of dimensionality”
� 3D: Com N pontos, consegue-se a seguinte taxa de cobertura, num cubo de lado L:
3
NTA
L=
Para garantir igual cobertura, ter-se-ia de usar N3 pontos
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 14
“The curse of dimensionality”
� m-D: Com N pontos, consegue-se a seguinte taxa de cobertura, num hipercubo de lado L:
m
NTA
L=
Para garantir igual cobertura, ter-se-ia de usar Nm pontos
Recolha de dados passiva: um monólogo do processo
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 15
“The curse of dimensionality”
Há muito “vazio” nos dados recolhidos passivamente …
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 16
Metodologias de Modelação
� Utilidade dos modelos:� Previsão de valores futuros de uma variável de
saída;� Medição do efeito associado a mudanças
processuais;� Controlo e/ou monitorização do processo;� Optimização do processo;� …
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 17
� Regressão (Previsão):� As saídas do modelo são variáveis quantitativas;
� Classificação:� As saídas do modelo são variáveis qualitativas
(classes ou categorias)� Qualidade do produto (Mau, Intermédio, Bom);� Reconhecimento de caracteres (padrões);� …
Regressão (Previsão) vs Classificação
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 18
Observ. X1 X2 X3 X41 0,165 0,11 0,075 0,0532 0,178 0,14 0,105 0,0773 0,102 0,089 0,068 0,0484 0,191 0,107 0,06 0,0465 0,239 0,146 0,094 0,0676 0,178 0,115 0,078 0,0567 0,193 0,089 0,041 0,038 0,164 0,113 0,078 0,0569 0,129 0,098 0,074 0,057
10 0,193 0,134 0,093 0,06611 0,154 0,071 0,03 0,01612 0,065 0,053 0,036 0,02513 0,144 0,078 0,043 0,02814 0,138 0,118 0,093 0,06315 0,219 0,145 0,101 0,07
Observ. Y1 0,4562 0,4563 0,1524 0,765 0,766 0,6087 0,768 0,4569 0,304
10 0,60811 0,60812 0,15213 0,60814 0,30415 0,76
Regressão (Previsão)Treino do modelo vs Teste do modelo
Modelo
(β0, β1,…, βm,σ2)X Y
Observ. X1 X2 X3 X416 0,146 0,17 0,134 0,10317 0,128 0,144 0,125 0,10118 0,107 0,105 0,102 0,08119 0,146 0,174 0,136 0,09920 0,105 0,126 0,094 0,06821 0,152 0,205 0,128 0,08123 0,139 0,207 0,109 0,05724 0,108 0,162 0,082 0,0425 0,12 0,187 0,083 0,038
^ ^ ^ ^
I. Treino/Estimação
XnewModelo
(β0, β1,…, βm,σ2)?
^ ^ ^ ^
II. Teste/Previsão
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 19
Observ. C
1 A
2 A
3 B
4 A
5 B
6 B
7 A
8 A
9 B
10 B
11 B
12 A
13 B
14 A
15 A
Observ. X1 X2 X3 X41 0,165 0,11 0,075 0,0532 0,178 0,14 0,105 0,0773 0,102 0,089 0,068 0,0484 0,191 0,107 0,06 0,0465 0,239 0,146 0,094 0,0676 0,178 0,115 0,078 0,0567 0,193 0,089 0,041 0,038 0,164 0,113 0,078 0,0569 0,129 0,098 0,074 0,057
10 0,193 0,134 0,093 0,06611 0,154 0,071 0,03 0,01612 0,065 0,053 0,036 0,02513 0,144 0,078 0,043 0,02814 0,138 0,118 0,093 0,06315 0,219 0,145 0,101 0,07
ModeloX C
Observ. X1 X2 X3 X416 0,146 0,17 0,134 0,10317 0,128 0,144 0,125 0,10118 0,107 0,105 0,102 0,08119 0,146 0,174 0,136 0,09920 0,105 0,126 0,094 0,06821 0,152 0,205 0,128 0,08123 0,139 0,207 0,109 0,05724 0,108 0,162 0,082 0,0425 0,12 0,187 0,083 0,038
I. Treino/Estimação
XnewModelo ?
II. Teste/Previsão
ClassificaçãoTreino do modelo vs Teste do modelo
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 20
Regressão Linear Múltipla
� O modelo de regressão linear múltipla
� Propriedades do termo εi (pressupostos):� variância dos resíduos é constante;� todos os resíduos são independentes;� seguem uma lei normal com média nula.
� Pressuposto para fazer inferência estatística sobre o modelo (IC, TH ao modelo ou seus parâmetros).
0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯
Componente estrutural Componente estocástica
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 21
Regressão Linear Múltipla
� β0 - Intercepção na origem (“intercept”, “constant”);
� βi – Coeficientes de regressão parciais (“partial regression coefficients”).
0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 22
Regressão Linear Múltipla
� Pode ser usado para descrever relações não-lineares, e.g:
� Assume que os X’s
estão isentos
de qualquer erro.
2 20 1 1 2 2 11 1 22 2 12 1 2y x x x x x xβ β β β β β ε= + + + + + +
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 23
Regressão Linear Múltipla
� Notação matricial
1 11 1 0 1
1
1
1
m
n n nm m n
Y x x
Y x x
Y XB E
β ε
β ε
= +
= +
⋯
⋮ ⋮ ⋮ ⋯ ⋮ ⋮ ⋮
⋯
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 24
Regressão Linear Múltipla
� Estimação do modelo de regressão linear múltipla:� Mínimos quadrados
( )
( ) ( )
2
0 1 1 2 21
ˆ
ˆ. .,
n
i i i m miB
i
T
B
B Min Y x x x
i e B Min Y XB Y XB
β β β β=
= − − − − −
= − −
∑ ⋯
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 25
Regressão Linear Múltipla
� Estimação de parâmetros em RLM� Minimizar a soma dos desvios quadráticos (verticais …)
3D Surface Plot
Y=105,1527+0,2131*X1+0,4855*X2
195 190 185 180 175 170 165 160 155
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 26
Regressão Linear Múltipla
� Métodos dos mínimos quadrados:� Solução: CN de optimalidade
Equações normaisdo método dos
mínimos quadrados
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 27
Regressão Linear Múltipla
� Solução (notação matricial):
( ) 1ˆ T T−=B X X X Y
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 28
Regressão Linear Múltipla
� Estimativa da variância do termo estocástico do modelo de regressão linear múltipla:
� N – número de observações� m – número de variáveis
2
2 1
ˆˆ
1 1
N
ii SSr
N m N m
εσ == =
− − − −
∑
GEPSI/CIEPQPFDEQ-FCTUCEngenharia de Processos e Sistemas 29
Inferência em Regressão Linear
Múltipla
•Montegomery, D.C.; Peck, E.A. & Vining, G.G. (2006). Introduction to Linear Regression
Analysis. Wiley. 4th ed.
•Montgomery, D.C.; G.C. Runger, 1999, Applied Statistics and Probability for Engineers,
2nd ed., Wiley, NY
•Draper, N.R.; H. Smith, 1998, Applied Regression Analysis, 3rd ed., Wiley, NY
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 30
Regressão Linear Múltipla Inferência
� Propriedades das estimativas dos parâmetros
� Se o modelo for verdadeiro,
� As estimativas seguem uma distribuição normal multivariada:
( )( )1 2ˆ ~ , TB N B X X σ−
0 1 1 2 2i i i m im iY x x xβ β β β ε= + + + + +⋯
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
MSR 2009-2012 ©
Regressão Linear Múltipla Inferência
� ANOVA� Teste à significância do modelo de regressão
linear múltipla:
� H0: β1 = β2 = … βm = 0� H1: βj ≠ 0 para pelo menos um j
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
MSR 2009-2012 ©
( ) ( ) ( )2 2
11
2
1
ˆˆn
iii
n
i ii
n
iy yy y yy= = =
−− + −=∑ ∑ ∑
Variação Total
SSt
Variação devida à Regressão
SSreg
Variação Residual
SSr
Variabilidadeobservada
Variabilidade explicada pelo modelo(parte estrutural do modelo de regressão)
Variabilidade não explicada pelo modelo
(parte estocástica do modelo de regressão)
= +
Regressão Linear Múltipla Inferência
� Decomposição ANOVA da variabilidade (soma dos quadrados) total (SSt), em termos da componente explicada pelo modelo de regressão (SSreg) e da componente residual (SSr):
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
MSR 2009-2012 ©
Regressão Linear Múltipla Inferência
� Tabela ANOVA em regressão linear múltipla:
p = # variáveis de entrada ou regressores= # parâmetros – 1 ( )0 1
SSreg pF
SSr N p=
− −
Fontes de Variação
(1)
Variações (Somas de quadrados)
(2)
Graus de Liberdade
(3)
Médias das Somas dos Quadrados
(4)
Estatística de Teste (F)
(5)
Regressão SSreg p MSreg MSreg / s2 Residual SSr n–p–1 s2 Total SSt N–1
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 34
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
� Coeficiente de determinação (R2)� Uma medida da qualidade do modelo (0≤ R2≤1)� Definição geral (modelos univariados/multivariados)
(Fracção da variabilidade total que é explicada pelo modelo)
2 1SSreg SSr
RSSt SSt
= = −
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 35
� O coeficiente R2 permite aferir sobre a qualidade do ajuste, aumentando sempre que se adiciona mais uma variável � Mesmo que uma variável não esteja relacionada com a
resposta, há sempre uma pequena parte da sua variabilidade que aquela ajuda a explicar, por alinhamentos aleatórios com Y.
� Estas variáveis não trazem nada de novo para o modelo em termos de previsões futuras, tendo pelo contrário uma acção prejudicial e destabilizadora.
� Para aferir sobre a qualidade do modelo é pois importante penalizar a métrica de qualidade com o número de variáveis utilizado.
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 36
Regressão Linear Múltipla
Métricas de Qualidade do Modelo
� R2 ajustado (R2adj)� Penaliza a introdução de termos adicionais no modelo� Previne “overfitting” e a utilização de regressores com
pouco potencial explicativo da variabilidade da resposta
( )( )
( )( ) ( )2 21 1
1 1 11 1adj
SSr N p NR R
SSt N N p
− − −= − = − −
− − −
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 37
Regressão Linear Múltipla Inferência
� TH aos coeficientes individuais� Para analisar a significância de alguns parâmetros
em particular.� Nas condições do modelo de regressão ser válido:
� Os parâmetros seguem distribuições normais;� A sua média é centrada nos valores exactos e a sua
variância é dada pelos elementos diagonais da matriz de variâncias-covariâncias.
GEPSI/CIEPQPFDEQ-FCTUC
Valor de prova(p-value)
Probabilidade de obter um desvio maior ou igual ao verificado, se H0 for válida!
GEPSI/CIEPQPFDEQ-FCTUC
0iβ
( )f x
( )1iβ
Amostra 1
( )2iβ
Amostra 2
( )3iβ
Amostra 3
0 : 0
1: 0i
i
H
H
ββ
=≠
Teste bilateral: Pr(|ET|>ET0 |H0 verdadeira)
GEPSI/CIEPQPFDEQ-FCTUC
0iβ
( )f x
( )1iβ
Amostra 1
( )2iβ
Amostra 2
( )3iβ
Amostra 3
0 : 0
1: 0i
i
H
H
ββ
=>
Teste Unilateral à direita: Pr(ET>ET0 |H0 verdadeira);Teste Unilateral à esquerda: Pr(ET<ET0 |H0 verdadeira);
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 41
Regressão Linear Múltipla Inferência
� TH (parâmetros individuais):
Rejeitar H0 se |t0| > tα/2,n-p-1.
Estatística de teste
Elemento jj da matriz de variâncias-covarâncias
Alternativamente, usar abordagem baseada em IC ou o valor de provaGEPSI/CIEPQPF
DEQ-FCTUCMSR 2010 © Engenharia de Processos e Sistemas 42
Regressão Linear Múltipla Inferência
� IC para os parâmetros do modelo de regressão múltipla
� IC(βj ,(1-α)x100%):
2 22, 1 2, 1
ˆ ˆˆ ˆj N p jj j j N p jjt C t Cα αβ σ β β σ− − − −− ≤ ≤ +
Elemento jj da matriz de variâncias-covarâncias
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 43
Regressão Linear Univariada
Inferência em regressão linear
� IC para a média e intervalo de previsão
Intervalo de previsão
Intervalo de confiança para a média
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 44
Regressão Linear Múltipla Inferência
� IC para a resposta média
� Intervalo de previsão
( ) ( )0 0 0
1 12 2| 2, 1 0 0 | | 2, 1 0 0ˆ ˆ ˆ ˆT T T T
Y x N p Y x Y x N pt x X X x t x X X xα αµ σ µ µ σ− −
− − − −− ≤ ≤ +
( )( ) ( )( )1 12 20 2, 1 0 0 0 0 2, 1 0 0ˆ ˆ ˆ ˆ1 1T T T T
N p N py t x X X x y y t x X X xα ασ σ− −
− − − −− + ≤ ≤ + +
00 0 |ˆˆ ˆY xy x β µ= =
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 45
Regressão Linear Univariada
Inferência em regressão linear
� Exemplo 1� Pretende-se determinar a influência de três parâmetros
processuais (X1, X2 e X3) numa variável de qualidade do produto (Y).
� Para tal, recolheram-se dados do processo durante períodos de laboração normal, com os quais se construiu uma base de dados.
� Utilize esta base de dados para estimar um modelo empírico para o processo em causa, e determine quais o(s) parâmetro(s) que mais influenciam a variável de qualidade.
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
46MSR 2009-
2012 ©
Y-Answer Time (Average) (secs)
120110100 765
50
30
10120
110
100
X1-Number of personnel
X2-Calls per hour (average)
1380
1320
1260
503010
7
6
5
138013201260
X3-Time per call (average mins)
Matrix Plot of Y-Answer Tim; X1-Number of; X2-Calls per; X3-Time per
Regressão Linear Múltipla
� Gráficos
Y vs X1
Y vs X3 X1 vs X3
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
47MSR 2009-
2012 ©
Regressão Linear Múltipla
� MINITAB: Stat > Regression > Regression …
Não é significativamente ≠ 0!
R-Sq subiu, mas R-Sq(adj) desceu.
O modelo é significante: pelo menos um coeficiente de uma variável é diferente de zero.
GEPSI/CIEPQPFDEQ-FCTUC
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 49
O Problema da Colinearidade
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 50
Regressão Linear Múltipla Colinearidade
� Exemplo� Construir um modelo para Y vs X1,X2
Source: Sokal and Rohlf, Biometry, 3ed., Freeman: NY (1995).
Y X1 X2
-5 -4 3
-7 -2 3
-1 -2 1
-3 0 1
3 0 -1
1 2 -1
7 2 -3
5 4 -3
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 51
Regressão Linear Múltipla Colinearidade
5
0
-5
20-2
50-5
5
0
-5
50-5
2
0
-2
Y
X1
X2
Matrix Plot of Y; X1; X2
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 52
Regressão Linear Múltipla Colinearidade
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 53
43210-1-2-3-4-5
8
6
4
2
0
-2
-4
-6
-8
X1
Y
Scatterplot of Y vs X1
43210-1-2-3-4-5
8
6
4
2
0
-2
-4
-6
-8
X1Y
-3
-1
1
3
X2
Scatterplot of Y vs X1
Regressão Linear Múltipla Colinearidade
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 54
Regressão Linear Múltipla Colinearidade
� Nota:� Os coeficientes de regressão parciais
representam a contribuição de um predictor na variável de saída, quando os outros se mantêm constantes;
� A magnitude e sinal dos coeficientes de regressão parciais, depende dos predictores incorporados no modelo (sempre que estes apresentam correlação entre si).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 55
Regressão Linear Múltipla Colinearidade
� Por outro lado,…� Analisando a variância das estimativas
� Simulação: Gerar aleatoriamente amostras com 10 observações� Dois níveis de correlação entre X1 e X2� Resultados para 1000 simulações
1 2-10
-5
0
5
10
15
20High correlation (ρ =0.95)
Est
imat
es
Variable1 2
-10
-5
0
5
10
15
20Low correlation (ρ =0)
Est
imat
es
Variable
Valores exactos dos parâmetros
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 56
Regressão Linear Múltipla Colinearidade
� Ou seja:
� Quando a correlação entre X1 e X2 é de 0.95 a variância na estimativa dos coeficientes que afectam as variáveis X1 e X2 é cerca de 10 vezes superior àquela obtida quando não há correlação entre X1 e X2.
( ) 1 2ˆ( ) TVar B X X σ−
=
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 57
Regressão Linear Múltipla Colinearidade
� Efeitos da colinearidade na estimação de parâmetros
Estimated planes for an High collinearity data set (a) and a Low collinearity data set (b), in the initial situation (I) and when an additional data point was added (II), marked with a circle in the 3D scatter plots. The projection of the observations and contours in the Y=0 plane are also presented.
a)b)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 58
Regressão Linear Múltipla Colinearidade
� Conclusões:� Quando há colinearidade nos regressores:
� É difícil interpretar o modelo (face aos gráficos disponíveis)
� As estimativas dos parâmetros são mais instáveis (maior variância)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 59
Regressão Linear Múltipla Colinearidade
� Nota:� A correlação entre variáveis é muito comum em
aplicações industriais:� Restrições processuais (balanços mássicos e de
energia);� Anéis de controlo, metodologias e protocolos de
actuação;� Instrumentação (instrumentação redundante,
espectrofotómetros, etc.).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 60
Regressão Linear Múltipla Colinearidade
� Como detectar a presença de colinearidade?
� Como lidar com a sua presença?
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 61
Correlations (AS.vs.Bendtsen)Marked correlations are signif icant at p < ,05000N=36 (Casew ise deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MD R Ku_MD Rv_MD Rdq_MDRa_CDRz_CDRq_CDRp_CDRt_CDR Sm_CDR S_CDR Sk_CDR Ku_CDRv_CDRdq_CDRa_MDRz_MDRq_MDRp_MDRt_MDR Sm_MDR S_MDR Sk_MDR Ku_MDRv_MDRdq_MD
1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,30 -0,63 0,89 0,680,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,31 -0,53 0,90 0,731,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,30 -0,61 0,89 0,680,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,57 -0,51 0,75 0,690,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,35 -0,51 0,85 0,680,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,29 -0,61 0,71 0,360,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,28 -0,52 0,73 0,370,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89 -0,31 0,13 0,37
-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,28 0,74 -0,48 -0,350,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,06 -0,50 0,95 0,690,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,18 -0,40 0,85 0,930,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,22 -0,60 0,94 0,710,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,28 -0,49 0,94 0,790,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,22 -0,58 0,95 0,720,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,59 -0,48 0,76 0,730,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,30 -0,43 0,93 0,800,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,12 -0,63 0,73 0,240,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,17 -0,50 0,83 0,370,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00 -0,29 -0,03 0,21
-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,29 1,00 -0,44 -0,270,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,03 -0,44 1,00 0,750,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21 -0,27 0,75 1,00
Regressão Linear Múltipla Colinearidade
� Detecção da presença de colinearidade� Matrizes de correlação e de gráficos de dispersão
Matrix of scatter plotsRa_CD
Rz_CD
Rq_CD
Rp_CD
Rt_CD
R Sm_CD
R S_CD
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 62
Regressão Linear Múltipla Colinearidade
� Detecção da presença de colinearidade� Conhecimento sobre o processo:
� Verificar se alguns coeficientes têm sinal contrário ao esperado;
� Verificar se variáveis que se esperavam importantes, não têm uma magnitude correspondente;
� Verificar se a eliminação de uma linha ou coluna, produz alterações muito significativas;
� O teste F baseado em ANOVA é significante, mas os coeficientes individuais não o são.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 63
Regressão Linear Múltipla Colinearidade
� Detecção da presença de colinearidade� “Variance Inflation Factor” (VIF)
� onde Rj2 é o R2 para a regressão de Xj contra
todos os outros p – 1 regressores.
� Nota:
Cjj é o elemento jj da diagonal de (XTX)-1
( ) ( )2
1ˆ1
j
j
VIFR
β =−
( ) ( ) ( )ˆ 1 varj jj jVIF C n Xβ = ⋅ − ⋅
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 64
Regressão Linear Múltipla Colinearidade
� Análise do VIF:� Valores de referência:
� VIF>10 → colinearidade é um problema;� VIF<5 → colinearidade não é um problema;� 5<VIF<10 → “zona cinzenta” (colinearidade
pode ser um problema).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 65
Regressão Linear Múltipla Colinearidade
� Como lidar com a sua presença?
� Métodos de selecção de variáveis� Métodos de projecção (selecção de dimensões)� Métodos de encolhimento
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 66
Regressão Linear Múltipla Colinearidade
� Selecção de variáveis
� Princípio:
� Se há redundância entre os X’s, seleccionar aqueles que mais explicam a variabilidade apresentada pela resposta (Y), e retirar todas aquelas variáveis que não acrescentem capacidade explicativa.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 67
Regressão Linear Múltipla Colinearidade
� Metodologias mais comuns de selecção de variáveis:� Forward addition� Backward elimination� Forward stepwise selection� “Best subset” regression
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 68
Regressão Linear Múltipla Inferência
Nos métodos de selecção de variáveis analisa-se a significância estatística associada à introdução de grupos de variáveis adicionais:
� “Partial F-test” (ou “Extra Sum of Squares method”)
� Até agora só a analisámos a situação estática.� Temos um conjunto de variáveis de entrada com as quais
queremos construir um modelo para explicar a resposta.
� E se quisermos incluir mais variáveis? – Situação dinâmica!� Pretendemos agora saber se, introduzindo um conjunto extra de
variáveis (# X’s ≥ 1), a capacidade de explicação da variabilidade de Y melhora significativamente.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 69
Regressão Linear Múltipla Inferência
� “Partial F-test”
� Vamos considerar que dispomos um modelo com p variáveis e pretendemos saber se um subconjunto destas variáveis (r) contribui, como um todo, significativamente para o modelo.
� Ou seja, se particionarmos todos os coeficientes do modelo num conjunto com r variáveis (β1 ) e noutro com as restantes (β2), pretendemos testar as hipóteses:
� H0: β1 = 0
� H1: β1 ≠ 0
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 70
Regressão Linear Múltipla Inferência
� Metodologia:
� Calcular SSreg para o modelo completo:� (com β1 e β2) → SSreg(β)
� Para avaliar a contribuição de β1 para a regressão, estimar um modelo assumindo válida H0: β1 = 0 (modelo reduzido):
� Y=X2 β2 +ε → SSreg(β2)
� Então, SSreg devido a β1, assumindo que β2 já está no modelo é: � SSreg(β1 |β2) = SSreg(β) - SSreg(β2)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 71
Regressão Linear Múltipla Inferência
� ET:
� Rejeitar se:
(teste unilateral à direita)
( )1 20 2
| /
ˆ
SSreg rF
σ=
β β
Estimado com o modelo completo.
( )0 , 1,F F r N p α> − −
Variabilidade adicional explicada pelo conjunto de variáveis em estudo
Variabilidade residual
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 72
Regressão Linear Múltipla Selecção de Variáveis
� Forward addition
Select the predictor having the highest correlation with y
Is variable significant?
Are other predictors
available?
No prediction
possible with MLRValidate model
No
Yes
Yes
Select additional
predictor
No
Examine final
model
Is selected predictor
significant?Yes
(Enter variable)
No
(Fail to enter)
j inf f> j inf f<
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 73
Regressão Linear Múltipla Selecção de Variáveis
� NOTA:� As variáveis são testadas sequencialmente, de
acordo com a magnitude da estatística do teste F-parcial (partial F-test);� Se esta estatística for superior a “F to enter” (fin), a
variável passa a integrar o modelo;� Caso contrário, o processo pára.
� Variáveis seleccionadas não podem ser depois removidas.� Não explora o efeito que a adição de uma variável
pode ter naquelas já adicionadas.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 74
Regressão Linear Múltipla Selecção de Variáveis
� Backwardelimination
Select all variables and include them in the model
Is its contribution
significant ?
Validate model
No(Remove variable)
Nota:Variáveis eliminadas, não podem voltar a integrar o modelo numa fase posterior.
Select the variable that contributes the
least to explaining the Y variability
(when all others are in the model)
Yes(Do not remove variable )
j outf f>j outf f<
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 75
Regressão Linear Múltipla Selecção de Variáveis
� Forward stepwise selection
j inf f>
Select the predictor having the highest correlation with y
Is variable significant?
Are other predictors
available?
No prediction
possible with MLR
Is variance explained
by each variable in the
model significant?
Validate model
No
Yes
Yes
Yes
Select additional
predictor
No
Examine final
model
No (Remove variables)
Is selected predictor
significant?
(Enter variable) Yes No (Fail to enter)
Nota:
Variáveis selecionadas podem vir a ser removidas posteriormente, caso se tornem redundantes quando outras forem adicionadas.
( )normalmente in out in outf f f f≥ =
j inf f<
j outf f<
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 76
Regressão Linear Múltipla Selecção de Variáveis
� “Best subset” regression:� Para cada combinação distinta de k variáveis (k=kmin : kmax):
� Estimar o correspondente modelo MLR;� Calcular o valor do critério de “qualidade de ajuste”
seleccionado;� Ordenar as combinações de variáveis de acordo com o valor
do critério a que elas conduziram;� Guardar os resultados para as melhores N combinações;
� Apresentar os resultados para as melhores N combinações obtidas em cada subconjunto de dimensão k considerado (k=kmin : kmax).
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 77
Regressão Linear Múltipla Selecção de Variáveis
� Critérios de qualidade de ajuste:� R2
� R2adj
� Mallows-Cp
� Uma medida do erro quadrático total do modelo de regressão
� Se o modelo postulado for correcto, Cp dever ser próximo de k+1 (número de parâmetros)
� Logo, escolher modelo para o qual o Cp é baixo e próximo de k+1.
( ) ( )22 1
ˆp
SSr kC n k
σ= − − +
Estimado com o modelo completo.
Estimado com o modelo em estudo (k variáveis).
Gráfico Cp vs p
Também penaliza a adição de variáveis sem poder explicativo
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 78
Regressão Linear Múltipla Selecção de Variáveis
� Critérios de qualidade de ajuste (cont.):� Mallows-Cp
� É conveniente traçar um gráfico Cp vs. (k+1):� procurar qual o modelo com Cp mais baixo que está mais
próximo da recta Cp=k+1.
� PRESS
“Leverage” da observação i
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 79
Regressão Linear Múltipla Selecção de Variáveis
� Statistica
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 80
Metodologia Geral de RLM
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 81
Regressão Linear Múltipla
Passo 1Estudar estatísticas
e gráficos
Passo 2Formular o modelo
Passo 3Estimar o modelo
Passo 4
Validar
o
modelo
Passo 5Apresentar resultados.
Usar modelo.
Bom ajuste
OK!
Ajuste não satisfatório
� Metodologia em RL
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 82
Regressão Linear Múltipla
1. Familiarização com os dados� Fazer uso extensivo de todas as ferramentas de estatística
descritiva que nos ajudem a familiarizar com os dados do nosso problema, por exemplo:
� Examinar médias, desvios padrão, alguns percentis, mínimos, máximos, para todas as variáveis de entrada e de saída;
� Examinar a matriz de correlação (existe colinearidade entre os x’s? qual/quais os x’s mais correlacionados linearmente com o y?);
� Construir gráficos de dispersão para todas as combinações de x’s e entre cada x e o y;
� Se os dados foram recolhidos ao longo do tempo, analisar, individualmente, o gráfico temporal para cada variável;
� Detectar e examinar outliers.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 83
Regressão Linear Múltipla
2. Formulação do modelo� Com base no conhecimento existente a priori e/ou com base nos
gráficos construídos em 1 para as relações entre y e os vários x’s, propor um modelo de regressão que relacione as variáveis de entrada com a variável de saída;
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 84
Regressão Linear Múltipla
3. Estimar os parâmetros do modelo� Proceder ao ajuste do modelo aos dados recolhidos. Como
resultado, obtém-se as estimativas para os parâmetros do modelo definido em 2., bem como outras grandezas relacionadas (por exemplo, parâmetros de qualidade, valores de prova para diversos testes estatísticos). Deve-se então:
� Analisar os resultados em busca de variáveis eventualmente mais importantes na explicação da variabilidade de y;
� Avaliar a qualidade do ajuste;� Verificar se existe colinearidade entre as variáveis (calcular VIF para
cada variável existente no modelo), e se esta pode constituir um problema.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 85
Regressão Linear Múltipla
4. Validação do modelo estimado� Construir os seguintes gráficos envolvendo os resíduos, para
verificar se algum/ns dos pressupostos subjacentes aos modelos de regressão linear está/ão a ser violado/s:� Resíduos vs. valores previstos (para verificar, por exemplo, se a
variância dos resíduos não depende do nível de y);� Resíduos vs. cada uma das variáveis de entrada (verificar que
não existe estrutura por explicar devido, por exemplo, a não considerar termos não-lineares envolvendo as variáveis de entrada);
� Resíduos vs. tempo, ou sequência de observações (verificar a independência dos resíduos ao longo das observações);
� Gráficos de probabilidade normal para resíduos (verificar o pressuposto de normalidade dos resíduos).
� (Padrões não aleatórios são indicativo de um modelo não adequado)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2010 © Engenharia de Processos e Sistemas 86
Regressão Linear Múltipla
5. Apresentar os resultados e usar o modelo� Nesta fase sintetizam-se os resultados para o modelo
desenvolvido (desde que este seja satisfatório). Os dados utilizados e pressupostos subjacentes devem ser também indicados. Usar então o modelo e criar uma metodologia que permita averiguar a sua validade ao longo do tempo, se o seu uso não se restringir à situação presente.
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
87
Regressão Linear Múltipla Selecção de Variáveis
� Exemplo 2
� A rugosidade do papel é normalmente inferida indirectamente por um aparelho denominado “Bendtsen”.
� Este mede a quantidade de ar que passa entre um anel rígido e a superfície do papel durante um determinado intervalo de tempo, a qual está relacionada de alguma forma com a rugosidade do papel.
� Pretende-se estudar quais os factores fundamentais ao nível da rugosidade do papel, que influenciam estas medições.
� Para tal, recolheram-se perfis rigorosos da superfície do papel usando técnicas de perfilometria, em duas direcções (MD e CD), a partir dos quais foram calculados vários parâmetros geométricos com significados bem precisos.
� Que parâmetros fundamentais mais influenciam/explicam os resultados produzidos pelo Bendtsen?
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
88
Parâmetros dos perfis (X’s)
Ra Arithmetical mean deviation of profile
Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height
Rt Total height of profile
R Sm Mean width of profile elements
R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth
Rdq RMS slope of profile
Regressão Linear Múltipla Selecção de Variáveis
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
89
Regressão Linear Múltipla Selecção de Variáveis
CD
MD
Bendtsen
Perfilómetro
X’s – média dos parâmetros calculados para 3 perfis na direcção MD, CD (11+11=22)Y – média de 6 medições com o Bendtsen, nas mesmas posições
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
90
Regressão Linear Múltipla Selecção de Variáveis
� Detecção de colinearidade
Correlations (AS.vs.Bendtsen)Marked correlations are signif icant at p < ,05000N=36 (Casew ise deletion of missing data)
Variable Ra_CD Rz_CD Rq_CD Rp_CD Rt_CD R Sm_CD R S_CD R Sk_CD R Ku_CD Rv_CD Rdq_CD Ra_MD Rz_MD Rq_MD Rp_MD Rt_MD R Sm_MD R S_MD R Sk_MDRa_CDRz_CDRq_CDRp_CDRt_CDR Sm_CDR S_CDR Sk_CDR Ku_CDRv_CDRdq_CDRa_MDRz_MDRq_MDRp_MDRt_MDR Sm_MDR S_MDR Sk_MDR Ku_MDRv_MDRdq_MD
1,00 0,99 1,00 0,94 0,96 0,89 0,89 0,46 -0,62 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,84 0,85 0,300,99 1,00 0,99 0,95 0,98 0,86 0,88 0,46 -0,51 0,96 0,84 0,97 0,97 0,97 0,93 0,94 0,79 0,83 0,311,00 0,99 1,00 0,94 0,97 0,89 0,89 0,46 -0,60 0,94 0,81 0,98 0,96 0,98 0,91 0,92 0,83 0,85 0,300,94 0,95 0,94 1,00 0,94 0,83 0,84 0,71 -0,54 0,81 0,77 0,89 0,91 0,89 0,97 0,89 0,70 0,74 0,570,96 0,98 0,97 0,94 1,00 0,88 0,91 0,48 -0,43 0,93 0,79 0,93 0,93 0,93 0,90 0,90 0,76 0,79 0,350,89 0,86 0,89 0,83 0,88 1,00 0,95 0,45 -0,57 0,80 0,49 0,83 0,78 0,82 0,75 0,73 0,86 0,80 0,290,89 0,88 0,89 0,84 0,91 0,95 1,00 0,38 -0,40 0,84 0,51 0,84 0,80 0,83 0,77 0,75 0,87 0,83 0,280,46 0,46 0,46 0,71 0,48 0,45 0,38 1,00 -0,45 0,19 0,34 0,36 0,42 0,36 0,67 0,41 0,22 0,22 0,89
-0,62 -0,51 -0,60 -0,54 -0,43 -0,57 -0,40 -0,45 1,00 -0,44 -0,47 -0,60 -0,54 -0,59 -0,52 -0,52 -0,58 -0,54 -0,280,94 0,96 0,94 0,81 0,93 0,80 0,84 0,19 -0,44 1,00 0,83 0,96 0,94 0,96 0,80 0,91 0,79 0,84 0,060,81 0,84 0,81 0,77 0,79 0,49 0,51 0,34 -0,47 0,83 1,00 0,84 0,88 0,84 0,79 0,87 0,47 0,58 0,180,98 0,97 0,98 0,89 0,93 0,83 0,84 0,36 -0,60 0,96 0,84 1,00 0,98 1,00 0,89 0,95 0,84 0,88 0,220,96 0,97 0,96 0,91 0,93 0,78 0,80 0,42 -0,54 0,94 0,88 0,98 1,00 0,98 0,93 0,99 0,75 0,84 0,280,98 0,97 0,98 0,89 0,93 0,82 0,83 0,36 -0,59 0,96 0,84 1,00 0,98 1,00 0,90 0,96 0,83 0,87 0,220,91 0,93 0,91 0,97 0,90 0,75 0,77 0,67 -0,52 0,80 0,79 0,89 0,93 0,90 1,00 0,92 0,67 0,75 0,590,92 0,94 0,92 0,89 0,90 0,73 0,75 0,41 -0,52 0,91 0,87 0,95 0,99 0,96 0,92 1,00 0,70 0,84 0,300,84 0,79 0,83 0,70 0,76 0,86 0,87 0,22 -0,58 0,79 0,47 0,84 0,75 0,83 0,67 0,70 1,00 0,90 0,120,85 0,83 0,85 0,74 0,79 0,80 0,83 0,22 -0,54 0,84 0,58 0,88 0,84 0,87 0,75 0,84 0,90 1,00 0,170,30 0,31 0,30 0,57 0,35 0,29 0,28 0,89 -0,28 0,06 0,18 0,22 0,28 0,22 0,59 0,30 0,12 0,17 1,00
-0,63 -0,53 -0,61 -0,51 -0,51 -0,61 -0,52 -0,31 0,74 -0,50 -0,40 -0,60 -0,49 -0,58 -0,48 -0,43 -0,63 -0,50 -0,290,89 0,90 0,89 0,75 0,85 0,71 0,73 0,13 -0,48 0,95 0,85 0,94 0,94 0,95 0,76 0,93 0,73 0,83 -0,030,68 0,73 0,68 0,69 0,68 0,36 0,37 0,37 -0,35 0,69 0,93 0,71 0,79 0,72 0,73 0,80 0,24 0,37 0,21
Ra_CD
Rz_CD
Rq_CD
Rp_CD
Rt_C D
R Sm_ CD
R S_CD
R Sk_CD
R Ku_CD
Rv_CD
Rdq_CD
Variable VIFRa_CD 13,01Rz_CD 10,98Rq_CD 12,89Rp_CD 18,42Rt_CD 7,07R Sm_CD 4,74R S_CD 5,54R Sk_CD 2,21R Ku_CD 1,59Rv_CD 4,26Rdq_CD 2,74Ra_MD 10,47Rz_MD 9,55Rq_MD 10,14Rt_MD 7,33R S_MD 6,98R Sk_MD 1,92R Ku_MD 1,68Rv_MD 3,01Rdq_MD 2,82
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
91
Regressão Linear Múltipla Selecção de Variáveis
� Resultados: Stepwise Regression� MINITAB: Stat > Regression > Stepwise …
Step 1 Step 2
Resultados Finais
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
92
Regressão Linear Múltipla Selecção de Variáveis
� Sumário dos resultadosForward Stepwise Backward Stepwise Forward addition Backward removal
Intercept -361,65 549,03 -361,65 549,03Ra_CD 210,51 210,51Rz_CDRq_CDRp_CD 41,22 41,22Rt_CDR Sm_CD -1,41 -1,41R S_CD -4,19 -4,19R Sk_CD -380,47 -380,47R Ku_CDRv_CDRdq_CD -4752,87 -4752,87Ra_MDRz_MDRq_MDRp_MD 37,86 37,86Rt_MDR Sm_MD 0,45 0,45R S_MDR Sk_MD 355,50 355,50R Ku_MDRv_MD 18,06 18,06Rdq_MD
R2 0,94 0,98 0,94 0,98
R2adj 0,94 0,97 0,94 0,97
Step 1
Step 2
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
93
Regressão Linear Múltipla Selecção de Variáveis
Ra Arithmetical mean deviation of profile
Rz Maximum height of profile
Rq RMS deviation of profile
Rp Maximum profile peak height
Rt Total height of profile
R Sm Mean width of profile elements
R Sk Skewness of profile
R Ku Kurtosis of profile
Rv Maximum profile valley depth
Rdq RMS slope of profile
Highest peak (in sampling length)
Average “wavelength” of irregularities
Results: interpretation
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
94
Regressão Linear Múltipla Selecção de Variáveis
� Resultados: “Best Subset” Regression� MINITAB: Stat > Regression > Best Subsets …� Statistica
Adjusted R square and standardized regression coefficients for each submodel
Stepwise
Para estudar modelos com # max. 10 variáveis, seria necessário estimar 4 194 302 modelos …
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
95
Regressão Linear Múltipla Selecção de Variáveis
� Resultados: “Best Subset” Regression� Matlab
1 2 3 40.84
0.86
0.88
0.9
0.92
0.94
0.96
Subsets
R2 ad
j
Best subset regression
Quantas variáveis usar no modelo?
GEPSI/CIEPQPFDEQ-FCTUC
Regressão Linear Múltipla
96
Regressão Linear Múltipla Selecção de Variáveis
� Notas:� A ordem de entrada de variáveis não reflecte necessariamente a sua
importância relativa;� (Forward) stepwise é um método eficiente de selecção de variáveis,
recomendando-se o seu uso. Os resultados obtidos devem ser comparados com aqueles provenientes da aplicação de outros métodos (e.g. best subset, backward stepwise) para ganhar uma maior familiaridade com as características dos dados em estudo;
� (Backward) stepwise é um método útil, em particular quando se pretende assegurar que nada de importante é perdido durante a selecção de variáveis, mas o facto de começar com todas as variáveis pode conduzir a problemas de cálculo e a estimativas não muito boas, se existir colinearidade nos regressores;
� Procedimentos “Stepwise” são em geral preferíveis relativamente àqueles que não permitem a entrada e remoção de regressores.
� “Best subset” tende a fornecer modelos com muitas variáveis e é computacionalmente mais exigente. Deve-se escolher adequadamente a gama de variáveis a explorar, caso contrário pode-se não encontrar o melhor modelo. Deve-se também tentar vários critérios de qualidade, em particular R2
adj e Mallows Cp .
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 97
Diagnóstico de “Outliers” e
Observações Influentes
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 98
Regressão Linear
� Para além de validar o modelo é importante também diagnosticar e analisar:
� “Outliers”
� Observações (demasiado) influentes
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 99
Regressão Linear
� “Outliers”� Observações que fogem aos padrões normais da dispersão de:
� Valores X’s� Previsões
� E.g. (previsão): resíduo com um valor absoluto bastante superior aos demais ( >3-4 desvios padrões do seu valor absoluto médio);
� Só devem ser rejeitados quando forem conhecidas as suas causas, e se existirem boas razões para o fazer;
� Caso contrário a decisão de rejeição dever ser bem pensada.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 100
Regressão Linear
� Observações influentes
� Observações com muito peso na estimativa do modelo, i.e. que exercem uma influência anormal no seu ajuste aos dados.
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 101
Regressão Linear
Observation Order
Re
sid
ua
l
80757065605550454035302520151051
5,0
2,5
0,0
-2,5
-5,0
-7,5
Residuals Versus the Order of the Data(response is Y-Answer Time (Average) (secs))
Resíduos normalizados = Resíduo / SE(Resíduos)(>2 → Considerado elevado)
“Outliers”: Previsões
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 102
Regressão Linear
� Tipos de resíduos� Resíduos
� Resíduos normalizados� Permite detectar facilmente resíduos elevados� Definição: Resíduo / SE(resíduos)� Subestimam a magnitude dos resíduos
� “Internally Studentized residuals”
� “Externally / Deleted studentized residuals”� Definição: semelhante ao anterior, mas com ri e σ2 estimados
sem a observação i: σ2 (i). � Desta forma, evita-se que a observação em causa possa interferir
negativamente no modelo, caso seja desviante e/ou influente.
“Outliers”: Previsões
( )2
1
ˆ 1
- Elemento i da diagonal de
( )
("Hat" matrix)
del ii
ii
ii
T T
rr
h
h
X X X X
σ
−
=−
=
H
H
Var(ri)
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 103
Regressão Linear
� “Leverages” (hii – “hat value”)� Permitem detectar observações cujos valores de X se
afastem do “normal”.� Medida da distância entre cada valor de x e a média de
todos os valores de x:� Observações afastadas da média de X: “High Leverage Points”
� Estes resíduos possuem menor variância, pois têm uma maior influência na estimativa da recta de regressão (ver Var(ri))
� Observações próximas da média de X: “Low Leverage Points”
� Observações muito afastadas podem exercer uma grande influência na estimativa do modelo regressão;
� 0<L≤1: L é considerado elevado se > 2-3 x (p+1)/n, onde p é um número de regressores (X’s) e n o número de observações.
“Outliers”: Valores de X
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 104
Regressão Linear� Distância de “Cook” (Di)
� Medida combinada do impacto (influência) de uma observação nas estimativas do modelo.
� Congrega informação sobre “leverages” e resíduos normalizados → i.e., combina:� Valores anormais nos X’s� Valores anormais em Y
� Corresponde a uma medida da distância entre os valores ajustados integrando a observação em causa e deixando-a de lado.� Di apresenta valores elevados quando:
� Resíduo elevado e “leverage” moderada� Resíduo moderado e “leverage” elevada� Resíduo e “leverage” elevados
� Comparar e verificar se existem Di’s muito elevados.� Analisar com maior detalhe:
� Belsey: Di >2 (p+1)/n (p = # variáveis = # parâmetros -1)� Fox: Di>4/(n-p)
Observações influentes
GEPSI/CIEPQPFDEQ-FCTUC
MSR 2009-2012 ©
Regressão Linear Univariada 105
Regressão Linear
Index
CO
OK
1
80726456484032241681
0,10
0,08
0,06
0,04
0,02
0,00
Time Series Plot of COOK1
Minitab > Stat > Regression > Regression … > StorageMinitab > Graph > Time Series
Top Related