Chapitre I Régression linéaire simple - u-bordeaux.frmchave100p/wordpress/wp-content/... · 2016....
Transcript of Chapitre I Régression linéaire simple - u-bordeaux.frmchave100p/wordpress/wp-content/... · 2016....
Chapitre IRégression linéaire simple
Licence 3 MIASHS - Université de Bordeaux
Marie Chavent
Chapitre 1 Régression linéaire simple 1/42
Un exemple
On cherche à modéliser la relation entre le prix d’un appartement et sa surface.On pose :
- y = prix en euros/1000,
- x = surface en m2.
On suppose que cette relation est linéaire de la forme :
y = β0 + β1x
On veut estimer cette relation appellée droite de régression théorique.
On utilise un échantillon de n appartements dont on connait le prix et lasurface
Chapitre 1 Régression linéaire simple 2/42
#==================================================# Prix des appartements en fonction de la surface#==================================================prix<-c(130,280,268,500,320,250,378,250,350,300,155,245,200,325,85,78,375,200,270,85)surface<-c(28,50,55,110,60,48,90,35,86,65,32,52,40,70,28,30,105,52,80,20)apparts <- data.frame(prix,surface)apparts
## prix surface## 1 130 28## 2 280 50## 3 268 55## 4 500 110## 5 320 60## 6 250 48## 7 378 90## 8 250 35## 9 350 86## 10 300 65## 11 155 32## 12 245 52## 13 200 40## 14 325 70## 15 85 28## 16 78 30## 17 375 105## 18 200 52## 19 270 80## 20 85 20
Chapitre 1 Régression linéaire simple 3/42
library(ggplot2)ggplot(apparts, aes(x=surface, y=prix)) +
geom_point() +geom_smooth(method=lm,se=FALSE)
100
200
300
400
500
30 60 90surface
prix
coef(lm(prix ~ surface))
## (Intercept) surface## 33.6 3.8
Chapitre 1 Régression linéaire simple 4/42
1. Le modèle
On cherche à modéliser la relation entre deux variables quantitatives continues.
Un modèle de régression linéaire simple est de la forme suivante :
y = β0 + β1x + ε (1)
où :
- y est la variable à expliquer (à valeurs dans R) ;- x est la variable explicative (à valeurs dans R) ;- ε est le terme d’erreur aléatoire du modèle ;
- β0 et β1 sont deux paramètres à estimer.
Commentaires :
- La désignation “simple” fait référence au fait qu’il n’y a qu’une seulevariable explicative x pour expliquer y .
- La désignation “linéaire” correspond au fait que le modèle (1) est linéaireen β0 et β1.
Chapitre 1 Régression linéaire simple 5/42
Pour n observations, on peut écrire le modèle de régression linéaire simple sousla forme :
yi = β0 + β1xi + εi (2)
Dans ce chapitre, on suppose que :
- εi est une variable aléatoire, non observée,
- xi est observée et non aléatoire,
- yi est observée et aléatoire.
On fait les trois hypothèses additionnelles suivantes :
(A1) E[εi ] = 0, ∀i = 1, . . . , n,
ou de manière équivalente :
E[yi ] = β0 + β1xi , ∀i = 1, . . . , n.
Commentaire sur l’hypothèse (A1) : elle indique que les erreurs sont centréesce qui implique que yi dépend seulement de xi et que les autres sources devariations de yi sont aléatoires.
Chapitre 1 Régression linéaire simple 6/42
(A2) V(εi ) = σ2, ∀i = 1, . . . , n,
ou de manière équivalente :
V(yi ) = σ2, ∀i = 1, . . . , n.
Commentaires sur l’hypothèse (A2) :
- On parle d’hypothèse d’homoscédasticité (' homogénéité des variances).
- Cette variance est supposée constante et indépendante de xi .
- Cette variance σ2 est un paramètre du modèle qu’il faudra estimer.
(A3) Cov(εi , εj) = 0, ∀i 6= jou de manière équivalente :Cov(yi , yj) = 0, ∀i 6= j .
Commentaire sur l’hypothèse (A3) :
- Sous cette hypothèse, les termes d’erreur εi sont non corrélés .
- Lorsque l’on rajoutera une hypothèse de normalité sur les εi , les erreurs εiseront alors indépendantes.
Chapitre 1 Régression linéaire simple 7/42
On peut écrire matriciellement le modèle (2) de la manière suivante :
Y = Xβ + ε (3)
où
Y =
y1
y2
...
yn
, X =
1 x1
1 x2
......
1 xn
, β =
β0
β1
, et ε =
ε1
ε2
...
εn
.
- Y désigne le vecteur à expliquer de taille n × 1,
- X la matrice explicative de taille n × 2,
- ε le vecteur d’erreurs de taille n × 1.
Exercice : Touver X et Y pour les données sur les appartements.
Chapitre 1 Régression linéaire simple 8/42
Exemple. Données simulées à partir du modèle y = −x + ε.
library(ggplot2)n <- 20; sigma2 <- 0.5; eps <- rnorm(n,0,sigma2)x <- rnorm(n,0,1)y <- -x+epsdata.frame(x,y)
## x y## 1 1.454 -0.895## 2 0.086 -0.309## 3 -0.913 0.366## 4 -1.233 0.975## 5 -0.188 -0.688## 6 -1.250 1.364## 7 1.003 -0.234## 8 0.249 0.068## 9 -0.135 0.378## 10 -0.161 -0.103## 11 0.879 0.052## 12 -0.206 -0.176## 13 -0.226 0.276## 14 0.606 -1.097## 15 1.759 -1.645## 16 1.276 -1.363## 17 -0.859 0.060## 18 1.466 -0.662## 19 0.218 0.370## 20 -1.813 1.224
Chapitre 1 Régression linéaire simple 9/42
library(ggplot2)ggplot(data.frame(x,y), aes(x=x, y=y)) + geom_point() + geom_smooth(method=lm,se=FALSE)
−1
0
1
−1 0 1x
y
coef(lm(y ~ x))
## (Intercept) x## -0.034 -0.674
Exercice : tapez ce code dans R et regardez ce qui se passe
- lorsque vous simulez plusieurs échantillons. Représentez alors les valeursestimées de β0 et β1 dans des boxplots.
- lorsque la valeur de σ2 varie, lorsque la valeur de n varie.
Chapitre 1 Régression linéaire simple 10/42
2. Estimation des paramètres β0, β1 et σ2
A partir de l’echantillon (aléatoire) de n observations
{(xi , yi ), i = 1, . . . , n},
on veut estimer les paramètres
β0, β1 et σ2.
- Pour estimer β0 et β1, on peut utiliser la méthode des moindres carrés quine nécessite pas d’hypothèse supplémentaire sur la distribution de εi (oude yi ), contrairement à la méthode du maximum de vraisemblance (quel’on peut aussi utiliser) qui est fondée sur la normalité de εi (ou de yi ).
- La méthode des moindres carrés ne fournit pas un estimateur de σ2.
Chapitre 1 Régression linéaire simple 11/42
Estimation de β0 et β1 par les moindres carrés
On cherche β0 et β1 qui minimisent la somme des erreurs quadratiques
ε2i = (yi − β0 − β1xi )2
On doit donc résoudre le problème d’optimisation suivant :
(β0, β1) = Arg min(β0,β1)∈R2
n∑i=1
[yi − (β0 + β1xi )]2. (4)
Vocabulaire :
yi = β0 + β1xi est appelé la valeur prédite.
εi = yi − yi est appelé le résidu.
Chapitre 1 Régression linéaire simple 12/42
Interprétation graphique
Graphiquement, β0 et β1 sont construits pour minimiser les distances verticalesentre les observations (yn) et la droite de régression théorique y = β0 + β1x .Nous avons représenté ces distances sur les figures ci-dessous.
−4 −2 0 2 4
−4
−2
02
4
Xn
Yn
−4 −2 0 2 4
−4
−2
02
4
Xn
Yn
La droite d’équation y = β0 + β1x est la droite de régression estimée sur lenuage de points
Chapitre 1 Régression linéaire simple 13/42
Résolution du problème d’optimisation
Le problème d’optimisation est :
min(β0,β1)
F (β0, β1),
avec F (β0, β1) =∑n
i=1{yi − (β0 + β1xi )}2.
Le minimum est atteint pour∂F (β0,β1)∂β0
∣∣∣β0=β0,β1=β1
= 0,
∂F (β0,β1)∂β1
∣∣∣β0=β0,β1=β1
= 0,
soit après quelques calculs :−2∑n
i=1(yi − β0 − β1xi ) = 0,
−2∑n
i=1(yi − β0 − β1xi )xi = 0.
Chapitre 1 Régression linéaire simple 14/42
Solution du problème d’optimisation
On en déduit après quelques manipulations :
β1 =1n
∑ni=1(xi − xn)(yi − yn)1n
∑ni=1(xi − xn)2
=cx,ys2x,
β0 = yn − β1xn.
où cx,y est la covariance empirique entre les xi et les yi et s2X est la variance
empirique des xi .
Commentaires
- Le minimum de F est égal à∑n
i=1 ε2i . Ce minimum est appelé la somme
des carrés des résidus (SCR).
- La valeur prédite yi estime E[yi ] = β0 + β1xi et non pas yi . Une meilleurenotation serait E[yi ].
- Aucune des hypothèses (A1), (A2) et (A3) n’a été utilisée ici pour obtenirles estimateurs β0 et β1.
Chapitre 1 Régression linéaire simple 15/42
Propriétés des estimateurs β0 et β1
Sous les hypothèses (A1), (A2) et (A3), on peut montrer que
- E[β0] = β0,
- E[β1] = β1,
- V(β0) = σ2(1n
+(xn)2∑n
i=1(xi − xn)2
),
- V(β1) =σ2∑n
i=1(xi − xn)2 .
Commentaires
- Les estimateurs β0 et β1 sont sans biais.
- Ils sont aussi de variance minimale parmi tous les estimateurs linéaires(par rapport à y1, . . . , yn) sans biais (propriété dite de Gauss-Markov).
Chapitre 1 Régression linéaire simple 16/42
Estimation de σ2
Le paramètre σ2 est défini par
σ2 = V(εi ) = V(yi )= E[(yi − E[yi ])
2].En prenant yi = β0 + β1xi comme estimateur de E[yi ], il apparaît natureld’estimer σ2 par
s2 =
∑ni=1(yi − yi )
2
n − 2=
∑ni=1(εi )
2
n − 2=
SCR
n − 2.
Commentaires
- s2 est un estimateur sans biais de σ2
- La perte de deux degrés de liberté dans l’expression de s2 est le “coût” del’estimation de β0 et de β1 nécessaire pour obtenir les yi .
Chapitre 1 Régression linéaire simple 17/42
Exemple de données réelles : les appartements Parisiens.
x <- apparts$surfacey <- apparts$prixplot(x,y,xlab='surface',ylab='prix',col=ifelse(x==50, "red", "black"))
20 40 60 80 100
100
200
300
400
500
surface
prix
Chapitre 1 Régression linéaire simple 18/42
Sorties R
mod <- lm(y ~ x) #fonction linear modelnames(mod)
## [1] "coefficients" "residuals" "effects" "rank" "fitted.values" "assign"## [7] "qr" "df.residual" "xlevels" "call" "terms" "model"
summary(mod)
#### Call:## lm(formula = y ~ x)#### Residuals:## Min 1Q Median 3Q Max## -71.47 -27.63 4.75 24.96 81.68#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 33.644 24.445 1.38 0.19## x 3.848 0.392 9.81 1.2e-08 ***## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1#### Residual standard error: 45 on 18 degrees of freedom## Multiple R-squared: 0.842, Adjusted R-squared: 0.834## F-statistic: 96.3 on 1 and 18 DF, p-value: 1.2e-08
Chapitre 1 Régression linéaire simple 19/42
20 40 60 80 100
100
200
300
400
500
x=surface
y=pr
ix
round(data.frame(y,val.predites=fitted(mod),residus=resid(mod))[1:5,],digit=2)
## y val.predites residus## 1 130 141 -11## 2 280 226 54## 3 268 245 23## 4 500 457 43## 5 320 265 55
n <- 20sqrt(sum(resid(mod)^2)/(n-2)) #residual standard error (square root of SCR)
## [1] 45
Chapitre 1 Régression linéaire simple 20/42
Graphique croisant les valeurs prédites yi et lesrésidus εi = yi − yi
100 150 200 250 300 350 400 450
−50
050
val.predites
resi
dus
Graphique croisant les valeurs prédites yi et lesvaleurs observées yi
100 150 200 250 300 350 400 450
100
200
300
400
500
val.preditespr
ix
Chapitre 1 Régression linéaire simple 21/42
3. Test d’hypothèses et intervalle de confiance pour β1
Typiquement, les hypothèses portant sur β1 ont plus d’intérêt que cellesportant sur β0. On va donc se limiter à tester la nullité de la pente β1 (absencede liaison linéaire entre x et y) :
H0 : “β1 = 0” contre H1 : “β1 6= 0”
Pour faire ce test, il est nécessaire de faire une hypothèse supplémentaire :
(A4) εi ∼ N (0, σ2)
ou de manière équivalente
yi ∼ N (β0 + β1xi , σ2).
Commentaire. L’unique “nouveauté” ici est la normalité.
Chapitre 1 Régression linéaire simple 22/42
Nouvelles propriétés pour les estimateurs β1 et s2
Sous les hypothèses (A1)-(A4), on a :
(a) β1 ∼ N(β1,
σ2∑ni=1(xi − xn)2
);
(b)(n − 2)s2
σ2 ∼ χ2(n − 2) ;
(c) β1 et s2 sont indépendants.
Commentaires. La propriété (a) est facile à établir. Les propriétés (b) et (c)seront démontrées ultérieurement.
Un rappel de probabilité
Si U ∼ N (0, 1), V ∼ χ2(ν) et U est indépendant de V , alorsU√Vν
∼ T (ν).
Chapitre 1 Régression linéaire simple 23/42
On déduit alors des propriétés (a)-(c) que
β1 − β1√σ2∑n
i=1(xi−xn)2√(n−2)s2
σ2
n − 2
=β1 − β1
s/√∑n
i=1(xi − xn)2∼ T (n − 2).
Commentaire. On peut remarquer que le dénominateur s/√∑n
i=1(xi − xn)2 est
un estimateur de√
V(β1), l’écart-type de β1.
On utilisera la statistique suivante :
Tn =β1 − β1
s/√∑n
i=1(xi − xn)2,
qui est distribuée selon une loi de Student à n − 2 degrés de libertés.
Chapitre 1 Régression linéaire simple 24/42
Test de H0 contre H1
Sous l’hypothèse H0 : “β1 = 0”, on a
Tn =β1
s/√∑n
i=1(xi − xn)2∼ T (n − 2). (5)
Pour une hypothèse alternative H1 : “β1 6= 0” bilatérale, on rejette H0 avec unrisque 0 ≤ α ≤ 1 si
|t| ≥ tn−2, 1−α/2
où t est la réalisation de Tn et tn−2,1−α/2 est le fractile d’ordre 1− α/2 de laloi T (n − 2).
Commentaire. Pour réaliser ce test, on peut également regarder la p-valeuraussi appelée niveau de signification du test : si p-valeur ≤ α, on rejette H0.Dans le cas d’un test bilatéral (H1 : “β1 6= 0”), on a :
p-valeur = P(|Tn| > |t| /H0). (6)
On rejette H0 si p-valeur ≤ α
Chapitre 1 Régression linéaire simple 25/42
Intervalle de confiance pour β1 au niveau de confiance 1− α :
L’intervalle de confiance de β1 est :
[β1 ± tn−2, 1−α/2s√∑n
i=1(xi − xn)2].
Commentaire. On rejette H0 si 0 n’appartient pas à cet intervalle.
Exemple des données appartements.
summary(mod)$coefficients
## Estimate Std. Error t value Pr(>|t|)## (Intercept) 33.6 24.44 1.4 1.9e-01## x 3.8 0.39 9.8 1.2e-08
qt(0.975,18) # quantile loi Student
## [1] 2.1
confint(mod)
## 2.5 % 97.5 %## (Intercept) -18 85.0## x 3 4.7
Chapitre 1 Régression linéaire simple 26/42
Table d’analyse de la variance (ANOVA) : On complète souvent l’étude en
construisant la table d’ANOVA.
Source de variation Somme des carrés ddl carré moyen F
régression (expliquée) SCE =∑n
i=1(yi − yn)2 1∑n
i=1(yi − yn)2 SCESCR/(n−2)
Résiduelle SCR =∑n
i=1(yi − yi )2 n-2 1
n−2∑n
i=1(yi − yi )2
Totale SCT =∑n
i=1(yi − yn)2 n-1 1n−1
∑ni=1(yi − yn)2
Commentaire. La statistique F , dite statistique de Fisher, permet de testerH0 : “β1 = 0” contre H1 : “β1 6= 0”.
On rejette H0 siF > f1,n−2, 1−α
où f1,n−2, 1−α est le fractile d’ordre 1− α d’une loi F (1, n − 2).
Chapitre 1 Régression linéaire simple 27/42
Commentaires.
- Le carré d’une variable de Student à ν degrés de libertés est une variablede Fisher à (1, ν) degrés de libertés.
- En régression linéaire simple, le test de Fisher issu de l’ANOVA est doncle même que le test de student pour tester la nullité de β1.
- En régression linéaire multiple, la table d’ANOVA et le test de Fisherpermettront de tester la nullité simultanée des p coefficients des pvariables explicatives soit H0 : “β1 = . . . = βp = 0”.
Exemple des données appartements.
anova(mod)
## Analysis of Variance Table#### Response: y## Df Sum Sq Mean Sq F value Pr(>F)## x 1 195068 195068 96.3 1.2e-08 ***## Residuals 18 36477 2026## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Chapitre 1 Régression linéaire simple 28/42
4. Coefficient de détermination
Le coefficient de détermination R2 est défini par
R2 =
∑ni=1(yi − yn)2∑ni=1(yi − yn)2 =
variabilité expliquée (SCE)variabilité totale (SCT)
= 1− SCR
SCT
Remarque. On a la formule “classique” de l’analyse de la variance nous donnantla décomposition suivante :
n∑i=1
(yi − yn)2 =n∑
i=1
(yi − yi )2 +
n∑i=1
(yi − yn)2
variabilité totale = variabilité résiduelle + variabilité expliquée
Commentaire. Le coefficient R2 donne la proportion de variabilité de y qui estexpliquée par le modèle. Plus le R2 est proche de 1, meilleure est l’adéquationdu modèle aux données.
summary(mod)$r.squared
## [1] 0.84
Chapitre 1 Régression linéaire simple 29/42
5. Prévision d’une valeur ultérieure
On désire prévoir à l’aide du modèle la valeur de la variable y pour une valeurnon observé x0 de x .
D’après le modèle on a y0 = β0 + β1x0 + ε0, où y0 et ε0 sont des variablesaléatoires. La prédiction naturelle est alors :
y0 = E[y0] = β0 + β1x0.
L’erreur de prédiction est définie par y0 − y0 et on peut montrer que sous leshypothèses du modèle (incluant l’hypothèse de normalité), on a :
y0 − y0 ∼ N(0, σ2
(1 +
1n
+(x0 − xn)2∑ni=1(xi − xn)2
)). (7)
Chapitre 1 Régression linéaire simple 30/42
On en déduit que :
y0 − y0
σ√
1 + 1n
+ (x0−xn)2∑ni=1(xi−xn)2
∼ N (0, 1).
On peut montrer que :
y0 − y0
s√
1 + 1n
+ (x0−xn)2∑ni=1(xi−xn)2
∼ T (n − 2).
On utilise ce résultat pour construire un intervalle de prédiction pour y0, c’est àdire l’intervalle [A,B] tel que
P(A ≤ y0 ≤ B) = 1− α.
Ici, y0 est une variable aléatoire et non pas un paramètre. L’intervalle deprédiction est donc un intervalle dans lequel une future observation y0 vatomber avec une certaine probabilité (différent d’un intervalle de confiance).
Chapitre 1 Régression linéaire simple 31/42
On en déduit l’intervalle de prédiction pour y0 au niveau de confiance 1− αsuivant : [
y0 ± tn−2, 1−α/2 s
√1 +
1n
+(x0 − xn)2∑ni=1(xi − xn)2
]
Commentaires. La variance de l’erreur de prévision dépend
- de la variabilité intrinséque σ2 de la variable (aléatoire) y0,
- de la variabilité due à “l’imprécision” des estimations de β0 et β1 dans laformule de régression.Cette source de variabilité peut être réduite (en augmentant la taille del’échantillon par exemple), contrairement à la première source devariabilité.
Chapitre 1 Régression linéaire simple 32/42
On peut aussi construire un intervalle de confiance de la valeur moyenne
E[y0] = β0 + β1x0,
qui est cette fois un paramètre. On va donc chercher l’intervalle aléatoire [A,B]tel que
P(A ≤ E[y0] ≤ B) = 1− α.
Pour construire cet intervalle, on montre que :
y0 ∼ N(β0 + β1x0, σ
2(1n
+(x0 − xn)2∑ni=1(xi − xn)2
)), (8)
y0 − β0 + β1x0
s√
1n
+ (x0−xn)2∑ni=1(xi−xn)2
∼ T (n − 2). (9)
On en déduit l’intervalle de confiance de E[y0] suivant :[y0 ∓ tn−2, 1−α/2 s
√1n
+(x0 − xn)2∑ni=1(xi − xn)2)
].
Chapitre 1 Régression linéaire simple 33/42
Exemple des données appartements.x0 <- 50predict(mod,data.frame(x=x0),interval="prediction")
## fit lwr upr## 1 226 129 323
predict(mod,data.frame(x=x0),interval="confidence")
## fit lwr upr## 1 226 204 248
20 40 60 80 100
100
200
300
400
500
surface
prix
confianceprediction
Chapitre 1 Régression linéaire simple 34/42
Code R pour obtenir ce graphique.
seqx <- seq(min(x),max(x),length=50)intpred <- predict(mod,data.frame(x=seqx),interval="prediction")[,c("lwr","upr")]intconf <- predict(mod,data.frame(x=seqx),interval="confidence")[,c("lwr","upr")]plot(y~x,xlab="surface",ylab="prix",cex=0.8)abline(mod)matlines(seqx,cbind(intconf,intpred),lty=c(2,2,3,3), col=c("red","red","blue","blue"),lwd=c(2,2))legend("bottomright",lty=c(2,3),lwd=c(2,1), c("confiance","prediction"),col=c("red","blue"),cex=0.8)
20 40 60 80 100
100
200
300
400
500
surface
prix
confianceprediction
Chapitre 1 Régression linéaire simple 35/42
6. Quelques compléments
Quelques graphiques permettant de “vérifier visuellement” des hypothèsessous-jacentes.
- Graphique croisant les valeurs prédites yi et les résidus εi = yi − yi :
2 4 6 8 10 12 14
-4-2
02
4
val.predites
residus
On observe un “comportement aléatoire" et “une variance constante".
Chapitre 1 Régression linéaire simple 36/42
-4 -2 0 2 4
-10
-50
5
val.predites
residus
On observe un “structure évidente" dans les résidus (qui ne sont plus vraimentaléatoires).
↪→ Il faut “changer” de modèle pour essayer de prendre en compte cettestructure.
(Par exemple rajouter un terme quadratique x2 dans la partie explicative dumodèle).
Chapitre 1 Régression linéaire simple 37/42
0.0 0.2 0.4 0.6 0.8 1.0
-4-2
02
46
810
val.predites
residus
On observe que “la variance des résidus n’est pas constante", elle augmenteclairement en fonction de yi (elle dépend donc des xi ). Il n’y a donc pashomoscédasticité.
↪→ Il faut “changer” de modèle pour prendre en compte cette hétéroscédasticité.
Chapitre 1 Régression linéaire simple 38/42
- Graphique croisant les valeurs prédites yi et les valeurs observées yi :
0 5 10 15
05
1015
val.predites
y
Les points s’alignent sur la première bissectrice :l’adéquation du modèle aux données est correcte.
Chapitre 1 Régression linéaire simple 39/42
0 5 10 15 20
05
1015
2025
val.predites
y
On voit ici clairement apparaître une structure non linéaire :il y a une mauvaise adéquation du modèle.
↪→ Il faut changer de modèle.
Chapitre 1 Régression linéaire simple 40/42
Normalité des résidus.
La théorie sous-jacente à l’inférence du modèle (tests d’hypothèses , intervallesde confiance et de prédiction) suppose la normalité du terme d’erreur εi .
Il convient donc de tester cette hypothèse a posteriori en utilisant les résidus dumodèle : {εi , i = 1, . . . , n}. Pour cela, on peut faire un test de normalité deShapiro-Wilk.
residus <- resid(mod)shapiro.test(residus)
#### Shapiro-Wilk normality test#### data: residus## W = 1, p-value = 0.7
Dans l’exemple des appartements, en prenant un risque de première espèce de5%, on accepte la normalité des résidus (p-value=0.5177> α = 5%). Les testsd’hypothèses sont donc “valides” ainsi que les intervalles de confiance.
On peut aussi faire un examen graphique de la normalité des résidus.
Chapitre 1 Régression linéaire simple 41/42
Résidus standardisés : on divise εi par son écart-type (estimé) :
ε∗i =εi
s√1− hii
avec hii = 1n
+ xi−x∑ni=1(xi−x)2
Parfois appelé résidus studentisés (interne) car comme εi suit une loi normale,on peut montrer que ε∗i ∼ T (n− 2) et pour n assez grand on pourra considérerque ε∗i ∼ N (0, 1).
Histogram of residus
residus
Fre
quen
cy
−50 0 50 100
01
23
4
Histogram of res.student
res.student
Fre
quen
cy
−2 −1 0 1 2
01
23
4
Chapitre 1 Régression linéaire simple 42/42