Régression linéaire simple -...
Transcript of Régression linéaire simple -...
Régression linéaire simple et calibration
1- Régression linéaire et MMC
2- Intervalles de confiance et tests dans le cas normal
3- intervalle de prédiction
4- Étude des résidus
5- Exemple numérique (à la main et sur SAS)
6- Cas particulier de la calibration
7- Compléments en annexe
1
Deux approches: Corrélation ou
Régression
2
Régression: La connaissance de la valeur prise par X permet-elle de
prédire la valeur prise par Y ?
3
4
5
Fonction à minimiser!
6
apprenez--la sous cette
forme!
Important: les estimateurs sont
des v.a 7
Remarque uniquement pour les
curieux
8
La variation totale se décompose de la manière suivante
avec:
9
Autrement dit, en rajoutant les coefficients nécessaires
Variance totale= variance expliquée par la régression linéaire + variance résiduelle
Coefficient de détermination
10
Propriété importante: Le carré du coefficient de corrélation est égal au coefficient de détermination
11
Revenons au modèle linéaire: Jusqu’à maintenant nous n’avons pas fait de statistique puisque nous n’avons pas introduit
de variable aléatoire
Supposons que l’erreur ε suivant une loi normale N(0, σ²) et testons que X explique significativement Y H0: régression non significative (ou pente=0 ou coefficient de
corrélation théorique=0)
On reprend la décomposition en sommes de carrés
12
Si la somme des carrés due à la régression est « beaucoup plus grande » que
la somme des carrés résiduelle, alors la régression est significative
13
14
/* Exemple: Dans une expérience chimique liée à la transition de phase du bismuth,
on a relevé la pression en différentes températures. *
data bismuth;
input Temperature pression; cards; 208 25366
209 25356
210 25356
219 25256
221 25267
221 25306
224 25237
225 25267
248 25138
248 25148
250 25143
340 24731
340 24751
341 24771
427 24424
427 24444
427 24419
499 24117
501 24102
501 24092
225 25202
231 25157
230 25157
;
proc reg data=bismuth;
model pression= temperature;
run;
15
16
Annexe pour les curieux: Pour déterminer la valeur critique lors de la comparaison des sommes de carrés, il faut
connaître les lois suivies par ces sommes de carrés si l’erreur ε est une loi normale de moyenne 0 et d’écart-type σ?
17
Note: Ceci est le test de Fisher pour démontrer qu’une régression est
significative.
On verra que dans le cas d’une régression simple à une variable explicative, il
est équivalent au tes de la nullité de la pente avec un test de Student. 18
Variances de la pente et de
l’ordonnée à l’origine
et donc
Intervalles de confiance des
paramètres
19
Inférence sur les estimateurs des paramètres Propriété: a est une estimation sans biais du paramètre α b est une estimation sans biais du paramètre β Note: a est une réalisation de la v.a A b est une réalisation de la v.a B
Qualité des estimateurs
20
Important: variances des estimateurs de la pente et de l’ordonnée à l’origine
Note: Comme on ne connait pas σ² on l’estime par l’estimateur sans biais suivant
21
Propriétés des écarts résiduels:
Calcul de la variance des écarts résiduels
Pour les curieux!
22
Q: Qu’arrive-t-il si l’erreur ε suit une loi normale? Dans ce cas: R: les v.a A , B et Y* sont des v.a normales
Écart-type!
Note: 23
Loi de l’estimateur de la variance des résidus
Servira lors des test de régression
Pour les curieux: On démontre « facilement » que:
24
Comment construire des I.C pour les estimateurs des paramètres?
N’ayez pas peur de ces formules; en général, SAS se chargera de les
calculer pour vous 25
26
Exemple du bismuth:
proc reg data=bismuth ;
model pression= temperature;
run;
27
/* Demandons les IC des paramètres ordonnée
à l'origine et pente */
proc reg data=bismuth outest = Sortie Tableout;
/* on stocke les IC et d'autres valeurs
dans la table Sortie avec l'instruction
Tableout*/
model pression= temperature;
run;
proc print data=Sortie; /* On lit les IC */
run;
28
Ce tableau fournit les IC de:
L’ordonnée à l’origine: (26130.97; 26220.46)
La pente: (-4.2753 ; -3.9962)
Étude d’une valeur prévisionnelle
Important: x0 est une nouvelle valeur de X n’appartenant aux valeurs de X ayant servi à calculer la droite de régression. D’autre part, nous ne connaissons pas Yo , mais uniquement Yo* Essayons donc de trouver un intervalle « prévisionnel » pour Yo
en nous servant de son estimation Yo* 29
La variable Y définie par:
suit pour x=x0 suit la loi normale
La loi de Y* est
Pour le nouvel x0, il suffit de remplacer x par x0 dans la formule précédente
30
Sachant que:
31
32
Attention: ne pas confondre :
L’intervalle de confiance de la moyenne des prédictions pour
un X0 donné
et
l’intervalle de prévision d’une prédiction individuelle pour un
X0 donné.
Propriété: Le second IC est toujours plus grand que le
premier
Remarque: La moyenne des prédictions pour un X0 donné
est un paramètre fixe (l’IC est est intervalle de confiance),
La prédiction individuelle pour un X0 donné est une variable
aléatoire (l’intervalle est un intervalle de pari)
33
Comment demander sous SAS la valeur prévisionnelle de la pression et
ses IC pour une température donnée xo= 310.
Exemple du Bismuth:
data bismuthBis; /* la valeur 310 est une nouvelle température dont on
ignore la pression correspondante */
input Temperature pression;
cards; 208 25366
209 25356
210 25356
219 25256
221 25267
221 25306
224 25237
225 25267
248 25138
248 25148
250 25143
340 24731
340 24751
341 24771
427 24424
427 24444
427 24419
499 24117
501 24102
501 24092
225 25202
231 25157
230 25157
310 .
;
34
proc reg data=bismuthBis ;
model pression= temperature;
output out=SortieBis
p=pression_predite r=residu
LCL= B_inf_ind UCL=B_sup_ind
LCLM=B_inf_moy UCLM=B_sup_moy ;
run;
title;
proc print data=SortieBis;
/* On lit les IC des prédictions individuelles et des prédictions des moyennes */
var temperature pression B_inf_ind pression_predite B_sup_ind
B_inf_moy B_sup_moy ;
run;
35
36
37
Le modèle est-il bon?
Inspection graphique
Quand on a la formule de régression, encore faut-il qu’elle
représente bien les données!
Inspections graphiques des hypothèses de la régression…
38
L’inspection des résidus est capitale!
39
40
41
Quels graphes supplémentaires faire
avec les résidus ?
1) Tracé des résidus contre chaque prédicteur
2) Tracé des résidus contre la réponse estimée
42
43
Détection des valeurs « atypiques »
1) Par le calcul de l’intervalle de prévision (ou de prédiction)
2) Par l’inspection graphique si un résidu se « détache » des autres
44
Exemple : le nombre d’accident et le nombre d’immatriculations sont divisés par 1000
45
46
47
48
49
50
51
52
Programme SAS
data voitures;
input x y;
cards;
150 84
160 75
210 90
215 100
230 104
250 112
260 130
300 140
320 120
340 150
400 160
420 170
;
53
proc gplot data=voitures;
plot y*x;
symbol1 v=dot i=RL c=red;
run; quit;
title 'Regression de Y sur X';
proc reg data=voitures;
model y=x;
output out=fichierSortie1 P=Yetoile R=Residu;
run;
title 'Residus contre x';
proc gplot data=fichierSortie1;
plot Residu*x;
symbol1 v=dot i=none;
run; quit; 54
Graphe de y contre x
55
Fisher
Test de Student sur la pente 56
Graphe des résidus contre x : PAS DE TENDANCE!
57
Prédiction pour une nouvelle valeur x=500 On indique à SAS la valeur manquante par un point .
data voitures;
input x y;
cards;
150 84
160 75
210 90
215 100
230 104
250 112
260 130
300 140
320 120
340 150
400 160
420 170
500 .
;
58
proc reg data=voitures ;
model y=x;
output out=fichierSortie2 P=Yetoile
L95=BInfI U95=BSupI ;
run;
proc print data=fichierSortie2;
var x y BInfI Yetoile BSupI;
run;
59
Lire la valeur correspondant au nouveau x=500
60
Intervalles de prédiction pour les valeurs individuelles
61
Cas particulier de la calibration
Une courbe de calibration est une équation empirique liant la
réponse d’un instrument spécifique à la concentration, par
exemple, d’un produit chimique dans une solution.
Nous nous contenterons ici d’une réponse linéaire y = a+bx
Dans le cas de Beer-Lambert, l’équation se réduit (en
théorie) à y= bx.
Données: N couples (Xi , Yi)
Les calculs peuvent être faits avec Excel .
62
63
Rappelons les formules de la Pente, de l’ordonnée à l’origine et du coefficient de
corrélation…
64
Exemple de données de calibration
65
Écart-type des résidus
Écart-type de la pente
Écart-type de l’ordonnée à l’origine
Calculons les IC à 99% avec tn-2 = 2.58
66
67
Précision de la prédiction de la prédiction
d’une concentration à partir de la courbe
de calibration
D’où calcul de l’écart-type
1)Une seule valeur Yo, sans réplication:
Ex: Yo = 2.9 d’où Xo = 0.72
avec la droite Y= 1.930 X + 1.518
Sy/x = 0.4329 d’où Sxo= 0.26
D’où l’IC à 95% est:
C= XO ± t* 0.26
avec t=2,57 le quantile d’un Student de n-2 ddl 68
2) m réplications YO pour le même XO
La prédiction X0 est la moyenne des prédictions avec les
YO
L’écart-type en XO est:
69
70
Détermination des limites de
détection et de quantification
71
On cherche à doser une certaine substance.
Soit le test H0: il n’y as pas de substance dans la solution
H1: la quantité de substance n’est pas nulle
LoD: La limite de détection LoD est la plus petite concentration que l'on
peut distinguer du blanc avec un risque alpha de 1ère espèce de garder
des échantillons ne contenant rien.
C'est-à-dire la valeur à partir de laquelle un test statistique de comparaison de
la réponse à la valeur 0 devient significatif avec un risque d'erreur alpha
LoQ: correspond à la plus petite valeur de la concentration pour laquelle
rejeter à tort H1 (la quantité d’analyte n’est pas nulle) au risque béta de
seconde espèce.
En gros: La limite de détection est la plus petite quantité du composé à
doser pouvant être détectée mais non nécessairement quantifiée comme
exacte.
La limite de quantification est la plus petite quantité du composé
pouvant être dosé par la méthode.
72
73
Réponse analytique
74
Méthode 1:
Lecture directe de n mesures (réponse ou grandeur de l'analyte) de blancs
d'analyse indépendants sur des échantillons contenant l'ensemble des
constituants, à l'exception de la substance à rechercher.
LD = mblanc + 3 Sblanc,
LQ = mblanc + 10 Sblanc
où mblanc et Sblanc la moyenne et l'écart-type sur les n mesures de
blancs.
Note : Le facteur multiplicatif 3 correspond à un risque de 0,13 % de
conclure à la présence de la substance recherchée alors qu'elle est
absente.
75
76
Méthode 2 :
Utilisation de la droite d'étalonnage : Y = a + b X
YLD = a + 3 Sa d’où XLD = 3 Sa / b
YLQ = a + 10 Sa d’où XLD = 10 Sa / b
avec Sa l'écart-type sur l'ordonnée à l'origine de la droite
de régression
77
Exemple: Estimation des limites de détection et de quantification du dosage
de l’acide sorbique par électrophorèse capillaire, à partir de données de
linéarité acquises sur une gamme de 1 à 20 mg.L-1.
78
Exemple, placé en post-scriptum, sur
l’utilité de toujours commencer par un
graphe
Attention de nouveau: commencer d’abord par des graphes!
Pour enfoncer le clou avec un exemple célèbre d’Anscombe: 4 ensembles de
données (X,Y).
Calculons les droites de régression pour chaque couple (Y,Y) et comparons-les
79
Les relations entre les couples (X,Y) sont très dissemblables. Ne jamais se
contenter seulement des résumés numériques!
80
Annexe: Les développements
suivants sont réservé uniquement à
ceux terrassés par une passion
soudaine pour les statistiques et pour
SAS…
81
Reprenons les développements théoriques du début du cours et
illustrons-les par des simulations.
82
83
84
85
86
Et si nous refaisions de nouvelles mesures, qu’obtiendrions-nous?
Et si nous nous aidions de simulations?
87
Résultat de 400 simulations des estimations des
paramètres ordonnée à l’origine et pente
88
89
La méthode des moindres carrés: dans le cas normal, les estimateurs des
paramètres par la MMC sont efficaces (de variance minimum parmi tous les
estimateurs possibles)
1er
2ème
90
data chromato;
input ETHANOL SURFACE ;
cards;
0.2 2.88
0.2 1.72
0.6 4.70
0.6 5.28
1 10.92
1 7.70
1.4 12.35
1.4 11.40
1.8 13.47
1.8 12.52
;
proc print data=chromato;
run;
proc gplot data=chromato;
plot surface*ethanol;
symbol1 v=dot i=rl color=green;
run;
proc reg data=chromato;
model surface=ethanol;
run;
Programme SAS pour l’exemple sur l’éthanol et la chromato
91
92
93