1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur...
-
Upload
ines-remond -
Category
Documents
-
view
105 -
download
0
Transcript of 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur...
![Page 1: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/1.jpg)
1
Régressions
Christelle ScharffIFI
2004
![Page 2: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/2.jpg)
2
Régression linéaire
Cette méthode se focalise sur les cas où les valeurs d’une variable à prédire sont continues
Les valeurs à prédire peuvent être représentées par une fonction linéaire, donc une droite
![Page 3: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/3.jpg)
3
Régression logistique
Cette méthode se focalise sur les situations où les valeurs d’une variable à prédire sont binaires (0 ou 1) Exemple: Une variable booléenne
Au lieu de prédire la valeur d’une variable, on prédit la probabilité de la variable à être égale à 0 et 1.
Les probabilités décrivent une sigmoïde (courbe en forme de S) entre 0 et 1
![Page 4: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/4.jpg)
4
Prédiction de banqueroute
![Page 5: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/5.jpg)
5
Étude de Cas
![Page 6: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/6.jpg)
6
Compagnie de téléphone Adoption d’un nouveau service téléphonique (boite
vocale, accès a Internet…) suivant l’éducation, la stabilité de résidence et le salaire
10524 personnes ont répondu à un questionnaire sur ce thème réalisé par une compagnie de téléphone
Comment prédire l’adoption d’un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et du salaire d’une personne?
![Page 7: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/7.jpg)
7
Réponses au questionnaire
Il y a 2160 personnes qui ont répondu au questionnaire qui ont un niveau d’étude inférieur ou égale au lycée, un bas salaire et qui n’ont pas changé de résidence depuis 5 ans.
Il y a 153 personnes (sur ces 2160 personnes) qui ont adopté un nouveau service téléphonique
Probabilité globale d’adoption d’un nouveau service téléphone pour cette catégorie: 1628/10524 = 0.155
![Page 8: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/8.jpg)
8
Le modèle de régression logistique
• Prédire la probabilité de la valeur de Y à partir de variables indépendantes x1,…, xk
• Y = 1: Choisir une option
• Y = 0: Ne pas choisir une option
Les i sont des constantes inconnues à déterminer. Ils sont calculés/estimés par des programmes.
Exemples: Maximum Likehood Estimates, Newton-Raphson
![Page 9: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/9.jpg)
9
Interprétation des coefficients
Si i = 0, alors le facteur i n’a aucun effet sur la chance de succès
Si i > 0, le facteur i augmente la chance de succès
Si i < 0, le facteur i décroît la chance de succès
![Page 10: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/10.jpg)
10
Suite de l’ étude de cas
![Page 11: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/11.jpg)
11
Poser le problème (1)
On doit calculer les probabilités d’adopter un nouveau service téléphonique en fonction de l’éducation, de la stabilité de résidence et le salaire d’une personne
Soit Y la variable représentant l’adoption d’un nouveau service téléphonique Y = 1 si un nouveau service est adopté, et Y =
0 sinon
![Page 12: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/12.jpg)
12
Poser le problème (2) On a trois variables x1 pour l’éducation,
x2 pour la stabilité de résidence et x3 pour le salaire
X1 = 1 pour un niveau d étude supérieur ou égal à l’université, 0 sinon
X2 = 1 pour un changement de résidence dans les 5 dernières années, 0 sinon
X3 = 1 pour un salaire élevé, 0 sinon Modèle:
![Page 13: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/13.jpg)
13
Résumé des données
![Page 14: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/14.jpg)
14
Calcul de 0, 1, 2et 3
0 1 2 3
![Page 15: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/15.jpg)
15
Modèle
2160 x 0.076 = 164
Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique
![Page 16: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/16.jpg)
16
Nouvelles données598 nouvelle personnes sont sondées
85 x 0.289 = 24.5
Estimation du nombre de personnes qui peuvent adopter un nouveau service téléphonique
Calculs d’erreurs
![Page 17: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/17.jpg)
17
Calcul d’erreurs
Total erreur: -2.8 (or 2.8 / 119 = 2.3%)
La moyenne d’erreur absolue (sommes des erreurs absolues / 119): 24.9%
![Page 18: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/18.jpg)
18
Tableau de contingence Matrice de contingence [Kohavi,
Provost, 1998]:
ObservéPrédit
Adopteur Non Adopteur
Total
Adopteur 103 (TP) 13 (FP) 116
Non adopteur
16 (FN) 466 (TN) 482
Total 119 479 598TP: true positive, FP: false positive, FN: false negative, TN: true negative
![Page 19: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/19.jpg)
19
Calcul de taux Vrais positives:
Cas positifs correctement prédits 103 / 119 = 86.5 %
Fausses positives: Cas incorrectement prédits positif 13 / 479 = 2.7 %
Exactitude: Nombre total de prédictions correctes (103 + 466) / 598 = 95.15%
Précision: Proportion des prédictions positives correctes 103 / (103 + 13) = 88.8 %
Erreurs: Proportion des prédictions incorrectes (13+16) / 598 = 4.85 %
![Page 20: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/20.jpg)
20
Quel est le meilleur modèle? Vrai: Offrir une carte de crédit Faux: Ne pas offrir une carte de crédit Modèle 1:
Modèle 2:
Taux d’erreur pour les 2 modèles: 10% Le meilleur modèle est Modèle 2 car ce modèle a
moins de FP
TP 600
FP 75
FN 25 TN 300TP
600FP 25
FN 75 TN 300
![Page 21: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/21.jpg)
21
Conclusion Méthode facile a comprendre Méthode efficace Les prédictions sont faciles à
réaliser Le bruit peut avoir un effet
significatif sur la méthode Besoin de plusieurs mesures pour
évaluer le modèle
![Page 22: 1 Régressions Christelle Scharff IFI 2004. 2 Régression linéaire Cette méthode se focalise sur les cas où les valeurs dune variable à prédire sont continues.](https://reader034.fdocument.pub/reader034/viewer/2022051614/551d9d94497959293b8ca9dc/html5/thumbnails/22.jpg)
22
Références N. R. Nitin, and P. C. Bruce. Data
Mining in Excel : Lecture notes and Cases.
Cours de modélisation et de fouilles de données de Prof. Ravi Mantena, New York University.