Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
Outils d’analyse statistiquesOutils d’analyse statistiques
« programmation par l’exemple »« programmation par l’exemple »
S. Canu,
laboratoire PSI, INSA de Rouenéquipe « systèmes d’information pour
l’environnement »
psichaud.insa-rouen.fr/~scanu
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Plan de RoutePlan de Route
– traitement de données environnementales– risque statistique– études de cas
– nez électronique– capteur logiciel– prévision de charge entrante– modélisation de l’écrouissage
– programmation à base d’exemples– exemples d’applications potentielles
— prévision de rupture— prévision des « bouchons »
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement
Nature des phénomènes• beaucoup de données disponibles
• dépendances complexes : non linéaires, bruités
• les événements intéressants sont rares
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement
Nature des phénomènes• beaucoup de données disponibles
• dépendances complexes : non linéaires, bruités
• les événements intéressants sont rares
Problèmes à résoudre• validation de données • prévision à court terme• évaluation de la situation • décision.
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Système d’information pour l’environnementSystème d’information pour l’environnement
Nature des phénomènes• beaucoup de données disponibles
• dépendances complexes : non linéaires, bruités
• les événements intéressants sont rares
Solution• programmation à base d’exemple • précision de la prévision• domaine de validité
Problèmes à résoudre• validation de données • prévision à court terme• évaluation de la situation • décision.
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique
*
*
b
a
dxxfI )(
Exemple : comment calculer une intégrale ?
a b
f(x)c
n
1i
1 avec par estiméeest
inZZ
Z(b-a)(c-a)I
C’est la méthode de Monté Carlo
* **
*
**
*
** **
*
** ** *
** *
**
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique
Définition : Précision d’un estimateur (risque associé à un estimateur)
Le cas quadratique :
- Biais- Variance
2
2
22
2
ˆˆet ˆ
ˆˆˆ)(
ˆ,ˆcout
,ˆcout)(
EEVEB
BV EEEER
ER
*
*
b
a
dxxfI )(
Exemple : comment calculer une intégrale ?
a b
f(x)c
n
1i
1 avec par estiméeest
inZZ
Z(b-a)(c-a)I
C’est la méthode de Monté Carlo
* **
*
**
*
** **
*
** ** *
** *
**
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique
Définition : Précision d’un estimateur (risque associé à un estimateur)
Le cas quadratique :
- Biais- Variance
2
2
22
2
ˆˆet ˆ
ˆˆˆ)(
ˆ,ˆcout
,ˆcout)(
EEVEB
BV EEEER
ER
Risque = moyenne des erreurs
*
*
b
a
dxxfI )(
Exemple : comment calculer une intégrale ?
a b
f(x)c
n
1i
1 avec par estiméeest
inZZ
Z(b-a)(c-a)I
C’est la méthode de Monté Carlo
* **
*
**
*
** **
*
** ** *
** *
**
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Risque statistiqueRisque statistique
Définition : Précision d’un estimateur (risque associé à un estimateur)
Le cas quadratique :
- Biais- Variance
2
2
22
2
ˆˆet ˆ
ˆˆˆ)(
ˆ,ˆcout
,ˆcout)(
EEVEB
BV EEEER
ER
Risque = moyenne des erreurs
Risque = erreur systématique + aléa
*
*
b
a
dxxf )(
Exemple : comment calculer une intégrale ?
a b
f(x)
c
n
1i
1 avec
ˆpar estiméeest
inZZ
Z(b-a)(c-a)
C’est la méthode de Monté Carlo
* **
*
**
*
** **
*
** ** *
** *
**
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Statistiques pour le calculStatistiques pour le calcul
• Monté Carlo
• relaxation, recuit simulé...
• résolution d’un système linéairen3 : méthodes itératives plus rapides
mais « aléatoires »
• Modélisation : utilisation d’exemples
La modélisation statistique de phénomènes déterministes peut s’avérer utile
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
Quelques applicationsQuelques applications
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Nez électroniqueNez électronique
• Objectifs– remplacer un capteur coûteux par 6 capteurs « bon marché »– détecter certaines situation critiques
• Données disponibles– 280 points de mesures– 12 variables mesurées (pentes et conductance des capteurs)
• a priori– phénomènes « réguliers »– coût « absolu »
• méthode– S.V.M. (un genre de réseau de neurones)– sélection des variables pertinentes par analyse discriminante– définition des zones d’ambiguïté– définition d’un domaine de validité du domaine
• Résultats
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1-1.5
-1
-0.5
0
0.5
1
1.5Discrimination par SVM
Nez électroniqueNez électronique
inconnus
Ambigus
Classe 1
Classe 2
Classe 3
Régle de décision dans le plan de l’AFD
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Capteur logicielCapteur logiciel
• Objectifs– valider les données d’un capteur physique de NH4
– remplacer ce capteur pour la détection
• Données disponibles– 4 années, toutes les heures– 24 variables mesurées (pH, température, conductance, turbidité,…) – beaucoup de données manquantes
• a priori– phénomènes « réguliers »– coût quadratique
• méthode– réseau de neurones– sélection des variables pertinentes– prévision de l’erreur de prédiction par un autre réseau de neurones– définition d’un domaine de validité du domaine
• Résultats
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Capteur logicielCapteur logiciel
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévision de la charge entrantePrévision de la charge entrante
• Objectifs– prévoir quand et quelle quantité de polluant va arriver à . la station d’épuration
• Données disponibles– 12 années, toutes les heures– 24 variables mesurées : pluie, charge entrante, température
• a priori– phénomènes « réguliers »– coût quadratique
• méthode– prévision de la pluie par un réseau de neurones– prévision de la charge par un second réseau de neurones– structurer les réseaux de neurones à priori– définition d’un domaine de validité du domaine
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage
• Objectif– prévoir le comportement de l’alliage en fonction des forces
• Données disponibles– simulations logiciel dans un premier temps– données réelles ensuite
• a priori– phénomènes temporels à mémoire– coût quadratique
• méthode– réseau de neurones récurrents (bouclés)– approche incrémentale
• Résultats
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage
f(t) : la force appliquée au cours du tempse(t) : l’allongement constaté au cours du temps
-1 0 1 2 3 4 5-4
-3
-2
-1
0
1
2
3
4
5
Deformations
For
ce a
ppliq
ue
Déformations - plastiques - élastiques
Écrouissage - isotrope - cinématique
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage
f(t) : la force appliquée au cours du tempse(t) : l’allongement constaté au cours du temps
-1 0 1 2 3 4 5-4
-3
-2
-1
0
1
2
3
4
5
Deformations
For
ce a
ppliq
ue
Déformations - plastiques - élastiques
Écrouissage - isotrope - cinématique
Pour une même valeurdu couple (F,D)
le futur est imprédictibleIl faut connaître
le passé du système
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Écrouissage : le modèle « statistique »Écrouissage : le modèle « statistique »
x
e(t) = e(t-1) + D (f(t)-f(t-1))z-1
e
sp
sm
f(t)
f(t-1)
1
1-1
+1
a+b
a-b
-a
Plastique/Elastique
1
Monte/Descend
On cherche à « écrire » un programme, qui à partir d’une suite de « forces » calcule la réponse de la pièce
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ÉcrouissageÉcrouissage
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Écrouissage : résultatsÉcrouissage : résultats
-2 -1 0 1 2 3
x 10-3
-150
-100
-50
0
50
100
150
Dé formation
For
ce
mesure
modèle
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
0 50 100 150 200 250 300-1
-0.5
0
0.5
1
time (samples)
Output (solid) and one-step ahead prediction (dashed)
0 50 100 150 200 250 300-0.2
0
0.2
0.4Prediction error (y-yhat)
time (samples)
Écrouissage : résultatsÉcrouissage : résultats
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
• Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X)
• Utilisation : pour un X donné : prévoir Y
• Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y)
a priori sur la structure du modèle
• Difficultés : Généralisation données limitées remplir les trous
• Tâches génériques : Discrimination, Régression,
Prévision à un pas de temps, Identification
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Modules logiciels
• Apprendre : des entrées : X, et des sorties : Y • But : trouver une dépendance : r(X)
• Utilisation : pour un X donné : prévoir Y
• Connaissance : données : (Xi,Yi), i=1,n cout : C(x,r(x),y)
a priori sur la structure du modèle
• Difficultés : Généralisation données limitées remplir les trous
• Tâches génériques : Discrimination, Régression,
Prévision à un pas de temps, Identification
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Modèle « boite noire »Modèle « boite noire »
y = r(X)
Y = F(X, )
Prévision^
erreurX
Entrées Observables
Entrées NonObservables
SystèmeRéel
CRITERE
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme Yf dR :
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
a priori cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
a priori cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
a priori cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Programmation à base d’exemplesProgrammation à base d’exemples
Exemples : (formes x, étiquettes y, confiance)
Algorithme
programme
Pas de modèle : – si on veut pourvoir tout apprendre, il faut contrôler la complexité
Représentation des incertitudes : – fusion d’informations incertaines
Méthodologie et applications : – domaine de validité, intervalle de confiance, heuristiques
Yf dR :
a priori cout
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
-2 0 2-3
-2
-1
0
1
2
3
-1
0
0 1
1
1
Aspects fondamentauxAspects fondamentaux
Poser le problème les enjeux théoriques de l'apprentissage
Explorer une solution possible la régularisation
Développer de nouvelles approches nouveaux algorithmes
Étude d'un problème fondamental sélectionner les variables explicatives pertinentes
fyxf iif
)(min
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000PerspectivesPerspectives
Huile+gaz+eau
Bouchons
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons
Algorithme de
prévision
Une forme xhistorique,
taille, profil et points bas de la canalisationtempérature, débit
y« date » d’arrivé
et taille du prochain bouchon
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000
y« date » d’arrivé
et taille du prochain bouchon
Prévoir la taille des bouchonsPrévoir la taille des bouchons
Algorithme de
prévision
Une forme xhistorique,
taille, profil et points bas de la canalisationtempérature, débit
A : Algorithme d’apprentissage
niyxS iin ,1 , Ensemble d’apprentissage (échantillon)
1
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons
Algorithme de
prévision
Une forme xhistorique,
taille, profil et points bas de la canalisationtempérature, débit
A : Algorithme d’apprentissage
niyxS iin ,1 , Ensemble d’apprentissage (échantillon)
)(,)(C,et )(
:couts les
XDSCEDJDJ
2
1
y« date » d’arrivé
et taille du prochain bouchon
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000Prévoir la taille des bouchonsPrévoir la taille des bouchons
Algorithme de
prévision
Une forme xhistorique,
taille, profil et points bas de la canalisationtempérature, débit
A : Algorithme d’apprentissage
niyxS iin ,1 , Ensemble d’apprentissage (échantillon)
)(,)(C,et )(
:couts les
XDSCEDJDJ
A priorisur la
nature de la solution
2
1
3
y« date » d’arrivé
et taille du prochain bouchon
Séminaire de l’objectif « forage et production » Beaune, les 26,27 et 28 Avril 2000ConclusionConclusion
C’est un outil dont il ne faut pas se priverLes méthodes statistiques peuvent dans certains casapporter des solution originales à des problèmes « difficiles »
il faut disposer de donnéeson fait de la programmation à partir de données
la notion de « coût » est fondamentale
il faut disposer d’une bonne méthodologie il était une fois un concours de prévision...
Top Related