Soutenance 17 Avril 2003
-
Upload
francis-pieraut -
Category
Technology
-
view
482 -
download
0
description
Transcript of Soutenance 17 Avril 2003
Optimisation des réseaux de neurones de grande Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et capacité: étude expérimentale de leur inefficacité et
exploration de solutionsexploration de solutions
Francis Piéraut17 avril 2003
Directeur de recherche: Jean-Jules Brault
Co-directeur de recherche: Yoshua Bengio
Plan de l’exposéPlan de l’exposé
Introduction aux algorithmes d’apprentissage et aux réseaux de neurones
Inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)
Est-ce normal? Les différents problèmes d’optimisation Les différentes solutions/résultats Contributions Travaux futurs Conclusion
Algorithmes d’apprentissageAlgorithmes d’apprentissage
Problématique (exemple marketing ciblé)
Trouver P(ci|x1, x2….) à partir d’exemples
Une solution = Réseaux de Neurones– Aucune connaissance a priori sur la distribution
sortie z
cible t t1 tk
y1
xi xD
y2 yj yN
wjk
wij x1
Réseaux de neurones et notion de capacité
P(c1|x1,x2…) P(ck|x1,x2…)
z1 zk
= Neurone
= Sigmoïde
= Fonction linéaire
= Connexion
Interprétation en terme de Interprétation en terme de plans séparateursplans séparateurs
1 2 3 4 5 6
6
5
4
3
2
1
x1
x2
Comportement attendu en Comportement attendu en fonction de la capacitéfonction de la capacité
ContexteContexte
Problème complexe grande capacitéLimitations: Technique d’optimisation du 1er ordre (rétro-
propagation stochastique) Architecture standard Un seul pas Le surapprentissage de ce type de problème est
négligé Base de données :« Letters » 26 classes/16 caractéristiques/20000 exemples
Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en nombre d’erreurs)(en nombre d’erreurs)
Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)
Constatation: comportement idéalisé du ratio tempsConstatation: comportement idéalisé du ratio temps
temps
Ratiotemps
1
2N
4N
N
Est-ce que l’inefficacité des réseaux de grande Est-ce que l’inefficacité des réseaux de grande capacité est normale?capacité est normale?
Hypothèse:
L’inefficacité est causée par l’augmentation des problèmes d’optimisation plus le réseau a de capacité– Solutions linéaires versus solutions non-linéaires– Espace de solutions
Solution à l’inefficacité = réduire ou éliminer les problèmes reliés à la rétro-propagation
sortie z
cible t
z1 Zk
t1 tk
y1
xi xD
y2 yj yN
wkj
wij
x1
Réseaux de neurones et équations
Le processus d’apprentissage ralentit lorsqu’on Le processus d’apprentissage ralentit lorsqu’on apprend les relations non-linéairesapprend les relations non-linéaires
Espace de solutions du réseau de N+K neurones
Espace de solutions du réseau de N neurones
Espace de solutions
Solution
5 itérations
3 itérations
État initial
Exemple
s équivalentes
Les problèmesLes problèmes
Déplacement de la cible L’atténuation et dilution du gradient Mécanisme de spécialisation Les gradients contradictoires (classification) Problème de symétrie
sortie z
cible t
z1 Zk
t1 tk
y1
xi xD
y2 yj yN
wjk
wij
x1
Réseaux de neurones et équations
Les solutions exploréesLes solutions explorées
Réseaux incrémentaux *Réseaux avec optimisation d’une
partie des paramètres Prédiction des valeurs des
paramètres Réseaux avec architecture
découplée
Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(ajouts de plans séparateurs)(ajouts de plans séparateurs)
Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(Optimisation pour les poids fixes)(Optimisation pour les poids fixes)
HypothèsesHypothèses
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
mécanisme de spécialisation
Dilution gradient
Symétrie
Réseaux incrémentaux
OK
Réseaux incrémentaux (1): résultatsRéseaux incrémentaux (1): résultats
Pourquoi ça ne marche pas? Pourquoi ça ne marche pas? Hypothèse basée sur les points critiquesHypothèse basée sur les points critiques
w1
w2
w3
Coût en fonction des poids
ExempleExemple
Réseaux incrémentaux : 2ème approcheRéseaux incrémentaux : 2ème approche(ajouts de couches cachées)(ajouts de couches cachées)
z1 z2
y1
x1 x2
y2 y3 y4
z1 z
2
x1 x
2
Courbure de la fonction de coûtCourbure de la fonction de coût
J
J
J
w
w
w
HypothèsesHypothèses
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
Mécanisme de spécialisation
Dilution gradient
Symétrie
Réseaux incrémentaux
OK
Réseaux incrémentaux (2): résultatsRéseaux incrémentaux (2): résultats
Architecture découpléeArchitecture découplée
InInefficacité des réseaux de grande capacité efficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)
Efficacité des réseaux de grande capacité: Efficacité des réseaux de grande capacité: architecture découpléearchitecture découplée
HypothèsesHypothèses
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
Mécanisme de spécialisation
Dilution gradient
Symétrie
Architecture découplée
Élimination ok
Architecture découpléeArchitecture découplée
Pourquoi prédire les valeurs futures des Pourquoi prédire les valeurs futures des paramètres? (observations)paramètres? (observations)
#Époque
Valeurs
HypothèsesHypothèses
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
Inexistence d’un méc. de spécialisation
Dilution gradient
Symétrie
Prédiction des paramètres
*Avantage: possibilité de réduire le nombre d’époques en utilisant l’historique des valeurs des paramètres pour prédire leurs futures valeurs
Prédiction : extrapolation quadratique sporadiquePrédiction : extrapolation quadratique sporadique
ContributionsContributions
Indices du problème d’optimisation des réseaux de grande capacité
Pour une capacité finale identique: présentation d’une solution qui permet:– Accélération de l’apprentissage– Meilleur taux d’apprentissage
Présentation d’une solution qui ne dégrade pas la vitesse d’apprentissage plus le réseaux a de la capacité (Architecture découplée/ importance du problème des gradients contradictoires)
Travaux futursTravaux futurs
Est-ce que l’inefficacité de l’apprentissage des réseaux de neurones est généralisable pour tous les problèmes?
En classification, est-ce que l’architecture découplée est un meilleur choix pour des réseaux de grande capacité?
Est-ce que notre hypothèse reliée aux points critiques est applicable dans le contexte des réseaux de grande capacité?
Ajout de couches cachées: pourquoi cette technique ne fonctionne pas pour l’ajout de couches successives ?
Optimiser une partie des paramètres– Meilleur compréhension des résultats– Quel serait l’algorithme de sélection de paramètres le plus efficace?
Existe t-il une technique pour prédire les valeurs des paramètres, en fonction de leur historique, qui serait vraiment efficace ?
ConclusionConclusion
Objectif: comprendre pourquoi l’apprentissage des réseaux de grande capacité est inefficace
Indices expérimentaux de l’inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)
Les différents problèmes d’optimisation Solutions explorées :
– Réseaux incrémentaux (plans séparateurs)– Réseaux incrémentaux (couches cachées)– Réseaux avec prédiction des paramètres– Réseaux avec une architecture découplée
Exemple :solution linéaireExemple :solution linéaire
Exemple :solution hautement non-linéaireExemple :solution hautement non-linéaire
Sélection des connections influençant le plus le coût
Sélection des connections influençant le plus l’erreur
T = 1S = 0
T = 0S = 1
T = 0S = 0.1
T = 0S = 0.1
Réduction du Problème de déplacement de la cible
HypothèsesHypothèses
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
Mécanisme de spécialisation
Dilution gradient
Symétrie
Opt. partie Oui
Réseaux avec optimisation d’une Réseaux avec optimisation d’une partie des paramètres: résultatspartie des paramètres: résultats
Optimisation de tous les paramètres
Optimisation max sensibilité
Prédiction : augmentation sporadique du pasPrédiction : augmentation sporadique du pas
Modifier l’architecture modifie Modifier l’architecture modifie l’espace de solutionsl’espace de solutions
Problèmes
Solutions
Dépl. cible
Gradient contradictoire
mécanisme de spécialisation
Dilution gradient
Symétrie Espace de solutions
Modifier l’architecture
OK Modification