Soutenance 17 Avril 2003

51
Optimisation des réseaux de neurones de Optimisation des réseaux de neurones de grande capacité: étude expérimentale de grande capacité: étude expérimentale de leur inefficacité et exploration de leur inefficacité et exploration de solutions solutions Francis Piéraut 17 avril 2003 Directeur de recherche: Jean- Jules Brault Co-directeur de recherche: Yoshua Bengio

description

Voici les acétates utilisées lors de la soutenance de ma maitrise en 2003 intitulée: "Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et exploration de solutions" Superviseur: Yoshua Bengio

Transcript of Soutenance 17 Avril 2003

Page 1: Soutenance 17 Avril 2003

Optimisation des réseaux de neurones de grande Optimisation des réseaux de neurones de grande capacité: étude expérimentale de leur inefficacité et capacité: étude expérimentale de leur inefficacité et

exploration de solutionsexploration de solutions

Francis Piéraut17 avril 2003

Directeur de recherche: Jean-Jules Brault

Co-directeur de recherche: Yoshua Bengio

Page 2: Soutenance 17 Avril 2003

Plan de l’exposéPlan de l’exposé

Introduction aux algorithmes d’apprentissage et aux réseaux de neurones

Inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)

Est-ce normal? Les différents problèmes d’optimisation Les différentes solutions/résultats Contributions Travaux futurs Conclusion

Page 3: Soutenance 17 Avril 2003

Algorithmes d’apprentissageAlgorithmes d’apprentissage

Problématique (exemple marketing ciblé)

Trouver P(ci|x1, x2….) à partir d’exemples

Une solution = Réseaux de Neurones– Aucune connaissance a priori sur la distribution

Page 4: Soutenance 17 Avril 2003

sortie z

cible t t1 tk

y1

xi xD

y2 yj yN

wjk

wij x1

Réseaux de neurones et notion de capacité

P(c1|x1,x2…) P(ck|x1,x2…)

z1 zk

= Neurone

= Sigmoïde

= Fonction linéaire

= Connexion

Page 5: Soutenance 17 Avril 2003

Interprétation en terme de Interprétation en terme de plans séparateursplans séparateurs

1 2 3 4 5 6

6

5

4

3

2

1

x1

x2

Page 6: Soutenance 17 Avril 2003

Comportement attendu en Comportement attendu en fonction de la capacitéfonction de la capacité

Page 7: Soutenance 17 Avril 2003

ContexteContexte

Problème complexe grande capacitéLimitations: Technique d’optimisation du 1er ordre (rétro-

propagation stochastique) Architecture standard Un seul pas Le surapprentissage de ce type de problème est

négligé Base de données :« Letters » 26 classes/16 caractéristiques/20000 exemples

Page 8: Soutenance 17 Avril 2003

Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en nombre d’erreurs)(en nombre d’erreurs)

Page 9: Soutenance 17 Avril 2003

Inefficacité des réseaux de grande capacité Inefficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)

Page 10: Soutenance 17 Avril 2003

Constatation: comportement idéalisé du ratio tempsConstatation: comportement idéalisé du ratio temps

temps

Ratiotemps

1

2N

4N

N

Page 11: Soutenance 17 Avril 2003

Est-ce que l’inefficacité des réseaux de grande Est-ce que l’inefficacité des réseaux de grande capacité est normale?capacité est normale?

Hypothèse:

L’inefficacité est causée par l’augmentation des problèmes d’optimisation plus le réseau a de capacité– Solutions linéaires versus solutions non-linéaires– Espace de solutions

Solution à l’inefficacité = réduire ou éliminer les problèmes reliés à la rétro-propagation

Page 12: Soutenance 17 Avril 2003

sortie z

cible t

z1 Zk

t1 tk

y1

xi xD

y2 yj yN

wkj

wij

x1

Réseaux de neurones et équations

Page 13: Soutenance 17 Avril 2003

Le processus d’apprentissage ralentit lorsqu’on Le processus d’apprentissage ralentit lorsqu’on apprend les relations non-linéairesapprend les relations non-linéaires

Page 14: Soutenance 17 Avril 2003

Espace de solutions du réseau de N+K neurones

Espace de solutions du réseau de N neurones

Espace de solutions

Page 15: Soutenance 17 Avril 2003

Solution

5 itérations

3 itérations

État initial

Exemple

s équivalentes

Page 16: Soutenance 17 Avril 2003

Les problèmesLes problèmes

Déplacement de la cible L’atténuation et dilution du gradient Mécanisme de spécialisation Les gradients contradictoires (classification) Problème de symétrie

Page 17: Soutenance 17 Avril 2003

sortie z

cible t

z1 Zk

t1 tk

y1

xi xD

y2 yj yN

wjk

wij

x1

Réseaux de neurones et équations

Page 18: Soutenance 17 Avril 2003

Les solutions exploréesLes solutions explorées

Réseaux incrémentaux *Réseaux avec optimisation d’une

partie des paramètres Prédiction des valeurs des

paramètres Réseaux avec architecture

découplée

Page 19: Soutenance 17 Avril 2003

Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(ajouts de plans séparateurs)(ajouts de plans séparateurs)

Page 20: Soutenance 17 Avril 2003

Réseaux incrémentaux : 1ère approcheRéseaux incrémentaux : 1ère approche(Optimisation pour les poids fixes)(Optimisation pour les poids fixes)

Page 21: Soutenance 17 Avril 2003

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

mécanisme de spécialisation

Dilution gradient

Symétrie

Réseaux incrémentaux

OK

Page 22: Soutenance 17 Avril 2003

Réseaux incrémentaux (1): résultatsRéseaux incrémentaux (1): résultats

Page 23: Soutenance 17 Avril 2003

Pourquoi ça ne marche pas? Pourquoi ça ne marche pas? Hypothèse basée sur les points critiquesHypothèse basée sur les points critiques

w1

w2

w3

Coût en fonction des poids

Page 24: Soutenance 17 Avril 2003

ExempleExemple

Page 25: Soutenance 17 Avril 2003
Page 26: Soutenance 17 Avril 2003
Page 27: Soutenance 17 Avril 2003

Réseaux incrémentaux : 2ème approcheRéseaux incrémentaux : 2ème approche(ajouts de couches cachées)(ajouts de couches cachées)

z1 z2

y1

x1 x2

y2 y3 y4

z1 z

2

x1 x

2

Page 28: Soutenance 17 Avril 2003

Courbure de la fonction de coûtCourbure de la fonction de coût

J

J

J

w

w

w

Page 29: Soutenance 17 Avril 2003

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Réseaux incrémentaux

OK

Page 30: Soutenance 17 Avril 2003

Réseaux incrémentaux (2): résultatsRéseaux incrémentaux (2): résultats

Page 31: Soutenance 17 Avril 2003

Architecture découpléeArchitecture découplée

Page 32: Soutenance 17 Avril 2003

InInefficacité des réseaux de grande capacité efficacité des réseaux de grande capacité (en temps de calcul)(en temps de calcul)

Page 33: Soutenance 17 Avril 2003

Efficacité des réseaux de grande capacité: Efficacité des réseaux de grande capacité: architecture découpléearchitecture découplée

Page 34: Soutenance 17 Avril 2003

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Architecture découplée

Élimination ok

Page 35: Soutenance 17 Avril 2003

Architecture découpléeArchitecture découplée

Page 36: Soutenance 17 Avril 2003

Pourquoi prédire les valeurs futures des Pourquoi prédire les valeurs futures des paramètres? (observations)paramètres? (observations)

#Époque

Valeurs

Page 37: Soutenance 17 Avril 2003

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Inexistence d’un méc. de spécialisation

Dilution gradient

Symétrie

Prédiction des paramètres

*Avantage: possibilité de réduire le nombre d’époques en utilisant l’historique des valeurs des paramètres pour prédire leurs futures valeurs

Page 38: Soutenance 17 Avril 2003

Prédiction : extrapolation quadratique sporadiquePrédiction : extrapolation quadratique sporadique

Page 39: Soutenance 17 Avril 2003

ContributionsContributions

Indices du problème d’optimisation des réseaux de grande capacité

Pour une capacité finale identique: présentation d’une solution qui permet:– Accélération de l’apprentissage– Meilleur taux d’apprentissage

Présentation d’une solution qui ne dégrade pas la vitesse d’apprentissage plus le réseaux a de la capacité (Architecture découplée/ importance du problème des gradients contradictoires)

Page 40: Soutenance 17 Avril 2003

Travaux futursTravaux futurs

Est-ce que l’inefficacité de l’apprentissage des réseaux de neurones est généralisable pour tous les problèmes?

En classification, est-ce que l’architecture découplée est un meilleur choix pour des réseaux de grande capacité?

Est-ce que notre hypothèse reliée aux points critiques est applicable dans le contexte des réseaux de grande capacité?

Ajout de couches cachées: pourquoi cette technique ne fonctionne pas pour l’ajout de couches successives ?

Optimiser une partie des paramètres– Meilleur compréhension des résultats– Quel serait l’algorithme de sélection de paramètres le plus efficace?

Existe t-il une technique pour prédire les valeurs des paramètres, en fonction de leur historique, qui serait vraiment efficace ?

Page 41: Soutenance 17 Avril 2003

ConclusionConclusion

Objectif: comprendre pourquoi l’apprentissage des réseaux de grande capacité est inefficace

Indices expérimentaux de l’inefficacité des réseaux de grande capacité (nombre d’erreurs et temps)

Les différents problèmes d’optimisation Solutions explorées :

– Réseaux incrémentaux (plans séparateurs)– Réseaux incrémentaux (couches cachées)– Réseaux avec prédiction des paramètres– Réseaux avec une architecture découplée

Page 42: Soutenance 17 Avril 2003
Page 43: Soutenance 17 Avril 2003

Exemple :solution linéaireExemple :solution linéaire

Page 44: Soutenance 17 Avril 2003

Exemple :solution hautement non-linéaireExemple :solution hautement non-linéaire

Page 45: Soutenance 17 Avril 2003

Sélection des connections influençant le plus le coût

Page 46: Soutenance 17 Avril 2003

Sélection des connections influençant le plus l’erreur

T = 1S = 0

T = 0S = 1

T = 0S = 0.1

T = 0S = 0.1

Page 47: Soutenance 17 Avril 2003

Réduction du Problème de déplacement de la cible

Page 48: Soutenance 17 Avril 2003

HypothèsesHypothèses

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

Mécanisme de spécialisation

Dilution gradient

Symétrie

Opt. partie Oui

Page 49: Soutenance 17 Avril 2003

Réseaux avec optimisation d’une Réseaux avec optimisation d’une partie des paramètres: résultatspartie des paramètres: résultats

Optimisation de tous les paramètres

Optimisation max sensibilité

Page 50: Soutenance 17 Avril 2003

Prédiction : augmentation sporadique du pasPrédiction : augmentation sporadique du pas

Page 51: Soutenance 17 Avril 2003

Modifier l’architecture modifie Modifier l’architecture modifie l’espace de solutionsl’espace de solutions

Problèmes

Solutions

Dépl. cible

Gradient contradictoire

mécanisme de spécialisation

Dilution gradient

Symétrie Espace de solutions

Modifier l’architecture

OK Modification