Page : 1
Cours Animat
Olivier Sigaud
ISIR
01.44.27.88.53
Apprentissage duApprentissage ducontrôle moteur : contrôle moteur :
le geste élémentairele geste élémentaire
Page : 2
Cours Animat
IntroductionIntroductiongénéralegénérale
Page : 3
Cours Animat
Nature de l’IANature de l’IA
Un modèle est une construction intellectuelle visant à expliquer des données expérimentales
Un système est un artefact doté de propriétés désirables IA : faire des modèles (de l’intellect) qui sont aussi des
systèmes Human Problem Solving : données expérimentales sur la
résolution de problème chez l’homme => GPS Déboires de l’IA symbolique « forte » : + de systèmes,
moins de modèles
Page : 4
Cours Animat
Approche animatApproche animat Ancrée dans l’interaction avec l’environnement Centrée sur les mécanismes adaptatifs du vivant Apprentissage, évolution, développement Adaptation face à l’imprévu Fort ancrage dans la neurophysiologie Modèles animaux pour des systèmes « simples »
Page : 5
Cours Animat
Des robots robustes, mais Des robots robustes, mais simplistessimplistes
Raisonnement
PlanificationLangage, symboles
Navigation Sélection de l’action
Page : 6
Cours Animat
Des robots complexes, mais Des robots complexes, mais fragilesfragiles
Faire face à la fragilité des systèmes « ingénieur »
Page : 7
Cours Animat
Approche animat et contrôle Approche animat et contrôle moteurmoteur
Raisonnement
PlanificationLangage, symboles
Navigation Sélection de l’action
Commande motrice
Page : 8
Cours Animat
Objectifs complémentaires
Modélisation et compréhension dusystème moteur
humain
Commande des systèmes
redondants, contraintset sous-actionnés
Assistance, et rééducationde pathologiesneuro-motrices
Page : 9
Cours Animat
Cadre idéal pour la modélisationCadre idéal pour la modélisation
Complexité mécanique et automatique : les biologistes ont besoin des « théoriciens »
Complexité des fonctions motrices à réaliser : les théoriciens ont besoin des biologistes (la bonne vieille automatique ne suffit pas)
Des retombées fondamentales importantes du côté des pathologies (maladie de Parkinson, hémiplégie…)
Des retombées applicatives importantes du côté de la robotique et des humains virtuels
Page : 10
Cours Animat
DINO – Assistance au mvt pathologique
Le robot comme support de modélisation
Intention/Etat
observateur prédictif neuronal
Compensation desréflexes pathologiques
via un robot d’assistance
Mouvements de référence
Superviseurflou
Etat/ComportementEtat/Comportement posturalpostural
Page : 11
Cours Animat
DINO – Réhabilitation neuro-motrice
Pasqui, et al. (2007). Pathological sit-to-stand models for control of a rehabilitation robotic device . IEEE ICRR, 347-355
Page : 12
Cours Animat
Robonova
Applications : mini-robotsApplications : mini-robots
Un marché en croissance fulgurante
Bon cadre pour l’apprentissage,faute de modèles précis (bruit)
Servo-moteurs
Page : 13
Cours Animat
HRP-2
Applications : HRP-2Applications : HRP-2
Un défi technologique
Cadre d’un projet franco-japonais
ASIMO, HOAP3, iCub…
Intermédiaire : NAO
Servo-moteurs encore…
Page : 14
Cours Animat
Arboris
Applications : ArborisApplications : Arboris
Un simulateur flexible
Commande en couples plutôt que servo-moteurs
Plate-forme idéale pour la modélisation etla mise au point de l’apprentissage
Commande en muscles si on veut…
Page : 15
Cours Animat
Bras commandé en musclesBras commandé en muscles
Page : 16
Cours Animat
Le contrôle moteurLe contrôle moteurhumainhumain
Page : 17
Cours Animat
Un système extrêmement Un système extrêmement complexecomplexe
Système poly-articulé, redondant, non-holonome, sous-actionné, sur-actionné…
Plus de 200 os Environ 600 muscles Système Soumis à des contraintes d’équilibre, fragile Capteurs/actionneurs imprécis et très lents
Grande complexité des aires cérébrales impliquées dans le contrôle moteur
Page : 18
Cours Animat
Une littérature considérableUne littérature considérable
Albus 72 : CMAC… Avancée très rapide des neurosciences (imagerie) Manque de compréhension globale Rôle clef des modélisateurs, théoriciens et roboticiens Modèles computationnels vs neuro-mimétiques
Page : 19
Cours Animat
Invariants, synergiesInvariants, synergies
Nombreux invariants malgré la redondance Ils peuvent venir :
du système musculo-squelettique de la formulation des tâches de la structure du contrôleur de critères écologiques
Page : 20
Cours Animat
Invariants du contrôle moteur (1)
Profil de vitesse en clocheCourbure des mouvements
de reaching (loi de puissance 2/3)
Page : 21
Cours Animat
Invariants du contrôle moteur (2)
Dispersion terminale = f(direction du but)
Page : 22
Cours Animat
Loi de Fitts (précision/vitesse)Model
Plus on a besoin de précision terminale, moins on va vite
Page : 23
Cours Animat
Latences dans la commandeLatences dans la commande
Visco-élasticité musculaire : immédiat Boucles spinales : 30-60 ms Mésencéphale : 90 ms Boucles supérieures : …> 150 ms
Page : 24
Cours Animat
Principes de Principes de commandecommande
Page : 25
Cours Animat
Minimum jerkMinimum jerk Flash et Hogan, 85 :douceur : le geste humain minimise
l’intégrale de la secousse (jerk, dérivée de l’accélération)
Problème : ne rend pas compte de la courbure des grands gestes
Page : 26
Cours Animat
Minimum torque changeMinimum torque change Uno et al., 89 : douceur : le geste humain minimise les
variations de couples moteurs
Problème : pourquoi ces critères-là, estimés comment ? Quel avantage sélectif pour la « douceur » ?
Page : 27
Cours Animat
Suivi de trajectoire / commande directe
Le minimum jerk est un critère « cinématique » : il porte sur la trajectoire, pas sur les couples musculaires qui permettent de la réaliser
Recherche d’une trajectoire optimale de référence, puis suivi de cette trajectoire
Au contraire, le minimum torque change impose d’optimiser directement les couples musculaires : pas de séparation entre détermination d’une trajectoire et exécution
Dualité au cœur des modèles récents (cf. cours 3)
Page : 28
Cours Animat
Commande en feedback : instabilité
Nécessité du feedforward pour stabiliser
Page : 29
Cours Animat
Bruit moteur Présence d’un bruit moteur proportionnel à la commande S’accumule au cours du temps, donc nuit à la précision Critère = minimiser la variance terminale La commande minimise l’activité musculaire pour
minimiser le bruit moteur Minimum intervention principle (Todorov&Jordan) Elle joue sur les DdL redondants : le bruit est concentré
sur les dimensions non pertinentes pour la tâche
Page : 30
Cours Animat
Architecture de commande
Page : 31
Cours Animat
SOFC La commande est stochastique (tient compte du bruit) Elle est optimale (minimise un critère) Elle est en feedback (correction de trajectoire en fonction
de l’état courant) Harris&Wolpert 98 (OFC + bruit moteur) Todorov 02, 04 (SOFC) Guigon 07 (TOFC)
Guigon : l’atteinte du but n’est pas un critère à optimiser, c’est une des contraintes
Page : 32
Cours Animat
Méthodes candidates
Commande optimale : problèmes d’applicabilité en grandes dimensions
Thèse Weiwei Li (06) : méthodes itératives, iLQG (10 DdL)
Fast NMPC (Diehl 06) : 30 DdL Natural Policy Gradient (Peters 07) : robots réels
Dans tous les cas, technicité mathématique, optimisation Suppose l’accès à un modèle de la dynamique Le modèle de la dynamique est généralement donné
Page : 33
Cours Animat
Adaptation motriceAdaptation motrice
Page : 34
Cours Animat
Paradigme expérimental
Shadmehr et Mussa-Ivaldi 94
Page : 35
Cours Animat
Déviation due au champ de force
Shadmehr et Mussa-Ivaldi 94
Page : 36
Cours Animat
Correction progressive
Shadmehr et Mussa-Ivaldi 94
Page : 37
Cours Animat
After-effect After-effect : si on retire brutalement le champ, la main
réalise une trajectoire symétrique
Page : 38
Cours Animat
Conclusions 1 Hypothèse 1 : le crochet final vers le but résulte du
déclenchement d’un module de correction (replanification) Hypothèse 2 : le crochet final vers le but résulte d’une
commande en feedback Hypothèse 3 : la correction progressive résulte d’un
apprentissage du modèle de la dynamique
Simulation : H2 + H3 expliquent les données Généralisation motrice : trouver la forme du modèle corrigé
par l’apprentissage (paramètres et fonction d’approximation)
Page : 39
Cours Animat
Vision « batch » de l’apprentissage
d’un modèle
Page : 40
Cours Animat
Vision incrémentale (1)
Page : 41
Cours Animat
Vision incrémentale (2)
Page : 42
Cours Animat
Vision incrémentale (3)
Page : 43
Cours Animat
Vision incrémentale (4)
Ne prend pas en compte le problème de la perception indirecte de l’état du système
Page : 44
Cours Animat
SOFC : Wolpert et al.
Page : 45
Cours Animat
L’état est caché
Page : 46
Cours Animat
Pourquoi c’est plus dur…
En cas d’erreur sur Y estimé, faut-il corriger l’estimateur sensoriel, l’estimation d’état courante ou bien l’estimateur d’état ? L’état est une variable cachée…
Filtre de Kalman : estimation et apprentissage optimal Mais couplage avec commande optimale Voir Weiwei Li 2006 (Todorov)
Page : 47
Cours Animat
Généralisation Généralisation motricemotrice
Page : 48
Cours Animat
Paradigme expérimental
Le sujet apprend dans un des domaines (par exemple à droite) puis est testé dans un autre (par exemple à gauche)
Va-t-il transposer le champ appris ?
Page : 49
Cours Animat
JacobienneJacobiennedx
dy
dq1
Déplacement d’un point de fonctionnement dans un référentiel lié à un but
Déplacement des angles articulaires
dq2
dq3
dX = J(Q) dQX=(x,y)
Q=(q1,q2,q3)
Page : 50
Cours Animat
Résultats
Trajectoires de la main dans un espace de travail 2 après avoir appris le champ dans un espace 1. On joue sur la forme du champ
•Hyp A : généralisation dans l’espace de la tâche (invariant par translation)•Hyp B : généralisation dans l’espace articulaire (couples invariants)
En modifiant la forme des champs, résultat = B l’emporte sur A
Page : 51
Cours Animat
Direction préférée (Direction préférée (Donchin et Donchin et al.)al.)
D’un muscle L’apprentissage modifie la direction préférée d’un muscle
D’un neurone d’une population L’apprentissage modifie la direction préférée d’une population de neurones
Autres questions : effets de catch trials où l’on supprime le champ trajectoire de référence modifiée (sur-compensation) A rapprocher de Samejima&Doya (2007)
Page : 52
Cours Animat
Implémentation d’un modèle
Thèse Camille Salaün : Apprentissage du modèle par RLS Loi de commande par LQC
Application à un 3Rplan
Utilisation de IMTI : inutile sur verticalisation…
Perspectives à court terme : LWPR + iLQG
Page : 53
Cours Animat
Fondé sur RLS
IMTI
Forward models linéaires par morceaux
Page : 54
Cours Animat
Remarques
Si l’acteur fonctionne par programmation dynamique, on a un modèle typique d’apprentissage par renforcement indirect
La programmation dynamique est la contrepartie discrète et stochastique de la commande optimale (continue et généralement déterministe)
Idée de combiner apprentissage supervisé du modèle et apprentissage par renforcement du contrôleur
Page : 55
Cours Animat
Conclusions
Sujet de M2 : implémenter LWPR + iLQG sur un bras simulé, puis voir comment retrouver les bonnes propriétés de généralisation motrice et les effets des catch trials
Page : 56
Cours Animat
SynthèseSynthèse
Un geste élémentaire est : spécifié dans l’espace des tâches dirigé par une commande basée modèle avec feedback conforme à un principe d’intervention musculaire minimale obtenu par apprentissage
La modélisation est aux mains des théoriciens et ingénieurs plutôt que des biologistes
Cette modélisation se fait au niveau des principes computationnels et/ou neuro-mimétiques
Top Related