Apprentissage...
Transcript of Apprentissage...
Apprentissage automatiqueLiva Ralaivola
Laboratoire d’Informatique Fondamentale de Marseille
UMR 6166 CNRS
Université de Provence
Apprentissage automatique – p.1
Motivations
Extraction de connaissances de gros volumes de données (datamining/fouille de données)
sélection
données brutes
connaissance
apprentissagemodèles
prétraitement
validationinterprétation
données préparées
Automatisation et aide à la réalisation de tâches humainessystèmes autonomes pour environnements hostiles : robotsreconnaissance de formes : écriture, parole, ...jeux : échecs, dames... Apprentissage automatique – p.2
Plan
Apprentissage statistiqueformalisation du problème d’apprentissageminimisation du risque empiriquecontrôle des capacités de généralisationmodèles étudiés
ConclusionPointeurs
Apprentissage automatique – p.3
Apprentissage statistique
Classification/discrimination
x2
x1
Comment trouver une« bonne » surface de sé-paration entre les • et les• ?
Régression
x
y
Comment trouver une« bonne » fonction passantpar les • ?
Apprentissage automatique – p.4
Formalisation (1/2)
Apprentissage statistique à partir de donnéesS = {(x1, y1), . . . , (x`, y`)} échantillon aléatoire sur X × Y selonP (x, y) = P (z) inconnueF famille de fonctions
Trouver f∗ = arg minf∈F
R(f) =
∫Q (z, f(z)) dP (z)
Exemples d’instanciationsClassification (e.g. Y = {−1, +1}) : Q (z, f(z)) = 1 si f(x) = y,et 0 sinonRégression (e.g. Y ⊂ R) : Q (z, f(z)) = |f(x) − y|γ , γ ≥ 1
Estimation de densité : Q (z, f(z)) = − ln f(z)
Apprentissage automatique – p.5
Formalisation (2/2)
Lien avec inférence statistiqueobservations ou instances ou exemples : réalisations devariables aléatoires suivant une loi P
recherche de P ou, plus précisément de P (y|x) à partir desexemples d’apprentissage
⇒ cf. recherche de µ et σ2 d’une loi gaussienne à partird’observations
Problématiquesgénéralisationfamille F (paramétrique, semi-paramétrique, nonparamétrique)processus d’apprentissageprincipe d’induction/consistance
Apprentissage automatique – p.6
Minimisation du risqueempirique (1/2)
P inconnue, minimisation du risque empirique
f̂ = arg minf∈F
Remp(f) =∑̀i=1
Q (zi, f(zi))
Exemplesclassification
Remp(f) =∑̀i=1
1lyi 6=f(xi)
régression avec coût quadratique
Remp(f) =∑̀i=1
(yi − f(xi))2
Apprentissage automatique – p.7
Minimisation du risqueempirique (2/2)
Caractéristiquesfacile à implémenterconsistant pour certaines familles d’apprenants
Inconvénients majeursnécessite une certaine quantité de donnéessur-apprentissage (over-fitting)
Apprentissage automatique – p.8
Régularisation/contôle decapacité
testapprentissage
x
y
testapprentissage
x
y
Minimisation du risque régularisé [Evgeniou et al., 2000]fonctionnelle à minimiser
J(f, λ) = Remp(f) + λC(f), λ ≥ 0
Contrôle de la dimension de Vapnik-Chervonenkis [Vapnik, 1998]optimisation d’un critère de margeminimisation du risque structurel
Apprentissage automatique – p.9
Modèles étudiés
Perceptrons multi-couchesArbres de décisionMachines à vecteurs de supportRégressions logistique (en TD)Boosting (éventuellement)
Apprentissage automatique – p.10
Pointeurs
Réseaux de neuroneshttp ://www.neurocolt.org/
Méthodes à noyauxhttp ://kernel-machines.org/http ://www.support-vector.net/
Boostinghttp ://boosting.org/
Online Machine Learning Resourceshttp ://www.ai.univie.ac.at/oefai/ml/ml-resources.html
Livres (pour commencer)C. M. Bishop. Neural Networks for Pattern Recognition. OxfordUniversity Press, 1995.T. M. Mitchell. Machine learning. McGraw-Hill, 1997.
Apprentissage automatique – p.11
Références
[Evgeniou et al., 2000] Evgeniou, T., Pontil, M., andPoggio, T. (2000). Regularization Networks and SupportVector Machines. Adv. in Computational Mathematics,13 :1–50.
[Vapnik, 1998] Vapnik, V. (1998). Statistical LearningTheory. John Wiley and Sons, inc.
Apprentissage automatique – p.12