Apprentissage...

Apprentissage automatiqueLiva Ralaivola

[email protected]

Laboratoire d’Informatique Fondamentale de Marseille

UMR 6166 CNRS

Université de Provence

Apprentissage automatique – p.1

Motivations

Extraction de connaissances de gros volumes de données (datamining/fouille de données)

sélection

données brutes

connaissance

apprentissagemodèles

prétraitement

validationinterprétation

données préparées

Automatisation et aide à la réalisation de tâches humainessystèmes autonomes pour environnements hostiles : robotsreconnaissance de formes : écriture, parole, ...jeux : échecs, dames... Apprentissage automatique – p.2

Plan

Apprentissage statistiqueformalisation du problème d’apprentissageminimisation du risque empiriquecontrôle des capacités de généralisationmodèles étudiés

ConclusionPointeurs


Apprentissage statistique

Classification/discrimination

x2

x1

Comment trouver une« bonne » surface de sé-paration entre les • et les• ?

Régression

x

y

Comment trouver une« bonne » fonction passantpar les • ?


Formalisation (1/2)

Apprentissage statistique à partir de donnéesS = {(x1, y1), . . . , (x`, y`)} échantillon aléatoire sur X × Y selonP (x, y) = P (z) inconnueF famille de fonctions

Trouver f∗ = arg minf∈F

R(f) =

∫Q (z, f(z)) dP (z)

Exemples d’instanciationsClassification (e.g. Y = {−1, +1}) : Q (z, f(z)) = 1 si f(x) = y,et 0 sinonRégression (e.g. Y ⊂ R) : Q (z, f(z)) = |f(x) − y|γ , γ ≥ 1

Estimation de densité : Q (z, f(z)) = − ln f(z)


Formalisation (2/2)

Lien avec inférence statistiqueobservations ou instances ou exemples : réalisations devariables aléatoires suivant une loi P

recherche de P ou, plus précisément de P (y|x) à partir desexemples d’apprentissage

⇒ cf. recherche de µ et σ2 d’une loi gaussienne à partird’observations

Problématiquesgénéralisationfamille F (paramétrique, semi-paramétrique, nonparamétrique)processus d’apprentissageprincipe d’induction/consistance


Minimisation du risqueempirique (1/2)

P inconnue, minimisation du risque empirique

f̂ = arg minf∈F

Remp(f) =∑̀i=1

Q (zi, f(zi))

Exemplesclassification

Remp(f) =∑̀i=1

1lyi 6=f(xi)

régression avec coût quadratique

Remp(f) =∑̀i=1

(yi − f(xi))2


Minimisation du risqueempirique (2/2)

Caractéristiquesfacile à implémenterconsistant pour certaines familles d’apprenants

Inconvénients majeursnécessite une certaine quantité de donnéessur-apprentissage (over-fitting)


Régularisation/contôle decapacité

testapprentissage

x

y

testapprentissage

x

y

Minimisation du risque régularisé [Evgeniou et al., 2000]fonctionnelle à minimiser

J(f, λ) = Remp(f) + λC(f), λ ≥ 0

Contrôle de la dimension de Vapnik-Chervonenkis [Vapnik, 1998]optimisation d’un critère de margeminimisation du risque structurel


Modèles étudiés

Perceptrons multi-couchesArbres de décisionMachines à vecteurs de supportRégressions logistique (en TD)Boosting (éventuellement)


Pointeurs

Réseaux de neuroneshttp ://www.neurocolt.org/

Méthodes à noyauxhttp ://kernel-machines.org/http ://www.support-vector.net/

Boostinghttp ://boosting.org/

Online Machine Learning Resourceshttp ://www.ai.univie.ac.at/oefai/ml/ml-resources.html

Livres (pour commencer)C. M. Bishop. Neural Networks for Pattern Recognition. OxfordUniversity Press, 1995.T. M. Mitchell. Machine learning. McGraw-Hill, 1997.


Références

[Evgeniou et al., 2000] Evgeniou, T., Pontil, M., andPoggio, T. (2000). Regularization Networks and SupportVector Machines. Adv. in Computational Mathematics,13 :1–50.

[Vapnik, 1998] Vapnik, V. (1998). Statistical LearningTheory. John Wiley and Sons, inc.


Apprentissage...

Documents

Transcript of Apprentissage...