Discrimination de courbes par SVM

SVM & FDA

Toulouse,7 avril 2006

Nathalie V

Analyse desdonnéesfonctionnelles

Principe desSVM

Noyaux pourFDAApproche parprojection

Approche par splinesd’interpolation

Approche parrégression inverse

Discrimination de courbes par SVM

Nathalie Villa-Vialaneix

Équipe GRIMM, Université Toulouse Le [email protected]

GREMAQ, 7 avril 2006

SVM & FDA


Nathalie V


Principe desSVM




Thématiques de recherche développées

NN pour FDA

SVM pour FDA

(approche par régression inverse)

(approches proj., spline, FIR. . . )

Projets GEODE ENAC FRAMESPA

SVM & FDA


Nathalie V


Principe desSVM





NN pour FDA SVM pour FDA(approche par régression inverse) (approches proj., spline, FIR. . . )


SVM & FDA


Nathalie V


Principe desSVM






Projets GEODE

ENAC FRAMESPA

SVM & FDA


Nathalie V


Principe desSVM






Projets GEODE ENAC

FRAMESPA

SVM & FDA


Nathalie V


Principe desSVM







SVM & FDA


Nathalie V


Principe desSVM




Sommaire

1 Analyse des données fonctionnelles

2 Principe des SVM

3 Noyaux pour FDAApproche par projectionApproche par splines d’interpolationApproche par régression inverse

SVM & FDA


Nathalie V


Principe desSVM




Les données fonctionnelles : Définition

Données classiques : chaque observation est un vecteurde RD ;

Données fonctionnelles : chaque observation est unefonction d’un espace de dimension infinie (L2

τ , parexemple ; espace de Hilbert, en général).

SVM & FDA


Nathalie V


Principe desSVM




Exemples

Représentation temporelle (reconnaissance vocale 1)

0 2000 4000 6000 8000

−1.0

−0.5

0.00.5

1.0

Temps (ms)

Freq

uenc

es

BoatGoat

But : Reconnaître le mot. . .1Données disponibles sur

http ://www.math.univ-montp2.fr/˜biau/bbwdata.tgz

SVM & FDA


Nathalie V


Principe desSVM




Exemples

Courbe de réponse (chimiométrie 1)

0 20 40 60 80 100

23

45

Longueur d’onde

Abso

rbanc

e

But : Déterminer le taux de graisse. . .1Tecator database disponible sur

http ://lib.stat.cmu.edu/datasets/tecator

SVM & FDA


Nathalie V


Principe desSVM




Exemple de problèmes en FDA (1)

Problèmes d’inversion d’opérateurs

ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt⇒ Γ−1X est

non borné (ce n’est pas un opérateur continu de L2τ ) ! !

Conséquence au niveau de l’estimation

ΓnX =

1n∑n

i=1 xi ⊗ xi − X ⊗ X est mal conditionné⇒ nécessité depénalisation ou de régularisation.

SVM & FDA


Nathalie V


Principe desSVM




Les données fonctionnelles en pratique

Soit X une variable aléatoire fonctionnelle,

on ne connaît jamais complètement les observations(xi)i=1,...,n de X !

on dispose de xi(t i1), . . . , xi(t i

D) ;

dans le pire cas, le nombre et la place des points dediscrétisation dépendent de l’observation.

SVM & FDA


Nathalie V


Principe desSVM




Exemple de problèmes en FDA (2)

D’un point de vue pratique...

représenter les fonctions observées et les fonctionsparamètres ;

n < D, les observations pour un même individu sontfortement corrélées (fonction sous-jacente)⇒ problèmesmal posés, méthodes usuelles souvent inapplicablesdirectement.

SVM & FDA


Nathalie V


Principe desSVM




Sommaire


2 Principe des SVM


SVM & FDA


Nathalie V


Principe desSVM




Rappel sur le principe SVM

Le problème

Soit X ∈ H et Y ∈ {−1; 1}.On cherche à déterminer la valeur de Y connaissant la variableX .

Les données

On dispose de n réalisations indépendantes de (X ,Y ) :(x1, y1), . . . , (xn, yn).

SVM & FDA


Nathalie V


Principe desSVM




Discrimination linéaire à marge optimale

On cherche w tel que :

minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Discrimination linéaire à marge optimale

w

marge : 1‖w‖2

Vecteur Support


minw,b〈w,w〉,sous les contraintes :yi(〈w, xi〉 + b) ≥ 1, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Discrimination linéaire à marge souple


minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Discrimination linéaire à marge souple

w

marge : 1‖w‖2

Vecteur Support


minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w, xi〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Envoyer les données dans un espace de grandedimension

Espace initialH


(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Envoyer les données dans un espace de grandedimension

Espace initialH Espace image X

Φ (non linéaire)


(PC ,X) minw,b ,ξ〈w,w〉 + C∑n

i=1 ξi ,

sous les contraintes :yi(〈w,Φ(xi)〉 + b) ≥ 1 − ξi , 1 ≤ i ≤ n,ξi ≥ 0, 1 ≤ i ≤ n.

SVM & FDA


Nathalie V


Principe desSVM




Intérêt du non linéaire

Formulation régularisation : (PC ,X)⇔

(Rλ,X) minf∈X

1n

n∑i=1

max(0, 1 − yi f (xi)) + λ〈f , f〉X.

Formulation duale : (PC ,X)⇔

(DC ,X) maxα∑n

i=1 αi −∑n

i=1∑n

j=1 αiαjyiyj〈Φ(xi),Φ(xj)〉X,avec

∑Ni=1 αiyi = 0,

0 ≤ αi ≤ C , 1 ≤ i ≤ n.

Produit scalaire dans X :∀ u, v ∈ X, K (u, v) = 〈Φ(u),Φ(v)〉X

SVM & FDA


Nathalie V


Principe desSVM




Sommaire


2 Principe des SVM


SVM & FDA


Nathalie V


Principe desSVM




Présentation des travaux

En collaboration avec Fabrice RossiSupport vector machine for functional dataclassification (2005), paru dans ESANN proceedings ;

Classification in Hilbert spaces with support vectormachines (2005), paru dans ASMDA proceedings ;

Support vector machine for functional dataclassification (2006), paru dans Neurocomputing ;

SVM fonctionnels par interpolation spline (2006), àparaître dans Actes du congrès de la SFdS (Journées deStatistique).

SVM & FDA


Nathalie V


Principe desSVM




Noyaux pour FDA

Forme générale

Prétraitement : P : H → D

∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).

1 Projections : pour VD = Vect{ψ1, . . . , ψD},

P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 FIR. . .

SVM & FDA


Nathalie V


Principe desSVM




Noyaux pour FDA

Forme générale


∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).


P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .

3 FIR. . .

SVM & FDA


Nathalie V


Principe desSVM




Noyaux pour FDA

Forme générale


∀ u, v ∈ H ,Q(u, v) = K (P(u),P(v)).


P(x) =D∑

j=1

〈x, ψj〉ψj .

2 Transformations fonctionnelles : P(x) = Dqx,. . .3 FIR. . .

SVM & FDA


Nathalie V


Principe desSVM




Sommaire


2 Principe des SVM


SVM & FDA


Nathalie V


Principe desSVM




Une approche consistante

Approche par projection

1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;

2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]

partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :

a∗ = argmina Ln−l fa +λd√

n − l

avec Ln−l fa = 1n−l

∑ni=l+1 I{fa (xi ),yi }.

⇒ On obtient un SVM fn.

SVM & FDA


Nathalie V


Principe desSVM






1 (ψj)j base Hilbertienne deH : projection sur (ψj)j=1,...,d ;2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd , C ∈ [0;Cd ]



n − l




SVM & FDA


Nathalie V


Principe desSVM







partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;

construction du SVM sur B1 : fa ;choix du paramètre optimal sur B2 :


n − l




SVM & FDA


Nathalie V


Principe desSVM







partage des données : B1 = (x1, y1), . . . , (xl , yl) etB2 = (xl+1, yl+1), . . . , (xn, yn) ;construction du SVM sur B1 : fa ;

choix du paramètre optimal sur B2 :


n − l




SVM & FDA


Nathalie V


Principe desSVM









n − l




SVM & FDA


Nathalie V


Principe desSVM




Hypothèses

Hypothèses sur la distribution de X

(H1) X prend ses valeurs dans un borné deH .

Hypothèses sur les paramètres : ∀ d ≥ 1,

(H2) Jd est un ensemble fini ;(H3) ∃Kd ∈ Jd tel que : Kd est universel et∃νd > 0 : N(Kd , ε) = O(ε−νd ) ;(H4) Cd > 1 ;(H5)

∑d≥1 |Jd |e−2λ2

d < +∞.

Hypothèses sur la validation

(H6) limn→+∞ l = +∞ ;(H7) limn→+∞ n − l = +∞ ;(H8) limn→+∞

l log(n−l)n−l = 0.

SVM & FDA


Nathalie V


Principe desSVM




Convergence par procédure de validation

Théorème 1 Consistance universelleSous les hypothèses (H1)-(H8), fn est consistant :

Lfnn→+∞−−−−−→ L∗,

où Lfn = P(fn(X) , Y ) et L ∗ = P(f ∗(X) , Y ) avec

f ∗(x) =

{1 si P(Y = 1|X = x) > 1/2,−1 sinon.

SVM & FDA


Nathalie V


Principe desSVM




Application : reconnaissance vocale

Description des données et méthodes

3 problèmes et pour chaque problème, 100enregistrements discrétisés en 8 192 points ;

Mise en œuvre de la procédure consistante :Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres(apprentissage) / 49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%

SVM & FDA


Nathalie V


Principe desSVM




Application : reconnaissance vocale


3 problèmes et pour chaque problème, 100enregistrements discrétisés en 8 192 points ;Mise en œuvre de la procédure consistante :

Projection sur une base trigonométrique ;Partage de la base de données en 50 spectres(apprentissage) / 49 (validation) ;Performances déterminées par leave-one-out.

Résultats

Prob. k -nn QDA SVM gau. SVM lin. SVM lin.(proj) (proj) (direct)

yes/no 10% 7% 10% 19% 58%boat/goat 21% 35% 8% 29% 46%

sh/ao 16% 19% 12% 25% 47%

SVM & FDA


Nathalie V


Principe desSVM




Application : Tecator data Set


215 spectres discrétisés en 100 points ; 2 classes : taux degraisse >20% et <20%.

Procédure :Projection sur une base de splines cubiques (déterminéepar leave-one-out) ;Partage aléatoire de la base de données en 60 spectres(apprentissage) / 60 spectres (validation) ;Performances déterminées sur un échantillon de testaléatoire de 95 spectres.

Résultats (Moyenne pour 250 répétitions)

Noyau Erreur moyenne (test)

Linéaire 3.38%Linéaire sur D2X 3.28%Gaussien 7.5%Gaussien sur D2X 2.6%

SVM & FDA


Nathalie V


Principe desSVM




Application : Tecator data Set


215 spectres discrétisés en 100 points ; 2 classes : taux degraisse >20% et <20%.Procédure :

Projection sur une base de splines cubiques (déterminéepar leave-one-out) ;Partage aléatoire de la base de données en 60 spectres(apprentissage) / 60 spectres (validation) ;Performances déterminées sur un échantillon de testaléatoire de 95 spectres.

Résultats (Moyenne pour 250 répétitions)

Noyau Erreur moyenne (test)

Linéaire 3.38%Linéaire sur D2X 3.28%Gaussien 7.5%Gaussien sur D2X 2.6%

SVM & FDA


Nathalie V


Principe desSVM




Sommaire


2 Principe des SVM


SVM & FDA


Nathalie V


Principe desSVM




Approche directe pour SVM sur dérivées

Hypothèse de régularité

On suppose que X est régulière :X ∈ Hm = {x : [0; 1] → R : Dmx existe etDmx ∈ L2}.

Principe de l’interpolation L -spline

on interpole exactement les observations x1, . . . , xn auxpoints de discrétisation t1, . . . , td ;

on minimise une pénalité de régularisation définie par unopérateur différentiel :

L = Dm +

m−1∑j=1

ajD j .

SVM & FDA


Nathalie V


Principe desSVM




Décomposition de l’espace de Sobolev

Hm = H0 +H1 avec

H0 = KerL ;

H1 est défini par m contraintes aux bornes : RKHS deproduit scalaire 〈h1, h2〉 =

∫[0,1]

Lh1(t)Lh2(t)dt et de noyauK .

Exemples :

H1 avec L = I + D et x(0) = 0 (Lx = 0⇒ x = ae−t etx(0) = a) ;

H2 avec L = I + D2 et x(0) = Dx(0) = 0 ;

Hm (m ≥ 1) avec L = Dm et D jx(0) = 0, ∀ j = 1, . . . ,m ;

SVM & FDA


Nathalie V


Principe desSVM




Détermination de la spline d’interpolation

On suppose Kd = (K (ti , tj))i,j=1,...,d inversible.

Spline d’interpolation

Soit x ∈ H1 alors h = PVect{K (tk ,.), k=1,...,d}(x).

Produit scalaire entre splines

Si x1, x2 ∈ H1,

〈h1, h2〉H1 = 〈x1, x2〉(Rd ,K−1/2).

où x i = (xi(t1), . . . , xi(td)).

SVM & FDA


Nathalie V


Principe desSVM




Application aux SVM

On note

Gdγ (u, v) = e−γ‖u−v‖2

Rd et G∞γ (u, v) = e−γ‖u−v‖2L2 ;

Kd = (K (ti , tj))i,j=1,...,d , supposée inversible ;

∀ i = 1, . . . , n, hi est la spline d’interpolation de xi

(supposée à valeurs dansH1) ;

x i = (xi(t1), . . . , xi(td)).

Théorème 2 SVM sur dérivées

SVM sur (Lhi)i avec noyau G∞γ −→ φn,dh

⇔

SVM sur (x i)i avec noyau Gdγ ◦ K

−1/2 −→ φn,dx

SVM & FDA


Nathalie V


Principe desSVM




Hypothèses pour la consistance

Hypothèses

(H1) : X est une variable aléatoire bornée à valeurs dansH1 ;

(H2) : (τd)d est une suite de points de discrétisation dans[0, 1] telle que, pour tout d ≥ 1, τd = {tk }k=1,...,d , la matriceKd est définie positive et Span{K (t , .), t ∈ ∪d≥1τd} estdense dans H1 ;

(H3) : (Cdn )n est une suite de régularisation telle que

Cdn = O(n1−βd ) pour 0 < βd < 1/d.

SVM & FDA


Nathalie V


Principe desSVM




Consistance

Théorème 3 Consistance universelle

Sous les hypothèse (H1)-(H3), le SVM φn,dh , avec la suite de

régularisation (Cdn )n, est universellement consistant :

limn→+∞

limd→+∞

Lfn,d = L∗

où L∗ est l’erreur de Bayes et Lφ = P(φ(X) , Y ) est l’erreur deφ.

SVM & FDA


Nathalie V


Principe desSVM




Limites et perspectives

Limites

Lorsque d est grand, interpolation = sur-adéquation auxobservations et Kd est mal conditionnée.

Perspectives

spline de lissage sans condition aux bornes (contrôler

l’erreur commise par E(Y |SLd(X)) au lieu de E(Y |X)) ;

application sur des données réelles :

0 200 400 600 800 1000

0.4

0.6

0.8

1.0

Temps

Fréq

uenc

e

0.6752.334.33

16.6727.6733.2511.25

274.330.33

17.3318

79.6785

17.335.3360.50.67

15.33

SVM & FDA


Nathalie V


Principe desSVM




Limites et perspectives

Limites

Lorsque d est grand, interpolation = sur-adéquation auxobservations et Kd est mal conditionnée.

Perspectives

spline de lissage sans condition aux bornes (contrôler

l’erreur commise par E(Y |SLd(X)) au lieu de E(Y |X)) ;

application sur des données réelles :

0 200 400 600 800 1000

0.4

0.6

0.8

1.0

Temps

Fréq

uenc

e

0.6752.334.3316.6727.6733.2511.25

274.330.3317.33

1879.67

8517.335.3360.50.6715.33

SVM & FDA


Nathalie V


Principe desSVM




Sommaire


2 Principe des SVM


SVM & FDA


Nathalie V


Principe desSVM




Régression inverse fonctionnelle

Modèle

Y = f (〈a1,X〉 . . . 〈aq,X〉, ε),

où ε y X , E(ε) = 0, f inconnue, {a1, . . . , aq} linéairementindependants.EDR= Vect{a1, . . . aq}

Caractérisation de l’espace EDR

Si, pour A = (〈X , a1〉, . . . , 〈X , aq〉),

Condition de Li ∀ u ∈ H , ∃v ∈ Rq : E(〈u,X〉|A ) = vT A ,

alors E(X |Y ) ∈ ΓX (EDR).

⇒ On choisit d’estimer a1, . . . , aq, vecteurs propres deΓ−1

X ΓE(X |Y ).

SVM & FDA


Nathalie V


Principe desSVM




Régression inverse fonctionnelle

Modèle

Y = f (〈a1,X〉 . . . 〈aq,X〉, ε),

où ε y X , E(ε) = 0, f inconnue, {a1, . . . , aq} linéairementindependants.EDR= Vect{a1, . . . aq}

Caractérisation de l’espace EDR

Si, pour A = (〈X , a1〉, . . . , 〈X , aq〉),

Condition de Li ∀ u ∈ H , ∃v ∈ Rq : E(〈u,X〉|A ) = vT A ,

alors E(X |Y ) ∈ ΓX (EDR).⇒ On choisit d’estimer a1, . . . , aq, vecteurs propres deΓ−1

X ΓE(X |Y ).

SVM & FDA


Nathalie V


Principe desSVM




SVM par FIR

Estimation de EDR, EDR;

Estimation de f par SVM : SVM sur PEDR(X) ;

Résultat de consistance universelle pour ce SVM : il fautcontrôler la différence entre E(Y |X) et E(Y |Tn,q(X)) oùTn,q(X) dépend des observations. . .

SVM & FDA


Nathalie V


Principe desSVM




Simulations

Données simulées Waveform

2 4 6 8 10 12 14 16 18 20−4

−2

0

2

4

6

8

Classe 1

2 4 6 8 10 12 14 16 18 20−4

−2

0

2

4

6

8

10

Classe 2

2 4 6 8 10 12 14 16 18 20−4

−2

0

2

4

6

8

Classe 3

300 courbes (apprentissage) / 500 courbes (validation) ;

erreur calculée sur un échantillon de 500 courbes ;

10 répétitions.

Résultats

FIR-SVM SVM R-PDA FIR-NMoyenne (test) 13,70 15,46 15,62 14,16Ecart type (test) 2,25 3,04 2,05 2,01Minimum (test) 10,20 12,20 12,60 12,00Moyenne (apprentissage) 11,73 10,17 12,47 12,37

Discrimination de courbes par SVM

Science

Transcript of Discrimination de courbes par SVM