Quelques rappels utiles pour l’analyse de données multivariées
Transcript of Quelques rappels utiles pour l’analyse de données multivariées
![Page 1: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/1.jpg)
Quelques rappels utiles pour l’analyse dedonnées multivariées
Chimiométrie [LCHM1320]
![Page 2: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/2.jpg)
Rappels▶ Eléments de calcul matriciel▶Notion de distances entre objets▶ Visualisation des données et statistiques simples
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 2
![Page 3: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/3.jpg)
Eléments de calcul matriciel
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 3
![Page 4: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/4.jpg)
Motivation et plan du chapitreMotivation
Quand un outil statistique implique plus de deux variables, il devient très difficile de décrire mathématiquement les méthodes à l’aide de notations mathématiques simples. Les notations matricielles et le calcul matriciel (ou algèbre linéaire) fournissent une approche élégante pour écrire les formules et développements mathématiques liés aux outils de statistique multivariée.
Plan du chapitre▷ Notion de matrice et matrices particulières▷ Opérations sur les matrices▷ Décomposition spectrale d’une matrice▷ Matrice de corrélation et de variance covariance▷ Ecriture de la régression linéaire simple sous forme matricielle
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 4
![Page 5: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/5.jpg)
La matrice = l’élément de base du chimiomètre
XTaille: (n x m)
=𝑥!! ⋯ 𝑥!"⋮ ⋱ ⋮𝑥#! ⋯ 𝑥#"
m variables
n observations
11
…
…
Vecteur colonne 𝒙!
j
i
Vecteur ligne 𝒙"Élément matriciel 𝑥"!
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 5
![Page 6: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/6.jpg)
Définition de matriceUne matrice A de taille (n x m) est un tableau de nombres rectangulaire formé de n
lignes et m colonnes.
A est une matrice (2 x 3)
aij est l’élément se trouvant à la lignei et à la colonne j de A.
Matrice carrée : n = m Matrice carrée (2 x 2) :
Vecteur colonne (n x 1) Vecteur ligne (1 x m)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 6
𝑨 = 1 4 −13 −2 6
𝑨 =𝑎## 𝑎#$ 𝑎#%𝑎$# 𝑎$$ 𝑎$%
𝐀 = 3 1−2 5
𝑨 =43−2 𝑨 = 2 4 −3
![Page 7: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/7.jpg)
Matrices carrées particulièresMatrice symétrique : aij=aji
Matrice diagonale = matrice carrée telle que aij= 0 (i¹j)
Matrice identité In= matrice carrée (n x n) telle que aii=1 et aij=0 (i¹j)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 7
𝑨 =1 4 −14 −2 6−1 6 3
𝑨 =1 0 00 4 00 0 10
𝑰% =1 0 00 1 00 0 1
![Page 8: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/8.jpg)
Opérations sur les matrices (1)Transposée A’ ou At d’une matrice A : aij’ = aji
Somme de deux matrices de mêmes tailles (m x n)
(A+B)ij =aij+bij
Multiplication d’une matrice par un scalaire
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 8
𝑨 = 1 4 −13 −2 6 ⟹ 𝑨& =
1 34 −2−1 6
𝑨 = 1 4 −13 −2 6 , 𝑩 = −2 5 1
−3 1 3 ⟹ 𝑨 + 𝑩 = −1 9 00 −1 9
𝑨 = 1 4 −13 −2 6 ⟹ 3 × 𝑨 = 3 12 −3
9 −6 18
![Page 9: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/9.jpg)
Opérations sur les matrices (2)Multiplication d’une matrice A (m x n) avec B (n x p)
C = A x B est une matrice (m x p)
A : (m x n) B : (n x p)
C : (m x p)
njinjiji
n
kkjikij ba...bababa c +++== å
=2211
1
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 9
𝑨 =1 34 −2−1 6
𝑩 = 3 1−2 5
C est (3 x 2)
𝑪 = 𝑨×𝑩 =−3 1616 −6−15 29
![Page 10: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/10.jpg)
Opérations sur les matrices (2)Multiplication matricielle : exemple
𝑨 =1 34 −2−1 6
𝑩 = 3 1−2 5
A x B
![Page 11: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/11.jpg)
Inverse d’une matrice et matrice orthogonaleL’inverse de la matrice carrée A de taille (n x n) est la matrice A-1 de même taille
telle que : A´A-1 = In = A-1´A
Quelques remarques ▷ Rien a été dit sur la méthode à utiliser pour trouver la matrice inverse.▷ Si une matrice n’a pas d’inverse on dit qu’elle est une matrice singulière. C’est le cas quand
une ou plusieurs colonnes de la matrice sont des combinaisons linéaires des autres.▷ Une matrice orthogonale est une matrice telle que A-1 = A’
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 11
𝑨 = 1 −2−3 7 ⟹ 𝑨:! = 7 2
3 1car
𝑨×𝑨:! = 1 −2−3 7 × 7 2
3 1 = 𝑨:!× 𝑨 = 7 23 1 × 1 −2
−3 7
![Page 12: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/12.jpg)
Norme▶Norme d’un vecteur x (n x 1): ▷ = la longueur du vecteur dans l’espace. Elle est directement liée au produit scalaire
𝒙 = 𝒙!𝒙 = ∑"#$% 𝑥"&
▶Norme d’une matrice X (n x m) (= norme de Frobenius) :
𝑿 = 2$'"'%$'(')
𝑥"(&
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 12
![Page 13: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/13.jpg)
Décomposition spectrale d’une matriceDécomposition en valeurs propres et vecteurs propres
Soit une matrice carrée A de taille (m x m)Il existe une matrice orthogonale P et une matrice diagonale L telles que
A = PL P’P est la matrice des vecteurs propres et L la matrice des valeurs propresExemple
Décomposition en valeurs singulièresSoit une matrice X de taille (n x m)Il existe des matrices orthogonales P (m x m) et Q (n x n) et une matrice bloc diagonale S (n x m) des valeurs singulières telles que
X = QSP’P est la matrice des vecteurs propres de X’X et S comprend les racines carrées des valeurs propres de X’X. On a alors X’X = PS’SP’ = PLP’
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 13
𝑨 = 25.5 99 12 = 𝑷𝜦𝑷! = 0.894 −0.447
0.447 0.89430 00 7.5
0.894 0.447−0.447 0.894
![Page 14: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/14.jpg)
Matrice de variance covariance et matrice de corrélation
Soit X une matrice (n x m) comprenant
les valeurs de m variables x1, x2,… xm pour n individus.Exemple : n=150 Iris et m=4 caractéristiques (longsep, largsep…)
On peut définir la matrice (m x m) de variance-covariance de X comprenant les variances des xi sur la diagonale et les covariances hors de la diagonale et la matrice des corrélations.
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 14
𝑟(𝒙;, 𝒙<)
cov(𝒙;, 𝒙<)var(𝒙<)
![Page 15: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/15.jpg)
Décomposition spectrale de la matrice de variance covariance
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 15
Si on applique une décomposition en valeurs et vecteurs propres à une matrice de variance-covariance, les vecteurs propres donnent les directions des axes de l’ellipsoïde englobant les données et les valeurs propres sont proportionnelles aux racines carrées des longueurs de ses axes.
Exemple : Iris (versicolor)
![Page 16: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/16.jpg)
Rappel de régression linéaire simpleObjectif : Établir une droite pour expliquer une variable Y en fonction d’une
variable X.𝒚 = 𝛽* + 𝛽$𝒙 + 𝝐 avec 𝝐 ~ iN(0,sy.x²)
Méthode d’estimation :Moindres carrés
Droite estimée :
Variances desestimateurs
X
Y
0
1000
2000
3000
4000
5000
6000
7000
8000
0 4 8 12 16 20
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 16
>𝒚 = 𝑏* + 𝑏$𝒙 avec 𝑏* = @𝑦 − 𝑏$�̅� 𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
∑"#$% 𝑥" − �̅�&
𝑠+!& = 𝑠,..&
1𝑛 +
�̅�&
(𝑛 − 1)𝑠.&𝑠+"& = 𝑠,..&
1(𝑛 − 1)𝑠.&
![Page 17: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/17.jpg)
Exemple de régression linéaire simple
X
Y
0
4
8
12
16
20
0 1 2 3 4 5
X Y1 42 123 84 16
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 17
𝑏$ =∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
∑"#$% 𝑥" − �̅� & =165 = 3.2
𝑏* = @𝑦 − 𝑏$�̅� = 10 − 2.5 ∗ 3.2 = 2
�̅� = 2.5 @𝑦 = 10
2"#$
%
𝑥" − �̅� 𝑦" − @𝑦 = 16
2"#$
%
𝑥" − �̅� & = 5
![Page 18: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/18.jpg)
Ecriture matricielle du modèle linéaire simpleModèle générique : y = b0 + b1 x + eModèle pour l’observation i : yi = b0 + b1 xi + ei (i=1…n)
Liste des n équations pour les n observations :
On définit :
Expression matricielle du modèle : Y = Xb + e
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 18
𝑦$ = 𝛽* + 𝛽$𝑥$ + 𝜖$𝑦& = 𝛽* + 𝛽$𝑥& + 𝜖&…𝑦% = 𝛽* + 𝛽$𝑥% + 𝜖%
𝒀 =𝑦$𝑦&⋮𝑦%
𝑿 =
11⋮
𝑥$𝑥&⋮
1 𝑥%
𝜷 = 𝛽*𝛽$
𝝐 =
𝜖$𝜖&⋮𝜖%
(n x 1) (n x 2) (2 x 1) (n x 1)
![Page 19: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/19.jpg)
ExempleModèle théorique :
Y = Xb + eExemple :
úúúú
û
ù
êêêê
ë
é
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=
ne
ee
bb
!
2
1
1
0 ,,
41312111
,
168124
εβXY
X Y1 42 123 84 16
úúúú
û
ù
êêêê
ë
é
+úû
ùêë
é´
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=+=
ne
ee
bb
!
2
1
1
0
41312111
168124
εXβY
410
310
210
110
4163821214
ebbebbebbebb
++=++=++=++=
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 19
avec : 𝒀 =𝑦$𝑦&⋮𝑦%
𝑿 =
11⋮
𝑥$𝑥&⋮
1 𝑥%
𝜷 = 𝛽*𝛽$
𝝐 =
𝜖$𝜖&⋮𝜖%
![Page 20: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/20.jpg)
Expression matricielle des estimateurs
úû
ùêë
é=ú
û
ùêë
é´úû
ùêë
é-
-==ú
û
ùêë
é=
úû
ùêë
éSS
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
´úû
ùêë
é=ú
û
ùêë
é-
-=
úû
ùêë
éSSS
=úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
´úû
ùêë
é=
úúúú
û
ù
êêêê
ë
é
=
úúúú
û
ù
êêêê
ë
é
=
-
-
2.32
11640
2.05.05.05.1
)(
11640
168124
43211111
2.05.05.05.1
)(
3010104
41312111
43211111
41312111
168124
1
1
0
1
2
YX'XX'b
YX'XX'
XX'XY
bb
yxy
xxxn
ii
i
ii
i
Les estimateurs b0 et b1 des paramètres 𝛽= et 𝛽! peuvent se calculer par la formule suivante :
b=(X’X)-1X’Y
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 20
![Page 21: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/21.jpg)
Visualisation des données et statistiques simplesSource: cours LCHM1381 (2019-2020)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 21
![Page 22: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/22.jpg)
Visualisation des données et stat de base▶ Permet de rapidement voir et explorer les données,
avant l’analyse mutlivariée
▶ Etapes:
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 22
Préparer Visualiser Résumer Interpréter
Préparer unetable des données
Visualiser pargraphiques
Résumer avec chiffres et tables
Tirer des conclusions,documenter
![Page 23: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/23.jpg)
Visualisation: variables quantitatives et qualitatives
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 23
Avec variablequantitative
Avec variablequalitative
Variablequantitative
Variablequalitative
Séquentiel (temps)Dot PlotBoxplotHistogramme
Diagramme en barreDiagramme en tarte
Graphe X-Y
Graphe X-Y matriciel
Graphe en points ou box-plot par catégories
Seule
Diagramme en barrepar catégories
Graphe en points ou box-plot par catégories
Préparer Visualiser Résumer Interpréter
![Page 24: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/24.jpg)
Box plot : Définition et construction▶Ordonner les données, couper en 4 groupes de 25% des observations
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 24
médiane
75ème percentile
25ème percentile
Maximum (sans outliers)
Minimum (sans outliers)
Outlier (observation < 25th percentile - 1.5 EIQ)
01000
2000
3000
4000
5000
*
•
•
•
•
•
••
•••••
•
•
•••
•
•
•
•
•
•
•
••
••••
••••
•••
•
••
•
•
••••
••
••••
••
•••
••
•
1.5 EIQ
Ecart inter quartiles
1.5 EIQ25%
25%25%
25%
![Page 25: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/25.jpg)
Visualisation de deux variables quantitatives▶ Graphique x-y (simple) ou nuage de points (simple x-y graph, scatterplot)▶ Graphique x-y (multiple) ou graphique matriciel (multiple x-y graph)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 25
![Page 26: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/26.jpg)
Analyse exploratoire: Résumer les données
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 26
Préparer Visualiser Résumer Interpréter
Moyenne, médiane,mode,écart-type, EIQ
Table de fréquences
Coefficient de corrélation(Pearson ou autre)
Cramer fCoefficient de correlation des rangs
Table de contingenceCramer f
Avec variablequantitative
Avec variablequalitativeSeule
Variablequantitative
Variablequalitative
Cramer fCoefficient de correlation des rangs
![Page 27: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/27.jpg)
Les indices de position▶ De combien les données varient-elles autour du centre ?
Etendue - Range Ecart inter-quartiles
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 27
55 60 655045
Etendue = max(xi) - min(xi) EIQ = q0.75 - q0.25
25% obs 25% 25% 25%Etendue EIQ
q0.25 q0.5 q0.75
55 60 655045
Box Plot
![Page 28: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/28.jpg)
Les indices de position▶Objectif: donner une valeur « centrale » pour un ensemble de donnéesMoyenne arithmétique Médiane Mode
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 28
8 9 10 11 12 13 14
• Souvent utilisée • Centre de gravité des données• Sensible aux outliers• Efficace pour données ‘propres’
8 9 10 11 12 13 14
50% of obs. 50% of obs
« milieu » = q0.5=13
• Résistante aux outliers• S’appelle aussi 50ème percentile• Moins efficace pour données ‘propres’• Utile pour distributions asymétriques
Comparer la moyenne et la médiane et essayer d’expliquer les différences
8 9 10 11 12 13 14
valeur (classe) laplus fréquente= 14
• Facile à comprendre • Parfois ambigu • Moins utilisé
>𝒙 =1𝑛@"'#
(
𝑥" = 12
![Page 29: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/29.jpg)
Les indices de dispersionVariance :
▷ Utile pour dérivations mathématiques
Ecart-type (standard deviation) :
▷ Utile pour interprétation (unités de départ)
Erreur-type (standard error) :
▷ précision de l’estimateur de la moyenne
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 29
55 60 655045X
55 60 655045
92.72 == ss
nssX /=
𝑠$ =1
𝑛 − 1@"'#
($ =
1𝑛 − 1
@"'#
(
𝑥" − �̅� $
= 62.667
![Page 30: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/30.jpg)
Le coefficient de corrélation▶ Le coefficient de corrélation r de Pearson mesure la relation
linéaire existant entre deux variables quantitatives x et y.▷ Si x1,..xn et y1,.. ,yn sont deux échantillons observés simultanément
sur x et y :
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 30
1»r
1-»r
01 <<- r
10 << r
0»r
xx
xx
x
x
x
x x
xx
x
xxx
x
x
x
x
Gaffe !
0»r
0>r
𝑟 =∑EF!# (𝑥E − �̅�)(𝑦E − *𝑦)
∑EF!# 𝑥E − �̅� G ∑EF!
# 𝑦E − *𝑦 G
covariance = $%/$
∑"#$% (𝑥" − �̅�)(𝑦" − @𝑦)
![Page 31: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/31.jpg)
Notion de distances entre objets
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 31
![Page 32: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/32.jpg)
Distances EuclidiennesSoient deux objets (vecteurs colonne) x1=(x11, x12, … , x1m)’ et x2=(x21, x22, … , x2m)’
dans Rm.
▶ Distance euclidienne simple :
𝑑 𝒙$, 𝒙& = 2(#$
)𝑥$( − 𝑥&(
& = 𝒙$ − 𝒙& ! 𝒙$ − 𝒙&
Notion de métrique 𝑴 : 𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙& !𝑴 𝒙$ − 𝒙&=> pour la distance euclidienne simple, 𝑴 = 𝑰)
▶ Distance euclidienne standardisée :
𝑑 𝒙$, 𝒙& = ∑(#$) ."#/.$#$
0#$ = 𝒙$ − 𝒙& !𝑫 𝒙$ − 𝒙& avec 𝑫 = diag(1/𝒔$&, … , 1/𝒔)& )
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 32
![Page 33: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/33.jpg)
Distances Euclidiennes▶ Distance de Mahalanobis :
𝑑 𝒙$, 𝒙& = 𝒙$ − 𝒙𝟐 !𝑺/$ 𝒙$ − 𝒙& avec 𝑺 la matrice de variance-covariance des mvariables
▶ Distance Euclidienne généralisée (expression générale des trois distances) :𝑑 𝐱$, 𝒙& = 𝐱$ − 𝐱& !𝐐 𝐱$ − 𝐱& avec 𝐐 une matrice carrée définie positive
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 33
Iso-courbes de distances euclidienne (gauche) et de Mahalanobis (droite) depuis l’origine (0,0)
![Page 34: Quelques rappels utiles pour l’analyse de données multivariées](https://reader031.fdocument.pub/reader031/viewer/2022012104/616a18d611a7b741a34ec422/html5/thumbnails/34.jpg)
Autres mesures de distance, (dis)similaritéDistance de Manhattan :
𝑑 𝒙$, 𝒙& = ∑(#$) 𝑥$( −𝑥&(
Coefficient de corrélation de Pearson := mesure de similarité
𝑑 𝒙$, 𝒙& = 234(𝒙",𝒙$)49: 𝒙$ 49: 𝒙"
Distance euclidienne (unique)Distance de Manhattan (plusieurs chemins possibles)
2020-2021 UCLouvain - LCHM1320 – Chimiométrie - Rappels 34