0% ont trouvé ce document utile (0 vote)
133 vues141 pages

Analyse de données multidimensionnelles

Transféré par

salma Labbane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
133 vues141 pages

Analyse de données multidimensionnelles

Transféré par

salma Labbane
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Translated by Google

Analyse de données multi­dimensionnelles


Réduction de données, analyse en variables latentes et applications

Matthieu PUIGT

Université du Littoral Côte d’Opale


Ecole d’Ingénieurs du Littoral Côte d’Opale
Master Ingénierie des Systèmes Complexes
matthieu.puigt[at]univ­littoral.fr http://www­lisic.univ­
littoral.fr/~puigt/

Retrouvez ce document sur:


https://www­lisic.univ­littoral.fr/~puigt/teaching.html

Année universitaire 2022­2023

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 1


Machine Translated by Google

Bibliographie de la conférence Des


didacticiels vidéo faciles à suivre à pas si faciles : Chaîne youtube
de Josh Starmer (StatQuest) : https://www.youtube.com/
channel/UCtYLUTtgS3k1Fg4y5tAhLbw Chaîne youtube de Luis Serrano
(Serrano.Academy) : https://www.youtube.com/channel/
UCgBncpylJ1kiVaPyP­PZauQ Chaîne YouTube du professeur Barry Van Veen : https://
www.youtube.com/channel/
UCooRZ0pxedi179pBe9aXm5A
Publications :
L. Balzano & R. Nowak, Étalonnage aveugle des réseaux de capteurs, dans Proc.
de l'IPSN, pp. 79­88, 2007.
P. Comon et C.Jutten (Eds.), Manuel de séparation aveugle des sources :
analyse et applications indépendantes des composants, Presse académique, 2010.
N. Gillis, Le pourquoi et le comment de la factorisation matricielle non négative,
dans « Régularisation, optimisation, noyaux et machines à vecteurs de support », pp.
275­310, 2014, Chapman et Hall/CRC.
N. Guan, D. Tao, Z. Luo et B. Yuan, NeNMF : Une méthode de gradient optimal pour la
factorisation matricielle non négative, IEEE Trans. sur Sig. Proc., 60(6),
2882­2898, 2012.
DD Lee & HS Seung, Apprendre les parties d'objets par factorisation matricielle non
négative. Nature, 401(6755), 788­791, 1999.
CH Martin, TS Peng et MW Mahoney, Prédire les tendances de la qualité des réseaux
de neurones de pointe sans accès aux données de formation ou de test, Nature
Communications, 12(1), 1­13, 2021.
M. Puigt, O. Berné, R. Guidara, Y. Deville, S. Hosseini et C. Joblin, Validation
croisée de spectres de poussières interstellaires séparés aveuglément, Proc. de
ECMS 2009, pp. 41­48, Mondragon, Espagne, 8­10 juillet 2009.
M. Udell et A. Townsend, Pourquoi les matrices Big Data sont­elles à peu près de
faible rang ?, SIAM Journal on Mathematics of Data Science, 1(1), 144­160, 2019.
Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 3


Machine Translated by Google

Introduction (1)
Haute dimensionnalité
De nombreux problèmes en science des données, en apprentissage automatique ou en
traitement du signal/image impliquent des ensembles de données dans des
espaces de grande dimension : un espace de grande dimension : le nombre d d'entités est
supérieur au nombre n d'observations (d > n)

Exemples
Dans le domaine des soins de santé, chaque personne ­ c'est­à­dire l'observation ­ peut être décrite par sa taille, son
poids, sa température, sa tension artérielle, sa fréquence cardiaque, etc. (caractéristiques)

En sciences sociales, un chercheur peut poser à certains volontaires (c'est­à­dire des


observations) des dizaines à des centaines de questions (c'est­à­dire des caractéristiques) qui sont utilisées pour
dériver certaines propriétés.

Dans les systèmes de recommandation de films, chaque client peut noter des centaines de films

dans les émissions de télévision (au moins...)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 4


Machine Translated by Google

Introduction (2)
La malédiction de la dimensionnalité

Rappel : on observe n échantillons, chacun d'eux composé de d caractéristiques


Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit exponentiellement
augmenter lorsque d augmente linéairement

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5


Machine Translated by Google

Introduction (2)
La malédiction de la
dimensionnalité Rappel : on observe n échantillons, chacun d'eux composé de d
traits Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit augmenter de façon
exponentielle lorsque d augmente linéairement

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 1D

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5


Machine Translated by Google

Introduction (2)
La malédiction de la
dimensionnalité Rappel : on observe n échantillons, chacun d'eux composé de d
traits Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit augmenter de façon
exponentielle lorsque d augmente linéairement

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 2D

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5


Machine Translated by Google

Introduction (2)
La malédiction de la
dimensionnalité Rappel : on observe n échantillons, chacun d'eux composé de d
traits Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit augmenter de façon
exponentielle lorsque d augmente linéairement

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 3D

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5


Machine Translated by Google

Introduction (2)
La malédiction de la
dimensionnalité Rappel : on observe n échantillons, chacun d'eux composé de d
traits Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit augmenter de façon
exponentielle lorsque d augmente linéairement

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper...

Augmenter la dimension dans laquelle Mario peut se déplacer rend votre problème
plus dur

Augmenter le nombre d'ennemis de Mario rend la tâche plus facile (à condition


est possible d'avoir une bonne IA pour vous aider à jouer tous les personnages)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5


Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!
De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6


Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!
De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6


Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!

De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

Faible rang approximatif

Propriété clé en traitement du signal et de l'image et en machine learning

La matrice de données/tenseur peut s'expliquer par un nombre limité de variables


cachées/latentes (avec une erreur d'approximation limitée/négligeable)

Objectif de cette conférence (6 h)

Une introduction aux techniques d'approximation de bas rang appliquées aux matrices

Applications à travers différents problèmes de traitement du signal ou d’apprentissage


automatique
Matlab pratique

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 7


Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'est­à­dire

| |
X= x1
_
...X
n
| |

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8


Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'est­à­dire

| |
X= x1
_
...X n
| |

n×k d×k
X est de bas rang si k < min(n, d), W R ,H R , tel que

­h T —
1
| |
T
= · ..
X=W·H w1 . . . semaine .
||
­h T —
k

où les colonnes de W et H sont linéairement indépendantes.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8


Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'est­à­dire

| |
X= x1
_ ...X n

| |

n×k d×k
X est de bas rang si k < min(n, d), W R ,H R , tel que
T
­h 1

| |
T
= · ..
X=W·H w1 . . . semaine .
T
||
­h k

où les colonnes de W et H sont linéairement indépendantes.


X est de rang k0 si nous ne trouvons aucune matrice W et H satisfaisant ce qui précède
propriété pour k < k0 alors que nous pouvons trouver pour k = k0.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8


Machine Translated by Google

Matrices de bas rang (2)


Exemple avec une matrice de rang 2

X comme produit matriciel

T — h1 —
| |
· ..
X= w1 . . . semaine |
.
| T
­h k —

= ·

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 9


Machine Translated by Google

Matrices de bas rang (2)


Exemple avec une matrice de rang 2

X comme produit matriciel

= ·

X comme somme de matrices de rang 1


k
T
X= avec · h je

je = 1

= · + ·

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 9


Machine Translated by Google

Matrices de bas rang (3)


Quelques applications

Clustering (K­moyennes)
T T
X≈W·H avec tout h sont tous nuls sauf pour une valeur où elle vaut un
je

T
W contient les centroïdes et H est une matrice d'appartenance à un cluster

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix


Machine Translated by Google

Matrices de bas rang (3)


Quelques applications

Factorisation matricielle non négative


X≈W·H T
avec X, W, H ≥ 0 (la décomposition basée sur les parties améliore
interprétabilité)
T
En traitement audio, W est une matrice de motifs fréquentiels (timbres) et H
une matrice d'activation temporelle

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix


Machine Translated by Google

Matrices de bas rang (3)


Quelques applications

Débruitage
Y = X + E où X contient des modèles dominants (X de bas rang) et E non (bruit)

Y ≈ WHT WHT plus proche de X que de Y

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix


Machine Translated by Google

Matrices de bas rang (4)


Pour conclure sur le bas rang
Hypothèse clé dans de nombreux problèmes de science des données

De nombreuses données sont approximativement de faible rang (c'est­à­dire des données bruitées de bas rang)

Directement applicable sur des matrices ou des tenseurs


Connexions avec les réseaux de neurones et l’apprentissage profond – hors du champ de
cette conférence

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 11


Machine Translated by Google

Matrices de bas rang (4)


Pour conclure sur le bas rang

Hypothèse clé dans de nombreux problèmes de science des données De

nombreuses données sont approximativement de faible rang (c'est­à­dire des données bruyantes de bas rang)
Directement applicable sur des matrices ou des tenseurs
Connexions avec les réseaux de neurones et le deep learning – hors du cadre de ce cours

Toute matrice de données volumineuse a tendance à être de faible rang (Udell, 2019)
Et nous vivons un déluge de données

En 2021 (source :
de sati)
500 h de vidéo

Youtube, 695 000

photos sur Instagram

197 millions
d'emails envoyés

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 11


Machine Translated by Google

Matrices de bas rang (4)


Pour conclure sur le bas rang
Hypothèse clé dans de nombreux problèmes de science des données

De nombreuses données sont approximativement de faible rang (c'est­à­dire des données bruitées de bas rang)

Directement applicable sur des matrices ou des tenseurs


Connexions avec les réseaux de neurones et l’apprentissage profond – hors du champ de
cette conférence

Toute matrice de données volumineuse a tendance à être de faible rang (Udell, 2019)

Et nous vivons un déluge de données

Voyons maintenant quelques techniques d'approximation de bas rang populaires !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 11


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières


Définitions et propriétés de SVD
Pratique : étalonnage du capteur de store

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 12


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (1)

Définition
Toute matrice d × n X peut être exprimée comme
T
X=U·S·V

où:
U est une matrice d × d avec des colonnes orthonormées (vecteurs singuliers à gauche)

V est une matrice n × n avec des colonnes orthonormées (vecteurs singuliers à


droite) Σ est une matrice diagonale ad × n avec σ1 ≥ 0 et σi ≥ σj si i < j (valeurs
singulières)

Si d > n (détection haute dimension) Si d < n (par exemple, big data)


X est grand et maigre X est petit et gros

p1 0 ... 0 p1 0 . . . 0 ...
0σ2 0 . . . 0 0σ2 0 . . . 0...0
. .. S= . ..
. . .
. . .
S= 0... 0 σn 0 . . . 0 σd 0 . . . 0
0... ... 0
. .
. .
. .
0 0
Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentrons­nous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

p1 0 ...00
u11 . . . u1n u1,n+1 . . . u1d
σ2 0 . . . 0
U21 . . . u2n u2,n+1 . . . u2d .. ..
.. .. . .
. .
UΣ = 0... 0 σn 0
un1 . . . unn un,n+1 . . . et
0...
.. .. .. ..
. . . . .. ..
. .
sortie1 . . . udn ud,n+1 . . . poste
0... 0

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 14


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentrons­nous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

p1 0 ...00
u11 . . . u1n u1,n+1 . . . u1d
σ2 0 . . . 0
U21 . . . u2n u2,n+1 . . . u2d .. ..
.. .. . .
. .
UΣ = 0... 0 σn 0
un1 . . . unn un,n+1 . . . et
0...
.. .. .. ..
. . . . .. ..
. .
sortie1 . . . udn ud,n+1 . . . poste
0... 0

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 14


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentrons­nous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

Et ainsi nous pouvons obtenir le SVD de taille économique, c'est­à­dire,

u11 . . . u1n
u21 . . . u2n p1 0 ...00
.. ..
. . σ2 0 . . . 0
UΣ = .. ..
un1 . . . traiter
. .
.. ..
. . 0... 0 σn

ud1 . . . etc.

Autrement dit, U peut être réduit à une matrice orthonormée ad × n et Σ à une


matrice diagonale × n.
T
De même, on peut tronquer V si n > d (pour s'en convaincre, appliquez SVD sur
X avec d > n)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 14


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

Orthonormalité
T
UUT = je, U U = je, VVT = I, V TV = I
Sois prudent! il peut y avoir des différences dans la dimension de l'identité
matrices (en particulier avec l'econ. SVD)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

Bases de X
Les vecteurs dans U et V sont les bases orthonormées des lignes et colonnes de X,
respectivement

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

Rang
Si rang(X) = k < min(n, d), alors

σ1 ≥ σ2 ≥ . . . ≥ σk ≥ σk+1 = . . . = σmin(n,d) = 0

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

approximation de bas rang d'une matrice (théorème d'Eckart­Young, 1936)


Soit X une matrice de rang k et r < k.
k
2
rang X−M F
= 2 p je ,
minimum (M)≤r
je=r+1

r T T
où M = i=1 σiui · v je
et X = UΣV est le SVD

T T T
X = σ1 · u1 · v 1 +σ2 · u2 · v 2 + . . . + σk · royaume­uni · vk

La plupart
Motifs: 2ème plus k­ième le plus
important

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

approximation de bas rang d'une matrice (théorème d'Eckart­Young, 1936)


Soit X une matrice de rang k et r < k.
k
2
rang X−M F
= 2 p je ,
minimum (M)≤r
je=r+1

r T T
où M = i=1 σiui · v je
et X = UΣV est le SVD

T T T
X = σ1 · u1 · v 1 +σ2 · u2 · v 2 + . . . + σk · royaume­uni · vk

La plupart
Motifs: 2ème plus k­ième le plus
important

Les valeurs singulières fournissent un classement


ordonné des composantes (ie, la diminution de σi permet de
trouver un rang optimal k )

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)


Propriétés

Exemple
SVD tronqué appliqué sur une image réelle

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 15


Machine Translated by Google

Pratique : étalonnage du capteur de store

Nous allons maintenant voir une application de SVD.


Le contenu des prochaines diapositives s’inspire de :
L. Balzano & R. Nowak, Étalonnage aveugle des réseaux de capteurs, dans Proc. de
IPSN, p. 79­88, 2007.
C. Dorffer, M. Puigt, G. Delmaire, G. Roussel, Étalonnage robuste aux valeurs aberrantes
méthode pour les réseaux de capteurs, dans Proc. IEEE ECMSM, 2017.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 16


Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension


Tension = phénomène ?

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 17


Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension


Tension = phénomène ?

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 17


Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension


Tension = phénomène ?
Étalonnage du capteur nécessaire
Pas toujours physiquement possible
Calibrage du capteur de store

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 17


Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension


Tension = phénomène ?
Étalonnage du capteur nécessaire
Pas toujours physiquement possible
Calibrage du capteur de store
Réseau de capteurs fixes
De nombreuses méthodes, dont
Calibrage basé sur la projection (L. Balzano et R. Nowak 2007)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 17


Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension


Tension = phénomène ?
Étalonnage du capteur nécessaire
Pas toujours physiquement possible
Calibrage du capteur de store
Réseau de capteurs fixes
De nombreuses méthodes, dont
Calibrage basé sur la projection (L. Balzano et R. Nowak 2007)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 17


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à


Temps t = t1, . . . , td .

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à


Temps t = t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à


Temps t = t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses


Réseau composé de N capteurs fixes et synchronisés observés à
Temps t = t1, . . . , td .

Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

Aucun gain de capteur n'est nul

xn(t) − βn
dans(t) ≈
et

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses


Réseau composé de N capteurs fixes et synchronisés observés à
Temps t = t1, . . . , td .

Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

Aucun gain de capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont pré­calibrés avant le déploiement


Les premières lectures du capteur de yi (t) correspondent donc à xi (t)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés aux instants t =


t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est le nième gain du capteur (resp. offset) correction Aucun
gain du capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont pré­calibrés avant le déploiement


Les premières lectures du capteur de yi (t) correspondent donc à xi (t)
Le réseau est suffisamment dense pour suréchantillonner l'espace du signal
Le rang r du signal observé est connu avec r N

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés aux instants t =


t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est le nième gain du capteur (resp. offset) correction Aucun
gain du capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont pré­calibrés avant le déploiement


Les premières lectures du capteur de yi (t) correspondent donc à xi (t)
Le réseau est suffisamment dense pour suréchantillonner l'espace du signal
Le rang r du signal observé est connu avec r N
Le sous­espace S du signal observé est connu, par exemple,
nous pouvons apprendre le sous­espace dans lequel se trouvent les données "calibrées" dès
les
premières lectures, le sous­espace peut être fourni par des experts en cas d'absence de pré­étalonnage.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 18


Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sous­espace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2

x2

x2(t2)− •

x2(t3) −

x2(t1)− •

||
| x1(t1) x1(t2) x1

x1(t3)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 19


Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sous­espace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2

y2

• S



obtenir un effet

y1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 19


Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sous­espace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2


y2 •
• S

• •



obtenir un effet

effet de décalage

y1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 19


Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

y2 •

S

y1
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


• 1 Supprimer les contributions offset
y2
• (en centrant les signaux)
S
En effet...

d
1
dans dans (tj)
=d
1 je=1
jour dn=1
xn(ti) βn
= −
et et

y1 et k {1, . . . , d},
1

xn(tk ) − jour di=1 xn (merci )


dans(tk ) − dans = et
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


1 Supprimer les contributions offset
y2
(en centrant les signaux)
• S
• En effet...

d
1
• dans dans (tj)
=d

1 je=1
= jour dn=1 xn(ti) − βn
et et

y1 et k {1, . . . , d},

xn(tk ) − jour di=1 xn (merci )


dans(tk ) − dans =
et
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection de données sur S


y1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 20


Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection de données sur S


y1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 20


Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection des données sur S 3



Estimation des gains du capteur par projection en
espace nul, c'est­à­dire
• PΩ · Y1
..
. α ≈ 0,
PΩ · Maïs

C
y1

PΩ est l'opérateur de projection sur S .

Yk =

S y1(tk ) − y1
..
0 . 0
yN (tk ) − yN

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 20


Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale


1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection des données sur S 3



Estimation des gains du capteur par projection en
espace nul, c'est­à­dire
• PΩ · Y1
..
. α ≈ 0,
PΩ · Maïs

C
y1

PΩ est l'opérateur de projection sur S .

Yk =

S y1(tk ) − y1
..
0 . 0
yN (tk ) − yN

4 Estimation des décalages des capteurs (par exemple, par les

moindres carrés si les vraies données sont de

moyenne nulle)
M. Puigt Analyse de données multi­dimensionnelles 2022­2023 20
Machine Translated by Google

Le "comment" de l'étalonnage (4)

Est­ce vraiment possible ?

Oui! Preuve de convergence si le nombre d de "instantanés" satisfait (Balzano


et Nowak, 2007)
N−1
d> +1
N−r

Mais une indétermination d’échelle demeure. Possibilité de le résoudre, par exemple en supposant
que α1 = 1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 21


Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

1 Moindres carrés :
Supprimer α1 de α et obtenir α
Supprimez la première colonne c1 de C et obtenez C
Le problème à résoudre s'écrit C · α = −c1 α
= −C−† · c1 où −† désigne le pseudo­inverse (pinv dans Matlab)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 21


Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

1 Moindres carrés :
Supprimer α1 de α et obtenir α
Supprimez la première colonne c1 de C et obtenez C
Le problème à résoudre s'écrit C · α = −c1 α
= −C−† · c1 où −† désigne le pseudo­inverse (pinv dans Matlab)
2 SVD :
Calculer le SVD de taille économique de C (svd(C,0) dans Matlab)
Le dernier vecteur singulier de V est proportionnel à
α α peut être dérivé en divisant le dernier SV de V par V(1)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 21


Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

1 Moindres carrés :
Supprimer α1 de α et obtenir α
Supprimez la première colonne c1 de C et obtenez C
Le problème à résoudre s'écrit C · α = −c1 α
= −C−† · c1 où −† désigne le pseudo­inverse (pinv dans Matlab)
2 SVD :
Calculer le SVD de taille économique de C (svd(C,0) dans Matlab)
Le dernier vecteur singulier de V est proportionnel à
α α peut être dérivé en divisant le dernier SV de V par V(1)

Ton tour maintenant!

Vous recevez un code Matlab à remplir afin d'effectuer l'étalonnage. Quelle


méthode est la plus précise ?

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 21


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales


Définition et propriétés de l’ACP
Application

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 22


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

aRappel : centrer une observation consiste à lui retirer sa moyenne ! Si les données sont organisées comme n
observations de d caractéristiques, les points de données dans chaque colonne sont centrés autour de l'origine

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'est­à­dire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

aRappel : centrer une observation consiste à lui retirer sa moyenne ! Si les données sont organisées comme n
observations de d caractéristiques, les points de données dans chaque colonne sont centrés autour de l'origine

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'est­à­dire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

La première direction principale est celle qui maximise la variance des données (ou minimise
l'erreur d'ajustement).

aRappel : centrer une observation consiste à lui retirer sa moyenne ! Si les données sont organisées comme n
observations de d caractéristiques, les points de données dans chaque colonne sont centrés autour de l'origine

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'est­à­dire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

La première direction principale est celle qui maximise la variance des données (ou minimise
l'erreur d'ajustement).

La deuxième direction principale est celle qui est orthogonale à la première direction principale et
qui maximise la variance des données Et ainsi de suite...

aRappel : centrer une observation consiste à lui retirer sa moyenne ! Si les données sont organisées comme n
observations de d caractéristiques, les points de données dans chaque colonne sont centrés autour de l'origine

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (1)


Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 23


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui


s'écrit

T
C=EX·X

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui


s'écrit

C=E X·X T

signifier

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui


s'écrit

1 T
C= X·X
n

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre


1
· FT · X · X T ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 T T T
T ·f · U · S · V · (U · S · V ) ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 T T
T ·f · U · S · V ·V·S·U ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1
T ·f · NOUS2 · U T ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1
T ·f · NOUS2 · U T ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'est­à­dire que le premier vecteur principal est le premier
vecteur singulier

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1 T T
·F ·X·X ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 2 T
T ·f · NOUS · U ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'est­à­dire que le premier vecteur principal est le premier
vecteur singulier
2
1 T en
Et la variance associée est n
T ·u 1 ·X·X · u1 = n
1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (2)


Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1 T T
·F ·X·X ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 2 T
T ·f · NOUS · U ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'est­à­dire que le premier vecteur principal est le premier
vecteur singulier
2
1 T en
Et la variance associée est n
T ·u 1 ·X·X · u1 = n
1

De même pour les autres vecteurs principaux !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 24


Machine Translated by Google

Analyse en composantes principales (3)

Quelques applications de l'ACP


Débruitage, réduction de dimensionnalité
Régression orthogonale (alias Total des Moindres Carrés)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 25


Machine Translated by Google

Analyse en composantes principales (3)

Quelques applications de l'ACP


Débruitage, réduction de dimensionnalité
Régression orthogonale (alias Total des Moindres Carrés)
Analyse des réseaux Deep Learning

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 25


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse en Composantes Indépendantes


Parlons des systèmes linéaires
Une sorte de magie ?
Un peu d'histoire
de l'ACP à l'ICA
ICA non basé sur la gaussianité

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 26


Machine Translated by Google

Analyse indépendante des composants

Concept fortement lié à la séparation aveugle des


sources Dans les années 1950, le concept de problème de cocktail s'est exprimé.
Vous assistez à une soirée un peu fréquentée et bruyante. Vous
parvenez néanmoins à écouter les gens près de chez
vous. Cependant, si vous n'entendez que d'une oreille, vous ne comprenez rien !
Problème du cocktail moderne : débat politique à la télé !

Faire ce que nos oreilles font avec des ordinateurs est un véritable défi !
Introduisons d'abord le contexte mathématique !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 27


Machine Translated by Google

Parlons des systèmes linéaires


Vous savez tous comment résoudre ce type de systèmes :

2 s1 + 3 s2 3 =5=1
(1)
s1 − 2 s2

Si nous resp. définissez A, s et x la matrice et les vecteurs :

2 3 3 −2 T T
UNE = , s = [s1, s2 ] , et x = [5, 1]

Éq. (1) commence


x=A·s

dont la solution est


−1 T
s = UNE · x = [1, 1]

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 28


Machine Translated by Google

Parlons des systèmes linéaires


Vous savez tous comment résoudre ce type de systèmes :

2 s1 + 3 s2 + . . . + 7 s5 = 5 3 s1 − 2 s2
(1)
+ . . . + 2 s5 = 1

Si nous resp. définissez A, s et x la matrice et les vecteurs :

2 3 . . . 7 3 −2 . . . T T
UNE = , s = [s1, s2, . . . , s5] , et x = [5, 1]
2

Éq. (1) commence


x=A·s

dont la solution est


s =???

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

Comment résoudre ce genre de problème si ?

Il y a plus d'inconnues que d'équations (problème inverse mal posé )

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 28


Machine Translated by Google

Parlons des systèmes linéaires


Vous savez tous comment résoudre ce type de systèmes :

? · s1+ ? · =5=1
(1)
s2 ? · s1+ ? · s2

Si nous resp. définissez A, s et x la matrice et les vecteurs :

T T
UNE = , s = [s1, s2 ] , et x = [5, 1]
????

Éq. (1) commence


x=A·s

dont la solution est


−1
s = UNE ·x=?

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

Comment résoudre ce genre de problème si ?

Il y a plus d'inconnues que d'équations (problème inverse mal posé )


On ne connaît pas l'opérateur A ( séparation aveugle de sources)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 28


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 + a12 s2 = 5 a21


s1 + a22 s2 = 1 _ _

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t1) + a12 s2 (t1) = 5


a21 s1 (t1) + a22 s2 (t1) = 1

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t2) + a12 s2 (t2) = 0


a21 s1 (t2) + a22 s2 (t2) = 7

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t3) + a12 s2 (t3) = −4,2


a21 s1 (t3) + a22 s2 (t3) = 0,7

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 · s1(t4) + a12 · s2(t4) = 2,1


a21 · s1(t4) + a22 · s2(t4) = 7,5

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 · s1(t) + a12 · s2(t) = x1(t)


a21 · s1(t) + a22 · s2(t) = x2(t)

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande


dimension, nous obtenons plusieurs échantillons de

données, c'est­à­dire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

­x 1 — | |

— = UNE ·
s1 s2 ou X = A · S
— x2
||

Heureusement...
Dans de nombreux traitements du signal/apprentissage automatique/données de haute dimension,
nous obtenons plusieurs échantillons de données,

c'est­à­dire que nous avons une série de systèmes d'équations !

Nous pouvons utiliser certaines propriétés statistiques pour inverser A

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 29


Machine Translated by Google

Un peu d'histoire
Problème BSS formulé vers 1982, par Hans, Hérault et Jutten pour un problème biomédical et
premiers articles au milieu des années 80
Grand intérêt de la communauté, principalement en France et plus tard en Europe et au Japon,
puis aux USA
Plusieurs sessions spéciales dans des conférences internationales (ex. GRETSI'93,
NOLTA'95)
Premier atelier en 1999, à Aussois, France. Une conférence tous les 18 mois jusqu'en 2018 !

Des personnes issues d'horizons différents : traitement du signal, statistiques, réseaux


de neurones, puis plus tard machine learning, intelligence artificielle Sujet
renommé « Latent Variable Analysis » (LVA)
Initialement, BSS s'adressait aux mélanges simples (comme dans cette conférence) mais
Modèles de mélanges plus complexes (bien adaptés à l'acoustique) au milieu et à la fin des
années 90
Jusqu'à la fin des années 90, BSS ≈ ICA
Premières méthodes NMF au milieu des années 90 mais contribution célèbre en 1999
Autres méthodes basées sur la parcimonie vers 2000
Techniques de deep learning depuis les années 2010

un problème générique
De nombreuses applications, par exemple biomédicales, traitement audio, télécommunications,
astrophysique, classification d'images, acoustique sous­marine, finance, traitement de l'information
quantique.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 30


Machine Translated by Google

De la PCA à l’ICA
Indépendant Non corrélé (mais pas l'inverse en général)
Voyons un exemple graphique avec des sources uniformess,x = Comme avec
−0,2485 0,8352
P = N = 2 et A =
0,4627 −0,6809

Distributions sources (rouge : directions des sources) Distributions de mélanges (vert : vecteurs propres)

M. Puigt Une très brève introduction au BSS Avril/mai 2011 31


Machine Translated by Google

De la PCA à l’ICA
Indépendant Non corrélé (mais pas l'inverse en général)
Voyons un exemple graphique avec des sources uniformess,x = Comme avec
−0,2485 0,8352
P = N = 2 et A =
0,4627 −0,6809

Distributions sources (rouge : directions des sources) Distributions de sortie après blanchiment

La PCA fait « la moitié du travail » et nous devons faire pivoter les données pour atteindre l’objectif.
séparation!
M. Puigt Une très brève introduction au BSS Avril/mai 2011 31
Machine Translated by Google

Principes de l'ICA

Je ne détaillerai pas les détails de l'ICA.

De nombreuses méthodes ont été proposées depuis 1984


Certains résultats de l'ICA sont célèbres...

Approches historiques basées sur la non­gaussianité

Comprenons pourquoi !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 31


Machine Translated by Google

ICA basé sur la non­gaussianité


Mélanger les sources Observations gaussiennes

Pourquoi?

Théorème des états limites centraux selon lequel la somme des variables aléatoires tend vers une
Distribution gaussienne

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 34


Machine Translated by Google

Concept ICA non gaussien

Si au plus une source est iid gaussienne

Alors, on peut trouver une matrice W telle que les signaux yi(t) dans

Y=W·X

sont les moins gaussiens !


4 22
Le Kurtosis défini comme kurt(y) = E y Gaussian.* − 3 E et est nul si y est

En pratique, on applique d'abord la PCA aux données (blanchiment)

Ensuite, nous utilisons l'aplatissement pour trouver l'angle de rotation

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 32


Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources (rouge : directions des sources) Distributions de mélanges (vert : vecteurs propres)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 41


Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources Distributions de sortie après blanchiment

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 35


Machine Translated by Google

Retour à notre exemple de jouet

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 35


Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources (rouge : directions des sources) Distributions de sortie après ICA

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 41


Machine Translated by Google

Quelques applications ICA

séparation des sources (signaux audio, image, données financières, etc.)


débruitage

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 33


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative


Définition et propriétés du NMF
Pratique : démixage hyperspectral

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 34


Machine Translated by Google

Factorisation matricielle non négative (1)


Pourquoi est­ce tellement populaire?

Dans de nombreux problèmes, les matrices X ≈ G · F sont non négatives, par exemple,
analyse de concentration chimique analyse
de texte
(hyperspectrale) analyse d'image données
de consommation d'énergie électrique

La non­négativité sur G et/ou F permet une meilleure interprétabilité

NMF appliqué à l'ensemble de données de visage (source : Lee & Seung, 1999)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 35


Machine Translated by Google

Factorisation matricielle non négative (1)


Pourquoi est­ce tellement populaire?

Dans de nombreux problèmes, les matrices X ≈ G · F sont non négatives, par exemple,
analyse de concentration chimique analyse
de texte
(hyperspectrale) analyse d'image données
de consommation d'énergie électrique

La non­négativité sur G et/ou F permet une meilleure interprétabilité

Analyse en composantes principales appliquée à l'ensemble de données de visage (source : Lee & Seung, 1999)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 35


Machine Translated by Google

Factorisation matricielle non négative (2)


Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0

Comment définir l'écart de X par rapport à G · F ?


2
Norme de Frobenius X−G·F F
12
Semblable à la norme euclidienne pour les matrices

Divergence Kullback­Leibler, divergences paramétriques, etc.


Hors du cadre de cette conférence !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 36


Machine Translated by Google

Factorisation matricielle non négative (2)


Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0


On pourrait prendre en compte des contraintes supplémentaires sur G ou F
par exemple, douceur, parcimonie, etc.
Hors du cadre de cette conférence

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 36


Machine Translated by Google

Factorisation matricielle non négative (2)


Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0


On pourrait prendre en compte des contraintes supplémentaires sur G ou F
par exemple, douceur, parcimonie,
etc. Hors du cadre de cette

conférence Problèmes : 1 NMF est NP­difficile dans le cas général, c'est­à­dire que la
convergence vers un minimum global n'est
pas garantie dans le cas général 2
La solution NMF n'est pas unique 3 Choix du rang NMF k peut être délicat

Preuve du non­unicité de la solution NMF


Si G R d×kk×n
et F R sont quelques solutions NMF,
+ +
alors pour toute matrice inversible k × k D, (G ·
−1
D) et (D · F) sont également des solutions.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 36


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Stratégie générale
1 Initialiser le numéro d'itération t = 1, et initialiser G1 et F1 2 pour t
= 2 jusqu'à un nombre maximum d'itérations ou un critère d'arrêt
1 Mise à jour G st
1 1 2
X − Gt+1Ft 2F ≤ X­ GtFt F
2 2
2 Mise à jour F st
1 2 1 2
X − Gt+1Ft+1 F ≤ X − Gt+1Ft F
2 2

Comment procéder en pratique ? Quelques algorithmes classiques

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Moindres carrés alternés Appliquer

les moindres carrés pour mettre à jour G ou F , par


exemple, Gt+1 = (X · F T ) · (Ft · F T )−1
t t

Remplacer les entrées négatives par zéro ou un petit seuil positif

commentaires

Très vite
mais pas précis !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Moindres carrés alternés non négatifs


Appliquer les moindres carrés non négatifs pour mettre à jour W ou H

commentaires

Très facile à mettre en œuvre (par exemple, dans Matlab, lsqlnonneg)


mais lentement !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Descente du dégradé
Mettre à jour en utilisant la descente du
gradient , par exemple, Gt+1 = Gt − ν · GJ
(Gt , Ft ) où X − RC 2
12 F
J (G, F) = GJ (G, F) = G · F · F T − X
· F T ν est un

poids Remplacer les entrées négatives par zéro ou un petit seuil positif

commentaires
Choix de n?
Possibilité de trouver ν optimal (mais prend du temps)
Alternative : remplacer la descente de gradient classique par extrapolation (Guan et al.,
2012)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Mises à jour multiplicatives


Descente du gradient avec un poids bien choisi pour que la somme avec ν soit
remplacé par un produit

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Preuve
Descente du dégradé :

T T
i, j, Fij = Fij + νij (G · X)ij − (G · G · F)ij

On pose : νij =
Sacrifier

(GT ·G·F)ij
On obtient

T T
Fij i, j, Fij = Fij + (G · X)ij − (G · G · F)ij
(GT · G · F)ij
(G T · X)ij
= Sacrifice · 1+−1
(GT · G · F)ij
(G T · X)ij
= Sacrifice ·
(GT · G · F)ij

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Factorisation matricielle non négative (3)


Comment résoudre le NMF ?

Mises à jour multiplicatives


Descente du gradient avec un poids bien choisi pour que la somme avec ν soit
remplacée par un produit
Principe de la méthode « heuristique » :

J −(Gt, Ft) X · Ft T
Gt+1 = Gt ◦ , c'est­à­dire Gt+1 = Gt ◦
J +(Gt, Ft) Gt · Ft · F T
t

où GJ
T T
(G, F) = G · F · F J +(G,F) J −X·F
−(G,F) ◦ et la division sont les
opérations élément par élément (.* et ./ dans Matlab)

commentaires
Non­négativité de G et F conservée au fil des itérations
Facile à mettre en
œuvre Mais très lente lorsque X est grand !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 37


Machine Translated by Google

Pratique : démixage hyperspectral à l'aide de NMF

Nous allons maintenant voir une application du NMF. Le contenu du prochain


slides s'inspire de :

M. Puigt, O. Berne, R. Guidara, Y. Deville, S. Hosseini, C. Joblin :


Validation croisée de spectres de poussières interstellaires séparés aveuglément, Proc. de
ECMS 2009, pp. 41­48, Mondragon, Espagne, 8­10 juillet 2009

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 38


Machine Translated by Google

Énoncé du problème (1)


Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution de
galaxies

Adapté de : http://www.nrao.edu/pr/2006/gbtmolecules/, Bill Saxton, NRAO/AUI/NSF

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60


Machine Translated by Google

Énoncé du problème (1)


Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution des
galaxies

Poussière interstellaire
Absorbe la lumière UV et la réémet dans le
domaine IR

Plusieurs grains en photo­


Régions de dissociation (PDR)

Le spectrographe Spitzer IR fournit des


datacubes hyperspectraux

N
x(n,m) (λ) = ∑ a(n,m),jsj (λ) Aromatique Polycyclique
j=1 Hydrocarbures

Très petits grains


Séparation aveugle de sources (BSS)
Gros grains
M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60
Machine Translated by Google

Énoncé du problème (1)


Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution des
galaxies

Poussière interstellaire
Absorbe la lumière UV et la réémet dans le
domaine IR

Plusieurs grains en photo­


Régions de dissociation (PDR)

Le spectrographe Spitzer IR fournit des


datacubes hyperspectraux

N
x(n,m) (λ) = ∑ a(n,m),jsj (λ)
j=1

Séparation aveugle de sources (BSS)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60


Machine Translated by Google

Énoncé du problème (2)

je

Séparation

Comment valider la séparation des sources inconnues ?


Validation croisée des performances de nombreuses méthodes BSS basées
sur différents critères

Dériver une structure spatiale pertinente de l’émission de grains dans les PDR

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 61


Machine Translated by Google

Séparation aveugle des sources

Trois classes principales


Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)


Factorisation matricielle non négative (NMF)

Méthodes ICA testées


1FastICA :
Maximisation de
non­gaussianité
Les sources sont
stationnaires 2 Guidara et al. Méthode ICA :
Plausibilité maximum
Les sources sont des

processus markoviens et non stationnaires

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62


Machine Translated by Google

Séparation aveugle des sources


Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie


Trois méthodes avec le même
structure

1 LI­TIFROM­S : basé sur des ratios


de mélanges TF

2 LI­TIFCORR­C & ­NC : basé


sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62


Machine Translated by Google

Séparation aveugle des sources


Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie


Trois méthodes avec le même
structure

1 LI­TIFROM­S : basé sur des ratios


de mélanges TF

2 LI­TIFCORR­C & ­NC : basé


sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62


Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie


Trois méthodes avec le même
structure

1 LI­TIFROM­S : basé sur des ratios


de mélanges TF

2 LI­TIFCORR­C & ­NC : basé


sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62


Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)


Analyse des composants clairsemés (SCA)
Factorisation matricielle non négative (NMF)

Méthode NMF testée

Algorithme de Lee et Seung :

Estimer à la fois la matrice de mélange A et la matrice source S à partir de la matrice


d'observation X

Minimisation de la divergence entre observations et matrices estimées :

Leçon

divX|AS = ∑ Faire demi­tour


je
je,j COMME
je −Xij + AS

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62


Machine Translated by Google

Étape de prétraitement

Bruit additif non pris en compte dans le modèle de mixage


Plus d'observations que de sources

Étape de pré­traitement pour réduire le bruit & la complexité :

Pour les méthodes ICA et SCA


1 Sources centrées et normalisées

2 Analyse en composantes principales

Pour la méthode NMF

Au­dessus de l'étape de prétraitement impossible

Présence de rares échantillons négatifs dans les observations


Deux scénarios
1 Les valeurs négatives sont des valeurs aberrantes non prises en compte

2 Négativité due au pipeline : traduction des observations en positif


valeurs

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 63


Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rc­astro.com

Noir : valeurs moyennes

Gray: Enveloppe

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64


Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rc­astro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64


Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rc­astro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

FastICA

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64


Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rc­astro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

FastICA

Toutes les autres méthodes

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64


Machine Translated by Google

Carte de répartition des espèces chimiques

je

N
x(n,m) (λ) = ∑ j=1 a(n,m),j sj(λ) yk(λ) = ηjsj(λ)

Comment calculer la carte de distribution des grains ?


2
cn,m,k = E x(n,m) (λ)yk(λ) = a(n,m),j ηjE sj(λ)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 65


Machine Translated by Google

Carte de répartition des espèces chimiques

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 65


Machine Translated by Google

Conclusion

Conclusion
1 Validation croisée de spectres séparés avec diverses méthodes BSS

Presque les mêmes résultats avec toutes les méthodes BSS


Physiquement pertinent

2 Les cartes de distribution fournissent une autre validation de l'étape de séparation

Distribution spatiale non utilisée dans l'étape de séparation


Physiquement pertinent

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 66


Machine Translated by Google

Mains en main

À ton tour!
Sujet de laboratoire commun

Rapport de laboratoire à rédiger !

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 39


Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 40


Machine Translated by Google

Conclusion de la conférence

Brève introduction à l'analyse de données de grande dimension


Malédiction de la dimensionnalité
Réduction de dimensionnalité

Techniques d'approximation de bas rang (SVD, PCA, NMF)


Applications

Merci pour votre attention.


Des questions?

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 41

Vous aimerez peut-être aussi