0% ont trouvé ce document utile (0 vote)

133 vues141 pages

Analyse de données multidimensionnelles

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

133 vues141 pages

Analyse de données multidimensionnelles

Transféré par

salma Labbane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Translated by Google

Analyse de données multidimensionnelles

Réduction de données, analyse en variables latentes et applications

Matthieu PUIGT

Université du Littoral Côte d’Opale

Ecole d’Ingénieurs du Littoral Côte d’Opale
Master Ingénierie des Systèmes Complexes
matthieu.puigt[at]univlittoral.fr http://wwwlisic.univ
littoral.fr/~puigt/

Retrouvez ce document sur:

https://wwwlisic.univlittoral.fr/~puigt/teaching.html

Année universitaire 20222023

M. Puigt Analyse de données multidimensionnelles 20222023 1

Machine Translated by Google

Bibliographie de la conférence Des

didacticiels vidéo faciles à suivre à pas si faciles : Chaîne youtube
de Josh Starmer (StatQuest) : https://www.youtube.com/
channel/UCtYLUTtgS3k1Fg4y5tAhLbw Chaîne youtube de Luis Serrano
(Serrano.Academy) : https://www.youtube.com/channel/
UCgBncpylJ1kiVaPyPPZauQ Chaîne YouTube du professeur Barry Van Veen : https://
www.youtube.com/channel/
UCooRZ0pxedi179pBe9aXm5A
Publications :
L. Balzano & R. Nowak, Étalonnage aveugle des réseaux de capteurs, dans Proc.
de l'IPSN, pp. 7988, 2007.
P. Comon et C.Jutten (Eds.), Manuel de séparation aveugle des sources :
analyse et applications indépendantes des composants, Presse académique, 2010.
N. Gillis, Le pourquoi et le comment de la factorisation matricielle non négative,
dans « Régularisation, optimisation, noyaux et machines à vecteurs de support », pp.
275310, 2014, Chapman et Hall/CRC.
N. Guan, D. Tao, Z. Luo et B. Yuan, NeNMF : Une méthode de gradient optimal pour la
factorisation matricielle non négative, IEEE Trans. sur Sig. Proc., 60(6),
28822898, 2012.
DD Lee & HS Seung, Apprendre les parties d'objets par factorisation matricielle non
négative. Nature, 401(6755), 788791, 1999.
CH Martin, TS Peng et MW Mahoney, Prédire les tendances de la qualité des réseaux
de neurones de pointe sans accès aux données de formation ou de test, Nature
Communications, 12(1), 113, 2021.
M. Puigt, O. Berné, R. Guidara, Y. Deville, S. Hosseini et C. Joblin, Validation
croisée de spectres de poussières interstellaires séparés aveuglément, Proc. de
ECMS 2009, pp. 4148, Mondragon, Espagne, 810 juillet 2009.
M. Udell et A. Townsend, Pourquoi les matrices Big Data sontelles à peu près de
faible rang ?, SIAM Journal on Mathematics of Data Science, 1(1), 144160, 2019.
Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 3

Machine Translated by Google

Introduction (1)
Haute dimensionnalité
De nombreux problèmes en science des données, en apprentissage automatique ou en
traitement du signal/image impliquent des ensembles de données dans des
espaces de grande dimension : un espace de grande dimension : le nombre d d'entités est
supérieur au nombre n d'observations (d > n)

Exemples
Dans le domaine des soins de santé, chaque personne c'estàdire l'observation peut être décrite par sa taille, son
poids, sa température, sa tension artérielle, sa fréquence cardiaque, etc. (caractéristiques)

En sciences sociales, un chercheur peut poser à certains volontaires (c'estàdire des

observations) des dizaines à des centaines de questions (c'estàdire des caractéristiques) qui sont utilisées pour
dériver certaines propriétés.

Dans les systèmes de recommandation de films, chaque client peut noter des centaines de films

dans les émissions de télévision (au moins...)

M. Puigt Analyse de données multidimensionnelles 20222023 4

Machine Translated by Google

Introduction (2)
La malédiction de la dimensionnalité

Rappel : on observe n échantillons, chacun d'eux composé de d caractéristiques

Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit exponentiellement
augmenter lorsque d augmente linéairement

M. Puigt Analyse de données multidimensionnelles 20222023 5

Machine Translated by Google

Introduction (2)
La malédiction de la
dimensionnalité Rappel : on observe n échantillons, chacun d'eux composé de d
traits Malédiction de la dimensionnalité !
Pour déduire une propriété, le nombre n d'observations doit augmenter de façon
exponentielle lorsque d augmente linéairement

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 1D

M. Puigt Analyse de données multidimensionnelles 20222023 5

Machine Translated by Google

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 2D

M. Puigt Analyse de données multidimensionnelles 20222023 5

Machine Translated by Google

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper... ...
en 3D

M. Puigt Analyse de données multidimensionnelles 20222023 5

Machine Translated by Google

Analogie

Imaginons que vous incarnez les ennemis de Mario et que vous vouliez l'attraper...

Augmenter la dimension dans laquelle Mario peut se déplacer rend votre problème
plus dur

Augmenter le nombre d'ennemis de Mario rend la tâche plus facile (à condition

est possible d'avoir une bonne IA pour vous aider à jouer tous les personnages)

M. Puigt Analyse de données multidimensionnelles 20222023 5

Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!
De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multidimensionnelles 20222023 6

Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!
De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multidimensionnelles 20222023 6

Machine Translated by Google

Présentation (3)
Propriétés supplémentaires

Heureusement!

De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

Faible rang approximatif

Propriété clé en traitement du signal et de l'image et en machine learning

La matrice de données/tenseur peut s'expliquer par un nombre limité de variables

cachées/latentes (avec une erreur d'approximation limitée/négligeable)

Objectif de cette conférence (6 h)

Une introduction aux techniques d'approximation de bas rang appliquées aux matrices

Applications à travers différents problèmes de traitement du signal ou d’apprentissage

automatique
Matlab pratique

M. Puigt Analyse de données multidimensionnelles 20222023 6

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 7

Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'estàdire

| |
X= x1
_
...X
n
| |

M. Puigt Analyse de données multidimensionnelles 20222023 8

Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'estàdire

| |
X= x1
_
...X n
| |

n×k d×k
X est de bas rang si k < min(n, d), W R ,H R , tel que

h T —
1
| |
T
= · ..
X=W·H w1 . . . semaine .
||
h T —
k

où les colonnes de W et H sont linéairement indépendantes.

M. Puigt Analyse de données multidimensionnelles 20222023 8

Machine Translated by Google

Matrices de bas rang (1)

d
On considère n vecteurs de dimension d xi R (i {1, . . . , n}), avec d > n
(détection de haute dimension)
Nous organisons ces données sous la forme d'une matrice X de taille d × n, c'estàdire

| |
X= x1
_ ...X n

| |

n×k d×k
X est de bas rang si k < min(n, d), W R ,H R , tel que
T
h 1
—
| |
T
= · ..
X=W·H w1 . . . semaine .
T
||
h k
—

où les colonnes de W et H sont linéairement indépendantes.

X est de rang k0 si nous ne trouvons aucune matrice W et H satisfaisant ce qui précède
propriété pour k < k0 alors que nous pouvons trouver pour k = k0.

M. Puigt Analyse de données multidimensionnelles 20222023 8

Machine Translated by Google

Matrices de bas rang (2)

Exemple avec une matrice de rang 2

X comme produit matriciel

T — h1 —
| |
· ..
X= w1 . . . semaine |
.
| T
h k —

= ·

M. Puigt Analyse de données multidimensionnelles 20222023 9

Machine Translated by Google

Matrices de bas rang (2)

Exemple avec une matrice de rang 2

X comme produit matriciel

= ·

X comme somme de matrices de rang 1

k
T
X= avec · h je

je = 1

= · + ·

M. Puigt Analyse de données multidimensionnelles 20222023 9

Machine Translated by Google

Matrices de bas rang (3)

Quelques applications

Clustering (Kmoyennes)
T T
X≈W·H avec tout h sont tous nuls sauf pour une valeur où elle vaut un
je

T
W contient les centroïdes et H est une matrice d'appartenance à un cluster

M. Puigt Analyse de données multidimensionnelles 20222023 dix

Machine Translated by Google

Matrices de bas rang (3)

Quelques applications

Factorisation matricielle non négative

X≈W·H T
avec X, W, H ≥ 0 (la décomposition basée sur les parties améliore
interprétabilité)
T
En traitement audio, W est une matrice de motifs fréquentiels (timbres) et H
une matrice d'activation temporelle

M. Puigt Analyse de données multidimensionnelles 20222023 dix

Machine Translated by Google

Matrices de bas rang (3)

Quelques applications

Débruitage
Y = X + E où X contient des modèles dominants (X de bas rang) et E non (bruit)

Y ≈ WHT WHT plus proche de X que de Y

M. Puigt Analyse de données multidimensionnelles 20222023 dix

Machine Translated by Google

Matrices de bas rang (4)

Pour conclure sur le bas rang
Hypothèse clé dans de nombreux problèmes de science des données

De nombreuses données sont approximativement de faible rang (c'estàdire des données bruitées de bas rang)

Directement applicable sur des matrices ou des tenseurs

Connexions avec les réseaux de neurones et l’apprentissage profond – hors du champ de
cette conférence

M. Puigt Analyse de données multidimensionnelles 20222023 11

Machine Translated by Google

Matrices de bas rang (4)

Pour conclure sur le bas rang

Hypothèse clé dans de nombreux problèmes de science des données De

nombreuses données sont approximativement de faible rang (c'estàdire des données bruyantes de bas rang)
Directement applicable sur des matrices ou des tenseurs
Connexions avec les réseaux de neurones et le deep learning – hors du cadre de ce cours

Toute matrice de données volumineuse a tendance à être de faible rang (Udell, 2019)
Et nous vivons un déluge de données

En 2021 (source :
de sati)
500 h de vidéo

Youtube, 695 000

photos sur Instagram

197 millions
d'emails envoyés

M. Puigt Analyse de données multidimensionnelles 20222023 11

Machine Translated by Google

Matrices de bas rang (4)

Pour conclure sur le bas rang
Hypothèse clé dans de nombreux problèmes de science des données

De nombreuses données sont approximativement de faible rang (c'estàdire des données bruitées de bas rang)

Directement applicable sur des matrices ou des tenseurs

Connexions avec les réseaux de neurones et l’apprentissage profond – hors du champ de
cette conférence

Toute matrice de données volumineuse a tendance à être de faible rang (Udell, 2019)

Et nous vivons un déluge de données

Voyons maintenant quelques techniques d'approximation de bas rang populaires !

M. Puigt Analyse de données multidimensionnelles 20222023 11

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

Définitions et propriétés de SVD
Pratique : étalonnage du capteur de store

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 12

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (1)

Définition
Toute matrice d × n X peut être exprimée comme
T
X=U·S·V

où:
U est une matrice d × d avec des colonnes orthonormées (vecteurs singuliers à gauche)

V est une matrice n × n avec des colonnes orthonormées (vecteurs singuliers à

droite) Σ est une matrice diagonale ad × n avec σ1 ≥ 0 et σi ≥ σj si i < j (valeurs
singulières)

Si d > n (détection haute dimension) Si d < n (par exemple, big data)

X est grand et maigre X est petit et gros

p1 0 ... 0 p1 0 . . . 0 ...
0σ2 0 . . . 0 0σ2 0 . . . 0...0
. .. S= . ..
. . .
. . .
S= 0... 0 σn 0 . . . 0 σd 0 . . . 0
0... ... 0
. .
. .
. .
0 0
Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentronsnous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

p1 0 ...00
u11 . . . u1n u1,n+1 . . . u1d
σ2 0 . . . 0
U21 . . . u2n u2,n+1 . . . u2d .. ..
.. .. . .
. .
UΣ = 0... 0 σn 0
un1 . . . unn un,n+1 . . . et
0...
.. .. .. ..
. . . . .. ..
. .
sortie1 . . . udn ud,n+1 . . . poste
0... 0

M. Puigt Analyse de données multidimensionnelles 20222023 14

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentronsnous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

M. Puigt Analyse de données multidimensionnelles 20222023 14

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (2)

T T
Concentronsnous sur le cas des personnes grandes et maigres X = UΣV = (UΣ)V

Et ainsi nous pouvons obtenir le SVD de taille économique, c'estàdire,

u11 . . . u1n
u21 . . . u2n p1 0 ...00
.. ..
. . σ2 0 . . . 0
UΣ = .. ..
un1 . . . traiter
. .
.. ..
. . 0... 0 σn

ud1 . . . etc.

Autrement dit, U peut être réduit à une matrice orthonormée ad × n et Σ à une

matrice diagonale × n.
T
De même, on peut tronquer V si n > d (pour s'en convaincre, appliquez SVD sur
X avec d > n)

M. Puigt Analyse de données multidimensionnelles 20222023 14

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

Orthonormalité
T
UUT = je, U U = je, VVT = I, V TV = I
Sois prudent! il peut y avoir des différences dans la dimension de l'identité
matrices (en particulier avec l'econ. SVD)

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

Bases de X
Les vecteurs dans U et V sont les bases orthonormées des lignes et colonnes de X,
respectivement

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

Rang
Si rang(X) = k < min(n, d), alors

σ1 ≥ σ2 ≥ . . . ≥ σk ≥ σk+1 = . . . = σmin(n,d) = 0

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

approximation de bas rang d'une matrice (théorème d'EckartYoung, 1936)

Soit X une matrice de rang k et r < k.
k
2
rang X−M F
= 2 p je ,
minimum (M)≤r
je=r+1

r T T
où M = i=1 σiui · v je
et X = UΣV est le SVD

T T T
X = σ1 · u1 · v 1 +σ2 · u2 · v 2 + . . . + σk · royaumeuni · vk

La plupart
Motifs: 2ème plus kième le plus
important

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

approximation de bas rang d'une matrice (théorème d'EckartYoung, 1936)

Soit X une matrice de rang k et r < k.
k
2
rang X−M F
= 2 p je ,
minimum (M)≤r
je=r+1

r T T
où M = i=1 σiui · v je
et X = UΣV est le SVD

T T T
X = σ1 · u1 · v 1 +σ2 · u2 · v 2 + . . . + σk · royaumeuni · vk

La plupart
Motifs: 2ème plus kième le plus
important

Les valeurs singulières fournissent un classement

ordonné des composantes (ie, la diminution de σi permet de
trouver un rang optimal k )

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Décomposition en valeurs singulières alias SVD (3)

Propriétés

Exemple
SVD tronqué appliqué sur une image réelle

M. Puigt Analyse de données multidimensionnelles 20222023 15

Machine Translated by Google

Pratique : étalonnage du capteur de store

Nous allons maintenant voir une application de SVD.

Le contenu des prochaines diapositives s’inspire de :
L. Balzano & R. Nowak, Étalonnage aveugle des réseaux de capteurs, dans Proc. de
IPSN, p. 7988, 2007.
C. Dorffer, M. Puigt, G. Delmaire, G. Roussel, Étalonnage robuste aux valeurs aberrantes
méthode pour les réseaux de capteurs, dans Proc. IEEE ECMSM, 2017.

M. Puigt Analyse de données multidimensionnelles 20222023 16

Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension

Tension = phénomène ?

M. Puigt Analyse de données multidimensionnelles 20222023 17

Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension

Tension = phénomène ?

M. Puigt Analyse de données multidimensionnelles 20222023 17

Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension

Tension = phénomène ?
Étalonnage du capteur nécessaire
Pas toujours physiquement possible
Calibrage du capteur de store

M. Puigt Analyse de données multidimensionnelles 20222023 17

Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension

Tension = phénomène ?
Étalonnage du capteur nécessaire
Pas toujours physiquement possible
Calibrage du capteur de store
Réseau de capteurs fixes
De nombreuses méthodes, dont
Calibrage basé sur la projection (L. Balzano et R. Nowak 2007)

M. Puigt Analyse de données multidimensionnelles 20222023 17

Machine Translated by Google

Le « pourquoi » de l’étalonnage des capteurs

Phénomène détecté = tension

M. Puigt Analyse de données multidimensionnelles 20222023 17

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à

Temps t = t1, . . . , td .

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à

Temps t = t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à

Temps t = t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à
Temps t = t1, . . . , td .

Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

Aucun gain de capteur n'est nul

xn(t) − βn
dans(t) ≈
et

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés à
Temps t = t1, . . . , td .

Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)

Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est la nième correction du gain (resp. offset) du capteur

Aucun gain de capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont précalibrés avant le déploiement

Les premières lectures du capteur de yi (t) correspondent donc à xi (t)

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés aux instants t =

t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est le nième gain du capteur (resp. offset) correction Aucun
gain du capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont précalibrés avant le déploiement

Les premières lectures du capteur de yi (t) correspondent donc à xi (t)
Le réseau est suffisamment dense pour suréchantillonner l'espace du signal
Le rang r du signal observé est connu avec r N

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l'étalonnage (1) – Énoncé du problème et hypothèses

Réseau composé de N capteurs fixes et synchronisés observés aux instants t =

t1, . . . , td .
Lectures de capteur étalonnées et non étalonnées notées xn(t) et yn(t)
Modèle de réponse affine :

xn(t) ≈ αnyn(t) + βn

où αn (resp. βn) est le nième gain du capteur (resp. offset) correction Aucun
gain du capteur n'est nul

xn(t) − βn
dans(t) ≈
et

Les capteurs sont précalibrés avant le déploiement

Les premières lectures du capteur de yi (t) correspondent donc à xi (t)
Le réseau est suffisamment dense pour suréchantillonner l'espace du signal
Le rang r du signal observé est connu avec r N
Le sousespace S du signal observé est connu, par exemple,
nous pouvons apprendre le sousespace dans lequel se trouvent les données "calibrées" dès
les
premières lectures, le sousespace peut être fourni par des experts en cas d'absence de préétalonnage.

M. Puigt Analyse de données multidimensionnelles 20222023 18

Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sousespace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2

x2(t2)− •
•
x2(t3) −

x2(t1)− •

||
| x1(t1) x1(t2) x1

x1(t3)

M. Puigt Analyse de données multidimensionnelles 20222023 19

Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sousespace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2

• S
•
•
•

•
•

obtenir un effet

M. Puigt Analyse de données multidimensionnelles 20222023 19

Machine Translated by Google

Le « comment » de l’étalonnage (2) – Exemple

Exemple avec un sousespace S de rang 1 connu

x1(t) = α1 · y1(t) + β1
S, t
x2(t) = α2 · y2(t) + β2

•
y2 •
• S
•
• •
•

•
•
obtenir un effet

effet de décalage

M. Puigt Analyse de données multidimensionnelles 20222023 19

Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

y2 •
•
S

y1
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

• 1 Supprimer les contributions offset
y2
• (en centrant les signaux)
S
En effet...
•
d
1
dans dans (tj)
=d
1 je=1
jour dn=1
xn(ti) βn
= −
et et

y1 et k {1, . . . , d},
1

xn(tk ) − jour di=1 xn (merci )

dans(tk ) − dans = et
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

1 Supprimer les contributions offset
y2
(en centrant les signaux)
• S
• En effet...

d
1
• dans dans (tj)
=d

1 je=1
= jour dn=1 xn(ti) − βn
et et

y1 et k {1, . . . , d},

xn(tk ) − jour di=1 xn (merci )

dans(tk ) − dans =
et
Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection de données sur S

•

M. Puigt Analyse de données multidimensionnelles 20222023 20

Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection de données sur S

•

M. Puigt Analyse de données multidimensionnelles 20222023 20

Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection des données sur S 3

•
Estimation des gains du capteur par projection en
espace nul, c'estàdire
• PΩ · Y1
..
. α ≈ 0,
PΩ · Maïs

C
y1
où
PΩ est l'opérateur de projection sur S .

Yk =

S y1(tk ) − y1
..
0 . 0
yN (tk ) − yN

M. Puigt Analyse de données multidimensionnelles 20222023 20

Machine Translated by Google

Le « comment » du calibrage (3) – Stratégie générale

1 Supprimer les contributions offset (en centrant les signaux)
y2

• S 2 Projection des données sur S 3

•
Estimation des gains du capteur par projection en
espace nul, c'estàdire
• PΩ · Y1
..
. α ≈ 0,
PΩ · Maïs

C
y1
où
PΩ est l'opérateur de projection sur S .

Yk =

S y1(tk ) − y1
..
0 . 0
yN (tk ) − yN

4 Estimation des décalages des capteurs (par exemple, par les

moindres carrés si les vraies données sont de

moyenne nulle)
M. Puigt Analyse de données multidimensionnelles 20222023 20
Machine Translated by Google

Le "comment" de l'étalonnage (4)

Estce vraiment possible ?

Oui! Preuve de convergence si le nombre d de "instantanés" satisfait (Balzano

et Nowak, 2007)
N−1
d> +1
N−r

Mais une indétermination d’échelle demeure. Possibilité de le résoudre, par exemple en supposant
que α1 = 1

M. Puigt Analyse de données multidimensionnelles 20222023 21

Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

M. Puigt Analyse de données multidimensionnelles 20222023 21

Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

1 Moindres carrés :
Supprimer α1 de α et obtenir α
Supprimez la première colonne c1 de C et obtenez C
Le problème à résoudre s'écrit C · α = −c1 α
= −C−† · c1 où −† désigne le pseudoinverse (pinv dans Matlab)
2 SVD :
Calculer le SVD de taille économique de C (svd(C,0) dans Matlab)
Le dernier vecteur singulier de V est proportionnel à
α α peut être dérivé en divisant le dernier SV de V par V(1)

M. Puigt Analyse de données multidimensionnelles 20222023 21

Machine Translated by Google

Le "comment" de l'étalonnage (4)

Comment résoudre C · α = 0 ? (Balzano et Nowak, 2007)

Ton tour maintenant!

Vous recevez un code Matlab à remplir afin d'effectuer l'étalonnage. Quelle

méthode est la plus précise ?

M. Puigt Analyse de données multidimensionnelles 20222023 21

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

Définition et propriétés de l’ACP
Application

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 22

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

aRappel : centrer une observation consiste à lui retirer sa moyenne ! Si les données sont organisées comme n
observations de d caractéristiques, les points de données dans chaque colonne sont centrés autour de l'origine

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'estàdire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'estàdire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

La première direction principale est celle qui maximise la variance des données (ou minimise
l'erreur d'ajustement).

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Nous supposons X ad × n à valeur réelle centrée sur une matrice de données.

L'ACP vise à trouver les « directions principales » de X, c'estàdire une base (les
directions sont orthogonales et leur norme est une) qui décrit le mieux X.

La première direction principale est celle qui maximise la variance des données (ou minimise
l'erreur d'ajustement).

La deuxième direction principale est celle qui est orthogonale à la première direction principale et
qui maximise la variance des données Et ainsi de suite...

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (1)

Concept

Adapté de la vidéo StatQuest sur PCA

M. Puigt Analyse de données multidimensionnelles 20222023 23

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui

s'écrit

T
C=EX·X

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui

s'écrit

C=E X·X T

signifier

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui

s'écrit

1 T
C= X·X
n

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 T T T
T ·f · U · S · V · (U · S · V ) ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 T T
T ·f · U · S · V ·V·S·U ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1
T ·f · NOUS2 · U T ·F
n
maximum f 2 =1
2

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1
· FT · X · X T ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1
T ·f · NOUS2 · U T ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'estàdire que le premier vecteur principal est le premier
vecteur singulier

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1 T T
·F ·X·X ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 2 T
T ·f · NOUS · U ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'estàdire que le premier vecteur principal est le premier
vecteur singulier
2
1 T en
Et la variance associée est n
T ·u 1 ·X·X · u1 = n
1

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (2)

Formulation mathématique

De la matrice d × n X centrée , nous dérivons sa matrice de covariance qui s'écrit

1 T
C= X·X
n

Trouver la première direction principale consiste à résoudre

1 T T
·F ·X·X ·F
n
maximum f 2 =1
2

T
En appliquant un SVD sur X = U · Σ · V , on obtient

1 2 T
T ·f · NOUS · U ·F
n
maximum f 2 =1
2

... dont la solution est f = u1 , c'estàdire que le premier vecteur principal est le premier
vecteur singulier
2
1 T en
Et la variance associée est n
T ·u 1 ·X·X · u1 = n
1

De même pour les autres vecteurs principaux !

M. Puigt Analyse de données multidimensionnelles 20222023 24

Machine Translated by Google

Analyse en composantes principales (3)

Quelques applications de l'ACP

Débruitage, réduction de dimensionnalité
Régression orthogonale (alias Total des Moindres Carrés)

M. Puigt Analyse de données multidimensionnelles 20222023 25

Machine Translated by Google

Analyse en composantes principales (3)

Quelques applications de l'ACP

Débruitage, réduction de dimensionnalité
Régression orthogonale (alias Total des Moindres Carrés)
Analyse des réseaux Deep Learning

M. Puigt Analyse de données multidimensionnelles 20222023 25

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse en Composantes Indépendantes

Parlons des systèmes linéaires
Une sorte de magie ?
Un peu d'histoire
de l'ACP à l'ICA
ICA non basé sur la gaussianité

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 26

Machine Translated by Google

Analyse indépendante des composants

Concept fortement lié à la séparation aveugle des

sources Dans les années 1950, le concept de problème de cocktail s'est exprimé.
Vous assistez à une soirée un peu fréquentée et bruyante. Vous
parvenez néanmoins à écouter les gens près de chez
vous. Cependant, si vous n'entendez que d'une oreille, vous ne comprenez rien !
Problème du cocktail moderne : débat politique à la télé !

Faire ce que nos oreilles font avec des ordinateurs est un véritable défi !
Introduisons d'abord le contexte mathématique !

M. Puigt Analyse de données multidimensionnelles 20222023 27

Machine Translated by Google

Parlons des systèmes linéaires

Vous savez tous comment résoudre ce type de systèmes :

2 s1 + 3 s2 3 =5=1
(1)
s1 − 2 s2

Si nous resp. définissez A, s et x la matrice et les vecteurs :

2 3 3 −2 T T
UNE = , s = [s1, s2 ] , et x = [5, 1]

Éq. (1) commence

x=A·s

dont la solution est

−1 T
s = UNE · x = [1, 1]

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

M. Puigt Analyse de données multidimensionnelles 20222023 28

Machine Translated by Google

Parlons des systèmes linéaires

Vous savez tous comment résoudre ce type de systèmes :

2 s1 + 3 s2 + . . . + 7 s5 = 5 3 s1 − 2 s2
(1)
+ . . . + 2 s5 = 1

Si nous resp. définissez A, s et x la matrice et les vecteurs :

2 3 . . . 7 3 −2 . . . T T
UNE = , s = [s1, s2, . . . , s5] , et x = [5, 1]
2

Éq. (1) commence

x=A·s

dont la solution est

s =???

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

Comment résoudre ce genre de problème si ?

Il y a plus d'inconnues que d'équations (problème inverse mal posé )

M. Puigt Analyse de données multidimensionnelles 20222023 28

Machine Translated by Google

Parlons des systèmes linéaires

Vous savez tous comment résoudre ce type de systèmes :

? · s1+ ? · =5=1
(1)
s2 ? · s1+ ? · s2

Si nous resp. définissez A, s et x la matrice et les vecteurs :

T T
UNE = , s = [s1, s2 ] , et x = [5, 1]
????

Éq. (1) commence

x=A·s

dont la solution est

−1
s = UNE ·x=?

Trouver s par rapport à x est appelé un problème inverse car nous devons inverser
l'opérateur A.

Comment résoudre ce genre de problème si ?

Il y a plus d'inconnues que d'équations (problème inverse mal posé )

On ne connaît pas l'opérateur A ( séparation aveugle de sources)

M. Puigt Analyse de données multidimensionnelles 20222023 28

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 + a12 s2 = 5 a21

s1 + a22 s2 = 1 _ _

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t1) + a12 s2 (t1) = 5

a21 s1 (t1) + a22 s2 (t1) = 1

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t2) + a12 s2 (t2) = 0

a21 s1 (t2) + a22 s2 (t2) = 7

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 s1 (t3) + a12 s2 (t3) = −4,2

a21 s1 (t3) + a22 s2 (t3) = 0,7

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 · s1(t4) + a12 · s2(t4) = 2,1

a21 · s1(t4) + a22 · s2(t4) = 7,5

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

a11 · s1(t) + a12 · s2(t) = x1(t)

a21 · s1(t) + a22 · s2(t) = x2(t)

Heureusement...

Dans de nombreuses données de traitement du signal/apprentissage automatique/données de grande

dimension, nous obtenons plusieurs échantillons de

données, c'estàdire que nous avons une série de systèmes d'équations !

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Une sorte de magie?

Dénotant
a11 a12
UNE = ,
a21 a22
Éq. (1) lit

x 1 — | |

— = UNE ·
s1 s2 ou X = A · S
— x2
||

Heureusement...
Dans de nombreux traitements du signal/apprentissage automatique/données de haute dimension,
nous obtenons plusieurs échantillons de données,

c'estàdire que nous avons une série de systèmes d'équations !

Nous pouvons utiliser certaines propriétés statistiques pour inverser A

M. Puigt Analyse de données multidimensionnelles 20222023 29

Machine Translated by Google

Un peu d'histoire
Problème BSS formulé vers 1982, par Hans, Hérault et Jutten pour un problème biomédical et
premiers articles au milieu des années 80
Grand intérêt de la communauté, principalement en France et plus tard en Europe et au Japon,
puis aux USA
Plusieurs sessions spéciales dans des conférences internationales (ex. GRETSI'93,
NOLTA'95)
Premier atelier en 1999, à Aussois, France. Une conférence tous les 18 mois jusqu'en 2018 !

Des personnes issues d'horizons différents : traitement du signal, statistiques, réseaux

de neurones, puis plus tard machine learning, intelligence artificielle Sujet
renommé « Latent Variable Analysis » (LVA)
Initialement, BSS s'adressait aux mélanges simples (comme dans cette conférence) mais
Modèles de mélanges plus complexes (bien adaptés à l'acoustique) au milieu et à la fin des
années 90
Jusqu'à la fin des années 90, BSS ≈ ICA
Premières méthodes NMF au milieu des années 90 mais contribution célèbre en 1999
Autres méthodes basées sur la parcimonie vers 2000
Techniques de deep learning depuis les années 2010

un problème générique
De nombreuses applications, par exemple biomédicales, traitement audio, télécommunications,
astrophysique, classification d'images, acoustique sousmarine, finance, traitement de l'information
quantique.

M. Puigt Analyse de données multidimensionnelles 20222023 30

Machine Translated by Google

De la PCA à l’ICA
Indépendant Non corrélé (mais pas l'inverse en général)
Voyons un exemple graphique avec des sources uniformess,x = Comme avec
−0,2485 0,8352
P = N = 2 et A =
0,4627 −0,6809

Distributions sources (rouge : directions des sources) Distributions de mélanges (vert : vecteurs propres)

M. Puigt Une très brève introduction au BSS Avril/mai 2011 31

Machine Translated by Google

Distributions sources (rouge : directions des sources) Distributions de sortie après blanchiment

La PCA fait « la moitié du travail » et nous devons faire pivoter les données pour atteindre l’objectif.
séparation!
M. Puigt Une très brève introduction au BSS Avril/mai 2011 31
Machine Translated by Google

Principes de l'ICA

Je ne détaillerai pas les détails de l'ICA.

De nombreuses méthodes ont été proposées depuis 1984

Certains résultats de l'ICA sont célèbres...

Approches historiques basées sur la nongaussianité

Comprenons pourquoi !

M. Puigt Analyse de données multidimensionnelles 20222023 31

Machine Translated by Google

ICA basé sur la nongaussianité

Mélanger les sources Observations gaussiennes

Pourquoi?

Théorème des états limites centraux selon lequel la somme des variables aléatoires tend vers une
Distribution gaussienne

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 34

Machine Translated by Google

Concept ICA non gaussien

Si au plus une source est iid gaussienne

Alors, on peut trouver une matrice W telle que les signaux yi(t) dans

Y=W·X

sont les moins gaussiens !

4 22
Le Kurtosis défini comme kurt(y) = E y Gaussian.* − 3 E et est nul si y est

En pratique, on applique d'abord la PCA aux données (blanchiment)

Ensuite, nous utilisons l'aplatissement pour trouver l'angle de rotation

M. Puigt Analyse de données multidimensionnelles 20222023 32

Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources (rouge : directions des sources) Distributions de mélanges (vert : vecteurs propres)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 41

Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources Distributions de sortie après blanchiment

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 35

Machine Translated by Google

Retour à notre exemple de jouet

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 35

Machine Translated by Google

Retour à notre exemple de jouet

Distributions sources (rouge : directions des sources) Distributions de sortie après ICA

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 41

Machine Translated by Google

Quelques applications ICA

séparation des sources (signaux audio, image, données financières, etc.)

débruitage

M. Puigt Analyse de données multidimensionnelles 20222023 33

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

Définition et propriétés du NMF
Pratique : démixage hyperspectral

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 34

Machine Translated by Google

Factorisation matricielle non négative (1)

Pourquoi estce tellement populaire?

Dans de nombreux problèmes, les matrices X ≈ G · F sont non négatives, par exemple,
analyse de concentration chimique analyse
de texte
(hyperspectrale) analyse d'image données
de consommation d'énergie électrique

La nonnégativité sur G et/ou F permet une meilleure interprétabilité

NMF appliqué à l'ensemble de données de visage (source : Lee & Seung, 1999)

M. Puigt Analyse de données multidimensionnelles 20222023 35

Machine Translated by Google

Factorisation matricielle non négative (1)

Pourquoi estce tellement populaire?

La nonnégativité sur G et/ou F permet une meilleure interprétabilité

Analyse en composantes principales appliquée à l'ensemble de données de visage (source : Lee & Seung, 1999)

M. Puigt Analyse de données multidimensionnelles 20222023 35

Machine Translated by Google

Factorisation matricielle non négative (2)

Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0

Comment définir l'écart de X par rapport à G · F ?

2
Norme de Frobenius X−G·F F
12
Semblable à la norme euclidienne pour les matrices

Divergence KullbackLeibler, divergences paramétriques, etc.

Hors du cadre de cette conférence !

M. Puigt Analyse de données multidimensionnelles 20222023 36

Machine Translated by Google

Factorisation matricielle non négative (2)

Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0

On pourrait prendre en compte des contraintes supplémentaires sur G ou F
par exemple, douceur, parcimonie, etc.
Hors du cadre de cette conférence

M. Puigt Analyse de données multidimensionnelles 20222023 36

Machine Translated by Google

Factorisation matricielle non négative (2)

Formulation mathématique et quelques propriétés

Nous visons à résoudre X ≈ G · F avec X, G, F ≥ 0

On pourrait prendre en compte des contraintes supplémentaires sur G ou F
par exemple, douceur, parcimonie,
etc. Hors du cadre de cette

conférence Problèmes : 1 NMF est NPdifficile dans le cas général, c'estàdire que la
convergence vers un minimum global n'est
pas garantie dans le cas général 2
La solution NMF n'est pas unique 3 Choix du rang NMF k peut être délicat

Preuve du nonunicité de la solution NMF

Si G R d×kk×n
et F R sont quelques solutions NMF,
+ +
alors pour toute matrice inversible k × k D, (G ·
−1
D) et (D · F) sont également des solutions.

M. Puigt Analyse de données multidimensionnelles 20222023 36

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Stratégie générale
1 Initialiser le numéro d'itération t = 1, et initialiser G1 et F1 2 pour t
= 2 jusqu'à un nombre maximum d'itérations ou un critère d'arrêt
1 Mise à jour G st
1 1 2
X − Gt+1Ft 2F ≤ X GtFt F
2 2
2 Mise à jour F st
1 2 1 2
X − Gt+1Ft+1 F ≤ X − Gt+1Ft F
2 2

Comment procéder en pratique ? Quelques algorithmes classiques

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Moindres carrés alternés Appliquer

les moindres carrés pour mettre à jour G ou F , par

exemple, Gt+1 = (X · F T ) · (Ft · F T )−1
t t

Remplacer les entrées négatives par zéro ou un petit seuil positif

commentaires

Très vite
mais pas précis !

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Moindres carrés alternés non négatifs

Appliquer les moindres carrés non négatifs pour mettre à jour W ou H

commentaires

Très facile à mettre en œuvre (par exemple, dans Matlab, lsqlnonneg)

mais lentement !

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Descente du dégradé
Mettre à jour en utilisant la descente du
gradient , par exemple, Gt+1 = Gt − ν · GJ
(Gt , Ft ) où X − RC 2
12 F
J (G, F) = GJ (G, F) = G · F · F T − X
· F T ν est un

poids Remplacer les entrées négatives par zéro ou un petit seuil positif

commentaires
Choix de n?
Possibilité de trouver ν optimal (mais prend du temps)
Alternative : remplacer la descente de gradient classique par extrapolation (Guan et al.,
2012)

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Mises à jour multiplicatives

Descente du gradient avec un poids bien choisi pour que la somme avec ν soit
remplacé par un produit

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Preuve
Descente du dégradé :

T T
i, j, Fij = Fij + νij (G · X)ij − (G · G · F)ij

On pose : νij =
Sacrifier

(GT ·G·F)ij
On obtient

T T
Fij i, j, Fij = Fij + (G · X)ij − (G · G · F)ij
(GT · G · F)ij
(G T · X)ij
= Sacrifice · 1+−1
(GT · G · F)ij
(G T · X)ij
= Sacrifice ·
(GT · G · F)ij

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Factorisation matricielle non négative (3)

Comment résoudre le NMF ?

Mises à jour multiplicatives

Descente du gradient avec un poids bien choisi pour que la somme avec ν soit
remplacée par un produit
Principe de la méthode « heuristique » :

J −(Gt, Ft) X · Ft T
Gt+1 = Gt ◦ , c'estàdire Gt+1 = Gt ◦
J +(Gt, Ft) Gt · Ft · F T
t

où GJ
T T
(G, F) = G · F · F J +(G,F) J −X·F
−(G,F) ◦ et la division sont les
opérations élément par élément (.* et ./ dans Matlab)

commentaires
Nonnégativité de G et F conservée au fil des itérations
Facile à mettre en
œuvre Mais très lente lorsque X est grand !

M. Puigt Analyse de données multidimensionnelles 20222023 37

Machine Translated by Google

Pratique : démixage hyperspectral à l'aide de NMF

Nous allons maintenant voir une application du NMF. Le contenu du prochain

slides s'inspire de :

M. Puigt, O. Berne, R. Guidara, Y. Deville, S. Hosseini, C. Joblin :

Validation croisée de spectres de poussières interstellaires séparés aveuglément, Proc. de
ECMS 2009, pp. 4148, Mondragon, Espagne, 810 juillet 2009

M. Puigt Analyse de données multidimensionnelles 20222023 38

Machine Translated by Google

Énoncé du problème (1)

Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution de
galaxies

Adapté de : http://www.nrao.edu/pr/2006/gbtmolecules/, Bill Saxton, NRAO/AUI/NSF

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60

Machine Translated by Google

Énoncé du problème (1)

Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution des
galaxies

Poussière interstellaire
Absorbe la lumière UV et la réémet dans le
domaine IR

Plusieurs grains en photo

Régions de dissociation (PDR)

Le spectrographe Spitzer IR fournit des

datacubes hyperspectraux

N
x(n,m) (λ) = ∑ a(n,m),jsj (λ) Aromatique Polycyclique
j=1 Hydrocarbures

Très petits grains

Séparation aveugle de sources (BSS)
Gros grains
M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60
Machine Translated by Google

Énoncé du problème (1)

Milieu interstellaire
Se trouve entre les étoiles de notre galaxie

Concentré dans les nuages de poussières qui jouent un rôle majeur dans l'évolution des
galaxies

Poussière interstellaire
Absorbe la lumière UV et la réémet dans le
domaine IR

Plusieurs grains en photo

Régions de dissociation (PDR)

Le spectrographe Spitzer IR fournit des

datacubes hyperspectraux

N
x(n,m) (λ) = ∑ a(n,m),jsj (λ)
j=1

Séparation aveugle de sources (BSS)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 60

Machine Translated by Google

Énoncé du problème (2)

Séparation

Comment valider la séparation des sources inconnues ?

Validation croisée des performances de nombreuses méthodes BSS basées
sur différents critères

Dériver une structure spatiale pertinente de l’émission de grains dans les PDR

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 61

Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes ICA testées

1FastICA :
Maximisation de
nongaussianité
Les sources sont
stationnaires 2 Guidara et al. Méthode ICA :
Plausibilité maximum
Les sources sont des

processus markoviens et non stationnaires

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62

Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie

Trois méthodes avec le même
structure

1 LITIFROMS : basé sur des ratios

de mélanges TF

2 LITIFCORRC & NC : basé

sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62

Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie

Trois méthodes avec le même
structure

1 LITIFROMS : basé sur des ratios

de mélanges TF

2 LITIFCORRC & NC : basé

sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62

Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)

Factorisation matricielle non négative (NMF)

Méthodes SCA testées

Hypothèse de faible parcimonie

Trois méthodes avec le même
structure

1 LITIFROMS : basé sur des ratios

de mélanges TF

2 LITIFCORRC & NC : basé

sur la corrélation TF des mélanges

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62

Machine Translated by Google

Séparation aveugle des sources

Trois classes principales

Analyse des composants indépendants (ICA)

Analyse des composants clairsemés (SCA)
Factorisation matricielle non négative (NMF)

Méthode NMF testée

Algorithme de Lee et Seung :

Estimer à la fois la matrice de mélange A et la matrice source S à partir de la matrice

d'observation X

Minimisation de la divergence entre observations et matrices estimées :

Leçon

divX|AS = ∑ Faire demitour

je
je,j COMME
je −Xij + AS

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 62

Machine Translated by Google

Étape de prétraitement

Bruit additif non pris en compte dans le modèle de mixage

Plus d'observations que de sources

Étape de prétraitement pour réduire le bruit & la complexité :

Pour les méthodes ICA et SCA

1 Sources centrées et normalisées

2 Analyse en composantes principales

Pour la méthode NMF

Audessus de l'étape de prétraitement impossible

Présence de rares échantillons négatifs dans les observations

Deux scénarios
1 Les valeurs négatives sont des valeurs aberrantes non prises en compte

2 Négativité due au pipeline : traduction des observations en positif

valeurs

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 63

Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rcastro.com

Noir : valeurs moyennes

Gray: Enveloppe

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64

Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rcastro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64

Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rcastro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

FastICA

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64

Machine Translated by Google

Spectres estimés à partir du datacube Ced 201

c R. Croman www.rcastro.com

Noir : valeurs moyennes

Gray: Enveloppe

NMF avec 1er scénario

FastICA

Toutes les autres méthodes

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 64

Machine Translated by Google

Carte de répartition des espèces chimiques

N
x(n,m) (λ) = ∑ j=1 a(n,m),j sj(λ) yk(λ) = ηjsj(λ)

Comment calculer la carte de distribution des grains ?

2
cn,m,k = E x(n,m) (λ)yk(λ) = a(n,m),j ηjE sj(λ)

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 65

Machine Translated by Google

Carte de répartition des espèces chimiques

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 65

Machine Translated by Google

Conclusion

Conclusion
1 Validation croisée de spectres séparés avec diverses méthodes BSS

Presque les mêmes résultats avec toutes les méthodes BSS

Physiquement pertinent

2 Les cartes de distribution fournissent une autre validation de l'étape de séparation

Distribution spatiale non utilisée dans l'étape de séparation

Physiquement pertinent

M. Puigt Une très brève introduction au BSS Avril/Mai 2011 66

Machine Translated by Google

Mains en main

À ton tour!
Sujet de laboratoire commun

Rapport de laboratoire à rédiger !

M. Puigt Analyse de données multidimensionnelles 20222023 39

Machine Translated by Google

Table des matières

1. Introduction

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

7. Conclusion

M. Puigt Analyse de données multidimensionnelles 20222023 40

Machine Translated by Google

Conclusion de la conférence

Brève introduction à l'analyse de données de grande dimension

Malédiction de la dimensionnalité
Réduction de dimensionnalité

Techniques d'approximation de bas rang (SVD, PCA, NMF)

Applications

Merci pour votre attention.

Des questions?

M. Puigt Analyse de données multidimensionnelles 20222023 41

Vous aimerez peut-être aussi

05 Slides ACP M8
Pas encore d'évaluation
05 Slides ACP M8
29 pages
Régression Linéaire Simple et Multiple : Cours et Estimations
Pas encore d'évaluation
Régression Linéaire Simple et Multiple : Cours et Estimations
58 pages
Controle AD Corrigé Type-2
100% (1)
Controle AD Corrigé Type-2
4 pages
Introduction au calcul matriciel
Pas encore d'évaluation
Introduction au calcul matriciel
55 pages
Contrôle de rattrapage en ACP et données
Pas encore d'évaluation
Contrôle de rattrapage en ACP et données
4 pages
Analyse Matricielle LAKEHALI PDF
Pas encore d'évaluation
Analyse Matricielle LAKEHALI PDF
72 pages
These Labarre
Pas encore d'évaluation
These Labarre
188 pages
Diagnostic de défauts de capteurs par observateurs
Pas encore d'évaluation
Diagnostic de défauts de capteurs par observateurs
7 pages
Chapitre I
Pas encore d'évaluation
Chapitre I
24 pages
Cours d'Analyse de Données en Économie
Pas encore d'évaluation
Cours d'Analyse de Données en Économie
79 pages
Raport TD Acp
Pas encore d'évaluation
Raport TD Acp
14 pages
TP 3 Les Matrices
Pas encore d'évaluation
TP 3 Les Matrices
6 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
Analyse Matricielle Cours Et Exercices Résolus - 2e Édition Augmentée by Jean-Etienne Rombaldi
100% (5)
Analyse Matricielle Cours Et Exercices Résolus - 2e Édition Augmentée by Jean-Etienne Rombaldi
272 pages
Projet Stat Logiciel R
Pas encore d'évaluation
Projet Stat Logiciel R
13 pages
TP S1 Sefyani-1
Pas encore d'évaluation
TP S1 Sefyani-1
20 pages
Analyse Matricielle: Cours Et Exercices Résolus
Pas encore d'évaluation
Analyse Matricielle: Cours Et Exercices Résolus
22 pages
5 - Seance - 5-ANAD - 22-23-1
Pas encore d'évaluation
5 - Seance - 5-ANAD - 22-23-1
10 pages
Reconnaissance faciale par ACP et K-NN
Pas encore d'évaluation
Reconnaissance faciale par ACP et K-NN
13 pages
Matrices Et Applications Lineaires
Pas encore d'évaluation
Matrices Et Applications Lineaires
3 pages
Analyse en Composantes Indépendantes D'Images Multibandes: Faisabilité Et Perspectives
Pas encore d'évaluation
Analyse en Composantes Indépendantes D'Images Multibandes: Faisabilité Et Perspectives
15 pages
Oscillateur Couple
Pas encore d'évaluation
Oscillateur Couple
4 pages
TP - Traitement Du Signal - SMP6 2022-2023
Pas encore d'évaluation
TP - Traitement Du Signal - SMP6 2022-2023
35 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
72 pages
Les Matrices Exercices
Pas encore d'évaluation
Les Matrices Exercices
3 pages
Cours D'analyse Numérique 1 (Niveau 3)
Pas encore d'évaluation
Cours D'analyse Numérique 1 (Niveau 3)
56 pages
Methode de Resolution Sys - Lin - Directes
Pas encore d'évaluation
Methode de Resolution Sys - Lin - Directes
36 pages
Variance en Analyse en Composantes Principales
Pas encore d'évaluation
Variance en Analyse en Composantes Principales
42 pages
Observateurs Non Linéaires Multimodèles
Pas encore d'évaluation
Observateurs Non Linéaires Multimodèles
223 pages
Poly Cours A1 Ev
Pas encore d'évaluation
Poly Cours A1 Ev
105 pages
Rapport MMSN
Pas encore d'évaluation
Rapport MMSN
24 pages
Résolution efficace des systèmes linéaires
Pas encore d'évaluation
Résolution efficace des systèmes linéaires
28 pages
Denoising des signaux numériques par analyse statistique
Pas encore d'évaluation
Denoising des signaux numériques par analyse statistique
132 pages
s3 Maths Diapo TD
Pas encore d'évaluation
s3 Maths Diapo TD
10 pages
Chapitre2 PCA
Pas encore d'évaluation
Chapitre2 PCA
36 pages
Synthèse d'Algèbre LINFO1112
Pas encore d'évaluation
Synthèse d'Algèbre LINFO1112
43 pages
Introduction aux Matrices en Algèbre
Pas encore d'évaluation
Introduction aux Matrices en Algèbre
85 pages
Systèmes Linéaires Multivariables
Pas encore d'évaluation
Systèmes Linéaires Multivariables
25 pages
Introduction aux Matrices et leurs Applications
Pas encore d'évaluation
Introduction aux Matrices et leurs Applications
2 pages
Chapitre 4
100% (1)
Chapitre 4
8 pages
Poly FML
Pas encore d'évaluation
Poly FML
34 pages
Série 2 ACP
Pas encore d'évaluation
Série 2 ACP
10 pages
Alg Lin Cours Long
Pas encore d'évaluation
Alg Lin Cours Long
139 pages
5 Regression Lineaire
Pas encore d'évaluation
5 Regression Lineaire
8 pages
Méthodes Numériques en MATLAB: TP Pratiques
Pas encore d'évaluation
Méthodes Numériques en MATLAB: TP Pratiques
23 pages
M22 Cours
Pas encore d'évaluation
M22 Cours
59 pages
Cours AN
Pas encore d'évaluation
Cours AN
28 pages
Traitement d'Images et Calculs Matriciels
Pas encore d'évaluation
Traitement d'Images et Calculs Matriciels
49 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
7 pages
Guide Matlab
Pas encore d'évaluation
Guide Matlab
15 pages
Projet sur MATLAB en Océanographie
Pas encore d'évaluation
Projet sur MATLAB en Océanographie
65 pages
Analyse en Composantes Principales en ML
Pas encore d'évaluation
Analyse en Composantes Principales en ML
38 pages
Central B
Pas encore d'évaluation
Central B
72 pages
Rapport AFC: Analyse Données GESI 2
Pas encore d'évaluation
Rapport AFC: Analyse Données GESI 2
23 pages
Interpolation polynomiale en MATLAB
Pas encore d'évaluation
Interpolation polynomiale en MATLAB
3 pages
Algorithme de Dichotomie en Mathématiques
Pas encore d'évaluation
Algorithme de Dichotomie en Mathématiques
5 pages
Prediction Du Churn Client
Pas encore d'évaluation
Prediction Du Churn Client
29 pages
Benamra Meriem
Pas encore d'évaluation
Benamra Meriem
66 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
3 pages
TL - Série 1
Pas encore d'évaluation
TL - Série 1
2 pages
Résolution d'équations non linéaires
Pas encore d'évaluation
Résolution d'équations non linéaires
8 pages
Interpolation et Approximation Poly.
Pas encore d'évaluation
Interpolation et Approximation Poly.
80 pages
Rapport de Synthèse de La Méthode Des Forces Selon Jean ROUX
Pas encore d'évaluation
Rapport de Synthèse de La Méthode Des Forces Selon Jean ROUX
8 pages
Examen Méthodes Numériques Ingénieur
Pas encore d'évaluation
Examen Méthodes Numériques Ingénieur
2 pages
Cours Meth Num
Pas encore d'évaluation
Cours Meth Num
35 pages
Tutorial Series N°03
Pas encore d'évaluation
Tutorial Series N°03
2 pages
Regression Linear
Pas encore d'évaluation
Regression Linear
18 pages
Modèle K facteurs pour l'optimisation radio
Pas encore d'évaluation
Modèle K facteurs pour l'optimisation radio
3 pages
Méthode du Simplexe en Programmation Linéaire
100% (1)
Méthode du Simplexe en Programmation Linéaire
8 pages
Point Fixe
100% (1)
Point Fixe
4 pages
Les Polynomes Resume de Cours 2 2
Pas encore d'évaluation
Les Polynomes Resume de Cours 2 2
3 pages
ds3 Tcs 001
Pas encore d'évaluation
ds3 Tcs 001
1 page
CHAPITRE 03 Méthodes - Numériques 1 4
Pas encore d'évaluation
CHAPITRE 03 Méthodes - Numériques 1 4
4 pages
TD1 Anlayse Numérique
Pas encore d'évaluation
TD1 Anlayse Numérique
2 pages
Exercices - ELM - Méthodes Numériques
Pas encore d'évaluation
Exercices - ELM - Méthodes Numériques
6 pages
Trigonométrie et Polynômes
Pas encore d'évaluation
Trigonométrie et Polynômes
1 page
Chapitre 3 Methodes Itératives de Résolution Des Systèmes Linéaires
Pas encore d'évaluation
Chapitre 3 Methodes Itératives de Résolution Des Systèmes Linéaires
10 pages
Chapitre 4 (Intégration Numérique) 2025
Pas encore d'évaluation
Chapitre 4 (Intégration Numérique) 2025
21 pages
Interpolation de fonctions : Lagrange et Newton
Pas encore d'évaluation
Interpolation de fonctions : Lagrange et Newton
18 pages
Optimisation et Méthodes Numériques
Pas encore d'évaluation
Optimisation et Méthodes Numériques
3 pages
PMA Cours1
Pas encore d'évaluation
PMA Cours1
121 pages
Rapport Cholesky
Pas encore d'évaluation
Rapport Cholesky
5 pages
Résolution de l'équation f(x) = 0
100% (1)
Résolution de l'équation f(x) = 0
3 pages
Modules de formation en informatique
0% (1)
Modules de formation en informatique
3 pages

Analyse de données multidimensionnelles

Transféré par

Analyse de données multidimensionnelles

Transféré par

Machine Translated by Google

Analyse de données multi­dimensionnelles

Université du Littoral Côte d’Opale

Retrouvez ce document sur:

Année universitaire 2022­2023

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 1

Bibliographie de la conférence Des

Table des matières

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 3

En sciences sociales, un chercheur peut poser à certains volontaires (c'est­à­dire des

dans les émissions de télévision (au moins...)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 4

Rappel : on observe n échantillons, chacun d'eux composé de d caractéristiques

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5

Augmenter le nombre d'ennemis de Mario rend la tâche plus facile (à condition

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 5

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6

Ils ont tendance à être de bas rang

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6

De nombreux problèmes réels impliquent des données structurées

Ils ont tendance à être de bas rang

Faible rang approximatif

Propriété clé en traitement du signal et de l'image et en machine learning

La matrice de données/tenseur peut s'expliquer par un nombre limité de variables

Objectif de cette conférence (6 h)

Applications à travers différents problèmes de traitement du signal ou d’apprentissage

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 6

Table des matières

2 matrices de bas rang

3 Décomposition en valeurs singulières

4 Analyse en composantes principales

5 Analyse des composants indépendants

6 Factorisation matricielle non négative

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 7

Matrices de bas rang (1)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8

Matrices de bas rang (1)

où les colonnes de W et H sont linéairement indépendantes.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8

Matrices de bas rang (1)

où les colonnes de W et H sont linéairement indépendantes.

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 8

Matrices de bas rang (2)

X comme produit matriciel

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 9

Matrices de bas rang (2)

X comme produit matriciel

X comme somme de matrices de rang 1

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 9

Matrices de bas rang (3)

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix

Matrices de bas rang (3)

Factorisation matricielle non négative

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix

Matrices de bas rang (3)

Y ≈ WHT WHT plus proche de X que de Y

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 dix

Matrices de bas rang (4)

Directement applicable sur des matrices ou des tenseurs

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 11

Matrices de bas rang (4)

Hypothèse clé dans de nombreux problèmes de science des données De

Youtube, 695 000

photos sur Instagram

M. Puigt Analyse de données multi­dimensionnelles 2022­2023 11

Matrices de bas rang (4)

Directement applicable sur des matrices ou des tenseurs

Analyse de données multidimensionnelles

Année universitaire 20222023

M. Puigt Analyse de données multidimensionnelles 20222023 1

M. Puigt Analyse de données multidimensionnelles 20222023 3

En sciences sociales, un chercheur peut poser à certains volontaires (c'estàdire des

M. Puigt Analyse de données multidimensionnelles 20222023 4

M. Puigt Analyse de données multidimensionnelles 20222023 5

M. Puigt Analyse de données multidimensionnelles 20222023 5

M. Puigt Analyse de données multidimensionnelles 20222023 5

M. Puigt Analyse de données multidimensionnelles 20222023 5

M. Puigt Analyse de données multidimensionnelles 20222023 5

M. Puigt Analyse de données multidimensionnelles 20222023 6

M. Puigt Analyse de données multidimensionnelles 20222023 6

M. Puigt Analyse de données multidimensionnelles 20222023 6

M. Puigt Analyse de données multidimensionnelles 20222023 7

M. Puigt Analyse de données multidimensionnelles 20222023 8

M. Puigt Analyse de données multidimensionnelles 20222023 8

M. Puigt Analyse de données multidimensionnelles 20222023 8

M. Puigt Analyse de données multidimensionnelles 20222023 9

M. Puigt Analyse de données multidimensionnelles 20222023 9

M. Puigt Analyse de données multidimensionnelles 20222023 dix

M. Puigt Analyse de données multidimensionnelles 20222023 dix

M. Puigt Analyse de données multidimensionnelles 20222023 dix

M. Puigt Analyse de données multidimensionnelles 20222023 11

M. Puigt Analyse de données multidimensionnelles 20222023 11

M. Puigt Analyse de données multidimensionnelles 20222023 11

M. Puigt Analyse de données multidimensionnelles 20222023 12

M. Puigt Analyse de données multidimensionnelles 20222023 14

M. Puigt Analyse de données multidimensionnelles 20222023 14

Et ainsi nous pouvons obtenir le SVD de taille économique, c'estàdire,

M. Puigt Analyse de données multidimensionnelles 20222023 14

M. Puigt Analyse de données multidimensionnelles 20222023 15

M. Puigt Analyse de données multidimensionnelles 20222023 15

M. Puigt Analyse de données multidimensionnelles 20222023 15

approximation de bas rang d'une matrice (théorème d'EckartYoung, 1936)

M. Puigt Analyse de données multidimensionnelles 20222023 15

approximation de bas rang d'une matrice (théorème d'EckartYoung, 1936)

M. Puigt Analyse de données multidimensionnelles 20222023 15

M. Puigt Analyse de données multidimensionnelles 20222023 15

M. Puigt Analyse de données multidimensionnelles 20222023 16

M. Puigt Analyse de données multidimensionnelles 20222023 17

M. Puigt Analyse de données multidimensionnelles 20222023 17

M. Puigt Analyse de données multidimensionnelles 20222023 17

M. Puigt Analyse de données multidimensionnelles 20222023 17

M. Puigt Analyse de données multidimensionnelles 20222023 17

M. Puigt Analyse de données multidimensionnelles 20222023 18

M. Puigt Analyse de données multidimensionnelles 20222023 18

M. Puigt Analyse de données multidimensionnelles 20222023 18

M. Puigt Analyse de données multidimensionnelles 20222023 18