1 GMM:
1.1 Définition:
Le modèle de mélange gaussien (Gaussian Mixture Model ou GMM ) est une
technique statistique utilisée pour représenter la distribution de probabilité
d’un ensemble de données. Il est particulièrement utilisé dans le domaine de
l’apprentissage automatique et de la vision par ordinateur. Voici une explica-
tion plus détaillée du modèle de mélange gaussien :
1. Mélange de Gaussiennes : Le modèle suppose que les données sont générées
à partir d’un mélange de plusieurs distributions gaussiennes (ou nor-
males). Chaque composante gaussienne du mélange représente une sous-
population ou un ”cluster” dans les données.
2. Paramètres du Modèle : Un GMM est caractérisé par plusieurs paramètres
:
(a) Les moyennes : Représentent les centres des gaussiennes.
(b) Les matrices de covariance : Décrivent la forme et l’orientation de
chaque gaussienne.
(c) Les coefficients de mélange : Indiquent la proportion de chaque com-
posante dans le mélange.
3. Estimation des Paramètres : L’objectif de l’apprentissage d’un GMM est
d’estimer ces paramètres à partir des données d’entraı̂nement. Cela se fait
généralement à l’aide de l’algorithme Expectation Maximization (EM).
(a) Étape d’Expectation (E) : Estimation des probabilités d’appartenance
à chaque composante gaussienne pour chaque point de données.
(b) Étape de Maximisation (M) : Mise à jour des paramètres (moyennes,
covariances et coefficients de mélange) en utilisant les probabilités
estimées à l’étape E.
4. Densité de Probabilité : Une fois le modèle ajusté, il peut être utilisé
pour estimer la densité de probabilité d’un point dans l’espace des car-
actéristiques. Cela peut être utile pour la classification ou la détection
d’anomalies.
5. Utilisations Courantes : Les GMM sont utilisés dans divers domaines,
notamment :
(a) Clustering : Pour regrouper des données en clusters basés sur leur
distribution
(b) Modélisation de Données :Pour représenter des ensembles de données
complexes avec des distributions non uniformes.
(c) Débruitage :Pour modéliser des distributions de données propres et
identifier des anomalies
1
Comme nous avons remarqué la-dessus ,un modèle de mélange gaussien est
une approche flexible pour modéliser des distributions de probabilité complexes
en utilisant des gaussiennes, permettant ainsi de représenter des données sous-
jacentes provenant de différentes sources ou processus. Ainsi ,pour se familiariser
encore plus , nous vous proposons ci-dessous une représentation mathématique
avec son explication sur l’ensemble des équations sin x and cos x are very im-
portant functions for engineers.
Supposons qu’il y ait K clusters (pour simplifier, on suppose que le nombre de
clusters est connu et est K). Ainsi, µ et Σ sont également estimés pour chaque k.
S’il n’y avait qu’une seule distribution, ils auraient été estimés par la méthode
du maximum de vraisemblance. Cependant, étant donné qu’il y a K de tels
clusters et que la densité de probabilité est définie comme une fonction linéaire
des densités de toutes ces K distributions, c’est-à-dire...
K
X
p(X) = πk G(X|µk , Σk )
k=1
Comme πk est le coefficient de mélange pour la k-ème distribution. Pour estimer
les paramètres par la méthode du maximum de la log-vraisemblance, calculez
p(X|µ, Σ, π).
N
X
ln p(X|µ, Σ, π) = p(Xi )
i=1
N
X K
X
= ln πk G(Xi |µk , Σk )
i=1 k=1
Maintenant, définissez une variable aléatoire γk (X) telle que γk (X) = p(k|X).
En utilisant le théorème de Bayes, Maintenant, pour que la fonction logarith-
mique de vraisemblance soit maximale, sa dérivée de p(X|µ, Σ, π) par rapport à
µ, Σetπ doit être nulle. Donc, en égalisant la dérivée de p(X|µ, Σ, π) par rapport
à µ zéro et en réarrangeant les termes,
PN
n=1 γk (xn )xn
µk = PN
n=1 γk (xn )
De même, en prenant la dérivée par rapport à Σ et π respectivement, on peut
obtenir les expressions suivantes.
PN
n=1 γk (xn )(xn − µk )(xn − µk )T
Σk =
n = 1N γk (xn )
P
Et
N
1 X
πk = γk (xn )
N n=1
2
La distribution peut être modélisée à l’aide du GMM comme suit:
L’Akaike Information Criterion (AIC) et le Bayesian Information Criterion (BIC)
sont des critères d’évaluation utilisés dans le contexte de la modélisation statis-
tique pour comparer différents modèles. Ces critères prennent en compte la
qualité de l’ajustement d’un modèle aux données tout en pénalisant la com-
plexité du modèle.
1. AIC (Akaike Information Criterion) :
(a) Objectif :L’AIC mesure la qualité d’ajustement d’un modèle aux
données tout en tenant compte de la complexité du modèle.
(b) Calcul :AIC est calculé à l’aide de la formule :
AIC = 2k − 2 ln(L̂)
(c) k est le nombre de paramètres du modèle.
(d) L̂ est la fonction de vraisemblance maximale du modèle.
(e) Interprétation : Un modèle avec un AIC plus faible est préféré. Cela
signifie qu’il offre un bon ajustement aux données tout en utilisant
un nombre relativement faible de paramètres.
2. BIC (Bayesian Information Criterion) :
(a) Objectif : Comme l’AIC, le BIC mesure la qualité d’ajustement d’un
modèle tout en pénalisant la complexité du modèle. Cependant, la
pénalité pour la complexité est plus forte dans le BIC.
(b) Calcul : BIC est calculé à l’aide de la formule :
(c) k est le nombre de paramètres du modèle.
(d) n est la taille de l’échantillon.
(e) L̂ est la fonction de vraisemblance maximale du modèle.
(f) Interprétation: Un modèle avec un-BIC plus faible est préféré. Le
BIC pénalise davantage les modèles avec un nombre élevé de paramètres,
ce qui favorise la sélection de modèles plus simples.
En résumé, l’AIC et le BIC sont tous deux des critères d’information largement
utilisés pour comparer des modèles statistiques. L’AIC accorde une pénalité
moins sévère à la complexité que le BIC. En général, il est recommandé d’utiliser
ces critères en conjonction avec d’autres méthodes d’évaluation pour sélectionner
le modèle le plus approprié pour un ensemble de données particulier.
3
2 KNN:
Une approche de classification supervisée binaire pour la détection de signes vi-
taux à partir de signaux BCG (Ballistocardiogram), en se focalisant d’abord sur
la détection de l’activité cardiaque . Pour cela, l’algorithme K-Nearest Neigh-
bors (KNN) a été utilisé, en particulier la variante fine KNN, qui attribue la
même étiquette au nouvel échantillon que son voisin le plus proche. Les trames
du signal BCG ont été étiquetées en tant que détection d’activité cardiaque
(CAD) ou absence de détection d’activité cardiaque (NoCAD) sous forme d’une
classification binaire Ensuite, une classification multi-classe a été effectuée pour
catégoriser les trames du signal BCG en fonction des maladies .
On propose aisi une approche de classification supervisée pour la détection de
signes vitaux à partir de signaux BCG, en se basant sur différentes maladies, et
en utilisant des techniques de classification telles que le KNN .
Pendant cette étude, certains critères courants de classification ont été utilisés.
. En cas de classification binaire, nous retenons principalement le taux de vrais
positifs (TPR) et la valeur prédictive positive (PPV). Le TPR, également ap-
pelé sensibilité ou rappel, mesure la proportion de vrais positifs détectés par
rapport aux positifs réels (vrais positifs et faux négatifs), tandis que le PPV
mesure la proportion de vrais positifs détectés par rapport à l’ensemble des
positifs détectés. Dans la classification binaire, la matrice de confusion fournie
Figure 1: Matrice de confusion
contient les valeurs de TPR et de PPV sur la diagonale, tandis que les métriques
complémentaires définissent les taux de fausses découvertes (FDR) et les taux de
fausses omissions (FOR). Les formules généralisées des métriques d’évaluation
sont incluses ci-dessous :
positives
TPR = (1)
truepositives + f alsenegatives
4
positives
PPV = (2)
truepositives + f alsepositives