Modèle de mélange gaussien en statistiques

Le document décrit le modèle de mélange gaussien (GMM) qui est une technique statistique pour représenter la distribution de probabilité d'un ensemble de données en utilisant un mélange de distributions gaussiennes. Il explique également l'algorithme K-plus proches voisins (KNN) qui est une méthode de classification supervisée.

Transféré par

nihalammari7

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

75 vues5 pages

Modèle de mélange gaussien en statistiques

Transféré par

nihalammari7

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1 GMM:

1.1 Définition:
Le modèle de mélange gaussien (Gaussian Mixture Model ou GMM ) est une
technique statistique utilisée pour représenter la distribution de probabilité
d’un ensemble de données. Il est particulièrement utilisé dans le domaine de
l’apprentissage automatique et de la vision par ordinateur. Voici une explica-
tion plus détaillée du modèle de mélange gaussien :
1. Mélange de Gaussiennes : Le modèle suppose que les données sont générées
à partir d’un mélange de plusieurs distributions gaussiennes (ou nor-
males). Chaque composante gaussienne du mélange représente une sous-
population ou un ”cluster” dans les données.
2. Paramètres du Modèle : Un GMM est caractérisé par plusieurs paramètres
:
(a) Les moyennes : Représentent les centres des gaussiennes.
(b) Les matrices de covariance : Décrivent la forme et l’orientation de
chaque gaussienne.
(c) Les coefficients de mélange : Indiquent la proportion de chaque com-
posante dans le mélange.
3. Estimation des Paramètres : L’objectif de l’apprentissage d’un GMM est
d’estimer ces paramètres à partir des données d’entraı̂nement. Cela se fait
généralement à l’aide de l’algorithme Expectation Maximization (EM).
(a) Étape d’Expectation (E) : Estimation des probabilités d’appartenance
à chaque composante gaussienne pour chaque point de données.
(b) Étape de Maximisation (M) : Mise à jour des paramètres (moyennes,
covariances et coefficients de mélange) en utilisant les probabilités
estimées à l’étape E.
4. Densité de Probabilité : Une fois le modèle ajusté, il peut être utilisé
pour estimer la densité de probabilité d’un point dans l’espace des car-
actéristiques. Cela peut être utile pour la classification ou la détection
d’anomalies.
5. Utilisations Courantes : Les GMM sont utilisés dans divers domaines,
notamment :

(a) Clustering : Pour regrouper des données en clusters basés sur leur
distribution
(b) Modélisation de Données :Pour représenter des ensembles de données
complexes avec des distributions non uniformes.
(c) Débruitage :Pour modéliser des distributions de données propres et
identifier des anomalies

1
Comme nous avons remarqué la-dessus ,un modèle de mélange gaussien est
une approche flexible pour modéliser des distributions de probabilité complexes
en utilisant des gaussiennes, permettant ainsi de représenter des données sous-
jacentes provenant de différentes sources ou processus. Ainsi ,pour se familiariser
encore plus , nous vous proposons ci-dessous une représentation mathématique
avec son explication sur l’ensemble des équations sin x and cos x are very im-
portant functions for engineers.
Supposons qu’il y ait K clusters (pour simplifier, on suppose que le nombre de
clusters est connu et est K). Ainsi, µ et Σ sont également estimés pour chaque k.
S’il n’y avait qu’une seule distribution, ils auraient été estimés par la méthode
du maximum de vraisemblance. Cependant, étant donné qu’il y a K de tels
clusters et que la densité de probabilité est définie comme une fonction linéaire
des densités de toutes ces K distributions, c’est-à-dire...
K
X
p(X) = πk G(X|µk , Σk )
k=1

Comme πk est le coefficient de mélange pour la k-ème distribution. Pour estimer

les paramètres par la méthode du maximum de la log-vraisemblance, calculez
p(X|µ, Σ, π).

N
X
ln p(X|µ, Σ, π) = p(Xi )
i=1
N
X K
X
= ln πk G(Xi |µk , Σk )
i=1 k=1

Maintenant, définissez une variable aléatoire γk (X) telle que γk (X) = p(k|X).
En utilisant le théorème de Bayes, Maintenant, pour que la fonction logarith-
mique de vraisemblance soit maximale, sa dérivée de p(X|µ, Σ, π) par rapport à
µ, Σetπ doit être nulle. Donc, en égalisant la dérivée de p(X|µ, Σ, π) par rapport
à µ zéro et en réarrangeant les termes,
PN
n=1 γk (xn )xn
µk = PN
n=1 γk (xn )
De même, en prenant la dérivée par rapport à Σ et π respectivement, on peut
obtenir les expressions suivantes.
PN
n=1 γk (xn )(xn − µk )(xn − µk )T
Σk =
n = 1N γk (xn )
P

Et
N
1 X
πk = γk (xn )
N n=1

2
La distribution peut être modélisée à l’aide du GMM comme suit:
L’Akaike Information Criterion (AIC) et le Bayesian Information Criterion (BIC)
sont des critères d’évaluation utilisés dans le contexte de la modélisation statis-
tique pour comparer différents modèles. Ces critères prennent en compte la
qualité de l’ajustement d’un modèle aux données tout en pénalisant la com-
plexité du modèle.
1. AIC (Akaike Information Criterion) :
(a) Objectif :L’AIC mesure la qualité d’ajustement d’un modèle aux
données tout en tenant compte de la complexité du modèle.
(b) Calcul :AIC est calculé à l’aide de la formule :

AIC = 2k − 2 ln(L̂)

(c) k est le nombre de paramètres du modèle.

(d) L̂ est la fonction de vraisemblance maximale du modèle.
(e) Interprétation : Un modèle avec un AIC plus faible est préféré. Cela
signifie qu’il offre un bon ajustement aux données tout en utilisant
un nombre relativement faible de paramètres.
2. BIC (Bayesian Information Criterion) :
(a) Objectif : Comme l’AIC, le BIC mesure la qualité d’ajustement d’un
modèle tout en pénalisant la complexité du modèle. Cependant, la
pénalité pour la complexité est plus forte dans le BIC.
(b) Calcul : BIC est calculé à l’aide de la formule :
(c) k est le nombre de paramètres du modèle.
(d) n est la taille de l’échantillon.
(e) L̂ est la fonction de vraisemblance maximale du modèle.
(f) Interprétation: Un modèle avec un-BIC plus faible est préféré. Le
BIC pénalise davantage les modèles avec un nombre élevé de paramètres,
ce qui favorise la sélection de modèles plus simples.
En résumé, l’AIC et le BIC sont tous deux des critères d’information largement
utilisés pour comparer des modèles statistiques. L’AIC accorde une pénalité
moins sévère à la complexité que le BIC. En général, il est recommandé d’utiliser
ces critères en conjonction avec d’autres méthodes d’évaluation pour sélectionner
le modèle le plus approprié pour un ensemble de données particulier.

3
2 KNN:
Une approche de classification supervisée binaire pour la détection de signes vi-
taux à partir de signaux BCG (Ballistocardiogram), en se focalisant d’abord sur
la détection de l’activité cardiaque . Pour cela, l’algorithme K-Nearest Neigh-
bors (KNN) a été utilisé, en particulier la variante fine KNN, qui attribue la
même étiquette au nouvel échantillon que son voisin le plus proche. Les trames
du signal BCG ont été étiquetées en tant que détection d’activité cardiaque
(CAD) ou absence de détection d’activité cardiaque (NoCAD) sous forme d’une
classification binaire Ensuite, une classification multi-classe a été effectuée pour
catégoriser les trames du signal BCG en fonction des maladies .

On propose aisi une approche de classification supervisée pour la détection de

signes vitaux à partir de signaux BCG, en se basant sur différentes maladies, et
en utilisant des techniques de classification telles que le KNN .
Pendant cette étude, certains critères courants de classification ont été utilisés.
. En cas de classification binaire, nous retenons principalement le taux de vrais
positifs (TPR) et la valeur prédictive positive (PPV). Le TPR, également ap-
pelé sensibilité ou rappel, mesure la proportion de vrais positifs détectés par
rapport aux positifs réels (vrais positifs et faux négatifs), tandis que le PPV
mesure la proportion de vrais positifs détectés par rapport à l’ensemble des
positifs détectés. Dans la classification binaire, la matrice de confusion fournie

Figure 1: Matrice de confusion

contient les valeurs de TPR et de PPV sur la diagonale, tandis que les métriques
complémentaires définissent les taux de fausses découvertes (FDR) et les taux de
fausses omissions (FOR). Les formules généralisées des métriques d’évaluation
sont incluses ci-dessous :

positives
TPR = (1)
truepositives + f alsenegatives

4
positives
PPV = (2)
truepositives + f alsepositives

Vous aimerez peut-être aussi

SN 372
Pas encore d'évaluation
SN 372
2 pages
Statistique Bayésienne et MCMC
100% (1)
Statistique Bayésienne et MCMC
16 pages
Mat Sta 04-21
Pas encore d'évaluation
Mat Sta 04-21
47 pages
M1 Stat
Pas encore d'évaluation
M1 Stat
100 pages
Estimation
Pas encore d'évaluation
Estimation
3 pages
Estimation des Paramètres en Statistique
Pas encore d'évaluation
Estimation des Paramètres en Statistique
13 pages
Modèles de mélange et HMM en parole
Pas encore d'évaluation
Modèles de mélange et HMM en parole
17 pages
Poly Stat Computationnelle
Pas encore d'évaluation
Poly Stat Computationnelle
88 pages
Introduction à la Statistique Bayésienne
Pas encore d'évaluation
Introduction à la Statistique Bayésienne
81 pages
Exercices sur le classifieur bayesien naïf
Pas encore d'évaluation
Exercices sur le classifieur bayesien naïf
8 pages
Estimation par Maximum de Vraisemblance
Pas encore d'évaluation
Estimation par Maximum de Vraisemblance
9 pages
Seance 3
Pas encore d'évaluation
Seance 3
30 pages
Modélisation et estimation en statistique
Pas encore d'évaluation
Modélisation et estimation en statistique
64 pages
Cours Complet 2020 PDF
100% (1)
Cours Complet 2020 PDF
505 pages
Cours Bayesien
Pas encore d'évaluation
Cours Bayesien
32 pages
Cours Complet ML Mory - (Partie 5 - Apprentissage Non-Supervisé)
Pas encore d'évaluation
Cours Complet ML Mory - (Partie 5 - Apprentissage Non-Supervisé)
43 pages
Critère D'information Bayésien
Pas encore d'évaluation
Critère D'information Bayésien
3 pages
Objectifs
Pas encore d'évaluation
Objectifs
33 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
69 pages
Introduction à la Statistique Appliquée
Pas encore d'évaluation
Introduction à la Statistique Appliquée
80 pages
Model Linéaire Généralisé
Pas encore d'évaluation
Model Linéaire Généralisé
71 pages
Cours Pierre Ribereau
100% (1)
Cours Pierre Ribereau
100 pages
Classification et Modèles de Données
Pas encore d'évaluation
Classification et Modèles de Données
34 pages
Calculatrices
Pas encore d'évaluation
Calculatrices
11 pages
Régression Logistique Bayésienne
Pas encore d'évaluation
Régression Logistique Bayésienne
101 pages
Introduction aux Probabilités et Statistiques
Pas encore d'évaluation
Introduction aux Probabilités et Statistiques
150 pages
Stat
Pas encore d'évaluation
Stat
74 pages
Anne Philippe Stat Bayes 2017
Pas encore d'évaluation
Anne Philippe Stat Bayes 2017
41 pages
Fondements de l'apprentissage machine
Pas encore d'évaluation
Fondements de l'apprentissage machine
12 pages
Chap4 - Réseaux Bayésiens
Pas encore d'évaluation
Chap4 - Réseaux Bayésiens
27 pages
Estimation des Paramètres en Statistique
Pas encore d'évaluation
Estimation des Paramètres en Statistique
12 pages
Classification par k plus proches voisins
Pas encore d'évaluation
Classification par k plus proches voisins
32 pages
Apprentissage Statistique en Ingénierie Mathématique
Pas encore d'évaluation
Apprentissage Statistique en Ingénierie Mathématique
24 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Statistique Mathématique et Modélisation
Pas encore d'évaluation
Statistique Mathématique et Modélisation
56 pages
Statistiques et Probabilités IUT Lille
Pas encore d'évaluation
Statistiques et Probabilités IUT Lille
25 pages
Statistique Bayésienne Avancée
Pas encore d'évaluation
Statistique Bayésienne Avancée
40 pages
Cours Bishop
Pas encore d'évaluation
Cours Bishop
10 pages
Processus Stochastiques en Aviation
Pas encore d'évaluation
Processus Stochastiques en Aviation
19 pages
Proba
Pas encore d'évaluation
Proba
10 pages
Estimateurs de Vraisemblance et Intervalles
Pas encore d'évaluation
Estimateurs de Vraisemblance et Intervalles
39 pages
Principes de Statistique Inférentielle
Pas encore d'évaluation
Principes de Statistique Inférentielle
145 pages
STAT2150 Transp
Pas encore d'évaluation
STAT2150 Transp
39 pages
Méthode Bootstrap et Estimation Statistique
Pas encore d'évaluation
Méthode Bootstrap et Estimation Statistique
15 pages
6.cours AD
Pas encore d'évaluation
6.cours AD
4 pages
C2 Classsification
Pas encore d'évaluation
C2 Classsification
68 pages
Naïve Bayes Classifier 1
Pas encore d'évaluation
Naïve Bayes Classifier 1
66 pages
Estimation Statistique : Méthodes et Intervalles
Pas encore d'évaluation
Estimation Statistique : Méthodes et Intervalles
7 pages
StatM1 Poly P Doukhan
Pas encore d'évaluation
StatM1 Poly P Doukhan
111 pages
Adaptfltr 2
Pas encore d'évaluation
Adaptfltr 2
26 pages
Introduction au filtrage adaptatif
Pas encore d'évaluation
Introduction au filtrage adaptatif
26 pages
Métrologie : Incertitudes et Mesures
Pas encore d'évaluation
Métrologie : Incertitudes et Mesures
58 pages
Introduction au Machine Learning et Deep Learning
Pas encore d'évaluation
Introduction au Machine Learning et Deep Learning
36 pages
Introduction à l'apprentissage supervisé
Pas encore d'évaluation
Introduction à l'apprentissage supervisé
4 pages
Exercices de Diagonalisation et Endomorphismes
Pas encore d'évaluation
Exercices de Diagonalisation et Endomorphismes
3 pages
Corrigé QCM Microéconomie 2015
100% (2)
Corrigé QCM Microéconomie 2015
2 pages
Oral Spé Math00
Pas encore d'évaluation
Oral Spé Math00
3 pages
Stabilité des systèmes avec MATLAB
Pas encore d'évaluation
Stabilité des systèmes avec MATLAB
3 pages
Examen de Mathématiques : Algèbre Linéaire
Pas encore d'évaluation
Examen de Mathématiques : Algèbre Linéaire
4 pages
Correction PPT
Pas encore d'évaluation
Correction PPT
28 pages
Chapitre 04 - Algorithmique (Manipulation Des Tableaux)
Pas encore d'évaluation
Chapitre 04 - Algorithmique (Manipulation Des Tableaux)
45 pages
ADD Cours-ADD KESSOURI
Pas encore d'évaluation
ADD Cours-ADD KESSOURI
86 pages
Économétrie des Données de Panel: Modèles Linéaires
Pas encore d'évaluation
Économétrie des Données de Panel: Modèles Linéaires
183 pages
Analyse SVM, KNN et Régressions sur Données Patients
Pas encore d'évaluation
Analyse SVM, KNN et Régressions sur Données Patients
11 pages
TD-Systèmes Échantillonnés
Pas encore d'évaluation
TD-Systèmes Échantillonnés
5 pages
ES2 Estimation Proportion
Pas encore d'évaluation
ES2 Estimation Proportion
4 pages
Branch and Bound Final
Pas encore d'évaluation
Branch and Bound Final
36 pages
Guide des Arbres de Décision
Pas encore d'évaluation
Guide des Arbres de Décision
21 pages
Vecteurs et Matrices en Algorithmique
Pas encore d'évaluation
Vecteurs et Matrices en Algorithmique
83 pages
Optimisation par dualité en mathématiques
Pas encore d'évaluation
Optimisation par dualité en mathématiques
29 pages
Projet Complexité
Pas encore d'évaluation
Projet Complexité
7 pages
Feuille-Question Du TD 5 Dynamique Des Populations: Matrices de Leslie Exercice 1 Une Scientifique
Pas encore d'évaluation
Feuille-Question Du TD 5 Dynamique Des Populations: Matrices de Leslie Exercice 1 Une Scientifique
2 pages
Examen-Janvier-corrige 2020
Pas encore d'évaluation
Examen-Janvier-corrige 2020
4 pages
Transformée de Laplace en Automatique
Pas encore d'évaluation
Transformée de Laplace en Automatique
1 page
Rafﬁnement automatique de partitions stables
Pas encore d'évaluation
Rafﬁnement automatique de partitions stables
32 pages
Exercice: F X X F X
Pas encore d'évaluation
Exercice: F X X F X
1 page
TD Niveau2
Pas encore d'évaluation
TD Niveau2
9 pages
Analyse SPSS : Statistiques et Régressions
Pas encore d'évaluation
Analyse SPSS : Statistiques et Régressions
3 pages
Chap3. Résolution de Problèmes Par La Recherche Locale
Pas encore d'évaluation
Chap3. Résolution de Problèmes Par La Recherche Locale
48 pages
Cours1 ENSA
Pas encore d'évaluation
Cours1 ENSA
29 pages
CH 2 CTNS
Pas encore d'évaluation
CH 2 CTNS
12 pages
Méthode du Simplexe : Guide Pratique
Pas encore d'évaluation
Méthode du Simplexe : Guide Pratique
38 pages
CM1 Intro
Pas encore d'évaluation
CM1 Intro
42 pages
Modèle de régression linéaire multiple
Pas encore d'évaluation
Modèle de régression linéaire multiple
7 pages