0% ont trouvé ce document utile (0 vote)
354 vues175 pages

Identification et Authentification Vocale

Ce document présente une thèse de doctorat sur l'identification et l'authentification de locuteurs à l'aide de techniques de fusion de paramètres et de modèles dans un environnement réel. La thèse contient plusieurs chapitres qui décrivent l'analyse acoustique de la parole, la reconnaissance automatique du locuteur, les approches d'apprentissage des données du locuteur et les approches de fusion des scores proposées pour une reconnaissance de locuteur robuste.

Transféré par

imane cher
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
354 vues175 pages

Identification et Authentification Vocale

Ce document présente une thèse de doctorat sur l'identification et l'authentification de locuteurs à l'aide de techniques de fusion de paramètres et de modèles dans un environnement réel. La thèse contient plusieurs chapitres qui décrivent l'analyse acoustique de la parole, la reconnaissance automatique du locuteur, les approches d'apprentissage des données du locuteur et les approches de fusion des scores proposées pour une reconnaissance de locuteur robuste.

Transféré par

imane cher
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

No d’ordre: 04 /2015-D/ELN

République Algérienne Démocratique Et Populaire


Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université des Sciences et de la Technologie Houari Boumediene

Faculté d’Electronique et d’Informatique

THESE

Présentée pour l’obtention du grade de DOCTEUR EN SCIENCES


En : ELECTRONIQUE
Spécialité :Télécommunication

par :ASBAI Nassim

Thème

Identification et Authentification de Locuteurs, par les Techniques


de Fusion des Paramètres et des Modèles dans un Environnement
Réel

Soutenu publiquement, le 29/06/2015, devant le jury composé de :

Mr H.TEFFAHI Professeur à l’USTHB Président


Mr A. AMROUCHE Professeur à l’USTHB Directeur dethèse
Mr Y.AKLOUF Professeur à l’USTHB Co-Directeur de thèse
Mr A.TALEB-AHMED Professeur à l’université Valenciennes Examinateur
MmeL.HAMAMI Professeur à l’ENP Examinatrice
MmeN.BENBLIDIA Professeur à l’université de Blida Examinatrice
Mr Z-A.BENSELAMA Maitre de conférences/A à l’université de Blida Examinateur
Sommaire
Liste des Figures
Liste des tableaux
Abréviations
Introduction Générale …………………………………………………………………………1

Chapitre 1 : L’Analyse Acoustique de la Parole et


Extraction des Paramètres

1.1. Introduction ........................................................................................................................ 6


1.2. Mécanismes de production et de l’audition de la parole ..................................................... 6
1.2.1. Production de la parole………………………………………………………………6
1.2.2. L’audition de la parole……………………………………………………………….8
1.3. Variabilité de la parole ...................................................................................................... 10
1.4. Discrétisation et fragmentation de la parole ...................................................................... 12
1.5. Analyse spectrale et temporelle de la parole ..................................................................... 16
1.5.1. Détection de l’activité vocale (VAD)………………………………………………17
1.6. Analyse homomorphique (Cepstre) .................................................................................. 18
1.7. Extraction des paramètres ................................................................................................. 21
1.7.1. L’analyse LPC (Linear Predictive Coding)………………………………………..22
1.7.1.1. Extraction des coefficients LPC .......................................................................... 24
1.7.1.1.1. Méthode d’autocorrélation ................................................................... 24
1.7.1.1.2. Méthode de covariance ......................................................................... 25
1.7.2. Paramètres LPCC…………………………………………………………………..27
1.7.3. Paramètres MFCC…………………………………………………………………..27
1.7.4 Paramètres PLP (Perceptual Linear Prediction)…………………………………….32
1.7.5. Les fonctions de retard de groupe (Group Delay Functions)……………………….34
1.7.5.1. La robustesse des fonctions de retard de groupe vis-à-vis du bruit additif .... 37
1.7.5.2. La fonction de retard de groupe modifiée (MODGD) .................................. 41
1.7.5.3. Conversion des MODGD en vecteurs caractéristiques ................................. 42
1.8. Conclusion ....................................................................................................................... 43
Chapitre 2 : Reconnaissance Automatique du Locuteur
(RAL)

2.1. Introduction ....................................................................................................................... 44


2.2. Les différentes tâches en RAL .......................................................................................... 44
2.2.1. Identification automatique du locuteur (IAL)………………………………………44
2.2.2. Vérification automatique du locuteur (VAL)……………………………………….45
2.2.3. Détection de locuteurs………………………………………………………………45
2.2.4. Indexation automatique des documents audio en locuteurs………………………...46
2.2.5. La poursuite du locuteur……………………………………………………………46
2.3. Modes de reconnaissance automatique de locuteurs ......................................................... 46
2.3.1. Reconnaissance du locuteur en mode dépendant du texte…………………………46
2.3.2. Reconnaissance du locuteur en mode indépendant du texte………………………..46
2.4. Processus de reconnaissance automatique de locuteurs ................................................... 47
2.4.1. Paramétrisation acoustique…………………………………………………………47
2.4.2. Méthodes d’apprentissage des données acoustiques………………………………..47
2.4.2.1. Méthodes basées sur la quantification vectorielle .......................................... 47
2.4.2.2. Méthodes basées sur Modèle de Mélange Gaussien (GMM) ........................ 48
2.4.2.3. Méthodes basées sur HMM entièrement connectés (ergodiques) ................... 49
2.4.2.4. Méthodes basées sur les machines à vecteurs de support (SVM) ................... 49
2.5. Méthodologie d’évaluation d’un système RAL ............................................................... 50
2.6. Les approches de normalisation et de fusion de scores……………………………….53
2.6.1. Normalisation de scores ..................................................................................... 53
2.7. La Fusions de scores ......................................................................................................... 55
2.8. Domaines d'applications de la RAL .................................................................................. 59
2.8.1. Applications sur l’accès restreint sécurisé à des sites sensibles…………………….59
2.8.2. Applications dans les systèmes de communication………………………………...60
2.8.3. Applications juridiques……………………………………………………………..60
2.9. Conclusion ......................................................................................................................... 61

Chapitre 3 : Les Approches d’Apprentissage des Données


du Locuteur
3.1. Introduction ....................................................................................................................... 62
3.2. Etat de l’art des méthodes d’apprentissage des données du locuteur ............................... 62
3.3. Modes d’Apprentissage ..................................................................................................... 65
3.3.1. Apprentissage non supervisé………………………………………………………..65
3.3.2. Apprentissage supervisé…………………………………………………………….65
3.4. Les approches d’apprentissage des données acoustiques .................................................. 66
3.4.1. Les approches basées sur la distance euclidienne…………………………………..66
3.4.1.1. L’Approche K-plus proches voisins (KNN) .................................................. 66
3.4.1.2. L’Approche K-means ..................................................................................... 66
3.4.2. Les approches basées sur les techniques de projection linéaire…………………….67
3.4.2.1. L’Analyse en composantes principales (ACP) ............................................... 67
3.4.2.2. L’Analyse discriminante linéaire (LDA) ..................................................... 69
3.4.3. Les approches basées sur les Mélanges de Gaussiennes (GMMs)…………………71
3.4.3.1. Modèle du mélange ........................................................................................ 71
3.4.3.1.1. Apprentissage du modèle par l’algorithme Expectation-Maximization
(EM) ................................................................................................... 72
3.4.3.1.2. Adaptation du modèle par Maximum A Posteriori (MAP)............... 73
3.4.4. Les approches basées sur les Machines à Vecteurs de Support
(SVM)……………………………………………………………………………75
3.4.4.1. Théorie des Machines à Vecteur de Support ................................................... 75
3.4.4.1.1. Classification binaire par hyperplan ................................................... 75
3.4.4.1.2. Cas de données linéairement séparables ............................................ 75
3.4.4.1.3. Cas de données non-linéairement séparables ..................................... 77
3.4.4.1.4. Les fonctions noyau ........................................................................... 80
3.4.4.2. Machines à vecteurs de support multi-classes................................................. 81
3.4.4.2.1. Les SVMs pour la classification de k classes .................................... 81
3.4.5. Les approches basées sur le modèle hybride (GMM-
SVM)…………………………..............................................................................82
3.5. Conclusion……………………………………………………………………………….84

Chapitre 4 : Les Approches de Fusion des Scores


Proposées pour une Reconnaissance de Locuteur Robuste
4.1. Introduction ....................................................................................................................... 85
4.2. Les Défis des systèmes RAL ............................................................................................ 85
4.3. Détection de l’activité vocale proposée (GMM-MAP-VAD) ........................................... 88
4.4. Le perceptron multicouche (MLP) .................................................................................... 93
4.4.1. Algorithme de Retropropagation du Gradient de l'Erreur ......................................... 93
4.5. Les approches de fusion des scores proposées .................................................................. 95
4.5.1. L’approche de fusion des scores basée sur la somme pondérée adaptative et GMM-
MAP-VAD ............................................................................................................ 96
4.5.2. L’approche de fusion des scores basée sur la sigmoïde somme pondérée adaptative
et le réseau de neurones MLP ................................................................................ 97
4.6. Conclusion ....................................................................................................................... 101

Chapitre 5 : Résultats Expérimentaux et Discussions

5.1. Introduction ..................................................................................................................... 102


5.2. Identification du locuteur ................................................................................................ 102
5.2.1. Protocole expérimental ............................................................................................ 102
5.2.2. Identification du locuteur dans un environnement calme ....................................... 102
5.2.3. Identification du locuteur dans un environnement bruité ........................................ 104
5.3. Vérification du Locuteur ................................................................................................. 104
5.3.1. Evaluation des performances de vérification du locuteur en utilisant la détection
d’activité vocale proposée ‘GMM-MAP-VAD’ ................................................... 104
5.3.1.1. Protocole expérimental ................................................................................. 104
5.3.1.2. Vérification du locuteur basée sur GMM-MAP-VAD dans un environnement
calme……………………………………………………………………...106
5.3.1.3. Vérification du locuteur basée sur GMM-MAP-VAD dans un environnement
bruité……………………………………………………………………...112
5.3.2. Evaluation des performances de vérification du locuteur en utilisant l’approche de
fusion des scores ‘somme pondérée adaptative ’et ‘GMM-MAP-VAD’ ............. 116
5.3.2.1. Protocole expérimental ................................................................................. 116
5.3.2.2. Vérification du locuteur dans un environnement calme ............................... 117
5.3.2.3. Vérification du locuteur dans un environnement bruité ............................... 119
5.3.2.4. Evaluation des performances de la méthode de fusion des scores ‘somme
pondérée adaptative’ en termes de EER pour la vérification du locuteur
dans un environnement bruité .................................................................... 121
5.3.3. Evaluation des performances de vérification du locuteur en utilisant la méthode de
fusion des scores ‘sigmoïde somme pondérée adaptative’ et ‘MLP’ .................. 123
5.3.3.1. Protocole expérimental ................................................................................. 123
5.3.3.2. Vérification du locuteur dans un environnement calme ............................... 124
5.3.3.3. Vérification du locuteur dans un environnement bruité ............................... 127
5.3.3.4. Evaluation des performances de la méthode de fusion des scores ‘sigmoïde
somme pondérée adaptative’ en termes de EER pour la vérification du
locuteur dans un environnement bruité ...................................................... 129
5.3.4. Evaluation des performances de vérification du locuteur en utilisant PCA, LDA et la
méthode de fusion de scores ‘la régression logistique’ ...................................... 133
5.3.4.1. Protocole expérimental ................................................................................. 133
5.3.4.2. Vérification du locuteur dans un environnement calme ............................... 133
5.3.4.3. Vérification du locuteur dans un environnement bruité ............................... 135
5.3.5. Evaluation des performances de vérification du locuteur en utilisant des paramètres
dérivés de la phase du signal de parole ............................................................... 137
5.3.5.1. Protocole expérimental ................................................................................ 137
5.3.5.2. Vérification du locuteur dans un environnement calme .............................. 137
5.3.5.3. Vérification du locuteur dans un environnement bruité .............................. 139
5.4. Conclusion ....................................................................................................................... 141
Conclusion générale et perspectives ……………………………………………………...142
Bibliographie ………………………………………………………………………………144
Liste des figures

Chapitre 1
Fig.1.1 schéma général de l’appareil phonatoire (les poumons jouent le rôle de soufflerie
alimentant le conduit vocal à travers la trachée artère). ............................................................. 7
Fig.1.2 Section schématique du larynx au niveau des cordes vocales ...................................... 8
Fig.1.3 Section schématique de l'oreille.................................................................................... 9
Fig.1.4 Audiogramme de production de la parole, seuils auditifs .......................................... 10
Fig.1.5 Allure temporelle de la fenêtre de Hamming .............................................................. 13
Fig.1.6 Allure temporelle de la fenêtre de Hanning ................................................................. 14
Fig.1.7 Allure temporelle de la fenêtre de Blackman .............................................................. 15
Fig.1.8 Comparaison entre les allures temporelles de la fenêtre symétrique et les fenêtres
asymétriques ............................................................................................................................. 16
Fig.1.9 Aperçu de l’algorithme de VAD ................................................................................. 18
Fig.1.10 Le modèle source-filtre ............................................................................................. 19
Fig.1.11 Calcul du cepstre complexe ....................................................................................... 20
Fig.1.12 Les étapes d’extraction des paramètres acoustiques. ................................................. 21
Fig.1.13 Filtre d'analyse de la parole ...................................................................................... 23
Fig.1.14 Filtre de synthèse de la parole .................................................................................. 23
Fig 1.15 Schéma de principe de LPCC .................................................................................... 27
Fig 1.16 Mel échelle ................................................................................................................. 28
Fig.1.17 calcul des MFCCs ...................................................................................................... 28
Fig.1.18 Mel filterbanks .......................................................................................................... 29
Fig.1.19 Calcul des dérivées premières et secondes de coefficients MFCC ............................ 31
Fig.1.20 Le processus de calcul des coefficients PLP ............................................................ 32

Chapitre 2
Fig.2.1 Schéma modulaire d'un système d'IAL. ...................................................................... 45
Fig.2.2 Schéma modulaire d'un système de VAL. ................................................................... 45
Fig.2.3 Schéma modulaire d'un système d’indexation du locuteur.......................................... 46
Fig.2.4 Principe de la quantification vectorielle ...................................................................... 48
Fig.2.5 trois gaussiennes forment une distribution de mélange ............................................... 48
Fig.2.6 Modèle de Markov caché............................................................................................. 49
Fig.2.7 Machines à vecteurs de support (SVM)....................................................................... 50
Fig.2.8 Calcul du seuil de décision en fonction de taux d’erreur de fausse acceptation (FAR,
ou FA) et taux d’erreur de faux rejet (FRR ou FR) .................................................................. 51
Fig.2.9 Exemple d’une courbe DET ........................................................................................ 53
Fig.2.10 Normalisation Min-max............................................................................................ 55
Fig.2.11 Système de fusion de scores ...................................................................................... 56

Chapitre 3
Fig.3.1 Modélisation du locuteur par GMM-UBM .................................................................. 74
Fig.3.2 Données linéairement séparables…………………………………………………….76
Fig.3.3 Données non linéairement séparables. ........................................................................ 78
Fig.3.4 Modélisation du locuteur par GMM-SVM .................................................................. 83

Chapitre 4
Fig.4.1 Les différent type de bruits et leurs impacts sur l’état physiologique de locuteur ...... 86
Fig.4.2 Schéma bloc de reconnaissance du locuteur dans un réseau de télécommunication, en
présence d’un bruit d’environnement ....................................................................................... 87
Fig.4.3 Bloc diagramme de l’approche GMM-MAP-VAD ..................................................... 91
Fig.4.4 Bloc diagramme de l’approche proposée de la fusion des scores basée sur la somme
pondérée adaptative .................................................................................................................. 97
Fig.4.5 allure de la fonction sigmoïde ...................................................................................... 98

Chapitre 5
Fig.5.1 Taux d’identification du locuteur en utilisant différentes composantes de GMM ... 103
Fig.5.2 Taux d’identification du locuteur en utilisant GMM (k=32) avec MFCCs et MFCCs
basés sur les fenêtres asymétriques ........................................................................................ 103
Fig.5.3 Spectrogramme d’un segment de 30 ms extrait d’un bruit Babble ........................... 105
Fig.5.4 Spectrogramme d’un segment de 30 ms extrait d’un bruit d’Usine .......................... 106
Fig.5.5 Comparaison des courbes DET lors de l'utilisation: a) VQ-VAD avec MFCC-
Hamming taper; b) GMM-VAD avec MFCC-Hamming taper; c) GMM-MAP-VAD avec
MFCC- Hamming et asymétriques tapers. ............................................................................. 108
Fig.5.6 Spectrogramme d’une trame de parole non bruitée de durée 15ms, pondérée par la
fenêtre symétrique de Hamming ........................................................................................... 109
Fig.5.7 Spectrogrammes d’une trame de parole non bruitée de durée 15ms pondérée par les
fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5 ......................................... 111
Fig.5.8 Spectrogramme d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de
durée 15ms, pondérée par la fenêtre symétrique de Hamming. ............................................ 114
Fig.5.9 Spectrogrammes d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB)
de durée 15ms pondérée par les fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d)
k=5 .......................................................................................................................................... 116
Fig.5.10 Filtre Linéaire ......................................................................................................... 117
Fig.5.11 Courbes DET en utilisant: a) GMM sans MAP, b) GMM-MAP ............................ 118
Fig.5.12 Spectrogramme d’un segment de 30 ms extrait d’un bruit Blanc ........................... 123
Fig.5.13 Les courbes DET en utilisant: a) GMM-UBM, b) GMM-SVM. ........................... 125
Fig.5.14 Les courbes DET en utilisant les méthodes de fusion de scores avec: a) GMM-
MAP, b) GMM-SVM ............................................................................................................. 126
Fig.5.15 La courbe DET en utilisant: l’approche de fusion des scores proposée entre GMM-
UBM and GMM-SVM ........................................................................................................... 127
Fig.5.16 Les courbes DET de la fusion de GMM-UBM avec GMM-SVM à: a) SNR= 0 dB,
b) SNR= 5 dB, c) SNR= 10 dB et d) SNR= 15 dB ................................................................ 132
Fig.5.17 les courbes DET de tous les systèmes sous l’environnement calme ....................... 134
Fig.5.18 les courbes DET en utilisant : a) MFCCs avec leurs extensions et b) MODGDCs s
avec leurs extensions .............................................................................................................. 138
Fig.5.19 Représentation spectrale d’une trame de parole non bruitée de durée de 30 ms, en
utilisant la transformée de Fourier et les fonctions du retard de groupe ................................ 139
Liste des tableaux

Tableau 1 Comparaison des résultats de l’identification du locuteur en termes de taux


d’identification lors de l'utilisation de GMM-UBM (k=32), avec MFCCs basés sur les fenêtres
Hamming et asymétriques dans un environnement réel
………………………………………………………………………………………….........104
Tableau 2 Comparaison des résultats de la vérification du locuteur en termes de EER(%),
lors de l'utilisation de MFCC avec et sans VQ-VAD dans un environnement réel
………………………………………………………………………………………….........112
Tableau 3 Comparaison des résultats de la vérification du locuteur en termes de EER(%),
lors de l'utilisation de VQ-VAD avec MFCCs basés sur les fenêtres Hamming et
asymétriques dans un environnement réel, avec VQ (k=32)
……………………………………………………………………………………….............112
Tableau 4 Comparaison des résultats de la vérification du locuteur en termes de EER(%),
lors de l'utilisation de MFCC avec GMM-MAP-VAD dans un environnement réel
………………………………………………………………………………………….........113
Tableau 5 Comparaison des résultats de la vérification du locuteur en termes de EER(%),
lors de l'utilisation de GMM-MAP-VAD avec MFCCs basés sur les fenêtres Hamming et
asymétriques, dans un environnement réel avec le nombre de composantes de l’UBM, k=256
………………………………………………………….........................................................113
Tableau 6 Comparaison des résultats de la vérification du locuteur en termes de EER, quand
GMM sans adaptation MAP est utilisé dans un environnement réel
…………………………………………………….................................................................119
Tableau 7 Comparaison des résultats de la vérification du locuteur en termes de EER, quand
GMM avec adaptation MAP est utilisé dans un environnement réel
………………………………………………………............................................................120
Tableau 8 Comparaison entre les performances des différentes techniques de fusion des
scores des sous-systèmes, formés par les différents paramètres en termes de EER, en utilisant
GMM sans l’adaptation MAP dans un environnement bruité
……………………………………………………………………………………….............121
Tableau 9 Comparaison entre les performances des différentes techniques de fusion des
scores des sous-systèmes, formés par les différents paramètres en termes de EER, en utilisant
GMM avec l’adaptation MAP dans un environnement bruité
……………………………………………………………………………………….............122
Tableau 10 Comparaison des résultats de la vérification du locuteur en termes de EER, lors
de l'utilisation de GMM-UBM avec différents types de paramètres dans un environnement
réel
……………………………….................................................................................................128
Tableau 11 Comparaison des résultats de la vérification du locuteur en termes de EER, lors
de l'utilisation de GMM-SVM avec différents types de paramètres dans un environnement
réel
……………………………….................................................................................................128
Tableau 12 Comparaison des résultats de la vérification du locuteur en termes de EER, lors
de l'utilisation de GMM-UBM avec différents types de méthodes de fusion des scores dans
un environnement réel
……………………………………………………………………………………………….129
Tableau 13 Comparaison des résultats de la vérification du locuteur en termes de EER, lors
de l'utilisation de GMM-SVM avec différents types de méthodes de fusion des scores dans un
environnement réel
……………………………………………………………………………………………….130
Tableau 14 Comparaison des performances de vérification du locuteur en termes de EER
(%) de tous les systèmes dans un environnement bruité
……………………………………………………………………….....................................135
Tableau 15 Comparaison des performances de vérification du locuteur en termes de
minDCF de tous les systèmes dans un environnement bruité
……………………………………………………………………………………….............136

Tableau 16 Comparaison des performances de vérification du locuteur en terme de actDCF


de tous les systèmes dans un environnement bruité
……………………………………………………………………………………….............136
Tableau 17 Comparaison des performances de vérification du locuteur en termes de EER
(%), quand en utilisant MFCCs et leur extensions asymétriques dans un environnement bruité
……………………………………………………………………………………….............140
Tableau 18 Comparaison des performances de vérification du locuteur en termes de EER
(%), quand en utilisant MGDCs et leur extensions asymétriques dans un environnement bruité
………………………………………………………………………………….....................140
Abréviations

ANN Réseau de Neurones Artificiels


DET Detection Error Tradeoff
DTW Dynamic Time Warping
EER Equal Error Rate
EM Expectation Maximisation
FA Fausse Acceptation.
FR Faux Rejet
GMM Gaussian Mixture Models
HMM Hidden Markov Models
HO Hyperplan optimal
IAL Identification Automatique du Locuteur
JFA Joint Factor Analysis
KNN K-plus proches voisins
LPCC Linear Prediction Cepstral Coefficients
LSF Line Spectral Frequency
MAP Maximum a Posteriori
MFCC Mel Frequency Cepstral Coefficients
MLP Multi-Layer Perceptrons
MODGDCs Modified Group Delay Coefficients
RASTA RelAtive SpecTrAl
RAL Reconnaissance Automatique du Locuteur
RAP Reconnaissance Automatique de la Parole
RdF Reconnaissance de Formes
RN Réseaux de Neurones
ROC Receiving Operating Characteristic
SVM Support Vector Machines
UBM Universal Background Model
VAD Détection de l'Activité Vocale
VAL Vérification Automatique du Locuteur
VQ Vector Quantization
Résumé
Dans le domaine de la reconnaissance vocale, la biométrie vocale est une technique
émergente utilisant les techniques de reconnaissance automatique des locuteurs (RAL). Cette
dernière exploite la variabilité interlocuteurs et s’intéresse aux informations extralinguistiques
du signal vocal : il s’agit donc de reconnaitre une personne à partir de sa voix. L'identification
Automatique du Locuteur (IAL) et la Vérification (Authentification) Automatique du
Locuteur (VAL) sont les deux tâches les plus répandues dans le domaine de la RAL. Les
applications sont nombreuses, notamment dans le contrôle d’accès, dans les institutions
financières ou le donneur d’ordre doit être identifié et dans le domaine sécuritaire ou
judiciaire. En effet, les applications en sciences criminalistiques sont de plus en plus
évoquées, à tels point que de nombreux travaux trouvent leur prolongement dans les sciences
forensiques. Les systèmes de RAL résultent de la combinaison de techniques de traitement du
signal nécessaires à l’extraction des paramètres acoustiques et de modèles issus de la
reconnaissance des formes pour la discrimination entre locuteurs. Les méthodes actuellement
utilisées sont fondées sur les modèles statistiques : mélange de gaussiennes GMM, HMM
(Hidden Markov Models), ou neuronaux tels que les Réseau de Neurones Artificiels (ANNs).
Ces systèmes ont montré leur efficacité en environnement calme ou peu perturbé (absence de
bruits de fond). Cependant, leurs performances se dégradent fortement en environnement réel,
notamment pour certains bruits audio de large spectre. Notre travail se concentre sur les
nouvelles variantes dérivées de paramètres standards tels que MFCCs, en utilisant d’autres
fenêtres dans l’analyse à courte terme du signal de parole, telle que les fenêtres asymétriques,
et la fusion de paramètres et de modèles à différents niveaux, principalement au niveau de
scores. L'amélioration des performances peut être atteinte par notre fusion des systèmes avec
différents ‘front-end’ ou ‘back-ends’. Ceci peut être réalisé par l'utilisation de différents
détecteurs d'activité vocale (VAD) et / ou des techniques d'extraction de caractéristique à
travers le système; et des back-end qui comprennent l'utilisation de différents modèles et / ou
des techniques de compensation (PCA et LDA) entre les systèmes. A travers une étude
comparative, incluant les GMMs et les GMM-SVMs, portant sur la reconnaissance de
locuteurs en mode indépendant du texte, en ensemble ouvert (vérification) et fermé
(identification) en environnement calme et bruité, nous montrons que les systèmes de RAL
basés sur la fusion de scores (paramètres et modèles) présentent de meilleurs résultats. Les
vecteurs acoustiques d’entrées, extraits des bases de données TIMIT et NIST2000, sont
constitués par les coefficients ; MFCC, PLP, RAST-PLP, LPC, LPCC et MODGDCs, et la
fusion de ces paramètres pour évaluer l’apport de la coopération de connaissance.
L’extension de notre étude à la reconnaissance en milieu fortement bruité, faisant appel à
trois types de bruits additifs (produits par : le chahut dans une cantine, dans une usine de
production de véhicule, un bruit blanc) atteignant de forts niveaux SPL, tirés de la base de
données NOISEX-92 (NATO : AC 243/RSG 10) confirme la supériorité de l’approche
retenue basée sur les méthodes de fusion de paramètres et de modèles proposées dans cette
thèse.

Mots clés : Reconnaissance Automatique du Locuteur, MFCC, MODGDCs, GMM, GMM-


SVM, MLP, VAD, Fusion des Scores, TIMIT, NIST2000, Environnement Bruité.
Abstract
In the field of speech recognition, voice biometrics is an emerging approach using Automatic
Speaker Recognition system (ASR). The latter exploits the inter-speaker variability and is
interested in extra-linguistic information of the speech signal. Automatic speaker
identification and verification (authentication) are the two most common tasks in the field of
ASR. There are many applications, including access control in financial institutions, where
the client must be identified and in the field of security and judiciary. Indeed, the applications
in forensic science are increasingly, referred to such an extent that many works find their
continuation in forensic science. ASR systems result from the combination of signal
processing techniques required for the extraction of acoustic parameters and models from
pattern recognition to discriminate between speakers. Currently, the most models used in
learning phase are based on statistical models: Gaussian mixture GMM, HMM or neural such
as ANNs. These systems have proved their efficiencies in calm and undisturbed environment
(no background noise). However, the performances are degraded in real environments,
including some audio noise with wide spectrum. Our work focuses on new variants derived
from standard parameters such as MFCCs, using other windows in the short-term analysis of
the speech signal, such as asymmetric windows, and fusion parameters and models at
different levels, mainly in score level. The improved performance can be achieved by merging
our systems with different 'front-end' and 'back-end'. This can be achieved by the use of
different voice activity detectors (VAD) through extraction techniques; and back-end that
include the use of different models and / or compensation techniques (PCA and LDA)
between systems. Through a comparative study, including the GMM and GMM-SVM, on the
speaker recognition system, open (verification) and closed (identification) in quiet and noisy
environments, we show that ASR systems based on fusion scores (parameters and models)
have better results. The acoustic vector extracted from NIST2000 and TIMIT databases are
constituted by the coefficients of; MFCC, PLP, RAST-PLP, LPC, LPCC and MGDCs with
their fusion at scores level, in order to evaluate the contribution of cooperative knowledge.
Extending our study to the very noisy environment recognition, using three types of additive
noise (produced by Babble speech, factory noise and white noise) extracted from the Noisex-
92 data base (NATO: AC 243 / RSG 10), confirms the superiority of the proposed scores
fusion technique between parameters and models in this thesis.
Keywords: Automatic speaker recognition, MFCC, MODGDCs, GMM, GMM-SVM, MLP,
VAD, Scores Fusion, TIMIT, NIST2000, Noisy Environment.
Remerciements

Je tiens d’abord à adresser mes plus vifs remerciements à Monsieur

AMROUCHE Abderahmane, Professeur à la faculté d’électronique et

d’informatique (FEI), USTHB, pour la confiance qu’il m’a témoignée en

acceptant la direction scientifique de mes travaux, malgré ses nombreuses

charges. Je lui suis reconnaissant de m’avoir fait bénéficier tout au long de ce

travail de sa grande compétence, de sa rigueur intellectuelle, de son

dynamisme, et de son efficacité. Ils ont été et resteront des moteurs de mon

travail de chercheur.

J’adresse aussi tous mes remerciements à Monsieur AKLOUF Youcef,

Professeur à la faculté d’électronique et d’informatique (FEI), USTHB, pour

avoir accepté la codirection scientifique de cette thèse. Qu’il trouve à travers

ce travail toute ma reconnaissance et ma gratitude.

Je tiens à remercier Mr TEFFAHI Houcine, Professeur à la Faculté

d’Electronique et d’Informatique, USTHB, pour l’honneur qu’il me fait de

présider ce Jury.

Je voudrai également exprimer mes remerciements à Mr TALEB-AHMED

Abdelmalik, Professeur à l’université Valencienne, France, Mme

BENBLIDIA Nadjia, Professeur à l’université de Blida, (USDB), Mr

BENSELAMA Zoubir Abdessalam, Maitre de Conférences A, à l’université

de Blida, (USDB), et Mme HAMAMI Latifa , Professeur à l’Ecole Nationale

Polytechniques, (ENP), pour avoir bien voulu accepter de faire partie ce

Jury.

Mes remerciements vont aussi à Monsieur SELOUANI Sid-Ahmed,

Directeur de laboratoire de recherche en interaction Humain-Systèmes et


RFID, et Professeur au campus de Shippagan, université de Moncton,

(UMCS), Canada, pour m’avoir bien accueilli au sein du son laboratoire

LARIHS, et pour le climat sympathique dans lequel il m’a permis de

travailler et passer de très bon moments au sein de son équipe de recherche.

Je ne saurais oublier ma famille qui m’a été d’un grand soutien et qui n’a

ménagé ni sa patience ni ses encouragements pour que ce travail puisse un

jour aboutir.

A titre plus personnel, Je remercie chaleureusement ma femme, Sihem, pour

la grande patience, l’encouragement et la confiance qu’elle m’a témoignée

dont elle a fait preuve à la relecture de mes papiers publiés. Je tiens à la

remercier surtout pour son soutien moral ininterrompu et ses nombreux

conseils tout le long de ma thèse.

J’adresse toute ma gratitude à tous mes ami(e)s et à toutes les personnes

formidables qui m’ont aidé dans la réalisation de ce travail. Je remercie Mr

BOUKEFFOUS El Yazid qui m’a accueilli à bras ouverts pendant mon séjour

à Montréal, Canada, qu’il trouve à travers cette thèse toute ma

reconnaissance. Je remercie également toute l’équipe de Biométrie en

particulier Mr HARIZI Farid, ainsi l’équipe de Conception des Systèmes

Embarqués, à sa tête KERMIA Omar, pour sa compréhension et sa

sympathie avec moi, qui m’ont permis de travailler dans d’aussi bonnes

conditions. Sans oublier aussi de remercier, tout le personnel de la Faculté

d’Electronique et d’Informatique de l’USTHB, ainsi celui du Centre de

Développement des Technologies Avancées, (CDTA).

Finalement je remercie tous ceux que je ne nomme pas, mais qui se

reconnaîtront.
Introduction Générale
Introduction Générale

Introduction Générale
L’identification et la vérification (authentification) automatique du locuteur, est le processus
de reconnaissance automatique du locuteur (RAL), sur la base des informations individuelles
incluses dans les ondes de son signal de parole [1]. Ce système de reconnaissance utilise la
voix du locuteur, afin de vérifier son identité et fournit un contrôle d'accès aux services tels
que ; les services d'accès aux bases de données, les services d'information, la messagerie
vocale, le contrôle de sécurité pour les zones d'informations confidentielles, l'accès à distance
à des ordinateurs et plusieurs autres domaines où la sécurité est le principal sujet de
préoccupation.

Par ailleurs, l’émergence de la reconnaissance du locuteur dans les réseaux de communication


est née du besoin d’éviter les imposteurs dans certains domaines sensibles. Les personnalités
occupant des responsabilités stratégiques et les transactions boursières, nécessitent
l’authentification ou la vérification du donneur d’ordre distant.
Aussi, depuis plusieurs années, de nombreux laboratoires internationaux ont mené des
recherches intensives dans ce domaine (RAL) et des progrès importants ont été réalisés,
notamment grâce au développement d’algorithmes puissants, alliés aux technologies de
traitement numérique du signal, et aux avantages que la reconnaissance vocale (RAL) en tant
que technique d’authentification présente, à savoir :

l’enregistrement du signal audio n’est pas considéré comme intrusif (mais peut
cependant présenter des difficultés au niveau législatif).
le signal audio est naturellement véhiculé dans la majorité des réseaux de
communication.
les techniques de stockage et de compression du signal audio sont très efficaces.
dans de nombreuses applications (serveurs vocaux), l’utilisateur emploie déjà la parole
pour communiquer avec la machine [2].

Cependant, un système RAL idéal n’existe pas encore, des applications réelles émergent sans
cesse d’une année à l’autre. Donc, la problématique de la RAL en termes de difficultés et
d’inconvénients majeurs rencontrés, lors de sa conception, a été identifiée à différents
niveaux:

 La plupart des modèles d’apprentissage utilisés pour modéliser le locuteur, sont basés
sur le modèle classique de mélange gaussien (GMM) [3]. Ce dernier (GMM) utilise la
procédure EM (Expectation Maximization) [4] pour dériver les modèles probabilistes
du locuteur. Toutefois, il a été rapporté que ‘EM’ souffre de faibles taux de
convergence [4] et une tendance à se retrouver à des solutions sous-optimales. Donc,
diverses modèles ont été proposés, afin d’améliorer les performances [5]. Ce domaine
de recherche est toujours actif actuellement, en raison du grand intérêt dans les
algorithmes de modélisation performants permettant des applications en temps réel du
système de reconnaissance du locuteur.

1
Introduction Générale

 La méthode d'extraction de vecteurs caractéristiques (MFCCs) [6], considérée


actuellement comme l’état de l’art des méthodes d’extraction des paramètres
acoustiques, fait usage des propriétés de la perception auditive humaine, qui est censée
contribuer largement par sa capacité d’extraire les caractéristiques spécifiques du
locuteur à partir de sa voix. Toutefois, il a été rapporté récemment [7] que la fusion de
MFCCs avec d'autres caractéristiques complémentaires, a un potentiel de fournir des
informations supplémentaire spécifiques du locuteur et conduire à de meilleurs
résultats. Cela a conduit à la définition de nouveaux types de paramètres acoustiques
qui ont le potentiel d'améliorer les performances des systèmes de RAL, mais ces
paramètres ne sont pas encore été suffisamment étudiés dans les applications de
reconnaissance du locuteur.

 Les systèmes actuels de RAL font face à la dégradation des performances, en raison de
l'âge du locuteur, l'évolution des conditions de sa santé et son état mental, ou en
particulier les conditions d’environnement où le système est mis en œuvre [8]. Les
effets exacts de ces facteurs sur la reconnaissance du locuteur ne sont pas encore
cernés.

Donc, le défi majeur en RAL, réside dans l’amélioration de ses performances dans des
conditions fortement dégradées (présence des bruits d’environnement ou canal de
transmission). Pour cela, divers et nombreux algorithmes ont été proposés au cours des
dernières décennies pour résoudre ce problème. Par exemple, les locuteurs peuvent être
modélisés dans plusieurs environnements bruités pour réduire l'inadéquation entre les
conditions de l’apprentissage et de test [9]. Les méthodes de rehaussement de la parole, telles
que la soustraction spectrale, ont été explorées pour la reconnaissance du locuteur en milieux
réel [10]. L’analyse auditive de la scène (CASA) a récemment été utilisée pour éliminer le
bruit [11]. Les méthodes d’extraction de paramètres telles que la modulation des
caractéristiques spectrales [12] et celles incorporant des informations de phase [13] ont
montré une robustesse contre la réverbération.

Dans cette thèse, nous continuons dans la même direction de recherche, par diversification des
méthodes d’extraction des paramètres acoustiques existantes déjà dans la littérature, et de
modélisation du locuteur utilisées dans la RAL, et de proposer des approches de fusion entres
les paramètres et les modèles qui pourraient conduire à une amélioration des performances de
RAL dans des conditions adverses. Ceux-ci résultent dans des modèles statistiques puissants
dont les paramètres peuvent être estimés automatiquement sur la base d’un grand ensemble
d’entraînement.
Beaucoup d’outils et de connaissances relatives au mécanisme de RAL sont maintenant
disponibles. Les systèmes actuels sont basés sur les caractéristiques extraites à partir de
l’enveloppe spectrale du signal de parole (MFCC, PLP, RSTA-PLP, …, etc.)[14] sont
dominants, alors que d’autres utilisent les vecteurs caractéristiques dérivés de la phase du
signal de parole, en utilisant les fonctions du retard de groupe comme MDGCs (Modified
Group Delay features) [15]. Des expériences importantes ont été menées dans ce travail de
thèse, concernant la mise en œuvre de ces méthodes d’extraction, leur comportement dans les
milieux réels en utilisant les méthodes de modélisations dites statistiques ou discriminatives,

2
Introduction Générale

qui font l’objet de cette thèse telles que les mélanges de gaussiennes GMM-UBM [3] et les
GMMs combinés avec les machines à vecteurs de support GMM-SVM [16], qui montrent
notamment leur manque de robustesse aux environnements bruités.

Notre effort de recherche dans cette thèse, se concentre également sur les nouvelles variantes
dérivées de MFCCs, en utilisant d’autres fenêtres dans l’analyse à courte terme du signal de
parole, telle que les fenêtres asymétriques [17], et la fusion des paramètres et des modèles à
différents niveaux, principalement au niveau de scores. L'amélioration des performances peut
être atteinte par les méthodes que nous proposons pour la fusion des systèmes avec différents
‘front-end’ ou ‘back-ends’. Ceci peut être réalisé par l'utilisation de différents détecteurs
d'activité vocale (VAD) et / ou des techniques d'extraction de caractéristique à travers le
système [17].

Par ailleurs, dans les systèmes de RAL réel actuels, la connaissance du type de bruit et la
valeur de rapport signal sur bruit (SNR) ont une grande importance, dans l’amélioration des
performances. Pour cela, une voie prometteuse pour lutter contre la dégradation des
performances de RAL sous les bruits d’environnements, est la fusion des scores.
De nombreuses méthodes récentes proposent des techniques de fusion basées sur la somme
pondérée des scores issus de chaque module de reconnaissance spécifique. Moyenne, max et
produit sont les fonctions les plus populaires utilisées [18]. Dans cette thèse, de nouvelles
approches sont proposées à savoir ; la somme pondérée adaptative, basée sur l’utilisation du
VAD à base de l'énergie (Par exemple, Mak et. al [19] a utilisé le VAD à base de l'énergie
qu’il trouve utile pour les données de la parole du NIST), afin d’estimer la valeur de SNR du
bruit d’environnement dans lequel le système RAL opère, pour que elle soit ensuite utilisée
dans le calcul des poids de pondération de la technique de fusion des scores.

Cependant, le VAD fonctionne très bien dans des conditions calmes (absence du bruit), mais
se détériore drastiquement dans des conditions bruitées. Une façon d'y parvenir est
d'introduire le module de rehaussement de la parole par soustraction spectrale dans l’étape de
prétraitement acoustique [10]. Man-Wai Mak et al concluent dans leurs travaux récents [19],
que la suppression du bruit est d'une importance primordiale pour le VAD sous de très faible
SNR. En outre, ils proposent une idée intelligente qui est l’indexation et l'étiquetage des
trames de parole et non-parole, sur la base de l'énergie après le rehaussement de la parole
[19]. Nous continuons dans le même sens, nous proposons des améliorations en modifiant
cette technique VAD via l'utilisation de l’adaptation maximum a posteriori (MAP) [16],pour
qu’elle soit plus efficace vis-à-vis du nombre faible de trames de parole, sélectionné après
soustraction spectrale.
La deuxième approche de la fusion des scores proposée est basée sur la fonction sigmoïde
adaptative avec le réseau de neurones MLP (Multi-Layer Perceptron) [20]. Le principe de
cette technique est inspiré du fait que, les scores loin de leur moyenne (outliers en anglais)
peuvent être normalisés et forcés à se rapprocher à nouveau de leur moyenne, en utilisant la
fonction sigmoïde, ainsi le réseau de neurones MLP.
Par conséquent, les contributions de cette thèse sont comme suit:

 Développement et implémentation des méthodes d’extraction des paramètres


acoustiques à base de nouvelles variantes de fenêtres de pondération dites fenêtres
asymétriques.
 Investigation et implémentation d’un autre type de paramètres extraits de
l’information contenue dans la phase du signal de parole.

3
Introduction Générale

 Proposition d’une nouvelle approche d’activité vocale robuste au bruit


d’environnement.
 Développement et implémentation du système de reconnaissance du locuteur à base
GMM-UBM.
 Développement et implémentation du système de reconnaissance du locuteur hybride
GMM-SVM.
 l’amélioration des performances de RAL en milieux réels, via une fusion des
complémentarités existantes entre les caractéristiques et les modèles en matière
d'information.
 l’utilisation du réseau de neurones de types MLP dans la technique de fusion de
scores, rend l'écart entre les scores bruités et leurs correspondants dans
l’environnement calme, très petit.
 l’intégration des erreurs de reconnaissance, dans le calcul des poids de pondération
des méthodes de fusion de scores proposées, les rend adaptatives dans les milieux
fortement pollués par les bruits additifs.

Cette thèse est organisée comme suit :

 Dans le premier chapitre de ce manuscrit, nous faisons une description du signal de


parole produit par l’appareil phonatoire de l’être humain avec un rappel sur ses
caractérisations depuis sa production jusqu’à son audition. Ainsi, une connaissance
approfondie des techniques d’analyse du signal de parole aidera à la paramétrisation
de ce dernier.

 Au deuxième chapitre, nous nous intéressons aux méthodes de reconnaissance


automatique du locuteur, ainsi la méthodologie adoptée pour évaluer un système de
RAL.

 Dans le troisième chapitre nous détaillons les approches d’apprentissage de données


acoustiques du locuteur, que nous avons utilisées dans la phase d’apprentissage
utilisées dans la tache de RAL.

 Dans le quatrième chapitre, nous décrivons les méthodes de fusion des scores
proposées, basées sur la nouvelle techniques (GMM-MAP-VAD) proposée et le réseau
de neurones (MLP) dans le cadre de notre travail, afin d’améliorer les performances de
RAL en milieux réel.

 Au cinquième chapitre, nous présentons le système de RAL que nous avons élaboré et
qui repose sur les modèles d’apprentissage basés sur les méthodes GMM-UBM et
GMM-SVM, ainsi qu’une fusion des scores issus de ces deux modèles est réalisée,
lorsque différents paramètres acoustiques sont utilisés comme étant des entrées pour
ces modèles. L’application de tels systèmes n’a d’intérêt que s’ils sont utilisés dans un
milieu naturel réel, donc fortement pollué par les nuisances sonores. Dans notre étude,
l’efficacité de la reconnaissance a été évaluée dans des environnements acoustiques
4
Introduction Générale

hostiles à l’aide de la base de données NOISE’92 NAT. Des discussions porteront sur
l’interprétation des résultats obtenus.

 Enfin une conclusion incluant les perspectives ouvertes par ce travail, ainsi que les
principales références bibliographiques utilisées termineront cette thèse.

5
Chapitre 1

L’Analyse Acoustique de la Parole et


Extraction des Paramètres
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Chapitre 1

L’Analyse Acoustique de la Parole et


Extraction des Paramètres

1.1. Introduction

Le signal de parole permet la communication entre les individus. Il véhicule un message


linguistique mais aussi quantités d’informations extra linguistiques et des informations liées
au locuteur. Ceci permet notamment de discriminer les locuteurs les uns des autres. Le signal
de parole est un signal très complexe où se mêlent différents types d’informations, classées
par leur niveau de représentation. Les informations dites « bas niveau » sont facilement
utilisables à partir de l’analyse acoustique de l’enveloppe spectrale du signal de parole.

L’analyse acoustique de la parole est aujourd’hui une composante fondamentale des systèmes
de reconnaissance vocale (parole ou locuteur) [21], [22]. Située au croisement du traitement
du signal numérique et du traitement du langage. Cette analyse acoustique du signal de parole
(considéré comme étant un signal aléatoire d’une grande variabilité et redondance, continu,
d’énergie finie, non stationnaire) a pour but de donner une représentation moins redondante
de la parole, tout en permettant une extraction assez précise des paramètres acoustiques
qui caractérisent ce signal, et qui devraient respecter les critères de Deviren [22].

1.2. Mécanismes de production et de l’audition de la parole

1.2.1. Production de la parole

La production de la parole est l’acte neuromoteur le plus complexe de l’activité


biologique humaine, et du monde vivant connu [23]. Elle met en jeu un très grand
nombre de muscles aux mouvements particulièrement précis, caractérisés par de très
nombreuses unités motrices, et dont la synchronisation doit être parfaitement contrôlée pour
créer l’objet sonore porteur de sens.

6
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

La production de la parole est un système dynamique, dont le comportement à un


moment donné dépend de ses états antérieurs. Le système est donc dépendant d’une variable
paramétrable en fonction du temps, qui est dans ce cas un geste articulatoire [24].

Ce geste articulatoire est le résultat de l’action volontaire et coordonnée d’un certain nombre
de muscles. Cette action se déroule sous le contrôle du système nerveux central qui reçoit en
permanence des informations [25], [26], [27], [28].

L’appareil respiratoire fournit l’énergie nécessaire à la production de son, en poussant l’air à


travers la trachée-artère. Au sommet de celle-ci se trouve le larynx ou la pression de l’air est
modulée avant d’être appliquée au conduit vocal.

Fig. 1.1 schéma général de l’appareil phonatoire (les poumons jouent le rôle de soufflerie alimentant le conduit
vocal à travers la trachée artère) [54].

Le larynx est un ensemble de muscles et de cartilages mobiles qui entourent une cavité
située à la partie supérieure de la trachée (voir Fig.1.1). Les cordes vocales sont en fait
deux lèvres symétriques placées en travers du larynx. Ces lèvres peuvent fermer
complètement le larynx et, en s’écartant progressivement, elles déterminent une ouverture
triangulaire appelée glotte. L’air y passe librement pendant la respiration et la voix

7
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

chuchotée, ainsi que pendant la phonation des sons non-voisés (ou sourds). Les sons voisés
(ou sonores) résultent au contraire d’une vibration périodique des cordes vocales. Le larynx
est d’abord complètement fermé, ce qui accroît la pression en amont des cordes vocales, et
les force à s’ouvrir, ce qui fait tomber la pression, et permet aux cordes vocales de se
refermer; des impulsions périodiques de pression sont ainsi appliquées au conduit vocal,
composé des cavités pharyngienne et buccale pour la plupart des sons. Lorsque la luette est
en position basse, la cavité nasale vient s’y ajouter en dérivation. Notons pour terminer le
rôle prépondérant de la langue dans le processus phonatoire. Sa hauteur détermine la hauteur
du pharynx : plus la langue est basse, plus le pharynx est court. Elle détermine aussi le lieu
d’articulation, région de rétrécissement maximal du canal buccal, ainsi que l’aperture,
écartement des organes au point d’articulation.

Fig. 1.2 Section schématique du larynx au niveau des cordes vocales [21]

1.2.2. L’audition de la parole

Une bonne connaissance des mécanismes de l’audition et des propriétés perceptuelles de


l’oreille est aussi importante qu’une maîtrise des mécanismes de production. En effet, tout ce
qui peut être mesuré acoustiquement ou observé par la phonétique articulatoire n’est pas
nécessairement perçu.

8
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Un son, c'est une vibration qui oscille plus ou moins vite. On parle de fréquence, que l'on
exprime en Hertz : plus les vibrations sont rapprochées, plus la fréquence est élevée et le son
produit aigu. L'oreille humaine est capable de percevoir des sons entre 20 Hz et 20 000 Hz
[29], [30], [31]. Notre capacité à entendre ce son dépend aussi de l'intensité sonore avec
laquelle il s'exprime. Pour mesurer cette intensité, on utilise les décibels. Nous percevons les
sons compris entre 0 dB et 120 dB. Notre système auditif est chargé de transformer cette
vibration de l'air en une information décodable par le cerveau en tant que son. Pour ce faire,
l’appareil auditif recueillit des ondes sonores qui provoquent les sensations auditives. Ces
ondes de pression sont analysées dans l’oreille interne qui envoie au cerveau l’influx nerveux
qui en résulte; le phénomène physique induit ainsi un phénomène psychique grâce à un
mécanisme physiologique complexe.

Fig.1.3 Section schématique de l'oreille [21]

9
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Fig.1.4 Audiogramme de production de la parole, seuils auditifs [24]

L’appareil auditif comprend l’oreille externe, l’oreille moyenne, et l’oreille interne (voir Fig.
1.3). Le conduit auditif relie le pavillon au tympan : c’est un tube acoustique de section
uniforme fermé à une extrémité, son premier mode de résonance est situé vers 3000 Hz, ce
qui accroît la sensibilité du système auditif dans cette gamme de fréquences.

Le mécanisme de l’oreille interne (marteau, étrier et enclume) permet une adaptation


d’impédance entre l’air et le milieu liquide de l’oreille interne. Les vibrations de l’étrier sont
transmises au liquide de la cochlée. Celle-ci contient la membrane basilaire qui transforme
les vibrations mécaniques en impulsions nerveuses. La membrane s’élargit et s’épaissit au fur
et à mesure que l’on se rapproche de l’apex de la cochlée; elle est le support de l’organe de
Corti qui est constitué par environ 25000 cellules ciliées raccordées au nerf auditif.

1.3. Variabilité de la parole

Notre capacité à comprendre la parole, même dans des conditions difficiles tient très
certainement à l’importance des redondances présentes dans toute situation de
communication, la connaissance préalable de l’interlocuteur, du sujet de la discussion, du
cadre dans lequel elle se déroule et, bien entendu, l’utilisation d’un code linguistique
commun. D’autres redondances ou variabilités, existent également au niveau de l’information
acoustique et qui sont dues aux :

10
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

 Variabilité intra-locuteur

La variabilité intra-locuteur est une variabilité propre au locuteur qui ne peut pas
reproduire exactement le même signal. Cette variabilité intra-locuteur est dépendante
de l’état physique et psychologique du locuteur

 Variabilité interlocuteurs
La grande variabilité entre les locuteurs est due, d'une part, à l'héritage linguistique et
au milieu socioculturel de l'individu, et d'autre part aux différences physiologiques des
organes responsables de la production vocale. L'expression acoustique de ces
différences peut être traduite par une variation de la fréquence fondamentale, dans
l'échelle des formants.

 Variabilité de la parole liée aux conditions de transmission et d’acquisition

Comme tout signal audio, le signal de parole émis transite par un milieu
intermédiaire avant d’être perçu par le système auditif [32]. Une transduction de la
pression acoustique est alors effectuée dans l’oreille interne humaine [33]. Lors
d’un enregistrement audio, la variation de pression est captée par un microphone
puis convertie en une grandeur électrique [34]. Ce milieu intermédiaire composé
de l’air, puis le cas échéant du matériel d’enregistrement et de restitution n’est
pas neutre. On considère alors comme principe général, que tout canal de
transmission contient des sources de bruit perturbant le signal transmis [35]. Les
perturbations liées à la transmission du signal viennent corrompre le signal de parole
émis en sortie du conduit vocal. Ces perturbations sont de divers ordres :

- des bruits additifs peuvent s’ajouter au signal de parole. Ces bruits additifs peuvent
être dus à la qualité de transmission (bruit aléatoire) ou à la superposition
d’évènements audio additionnels (environnement, mélange de voix) [36].

- des bruits convolutifs peuvent modifier la forme de l’onde du signal de parole, par
des effets acoustiques de type écho par exemple [37], [38]. Les perturbations dues
au canal de transmission du signal de parole, par exemple par le passage à travers
un réseau téléphonique filaire ou GSM, sont également génératrices de bruit
convolutif [39].

- l’enregistrement puis la restitution du signal de parole peuvent modifier ce signal,


suite à sa conversion sous forme d’onde électrique, sous forme analogique ou
encore sous forme numérique (fonction de transfert du microphone, numérisation)
[40].

11
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Un bruit additif peut être distingué lors de la présence d’un bruit de fond perturbant le
signal de parole initial pendant sa transmission. Si ce bruit de fond est considéré
stationnaire à moyen terme, tel un bruit gaussien, alors on admet que la
répartition de son énergie est constante à travers l’ensemble de l’amplitude
fréquentielle selon l’échelle temporelle utilisée [41]. Dans ce cas, à l’échelle de la
parole, un bruit additif est considéré stationnaire dès qu’il est stable en fréquence à
partir d’une échelle de grandeur de l’ordre de 200 ms [32]. A cette échelle, le bruit de
fond peut se détecter par la présence d’énergies moyennes cumulatives dans certaines
plages de fréquence [42]. A ce moment, des techniques de compensation du
signal de parole peuvent être mises en œuvre, afin d’annuler la présence de ces
énergies moyennes [43]. Cependant, un bruit additif créant une perturbation
évoluant en fréquence à cette échelle est difficile à discriminer. Parmi ces autres
types de bruit additifs, le bruit de type impulsion est caractérisé par sa forme
théorique d’impulsion de Dirac, tels un bruit de marteau piqueur ou celui d’un
claquement de porte [44]. Par ailleurs, l’intervention simultanée d’autres locuteurs
que celui porteur du message dans le signal de parole, est également considérée
comme un bruit perturbateur nécessitant une adaptation du système de RAL [45].
Cette interférence est connue sous le nom d’effet « cocktail party » [46]. Ce type
de bruit est difficilement détectable car ses caractéristiques spectrales et
temporelles sont proches de celle du signal de parole à analyser [47].

1.4. Discrétisation et fragmentation de la parole

Le signal de parole est continu, ce qui rend son traitement par la machine difficile, on procède
alors à une opération simple appelée ‘échantillonnage’ pour le discrétiser, tout en respectant
le théorème de Shannon [40].

D’autre part, il est difficile voire impossible de traiter un signal non stationnaire tel celui de la
parole sans le fragmenter en trames. Une analyse à court terme montre que le signal vocal est
quasi stationnaire sur des tranches temporelles de durées de 10 à 30 ms [48]. Cette analyse est
effectuée à l’aide de fenêtres [49] telles que :

n
Fenêtre Hamming wn  0,54  0,46. cos(2 ), 0n N (1.1)
N

avec : n : valeur d’échantillon à l’instant nTe.

N : la taille de la fenêtre.

12
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

0.9

0.8

0.7

0.6
Amplitude

0.5

0.4

0.3

0.2

0.1

0
0 50 100 150 200 250 300
Samples

Fig.1.5 Allure temporelle de la fenêtre de Hamming

Cette fenêtre de Hamming est souvent utilisée, vu que son spectre n’introduit pas trop de
distorsion sur le signal vocal : l‘atténuation du lobe principal par rapport aux lobes
secondaires est de - 41db, et la concentration de l’énergie du principal est de 99.96%.

n
Fenêtre Hanning : wn  0,5(1  cos(2 )), 0n N (1.2)
N

avec : n : valeur d’échantillon à l’instant nTe.

N : la taille de la fenêtre.

13
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

0.9

0.8

0.7

0.6
Amplitude

0.5

0.4

0.3

0.2

0.1

0
0 50 100 150 200 250 300
Samples

Fig.1.6 Allure temporelle de la fenêtre de Hanning

Fenêtre Blackman :

n n
wn  0,42  0.5 cos(2 )  0.08 cos(4 ), 0n N (1.3)
N N

avec : n : valeur d’échantillon à l’instant nTe.

N : la taille de la fenêtre.

14
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

0.9

0.8

0.7

0.6
Amplitude

0.5

0.4

0.3

0.2

0.1

0
0 50 100 150 200 250 300
Samples

Fig.1.7 Allure temporelle de la fenêtre de Blackman

Notons que toutes les fenêtres citées auparavant sont des fenêtres symétriques. Toutefois, y’a
d’autre types de fenêtres dites fenêtres asymétriques [50], [51], qui sont une extension des
fenêtres symétriques.

Etant donné une fenêtre symétrique ws (n) de longueur N [48], sa phase instantanée  (n) est
calculée par l'application d'une transformée de Hilbert à la fenêtre symétrique. Ensuite, la
fenêtre asymétrique wat (n) est obtenue selon l’expression suivante:

wat (n)  cws (n)ek ( n ) , 0  n  N  1 (1.4)

où n est l'indice de temps, e k (n ) est une fonction asymétrique, k est un paramètre qui
contrôle le degré d'asymétrie, et c est la constante de normalisation qui est donnée par :

max( ws (n))
c ,0  n  N  1 (1.5)
max( ws (n)e k ( n ) )

15
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1
Baseline taper
0.9 Asy-taper(k=-1.41)
Asy-taper(k=-2.21)
0.8
Asy-taper(k=2.31)
Asy-taper(k=4)
0.7

0.6
Amplitude

0.5

0.4

0.3

0.2

0.1

0
0 50 100 150 200 250 300
Samples

Fig.1.8 Comparaison entre les allures temporelles de la fenêtre symétrique et les fenêtres asymétriques

1.5. Analyse spectrale et temporelle de la parole

L’analyse spectrale de la parole présente des avantages au niveau de la perception, car


l’oreille humaine effectue une discrimination fréquentielle des sons [52]. De plus, cette
analyse fait apparaître des propriétés et des paramètres pertinents pour la suite du traitement.
Le principal outil utilisé dans cette analyse est La transformée de Fourier discrète.

Par contre, dans le domaine temporel on remarque que, l’amplitude du signal de parole varie
au cours du temps selon le type de son. En particulier, l’amplitude des segments non voisés
est généralement plus faible que celle des segments voisés. L’énergie à court terme du signal
de parole qui est donnée par l’expression suivante, fournit une représentation convenable qui
reflète ces variations d’amplitude :
N 1
1
E
N
x
k 0
2
(k ) (1.6)

Avec E : la valeur à évaluer.

N : la largeur de la fenêtre d’analyse.

x(k) : le signal numérique.

Un autre paramètre significatif extrait de l’allure temporelle du signal de parole est ‘le taux
de passage par zéro (TPZ)’, dont l’expression est donnée par:
16
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1 k 1
TPZ   sign( x(k  1))  sign( x(k ))
2 k 0
(1.7)

Souvent les segments non voisés sont caractérisés par une faible énergie et un ‘taux de
passage par zéros’ très élevé par rapport aux segments voisés.

1.5.1. Détection de l’activité vocale (VAD)

La première étape dans le traitement automatique de la parole, est la séparation fiable de la


parole et les segments non vocaux. Ceci est réalisé par un détecteur d'activité vocale (VAD).
VAD est un élément crucial dans les applications telles que la transmission de la parole, la
diminution du bruit dans un signal de parole et la reconnaissance de la parole ou du locuteur.

Donc, un algorithme typique de VAD comprend les étapes suivantes:

• Paramétriser le signal audio : extraire à partir du signal audio (que ce soit dans le domaine
temporel ou le domaine spectral) des paramètres pertinents telles que l’énergie, le taux de
passage par zéro, la forme spectrale, coefficients cepstraux, etc.

• Prendre une décision initiale: La décision est faite soit par des règles de décision sur un
segment de parole (parole/ ou non parole faite sur une trame), des modèles statistiques, ou des
seuils adaptatifs qui sont utilisés à cette fin. Ce pourrait aussi impliquer des mesures comme
l'estimation du SNR courant ou la détermination de type de bruit.
• Raffiner la décision VAD : La parole est fortement corrélée, si la trame courante
est de la parole, la trame suivante est également susceptible d'être de la parole. Donc, les
algorithmes de VAD raffinent la décision initiale pour éviter des transitions rapides de
parole à la non-parole. Les estimations de SNR et autres méthodes sont utilisées.

17
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Signal de parole

Pramétrisation

La décision Mettre à jour les


statistiques
initiale

Raffiner la
décision

Décision

Fig.1.9 Aperçu de l’algorithme de VAD

Comme VAD est considérée comme un problème de reconnaissance de formes, elle doit
distinguer deux classes, à savoir ; parole (qui peut être bruitée) et non- parole (silence). Dans
des environnements calmes, la plus part des algorithmes de VAD fonctionnent très bien,
mais leurs performances se détériorent considérablement dans la présence de bruit, avec de
nombreuses erreurs de détection.

1.6. Analyse homomorphique (Cepstre)

Le signal vocal x(n) est produit par un signal excitateur g (n) , qui est la source glottique,
traversant un système linéaire passif de réponse impulsionnelle h(n) qui représente le conduit
vocal [53].

D’après cette hypothèse, tirée du concept source filtre de G.Fant [54], on aura le système
suivant:

18
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

G g(n) h x(n)
source conduit

Fig.1.10 Le modèle source-filtre

Donc on peut écrire pour tout n > 0 :

x(n)  g (n)  h(n) (1.8)

Pour déconvoluer x(n), c’est à dire pour retrouver les deux composantes g(n) et h(n), avec
g(n) une séquence d’impulsions périodique pour les sons voisés, il suffit de transposer le
problème par homomorphisme dans un espace où l’opérateur de convolution «*»
correspond à un opérateur d’addition « + ».

Soit D * cet homomorphisme.

D * est un homomorphisme (application) qui applique l’espace vectoriel des signaux


d’entrées muni de la loi de convolution « * », sur l’espace vectoriel des signaux de sortie
muni de la loi d’addition « + » .

x(n)  g (n)  h(n)  xˆ(n)  gˆ (n)  hˆ(n) (1.9)

^ ^
L’intérêt de la méthode réside dans le fait que g(n) et h(n) sont facilement séparables par un
filtrage temporel et ceci grâce à l’hypothèse simplificatrice sur g(n). Ce qui donne le système
schématisé dans la figure suivante :

19
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

TZ Log(.) TZ-1

Fig.1.11 Calcul du cepstre complexe

TZ est la transformée en Z (TZ-1 sa transformée inverse).

La fonction log est utilisée pour le passage du domaine de la loi «. »(La multiplication) au
domaine de la loi « + » (l’addition), cette fonction n’est valable que pour les signaux
positifs, toutefois, étant donné que la majorité des signaux courants sont bipolaires
(positifs et négatifs), donc il faut faire appel à fonction log complexe.

Soit :

X ( z)  X ( z)  exp  jArg ( X ( z)) (1.10)

donc :

X ( z )  log X ( z ) log X ( z )  jArg X ( z )


^
(1.11)

 La fonction exp doit être aussi la fonction exponentielle complexe.

D’après le schéma de la figure (voir Fig.1.11), on a :

X (Z )  TZ x (n) (1.12)

X ( z )  logX ( z )
^
(la fonction log est complexe) (1.13)

x(n)  TZ 1 X ( Z )
^
(1.14)

^
Le signal x(n) est appelé cepstre complexe associé au signal x(n).

20
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1.7. Extraction des paramètres

Divers paramètres du signal de parole ont été proposés en reconnaissance automatique du


locuteur. Idéalement, ces paramètres doivent avoir une forte variabilité interlocuteurs et une
faible variabilité intra-locuteur, permettant ainsi de discriminer plus facilement différents
individus. De plus, ces paramètres doivent être robustes aux différents bruits et variations
intersessions, et difficiles à reproduire par un imposteur.

Le signal de parole présente donc, de la redondance et contient des informations jugées trop
redondantes [55] pour la reconnaissance de la parole ou du locuteur, ce qui justifie la
recherche d'une représentation spécifiquement pertinente.

L’extraction des paramètres du signal consiste à associer au signal de parole une série de
vecteurs de paramètres acoustiques en suivant les étapes données dans la figure (voir
Fig.1.12).

Signal

Échantillonnage

Pré- accentuation

Segmentation en trame

Multiplication par une


fenêtre (Hamming)

Calcul des coefficients


(LPCC, MFCC,…)

Fig.1.12 Les étapes d’extraction des paramètres acoustiques.

Il existe plusieurs types de coefficients avec lesquels le signal de parole est paramétré.

Les plus utilisés sont la coefficients LPC [56], LPCC (Linear Predictive Cepstral
Coefficients) [57], les coefficients PLP (Perceptual Linear Predictive) [58] et les coefficients
MFCC (Mel Frequency Cepstral Coefficients)[57].

21
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

En reconnaissance du locuteur, les paramètres extraits doivent être :

- pertinents : extraits de mesures suffisamment fines, ils doivent être précis mais leur nombre
doit rester raisonnable afin de ne pas avoir de coût de calcul trop important dans le module
de décodage.

- discriminants : ils doivent donner une représentation caractéristique des sons de base et les
rendre facilement séparables.

- robustes : ils ne doivent pas être trop sensibles à des variations de niveau sonore ou à un
bruit de fond. Il existe dans la littérature différentes méthodes de paramétrisation du signal
vocal.

1.7.1. L’analyse LPC (Linear Predictive Coding)

Cette méthode est basée sur les connaissances en production de la parole. La plus connue est
l’analyse LPC dans laquelle le système de production de la parole est modélisé par un filtre
Auto Régressif (AR) [59].

L’analyse LPC a été prouvée être efficace pour la représentation du signal de parole, sous
forme mathématique. LPC est un outil utile pour l'extraction de caractéristiques, que l'appareil
vocal peut être modélisé et analysé avec précision. Des études ont montré que l'échantillon de
parole actuel est fortement corrélé à l'échantillon précédent, et aux échantillons qui précédent
immédiatement l'échantillon précédent [60]. Les coefficients LPC sont générées par la
combinaison linéaire des échantillons de parole, à l'aide de l'auto-corrélation des échantillons
passées de signal de parole, ou la méthode de auto-variance qui minimise la somme des carrés
des différences entre l'échantillon de parole prédit et réel.
M
x (n)  a1 x(n  1)  a2 x(n  2)  ...aM x(n  M )   ai x(n  i)
~ (1.15)
i 1

~
x (n) est l’échantillon prédit basé sur la sommation des échantillons précédents. a sont les
i

coefficients de prédiction linéaire. M est le nombre de coefficients et n est l'échantillon.

L'erreur entre l'échantillon réel et la prédiction peut alors être exprimée par

 (n)  x(n)  ~
x (n) (1.16)

M
 (n)  x(n)   ai x(n  i) (1.17)
i 1

22
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

M
x(n)   ai x(n  i)   (n) (1.18)
i 1

L'échantillon de parole peut alors être reconstitué avec précision à l'aide des coefficients a i et
de l'erreur résiduelle  (n) .  (n) peut être représentée par l’expression suivante dans le
domaine z.
M
A( z )  1   ai z i (1.19)
i 1

La figure ci-dessous montre le filtre d'analyse

 (n)

Fig.1.13 Filtre d'analyse de la parole

La fonction de transfert H (z ) peut être exprimée comme une fonction de l'ensemble des
pôles, où G représente le gain du système.

G
H ( z)  M
(1.20)
1   ai z i

i 1

La figure ci-dessous montre le filtre de synthèse de la parole

Fig. 1.14 Filtre de synthèse de la parole

23
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Atal dans ses travaux [56], mentionne que le modèle LPC peut modéliser plus adéquatement
la parole en faisant passer une impulsion d'excitation variant dans le temps à travers tous les
pôles de filtre, à l'aide coefficients LP. LPC est considérée comme une méthode qui fournit
une bonne estimation de l'enveloppe spectrale du conduit vocal, et elle est importante dans
l'analyse de la parole en raison de la précision et la rapidité, avec laquelle elle peut être
dérivée. Les vecteurs de caractéristiques sont calculés par LPC sur chaque trame. Les
coefficients utilisés pour représenter la trame varient généralement de 10 à 20 en fonction de
l'échantillon de parole, l'application et le nombre de pôles dans le modèle. Cependant, LPC a
aussi des inconvénients. Tout d'abord, LPC analyse linéairement le signal de parole à toutes
les gammes de fréquence qui est incompatible avec la perception auditive de l'être humain.
Deuxièmement, LPC est très sensible au bruit provenant de l'environnement qui peut
provoquer des erreurs dans la modélisation de locuteur ou de parole.

1.7.1.1. Extraction des coefficients LPC

1.7.1.1.1. Méthode d’autocorrélation

La méthode d’auto -corrélation garantit la stabilité du filtre LP. Les hypothèses de cette
méthode sont les suivantes :

- Le signal doit être segmenté en trames, d’où l’opération de fenêtrage.

- Chaque échantillon peut être prédit approximativement à partir des échantillons précédents.

Ceci est valable pour toutes les valeurs du temps ; (  n   ).

L’erreur quadratique totale entre le signal fenêtré s w (n ) et le signal prédit par le modèle est
minimisée sur l’ensemble des échantillons. La fonction d’auto –corrélation du signal fenêtré
s w (n ) est :

N 1
R(i )   s w (n).s(n  i) avec 1  i  p (1.26)
n 1

La fonction d’auto –corrélation est une fonction paire, donc :

R(i)  R(i). (1.22)

Pour trouver les coefficients du filtre LPC, l’énergie du résiduel de prédiction doit être
minimisée sur l’intervalle fini 0  n  N  1.

24
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

  p
E  e 2 ( n) 
n  
 [sw (n)   ak sw (n  k )]2
n   k 1
(1.23)

Cette erreur peut être minimisée en annulant les dérivées partielles par rapport aux
coefficients du filtre.

E
 0 pour 1  k  p (1.24)
a k

On obtient p équation linéaire avec p coefficients inconnus a k :

p  

 ak
k 1

n  
s w (n  i ) s w (n  k )  s
n  
w (n  i) s w (n). tel que 1  i  p (1.25)

Alors, les équations linéaires peuvent être écrites sous la forme :


p

 R( i  k )a
k 1
k R(i). tel que 1  i  p (1.26)

La forme matricielle de l’ensemble des équations linéaires (1.26) est représenté par :

[R]×[a] = [v]. Elle peut être réécrite comme suit :

 R(0) R(1) ... R( p  1)   a1   R (1) 


 R(1) a  
 R(0) ... R( p  2)  2   R ( 2) 

 ... ... ... ...   ..  =  ..  (1.27)
     
 ... ... ... ...   ..   .. 
 R( p  1) R( p  2) R(0)   a p   R ( p ) 
...  

La matrice d’auto –corrélation pxp obtenue est symétrique dont les éléments de la diagonale
sont égaux, c’est la matrice de Toeplitz . Ce qui nous permet de trouver les coefficients de
prédiction minimisant la moyennes quadratique de l’erreur de prédiction par l’algorithme de
Levinson-Durbin [56].

1.7.1.1.2. Méthode de covariance

La méthode de covariance diffère de celle de l’auto–corrélation dans l’emplacement de la


fenêtre d’analyse. Dans cette méthode, c’est le signal erreur qui est fenêtré au lieu du signal de
parole, de façon à ce que l’énergie à minimiser soit :
 
E   ew (n)   e 2 (n) w(n).
2
(1.28)
n  n  

25
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

En annulant les dérivées partielles en utilisant l’Equation (1.28) on obtient p équations


linéaires :
p
 ak (i, k )  (i,0) pour 1  i  p (1.29)
k 1

Où la fonction de covariance est :



(i, k )   w(n)s(n  i)s(n  k ). (1.30)
n  

On peut exprimer les p équations, sous la forme :

a   (1.31)

  (1,1) (1,2) ...  (1, p)   a1    (1) 


 (2,1)  (2,2) a  
 ... (2, p)   2    ( 2) 

 ... ... ... ...   ..  =  ..  (1.32)
     
 ... ... ... ...   ..   .. 
( p  1) ( p,2) ( p, p)  a p   ( p )
...  

tel que (i)  (i,0) pour 1 i  p

La matrice  n’est pas une matrice de Toeplitz, et ne garantit pas la stabilité du filtre
LPC, elle est symétrique et définie positive. Donc, la matrice de covariance peut être
décomposée en deux matrices ; l’une triangulaire inférieure L, l’autre triangulaire
supérieure U, telles que :

  L*U (1.33)

La décomposition de Cholesky peut être utilisée pour convertir la matrice de covariance


sous la forme :

  C *CT tel que C  L et C T  U . (1.34)

Le vecteur a est obtenu en résolvant d’abord l’équation

L* y   (1.35)

Puis ;

U *a  y (1.36)

26
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1.7.2. Paramètres LPCC

L’analyse LPCC (Linear Predictive Cepstral Coefficients) combine les avantages de l'analyse
LPC [59] et cepstrale [53], et améliore aussi la précision des caractéristiques obtenues pour la
reconnaissance du locuteur. LPCC [57] est une méthode qui fait un très bon lissage de
l’enveloppe spectrale du signal de parole, qui permet l'extraction de caractéristiques du
locuteur. Le schéma de principe de LPCC est indiqué sur la figure ci-dessous

A/D Pre-
accentuation
Signal de
Parole

fenêtrage LPC LPCC

Fig 1.15 Schéma de principe de LPCC

Les coefficients LPC sont transformés en coefficients cepstraux en utilisant la formule


récursive suivante :

c1  a1
n 1
k
c n  a n   (1  )a k c n k , 1 n  p (1.37)
k 1 n
où c i et a i sont les i ième coefficients de cepstre et de coefficients de prédiction linéaire (LPC),
respectivement.

1.7.3. Paramètres MFCC

Les coefficients MFCC (Mel-Frequency Cepstral Coefficients) [55],[57] sont des coefficients
cepstraux très souvent utilisés en reconnaissance automatique de la parole et du locuteur. Le
codage MFCC utilise une échelle fréquentielle non-linéaire ou échelle Mel.

La fréquence Mel-échelle est définie par:

 f 
B( f )  2595 log 101   (1.38)
 700 

Où f est la fréquence en Hz, B(f) est la fréquence Mel-échelle de f.

27
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

L'intérêt de l'échelle Mel est d'être assez proche d'échelles issues d'études sur la perception
sonore et sur les bandes passantes critiques de l’oreille.

Fig 1.16 Mel échelle

Le calcul des paramètres MFCC se réalise de la façon suivante (voir Fig.1.17) :

Signal

Pré- accentuation

fenêtrage

DFT

Filtres de Mel-
fréquence

Log |. |

IDFT

MFCCs

Fig.1.17 calcul des MFCCs

28
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Après le filtre de pré- accentuation et la segmentation du signal en trames, une transformée de


Fourier discrète (DFT) est calculée pour faire passer le signal de parole dans le domaine
spectral.

Pour un signal discret {x[n]} avec 0≤n ≤N, où N est le nombre d'échantillons d'une fenêtre
d’analyse, Fs est la fréquence d'échantillonnage, la transformée de Fourier discrète (DFT)

S[k] est obtenue par:


N 1
s[k ]   x[n]e  j 2nk / N (1.39)
n 0

Le spectre du signal est multiplié avec des filtres triangulaires (voir Fig.1.18) dont les
bandes passantes sont équivalentes en domaine Mel-fréquence. Les points frontières B[m]
des filtres en mel-fréquence sont calculés ainsi :

B( f h )  B( f l )
B[m]  B( f l )  m 0  m  M 1 (1.40)
M 1

Où M est le nombre de filtres, fh est la fréquence la plus haute et fl est la fréquence la plus
basse pour le traitement du signal.

1.8

1.6

1.4

1.2
Amplitude

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140
Samples

Fig.1.18 Mel filterbanks

29
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Dans le domaine fréquentiel, les points f[m] discrets correspondants sont calculés par
l'équation :

N  B( f h )  B( f l ) 
f [m]    B 1  B( f l )  m  (1.41)
 Fs   M 1 

Où B -1 est la transformée de mel-fréquence en fréquence. B 1 (m)  700 * (10m / 2595  1) .

Le coefficient Hm[k] de chaque filtre est déterminé par le système suivant :

 0 si k  f [m  1]
 k  f [m  1]
 si f [m  1]  f [m]
 f [m]  f [m  1]
H m [k ]   (1.42)
f [m  1]  k
 si f [m]  k  f [m  1]
 f [m  1]  f [m]
 0 si k  f [m  1]

Pour un spectre lissé et stable, à la sortie des filtres un logarithme de spectre d'amplitude est
calculé :

 N 1 
E[m]  log  S[k ] H m [k ] 0mM
2
(1.43)
 k 0 

Les coefficients cepstraux de mel-fréquence (MFCCs) seront obtenus par une transformée
de cosinus discrète (permet d'obtenir des coefficients peu corrélés) à partir des coefficients
aux sorties des filtres :

 1 
M 1  n(m  ) 
c[n]   E[m] cos 2  0nM (1.44)
m 0  M 
 
 

Une douzaine de coefficient MFCCs sont généralement considérés comme suffisants pour
les expériences de reconnaissance de la parole.

30
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Afin de prendre en compte la dynamique du signal, nous ajoutons aux paramètres MFCC les
coefficients différentiels (ou coefficients delta) du premier et du second ordre (voir
Fig.1.19).

Soit le vecteur acoustique à N composantes MFCCs Ct  ct1 , ct2 ,...., ctN . Les  
coefficients delta de premier ordre sont alors estimés par :

 KC t
Ct  K  L
L
(1.45)
K
K  L
2

Les coefficients du second ordre sont calculés en itérant deux fois l’expression (1.43)

F
Extraction des
paramètres C

Fig.1.19 Calcul des dérivées premières et secondes de coefficients MFCC

31
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1.7.4 Paramètres PLP (Perceptual Linear Prediction)

L’étude expérimentale a conduit à la notion de bande critique: des signaux dont la fréquence
se situe à l’intérieur d’une bande critique, influent sur la perception de signaux situés dans la
même bande, mais n’influent pas à l’extérieur de cette bande.

Une bande critique peut être considérée comme un filtre passe-bande, dont la réponse en
fréquence correspond approximativement à une courbe d’accord d’une fibre nerveuse
auditive.

La méthode LP identifie uniformément le spectre sur toutes les fréquences de la bande


audible. Or cette propriété est loin d’être vérifiée pour l’oreille humaine, car il a été établi que
celle-ci est plus sensible aux fréquences situées au milieu de la bande d’analyse du spectre.

Ainsi, il est possible que certains détails spectraux importants du spectre ne soient pas pris en
compte par l’analyse LP, ou encore qu’ils prennent une importance majeure sans qu’ils soient
physiologiquement pris en compte par l’oreille.

L’analyse PLP [58] permet de résoudre ce problème. Elle permet d’estimer les paramètres du
filtre auto-régressif tout pôle, modélisant au mieux le spectre auditif.

Le processus de calcul des coefficients PLP peut être décrit par la figure suivante:

Mise en forme Analyse Bandes critique


Signal de parole spectral
du signal Passage a l’échelle
2
FFT et l l Bark

Calcul des Modélisation Loi de Puissance


autorégressive cubique

Coefficients PLP LP Isotonie +


Coefficients compression

Fig.1.20 Le processus de calcul des coefficients PLP

32
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Après une mise en forme du signal de parole, le spectre de puissance P( ) est calculé.
Ensuite, un passage de l’échelle de fréquence usuelle à l’échelle de Bark est effectué en
utilisant la relation suivante :

    
0.5

( )  6 ln   ( )  1 
2
(1.46)
 1200  1200  

 représente la fréquence angulaire exprimée en rd/s et  la fréquence de Bark.

Ce passage à l’échelle Bark, permet d’approximer de manière grossière ce que nous savons de
la forme des filtres auditifs. Elle est approximativement constante le long de l’échelle de
Bark. Le spectre de puissance dans l’échelle de Bark est convolué avec le spectre de
puissance de la courbe de bande critique en utilisant l’équation suivante:

 0   1.3 
10 2.5(   0.5)  1.3    0.5
 
 ()   1 pour  0.5    2.5  (1.47)
10 2.5(  0.5) 0.5    2.5 
 
0   2.5 

Cette courbe de masquage est une approximation de la courbe de masquage asymétrique de


Schroeder.

On essaye ensuite d’approximer la sensibilité de l’oreille humaine à différentes fréquences,


par l’intermédiaire d’une fonction de transfert E ( ) . Le spectre de puissance est multiplié par
cette fonction de transfert.

E()  E().() (1.48)

E ( )  [( 2  56.8 *10) 4 ] /[( 2  6.3 *106 ) * ( 2  0.38 *109 )] (1.49)

33
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

  2.3
(t )   P(   ). ()
  1.3
t (1.50)

La non linéarité entre l’intensité d’un son et sa force de perception par l’oreille est ensuite
approximée par une loi de puissance :

()  E ()0.33 (1.51)

L’étape finale, consiste en une modélisation autorégressive classique du spectre du modèle


auditif tout pôle, en calculant les coefficients autorégressifs du filtre.

L’analyse PLP est très similaire à l’analyse MFCC. La différence est que l’analyse PLP utilise
l’échelle Bark au lieu de l’échelle Mel et un modèle autorégressif tout pôle au lieu de la
transformée en cosinus discrète (DCT) pour le calcul des coefficients.

Cette méthode PLP a été par la suite améliorée pour résister à certaines conditions de bruit.
C’est ainsi que l’analyse RASTA-PLP [57], a été développée, RASTA étant l’acronyme de
RelAtive SpecTrAl.

La méthode PLP, dont l’algorithme repose sur des spectres à court terme de la parole, résiste
difficilement aux contraintes qui peuvent lui être imposées par la réponse fréquentielle d’un
canal de communication. Pour atténuer les effets de distorsion spectrale linéaire, Hermansky,
propose de modifier l’algorithme PLP en remplaçant le spectre à court terme par un spectre
estimé où chaque canal fréquentiel est modifié par passage à travers un filtre.

Cette modification est à la base de la méthode RASTA-PLP. La mise en œuvre de ce


filtrage (RASTA) permet, lorsqu’il est effectué dans le domaine spectral logarithmique, de
supprimer les composantes spectrales constantes, supprimant ainsi les effets de convolution
du canal de communication.

1.7.5. Les fonctions de retard de groupe (Group Delay Functions)

La représentation spectrale d'un signal de parole est complète seulement lorsqu’à la fois les
informations de l’amplitude et de phase sont spécifiées.

Etant donné un signal vocal x(n) , sa transformée de Fourier à court terme après une
pondération par une fenêtre  (n) est comme suit :

34
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres


X n ( )   x(m) (n  m)e
m  
 jm
(1. 52)

Cette transformée peut être écrite sous sa forme polaire comme ceci :

X n ( )  X n ( ) e jn ( ) (1.53)

Où X n ( ) et  n ( ) sont l’amplitude et la phase spectrale, respectivement.

La plupart des représentations spectrales à court terme de la parole, sont dérivées à partir du
spectre d'amplitude (par exemple [55], [58]). Le spectre de phase à court terme n’a pas été
utilisé généralement dans la représentation spectrale de la parole. Il y a deux raisons majeures
à cela [61], [62]. La première raison est que les premières études de reconnaissance de la
parole humaine, ont indiqué que la phase à court terme a peu contribué à l'intelligibilité de la
parole. La deuxième raison est que le spectre de phase est généralement disponible sous une
forme discontinue (ou enveloppé), entre ses valeurs principales (-π, π]. Pour le rendre une
fonction continue, le spectre de phase doit être déballé en utilisant une fonction à valeurs
multiples. C'est ce qu'on appelle la phase déballée (unwrapping) [63].

Cependant, l'extraction d'information à partir du spectre de phase n'est pas aussi simple que
l'extraction d'information à partir du spectre d'amplitude. À la différence du spectre
d'amplitude, le spectre de phase ne présente pas explicitement les résonances du système. En
outre, les difficultés de traitement du signal (tels que le spectre de phase déballé) sont
rencontrés en travaillant directement avec le spectre de phase [61], [62]. Les informations
contenues dans le spectre de phase ont été utilisées la plupart du temps par le traitement de sa
dérivée (i.e ; la dérivée de la phase), « la fonction de retard de groupe ».

La fonction de retard de groupe a été utilisée dans des applications comme la reconstruction
du signal [61], l'extraction de formants [64] et de l'estimation du spectre [65]. Les chercheurs
ont également mis au point des représentations classiques à court terme provenant de la
fonction de retard de groupe [66], [67]. En outre, il est démontré que pour des applications
telles que la reconnaissance vocale et locuteur, utilisant les paramètres extraits sur la base de
la phase et l’amplitude réalisent des performances comparables, et surtout une amélioration
dans les résultats lorsqu’en les combinant [67], [68].

Sachant que, la transformée de Fourier d’un signal de parole x(n) est donnée sous sa forme
polaire par l’équation (1.53). La fonction de retard de groupe  ( ) d'un signal x(n) est
définie comme la dérivée négative du spectre continu de la phase  ( ) :
35
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

d ( )
 ( )   (1.54)
d

A partir de l’équation (1.53), la fonction de retard de groupe peut être calculée directement
du signal comme suit :

X R ( ) Xˆ R ( )  X I ( ) Xˆ I ( )
 ( )  (1.55)
X ( )
2

Où R et I désignent respectivement, les parties réelle et imaginaire, x(n)  X ( ) et


xˆ (n)  Xˆ ( ) sont des transformées de Fourier, et xˆ (n)  nx(n) .

Il est démontré que pour un signal à phase minimale, le log de l’amplitude et le spectre
continu de la phase sont liés comme ceci [69] :

1
ln X ( )  c(0)   c(n) cos(n ) (1.56)
2 n 1


 ( )   c(n) sin(n ) (1.57)
n 1

Où c(n) sont des coefficients cepstraux. Prenons la dérivée négative de l’équation (1.57),
nous obtenons la fonction de retard de groupe pour un signal à phase minimal comme indiqué
dans l’expression ci-dessous :

 ( )   nc(n) cos(n ) (1.58)
n 1

Les équations (1.56) et (1.57) montrent que pour les signaux à phase minimale, le log de
l’amplitude et la phase sont liés à travers les coefficients cepstraux. Aussi, via l’équation
(1.58), nous constatons que la fonction de retard de groupe ce n’est qu’une transformée de
Fourier pondérée du spectre.

36
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1.7.5.1. La robustesse des fonctions de retard de groupe vis-à-vis du bruit additif

Soit x(n) un signal de parole à phase minimale non bruité, qui se dégrade par l’ajout d’un
bruit additif v(n) de variance  2 ( ) et de moyenne nulle. Le signal bruité y (n) peut être écrit
comme suit :

y(n)  x(n)  v(n) (1.59)

Appliquant la transformée de Fourier, nous avons

Y (n)  X (n)  V (n) (1.60)

Multipliant les entités dans l’expression ci-dessus par leurs conjugués complexes, nous
obtenons le spectre de puissance :

PY ( )  PX ( )   2 ( ) (1.61)

Où PY ( )  Y ( ) et PX ( )  X ( ) ; sachant que nous avons supposé que la moyenne


2 2

(l’espérance) du bruit est nulle.

Le spectre de puissance du signal de parole bruité qui en résulte, peut être lié à la puissance
de bruit et à la puissance de signal de parole en milieu calme, dans une des trois régions de
fréquence suivant les formules ci-dessous:

1. Les régions des hautes puissances du bruit où PX ( )   2 ( )

2. Les régions des hautes puissances du signal de parole non bruité où PX ( )   2 ( )

3. La région d’égalité de puissance PX ( )   2 ( )

Le spectre du signal de parole bruité, dans chaque cas de puissance est représentée par
PYn ( ), PYs ( ) et PYe ( ) respectivement. Ainsi, nous analysons la représentation de retard de
groupe de signal bruité dans les trois cas mentionnés ci-dessus.

Les régions des hautes puissances spectrales du bruit PX ( )   2 ( )

Dans ces régions, la puissance spectrale de bruit est plus grande que celle du signal de parole.
A partir de l’équation (1.61), nous avons
37
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

PYn ( )  PY ( )  , PX ( )   2 ( )
 PX ( )   2 ( ) (1.62)
PX ( )
  2 ( )(1  )
 2 ( )

En prenant les logarithmes des deux côtés, et en utilisant le développement en série de Taylor
P ( )
de ln(1  X2 ) , dont nous ignorons ensuite les termes d'ordre supérieur, nous obtenons
 ( )
l’expression suivante :

 P ( ) 
ln( PYn ( )  ln  2 ( )(1  X2
 ( ) 
)
 (1.63)
P ( )
 ln( 2 ( ))  X2
 ( )

Élargir PX ( ) comme une série de Fourier (Sachant que PX ( ) est une fonction périodique,
continue en fonction de  avec période 0  2 ),

1  d0  2 
ln( PYn ( )  ln( 2 ( ))     d k cos( k ) (1.64)
 ( )  2 k 1
2
0 

Où d k sont les coefficients de la série de Fourier de PX ( ) . Comme PX ( ) est une fonction


paire, les coefficients de terme sinus sont nuls.

Pour un signal à phase minimale, la fonction de retard de groupe peut être calculée en
fonction des coefficients cepstraux de log-amplitude du spectre, comme a été démontré dans
[61],

c0 
ln X ( )    ck cos(k )
2 k 1


 ( )   kck cos(k ) (1.65)
k 1

38
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Où  ( ) est la fonction de retard de groupe à minimum de phase, et c k sont les coefficients


cepstraux. A partir de l’équation (1.65), il peut être observé que la fonction de retard de
groupe est obtenue par log de la réponse en amplitude, en ignorant la composante continue, et
en multipliant chaque coefficient cepstral par k .

En appliquant cette observation dans l’équation (1.64), nous obtenons la fonction de retard de
groupe comme suit:

1 
 Y ( ) 
n  kdk cos(k )
 2 ( ) k 1
(1.66)

Cette expression montre que la fonction de retard de groupe est inversement proportionnelle
à la puissance de bruit (  2 ( ) ) dans les régions où la puissance de bruit est supérieur à celle
du signal.

Les régions des hautes puissances spectrales du signal de parole PYs ( ) :


PX ( )   2 ( )

En suivant les étapes similaires à celles de la section précédente, nous obtenons:

PYs ( )  PY ( )  , PX ( )   2 ( )
 PX ( )   2 ( ) (1.67)
 2 ( )
 PX ( )(1  )
PX ( )

  2 ( ) 
ln( PYs ( )  ln  PX ( )(1  )
 PX ( ) 
(1.68)
 2 ( )
 ln( PX ( )) 
PX ( )

1
Sachant que, PX ( ) est différente de zéro, continue et périodique en  . De même ,
PX ( )
1
continue et périodique en  . Donc, ln( PX ( )) et peuvent être développées en utilisant
PX ( )
la série de Fourier.

39
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

d0  2 e 
2 
ln( PYs ( )    d k cos( k )   2 ( )  0   ek cos( k )
2 k 1 0  2 k 1 0  (1.69)
d 0   2 ( )e0  2
   (d k  ek  2 ( )) cos( k )
2 k 1 0

En utilisant l'équation (1.65), et en suivant les étapes décrites dans le cas précédent, on obtient
l’expression de la fonction de retard de groupe en tant que :

 Y ( )   k (d k   2 ( )ek ) cos(k )
s (1.70)
k 1

1
où d k et ek sont les coefficients de la série de Fourier de ln( PX ( )) et respectivement.
PX ( )
Il est satisfaisant de constater que si  2 ( ) est négligeable, la fonction de retard de groupe
peut être exprimés uniquement en termes de logarithme du spectre de l’amplitude.

Les régions d’égalité de puissances PX ( )   2 ( )

Pour les fréquences  pour laquelle PX ( )   2 ( ) , on recommence avec l'équation (1.61),


et en suivant les étapes similaires comme avant, sauf que dans ce cas, nous n'avons pas besoin
de la série de Taylor :

PYe ( )  2PX ( ) (1.71)

ln( PYe ( ))  ln(2)  ln( PX ( )) (1.72)

Comme PX ( ) est différente de zéro, continue et périodique en  . Donc, ln( PX ( )) peut


être développée en utilisant la série de Fourier, pour obtenir la fonction de retard de groupe
comme suit :

 Y ( )   kdk cos(k )
e (1.73)
k 1

Où d k sont les coefficients de la série de Fourier de ln( PX ( )) .

40
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Donc, à partir des équations (1.66), (1.70) et (1.73), le calcul des fonctions de retard de
groupe est résumé en trois cas :

 1 

 2 ( )  kdk cos(k ) pour : PX ( )   2 ( )


 k 1

 
 ( )   k (d k   2 ( )ek ) cos(k ) pour : PX ( )   2 ( ) (1.74)
 k 1

 kdk cos(k ) pour : PX ( )   2 ( )
 k 1

De l'équation (1.74), en notant que la fonction de retard de groupe d'un signal à minimale de
phase (qui est corrompu par un bruit additif), est inversement proportionnelle à la puissance
de bruit à des fréquences correspondant aux régions où le bruit est élevé. Par contre, pour les
régions de faible bruit, la fonction de retard de groupe devient directement proportionnelle à
la puissance du signal. En d'autres termes, la fonction de retard de groupe a tendance à suivre
le spectre d'amplitude du signal, au lieu de celui du bruit. Ceci indique que la fonction de
retard de groupe d'un signal à phase minimale conserve les pics et vallées dans le spectre
d'amplitude, en présence d'un bruit additif. La représentation des fonctions de retard de
groupe est donc robuste au bruit.

1.7.5.2. La fonction de retard de groupe modifiée (MODGD)

Dans cette méthode, les zéros proches du cercle unité dans l'équation (1.55) sont supprimés
par un lissage du spectre d'amplitude X ( ) [69]. La fonction de retard de groupe modifiée
(MODGD)  m ( ) résultante est définie comme suit :

 s ( ) 
 m ( )  ( )(  s ( ) (1.75)
 s ( )

X R ( ) Xˆ R ( )  X I ( ) Xˆ I ( )
 s ( )  2
(1.76)
S ( )

41
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

Et S ( ) est le signal lissé de X ( ) ; les paramètres  et  sont introduits pour contrôler la


plage dynamique de la phase. La longueur de la fenêtre de lissage est commandée par le
paramètre lifterω.

1.7.5.3. Conversion des MODGD en vecteurs caractéristiques

Pour convertir le MODGD en paramètres caractéristiques, une opération de décorrélation est


réalisée en utilisant un traitement homomorphique. Ce résultat est obtenu par l'application
d'une transformée en cosinus (DCT) discrète sur MODGD. Ainsi, le MODGD est converti en
coefficients cepstraux .

L’algorithme d’extraction des paramètres (features) de MODGD est donné ci-dessous :

1. Calculer la DFT d’une trame de parole x(n)  X (k ) .

2. Calculer la DFT d’une trame de signal nx(n)  Xˆ (k ) .

3. Calculer la version lissée S (k ) du spectre X (k ) . Le paramètre lifterω est utilisé pour


contrôler la longueur de la fenêtre de lissage.

4. Calculer MODGD :

 s ( ) 
 m ( )  ( )(  s ( )
 s ( )

X R ( ) Xˆ R ( )  X I ( ) Xˆ I ( )
 s ( )  2
S ( )

5. Convertir MODGD en coefficients cepstraux , en utilisant DCT :


N f 1
c ( n)  
k 0
m (k ) cos(n(2k  1) / N f ) 0  n  Nc

Où N f est la taille de DFT et N c est le nombre des coefficients cepstraux.

42
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres

1.8. Conclusion

L’objet de cette partie est le traitement numérique de la parole produite par l’être humain, en
vue de son utilisation (la parole) en reconnaissance automatique du locuteur. Autrement dit,
utiliser la parole comme étant une modalité biométrique, pour reconnaitre ou authentifier la
personne sensée de la produire. Donc ce chapitre a été consacré, à la recherche et l’étude des
paramètres acoustiques, caractérisant mieux le locuteur, et qui sont robustes à tous types de
bruit (bruits liés à l’environnement, bruit de la communication, état de santé de
locuteur…etc.). Ainsi, les techniques de prétraitement acoustique qui sont insérées dans les
chaines d’extraction de ces vecteurs caractéristiques, afin d’assurer leurs robustesse aux
bruits, et aussi leurs bonne discrimination entre locuteurs ; à savoir la détection de l’activité
vocale (VAD) et le rehaussement de la parole. Aussi nous avons montré dans cette étude, que
les paramètres acoustiques du locuteur peuvent être extraits, soit à partir de l’amplitude
spectral du signal de parole, comme le cas de MFCC, LPC, PLP, LPCC, etc., ou à partir de la
phase du signal, comme le cas de MODGDC’s (Modified Group Delay Coefficients). Donc
cela, va nous permettre de voir les avantages et les inconvénients des uns (MFCC, LPC, PLP,
LPCC) par-rapport aux autres (MODGDC’s), dans le chapitre des résultats expérimentaux.

43
Chapitre 2

Reconnaissance Automatique du
Locuteur (RAL)
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Chapitre 2

Reconnaissance Automatique du Locuteur


(RAL)

2.1. Introduction

Le problème de la reconnaissance Automatique du locuteur [70], est lié plus


particulièrement au problème de l’identification et la vérification. La Reconnaissance
Automatique du Locuteur (RAL) consiste à reconnaitre l’identité d’une personne par
l’analyse de sa voix.
Et depuis quelque temps, la RAL a fait l’objet d’un intérêt accru au même titre que les
méthodes de reconnaissance biométrique ; à savoir l’analyse par l’empreinte digitale et
génétique. Certes, la RAL ne figure pas parmi les techniques biométriques les plus fiables,
mais elle présente un certain nombre de qualités qui la distingue d’autres méthodes,
notamment en termes de facilité de déploiement, la simplicité d’enregistrement audio, le
cout réduit du matériel impliqué et enfin, la RAL offre l’unique avantage d’être utilisable à
distance. Cependant, le principe même de la RAL induit un certain nombre de difficultés
auxquelles il faut faire face, lors de la mise en œuvre d’un système de reconnaissance du
locuteur. En effet, la capacité à identifier les locuteurs repose sur les différences entre les
voix de divers locuteurs. Mais cette variabilité interlocuteurs se retrouve en concurrence
avec la variabilité intra-locuteur (changement de la voix d’un même locuteur entre deux
enregistrements, volontaire (dans le cas d’une tentative d’imposture) ou non), la variabilité
de l’environnement d’opération (bruit, niveau d’enregistrement) et du canal de transmission
du signal de parole (par exemple lors d’une transmission par téléphone).

2.2. Les différentes tâches en RAL

L'identification Automatique du Locuteur (IAL) et la Vérification Automatique du Locuteur


(VAL) [71], sont les deux tâches les plus répandues dans le domaine de la RAL.
Récemment, pour des applications plus spécifiques, d’autres tâches ont vu le jour comme
l'indexation du locuteur qui consiste à indiquer à quel moment chaque locuteur, intervenant
dans une conversation a pris la parole. Une application connexe est la détection d'un locuteur
lors d'une conversation multiple. Dans cette section, nous allons décrire principalement les
deux tâches principales de la RAL objet de notre étude : IAL et VAL.

2.2.1. Identification automatique du locuteur (IAL)

L’Identification Automatique du Locuteur (IAL) [72], consiste à déterminer à partir d’un


ensemble de locuteurs référencés dans le système, l’identité du locuteur présent dans un
signal vocal (signal de test) [73], [74]. Pour cela, le système calcule des mesures de
similarités entre ce signal et tous les modèles des locuteurs de la base. Deux conditions
d’identification sont connues : milieu fermé et milieu ouvert. Dans le cas où le système doit
fournir un ensemble d'au moins un locuteur, on parle d'une identification en milieu fermé.

44
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Mais dans certaines applications, le système peut être amené à fournir un ensemble vide :
c'est l'identification en milieu ouvert. En milieu fermé, chaque accès de test est comparé à
tous les modèles des locuteurs référencés dans le système. L’identité du locuteur possédant
la référence la plus proche est émise en sortie du système.

Modèle Modèle Modèle


Du client 11
du client Du client 22
du client Du client N
du client N

Signal de parole

Extraction Mesure de Normalisation


De paramètres similarité De scores Décision Identité

Fig.2.1 Schéma modulaire d'un système d'IAL.

2.2.2. Vérification automatique du locuteur (VAL)

Un système de vérification automatique du locuteur (VAL), doit vérifier à partir d'un signal
de parole et d'une identité proclamée qui appartient à la base de données, si le signal présenté
provient de l'identité proclamée ou non [70], [71]. Pour cela, le système calcule une mesure de
similarité entre le signal de test produit (identité prétendue) et une forme particulière de la
base d’apprentissage (identité réelle).
En cas de concordance entre l’identité prétendue et l’identité réelle, nous pouvons dire que
l’identité du locuteur a été vérifiée. Dans le cas contraire, le locuteur candidat du test est
imposteur.

Identité proclamée i

Modèle
Modèle
Du
du client i

Signal de parole

Extraction Mesure de Normalisation


De paramètres similarité De scores Décision Acceptation/rejet

Fig.2.2 Schéma modulaire d'un système de VAL.

2.2.3. Détection de locuteurs

La détection de locuteurs dans un flux audio est une variante de la VAL [75]. Sa particularité
est de considérer un flux audio composé de séquences de parole produites par plusieurs
locuteurs (conversations, débats, conférences, étc.). Dans ce contexte, la tache de détection,
consiste à déterminer si un locuteur donné intervient ou non dans le document audio [75].
Dans le cas d'un flux audio mono-locuteur, la tache de détection se résume à la tache de
vérification.

45
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

2.2.4. Indexation automatique des documents audio en locuteurs

L’indexation en locuteurs permet de déterminer les temps de parole des individus dans un
signal audio. Elle s’intéresse à l’identité du locuteur dans le but de savoir qui parle et quand.
En pratique, les documents audio sont représentés par leurs modèles respectifs. La phase de
recherche du système d’indexation consiste, généralement, à évaluer des mesures de similarité
entre la requête et ces différents modèles. Par ailleurs, le système d’indexation par locuteur
peut servir également comme étape préliminaire pour des tâches de transcription ou pour le
suivi de locuteurs.

Locuteur cible

Appels
Appels Comparaison entre contenant le
interceptés les modèles locuteur cible

Fichiers
enregistrés Modèles de Vérification
références de scores

Modèle du locuteur cible

Fig.2.3 Schéma modulaire d'un système d’indexation du locuteur [recueillie à partir d'internet].

2.2.5. La poursuite du locuteur

La poursuite du locuteur se fait avec un modèle du locuteur, elle consiste à déterminer quand
une personne parle dans une conversation. Elle est similaire à l’indexation en locuteur, à ceci
près que les locuteurs présents dans le signal sont connus par le système de RAL. Il s’agit
donc d’une simplification de la tâche d’indexation en locuteur.

2.3. Modes de reconnaissance automatique de locuteurs

2.3.1. Reconnaissance du locuteur en mode dépendant du texte

Dans les systèmes de RAL opérant en mode dépendant du texte, ce dernier (texte) est imposé
par le système. Les systèmes de reconnaissance du locuteur sur base de texte présenté ont été
développés en premier. Dans ce cas, à chaque accès, l’utilisateur sera invité par le système
(par exemple, sous forme de voix synthétique ou texte écrit) à prononcer un vocabulaire de
base, qui peut être très large ou simplement contenir les 10 chiffres qui seront utilisés pour
créer des séquences aléatoires. L’avantage de cette approche, est que l’utilisateur ne peut
prédire la phrase qu’il sera invité à prononcer, ce qui rend tout enregistrement inutilisable.

46
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

2.3.2. Reconnaissance du locuteur en mode indépendant du texte

Dans le cas de la reconnaissance du locuteur indépendante du texte, les mots ou les phrases
prononcés pendant l’utilisation ne peuvent pas être prédits.
En général, les systèmes de reconnaissance du locuteur dépendants du texte sont plus robustes
que les systèmes indépendants du texte. Malheureusement, dans les deux cas, ceux-ci sont
aussi sujets à fraude étant donné que pour toutes les applications typiques de contrôle d’accès
sur ligne téléphonique, la voix du locuteur (ainsi que son mot de passe dans le cas de systèmes
dépendant du texte) pourrait être saisi, enregistré et reproduit frauduleusement

2.4. Processus de reconnaissance automatique de locuteurs

2.4.1. Paramétrisation acoustique

Le processus de paramétrisation, consiste à extraire du signal de parole les informations


pertinentes en vue de la reconnaissance [21], [22]. Le signal de parole, de par sa complexité
(multitudes d'informations et redondance), ne peut être exploité directement. Une
représentation simplifiée du signal de parole est par conséquent nécessaire. Cette
représentation repose généralement sur des vecteurs de paramètres acoustiques, calculés
périodiquement sur le signal de parole (voir le chapitre précédent).

2.4.2. Méthodes d’apprentissage des données acoustiques

2.4.2.1. Méthodes basées sur la quantification vectorielle

Dans ce cas, l’idée générale est de représenter les caractéristiques spectrales de chaque
locuteur, sur base de quelques vecteurs acoustiques les plus représentatifs et obtenus par
quantification vectorielle.
Dans ce cas, le score d’une phrase d’entrée est défini comme la somme des distances de
chacun des vecteurs acoustiques de la séquence, par rapport au vecteur prototype le plus
proche dans l’ensemble de vecteurs prototypes associés au locuteur considéré (proclamé ou
faisant partie de la cohorte dans le cas de la normalisation) [76].
Une variante de cette approche consiste à définir deux ensembles de prototypes par locuteur,
respectivement pour les parties voisées et non-voisées (ainsi qu’un détecteur automatique de
voisement). Pour les parties voisées, le pitch peut alors également être utilisé dans la
détermination des prototypes et des distances. Evidemment, différentes méthodes de
pondération des paramètres acoustiques intervenant dans le calcul des distances ont été
largement testées.

47
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Fig.2.4 Principe de la quantification vectorielle

2.4.2.2. Méthodes basées sur Modèle de Mélange Gaussien (GMM)

Un modèle de mélange gaussien (usuellement abrégé par l'acronyme anglais GMM pour
Gaussian Mixture Model), est un modèle statistique exprimé selon une densité de mélange
[70], [77]. Elle sert usuellement à estimer paramétriquement la distribution de variables
aléatoires, en les modélisant comme une somme de plusieurs gaussiennes (appelées noyaux).
Il s'agit alors de déterminer la variance, la moyenne et l'amplitude de chaque gaussienne. Ces
paramètres sont optimisés selon un critère de maximum de vraisemblance (ML) [78] pour
approcher le plus possible la distribution recherchée. Cette procédure se fait le plus souvent
itérativement via l'algorithme espérance-maximisation (EM) [77].

Fig.2.5 trois gaussiennes forment une distribution de mélange [recueillies à partir d'internet]

48
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

2.4.2.3. Méthodes basées sur HMM entièrement connectés (ergodiques)

Dans ce cas, un modèle HMM [79] entièrement connecté est entraîné pour chaque locuteur.
Les états peuvent alors être définis de façon arbitraire et non supervisée, ou être associés à
des classes bien spécifiques (typiquement, des classes phonétiques ou mieux, des classes
phonétiques grossières de façon à réduire le nombre de paramètres). Finalement, quelques
contraintes temporelles seront généralement introduites dans le modèle, en imposant une
durée minimum pour chaque état. Plusieurs solutions relatives au nombre d’états de ces
modèles, ainsi que des densités de probabilités associées à chaque état, ont été proposées:
– Modèles HMM basés sur le critère de vraisemblance [80] et ayant plusieurs états à une seule
gaussienne, plusieurs états à multi gaussiennes, ou un seul état à multi gaussiennes. Certaines
méthodes discriminantes typiquement utilisées en reconnaissance du locuteur, ont également
été testées pour augmenter la discrimination entre locuteurs.

Fig.2.6 Modèle de Markov caché

2.4.2.4. Méthodes basées sur les machines à vecteurs de support (SVM)

Les machines à vecteurs de support ou séparateurs à vaste marge (en anglais Support Vector
Machine, SVM), sont un ensemble de techniques d'apprentissage supervisé destinées à
résoudre des problèmes de discrimination et de régression [81], [82], [83]. Les SVM sont une
généralisation des cas linéaires. Les SVM ont été développés dans les années 1990, à partir
des considérations théoriques de Vladimir Vapnik [84] sur le développement d'une théorie
statistique de l'apprentissage : la Théorie de Vapnik-Chervonenkis [85]. Les SVM ont
rapidement été adoptés pour leur capacité à travailler avec des données de
grandes dimensions, le faible nombre d'hyper paramètres, leurs garanties théoriques, et leurs
bons résultats en pratique. Les SVM ont été appliqués à de très nombreux domaines
(bioinformatique, recherche d'information, vision par ordinateur, finance,… etc.). Selon les
données, les performances des machines à vecteurs de support sont de même ordre, ou même
supérieures, à celles d'un réseau de neurones ou d'un modèle de mixture gaussienne.

49
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Fig.2.7 Machines à vecteurs de support (SVM)

2.5. Méthodologie d’évaluation d’un système RAL

En identification, un signal de test est comparé à toutes les références des locuteurs connus du
système, résultant en un ensemble de mesure de similarité (ou un ensemble de mesure de
distance) à l’entrée du processus de décision.
Aussi, la règle de décision consiste à choisir le locuteur dont la mesure de similarité est
maximale (ou minimale dans le cas de mesure de distance).
Pour l’évaluation des performances du système d’identification du locuteur, le taux de
classification correcte est souvent utilisé. Ce taux est le rapport entre le nombre des segments
correctement identifiés et le nombre total des segments de test.

Taux d’identification correct (%) =

Par contre l’évaluation des systèmes de vérification du locuteur repose sur l’analyse des deux
types d’erreurs qu’ils peuvent commettre :
– l’erreur de fausse acceptation (false acceptation en anglais), qui se produit lorsqu’un signal
test est déclaré correspondre au modèle de locuteur considéré, alors qu’il a été émis par un
autre locuteur ;
– l’erreur de faux rejet (false reject en anglais), qui se produit lorsqu’un test est déclaré
négatif, alors même que le signal testé correspond bien au locuteur considéré.
Il est à noter que le taux de fausse acceptation est également appelé taux de fausse alarme, et
que le taux de faux rejet est également appelé taux de non détection, ces appellations
renvoyant à la théorie de la vérification.
Les deux taux d’erreurs correspondants sont notés FA et FR respectivement. Ils dépendent
directement du choix du seuil de décision.

50
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Fig.2.8 Calcul du seuil de décision en fonction de taux d’erreur de fausse acceptation (FAR, ou FA) et taux
d’erreur de faux rejet (FRR ou FR) [86]

Un système avec un seuil de décision bas, aura tendance à accepter à tort de nombreux
signaux de test ne correspondant pas réellement aux modèles auxquels ils sont comparés,
générant ainsi un fort taux d’erreurs de fausse acceptation, mais un faible taux de faux rejet. A
l’inverse, un seuil de décision élevé entrainera l’échec de nombreux tests, avec un taux de
faux rejet élevé mais un faible taux de fausse acceptation. Le choix du seuil de décision
revient à trouver un compromis entre les deux taux d’erreurs. Les valeurs de FA et de FR
alors obtenues définissent le point de fonctionnement du système.
Les taux FA et FR étant tous les deux, des fonctions du seuil de décision, il est possible
d’exprimer l’un en fonction de l’autre (fonction qui est alors monotone et décroissante).
La courbe correspondante est généralement tracée en utilisant une échelle garantissante une
courbe linéaire, et de pente -1 si les distributions de scores clients et imposteurs sont toutes
deux gaussiennes et de même variance, et elle est appelée courbe DET (Detection error Trade-
off) [86]. Une telle courbe permet d’avoir un aperçu des performances d’un système de
vérification dans diverses conditions d’utilisation. Les axes représentant les taux d’erreurs, un
meilleur système obtient une courbe plus proche de l’origine.
Ces caractéristiques font de la courbe DET l’outil privilégié d’évaluation, et surtout de
comparaison des performances des systèmes de vérification de locuteurs. Des courbes DET
sont systématiquement utilisées pour présenter les résultats de tels systèmes lors des
campagnes d’évaluation NIST [87], [88]. La figure (Fig.2.9) montre un exemple de courbe
DET.
Cependant, au-delà du fonctionnement global d’un système que présente la courbe DET, il est
également intéressant d’avoir une mesure des performances de ce système à son point de
fonctionnement (une fois le seuil de décision fixé), pour une application précise. Cette mesure
est réalisée par l’utilisation d’une fonction de cout (DCF; Detection Cost Function) qui prend
en compte les deux taux d’erreurs et le cout qui leur est associé dans le cadre de l’application
visée (les applications à visée sécuritaire donnant par exemple un cout très élevé à l’erreur de
fausse acceptation) :

C  CFA  FA  CFR FR (2.1)

51
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

L’utilisation de cette fonction permet de représenter par un simple nombre les performances
du système pour une application donnée. Le minimum de la fonction de cout est atteint pour
un seuil de décision réglé correctement pour l’application visée. La comparaison de ce
minimum à la valeur obtenue au point de fonctionnement réel permet dès lors d’évaluer la
qualité du choix du seuil de décision.
Le classement des systèmes de vérification du locuteur lors des campagnes d’évaluation
NIST, se fait par rapport à la valeur obtenue au point de fonctionnement pour une fonction de
cout qui définit C FA et C FR de manière un peu plus fine. Chacune de ces deux valeurs, est vue
comme le produit du cout de l’erreur considérée et de la probabilité a priori d’être en présence
d’un test susceptible de générer ce type d’erreur :

CFA  CFA
NIST
 Pimposteur (2.2)

CFR  CFR
NIST
 Pclient (2.3)

Où Pimposteur est la probabilité a priori d’être en présence d’un test de type imposteur et Pclient
celle d’être en présence d’un test de type client. Les valeurs typiquement utilisées au cours
des années sont : C FA NIST
 1 , C FR
NIST
 10 , Pimposteur  0.99 et Pclient  0.01 , soit des valeurs pour
C FA et C FR de 0, 99 et 1, respectivement.
Une fonction de cout particulière régulièrement utilisée est la demi-erreur totale (HTER ; Half
Total Error Rate ), qui est la moyenne arithmétique de FA et FR (soit C FA = C FR = 0.5).
Enfin, une autre mesure fréquemment utilisée pour évaluer les performances d’un système est
le taux d’égale erreur (EER ; Equal Error Rate ), qui correspond au point pour lequel
FA  FR . Il peut être trouvé très facilement sur une courbe DET par l’intersection avec la
première diagonale. L’EER permet d’exprimer facilement la capacité d’un système de
vérification à séparer les clients des imposteurs.

52
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

40

False Negative Rate (FNR) [%]


20

10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Positive Rate (FPR) [%]
Fig.2.9 Exemple d’une courbe DET

2.6. Les approches de normalisation et de fusion de scores

2.6.1. Normalisation de scores

La variabilité intersessions [89], [90] induit dans la phase de test, une variabilité des scores
de vérification. Cependant, le seuil de décision qui est fixé empiriquement lors de la phase
développement, est commun à toutes les conditions de test rencontrées et il est indépendant du
locuteur. De ce fait, on a introduit des techniques de normalisation des scores [91] pour
renforcer la robustesse des systèmes de reconnaissance. Ces techniques permettent d'atténuer
la variabilité des scores (non compensée lors de la paramétrisation et modélisation), rendant
finalement différents scores comparables. Elles se basent sur l'analyse des distributions des
scores des clients et des imposteurs. Généralement, la normalisation suit la forme suivante :

~ s  I
s (2.4)
I

où ~s est le score normalisé, s le score original, et  I et  I sont respectivement la moyenne


et l’écart type des scores imposteurs. Les techniques les plus couramment utilisées sont la
zéro normalisation “Z-norm“ [92] et le test normalisation “T-norm “ [91], elles se
différencient par l'estimation des  I et  I . Leurs combinaisons, une Z-norm suivie par une
T-norm et inversement, sont respectivement appelées la ZT-norm et la TZ-norm [55].

53
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

o Z-norm

La Z-norm estime  I ét  I en calculant les scores d'appariement, entre le locuteur client et un


ensemble d'énoncés dits par des personnes imposteurs. C'est une normalisation dépendante du
locuteur, qui ne nécessite pas la connaissance des énoncés de test. Le calcul de  I et  I peut
se faire donc avant la phase d'évaluation.
Une variante de la Z-norm, appelée H-norm pour ‘handset normalization’, a été proposée
dans [77]. Cette technique de normalisation prend en compte l'information du type du canal.

o T-norm

La T-norm utilise les énoncés des locuteurs imposteurs pour leur apprendre des modèles. On
estime  I ét  I en calculant les scores d'appariement entre ces modèles des imposteurs et le
segment de test. C'est une normalisation dépendante de l'énoncé de test, qui ne peut se faire
que durant la phase d'évaluation. La T-norm permet de compenser les variations des
conditions d'enregistrement de l'énoncé.
Des expériences menées dans [93] ont montré que la Z-norm et T-norm ont des effets de
rotation sur la courbe DET qui se font dans deux directions opposées. Quand on a un point de
fonctionnement du système qui se situe dans la zone à faibles taux de fausses acceptations, la
T-norm améliore les performances de vérification.
Alors que la Z-norm améliore les performances du système, quand on a un point de
fonctionnement se situant dans la zone à faibles taux de faux rejets.

o S-norm

La symmetric normalization (S-norm) [89], est une technique récente de normalisation qui
normalise le score original en appariant à la fois l'information d'apprentissage et de test avec
la cohorte (la liste) d'imposteurs :

~ s   Ia s   It
s  (2.5)
I
a t
I

Où les statistiques des scores imposteurs  Ia et  Ia invoquent l'information d'apprentissage,


tandis que  It et  It invoquent celle du test.

o Normalisation de scores par remise à l'échelle

Les méthodes de normalisation de scores par remise à l'échelle, ont pour objectif de
transformer chaque score dans un intervalle commun. Chaque score issu de chaque sous-
système est traité séparément par des translations et/ou changements d'échelle, pour le
transformer dans un intervalle défini et identique pour chaque sous-système.
Les méthodes de normalisation de scores par remise à l'échelle les plus utilisées sont :

 La méthode du Min-Max telle que :

~ S  min( S )
S (2.6)
max( S )  min( S )

54
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Les paramètres min et max sont déterminés pour chaque sous-système sur une base de
~
développement. La méthode du Minmax met chaque score normalisé S dans l'intervalle
[0;1] sous forme de score de similarité, c'est-à-dire, avec les clients proches de la borne
supérieure (1) et les imposteurs proches de la borne inférieure (0).

Normalisation
Min-max

Fig.2.10 Normalisation Min-max

 La méthode tangente hyperbolique "Tanh" telle que

~ 1 S  
S  tanh(0.001 )  1 (2.7)
2  

Les paramètres  et  (respectivement la moyenne et l'écart-type des scores) sont


déterminés pour chaque sous-système sur une base de développement. La méthode
~
tangente hyperbolique [94] met chaque score normalisé S dans l'intervalle [0;1].

2.7. La Fusions de scores

Dans le cadre de la tache de reconnaissance du locuteur, il existe deux approches distinctes


de la fusion au niveau des scores: l’approche de combinaison et l'approche de classification.
La première approche, formule la fusion de scores comme un problème de combinaison. Dans
ce cas, il est nécessaire de faire une normalisation de scores avant la fusion. Dans ces

55
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

méthodes, les scores sont combinés pour générer un score unique, qui est ensuite utilisé pour
former la décision finale. Dans l’approche de la classification, les scores sont considérés
comme des caractéristiques d'entrée pour une seconde classification de forme, entre deux
classes, soit client ou imposteur. Pour cette raison, les vecteurs de caractéristiques sont créés à
partir des scores obtenus avec différentes méthodes. Ces vecteurs de caractéristiques sont
utilisés pour apprendre à chaque locuteur deux modèles : un modèle de client à partir des
scores obtenus par le locuteur avec ses des données de parole, et un modèle d’imposteur
obtenu avec les autres données de parole. Ces modèles sont utilisés par la suite pour prendre
la décision finale : accepter en tant que client ou de rejeter comme un imposteur.
Contrairement à l'approche de combinaison, ces classificateurs sont capables d'apprendre la
frontière de décision, indépendamment de la façon dont le vecteur est généré, de sorte que les
scores de différentes modalités peuvent être non homogènes et pas de normalisation avant
l'utilisation du classificateur dans le processus de fusion.

Extraction des Système 1


paramètres
S
i
g Extraction des Système 2
n paramètres
a
l Extraction des Système 3 vers fusion
paramètres de scores
d
e
p
a
r
o
Extraction des Système N
l paramètres
e

Fig.2.11 Système de fusion de scores

Dans cette partie, Nous proposons plusieurs types de méthodes de combinaison qui sont aussi
les plus populaires comme techniques de fusion des scores [95], [96].

 Somme simple, est la technique de fusion la plus connue et qui est basée sur les
approches de combinaison. Tous les scores normalisés S i des N sous-systèmes sont
directement sommés, résultant en un score final S final :

N
S final   Si (2.8)
i 1

56
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

 Dans la règle du produit, le score S final résultant est obtenu par multipliant les scores
S i normalisés de chaque sous-système:

N
S final   Si (2.9)
i 1

 D'autres approches de fusion sont basées sur les valeurs extrêmes de N scores
normalisés des sous-systèmes à savoir ; l’approche Max, qui prend le maximum de
tous les N scores des sous-systèmes comme score final, tandis que la règle Min
prend la valeur minimale:

S final  max( S1 , S2 ,..., S N ) (2.10)

S final  min( S1 , S2 ,..., S N ) (2.11)

Il y a aussi des méthodes plus avancées de combinaison qui nécessitent le réglage de


paramètres tels que la somme pondérée:

N
S final   wi Si (2.12)
i 1

N
La somme pondérée est utilisée pour donner des différents poids wi (  wi  1 ) à
i 1

chacun des N sous-systèmes en fonction de leur performance individuelle.

Par contre, parmi les méthodes de classification basées sur des modèles mathématiques, on
peut citer la fusion basée sur la régression logistique [97], SVM,…, etc.
La fusion linéaire du score basée sur la régression logistique, est généralement mise en œuvre
comme une combinaison linéaire pondérée des scores de classificateurs de base, où les poids
combinés sont estimés en utilisant un modèle de régression logistique [97]. Le problème de
cette approche se résume dans le calcul des poids de la régression logistique.

Donc, on suppose que, pendant la phase de développement, on doit accéder à un ensemble de


développement D  (si , yi ), i  1,2,..., N dev  contenant N dev vecteurs de scores issus de L
classificateurs de base. Ici, y i  0,1 indique si la parole correspondante provient d’un
locuteur cible (client) y i  1 , ou d'un imposteur, y i  0 . Bien qu'il ne soit pas toujours le cas
au cours de l’évaluation NIST SRE, ici nous supposons que ces étiquettes ne contiennent
aucune erreur. Nous considérons une fusion linéaire de la forme :

f w ( s)  w0  l 1 wl sl  wT s
L
(2.13)

où w  (w0 , w1 ,..., wL ) T contient les coefficients de pondération w1 , w2 ,..., wL des


classificateurs (composante discriminative) et le biais w0 (composant de calibration). Le

57
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

vecteur de scores s  (1, s1 , s 2 ,..., s L ) T contient une constante 1 et les scores de sorties de
classificateurs de base.
Notre objectif est de trouver le vecteur de poids optimal ( w  ), pour lequel les erreurs de
classement sont réduites au minimum sur les données de développement, ainsi sur les données
d'évaluation qui sont cachées pour ( w  ). Ici, nous adoptons la fonction de coût de détection
(detection cost function, DCF) couramment utilisée dans les évaluations de NIST en
reconnaissance du locuteur.

DCF ( )  Cmiss Pmiss ( ) Ptar  C fa Pfa ( )(1  Ptar ) (2.14)

Ici, Pmiss ( ) et Pfa ( ) sont les probabilités de faux rejet et fausse alarme en fonction du seuil
de décision  , Ptar est la probabilité a priori d'un locuteur cible (vrai), C miss est le coût d'un
faux rejet et C fa est le coût d'une fausse alarme (fausse acceptation). Dans la vérification du
locuteur, l’équation (2.14) est utilisée pour calculer à la fois la actual (ActDCF) et minimum
(MinDCF). L’actuel coût (ActDCF) correspond à la valeur de DCF obtenu chaque fois que le
seuil de décision est fixé à une valeur déterminée à l’avance, tandis que MinDCF indique la
valeur minimale sur l'ensemble de test qui peut facilement être trouvée par une recherche
linéaire sur la plage de seuil  .
En théorie on peut optimiser l’équation (2.14) directement, par exemple en utilisant un réseau
de neurones [98]. Pour les raisons exposées ci-dessus, nous optimisons les poids en utilisant la
régression logistique qui est un modèle linéaire probabiliste, et qui est basé sur le fait que la
probabilité a posteriori de classe étiquetée représentant la classe client peut être écrite
comme :

p( y  1 s)  (1  exp  g (s)) 1 (2.15)

La fonction g (s) prend la forme W T s , lorsque les densités de probabilités conditionnelles


suivent des distributions exponentielles avec un paramètre de dispersion (par exemple de la
variance). Nous pouvons donc exprimer la partie postérieure de la classe client p( y  1 s)
comme suit ;

 
p( y  1 s)  (1  exp  W T s ) 1   (W T s) (2.16)

où  (.) est une fonction sigmoïde logistique. La probabilité a posteriori de la classe


imposteur est alors

p( y  0 s)  1  p(( y  1 s)   (W T s)
(2.17)

En utilisant le développement ci-dessus, nous sommes maintenant en mesure d'écrire la


fonction de vraisemblance pour le modèle de régression logistique [99]:

 
N dev
p( y / W )    (W T sn ) yn  (W T sn )1 y n (2.18)
n 1

58
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

où y est un vecteur de N dev dimension de toutes les étiquettes y n . Le maximum de


vraisemblance (ML) estimé de W peut-être trouvé en prenant le logarithme négatif de
l’équation (2.18), ce qui donne le coût d'entropie croisée [100] :

 
N dev
  yn ln(W T sn )  (1  yn ) ln  (W T sn ) (2.19)
n 1

Ceci est également connu comme le coût C llr dans [101]. Le minimum de l’équation (2.18) ne
peut pas avoir une solution optimale [100], mais elle est convexe. Donc, des méthodes
itératives de gradient descendant peuvent être utilisées pour trouver W * le plus optimale.
La formulation ci-dessus suppose que les coûts de faux rejet et fausse alarme sont égaux
(C miss  C fa ) et Ptar  0.5 . Pour re-calibrer le modèle en fonction des paramètres de coûts pré
spécifiés ( C miss , C fa and Ptar ), la modification suivante est utilisée [ 101 ] :

p( y  1 s)   (W T s  log it ( Peff ) (2.20)

où Peff est connu comme la probabilité a priori effective, qui résume les trois paramètres de
l'application dépendante en un seul paramètre, dont l’expression est donnée comme suit,

Peff  log it 1 (log it ( Ptar )  log( Cmiss C fa )) avec log it ( P)  log( P /(1  P)) (2.21)

En plus des paramètres DCF, le nombre des exemples positifs et négatifs dans l'ensemble de
développement pourraient être très déséquilibré. C'est le cas avec les évaluations de NIST.
Pour remédier à ce problème de déséquilibre de classe, le coût était encore modifié dans [102]
comme suit:

Peff Nt
1  Peff Nf

 log(1  e  log(1  e
W T si logitPeff W T s j logitPeff
Cwlr (W , D)  ) ) (2.22)
Nt i 1 Nf j 1

où N t et N f sont les tailles de vecteurs score de locuteur cible (client) et imposteur,


respectivement.

2.8. Domaines d'applications de la RAL

Dans ce paragraphe on donne quelques exemples d'applications de RAL, et que l'on peut
regrouper en trois catégories principales : applications en contrôle d’accès sur sites sensibles,
application dans le domaine sécuritaire et juridiques (notamment en sciences forensiques),
applications dans les systèmes de communication.

2.8.1. Applications sur l’accès restreint sécurisé à des sites sensibles

Cette catégorie concerne les applications qui se trouvent sur un site géographique particulier,
elles sont utilisées principalement pour limiter l'accès à des lieux privés. Voici quelques
exemples de ce type d'applications :

59
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

Verrouillage automatique: ces applications sont utilisées comme une sorte de verrous
électroniques comme par exemple la protection de domicile, garage, bâtiment, etc.
Validation des transactions sur site (comme contrôle supplémentaire au niveau des
distributeurs bancaires).
Accès aux lieux de production des usines : qui sont en général réservés aux employés,
ouvriers et inspecteurs afin de protéger le secret de la production et du matériel.
L'intérêt de ce type d'application est :
D'abord l'environnement est facilement contrôlable.
La vérification du locuteur a un rôle dissuasif.
La reconnaissance vocale peut être associée à d'autre techniques de reconnaissance d'identité
(ex : analyse du visage, des empreintes digitales, iris, etc.). L'utilisateur peut avoir son modèle
sur lui (ex : sur la puce d'une carte).

2.8.2. Applications dans les systèmes de communication

Ce type d'applications utilise par exemple le téléphone comme un moyen matériel de


communication entre l'homme et la machine. C'est la catégorie la plus importante parce
qu’elle permet de vérifier ou identifier le locuteur à longue distance.
Il existe plusieurs applications dans cette catégorie et parmi elles :
Validation de transactions bancaires par téléphone (pour améliorer le service bancaire, ainsi
que pour valider légalement la transaction effectuée).
Accès à des bases de données pour plus de sécurité et pour plus de protection (ex :
consultation d'émail, consultation de répondeur, etc.).
Accès à des services téléphoniques (ex : téléphoner sur son compte de facturation personnelle
de n'importe quelle ligne téléphonique).
Les inconvénients de ce type d'applications sont principalement :
L'environnement est difficilement contrôlable, parce que la qualité des lignes téléphoniques
peut varier considérablement d'un appel à un autre, ainsi que le bruit de fond produit par le
lieu d'appel (bar, restaurant, bureau, etc.). Les applications exigent le stockage des données de
manière centralisée.

2.8.3. Applications juridiques

Enfin on trouve le domaine d'applications qui pose actuellement le plus de problèmes, c'est le
domaine juridique. La reconnaissance de locuteur est utilisée par exemple pour :
-L'orientation des enquêtes.
-La constitution des éléments de preuves au cours d'un procès.
Dans ces applications on trouve beaucoup plus d'inconvénients que d'avantages :
-La quantité de la parole à disposition est en général très limitée.
-Les conditions d'environnement sont très mauvaises.
-Les locuteurs impliqués sont très rarement coopératifs.

60
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)

2.9. Conclusion

Dans ce chapitre nous avons présenté les principales tâches de reconnaissance automatique de
locuteurs (RAL), telles que l’identification et la vérification, ainsi quelques domaines
d’application de la RAL. Il est souligné également dans cette partie, la présentation d’un
système RAL avec tous ses modules, à savoir ; le module d’extraction des paramètres, le
module de modélisation et le module de prise de décision. On s’est focalisé sur les deux
modes de reconnaissance, dépendante et indépendante du texte. Enfin, les méthodes
d’évaluation des performances des systèmes de RAL, ont été décrites soigneusement dans ce
chapitre.

61
Chapitre 3

Les Approches d’Apprentissage des


Données du Locuteur
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

Chapitre 3

Les Approches d’Apprentissage des


Données du Locuteur
3.1. Introduction
Dans les applications de reconnaissance automatique du locuteur indépendantes du texte, la
modélisation du locuteur tient compte de la distribution des paramètres acoustiques. Les
techniques de modélisations peuvent être dérivées de différentes grandes approches, comme
l'approche vectorielle, connexionniste, prédictive et statistique. Néanmoins, La majorité
des systèmes actuels de reconnaissance du locuteur sont basés sur l'utilisation de modèles
de mélange de Gaussiennes (GMM) qui constituent l’état de l’art pour la vérification du
locuteur. Ces modèles de nature générative sont généralement appris en utilisant les
techniques de Maximum de Vraisemblance et de Maximum A Posteriori (MAP) [70].
Cependant, cette modélisation ne s'attaque pas aux problèmes de classification étant donné
qu’elle fournit un modèle de la distribution jointe. Ceci a conduit à l'émergence d'approches
discriminantes qui tentent de résoudre directement le problème de classification [103], et
qui donnent généralement de bien meilleurs résultats. Par exemple, les machines à vecteurs
de support (SVM), combinées avec les super-vecteurs GMM sont parmi les techniques les
plus performantes en reconnaissance automatique du locuteur [83]. Ainsi, les I-vecteurs qui
utilisent aussi les super-vecteurs GMM, pour calculer la matrice de la variabilité totale entre
le locuteur et le canal de transmission.

3.2. Etat de l’art des méthodes d’apprentissage des données du locuteur

La reconnaissance automatique du locuteur s’inscrit dans le domaine plus général du


traitement de la parole. Elle exploite la variabilité interlocuteurs et s’intéresse aux
informations extralinguistiques du signal vocal. Les variations individuelles entre locuteurs
ont deux origines essentielles. D’abord, les caractéristiques morphologiques de l’appareil
phonatoire sont différentes pour chaque locuteur, indépendamment de la phrase prononcée.
Ensuite, une même phrase n’est pas prononcée de la même façon par deux locuteurs, en
regard de la variabilité inter et intra locuteur. Cette variabilité est l’essence même de la
reconnaissance automatique du locuteur [89]. Comme dans le cas de la reconnaissance de la
parole, le problème de reconnaissance du locuteur peut se formuler selon un problème de
classification.

Les travaux sur la reconnaissance vocale (parole et locuteur) datent du début du XXe siècle.
Le premier système pouvant être considéré comme faisant de la reconnaissance vocale a
été développé par Davis, Biddulph, and Balashek aux laboratoires Bell Labs en 1952 [104].
Ce système électronique était essentiellement composé de relais et ses performances se
limitaient à reconnaître des chiffres isolés. La recherche s'est ensuite considérablement
accrue durant les années 1970 avec les travaux de Jelinek chez IBM (1972-1993) [105].
Aujourd'hui, la reconnaissance vocale en particulier la RAL, est un domaine à forte
croissance grâce à l’émergence d’applications notamment en biométrie vocale avec son

62
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

corolaire les sciences forensiques , les contrôles d’accès sécurisés nécessitant la signature
vocale, les applications dans les communications mobiles et filaires a déferlante des
systèmes embarqués.

Depuis les premier travaux dédiés à la RAL, de nombreuses approches ont été proposées
dans la littératures à savoir les approches vectorielle, statistique, prédictive et
connexionniste.
Vers les années 60 (1967) fut apparue une approche de classification utilisée dans la RAL,
dite K-plus proches voisins (KNN) publiée par Cover et Hart [106]. Cette méthode
discriminante de base appartient à la catégorie des algorithmes graphiques et ne comporte
pas d’étape d’apprentissage à proprement parler.
Sur une mesure de distance arbitraire entre les vecteurs. En phase de test, les distances entre
le vecteur à classer et tous les vecteurs d’apprentissage sont estimées et rangées en ordre
décroissant. Pour la décision, on procède par vote majoritaire parmi les k vecteurs
d’apprentissage les plus proches. Il peut arriver que deux classes majoritaires aient le même
nombre de plus proches voisins. Pour résoudre ce conflit, plusieurs stratégies sont
envisageables, comme par exemple choisir la classe ayant la distance moyenne la plus
faible. Notons enfin que la capacité de généralisation de la modélisation est réglée via le
paramètre k. Outre sa simplicité, l’avantage de cette méthode est qu’elle peut naturellement
s’appliquer au cas multi-classes même avec un nombre élevé de classes [107]. Mais les
inconvénients sont de taille :
1. Un volume important de données d’apprentissage implique une capacité des ressources
mémoire nécessaires d’autant plus élevée, ainsi qu’une forte complexité calculatoire en
phase de test.
2. Le renvoi d’une mesure de confiance de la décision (score) ne peut se faire que de
manière arbitraire, par exemple en calculant une moyenne des distances au k-plus proches
voisins à partir des distances calculées. A la base, la méthode est conçue pour renvoyer une
décision binaire.
A partir du milieu des années 1970, une des premières applications des HMMs a été la
reconnaissance vocale [108]. Le Modèle de Markov Caché (Hidden Markov Model) est une
méthode statistique puissante pour caractériser les échantillons de données observés d’un
processus à temps discret. Elle apporte un moyen efficace de construction de modèles
paramétriques. Dans la modélisation d’un processus par un HMM, les échantillons peuvent
être caractérisés par un processus paramétrique aléatoire dont les paramètres peuvent être
estimés suivant un modèle à plusieurs états d’après L. Baum [108]. Les HMMs sont
devenus la méthode la plus couramment utilisée pour la modélisation des signaux de parole
dans les applications suivantes : reconnaissance automatique de la parole, suivi de la
fréquence fondamentale et des formants, synthèse vocale, traduction automatique,
étiquetage syntaxique, compréhension du langage oral, traduction automatique et
reconnaissance du locuteur. Dans une chaîne de Markov, chaque état correspond à un
événement à observation déterministe [109].
Une extension naturelle à la chaîne de Markov introduit un processus non déterministe qui
génère des symboles de sortie pour chaque état. L’observation est donc une fonction
probabiliste de l’état [110].
Le modèle HMM, peut être vu comme deux processus stochastiques imbriqués dont l’un (la
séquence d’états) est non observable directement. Ce processus sous-jacent est donc associé
de façon probabiliste à un autre processus produisant la séquence de trames, qui elle, est
observable.

63
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

Peu après et dans les années 80 apparue une autre méthode dite Dynamic Time Warping
dans le domaine du traitement de la parole [111], et encore utilisée dans des systèmes de
reconnaissance de locuteurs disposant de ressources matérielles limitées. Dans les systèmes
de reconnaissance basés sur la DTW, chaque locuteur est représenté par une réalisation de
référence. Le processus de reconnaissance consiste à évaluer la distance d’une observation
à chacune des références. Toute la difficulté du décodage réside dans cette mesure d’un
degré de similarité entre des formes acoustiques variables à la fois au niveau spectral et
temporel.

En effet, les réalisations acoustiques représentant un locuteur subissent des déformations


spectrales liées à divers paramètres (locuteurs, contextes, conditions d’acquisition, etc.)
mais aussi des déformations temporelles globales (vitesse d’élocution) ou plus locales
(accent, dynamique des organes phonatoires, etc.). Pour comparer deux segments de parole
soumis à cette double déformation, il faut préalablement leur appliquer un processus
d’alignement temporel. L’algorithme DTW (Dynamic Time Warping) réalise cet
alignement en recherchant, parmi tous les alignements possibles, celui qui minimise une
fonction de coût intégrant l’écart spectral des données alignées et un coût de distorsion
temporelle [112]. La distance retenue est celle correspondant à l’alignement de coût
minimal.

Dans les années 90, un engouement pour les méthodes connexionnistes a débouché sur
leurs applications dans le domaine de la parole. Depuis, les réseaux neuromimétiques
constituent une technique utilisée dans les systèmes de reconnaissance automatique de la
Parole et de locuteurs [113]. Ils sont basés sur une modélisation mathématique du neurone
biologique ou neurone formel. Dans ce modèle, le neurone formel calcule son activation en
fonction des signaux qu’il reçoit d’autres neurones, pondérés par des « poids synaptiques »
et une fonction d’activation plus ou moins complexe. L’ensemble de ces neurones est
organisé selon des architectures diverses suivant la complexité de problème à modéliser.

Quelques années après, furent apparus ce qu’on a appelé Les séparateurs à vastes marges
qui reposent sur deux idées clés : la notion de marge maximale et la notion de fonction
noyau. Ces deux notions existaient depuis plusieurs années avant qu'elles ne soient mises en
commun pour construire les SVM. L'idée des hyperplans à marge maximale a été explorée
dès 1974 par Vladimir Vapnik [85] et en 1973 par Richard Duds et Peter Hart dans leur
livre Pattern Classification [114]. Les fondations théoriques des SVM ont été explorés par
Vapnik et ses collègues dans les années 70 avec le développement de la Théorie de Vapnik-
Chervonenkis, qui portait sur la théorie de l’apprentissage [85]. L'idée des fonctions noyaux
n'est pas non plus nouvelle: le théorème de Mercer date de 1909 [115], et l'utilité des
fonctions noyaux dans le contexte de l'apprentissage artificiel a été montré dès 1964 par
Aizermann, Bravermann et Rozoener [116]. Ce n'est toutefois qu'en 1992 que ces idées
seront bien comprises et rassemblées par Boser, Guyon et Vapnik dans un article, qui est
l'article fondateur des séparateurs à vaste marge [117]. L'idée des variables ressorts, qui
permet de résoudre certaines limitations pratiques importantes, ne sera introduite qu'en
1995. À partir de cette date, qui correspond à la publication du livre de Vapnik [118], les
SVM gagnent en popularité et sont utilisés dans de nombreuses applications.

Et enfin, l’utilisation des GMMs pour la modélisation des locuteurs a été initiée par les
travaux de thèse de Douglas Reynolds [77], cette approche a donné, depuis plus de10 ans
maintenant, les meilleures performances pour les systèmes de reconnaissance du locuteur

64
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

en mode indépendant du texte basé sur l’approche probabiliste. La plupart des systèmes
actuels utilisent une modélisation de locuteurs par GMM [82].

Les modèles de Mélange de lois Gaussiennes (GMM : Gaussian Mixture Models, en


anglais) ont étés utilisés dans de nombreux domaines, par exemple pour le traitement et la
reconnaissance des images ou de la parole. Dans le cadre de la reconnaissance du locuteur,
un GMM modélise un locuteur donné par une somme pondérée de gaussiennes. On peut
assimiler un modèle de GMM à un modèle de Markov cachés (HMM : HiddenMarkove
Model, en anglais) à un seul état. On ne modélise donc pas les aspects temporels du signal.
Cette méthode est plus utilisée en ce qui concerne la reconnaissance du locuteur en mode
indépendant du texte.

3.3. Modes d’Apprentissage

L'apprentissage automatique désigne des changements dans un système qui sont


adaptatifs dans le sens où ils permettent au système de faire la même tâche une nouvelle
fois de manière plus efficace [119]. Cette définition est très large et pourrait même
désigner la phase d'introduction interactive de données dans la base de données d'un
système d'information, car cela lui permet de répondre à plus de requêtes. On distingue
classiquement de modes d’apprentissage : supervisé et non supervisé.

3.3.1. Apprentissage non supervisé

L'apprentissage non supervisé recherche des régularités parmi un ensemble d'exemples,


sans être nécessairement guidé par un superviseur. A partir d'une population, il s'agit
d'extraire des classes ou groupes d'individus présentant des caractéristiques communes, le
nombre et la définition des classes n’étant pas donné a priori. Par exemple, le clustering
cherche à grouper des exemples de manière à ce que les exemples au sein d'un même
groupe se ressemblent suffisamment, et que les exemples de groupes différents soient
suffisamment différents. Il peut être utile comme prétraitement à l'apprentissage
supervisé ou pour simplifier le stockage ou la communication de données [120].

3.3.2. Apprentissage supervisé

L'apprentissage supervisé, quant à lui, utilise des exemples étiquetés ou classés. Ces
étiquettes ou ces classes peuvent être vues comme fournies par un professeur ou un
superviseur, d'où le nom d'apprentissage supervisé. Le but de l'apprentissage est alors de
produire une fonction de classification, appelée hypothèse, permettant de déterminer la
classe d'un exemple.

65
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.4. Les approches d’apprentissage des données acoustiques

3.4.1. Les approches basées sur la distance euclidienne

3.4.1.1. L’Approche K-plus proches voisins (KNN)

L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel
[121]. Dans un contexte de classification d’une nouvelle observation x , l’idée fondatrice
simple est de faire voter les plus proches voisins de cette observation. La classe de x est
déterminée en fonction de la classe majoritaire parmi les K plus proches voisins de
l’observation x . Afin de trouver les K plus proches d’une donnée à classer, on peut choisir
la distance euclidienne. Soient deux données représentées par deux vecteurs x i et x j , la
distance entre ces deux données est donnée par

d
d ( xi , x j )   (x
k 1
ik  x jk ) 2 (3.1)

3.4.1.2. L’Approche K-means

K-means est un algorithme de quantification vectorielle (clustering en anglais) [122]. K-


means est un algorithme de minimisation alternée qui étant donné un entier K, va chercher à
séparer un ensemble de points en K clusters. K-means définit par McQueen [123] est un
des plus simples algorithmes de classification automatique des données. L’idée principale
et de choisir aléatoirement un ensemble de centres fixé a priori et de chercher itérativement
la partition optimale. Chaque individu (également appelé centroïde ou centroid en anglais)
est affecté au centre le plus proche, après l’affectation de toutes les données, la moyenne de
chaque groupe est calculé, elle constitue les nouveaux représentants des groupes, lorsqu’ont
abouti à un état stationnaire (aucune donnée ne change de groupe) l’algorithme est arrêté.
L’algorithme de cette méthode est comme suit :

1- Choisir les centres de gravité ( g1 ,..., g K ) des K classes (c1 ,..., c K ) d’une manière
aléatoire.
2- Pour tout élément ei , i  1,..., N ,

2.1- Chercher la classe c k de l’élément en question ( ei ) et calculer la fonction du cout.

ck  arg min d (ei , g j ) (3.2)


j 1...K

K
f    d (ei , g j ) (3.3)
j 1 ei ck

Où d (ei , g j ) , est la distance euclidienne entre le i iem élément et j iem centre de gravité.

2.2- recalculer le centre de gravité de la classe c k :

66
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

1
gk 
nk
ei ck
ei (3.4)

3- Répéter les étapes (2.1) et (2.2) pour minimiser la fonction du cout.


4- Le processus d’itération se termine lorsqu’aucun élément ne peut être réaffecté aux
différentes classes.

3.4.2. Les approches basées sur les techniques de projection linéaire

3.4.2.1. L’Analyse en composantes principales (ACP)

L’analyse en composante principales est une méthode vectorielle linéaire de réduction des
dimensions de paramètres non supervisée, choisissant les directions dont la variance intra-
cluster est la plus grande [124]. Les données sont alors plus facilement visualisables sur
moins de dimensions. La PCA se calcule à partir de la matrice de covariance des données.
Celle-ci est diagonalisée afin d’en extraire les valeurs et vecteurs propres. Les données sont
projetées dans l’espace défini par les vecteurs propres. Les valeurs propres, classées dans
l’ordre décroissant, correspondent dans l’espace d’arrivée au vecteur propre dont la
direction maximise la variance.

o Modélisation mathématique de l’ACP

Etant donné un échantillon de données D  X 1 , X 2 ,..., X n  , nous devons trouver sa


présentation la plus précise dans un sous-espace W de dimension k .

k
Soit e1 , e2 ,..., ek  une base orthonormale de W , et le vecteur Y1    1i ei la représentation
i 1

de X 1 dans le sous espace W . Nous définissons l’erreur de cette représentation comme


suit :

k 2

erreur1  X 1   1i ei (3.5)


i 1

Pour définir l’erreur totale, nous devons sommer les erreurs de toutes les projections des
X j avec j  1,.., n .

k
Sachant que X j est représenté par 
i 1
e dans le sous-espace W , l’erreur totale est égale
ji i

à:

n k 2

erreur  J (e1 , e2 ,..., ek , 11,...,  nk )   X j   ji ei (3.6)


j 1 i 1

Nous pouvons modéliser mathématiquement le problème de l’ACP comme suit :

67
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

 Il faut trouver les e1 , e2 ,..., ek  qui minimisent la fonction J .

Tout d’abord, nous allons simplifier l’écriture de J :

n k 2

J (e1 , e2 ,..., ek , 11,...,  nk )   X j    ji ei (3.7)


j 1 i 1

n 2 n k n k
J (e1 , e2 ,..., ek , 11,...,  nk )   X j  2 ( X tj )(  ji ei )    2ji (3.8)
j 1 j 1 i 1 j 1 i 1

n 2 n k n k
J (e1 , e2 ,..., ek , 11,...,  nk )   X j  2 ji X tj ei    2ji (3.9)
j 1 j 1 i 1 j 1 i 1

La première étape de minimisation consiste les dérivées partielles de la fonction J par


rapport aux  ml et de les annuler :


J (e1 , e2 ,..., ek , 11,...,  nk )  2 X mt el  2 ml (3.10)
 ml

Ainsi, les valeurs optimales des  ml sont :

(2 X mt el  2 ml  0)   ml  X mt el (3.11)

En remplaçant les valeurs de  ml dans la fonction J , nous obtenant :

n 2 n k n k
J (e1 , e2 ,..., ek )   X j  2 ( X tj ei ) X tj ei   ( X tj ei ) 2 (3.12)
j 1 j 1 i 1 j 1 i 1

Nous pouvons maintenant simplifier J comme suit :

n 2 n k
J (e1 , e2 ,..., ek )   X j   ( X tj ei ) 2 (3.13)
j 1 j 1 i 1

n 2 k n
J (e1 , e2 ,..., ek )   X j   eit ( ( X j X tj ))ei (3.14)
j 1 i 1 j 1

n 2 k
J (e1 , e2 ,..., ek )   X j   (eit .S .ei ) (3.15)
j 1 i 1

n
avec S   ( X j X tj )
j 1

68
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

S est appelée la matrice de dispersion, c’est juste la matrice d’auto covariance de


X 1 , X 2 ,..., X n  .
k 2

Etant donné que 


j 1
Xj est une valeur constante, minimiser la fonction J revient à
k
maximiser la fonction  (eit .S .ei ) . En insistant sur le fait que eit ei  1 ( pour i  1,..., k )
i 1
en utilisant les multiplicateurs de Lagrange, nous pouvons montrer que ce problème
d’optimisation peut être vu comme étant le calcul de valeurs propres des vecteurs propres
suivants :

S.em  m .em (3.16)

Ainsi, les vecteurs propres sont les vecteurs propres associés à la matrice de dispersion S .

Maintenant que nous avons fixé les e1 , e2 ,..., ek , il ne nous reste plus qu’à projeter les
vecteurs X 1 , X 2 ,..., X n  dans le sous-espace W :

Soit la matrice E dont les colonnes sont les vecteurs bases e1 , e2 ,..., ek 

E  e1 , e2 ,..., ek  (3.17)

Pour projeter un vecteur quelconque X dans W , il suffit de calculer la multiplication


suivante :

Y  E t .X (3.18)

3.4.2.2. L’Analyse discriminante linéaire (LDA)

L’analyse discriminante linéaire est aussi une méthode vectorielle linéaire de réduction des
dimensions de paramètres mais cette fois ci supervisée [125]. Elle est utilisée pour
optimiser le rapport entre la dispersion ”intra-clusters” et la dispersion ”inter-clusters” Les
directions jugées principales sont celles dont la variance inter-clusters est la plus grande.
Les exemples sont alors plus facilement séparables sur moins de dimensions. La LDA
attribue à chaque cluster une moyenne et une variance, et obtient ainsi une scatter- matrix,
représentant les distances séparant les clusters les uns des autres autour de la moyenne de
l’ensemble des points.

La projection d’un échantillon X i sur un sous-espace linéaire est définie comme suit :

Yi  V t X i (3.19)

Où V est une matrice de projection identifiant le sous espace dans lequel on projette.

Soient :

69
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

ni : Le nombre d’échantillons de la classe i .

 i : La moyenne des échantillons de la classe i .

 : La moyenne de tous les échantillons.

1
i 
ni
X
X i Ci
i (3.20)

1 n
  Xi
n i 1
(3.21)

La fonction à maximiser est la suivante :

det(V t S BV )
J (V )  (3.22)
det(V t SW V )

La matrice de dispersion intra-classe est égale à :

c c
SW   S i   (X k   i )( X k   i ) t (3.23)
i 1 i 1 X k Ci

La matrice de dispersion interclasse est égale à :

c
S B   ni (  i   )( i   ) t (3.24)
i 1

Donc en résumé, les différentes étapes à suivre pour effectuer une analyse discriminante
linéaire sont comme suit:

 Résoudre en premier le problème de valeurs propres généralisées :

S BV  SW V (3.25)

 Soient V1 ,V2 ,...,Vk  les vecteurs propres correspondants à la matrice de projection V
sur un sous espace de dimension k .
 Pour projeter un vecteur quelconque X dans un sous espace, il suffit de calculer la
multiplication suivante :

Y VtX (3.26)

70
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.4.3. Les approches basées sur les Mélanges de Gaussiennes (GMMs)

Les mélanges de Gaussiennes (en anglais Gaussian mixture, mixture of Gaussians, GMM,
GM ou MoG suivant les références) est un outil très utilisé dans la littérature et l’ingénierie
informatiques. Il peut en effet servir à modéliser des données numériques ou encore à
réaliser le clustering d’un ensemble d’individus [77]. L’utilisation d’un modèle GMM se
justifie essentiellement en faisant appel à l’interprétation des classes du mélange : il est
certain que les vecteurs de paramètres vont se répartir différemment selon les
caractéristiques du son de parole considéré (son voisé/non voisé). Chaque composante va
modéliser des ensembles sous-jacents de classe acoustiques, chaque classe représentant des
événements acoustiques (voyelles, nasales,…etc.). Ces classes caractérisent l’espace
acoustique propre à chaque locuteur.

3.4.3.1. Modèle du mélange

Soit un individu (ou objet, ou événement) x représenté sur l’espace vectoriel R d . La


densité d’un tel individu selon la loi normale (ou Gaussienne) de moyenne  et matrice de
covariance  est donnée par :

1 1
f ( x /  , )  d
exp(  ( x   )T  1 ( x   )) (3.27)
1 2
(2 ) 
2 2

En superposant et pondérant M Gaussiennes, on définit un mélange de Gaussiennes. On


note habituellement  m , respectivement  m et  m le poids (sous les contraintes  m  0 et
M


m 1
m  1 ), respectivement la moyenne et la matrice de covariance de la m-ième

composante. On note également  m   m ,  m ,  m  , ainsi que    m  . La densité d’un


individu x selon la distribution de probabilité paramétrée par  est donnée par :

M
p( x /  )   m f ( x /  m ,  m ) (3.28)
m1

Un jeu de données (ou échantillon, ou data set en anglais) est une matrice dont chaque ligne
caractérise un individu x n . On note un tel échantillon X  ( x1 , x2 ,..., x N )T ; si on suppose
que celui-ci est indépendamment et identiquement distribué (i.i.d), la probabilité jointe de
cet échantillon est :

N
p ( X /  )   p ( xn /  ) (3.29)
n 1

Pour des raisons pratiques, on utilise préférentiellement le log de cette quantité, alors
appelée vraisemblance.

71
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.4.3.1.1. Apprentissage du modèle par l’algorithme Expectation-Maximization (EM)

Le problème de l’algorithme EM (Expectation-Maximization) peut être considéré comme


un cas particulier de gradient [126]. Il fait intervenir à la fois des observations X et des
variables manquantes (l’indice de la gaussienne m  1,..., M ). Cet algorithme maximise, de
façon itérative, la fonction de la vraisemblance. Cette maximisation n’est pas directe, elle
fait intervenir la fonction auxiliaire Q( , (t ) ) qui est définie comme étant l’espérance
mathématique du logarithme de la vraisemblance jointe (incluant les variables observées et
les variables cachées) sur l’ensemble complet des variables d’entrainement, calculée sur
base des paramètres courants [127], à savoir :

M N
Q( , (t ) )   p(m / xn , (t ) ) log p( xn , m /  ) (3.30)
m 1 n 1

où  désigne l’ensemble des paramètres à estimer (  m ,  m ,  m ) et  (t ) l’ensemble des


paramètres à estimer à l’itération t . Ce qui donne après calcul :

M N
 D 1 
Q( , (t ) )    n(t,m) log  m  log( 2 )  log  m 
m 1 n 1  2 2 
(3.31)
M N
1 
   n(t,m)  ( x n   m ) T  m1 ( x n   m )
m 1 n 1 2 

Où  n(t,m) est une probabilité a posteriori à l’itération t :

 m(t ) p( xn  m(t ) ,  (mt ) )


 (t )
n,m  M
(3.32)

k 1
(t )
k p( x n  ,  )
(t )
k
(t )
k

En supposant que p( xn  ) sont des densités gaussiennes à matrices de covariance


diagonales, l’expression de la fonction auxiliaire devient :

M N
1 M N (t )  ( xn   m ) 2 
Q( , )   (t ) (t )
log  m    n,m Cste  log  m 
2
 (3.33)
 m2
n,m
m 1 n 1 2 m1 n1  

Où  m2 est un élément diagonal de la matrice de covariance.

Les paramètres sont estimés en annulant les dérivées partielles de la fonction auxiliaire Q
par rapport à chacun de ceux-ci. Le cas des poids des composantes de mélange  m est assez
simple puisqu’il s’agit de paramètres scalaires. Ceci dit, il faut tenir compte de la contrainte
M
qui existe sur ces paramètres (   m  1 ). La maximisation sous contrainte se résout
m 1
simplement en introduisant un multiplicateur de Lagrange associé à cette contrainte et
l’obtient :

72
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

N
1
 m(t 1) 
N
 n 1
( t 1)
n,m (3.34)

En ce qui concerne les vecteurs des moyenne, on montre que les formules de réestimation
sont données par :

 (t )
n,m xn
 ( t 1)
m  n 1
N
(3.35)

n 1
(t )
n,m

et pour les variances :

2 ( t 1)
 (t )
n,m ( x n   m(t ) ) 2
 m  n 1
N
(3.36)

n 1
(t )
n ,m

3.4.3.1.2. Adaptation du modèle par Maximum A Posteriori (MAP)

L’adaptation bayésienne (MAP : Maximum a posteriori) [128] permet d’introduire dans


l’apprentissage des contraintes probabilistes sur les paramètres des modèles. Le critère
MAP est appliqué aux modèles ayant fait l’objet d’un apprentissage préalable et pour
lesquels on dispose de données a priori. Ainsi à partir d’un modèle initial indépendant du
locuteur, cette adaptation permet de créer de nouveaux modèles dépendants à un locuteur en
particulier. Elle comporte deux étapes de traitement. La première étape est le calcul des
paramètres statistiques des trames d’apprentissages par rapport au modèle UBM. En
pratique seules les moyennes du GMM seront adaptées, les poids et les variances restent
inchangés. Dans la seconde étape de l’adaptation, les nouveaux paramètres, estimés dans la
première étape, sont combinés avec les paramètres du modèle UBM en utilisant des
coefficients de pondération. En fait, l’adaptation MAP permet de faire varier l’influence
des données a priori, en fonction du nombre de données d’apprentissage pour chaque
gaussienne du modèle. Ainsi seules les gaussiennes occupées par un nombre important de
trames d’apprentissage seront modifiées, les paramètres des autres gaussiennes restent
inchangés par rapport à leurs valeurs a priori. [77], [128].

73
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

Etant donné un signal de parole représenté par une séquence de vecteurs acoustiques
X  x1 , x2 ,..., x N  , les formules suivantes sont appliquées uniquement aux vecteurs
moyennes  i du modèle UBM ( M gaussiennes) pour obtenir les vecteurs moyennes adaptés

i :


i   i Ei ( X )  (1   i ) i , i  1,..., M (3.37)

ni ( X )
i  (3.38)
ni ( X )  r

N
ni ( X )   P(i / x j ) (3.39)
j 1

1 N
Ei ( X )  . P(i / x j ) x j (3.40)
ni j 1

 i pi ( x j ) (3.41)
P(i / x j ) 
  k pk ( x j )
M
k 1

où  i et pi (x) sont les poids et la fonction de densité de la i ème gaussienne du mélange,


respectivement, et r est un facteur de pertinence qui commande le degré d'adaptation.

Fig.3.1 Modélisation du locuteur par GMM-UBM

74
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.4.4. Les approches basées sur les Machines à Vecteurs de Support (SVM)

Les Machines à vecteurs de support (Support Vector Machines en anglais) souvent traduit
par l’appellation de Séparateur à Vaste Marge (SVM) [83] sont une approche d’algorithmes
d’apprentissage supervisé initialement définis pour la discrimination c’est-à-dire la
prévision d’une variable qualitative binaire. Ils ont été ensuite généralisés à la prévision
d’une variable quantitative. Dans le cas de la discrimination d’une variable dichotomique,
ils sont basés sur la recherche de l’hyperplan de marge optimale qui, lorsque c’est possible,
classe ou sépare correctement les données tout en étant le plus éloigné possible de toutes les
observations. Le principe est donc de trouver un classifieur, ou une fonction de
discrimination, dont la capacité de généralisation (qualité de prévision) est la plus grande
possible.

3.4.4.1. Théorie des Machines à Vecteur de Support

Les SVMs constituent une classe d’algorithmes basée sur le principe de minimisation du
« risque structurel » décrit par la théorie de l’apprentissage statistique de Vapnik et al [84]
qui utilise la séparation linéaire. Cela consiste à séparer l’hyperplan des individus
représentés dans un espace de dimension égal au nombre de caractéristiques, les individus
étant alors séparés en deux classes. Cela est possible quand les données à classer sont
linéairement séparables. Dans le cas contraire, les données seront projetées sur un espace de
plus grande dimension afin qu’elles deviennent linéairement séparables.

3.4.4.1.1. Classification binaire par hyperplan

Considérons maintenant l points ( x1 , y1 ), ( x2 , y2 ),..., ( xl , yl ) xi   N , avec i  1,..., l et yi   1.

Classons des points en utilisant une famille de fonctions linéaires définies par
w, x  b  0 avec wi  N , b   de telle sorte que la fonction de décision concernant
l’appartenance d’un point à l’une des deux classes soit donnée par :

f ( x)  sgn( w, x  b) (3.42)

3.4.4.1.2. Cas de données linéairement séparables

Nous allons construire l’hyperplan H d’équation : w, x  b  0 qui sépare au mieux les


deux classes et se trouvant à mi-distance des deux hyperplans H 1 et H 2 , parallèle à H ,
d’équations respectives :

H1 : w, x  b  1 (3.43)

H 2 : w, x  b  1 (3.44)

Telle que les deux conditions suivantes soient respectées :

Condition 1 : il n’y a aucun point qui se situe entre H 1 et H 2 . Cette contrainte est donnée
par les ‘inégalités suivantes :

75
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

w, xi  b  1 pour yi  1 (3.45)

w, xi  b  1 pour yi  1 (3.46)

Ce qui est équivalent à :

yi ( w, xi  b)  1 pour i  1,..., l (3.47)

Condition 2 : La distance ou la marge entre H 1 et H 2 est maximale. Dans ce cas, la


2
distance entre H 1 et H 2 est donnée par M  . Maximiser M revient à minimiser w ou à
w
minimiser w avec : w  wT w (carré de la norme euclidienne du vecteur w ).
2 2

Donc, le problème de séparation par hyperplan optimal peut être formulé comme suit :

 1 2
min w N w
 2 (3.48)
 yi ( w, xi  b)  1 i  1,..., l

Fig.3.2 Données linéairement séparables.

Ce problème d’optimisation quadratique peut être résolu en introduisant des multiplicateurs


de Lagrange  i  0 .

Le Lagrangien associé au problème précédent d’optimisation est :

76
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

1 2
L( w, b,  )  w  i 1 i ( yi ( w, xi  b)  1)
l
(3.49)
2

Le Lagrangien doit être minimisé par rapport à w et b et maximisé par rapport à  .

L
0 (*)
w

L
0 (**)
b

et les  i  0 .

A partir des relations (*) et (**), nous pouvons déduire :

w  i 1 i yi xi
l
(3.50)

  i yi  0
l
i 1
(3.51)

En les remplaçant dans L(w, b,  ) , on obtient le problème dual :

l
1 l
LD    i    i  j y i y j xi x j (3.52)
i 1 2 i , j 1

À maximiser sous les contraintes

  i yi  0 i  0
l
i 1
et i  1,..., l

La fonction de décision est alors :

f ( x)  sgn( i 1 yi i xi , x  b)
l
(3.53)

Cette fonction de décision est donc seulement influencée par les points correspondants à
des  i non nuls. Ces points sont appelés les Vecteurs de Support. Ils correspondent, dans le
cas des données linéairement séparables, aux points les plus proches de la limite de
décision, c’est-à-dire aux points se trouvant exactement à une distance égale à la marge. Il
s’agit d’une propriété très intéressante des SVMs : seuls les Vecteurs Support sont
nécessaires pour décrire cette limite de décision, et le nombre de Vecteurs Support pour le
modèle optimal est généralement petit devant le nombre de données d’entrainement.

3.4.4.1.3. Cas de données non-linéairement séparables

En pratique, il est assez rare d’avoir des données linéairement séparables. Afin de traiter
également des données bruitées ou non-linéairement séparables, les SVMs ont été

77
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

généralisés grâce à deux outils : la marge souple (soft margin)et les fonction noyau (kernel
function).

Le principe de la marge souple est d’autoriser des erreurs de classification. Le nouveau


problème de séparation optimal est reformulé comme suit :

L’hyperplan optimal séparant les deux classes est celui qui sépare les données avec le
minimum d’erreurs, et satisfait donc les deux conditions suivantes :

Condition 1: la distance entre les vecteurs bien classés et l’hyperplan doit être maximal.

Condition 2: la distance entre les vecteurs mal classés et l’hyperplan doit être maximal
aussi.

Pour formaliser cela, on introduit des variables de pénalité non-négatives,  i , i  1,..., l


appelées variables d’écart. Le principe de la marge souple se traduit par la transformation
des contraintes de l’équation (3.48) qui deviennent :

y i ( w, xi  b)  1   i , i  1,..., l (3.54)

Avec l’introduction d’un terme de pénalité, la fonction objective devient :

l
1
min w,b, ( wT w)  C   i , C  0 (3.55)
2 i 1

Le paramètre C est défini par l’utilisateur. Il peut être interprété comme une tolérance au
bruit de classificateur. C’est aussi la pénalité associé à toute violation des contraintes de
l’équation (3.48) du cas linéairement séparable.

x1

Fig.3.3 Données non linéairement séparables.

78
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

La nouvelle formulation d’optimisation est alors :

 1 T l

min w,b , ( w w)  C  i , C  0
 2 i 1 (3.56)
 y ( w, x  b)  1     0, pour i  1,..., l
 i i i i

En introduisant les multiplicateurs de Lagrange, le Lagrangien associé au nouveau


problème d’optimisation devient :

 
l l l
1 T
L( w, b,  i ,  )  w w  C   i    i y i ( w T x i  b)   i  1    i  i
2 i 1 i 1 i 1

l l l l
1 T
 w w   (C   i   i ) i  ( i yi xi ) w ( yi i )b  i (3.57)
2 i 1 i 1 i 1 i 1

Le Lagrangien doit être minimisé par rapport à w, b,  i et maximisé par rapport à  et .

L
0 (*)
w

L
0 (**)
b

L
0 (***)
 i

De ces dernières relations, on peut tirer les égalités suivantes :

l l
w    i y i xi ;  y i i 0 et  i  C   i (3.58)
i 1 i 1

Ce qui conduit à un problème dual légèrement différent de celui du cas séparable :

l
1 l
LD    i   i j yi y j xi x j À maximiser sous les contraintes
i 1 2 i , j 1

0   i  C  i  1,..., l

 l (3.59)


et i 1
 i yi  0

La seule différence avec le cas linéairement séparable est donc l’introduction d’une borne
supérieure pour les paramètres  i

79
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.4.4.1.4. Les fonctions noyau

3.4.4.1.4.1. Introduction du noyau

Choisir des frontières de décision linéaires semble être un facteur limitant. Cependant, de
tels modèles peuvent être considérablement enrichis en projetant les données (généralement
non-linéairement séparables) dans un espace caractéristique F (feature space),
éventuellement de plus grande dimension que l'espace des entrées, afin de rendre
linéairement séparable le jeu de données.

Considérons l’application  définie par :

: F
x  ( x)

Il suffit alors d'appliquer l'algorithme d'apprentissage dans F et non plus dans  , en


considérant l'ensemble défini par :

(( xi ), yi )  F  Y où i  1,..., l et Y   1,1 (3.60)

Pour certains espaces caractéristiques et applications  associées, les produits scalaires sont
facilement calculables grâce à des fonctions noyaux k (kernel functions) telles que :

k ( xi , x j )  ( xi ), ( x j ) i, j  1,..., l (3.61)

Théorème :(Condition de Mercer) [115] la fonction k ( x, y)  X  X   est un noyau


valide si elle est symétrique et définie positive.

Sous cette condition, le noyau définit donc bien un certain espace de Hilbert où s'exerce le
produit scalaire entre les données.

Notons qu’une fonction k ( x, y)  X  X   générant une matrice définie positive possède


les trois propriétés fondamentales du produit scalaire : xi , x j  X .

1. Positivité : k ( xi , x j )  0 .
2. Symétrie : k ( xi , x j )  k ( x j , xi ) .
3. Inégalité de Cauchy-Shwartz : k ( xi , x j )  xi . x j .

On peut donc choisir l’une des fonctions suivantes :

x y
2

Noyau radial gaussien : k ( x, y )  exp(  ) (3.62)


2 2

Noyau polynomial : k ( x, y)  ( x, y  b) p (3.63)

80
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

L'intérêt de la fonction noyau k est de rendre possible le calcul de produits scalaires dans
F sans utiliser explicitement ni même connaître l’application  . Tout algorithme de
classification linéaire pouvant se formaliser sous forme de produits scalaires peut donc être
étendu à la classification non-linéaire grâce à une fonction noyau (choisie a priori).

En résumé, pour tout problème de classification automatique, nous devons résoudre le


programme quadratique suivant :

 l
1 l
 Minimiser L D    i    i j y i y j k ( xi , x j )
2 i , j 1
 i 1

0   i  C i  1,..., l (4.64)
 l
  i y i  0
 i 1

Et la nouvelle fonction de décision est alors :

f ( x)  sgn( i 1 yi i k ( xi , x)  b)
l
(3.65)

3.4.4.2. Machines à vecteurs de support multi-classes

Initialement les SVM ont été conçus principalement pour la classification binaire [55]. La
question de leur extension au problème de la classification multi-classes reste un thème de
recherche très actif. Ce problème multi-classes est typiquement résolu par la combinaison
de plusieurs SVM binaires.

3.4.4.2.1. Les SVMs pour la classification de k classes

Etant donné un ensemble d’exemples étiquetés S  ( x1 , y1 ), ( x2 , y 2 ),..., ( xl , yl ) . On


s’intéresse cette fois-ci au problème de classification où le nombre de classes égal à k , les
y i prennent alors leurs valeurs dans l’ensemble y  1,2,..., k. Dans ce cas, il ne s’agit plus
de trouver une seule séparatrice entre deux classes mais il faudra que l’on soit en mesure de
classer les exemples en plusieurs classes, ce qui revient à construire k hyperplans linéaires
d’équations :

WkT .x  bk  0, k  y (3.66)

 Formulation

Généraliser les SVMs au cas multi-classes revient à résoudre le problème de


programmation quadratique suivant (Problème Primal) :

 1
min Wk ,bk , ki 2  Wk  C   i
2 k

 k y il , k y / yi  (3.67)


W T .x  b  (W T .x  b )  1   k ,  k  0, i  l , k  y /y 
 yi i yi k k i i i

81
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

La fonction de décision sera alors :

f ( x)  arg max ky f k ( x) où f k ( x)  WkT .x  bk , k  y (3.68)

Donc un nouvel individu aura comme classe, la classe y i avec

f yi ( x)  f k ( x), k  y /yi  (3.69)

Etant donné que ce problème est difficile à résoudre, plusieurs méthodes ont été proposées
pour résoudre le cas multi-classes.

 Un contre tous (One versus all) :

Pour chaque classe on détermine un hyperplan séparant celle-ci de toutes las autres. En
considérant cette dernière comme la classe (+1) et les autres comme étant la classe (-1),
ce qui résulte en k SVMs binaires.

 Un contre un :

Dans ce cas on construit un SVM pour chaque paire de classes. Ainsi, on se ramène à
calculer k (k  1) / 2 SVMs binaires.

3.4.5. Les approches basées sur le modèle hybride (GMM-SVM)

L'une des questions posées en reconnaissance du locuteur, est de savoir comment


représenter des signaux de parole qui, en général, ont un nombre variable de vecteurs de
caractéristiques. Dans les premières études [82], les modèles de locuteur ont été générés par
des caractéristiques moyennées en temps, de sorte que chaque signal de parole peut être
représenté comme un seul vecteur caractéristique. Les vecteurs moyennes seraient alors
comparées en utilisant une mesure de distance [55], dont le calcul est très efficace, mais qui
donne un mauvais taux de reconnaissance.

Fait intéressant, la communauté de la reconnaissance du locuteur a redécouvert ces


dernières années [129] de manière robuste une présentation du signal de parole en utilisant
un seul vecteur, dit super-vecteur. Ces super-vecteurs peuvent être utilisés comme des
entrées pour les machines à vecteur de support (SVM). D'autre part, le modèle classique, de
mélange de gaussiennes adaptées [77] peut aussi être considéré comme un super-vecteur.
Cela, conduit à une combinaison de modèles génératifs GMM-UBM et discriminatifs SVM
[82], [83].

On construit un super-vecteur GMM (de taille M x D ) en regroupant les M vecteurs de


moyennes (de dimension D ) du GMM appris par adaptation MAP. Cette représentation
peut etre considérée comme une expansion de séquences de vecteurs (de tailles variables)
en un seul vecteur de haute dimension (de taille fixe) via la modélisation par GMM :

82
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

  x1 
 
 x2 
. 
SV    (3.70)
. 
. 
 
  xM 

Où le GMM  xm ,  m ,  m  a été appris sur la séquence X. Les super-vecteurs GMM


s'accordent bien avec la philosophie des SVM. [82], [83] proposent donc d'utiliser un noyau
linéaire dans l'espace des super-vecteurs :

M
K ( X , Y )   (  m  m(1/ 2)  xm )T (  m  m(1/ 2)  ym ) (3.71)
m1

Les poids et les variances des gaussiennes servent à normaliser les vecteurs de moyennes
avant l'apprentissage.

Fig.3.4 Modélisation du locuteur par GMM-SVM

83
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur

3.5. Conclusion

Dans ce chapitre nous avons présenté tout d’abord, l’état de l’art des méthodes de
modélisation (statistiques et discriminatives) de vecteurs caractéristiques du locuteur
utilisée dans la RAL. Ensuite, nous avons présenté les fondements théoriques des méthodes
de modélisation du locuteur utilisée dans le cadre de notre travail, et selon leurs modes
d’apprentissage (supervisé ou non-supervisé), à savoir ; SVMs et le modèle de mélanges de
Gaussiennes (GMM), qui est considéré comme étant l’approche d’estimation qui prédomine
dans le domaine de la RAL (vérification du locuteur). Autour d’elle, d’autres approches de
modélisation (GMM-SVM, JFA et I-vecteur) se sont greffées visant à améliorer la
robustesse des systèmes RAL, en particulier dans des environnements perturbés. Aussi,
dans ce chapitre nous avons décrit quelques techniques de réduction de dimension et de
modélisation à savoir PCA et LDA, qui servent essentiellement à projeter les données
d’apprentissage dans un espace propre de Fisher, dans lequel les données d’apprentissage
deviennent plus présentatives et moins corrélées.

84
Chapitre 4

Les Approches de Fusion des Scores


Proposées pour une Reconnaissance
de Locuteur Robuste
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Chapitre 4

Les Approches de Fusion des Scores


Proposées pour une Reconnaissance de
Locuteur Robuste

4.1. Introduction

Afin d’améliorer les performances du système de reconnaissance (vérification) du locuteur


dans les environnements fortement perturbés, nous présentons dans ce chapitre, les approches
de fusion des scores proposées basées sur la séparation des segments parole/non-parole dans
un signal vocal, et le réseau de neurones MLP. Pour cela, nous proposons d’abord, une
nouvelle méthode de détection d’activité vocale basée sur la soustraction spectrale et
l’adaptation MAP nommée ‘GMM-MAP-VAD’. Ensuite, cette nouvelle approche ‘GMM-
MAP-VAD’, est utilisée dans nos approches de fusion des scores, qui sont basées sur
l’estimation de SNR du bruit, en utilisant l’énergie des segments de parole détectés par notre
technique (GMM-MAP-VAD), et l’énergie du bruit, afin de les rendre adaptatives au type du
bruit. La somme pondérée est utilisée comme étant le noyau de nos techniques de fusion des
scores, avec une modification dans le calcul des poids de pondération. Ces derniers, sont
basés sur la valeur du taux d’erreur égal (EER) calculée dans la phase d’évaluation du
système de RAL. Aussi, la fonction sigmoïde ainsi le réseau de neurones MLP, sont utilisés
dans nos techniques proposées, dans le but de calibrer et normaliser les effets néfastes du bruit
sur les scores issus de différents systèmes RAL.

4.2. Les Défis des systèmes RAL

Les performances et la précision des systèmes de reconnaissance automatique du locuteur


(RAL), sont difficiles à améliorer en raison d'un certain nombre de facteurs, à savoir
l’inadéquation entre le combiné utilisé par le locuteur afin d’enregistrer sa voix, et le canal de
transmission, ainsi que les bruits existants dans l'environnement dans lequel le système RAL
est mis en œuvre. Récemment, beaucoup de recherches ont été menées avec un accent sur la
réduction de l'effet du canal. Des techniques de compensation dites linéaire et non linéaires
ont été proposées, avec applications au niveau des paramètres acoustiques (features), les
modèles d’apprentissage ou les vecteurs scores. Certains de ces techniques ont été d'abord
développés en reconnaissance de la parole.

85
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Des exemples de techniques de compensation de paramètres acoustiques, comprennent des


approches de filtrage bien connues telles que ; la soustraction de la moyenne cepstrale,
RASTA [130] et DTW [131].
Des exemples de méthodes de compensation appliquées au niveau de modèles
d’apprentissage, comprennent la modélisation de l’espace commun locuteur/canal connue
sous le nom de totale variabilité [132], et l'analyse factorielle jointe [133].
Par contre, la compensation au niveau des scores vise à supprimer le biais du à l’effet du bruit
d’environnement dans lequel le rapport de vraisemblance est calculé. Les méthodes les plus
courantes comprennent H-norme [77], Z-norme [93], et T-norme [91].
À ce jour, la recherche a ciblé l'impact du bruit de l'environnement, à travers des techniques
de filtrage tels que la soustraction spectrale ou le filtrage de Kalman [134], en supposant une
connaissance a priori du spectre de bruit. D'autres techniques se concentrent sur la
suppression du bruit, par exemple, la combinaison de modèle parallèle (PMC) [135], [136], ou
l'adaptation jacobéenne de l'environnement [137], en supposant la disponibilité d'un modèle
statistique du bruit ou de l'environnement.

Fig.4.1 Les différent type de bruits et leurs impacts sur l’état physiologique de locuteur

86
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Les chercheurs dans [138] et 139] ont discuté l'utilisation des réseaux de microphones pour
améliorer la robustesse au bruit. Des études récentes sur les approches-paramètres manquants
suggèrent que, lorsque la connaissance de bruit est insuffisante pour améliorer les données de
parole dégradée, alors on peut alternativement ignorer les données de parole sévèrement
endommagés et faire baser la reconnaissance seulement sur les données avec peu de
contamination [140].
Ce chapitre étudie le problème de la reconnaissance du locuteur en utilisant des échantillons
de parole déformés par le bruit ambiant (environnement). Nous supposons un scénario très
défavorable: une estimation précise de la nature et les caractéristiques du bruit est difficile,
voire impossible. Donc ces techniques traditionnelles, pour la suppression du bruit ou
compensation du canal, qui supposent généralement une connaissance préalable de la nature
du bruit, sont devenues difficilement applicables et donnent souvent des performances
décevantes. Il est probable que l'adoption de ce pire scénario sera nécessaire dans de
nombreuses applications dans le monde réel, par exemple, la reconnaissance du locuteur par
rapport aux dispositifs portables ou l'Internet.

Fig.4.2 Schéma bloc de reconnaissance du locuteur dans un réseau de télécommunication, en présence d’un bruit
d’environnement

Alors que les technologies promettent une couche supplémentaire de sécurité biométrique
afin de protéger l'utilisateur, la mise en œuvre pratique de ces systèmes face à de nombreux
défis.

87
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Par exemple, un système de reconnaissance sur la base d’un téléphone portable de poche doit
être robuste vis-à-vis des environnements bruyants, à savoir les environnements de bureau /
rue / voiture, qui sont sujet d’imprévisibles et potentielles sources inconnues de bruit (par
exemple, les bruits soudains, interférences d’autres locuteurs, le changement dynamique de
l'environnement, etc.). Cela soulève le besoin d'un procédé qui permet la suppression des
effets du bruit d’environnements, sans prendre connaissance préalable des statistiques de
bruit. Ce chapitre décrit un tel procédé.
Les nouvelles approches proposées dans ce chapitre, se concentrent toutes sur l’amélioration
des performances de RAL, en utilisant les techniques de fusion de scores. Ceci est réalisé par
une combinaison de plusieurs scores issus de différents modèles et paramètres acoustiques.
Comme le type de bruit et son intensité (la valeur de SNR) ont un impact direct sur les scores
issus de l’étape de prise de décision des systèmes RAL, alors il est important, voire nécessaire
d’estimer ces deux paramètres avant de faire une fusion. Pour cela, nous avons proposé dans
cette thèse une nouvelle approche de détection d’activité vocale nommée (GMM-MAP-VAD)
[141] à base de la soustraction spectrale, qui nous permet par la suite d’estimer la valeur de
SNR du bruit d’environnement, utilisée dans nos approches de fusion des scores proposées.
Dans le but d’améliorer encore ces techniques de fusion quand les scores sont bruités, nous
avons également proposé l’utilisation de réseau de neurones de type MLP (Muli-Layer
Perceptron) [142] afin de réduire au maximum la distorsion de ces scores due aux bruits
d’environnements.

4.3. Détection de l’activité vocale proposée (GMM-MAP-VAD)

La détection d'activité vocale (VAD) est un algorithme mathématique qui sépare un segment
de parole de segment non parole (silence) dans un signal vocal. Habituellement, un simple
VAD basée sur le seuil d'énergie des trames de parole fonctionne bien pour les signaux non
bruités. Toutefois, dans le cas où la parole est corrompue par du bruit (SNR <5 dB), on
constate que le bruit tend à masquer la plupart des trames de parole [143]. Ainsi, une
technique pour remédier à cela, consiste à utiliser une méthode de rehaussement de la parole
pour augmenter le SNR, avant d'estimer l'énergie des trames de parole [143] qui est donnée
par l'expression suivante :

1 N
Ei  10 log10 ( 
N  1 n 1
( xi [n]  i ) 2   ) (4.1)

Où xi [n] représente le n-ieme échantillon de la i-ieme trame vocale dans une séquence de
N
parole. Et i  (1 / N ) x[n] est la moyenne des échantillons d'une trame, N est la longueur
n 1

de la trame et   10 est une constante arbitraire pour éviter le log de zéro. Ensuite, un
16

maximum d'énergie Emax  max i 1,...,I Ei  est calculé par rapport à toutes les trames de la
parole. Enfin, la décision de VAD est basée sur un seuil de comparaison entre l’énergie
maximale et l’énergie minimale. La règle de VAD basée sur l'énergie est donnée par:

88
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

( Ei  Emax   main )  ( Ei   min ) (4.2)

Où  main et  min , représentent respectivement, le seuil prédéfini d'énergie et le seuil minimal.

Afin de rehausser la parole qui est endommagée par le bruit, la méthode de soustraction
spectrale [144] basée sur l'erreur quadratique moyenne minimale (MMSE) [145] et des
statistiques minimales (MS) [146] de bruit est utilisée, en multipliant l’amplitude du signal
bruité Y par un certain facteur de gain G . La soustraction spectrale est la méthode de
débruitage la plus ancienne. Elle est introduite dans les travaux de Boll en 1979 [147]. Elle
opère dans le domaine fréquentiel, et a pour principe de soustraire une estimée du bruit à
partir du signal observé. Le bruit est supposé additif, stationnaire ou légèrement variant ce qui
nous permet de l’estimer pendant les périodes de silence. Il existe deux versions de base de la
soustraction spectrale, qui se distingue l’une de l’autre par l’utilisation soit de la puissance
soit de l’amplitude.

 la soustraction spectrale d’amplitude (SSA).

Sˆ ( f )  Y ( f )  Bˆ ( f ) (4.3)

 la soustraction spectrale de puissance (SSP) :

2 2
Sˆ ( f )  Y ( f )  Bˆ ( f )
2
(4.4)

où Sˆ ( f ) , Y ( f ) et Bˆ ( f ) sont respectivement, les amplitudes spectraux du signal


rehaussé, signal bruité et le bruit additif.

Vu que le second terme de l’équation (4.4) peut être négatif, on peut le rendre positif en
changeant de signe ou bien en l’annulant comme dans l’équation (4.5). Ceci fait partie des
premières améliorations apportées à la soustraction spectrale :

2  2
 Y ( f )  Bˆ ( f ) si Y ( f )  Bˆ ( f )
2 2 2
ˆ
S( f )  

 0 sinon
(4.5)

Le passage dans le domaine temporel est réalisé par la transformée de Fourrier inverse en
gardant la phase du signal bruité. On se permet de procéder ainsi, d’une part, parce que notre
oreille est peu sensible aux variations de la phase et, d’autre part, parce qu’une estimation de
la phase est une tâche très compliquée.

89
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste


sˆ(t )  IFFT Sˆ ( f ) .ei*arg Y ( f )  (4.6)

Les algorithmes de soustraction spectrale peuvent être étudiés sous un autre angle, celui du
filtrage du signal observé en se basant toujours sur une estimation du bruit.

La suppression devient donc une multiplication par un gain G( f ) comme ci-dessous :

Sˆ ( f )  G( f ).Y ( f ) , 0  G( f )  1 (4.7)

Pour la SSP, G est donné par :

 2
 Bˆ ( f ) 2
1 si Y ( f )  Bˆ ( f )
2
G( f )   2 (4.8)
Y( f )

 0 sinon

On continu dans la même direction de recherche de VAD, Kinnunen et al. [143] ont proposé
une méthode d'auto-adaptative VAD (VQ-VAD), qui est basée sur les vecteurs
caractéristiques MFCCs qui sont extraits à partir du signal de parole bruité. Ensuite, un
rehaussement de ce signal bruité est appliqué en utilisant une soustraction spectrale. Par
conséquent, Kinnunen trie les valeurs énergétiques calculées pour chaque trame et fixe un
pourcentage pour trouver les trames de hautes et basses énergies (par exemple, 10% de toutes
les trames), supposées correspondre respectivement, aux étiquettes fiables des trames parole
et non-parole. Les modèles statistiques de la parole et non-parole indexés par MFCC, sont
modélisés par la quantification vectorielle (VQ) [148], comme une simplification des modèles
GMM [72], [77]. Enfin, le test du rapport de vraisemblance est estimé par une différence de
distorsion entre le modèle de la parole et le modèle non-parole. L’inconvénient majeur de
cette méthode VQ-VAD [143], est que les modèles de parole et non-parole sont formés, en
utilisant uniquement la séquence de parole actuelle prononcée par le locuteur. Alors que la
notion des segments parole et non-parole dans une séquence vocale, est indépendante du
locuteur. En outre, pour les séquences de courte durée d’entraînement et de tests, le nombre
faible de trames (environ 10% après l’application de rehaussement de la parole) peut se
traduire par des modèles statistiques non fiables.
Pour cela, nous proposons dans le cadre de notre travail de modifier VQ-VAD [143], afin
d'améliorer les performances de cette approche dans les séquences de courte durée. Ceci est
réalisé par la création des modèles offline de parole et non parole via le modèle universel
(UBM). Ces modèles de l’UBM sont créés par l’algorithme EM (Expectation-Maximization)
[77], en utilisant la parole issue d'un grand nombre de locuteurs. Ensuite, ces modèles sont
adaptés à la séquence de courte durée d’apprentissage ou de test en utilisant l’adaptation
maximum a posteriori (MAP) [149]. Pour la simplification, les modèles de parole et non-
parole dans VQ-VAD, sont obtenus dans notre approche (GMM-MAP-VAD) par l’utilisation
90
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

des vecteurs moyennes issus de l'adaptation de deux grands modèles GMM en utilisant une
concaténation de plusieurs séquences de parole. En d'autres termes, nous créons deux UBMs
pour les modèles de parole et non-parole, en utilisant toutes les séquences prononcées par
plusieurs locuteurs, et les adapter ensuite aux séquences de courtes durées de chaque locuteur
via l’adaptation MAP, afin d'obtenir pour chaque séquence de courte durée de chaque
locuteur, son modèle adapté de parole et non-parole (voir Fig.4.3.)

UBM de parole
Parole bruitée
non bruitée

µ0ubm
Le modèle UBM de non-
Soustraction
parole
spectrale

Extraction des Extraction des


indices des indices des
trames µ1ubm
trames
Le modèle UBM de parole m

Les indices des Les indices des Les indices des Les indices des
trames non-parole trames parole trames non- trames parole
parole
Paramètres parole Extraction des
Apprentissage paramètres
Extraction des de GMM
paramètres
Apprentissage
Paramètres non- de GMM Paramètres non- Paramètres parole
parole parole

Adaptation Adaptation
MAP MAP
LLR(y)=log p(y/H1) - log p(y/H0)
Décision VAD H0 =(β0,µ0)

Le modèle de
non-parole
Les segments de parole/non parole adapté

Le modèle de
parole adapté

H1 =(β1,µ1)
model

Fig.4.3 Bloc diagramme de l’approche GMM-MAP-VAD

91
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

L'algorithme de notre nouvelle approche est donné comme suit:

I/ Entrée : Toute la parole S[n] de tous les locuteurs, la taille de la trame est L1
Sortie : les modèles de UBM - parole et UBM - non - parole
1.// Extraction des M FCCs à partir du signal non bruité
X  Extraire M FCCs (S, L1, M FCCs Params);
2.// Calculer les énergies des trames du signal non bruité
E  Calculer Energie (S, L1);
3.// Trouver les indices des trames de haute et basse énergie
[i low , i high ]  Trouver les énergies hautes et basses (E, percentage (10%));
4.// Apprendre les modèles de UBM - parole et UBM - non - parole
µ UBMparole  Apprendre GM M ({xt  X | t  i high});
µ UBMnon-parole  Apprendre GM M ({xt  X | t  i low });
II/ Entrée : Signal de parole s[n] de chaque locuteur, la taille de trame est L
Sortie : Les étiquettes de VAD, VAD[t], t = 1, 2, …, T
1.// Extraction des M FCCs à partir du signal bruité
X new  Extraire M FCCs (s, L, M FCCs Params);
2.// Débruiter le signal bruité
s clean  Specsub(s, SpecsubParams);
3.// Calculer les énergies des trames du signal rehaussé
E new  Calculer Energie (s clean , L);
4.// Trouver les indices des trames de haute et basse énergie
high ]  Trouver les énergies hautes et basses (E
new
[i low , i new new
, percentage (10%));
5.// Apprendre les modèles adaptés de parole et non - parole
µ parole  M AP - adaptation ({x t  X new | t  i new
high }, µ
UBMparole
);
µ non-parole  M AP - adaptation ({x t  X new | t  i low
new
}, µ UBMnon-parole );
6.// Pour toutes les trames, choisir l' hypothèse la plus probable
VAD[t]  {log p(x t | µ parole )  log p(x t | µ non-parole ) } 
E new
t   min // avec  min est une contrainte d' énergie

K
Il est noté que p( x /  )   k ( x k ,  k ) est un GMM avec un vecteur poids  k , un vecteur
k 1

moyennes  k et matrice de covariances  k . Specsub est une fonction de voicebox de Matlab.

92
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

4.4. Le perceptron multicouche (MLP)

Les Multi-layer Perceptron (MLP) appartiennent aux réseaux multicouches [150] : ils ne
possèdent donc pas de boucle de retour, ils sont « Feed-forward ».
Les MLPs possèdent une fonction d'activation de type sigmoïde ou de Heaviside.
Le MLP est une extension multicouche du perceptron, qui est un réseau à une couche, assez
limitée.
Il utilise un algorithme d'apprentissage très répandu car facile à implémenter : la rétro-
propagation du gradient [150], qui utilise une erreur quadratique moyenne.
La rétro-propagation du gradient consiste à propager « à l’envers » (de la couche de sortie
vers la couche d’entrée) l’erreur obtenue sur les exemples de la base d'apprentissage. On
utilise pour cela l’erreur quadratique, i.e. le carré de la différence entre ce qu'on obtient et ce
qu'on désire.

4.4.1. Algorithme de Retropropagation du Gradient de l'Erreur

Soit le vecteur d'entrée xp= (xp1,...,xpN) appliqué à l'entrée du réseau, N étant la dimension
de ce vecteur descripteur des données d’apprentissage. Dans le cas du signal de parole, ces
vecteurs sont constitués des caractéristiques acoustiques.

Considérons les cellules de la couche cachée (repérée par l'incrément (2)). L'entrée de la jième
cellule de cette couche est:

(2) N (2)
a   ( w(ji2 )x )  θ (4.9)
pj pi j
i 1

wji: matrice des poids de cette cellule avec la iième entrée (provenant de la couche d'entrée).

: seuil ou biais (pris égal à -1).


La sortie de cette cellule est:

(2) N (2) (2)


s pj  f (  w ji .x pi   j ) (4.10)
i 1
La fonction utilisée est du type sigmoïde.

Cette sortie sera l'entrée de la kième cellule de la couche de sortie finale (repérée par
l'incrément (3)).

(3) L (3) (2) (3)


s  f (  w ji .s pj   k ) (4.11)
pk
i 1

L: nombre de cellules de la couche cachée.

93
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

La sortie actuelle de la kième cellule de la couche de sortie est:

y pk  f (a (pk3) ) (4.12)

Avec
L
a (pk3)   wkj(3) s (pj2)   k(3) (4.13)
j 1

 Mise à jour des poids des cellules de la couche de sortie

On définit l'erreur entre la sortie désirée et la sortie actuelle pour la kième cellule de la couche
de sortie:

 pk  yd pk  y pk (4.14)

On doit minimiser la somme quadratique des erreurs de toutes les cellules de sortie, soit:

1 K
Ep  
2 k 1
( yd pk  y pk )2 (4.15)

E p f (a (pk3) ) a (pk3)
 ( yd pk  y pk ) (4.16)
wkj(3) a (pk3) wkj(3)

Par substitution de l’équation (4.13) dans (4.16), cette dernière relation devient:

E p f (a (pk3) )
  ( yd pk  y pk ) s (pj2) (4.17)
wkj(3) a (pk3)

f (a (pk3) )
Posons  pk
(3)
 ( yd pk  y pk ) (4.18)
a (pk3)

Les équations (4.16) et (4.17) expriment une descente de gradient qui permet la mise à jour
des poids de la couche de sortie. L’équation de mise à jour des poids est exprimée par la
relation:
(3) (3) (3) (2)
wkj (t  1)  wkj (t )   . pk .s pj (4.19)

: paramètre d'apprentissage qui est un nombre positif qui représente le pas de deplacement
en direction du minimum le plus proche. Il peut être fixe, decroissant, ou adaptatif

Si l’erreur calculée descend au dessous d’un certain critère de seuil fixé préalablement, la
phase d’apprentissage est arrétée.

 Mise à jour des poids des cellules de la couche cachée.

94
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Le raisonnement précédent s'applique aussi aux cellules de la couche cachée, soit:


(2) (2) (2)
w ji (t  1)  w ji (t )   pk .x pi (4.20)

4.5. Les approches de fusion des scores proposées

Un système de fusion de score est constitué de deux modules ; un module de fusion et un


module de décision. Ainsi, la reconnaissance (vérification) du locuteur devient un problème
de classification en deux classes; OUI ou NON, ce qui correspond au client ou imposteur. Il
existe de nombreuses méthodes pour la classification de ces vecteurs de scores. Nous
distinguerons deux sous-ensembles: les méthodes de combinaison simples de scores et les
méthodes de modélisation dans un espace à N dimensions en estimant la distribution des
densités de scores.

Dans cette section nous nous intéressons uniquement aux méthodes de combinaison simples
de scores, dont leur objectif est d'obtenir un score final S fusion à partir de N scores Si
disponibles pour i  1 à N sous-systèmes. La plupart de ces méthodes simples utilisent la
moyenne, le produit, le minimum, le maximum ou la médiane des scores pour fusionner les
sous-systèmes et ne nécessitent pas une adaptation. Toutefois, il existe également des
méthodes de combinaison de scores plus avancées, qui nécessitent une configuration de
certains paramètres tels que la somme pondérée dont l’expression est donnée comme suit:

N
S fusion   wi Si (4.21)
i 1

Généralement, la somme pondérée est utilisée pour donner différents poids wi à chacun des
sous-systèmes Si en fonction de leur performance individuelle. Cependant, cette méthode de
combinaison ne peut pas être utilisée si tous les scores obtenus à partir des sous-systèmes ne
sont pas homogènes. Pour cela, cette méthode nécessite une étape préalable de normalisation
de scores.

4.5.1. L’approche de fusion des scores basée sur la somme pondérée adaptative et
GMM-MAP-VAD

Dans ce travail, nous proposons une nouvelle méthode de fusion simple des scores, qui
consiste à modifier la somme pondérée classique, pour être une méthode adaptative dans les
environnements bruités. Le schéma bloc du système de fusion en utilisant la méthode de
fusion adaptative est représenté par (voir Fig.4.5). Dans cette méthode, d’abord le taux

95
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

d’erreur égal (EER) de vérification de locuteurs et les scores issus de chaque sous-système,
sont estimés dans les environnements calmes et bruités. Ensuite, les poids wi de chaque sous-
système changent de valeurs à chaque fois que le type du bruit et le niveau de SNR change.
Autrement dit, les poids wi sont calculés à base de EER estimée à chaque niveau SNR de
chaque type du bruit. Et enfin, une normalisation de scores (Z-score) est appliquée aux scores
de tous les sous-systèmes dans l’équation (4.21).

1
EERi 1
où wi  N , et Si sont respectivement le poids de pondération, l’inverse de
1
i 1 EERi
EERi

taux d'erreur égal et le vecteur scores de i-iem sous-système dans l’environnement bruité.

96
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Sous-Sys 1

S1 SFusion O/N

parole bruitée Sous-Sys 2 Décision

S2

1
Sous-Sys N
EERi
SN wi  N
1

i 1 EERi

Bloc d’adaptation

Bruit
Type de bruit

Calcul de l’énergie des segments parole SNR


GMM-MAP-VAD

Estimation de
SNR
Estimation de l’énergie
du bruit

Fig.4.4 Bloc diagramme de l’approche proposée de la fusion des scores basée sur la somme pondérée adaptative

4.5.2. L’approche de fusion des scores basée sur la sigmoïde somme pondérée adaptative
et le réseau de neurones MLP

Dans cette approche, nous utilisons la fonction sigmoïde (courbe en S) qui est définie
mathématiquement par:

1
f ( x)  ,xR (4.22)
(1  exp(  x))

97
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

0.9

0.8

0.7

0.6
Amplitude

0.5

0.4

0.3

0.2

0.1

0
0 1 2 3 4 5 6 7 8 9 10
échantillons

Fig.4.5 allure de la fonction sigmoïde

Aussi, elle peut être donnée par l’expression suivante :

1
f ( x)  ,xR (4.23)
(1  exp( Cx))

où C est une constante qui est remplacée dans notre approche par la valeur du taux d'erreur
égal (EER). Cette dernière est calculée pour chaque sous-système, dans les environnements
calmes et bruités. Ainsi, on calcule le poids de pondération wi de i-ème sous-système comme
suit:

1
1  exp(  EERi ( Si  S i ))
wi  N (4.24)
1
i 1 1  exp(  EERi ( Si  S i ))

où N est le nombre de sous-systèmes, EERi et Si sont respectivement le taux d'erreur égal et


le vecteur de scores de i-ième sous-système qui sont estimés dans les deux conditions de

98
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

d’environnement, calme et bruité. Dans les environnements bruités, EER est estimée à chaque
niveau SNR de chaque type du bruit. S i est le vecteur moyenne de Si .

Afin d'améliorer les performances de cette nouvelle approche dans l’environnement bruité,
nous intégrons le réseau de neurones MLP [150] à l'intérieur, comme suit:

Tout d'abord, avant de fusionner les scores de tous les sous-systèmes ensemble, nous
approchons chaque vecteur de scores de chaque sous-système à un vecteur de scores désiré en
utilisant le réseau MLP. Ce vecteur désiré est bien sélectionné parmi tous les vecteurs de
scores que nous voulons fusionner, sur la base de la plus petite valeur EER calculée à partir de
chaque vecteur de scores dans l’environnement calme. Ensuite, par l'application de notre
approche, nous fusionnons ces vecteurs approchés pour obtenir un autre vecteur de scores
approché, et ceci par l'ajout des poids estimés en phase d’approximation de scores en utilisant
MLP à ceux de la somme pondérée adaptative. Par conséquent, nous calculons la nouvelle
valeur EER correspond à ce nouveau vecteur de scores.

Maintenant; si à l'itération (i), la nouvelle valeur EER est inférieur à l'ancienne valeur (EERold
= 0,5), le processus d’approximation de scores, la fusion de scores et l’estimation de EER
continue jusqu'à l'itération (i+1), et l'ancienne valeur EER prend la nouvelle valeur EER
calculée à l'itération (i). Sinon, ce processus s’arrête et le dernier vecteur de scores fusionné
est considéré.

Un algorithme de base de ce procédé est donné ci-dessous :

99
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

Entrées : Si est vecteur de scores dans un environnem ent calme ou bruité,


i  1,2,..., N ;
1. // Calculer EER de chaque sous - système dans un environnem ent calme et bruité;
EER i  EER  esitmation (Si , les étiquettes des clients, les étiquettes des imposteurs);
2.// Sélectionn er EER et son Sdésiré correspondant, dans l' environnem ent calme uniquement ;
EER best  Min ( EER1 ,..., EER N );
Sdésiré  Si correspondant à EER best ;
3.// initialise r EER old et le nombre d' itirations (iter);
EER old  0.5;
iter  1;
4.// Approcher chaque Si à Sdésirévia M LP;

[Si , wimlp ]  M LP(Si , Sdésiré , le nombre de neurones);
5.// la fusion de scores;
1
 
1 N 1  exp(  EERi (Si  Si )) 
Sfusion   ( N  wimlp )Si ;
2 i 1 1
  
i 1 1  exp(  EER (S  S ))
i i i

6. // Calculer EER new correspondant à Sfusion;


EER new  EER  esitmation (Sfusion , les étiquettes des clients, les étiquettes des imposteurs);
7. // Faire une condition;
Si EER new  EER old


 EER old  EER new ;

 iter  iter  1
 
Si  Si ;


 Reprendre le processus depuis l' étape 4 ;


Sinon alors


 Le processus est arrété à l' étape 5, et Sfusion avec EER new sont considérés ;


100
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste

4.6. Conclusion

Nous avons présenté dans ce chapitre les principaux fondements mathématiques et


algorithmiques des méthodes de fusion des scores proposées, afin d’augmenter la robustesse
des systèmes de reconnaissance du locuteur vis-à-vis du bruit d’environnements, ainsi
l’éventuelle complémentarité d’information existante entre les sous-systèmes de RAL. Aussi
nous avons proposé une nouvelle méthode de détection d’activité vocale basée sur la durée de
la séquence de parole, de telle sorte que les séquences de parole de longue durée sont adaptées
à celle de courte durée via l’adaptation MAP, dans le but d’avoir suffisamment de parole pour
que la détection des segments vocaux, soit fiable et robuste au bruit. Sans oublier l’insertion
de cette méthode de détection vocale ainsi le réseau de neurones MLP, dans les méthodes de
fusion proposées.

101
Chapitre 5

Résultats Expérimentaux et
Discussions
Chapitre 5: Résultats Expérimentaux et Discussions

Chapitre 5

Résultats Expérimentaux et Discussions

5.1. Introduction
Dans ce chapitre nous allons présenter les résultats obtenus avec un système de
reconnaissance (identification et vérification) automatique du locuteur, que nous avons
élaboré et qui est basé sur quelques méthodes de modélisation du locuteur décrites dans les
chapitres précédents. Dans ce système, la tache de reconnaissance est dévolue aux GMM-
UBM et GMM-SVM. Les protocoles de développement et d’évaluation des différentes
méthodes de modélisation et de fusion des scores pour la reconnaissance du locuteur, sont
décrits dans ce volet. Ils mettent en jeu des modules d’extraction de paramètres acoustiques à
savoir MFCC, LPC, LPCC, LFCC, PLP et MODGDCs. Les expériences ont été menées en
mode indépendant du texte. L’influence de l’environnement a également été évaluée par
simulation de différents milieux bruités.

5.2. Identification du locuteur


5.2.1. Protocole expérimental
L’identification du locuteur a été évaluée dans cette section sur 168 locuteurs cibles (100
hommes et 68 femmes) de corpus TIMIT [151], qui est une base de données composée de la
parole lue échantillonnée à 16 kHz. Le modèle d’apprentissage utilisé pour apprendre les
données caractéristiques du locuteur est GMM normalisé par UBM [71], [77]. Notre UBM
(42 minutes de parole) est un GMM avec 128 composantes, appris sur la parole issue d'un
grand nombre de locuteurs en utilisant l'algorithme EM [70]. Dans la phase de prétraitement
acoustique, nous avons utilisé l’approche GMM-MAP-VAD proposée [141] afin de détecter
la présence ou l'absence des segments vocaux dans un signal de parole. Le module de
paramétrage fournit toutes les 10 ms, des vecteurs caractéristiques de 23 coefficients MFCCs,
et d’autres 23 coefficients MFCCs basés sur des fenêtres asymétriques dont les valeurs de
paramètre k qui contrôle le degré d’asymétrie sont : k = -2,5, -1,5, 2,5 et 5, en utilisant une
fenêtre de 25 ms. Pour tester les performances de l’identification du locuteur dans un
environnement réel, nous utilisons les bruits : Babble et Usine (factory) extraits de la base de
données Noisex-92 [152] aux différents niveaux de SNR (0 dB, 5 dB, 10 dB et 15 dB).

5.2.2. Identification du locuteur dans un environnement calme


Dans cette section, nous évaluons les performances de GMM lorsque le nombre de
gaussiennes utilisées pour l'identification du locuteur varie, et aussi lorsque MFCCs et leurs

102
Chapitre 5: Résultats Expérimentaux et Discussions

extensions asymétriques sont considérés comme vecteurs d’entrées pour le GMM. Les
résultats obtenus sont présentés par les figures ci-dessous:

100
90
80
Taux d'identification (%)

70
60
50
40 GMM

30
20
10
0
k=8 k=16 k=32 k=64
Nombre de composantes

Fig.5.1 Taux d’identification du locuteur en utilisant différentes composantes de GMM

 Discussion

D’après la figure (voir Fig.5.1), on constate que les performances de l’identification du


locuteur avec GMM (k=32) en termes de taux d’identification (96,66%) semblent être
meilleures que celles correspondent au GMM avec k=8, 16 et 64. Donc de là, nous pouvons
dire que l’identification du locuteur est meilleure pour les GMMs avec le nombre de
composantes égal à 32.

100

90

80

70
Taux d'identification (%)

60

50

40

30

20

10

0
Hamming taper Asy-taper (k=-2.5)Asy-taper (k=-1.5)Asy-taper (k=2.5) Asy-taper (k=5)

Fig.5.2 Taux d’identification du locuteur en utilisant GMM (k=32) avec MFCCs et MFCCs basés sur
les fenêtres asymétriques

103
Chapitre 5: Résultats Expérimentaux et Discussions

La figure (voir Fig.5.2), montre que dans un environnement calme (non bruité), les
performances de l’identification du locuteur sont meilleures lorsque les MFCCs avec la
fenêtre asymétrique (k=-2.5 et k=-1.5)) sont utilisés (taux d’identification avec ce type de
fenêtre est de 97.85% pour k=-2.5 et de 96,87 pour k=-1.5).

5.2.3. Identification du locuteur dans un environnement bruité


Le but des expériences faites dans cette section, est d'évaluer les performances d'identification
du locuteur par GMM-UBM [77], basée sur deux méthodes d'extraction de caractéristiques
(MFCC et MFCC-asymétriques), lorsque les données de parole de test sont contaminées par
différents types de bruits additifs (Babble et Usine). Ceci permet d'obtenir une gamme de
rapports signal sur bruit de: 0, 5, 10 et 15 dB.

Tableau 1 Comparaison des résultats de l’identification du locuteur en termes de taux d’identification lors de
l'utilisation de GMM-UBM (k=32), avec MFCCs basés sur les fenêtres Hamming et asymétriques dans un
environnement réel.

Bruit SNR(dB) Ham-taper asy-taper (k=-2.5) asy-taper (k=-1.5) asy-taper (k=2.5) asy-taper (k=5)

Babble 15 50.67% 45.64% 45.24% 48.54 % 54.49%


10 38.89% 32.35% 31.30% 36.49 % 45.80%
5 16.67% 14.52% 14.13% 15.83 % 17.14%
0 4.44% 4.21% 3.51% 3.82% 6.35%
Usine 15 43.33% 42.11% 40.26% 42.83 % 50.38%
10 15.58% 14.92% 13.33% 15.20 % 17.71%
5 5.56% 4.86% 3.47% 4.74 % 6.17%
0 1.11% 1.06% 1.08% 1.64 % 3.99%

 Discussion
Le tableau 1 présente les taux d’identification du locuteur, respectivement, pour les MFCCs à
base de la fenêtre Hamming (fenêtre de base) et les MFCCs basés sur les fenêtres
asymétriques [153], [154], à la fois sous les bruits de babble et de l'usine. Il semble que tous
les systèmes de MFCCs à base de fenêtres asymétriques (k=2.5 et k=5), donnent
systématiquement de bons résultats par rapport à la fenêtre Hamming en termes de taux
d'identification. Ceci est dû au fait que, dans les estimations du spectre d’amplitude en
utilisant les fenêtres asymétriques (k=2.5 et k=5), les données sont pondérés d’une manière
plus uniforme, et les spectres ont une variance réduite par rapport aux estimations basées sur
la pondération du signal par la fenêtre de Hamming.

5.3. Vérification du Locuteur


5.3.1. Evaluation des performances de vérification du locuteur en utilisant la détection
d’activité vocale proposée ‘GMM-MAP-VAD’
5.3.1.1. Protocole expérimental
Les expériences de vérification du locuteur faites dans ce protocole sont effectuées sur une
partie du corpus TIMIT, qui est une base de données composée de la parole lue échantillonnée
à 16 kHz. Il s'agit de 168 locuteurs cibles (100 hommes et 68 femmes) avec 168 scores de

104
Chapitre 5: Résultats Expérimentaux et Discussions

clients et 28056 scores imposteurs. Pour chaque locuteur cible, 15 secondes de parole est
disponible, tandis que la durée des séquences de test est de 9 secondes. Le Modèle de mélange
gaussien adapté au modèle du monde UBM (GMM-UBM) [70] est utilisé comme modèle
d’apprentissage. Chaque séquence d'apprentissage est adaptée à partir des données UBM via
l’adaptation MAP [77]. Notre UBM (42 minutes de parole) est un GMM avec 128
composantes, appris sur la parole issue d'un grand nombre de locuteurs en utilisant
l'algorithme EM. Pour les deux modules d'extraction de paramètres et de détection de
l’activité vocale, nous avons utilisé des vecteurs caractéristiques de 23 coefficients MFCCs, et
d’autres 23 coefficients MFCCs basés sur des fenêtres (tapers en anglais) asymétriques [153],
[154], dont les valeurs de paramètre k qui contrôle le degré d’asymétrie sont : k = -2,5, -1,5,
2,5 et 5. Ces vecteurs acoustiques ont été extraits toutes les 10 ms, en utilisant une fenêtre de
25 ms.
Une remarque importante à mentionner ici, pour le VAD nous avons inclus le premier
coefficient MFCC (0), ce qui est prouvé être très efficace pour VAD comme a été souligné
dans les travaux de Kinnunen et al [143]. Toutefois, ce coefficient n’est pas informatif pour la
tâche de vérification du locuteur, donc il est négligé.
Les expériences dans des conditions perturbées sont effectuées en ajoutant synthétiquement
des bruits additifs aux séquences de parole de test. Les échantillons de bruit sont extraits à
partir de la base de données Noisex-92. Le bruit est ajouté au signal de parole en utilisant les
étapes suivantes:
• Un segment d’échantillons de bruit est choisi de façon aléatoire à partir du signal de bruit
d'origine, en fonction de la longueur de la séquence de parole.
• L'amplitude du segment de bruit varie en fonction de SNR souhaité (0 dB, 5 dB, 10 dB et 15
dB).
• Le signal de bruit est ajouté au signal propre (non bruité) pour obtenir de la parole bruitée.
Dans notre expérience, nous avons choisi deux types différents de bruit: Babble et Usine
(Factory).

4000 -10

3500 -20

3000 -30

-40
2500
Frequency (Hz)

-50
2000
-60
1500
-70
1000
-80

500
-90

0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)

Fig.5.3 Spectrogramme d’un segment de 30 ms extrait d’un bruit Babble

105
Chapitre 5: Résultats Expérimentaux et Discussions

4000
-20
3500
-30
3000
-40

2500
Frequency (Hz)

-50

2000 -60

1500 -70

1000 -80

-90
500

-100
0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)

Fig.5.4 Spectrogramme d’un segment de 30 ms extrait d’un bruit d’Usine

Les modèles génériques de parole et non-parole utilisés dans notre approche GMM-MAP-
VAD proposée, sont obtenus par concaténation 1344 séquences, prononcées par 168 locuteurs
de données d'apprentissage, en utilisant GMM avec 256 composantes. En adaptation MAP,
nous avons fixé la valeur du facteur de pertinence r à 16 pour les deux taches de vérification
du locuteur et la technique GMM-MAP-VAD proposée [141].

5.3.1.2.Vérification du locuteur basée sur GMM-MAP-VAD dans un environnement


calme
Dans cette partie, les algorithmes VAD présentés dans le chapitre précédent sont évalués, en
comparant les performances de vérification du locuteur en termes de taux d'erreur égal (EER)
et les courbes DET [86]. Cette première série d'expériences est faite en utilisant de la parole
non bruitée (propre). Les résultats sont donnés par les figures suivantes:

106
Chapitre 5: Résultats Expérimentaux et Discussions

A DET plot

without VQVAD EER= 1.31%


VQVAD(k=8) EER= 5.39%
40
VQVAD(k=16) EER= 4.44%
VQVAD(k=32) EER= 1.10%
VQVAD(k=64) EER= 5.60%

20

10
Miss probability (in %)

0.5

0.2

0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(a)
A DET plot

GMM-VAD(k=8) EER= 6.42%


GMM-VAD(k=16) EER= 3.02%
40
GMM-VAD(k=32) EER= 6.89%
GMM-VAD(k=64) EER= 6.16%

20

10
Miss probability (in %)

0.5

0.2

0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(b)

107
Chapitre 5: Résultats Expérimentaux et Discussions

A DET plot

Hamming taper EER=2.35%


Asy-taper (k=-2.5) EER=2.05%
40
Asy-taper (k=-1.5) EER=4.68%
(k=2.5) EER=8.96%
Asy-taper(k=5) EER=1.74%

20

Miss probability (in %) 10

0.5

0.2

0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(c)

Fig.5.5 Comparaison des courbes DET lors de l'utilisation: a) VQ-VAD avec MFCC-Hamming taper; b) GMM-
VAD avec MFCC-Hamming taper; c) GMM-MAP-VAD avec MFCC- Hamming et asymétriques tapers.

 Discussion
D'après les résultats montrés par Fig.5.5(a), et en comparant les performances de la
vérification du locuteur obtenues lors de l'utilisation de VQ-VAD basée sur les
caractéristiques MFCC [143], on peut observer que les performances de MFCCs avec VQ-
VAD (dans le cas où, la taille de dictionnaire-VQ est égale à 32, (k = 32)) surpassent celles de
MFCC sans VQ-VAD en termes de EER. Cependant, lorsque nous avons remplacé VQ par le
modèle GMM pour estimer les modèles parole/non-parole dans l’algorithme VQ-VAD, il est
constaté que, VAD avec VQ (EER = 1,10% avec k = 32) (voir Fig.5.5(a)) donne de meilleurs
résultats que le VAD avec GMM (EER = 3,02% avec k = 16) (voir Fig.5.5 (b)). Ceci peut être
expliqué par le fait que dans des conditions non perturbées, lorsque nous avons estimé les
zones d'activité vocale dans le signal de parole en utilisant un GMM au lieu de VQ, ce dernier
(GMM) a besoin d'une énorme quantité de données (parole) pour estimer de façon fiable les
deux modèles de la parole et non-parole (silence). D'autre part, la base de données TIMIT
utilisée dans nos expériences, est caractérisée par sa parole de courte durée (3 secondes par
séquence), et le GMM est un modèle statistique fondé sur l’estimation de maximum de
vraisemblance (ML), qui demande suffisamment de données pour effectuer une bonne
estimation [77]. Donc et vue tout ça, les performances de vérification du locuteur en matière
de EER semblent moins bonnes dans le cas de l'utilisation de GMM-VAD que dans le cas de
l'utilisation de l'approche VQ-VAD.
Pour pallier le manque de données de parole en GMM-VAD, nous avons proposé d'intégrer
l'adaptation MAP à l'intérieur. L'objectif principal de la technique GMM-MAP-VAD
proposée, est de calculer deux UBM pour les modèles de parole et non-parole, appris sur la
108
Chapitre 5: Résultats Expérimentaux et Discussions

parole de toutes les séquences prononcées par plusieurs locuteurs (168 locuteurs de la base de
données TIMIT), et de les adapter aux courtes séquences de chaque locuteur utilisé dans la
phase d’apprentissage et de test via adaptation MAP. Autrement dit, nous avons estimé les
modèles de parole et non-parole à partir de longues séquences, obtenues par concaténation des
courtes séquences (courte durée) de locuteurs, au lieu de courtes séquences seules. Fig.5.5(c)
résume les performances de vérification du locuteur lors de l'utilisation de l’approche GMM-
MAP-VAD. D’après cette figure, on constate qu’avec l’intégration de l’adaptation MAP dans
l’approche GMM-VAD proposée, l'EER diminue de 3,02% (en cas de GMM-VAD avec k =
16) à 1,74% (en cas de GMM-MAP-VAD avec la fenêtre asymétrique (k = 5)). Ceci valide
notre hypothèse sur l'impact de la taille (durée) de séquence de parole, sur les performances
de VAD et la vérification du locuteur. En outre, il peut être observé à partir de la Fig.5.5(c), la
réduction de l'erreur résultante de l'introduction de MFCCs extraits en utilisant les fenêtres
asymétriques dans GMM-MAP-VAD (EER = 1,74% pour la fenêtre asymétrique avec k = 5).
Cela a probablement dû, au bon lissage de l’enveloppe spectrale d'amplitude du signal, lors de
l'utilisation des fenêtres asymétriques, en particulier dans les régions à hautes fréquences, où
les formants d'ordre supérieur sont bien établis que lors de l'utilisation de la fenêtre de
Hamming. Et enfin, on observe que VQ-VAD surpasse légèrement notre approche GMM-
MAP-VAD en termes de EER lors de l'utilisation de la parole non bruitée.

4000
-20
Frequency (Hz)

3000 -40

2000 -60

1000 -80

0 -100
0 5 10 15
Time (s) -3
x 10
Fig.5.6 Spectrogramme d’une trame de parole non bruitée de durée 15ms, pondérée par la fenêtre symétrique de
Hamming

109
Chapitre 5: Résultats Expérimentaux et Discussions

4000
-20
Frequency (Hz)
3000 -40

2000 -60

1000 -80

0 -100
0 5 10 15
Time (s) -3
x 10
(a)

4000
-20
Frequency (Hz)

3000 -40

2000 -60

1000 -80

0 -100
0 5 10 15
Time (s) -3
x 10
(b)

110
Chapitre 5: Résultats Expérimentaux et Discussions

4000
-20
Frequency (Hz)
3000 -40
2000 -60

1000 -80

0 -100
0 5 10 15
Time (s) -3
x 10
(c)

4000
-20
Frequency (Hz)

3000
-40
2000 -60

1000 -80

0 -100
0 5 10 15
Time (s) -3
x 10
(d)

Fig.5.7 Spectrogrammes d’une trame de parole non bruitée de durée 15ms pondérée par les fenêtres
asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5

111
Chapitre 5: Résultats Expérimentaux et Discussions

5.3.1.3.Vérification du locuteur basée sur GMM-MAP-VAD dans un environnement


bruité
Cette section est consacrée à la comparaison de VQ-VAD [143] et l’approche GMM-MAP-
VAD [141] dans un environnement réel. Les séquences vocales de test sont corrompues par
deux bruits (usine et babble) à différentes valeurs de SNR. θ min est prise dans notre cas égale à
-55 dB. Les résultats en termes de EER sont énumérés dans les tableaux 2-5.

Tableau 2 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation de
MFCC avec et sans VQ-VAD dans un environnement réel.

Babble Usine
SNR (dB) SNR (dB)
Taille de dictionnaire VQ
0 5 10 15 0 5 10 15
VQ-Codebook

Sans VQ-VAD 34.20 25.52 18.09 8.16 44.70 35.36 23.49 12.89

VQ-VAD (K=8) 27.88 18.70 13.24 8.49 31.87 26.53 19.02 14.20

VQ-VAD (K=16) 32.61 22.54 16.47 10.44 35.40 28.72 21.33 16.07

VQ-VAD (K=32) 27.24 17.47 5.88 1.87 31.56 23.08 12.28 4.20

VQ-VAD (K=64) 27.64 18.30 11.61 7.30 32.98 24.59 16.21 9.26

Tableau 3 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation
de VQ-VAD avec MFCCs basés sur les fenêtres Hamming et asymétriques dans un environnement réel, avec
VQ (k=32).

Babble Usine
SNR (dB) SNR (dB)
Fenêtre
0 5 10 15 0 5 10 15

Tapers
Hamming taper 27.24 17.47 5.88 1.87 31.56 23.08 12.28 4.20

Asy-taper (k=-2.5) 16.46 8.73 5.57 5.42 27.00 16.43 9.97 7.31

Asy-taper (k=-1.5) 24.27 14.25 10.45 6.04 30.55 21.73 14.92 10.21

Asy-taper (k=2) 24.19 18.06 14.33 11.88 31.34 26.51 20.67 16.15

Asy-taper (k=5) 16.10 8.53 5.48 4.48 26.50 15.42 9.46 6.03

112
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 4 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de


l'utilisation de MFCC avec GMM-MAP-VAD dans un environnement réel.

Babble Usine
SNR (dB) SNR (dB)
Les composantes de l’UBM
0 5 10 15 0 5 10 15

UBM’s components
K=16 34.17 25.09 18.11 12.25 39.23 34.31 23.11 12.19

K=32 34.10 24.79 17.24 9.17 38.86 31.87 21.32 15.21

K=64 34.62 24.52 17.07 12.29 37.66 30.21 18.54 13.15

K=128 29.27 18.70 11.40 6.99 32.22 25.68 15.78 7.93

K=256 26.59 15.75 9.21 5.46 30.98 23.58 14.16 7.51

Tableau 5 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation de
GMM-MAP-VAD avec MFCCs basés sur les fenêtres Hamming et asymétriques, dans un environnement réel
avec le nombre de composantes de l’UBM, k=256.

Babble Usine

SNR (dB) SNR (dB)


Fenêtre 0 5 10 15 0 5 10 15

Tapers

Hamming taper 26.59 15.75 9.21 5.46 30.98 23.58 14. 16 7.51

Asy-taper (k=-2.5) 15.91 7.97 4.36 2.25 24.42 15.89 9.67 5.00

Asy-taper (k=-1.5) 23.93 13.42 9.68 6.04 39.85 20.62 13.98 9. 77

Asy-taper (k=2) 23.35 16.65 13.35 10.70 30.62 25.78 19.49 15.45

Asy-taper (k=5) 14.47 7.47 5.26 2.93 19.02 12.36 8.5 0 5.09

 Discussion
D'après les résultats donnés par les tableaux 2, 3, 4 et 5, malgré la dégradation des
performances de toutes les méthodes d’extraction quand le SNR diminue, nous constatons que
les algorithmes de VAD avec soustraction spectrale comme un prétraitement acoustique de la
parole bruitée, donnent une amélioration importante en termes de EER par rapport aux
systèmes de vérification conçus sans le module de VAD. On observe dans le tableau 4 que
notre méthode GMM-MAP-VAD donne de meilleurs résultats en termes de EER (Usine: EER
= 30,98% à SNR = 0 dB ; Babble: EER = 26,59% à SNR = 0 dB), lorsque le nombre de

113
Chapitre 5: Résultats Expérimentaux et Discussions

composantes de l’UBM égal à 256. D’après le tableau 2, nous remarquons que VQ-VAD avec
soustraction spectrale réduit EER, de 44,70% à 31,56%% pour le bruit de l'usine à SNR = 0
dB, lorsque la taille de dictionnaires VQ égale à 32, et EER à partir de 34.20% à 27.24% pour
le bruit babble. Aussi, lorsque l'on compare les résultats donnés par les tableaux 3 et 5, nous
pouvons observer que les performances de la vérification du locuteur avec notre approche
GMM-MAP-VAD, surpassent celles de VQ-VAD utilisée dans l'extraction de caractéristiques
sur la base des fenêtres asymétrique [168], sous tous les types de bruit lorsque l'ordre de
GMM (UBM) est de 256. Ceci peut être expliqué par le fait que, lorsque nous adaptons les
modèles UBM de parole/non-parole, appris en utilisant la parole non bruitée de 1344
séquences concaténées avec GMM, aux séquences de courte durée de la parole bruitée via
l’adaptation MAP, nous constatons que les zones de parole/non-parole sont mieux détectées
par GMM-MAP-VAD que par VQ-VAD. Parce que dans les séquences bruitées, il y a un
chevauchement entre les zones de parole et non-parole, en raison de la courte durée de
silence. Ceci peut également être expliqué par la capacité de généralisation des modèles MAP
de parole et non de parole adaptés. En outre, il se trouve dans les résultats donnés par le
tableau 5 que GMM-MAP-VAD basée sur les fenêtres asymétriques (filtre passe-haut),
apparait mieux intéressante que GMM-MAP-VAD basée sur la fenêtre symétrique de
Hamming, dans la plupart des conditions bruitées (babble et usine) en termes de ERR. Cela
démontre que les fenêtres asymétriques (k = 5), capte mieux les fréquences utiles (parfois, il y
a des phonèmes dans la parole comme fricatives qui existent dans les régions hautes
fréquences, surtout pour les femmes) qui ne sont pas significativement affectées par le bruit
(Babble) que la fenêtre de Hamming. Dans les figures (Fig.5.8) et (Fig.5.9) ci-dessous, nous
observons que les fenêtres asymétriques montrent moins du bruit dans les spectrogrammes
que la fenêtre de Hamming.

4000
-30

3500
-40

3000 -50

2500 -60
Frequency (Hz)

2000 -70

1500 -80

-90
1000

-100
500
-110
0
0 5 10 15
Time (s) -3
x 10

Fig.5.8 Spectrogramme d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de durée 15ms,
pondérée par la fenêtre symétrique de Hamming.

114
Chapitre 5: Résultats Expérimentaux et Discussions

4000

-40
3500

-50
3000
-60
2500

Frequency (Hz)
-70
2000
-80

1500
-90

1000
-100

500 -110

0 -120
0 5 10 15
Time (s) -3
x 10

(a)

4000
-30

3500
-40

3000 -50

2500 -60
Frequency (Hz)

2000 -70

-80
1500

-90
1000
-100
500
-110
0
0 5 10 15
Time (s) -3
x 10

(b)

115
Chapitre 5: Résultats Expérimentaux et Discussions

4000
-30

3500 -40

3000 -50

2500 -60

Frequency (Hz)
-70
2000

-80
1500
-90
1000
-100
500
-110
0
0 5 10 15
Time (s) -3
x 10

(c)

4000

-40
3500

-50
3000
-60
2500
Frequency (Hz)

-70
2000
-80
1500
-90

1000
-100

500 -110

0 -120
0 5 10 15
Time (s) -3
x 10

(d)

Fig.5.9 Spectrogrammes d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de durée 15ms
pondérée par les fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5

5.3.2. Evaluation des performances de vérification du locuteur en utilisant l’approche de


fusion des scores ‘somme pondérée adaptative ’et ‘GMM-MAP-VAD’
5.3.2.1. Protocole expérimental
La structure de la base de données utilisée dans ces expériences est la même que celle utilisée
dans le protocole de la section 5.3.1.1. Le Modèle de mélange gaussien adapté au modèle du
monde (GMM-UBM) [70] est utilisé comme modèle d’apprentissage. Le processus de
modélisation du locuteur est fait en deux phases. Dans la première phase, pour chaque
séquence de parole d'apprentissage, un GMM avec 32 composantes est appris sur les
caractéristiques spectrales extraites de cette séquence (vecteurs caractéristiques). Ensuite, une
normalisation du rapport de vraisemblance de GMM est réalisée via le modèle du monde

116
Chapitre 5: Résultats Expérimentaux et Discussions

(UBM), qui est largement utilisé dans la vérification du locuteur. Notre UBM (42 minutes de
parole) est un GMM avec 128 composantes, appris sur la parole issue d'un grand nombre de
locuteurs en utilisant l'algorithme EM. Dans la deuxième phase, chaque séquence de parole
d'apprentissage est adaptée aux données UBM, en utilisant l’adaptation MAP. Dans la phase
de prétraitement, nous utilisons l’approche GMM-MAP-VAD proposée afin de détecter la
présence ou l'absence des segments vocaux dans un signal de parole. Le module de
paramétrage fournit toutes les 10 ms, des vecteurs caractéristiques de 23 coefficients MFCCs,
et d’autres 23 coefficients MFCCs basés sur des fenêtres asymétriques dont les valeurs de
paramètre k qui contrôle le degré d’asymétrie sont : k = -2,5, -1,5, 2,5 et 5, en utilisant une
fenêtre de 25 ms.

Dans le paramétrage LFCC, la dimension des vecteurs caractéristiques est la même que celle
des MFCCs. L’extraction de LFCCs (Linear Frequency Cepstral Coefficients) [155] est
similaire à celle de MFCCs, avec une différence dans la structure des bancs de filtres Mel.
Dans la région de hautes fréquences, les filtres Mel ont été remplacés par des bancs de filtre
linéaire afin de capturer plus de détails spectraux dans cette région.

1.8

1.6

1.4

1.2
Amplitude

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100 120 140
Samples

Fig.5.10 Filtre Linéaire

Nous avons utilisé le taux d'erreur égal (EER) en tant qu’une mesure d'évaluation.

5.3.2.2. Vérification du locuteur dans un environnement calme


Les résultats obtenus dans cette section, sont considérés comme une opportunité de comparer
les performances de Sous-Sys1 (MFCC), Sous-Sys2 (LFCC) et Sous-Sys3 (MFCCs basés sur

117
Chapitre 5: Résultats Expérimentaux et Discussions

les fenêtres asymétriques) en termes de EER dans un environnement calme, lorsqu’ en


utilisant les deux modèles: GMM sans adaptation MAP et GMM avec adaptation MAP.

DET curve
40
MFCC: EER=1.26% .
35 RASTA-LFCC: EER=10.85% .
Asy-taper (k=-2.5): EER=4.76% .
30 Asy-taper (k=-1.5): EER=2.97% .
Asy-taper (k=2.5): EER=1.35% .
False Reject Rate (%)

Asy-taper (k=5): EER=1.31% .


25

20

15

10

0
0 5 10 15 20 25 30 35 40
False Acceptation Rate (%)

(a)

DET curve
40
MFCC: EER=1.16% .
35 RASTA-LFCC: EER=18.45% .
Asy-taper (k=-2.5): EER=2.5% .
30 Asy-taper (k=-1.5): EER=1.19% .
Asy-taper (k=2.5): EER=2.89% .
False Reject Rate (%)

Asy-taper (k=5): EER=1.9% .


25

20

15

10

0
0 5 10 15 20 25 30 35 40
False Acceptation Rate (%)

(b)

Fig.5.11 Courbes DET en utilisant: a) GMM sans MAP, b) GMM-MAP

118
Chapitre 5: Résultats Expérimentaux et Discussions

 Discussion

Comme le montre Fig.5.11(a), nous constatons que les performances en termes de ERR de
MFCCs (EER = 1,26%) et MFCCs basés sur les fenêtres asymétriques (k = 5, EER = 1,31%)
surpassent celles de RASTA-LFCC (EER = 10,85%). Cela peut être expliqué par le fait que,
dans la région des hautes fréquences, LFCCs utilisent des bancs de filtres linéaires dans la
chaine d’extraction, et ceci est diffèrent du mécanisme de perception de l'oreille humaine
(l’échelle logarithmique). Lorsque les résultats montrés par Fig.5.11(b) sont comparés à ceux
de Fig.5.11 (a), il est observé qu'il y a une amélioration relative de 1,16% en termes de EER
pour les caractéristiques standards (MFCCs). Cela s'explique par le fait que parfois, une
mauvaise modélisation des données d’apprentissage est observée quand le modèle GMM sans
adaptation MAP est utilisé, ceci est dû aux données manquantes utilisées pour apprendre le
GMM, en utilisant le maximum de vraisemblance (Maximum likelihood) qui demande une
très grande quantité de données pour qu’il fasse une bonne estimation. Ce n'est pas le cas
lorsque les séquences de parole d’apprentissage sont adaptées aux données UBM (pas de
manque de données) quand GMM avec adaptation MAP est utilisé. En outre, il est à noter
que MFCCs utilisant les fenêtres asymétriques avec (k = 5, EER = 1.9% et k = -1.5, ERR =
1,19%) apporte une amélioration par rapport aux autres fenêtres de Fig.5.11 (b).

5.3.2.3. Vérification du locuteur dans un environnement bruité


Pour tester les performances de toutes les méthodes d’extraction de paramètres, en utilisant le
modèle GMM sans et avec adaptation MAP dans des environnements réels, nous avons utilisé
un bruit babble et le bruit de l'usine pour simuler l’environnement bruité. Les résultats de ces
expériences sont résumés dans les tableaux ci-dessous :

Tableau 6 Comparaison des résultats de la vérification du locuteur en termes de EER, quand GMM sans
adaptation MAP est utilisé dans un environnement réel

Bruit SNR MFCC LFCC Asy ( K=-2.5) Asy (K=-1.5) Asy (K=2.5) Asy(K=5)

Usine 15 13.69% 15.47% 10.47% 9.59% 7.14% 7.74%

10 23.80% 21.42% 23.21% 24.18% 20.23% 17.87%

5 37.06% 36.19% 35.60% 37.41% 35.89% 32.73%

0 44.66% 41.32% 43.65% 44.48% 41.07% 40.27%

Babble 15 9.14% 19.64% 3.81% 6.10% 3.35% 1.87%

10 16.34% 26.41% 8.29% 13.81% 8.93% 5.95%

5 26.80% 29.31% 21.71% 25.28% 19.66% 18.63%

0 37.50% 36.84% 32.90% 35.76% 32.16 % 32.14%

119
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 7 Comparaison des résultats de la vérification du locuteur en termes de EER, quand GMM avec
adaptation MAP est utilisé dans un environnement réel

Bruit SNR MFCC LFCC Asy ( K=-2.5) Asy (K=-1.5) Asy (K=2.5) Asy (K=5)

Usine 15 7.85% 27.97% 10.11% 8.94% 10.12% 9.23%

10 17.85% 30.38% 23.80% 22.28% 19.04% 20.23%

5 30.95% 35.11% 37.50% 36.30% 35.11% 33.57%

0 42.26% 39.90% 45.38% 46.42% 43.54% 45.23%

15 4.76% 26.18% 3.57% 7.14% 3.27% 4.16%


Babble
10 8.94% 32.31% 8.24% 14.28% 7.73% 7.38%

5 20.42% 34.08% 19.14% 24.40% 17.43% 16.99%

0 35.14% 43.45% 32.73% 33.92% 30.95 % 31.92%

 Discussion

Les résultats présentés par le tableau 6 montrent que, malgré la dégradation des performances
de toutes les méthodes d’extraction quand le SNR diminue, nous constatons que les
paramètres basés sur les fenêtres asymétriques semblent robustes aux bruits que les autres
méthodes d'extraction de caractéristiques (MFCCs et LFCCs). En outre, on observe que les
fenêtres asymétriques donnent de meilleurs résultats que la fenêtre Hamming, dans la plupart
des environnements bruités (babble et usine) en termes de EER. Par rapport à la fenêtre
standard (Hammin), la fenêtre asymétrique avec k = 5, prévoit une amélioration en termes de
EER de: 32,14% à SNR = 0 dB et 18,63% à SNR = 5dB, sous le bruit babble et 40,27% à
SNR = 0 dB et 32,73% à SNR = 5 dB, sous le bruit de l'usine. L'insuffisance des données
d'entraînement dans ce cas (GMM sans adaptation MAP), en particulier dans les régions de
hautes fréquences, provoque la dégradation des performances qui probablement due à la
sélectivité du filtre Mel dans cette région. En effet, ce filtre capte moins les fréquences utiles
lorsque la fenêtre Hamming est utilisée. Toutefois, lorsque la fenêtre asymétrique (k = 5) est
considérée, nous constatons que le nombre des hautes fréquences qui sont retenues est élevé
par rapport à celle de Hamming, parce que la fenêtre asymétrique (k = 5) est considérée
comme un filtre passe-haut. Dans l’extraction des LFCCs, le spectre d'énergie dans la région
de hautes fréquences est faible, et il est donc plus sensible à la corruption de bruit. Par
conséquent, le système basé sur LFCC est moins robuste aux bruits de hautes fréquences
(usine) que MFCC et MFCC basés sur les fenêtres asymétriques en termes de EER.

120
Chapitre 5: Résultats Expérimentaux et Discussions

D’après les résultats résumés dans le tableau 7, on observe que MFCCs à base de la fenêtre
Hamming apporte une amélioration en termes de EER sous le bruit de l'usine. En outre, nous
notons que, sous le bruit babble et à SNR = 0 dB et 5 dB, les performances de toutes les
méthodes d’extraction de caractéristiques sont meilleures que celles de GMM sans MAP en
termes de EER. Ceci probablement est dû au fait que, le spectre de bruit babble est parfois
similaire à celui de la parole de test. En effet, il y a parfois des phonèmes qui sont mal classés
par le modèle d’apprentissage. Cependant, lorsque nous ajoutons le bruit babble à la parole de
test, il est constaté que les phonèmes de bruit qui sont semblables à ceux de la parole de test,
deviennent bien représentés et détectés par le modèle d’apprentissage en raison de la forte
présence de bruit.

5.3.2.4. Evaluation des performances de la méthode de fusion des scores ‘somme


pondérée adaptative’ en termes de EER pour la vérification du locuteur dans un
environnement bruité
Une étape de plus vers l'amélioration des performances du système de vérification du locuteur
dans un environnement perturbé, est l’investigation d’une possible complémentarité entre les
différents sous-systèmes représentés par les différents paramètres à savoir ; MFCC classiques,
MFCCs basés sur les fenêtres asymétriques, et LFCCs. Pour se faire, plusieurs techniques de
fusion (somme simple, max, min, SVM bi-classes basés sur un noyau RBF (gamma=0.2) et la
méthode adaptative proposée) ont été appliquées aux scores des différents sous-systèmes à
base de GMM sans et avec l’adaptation MAP comme modèles d’apprentissage. Les résultats
de cette comparaison sont résumés dans les tableaux ci-dessous.

Tableau 8 Comparaison entre les performances des différentes techniques de fusion des scores des sous-
systèmes, formés par les différents paramètres en termes de EER, en utilisant GMM sans l’adaptation MAP
dans un environnement bruité

Bruit SNR max min somme simple SVM Somme pondérée adaptative

Usine 15 7.33% 8.34% 11.12% 10.71% 6.05%

10 16.65% 17.88% 18.82% 19.64% 13.69%

5 30.29% 31.23% 32.48% 21.29% 27.38%

0 40.57% 40.90% 41.22% 24.92% 37.98%

Babble 15 4.21% 5.02% 5.67% 4.16% 2.69%

10 7.97% 7.98% 8.74% 8.93% 5.95%

5 19.14% 20.09% 21.14% 15.48% 16.64%

0 32.18% 33.55% 33.87% 21.38% 30.35 %

121
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 9 Comparaison entre les performances des différentes techniques de fusion des scores des sous-
systèmes, formés par les différents paramètres en termes de EER, en utilisant GMM avec l’adaptation MAP dans
un environnement bruité

Bruit SNR max min somme simple SVM Somme pondérée adaptative

Usine 15 6.88% 7.47% 10.71% 10.36% 5.95%

10 15.86% 16.38% 17.80% 18.44% 13.34%

5 29.67% 30.41% 31.50% 20.80% 25.80%

0 39.43% 40.19% 41.08% 23.41% 36.95%

Babble 15 3.99% 4.49% 4.63% 2.59% 2.38%

10 7.04% 7.31% 8.24% 7.14% 5.73%

5 18.36% 19.28% 20.13% 15.18% 16.07%

0 31.49% 32.46% 32.73% 22.81% 29.05 %

 Discussion

D'après les tableaux 8 et 9, il est montré que la méthode de fusion des scores basée sur la
somme pondérée adaptative (approche proposée) surpasse et apporte une amélioration en
termes de EER dans l’environnement bruité par rapport aux résultats donnés par d'autres
techniques, sauf SVM [82] à faible SNR (SNR <10 dB). Ceci valide notre hypothèse sur la
complémentarité existante entre les caractéristiques de chaque sous-système. En outre, on
observe qu’au niveau SNR = 10 dB et 15 dB, lorsque GMM-UBM est utilisé comme modèle
d’apprentissage (voir Tableau 9), notre nouvelle approche donne de meilleurs résultats par
rapport aux SVMs (bruit babble : EER = 5,73% à 10 dB et EER = 2,38% à 15 dB. Bruit
d’usine: EER = 13,34% à 10 dB et EER = 5,95% à 15 dB). Par contre, dans les situations où
l'environnement est très bruité (SNR = 0 dB et 5 dB), nous constatons que, les SVMs
apportent une amélioration significative en termes de ERR (bruit Babble: EER = 22,81% à 0
dB et EER = 15.18% à 5 dB. Bruit d’usine: EER = 23,41% à 0 dB et EER = 20,80% à 5 dB).
Ceci peut être expliqué par le fait que dans des environnements peu bruités (SNR> = 10dB),
les scores issus de différents sous-systèmes sont linéairement séparables donc une fusion
linéaire simple (somme pondérée adaptative) peut faire l'affaire (de bons résultats). Par contre,
lorsque l'environnement devient très bruités (SNR <10 dB), données (scores) deviennent non-
linéairement séparables (données qui se chevauchent), alors les SVMs deviennent plus
intéressants que les méthodes simples.

122
Chapitre 5: Résultats Expérimentaux et Discussions

5.3.3. Evaluation des performances de vérification du locuteur en utilisant la méthode de


fusion des scores ‘sigmoïde somme pondérée adaptative’ et ‘MLP’
5.3.3.1. Protocole expérimental
Le système de vérification du locuteur proposé sur la base de notre nouvelle approche de
fusion des scores proposée (sigmoïde somme pondérée adaptative), est implémenté et testé.
Les signaux de parole, sont produits par des locuteurs pour être introduits dans 5 sous-
systèmes de vérification, Sous-Sys1 à Sous-Sys5, pour chaque modèle GMM-UBM [70] et
GMM-SVM [83], en utilisant respectivement les caractéristiques MFCC , PLP , LPC et
LPCC. Les scores issus de chaque sous-système en utilisant les différents types de paramètres
dans des conditions calmes ou bruitées, sont ensuite fusionnés pour obtenir deux vecteurs de
scores S1 et S2, correspondant à nos deux modèles (GMM-UBM et GMM-SVM), sur
lesquels une fusion des scores est également rétablie. Pour tester les performances de notre
méthode de fusion des scores adaptative dans un environnement réel, nous utilisons les
bruits : Babble, Usine (factory) et le bruit Blanc (White) extraits de la base de données
Noisex-92 aux différents niveaux de SNR (0 dB, 5 dB, 10 dB et 15 dB).

4000
-30
3500
-40

3000
-50

2500
Frequency (Hz)

-60

2000 -70

1500 -80

-90
1000

-100
500

-110
0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)

Fig.5.12 Spectrogramme d’un segment de 30 ms extrait d’un bruit Blanc

Les résultats des expériences de vérification du locuteur sont effectués sur le corpus NIST
2000 [156], qui est composée de données de la parole téléphonique en utilisant le même
combiné avec des fichiers à un seul canal SPHERE, encodés en muLaw 8 bits et
échantillonnés à 8 kHz. Ces données de parole sont contribuées par 200 locuteurs cibles (120
hommes et 80 femmes). Pour chacun d'eux, cinq séquences de conversation d'environ 2
minutes de parole d’apprentissage, et 30 secondes de tests ont été sélectionnées. Les attaques

123
Chapitre 5: Résultats Expérimentaux et Discussions

de vérification sont constituées de toutes les combinaisons possibles modèle-test, résultant


dans des attaques totales de 200 000 (1000 clients cibles par rapport aux 199 000 attaques
imposteurs). En adaptation MAP, chaque séquence de parole est adaptée aux données UBM et
la valeur du facteur de pertinence r est fixée à 16 pour les deux modèles GMM-UBM et
GMM-SVM. A 512 composantes, l’UBM est appris par l’algorithme EM en utilisant de la
parole (10 heures) collectée à partir d'un grand nombre de locuteurs. Le deuxième modèle
GMM-SVM [83] est conçu en utilisant un noyau RBF, donné par

k ( x, x )  e 
2
x  xi

 i (5.1)
  2

Dans la phase de prétraitement, nous avons utilisé la l’approche GMM-MAP-VAD proposée


[141] pour détecter la présence ou l'absence des segments vocaux dans un signal de parole. En
phase de paramétrage, nous spécifions l'espace des caractéristiques. En effet, comme le signal
de parole est dynamique et variable, nous représentons les séquences d'observation de
différentes tailles par des vecteurs de taille fixe. Chaque vecteur est donné par les différents
types de caractéristiques extraites toutes les 10 ms, en utilisant une fenêtre de 25 ms. Les
paramètres utilisés dans ce travail sont les coefficients : MFCC (12 coefficients) et leurs
dérivées premières et secondes (24 coefficients) plus le paramètre de l'énergie, PLP avec 12
coefficients par vecteur, LPC avec 12 coefficients et enfin un vecteur de 12 coefficients de
LPCC. Considérant que EER est utilisée comme la métrique d’évaluation.

Dans la méthode de fusion des scores proposée, notre réseau de neurones MLP [150] ne
contient qu'une seule couche cachée, avec 100 unités (neurones) cachées qui sont ajustées sur
la base des valeurs d'erreur de validation, et une seule couche de sortie. Aussi notre MLP est
appris sur 1000 itérations.

5.3.3.2. Vérification du locuteur dans un environnement calme


Comme mentionné dans le chapitre précédent, le procédé de l’approche de fusion des scores
adaptative, commence en utilisant les scores calculés dans un environnement calme (données
initiales). Aussi, c’est une opportunité de comparer les performances de GMM-UBM et
GMM-SVM en termes de EER dans un environnement calme, en utilisant les différents types
de caractéristiques, MFCC, PLP, LPC et LPCC et les techniques de fusion des scores, somme,
min, max et produit , contre notre méthode proposée.

124
Chapitre 5: Résultats Expérimentaux et Discussions

A DET plot

MFCC+d+dD+e: EER=1.84% .
40
MFCC: EER=1.94% .
PLP: EER=2.02% .
LPC: EER=2.10% .
20 LPCC: EER=2.32% .
Miss probability (in %)
10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(a)

A DET plot

LPCC: EER=3.97% .
40
PLP: EER=3.46% .
LPC: EER=3.67% .
MFCC: EER=3.21% .
20 MFCC+d+dD+e: EER=3.21% .
Miss probability (in %)

10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)
(b)

Fig.5.13 Les courbes DET en utilisant: a) GMM-UBM, b) GMM-SVM.

125
Chapitre 5: Résultats Expérimentaux et Discussions

adaptive approach: EER=1.79% .


40
prod approach: EER=1.86% .
min approach: EER=1.94% .
max approach: EER=1.90% .
20 sum approach: EER=1.86% .

Miss probability (in %) 10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(a)

adaptive approach: EER=3.06% .


40
prod approach: EER=3.24% .
min approach: EER=3.54% .
max approach: EER=3.51% .
20 sum approach: EER=3.26% .
Miss probability (in %)

10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(b)

Fig.5.14 Les courbes DET en utilisant les méthodes de fusion de scores avec: a) GMM-MAP, b) GMM-
SVM

126
Chapitre 5: Résultats Expérimentaux et Discussions

GMM-UBM+GMM-SVM: EER=0.87% .
40

20

Miss probability (in %)


10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

Fig.5.15 La courbe DET en utilisant: l’approche de fusion des scores proposée entre GMM-UBM and GMM-
SVM

 Discussion
Comme le montre Fig.5.13(a) et Fig. 5.13 (b), pour différentes valeurs de EER et le type de
paramètres, MFCCs avec leurs dérivées premières et secondes ainsi le paramètre de l'énergie
surpassent LPCs, PLPs et LPCCs dans les environnements contrôlés où les données de la
parole sont recueillies à partir des environnements raisonnablement calme. En outre, on
observe que GMM-UBM est plus performant que le GMM-SVM en termes de EER. Les
figures (voir Fig.5.14 (a) et Fig.5.14(b)) montrent que pour les différentes approches de
fusion des scores, la somme pondérée basée sur la fonction sigmoïde adaptée, a ‘EER’ plus
petite que les autres approches (EER = 1,79% avec GMM-UBM et EER = 3,06% avec GMM-
SVM). Les résultats mettent en évidence la complémentarité entre ces différents vecteurs
acoustiques, malgré le fait que toutes les caractéristiques acoustiques utilisées dans cette
expérience, portent des informations différentes de celles de MFCCs. Selon les résultats
présentés par la figure (voir Fig.5.15), on peut confirmer que la fusion des scores basée sur
notre méthode apporte des améliorations en termes de EER (EER = 0,87%) grâce à une fusion
entre les modèles GMM-UBM et GMM-SVM. Cela confirme notre hypothèse sur la
complémentarité qui existe entre les modèles.

5.3.3.3. Vérification du locuteur dans un environnement bruité


Pour tester les performances de toutes les méthodes d’extraction de paramètres acoustiques
dans des environnements réels, nous utilisons les bruits babble, usine et le bruit blanc. Les
résultats sont présentés dans les tableaux 10 et 11 ci-dessous:

127
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 10 Comparaison des résultats de la vérification du locuteur en termes de EER, lors de


l'utilisation de GMM-UBM avec différents types de paramètres dans un environnement réel.

Bruit SNR(dB) MFCC MFCC+d+dD+e PLP LPC LPCC

Babble 15 4.20% 3.61% 3.72% 4.14 % 4.02%


10 4.31% 6.03% 4.66% 5.77 % 5.63%
5 8.04% 8.54% 8.04% 10.05 % 9.54%
0 13.88% 15.09% 13.49% 14.76 % 16.04%
Usine 15 6.46% 6.04% 5.52% 5.72 % 7.61%
10 10.55% 9.97% 11.05% 12.74 % 12.21%
5 16.58% 16.08% 17.01% 17.84 % 18.59%
0 26.90% 25.40% 25.12% 25.67 % 25.73%
Blanc 15 19.59% 20.10% 20.10% 18.59% 20.10%
10 28.14% 27.66% 28.64% 28.82% 28.14%
5 35.67% 33.16% 34.17% 35.17% 33.65%
0 39.69% 38.19% 41.20% 40.20% 39.67%

Tableau 11 Comparaison des résultats de la vérification du locuteur en termes de EER, lors de


l'utilisation de GMM-SVM avec différents types de paramètres dans un environnement réel.

Bruit SNR(dB) MFCC MFCC+d+dD+e PLP LPC LPCC

Babble 15 6.43% 6.07% 5.24% 6.32 % 8.03%


10 7.75% 7.47% 6.32% 7.67 % 8.14%
5 8.59% 9.39% 10.13% 8.02 % 8.65%
0 10.37% 11.60% 10.51% 11.02 % 12.38%
Usine 15 9.79% 10.45% 9.43% 10.78 % 11.55%
10 14.07% 14.87% 14.11% 15.71 % 15.09%
5 19.74% 18.99% 20.35% 19.09 % 22.87%
0 26.43% 24.49% 26.70% 25.95 % 30.23%
Blanc 15 18.52% 16.70% 14.21% 17.69% 17.22%
10 23.34% 25.56% 25.27% 22.93% 22.98%
5 32.20% 29.75% 32.03% 30.86% 30.71%
0 38.07% 36.19% 34.50% 35.43% 40.35%

 Discussion

On peut remarquer dans les tableaux 10 et 11 que malgré la diminution de la valeur SNR, le
PLP et MFCC avec ou sans leurs dérivées premières et secondes ainsi le paramètre d’énergie
sont plus robustes et précis dans des conditions bruitées que LPC et LPCC, soit avec GMM-
UBM (à SNR = 0 dB, EER = 13,49% sous le bruit babble, EER = 25.12% sous le bruit de
l'usine avec PLP et EER = 38.19% sous bruit blanc avec MFCCs ainsi leurs première et
second dérivées + énergie) ou avec GMM-SVM (à SNR = 0 dB, EER = 10,37% sous le bruit
babble avec MFCCs, EER = 24,49% sous le bruit de l'usine avec MFCCs ainsi leurs première
et second dérivées + énergie, et EER = 34,50% sous bruit blanc avec PLP) .Ceci peut être
expliqué par le fait que, ces techniques d'extraction de caractéristiques (MFCC et PLP)
utilisent les concepts de la psychophysique de l'oriel et la résolution spectrale des bandes
128
Chapitre 5: Résultats Expérimentaux et Discussions

critiques. En outre, on peut voir pour les deux modèles (GMM-UBM et GMM-SVM) (à SNR
= 0 dB et 5 dB), que les performances de différents paramètres acoustiques sont meilleures
sous le bruit babble que sous les bruits de l’usine et le bruit blanc. Cela a probablement dû au
fait que, le spectre de bruit babble est similaire à la parole de test par rapport à une certaine
forme de phonèmes qui sont mal représentés par GMM-UBM en l'absence de bruit.
Cependant, lorsque nous ajoutons un bruit babble à la parole de test, il est constaté que les
phonèmes de la parole de test qui sont similaires à ceux de bruit babble sont bien discriminés
par GMM-UBM. En comparant les résultats du tableau 10 pour GMM-UBM avec ceux du
tableau 11 pour les GMM-SVM, il est possible de voir que lorsque le SNR est supérieur à 10
dB, à l'exception de quelques cas dans le cas d'un bruit blanc, le GMM-UBM donne de
bonnes performances en termes de EER. Ceci peut être expliqué par la séparabilité linéaire
des caractéristiques issues à partir de différentes méthodes d'extraction dans des conditions de
faible bruit (SNR> = 10 dB). Par conséquent, la représentation gaussienne peut distinguer et
bien classer les locuteurs. Mais, les paramètres acoustiques deviennent non-linéairement
séparables (données qui se chevauchent) aux niveaux beaucoup plus élevés de bruit (SNR <10
dB). Donc, le GMM-SVM avec son noyau (RBF) a de meilleures performances que GMM-
UBM.

5.3.3.4. Evaluation des performances de la méthode de fusion des scores ‘sigmoïde


somme pondérée adaptative’ en termes de EER pour la vérification du locuteur
dans un environnement bruité
Dans le but d'améliorer les performances du système de vérification du locuteur dans un
environnement réel, ainsi une investigation d’une possible complémentarité entre les
différents types de paramètres. Plusieurs techniques de fusion (somme simple, max, min,
produit et la méthode adaptative proposée) sont appliquées aux scores des différents sous-
systèmes utilisant différents types de vecteurs acoustiques.

Tableau 12 Comparaison des résultats de la vérification du locuteur en termes de EER, lors de


l'utilisation de GMM-UBM avec différents types de méthodes de fusion des scores dans un
environnement réel.

Brui SNR(dB) prod min max somme simple Approche adaptative

Babble 15 3.50% 3.35% 3.58% 3.52 % 3.18%


10 6.49% 4.99% 4.79% 4.60 % 3.91%
5 8.10% 8.83% 7.57% 7.78 % 7.49%
0 12.51% 13.75% 13.02% 12.62 % 12.26%
Usine 15 7.06% 6.05% 4.90% 4.78 % 4.22%
10 8.49% 10.54% 7.73% 8.03 % 7.22%
5 14.26% 17.30% 12.85% 13.48 % 12.56%
0 21.35% 26.84% 19.71% 20.92 % 19.39%
Blanc 15 18.66% 17.82% 18.76% 18.50% 18.42%
10 26.37% 27.52% 26.53% 26.38% 26.20%
5 32.77% 33.69% 32.12% 32.73% 32.03%
0 38.14% 39.71% 37.73% 38.42% 37.10%

129
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 13 Comparaison des résultats de la vérification du locuteur en termes de EER, lors de


l'utilisation de GMM-SVM avec différents types de méthodes de fusion des scores dans un
environnement réel.

Bruit SNR(dB) prod min max somme simple Approche adaptative

Babble 15 5.02% 6.71% 5.24% 5.54 % 4.49%


10 6.11% 7.90% 6.30% 6.49 % 5.80%
5 7.64% 8.52% 10.13% 7.83 % 7.14%
0 9.74% 10.37% 10.51% 9.82% 9.35%
Usine 15 8.39% 10.65% 9.26% 8.83 % 7.38%
10 11.93% 15.43% 13.33% 12.20 % 10.71%
5 15.96% 21.10% 19.47% 16.74 % 14.17%
0 22.29% 27.35% 25.84% 22.64 % 19.99%
Blanc 15 15.25% 18.10% 14.22% 15.48% 13.66%
10 22.74% 22.77% 25.30% 22.63% 21.63%
5 30.41% 31.58% 31.98% 30.30% 29.22%
0 35.60% 37.17% 35.16% 35.75% 29.84%

 Discussion

Les tableaux 12 et 13 comparent les résultats de vérification du locuteur en termes de EER


dans des environnements bruités, en utilisant des techniques de fusion des scores pour GMM-
UBM et GMM-SVM, respectivement. On peut voir clairement que notre approche de fusion
des scores adaptative est plus performante que les autres méthodes en termes de ERR, soit
pour GMM-UBM ou GMM-SVM. Cela peut être expliqué par le fait que, dans
l’approximation de chaque vecteur de scores bruités au vecteur de scores désiré via le réseau
MLP [150] dans la méthode de fusion proposée, les scores loin de leurs moyennes (outliers)
sont calibrés autour de leurs moyennes en utilisant des pondérations basées sur la fonction
sigmoïde et les poids MLP [150]. En d'autres termes, nous réajustons les vecteurs de scores
bruités pour qu’ils soient rapprochés au maximum de vecteur de scores désiré en utilisant le
réseau MLP, de telle sorte que la distance euclidienne entre chaque échantillon dans les
scores bruités, et son correspondant dans le vecteur désiré est petite. Aussi nous notons que la
fusion entre les scores de tous les paramètres acoustiques, en utilisant la nouvelle méthode
proposée apporte une réduction importante de EER (cas de GMM-UBM et à SNR = 0 dB,
EER = 12,26% sous le bruit babble, EER = 19,39% sous le bruit de l'usine et EER = 37.10%
sous bruit blanc. Cependant, dans le cas de GMM-SVM et à SNR = 0 dB, EER = 9,35% sous
le bruir babble, EER = 19,99% sous le bruit de l'usine et EER = 29,84% sous bruit blanc). Ces
résultats confirment de nouveau la complémentarité entre les caractéristiques acoustiques
utilisées pour le même modèle d’apprentissage.

Afin d'étudier la possibilité d’avoir une complémentarité entre GMM-UBM et GMM-SVM,


nous fusionnons les scores fusionnés de chaque modèle en utilisant notre méthode de fusion
des scores adaptative. Les résultats de cette fusion entre les modèles dans l’environnement
bruité, sont représentés en différentes courbes DET à différentes valeurs de SNR.

130
Chapitre 5: Résultats Expérimentaux et Discussions

babble: EER=6.16% .
40
factory: EER=16.44% .
white: EER=26.60% .

20

Miss probability (in %)


10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(a)

babble: EER=4.02% .
40
factory: EER=9.87% .
white: EER=26.18% .

20
Miss probability (in %)

10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(b)

131
Chapitre 5: Résultats Expérimentaux et Discussions

babble: EER=2.41% .
40
factory: EER=5.67% .
white: EER=18.42% .

20

Miss probability (in %)


10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(c)

babble: EER=1.57% .
40
factory: EER=2.98% .
white: EER=10.56% .

20
Miss probability (in %)

10

0.5

0.2
0.1

0.1 0.2 0.5 1 2 5 10 20 40


False Alarm probability (in %)

(d)

Fig.5.16 Les courbes DET de la fusion de GMM-UBM avec GMM-SVM à: a) SNR= 0 dB, b) SNR= 5 dB, c)
SNR= 10 dB et d) SNR= 15 dB

132
Chapitre 5: Résultats Expérimentaux et Discussions

 Discussion

A partir des résultats montrés par la figure (voir Fig.5.16), il est observé que les performances
du système de vérification du locuteur sont très améliorées dans les environnements bruités (à
SNR = 0 dB, EER = 6,16% sous le bruit babble, EER = 16,44% sous le bruit de l'usine et
EER = 26,60% sous le bruit blanc) lorsque les performances de GMM-UBM sont fusionnées
avec celles de GMM-SVM. Ceci conclu que la robustesse du système de vérification du
locuteur dans des environnements bruités est meilleure en termes de EER, lorsque la fusion
des scores est appliquée entre les modèles qu’entre les scores des paramètres spectraux
utilisés pour chaque modèle seul.

5.3.4. Evaluation des performances de vérification du locuteur en utilisant PCA, LDA et


la méthode de fusion de scores ‘la régression logistique’
5.3.4.1. Protocole expérimental
La structure de la base de données et le modèle d’apprentissage utilisés dans ce protocole sont
les mêmes utilisés dans la section 5.3.1.1.
Nous avons aussi utilisé pour ce protocole, PCA [124] et LDA [125] comme étant des
techniques de diagonalisation de la matrice de covariances de données, elles projettent les
caractéristiques spectrales (MFCCs) de locuteurs dans les directions principales de l’espace de
Fisher, avant que les paramètres soient modélisés par GMM-UBM. En phase de paramétrage,
nous avons spécifié l'espace de vecteurs caractéristiques utilisés. Nous avons présenté les
séquences d'observation de différentes tailles par des vecteurs de taille fixe. Chaque vecteur
est représenté par les coefficients MFCCs (23 coefficients), et d’autres 23 coefficients MFCCs
basés sur les fenêtres asymétriques, dont les valeurs de paramètre k qui contrôle le degré
d’asymétrie sont : k = -2,21, -1,41, 2,31 et 4 en utilisant une fenêtre de 25 ms. GMM-MAP-
VAD est utilisée comme méthode de détection d’activité vocale, afin d’améliorer les
performances du système de vérification dans des conditions perturbées. Par conséquent, nous
avons procédé à des tests de vérification du locuteur dans un environnement bruité avec
l’ajout des bruits additifs (Babble et usine) extraits de la base de données Noisex-92 (OTAN:
AC 243 / RSG 10), à la parole de test aux différents niveaux de SNR (0, 5, 10 et 15 dB). Nous
avons utilisé le taux d'erreur égal (EER), minDCF et actDCF [99] comme métriques
d'évaluation. Pour la calibration et la fusion des scores, nous avons utilisé bosaristoolkit [157].

5.3.4.2. Vérification du locuteur dans un environnement calme


Dans cette section, nous comparons les performances de GMM-MAP, PCA-GMM-MAP et
LDA-GMM-MAP et leurs fusions des scores en termes de EER, minDCF et actDCF [99]
dans un environnement calme, en utilisant deux types de vecteurs caractéristiques: MFCCs et
MFCCs basés sur les fenêtres asymétriques. Tout d'abord, nos vecteurs caractéristiques sont
utilisés sans être projetés dans l’espace propre de Fisher en utilisant PCA et LDA. Ensuite,
les mêmes vecteurs caractéristiques sont projetés dans deux espaces de projection de PCA et
LDA, avant d'être modélisés par GMM-UBM, et à la fin, une fusion des score basée sur la

133
Chapitre 5: Résultats Expérimentaux et Discussions

régression logistique est appliquée à leurs scores. Fig.5.17. illustre les courbes DET des 15
systèmes de vérification dans un environnement calme.

DET plot
50
sys1 (MFCC)
sys2 (Asy-MFCC (k=-2.21))
40
sys3 (Asy-MFCC (k=-1.41))
sys4 (Asy-MFCC (k=2.31))
30 sys5 (Asy-MFCC (k=4))
sys6 (PCA-GMM-UBM) MFCC
sys7 (PCA-GMM-UBM)Asy-MFCC (k=-2.21)
20 sys8 (PCA-GMM-UBM)Asy-MFCC (k=-1.41)
sys9 (PCA-GMM-UBM)Asy-MFCC (k=2.31)
sys10 (PCA-GMM-UBM)Asy-MFCC (k=4)
sys11 (LDA-GMM-UBM) MFCC
Miss probability (in %)

10
sys12 (LDA-GMM-UBM)Asy-MFCC (k=-2.21)
sys13 (LDA-GMM-UBM)Asy-MFCC (k=-1.41)
sys14 (LDA-GMM-UBM)Asy-MFCC (k=2.31)
5 sys15 (LDA-GMM-UBM)Asy-MFCC (k=4)
fusion 1+2+3+4+5+6+7+8+9+10+11+12+13+14+15

0.5

0.2

0.1

0.1 0.2 0.5 1 2 5 10 20 30 40 50


False Alarm probability (in %)

Fig.5.17 les courbes DET de tous les systèmes sous l’environnement calme

 Discussion

D'après la figure (voir Fig.5.17), il est observé que les performances de MFCCs basés sur les
fenêtres asymétriques surpassent celles de MFCCs basés sur la fenêtre de Hamming en termes
de EER, en particulier lorsque les fenêtres asymétriques sont considérées comme filtre passe-
bas (k = -2,21), parce que dans les conditions non bruitées, l'information utile dans la parole
existe dans les basses fréquences. En outre, on peut observer à partir de la même figure que
lorsque nous avons projeté les vecteurs caractéristiques dans les espaces de PCA et LDA, une
amélioration importante de l'EER est observée, surtout quand MFCCs basés sur les fenêtres
asymétriques sont utilisés. Cette amélioration peut être expliquée par le fait que, GMM-UBM
qui est utilisé comme le modèle d’apprentissage dans le présent travail, utilise la matrice de
covariance diagonale pour chaque gaussienne, et cette hypothèse est satisfaite par le
partitionnement obtenu par la projection des vecteurs caractéristiques dans les espaces PCA
et LDA. Autrement dit, avec la projection des paramètres spectraux dans les espaces propre
de PCA et LDA, la matrice de covariance de nouveaux paramètres dans l’espace de
projection, devient diagonale et elle contient toute l’information présentée par les nouveaux
paramètres. Parce que ces deux techniques (PCA et LDA) assurent une dé-corrélation entre
les paramètres dans l'espace de projection, par diagonalisation de leurs matrices de

134
Chapitre 5: Résultats Expérimentaux et Discussions

covariance. Donc pour cette raison, les performances de GMM-UBM apparaissent plus
performantes lorsque les paramètres sont précédés par une projection PCA et LDA. En outre,
il est constaté que lorsque les scores de tous les systèmes sont calibrés et fusionnés, en
utilisant la fonction linéaire de fusion à base de la régression logistique comme décrit dans
bosaristoolkit, le EER est devenue beaucoup plus petite que les systèmes sans fusion, ce
résultat confirme les résultats obtenus dans [158]. Malgré le fait que toutes les caractéristiques
étudiées portent une information très proche de MFCC, les résultats mettent en évidence la
complémentarité existante entre les différents paramètres. Ceci, nous conduit à confirmer que
la diversité frontale peut être atteinte à travers les différents «partitionnements» de l'espace
acoustique modélisé par le GMM-UBM [70].

5.3.4.3. Vérification du locuteur dans un environnement bruité


Le but des expériences réalisées dans cette section, est d'évaluer les performances du système
de vérification basé sur GMM-MAP, PCA-GMM-MAP et LDA-GMM-MAP et leurs fusions
lorsque les données de parole du test sont contaminées par certains échantillons de bruit
babble et l'usine. Tableaux 14-16 résument les résultats en termes de EER (%), minDCF et
actDCF [99].

Tableau 14 Comparaison des performances de vérification du locuteur en termes de EER (%) de tous les
systèmes dans un environnement bruité
Systèmes Bruit Babble Bruit de l’Usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 36.13 26.47 16.15 8.35 42.59 36.13 23.40 12.88
GMM-UBM (Asy-MFCC ,k=-2.21) 33.25 20.63 8.31 3.12 42.46 35.04 22.80 10.25
GMM-UBM (Asy-MFCC ,k=-1.41) 34.86 23.86 12.68 5.52 43.47 36.49 24.56 9.09
GMM-UBM (Asy-MFCC ,k=2.31) 30.93 19.12 8.59 3.13 40.37 35.16 19.08 6.61
GMM-UBM (Asy-MFCC ,k=4) 31.06 17.56 5.44 1.86 41.96 31.46 16.93 7.57
PCA-GMM-UBM (MFCC) 36.08 27.67 17.32 6.94 44.03 35.17 24.51 11.68
PCA-GMM-UBM (Asy-MFCC ,k=-2.21) 37.89 31.35 22.67 13.42 43.03 35.78 26.46 15.64
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 35.77 24.30 11.27 4.00 42.57 36.10 22.65 8.45
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 35.45 23.92 11.42 3.99 43.79 36.22 21.37 9.15
PCA-GMM-UBM (Asy-MFCC ,k=4) 35.45 20.78 8.13 2.76 42.77 36.87 21.41 9.26
LDA-GMM-UBM (MFCC) 36.00 23.74 12.26 4.00 41.90 34.16 21.13 8.35
LDA-GMM-UBM(Asy-MFCC,k=-2.21) 36.00 23.74 12.26 4.00 41.70 34.16 21.13 8.35
LDA-GMM-UBM(Asy-MFCC,k=1.41) 34.52 25.10 12.20 5.15 43.13 33.86 23.08 9.23
LDA-GMM-UBM(Asy-MFCC,k=2.31) 34.85 23.50 11.71 3.95 43.63 34.20 23.33 9.81
LDA-GMM-UBM (Asy-MFCC ,k=4) 32.37 19.14 8.21 3.09 42.20 34.01 21.48 8.45
Fusion de tous les systèmes 27.59 13.61 4.20 0.91 31.12 28.48 15.62 4.41

135
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 15 Comparaison des performances de vérification du locuteur en termes de minDCF de tous les systèmes
dans un environnement bruité
Systèmes Bruit Babble Bruit de l’Usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 0.76 0.52 0.35 0.18 0.99 0.86 0.62 0.32
GMM-UBM (Asy-MFCC ,k=-2.21) 0.74 0.51 0.23 0.08 1.00 0.91 0.59 0.29
GMM-UBM (Asy-MFCC ,k=-1.41) 0.77 0.50 0.31 0.14 1.00 0.89 0.65 0.24
GMM-UBM (Asy-MFCC ,k=2.31) 0.69 0.44 0.22 0.09 0.97 0.82 0.53 0.19
GMM-UBM (Asy-MFCC ,k=4) 0.74 0.41 0.14 0.05 0.98 0.79 0.47 0.22
PCA-GMM-UBM (MFCC) 0.80 0.55 0.36 0.18 1.00 0.85 0.60 0.28
PCA-GMM-UBM(Asy-MFCC,k=-2.21) 0.82 0.61 0.44 0.32 0.98 0.91 0.63 0.36
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 0.80 0.54 0.27 0.10 0.99 0.89 0.59 0.22
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 0.82 0.54 0.29 0.11 0.98 0.89 0.57 0.22
PCA-GMM-UBM (Asy-MFCC ,k=4) 0.79 0.50 0.22 0.07 0.99 0.85 0.60 0.27
LDA-GMM-UBM (MFCC) 0.82 0.54 0.27 0.11 0.99 0.87 0.57 0.22
LDA-GMM-UBM (Asy-MFCC ,k=-2.21) 0.82 0.54 0.27 0.11 0.99 0.87 0.57 0.22
LDA-GMM-UBM (Asy-MFCC ,k=-1.41) 0.80 0.57 0.29 0.12 0.98 0.84 0.57 0.24
LDA-GMM-UBM (Asy-MFCC ,k=2.31) 0.81 0.54 0.31 0.11 0.99 0.87 0.58 0.25
LDA-GMM-UBM (Asy-MFCC ,k=4) 0.79 0.50 0.21 0.08 0.92 0.87 0.57 0.24
Fusion de tous les systèmes 0.63 0.33 0.12 0.02 0.89 0.76 0.42 0.12

Tableau 16 Comparaison des performances de vérification du locuteur en terme de actDCF de tous les systèmes
dans un environnement bruité
Systèmes Bruit Babble Bruit de l’usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 1.00 1.00 0.82 0.52 1.00 1.00 0.99 0.82
GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.85 0.63 1.00 1.00 1.00 0.93
GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 0.99 0.84 0.58 1.00 1.00 1.00 0.81
GMM-UBM (Asy-MFCC ,k=2.31) 1.00 0.99 0.73 0.45 1.00 1.00 1.00 0.80
GMM-UBM (Asy-MFCC ,k=4) 1.00 0.98 0.64 0.47 1.00 1.00 1.00 0.83
PCA-GMM-UBM (MFCC) 1.00 1.00 0.79 0.50 1.00 1.00 1.00 0.85
PCA-GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.99 0.67 1.00 1.00 1.00 0.92
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 1.00 0.68 0.38 1.00 1.00 0.99 0.77
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 1.00 1.00 0.77 0.42 1.00 1.00 1.00 0.84
PCA-GMM-UBM (Asy-MFCC ,k=4) 1.00 1.00 0.76 0.29 1.00 1.00 1.00 0.85
LDA-GMM-UBM (MFCC) 1.00 1.00 0.78 0.35 1.00 1.00 1.00 0.80
LDA-GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.78 0.35 1.00 1.00 1.00 0.80
LDA-GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 1.00 0.76 0.40 1.00 1.00 1.00 0.76
LDA-GMM-UBM (Asy-MFCC ,k=2.31) 1.00 1.00 0.85 0.40 1.00 1.00 1.00 0.82
LDA-GMM-UBM (Asy-MFCC ,k=4) 1.00 1.00 0.76 0.32 1.00 1.00 1.00 0.89
Fusion de tous les systèmes 0.65 0.38 0.15 0.03 0.97 0.83 0.46 0.16

136
Chapitre 5: Résultats Expérimentaux et Discussions

 Discussion

D'après les résultats donnés par les tableaux 14-16, on observe que malgré la dégradation des
performances du système de vérification lorsque SNR diminue, les MFCCs basés sur les
fenêtres asymétriques (filtre passe-haut) apportent une amélioration en termes de EER,
minDCF et actDCF sous les deux types de bruits. Cependant, une dégradation importante des
performances de tous les systèmes lorsque PCA et LDA sont appliquées aux caractéristiques
spectrales. Ceci peut être expliqué par le fait que, selon des études récentes [159], la moyenne
et la variance de la parole corrompue (même les statistiques d'ordre élevé) change
radicalement dans le bruit par rapport à celles estimées dans un environnement calme. Ceci
est pourquoi; PCA et LDA ne fournissent pas de bons résultats dans un environnement bruité.
En outre, il est constaté que la méthode linéaire de fusion des scores, apporte une amélioration
importante en termes des performances du système de vérification du locuteur dans des
conditions diverses. Cela signifie que cette technique de fusion des scores est intéressante et
prometteuse, pour améliorer la robustesse du système de vérification en vertu des applications
réalistes.

5.3.5. Evaluation des performances de vérification du locuteur en utilisant des


paramètres dérivés de la phase du signal de parole
5.3.5.1. Protocole expérimental
La structure de la base de données (150 locuteurs de NIST) et le modèle d’apprentissage
(GMM-UBM) utilisés dans ce protocole sont les mêmes utilisés dans la section 5.3.3.1.
Dans la phase de prétraitements, nous avons utilisé GMM-MAP-VAD afin de détecter la
présence ou l'absence de parole dans le signal vocal. En phase de paramétrage, nous avons
spécifié l'espace des caractéristiques par des vecteurs d'observation de taille fixe. Chaque
vecteur est donné par les différents types de vecteurs caractéristiques extraits, en utilisant la
fenêtre de Hamming classique et des fenêtres asymétriques avec des valeurs différentes du
paramètre k (k=-2,21, -1,41, 2,31 et 4) toutes les 25 ms. Les paramètres utilisés dans ce travail
sont les coefficients MFCCs (12 coefficients) et leurs dérivées premières et secondes (24
coefficients) ainsi le paramètre de l'énergie, et les Modified Group Delay Coefficients
(MODGDCs) [65], [66], avec 12 coefficients par vecteur. Le taux d'erreur égal (EER) est
utilisé comme la métrique d’évaluation.
Les valeurs utilisées pour les paramètres MODGDCs s sont spécifiées comme suit: la taille de
la fenêtre de lissage lifterω = 8,   0.4 et   0.9 .

5.3.5.2. Vérification du locuteur dans un environnement calme


Dans cette section, nous étudions l'impact de MFCCs et MODGDCs [68] à base de la fenêtre
de Hamming et leurs extensions lors du remplacement de la fenêtre Hamming par les fenêtres
asymétriques, sur les performances du système de vérification du locuteur à base de GMM-
UBM. On obtient les résultats expérimentaux de cette étude, lorsque la parole est recueillie à

137
Chapitre 5: Résultats Expérimentaux et Discussions

partir de l'environnement contrôlé (données propres). Figure (voir Fig.5.18) illustre les
courbes DET des 2 systèmes de vérification dans un environnement calme.

40 MFCC: EER=0.10% .
Asy-taper (k=-2.21): EER=0.50% .
Asy-taper (k=-1.41): EER=0.22% .
20 Asy-taper (k=2.31): EER=0.49% .
False Negative Rate (FNR) [%]

Asy-taper (k=4): EER=0.50% .


10

2
1
0.5

0.2
0.1
0.05
0.02
0.01

0.01
0.020.050.10.2 0.5 1 2 5 10 20 40
False Positive Rate (FPR) [%]

(a)

40 MMGDC: EER=0.035% .
Asy-taper (k=-2.21): EER=0.053% .
Asy-taper (k=-1.41): EER=0.035% .
20 Asy-taper (k=2.31): EER=0.12% .
False Negative Rate (FNR) [%]

Asy-taper (k=4): EER=0.086% .


10

2
1
0.5

0.2
0.1
0.05
0.02
0.01

0.01
0.020.050.10.2 0.5 1 2 5 10 20 40
False Positive Rate (FPR) [%]

(b)

Fig.5.18 les courbes DET en utilisant : a) MFCCs avec leurs extensions et b) MODGDCs s avec leurs extensions

138
Chapitre 5: Résultats Expérimentaux et Discussions

 Discussion

D’après la figure (voir Fig.5.18), on constate que les performances de vérification du locuteur
en utilisant MFCCs et MODGDCs à base de la fenêtre de Hamming, surpassent celles de
MFC et MODGDCs avec leurs extensions asymétriques en termes de EER (MFCC: EER =
0,10% et MODGDCs: EER = 0,035 %). En outre, il est observé à partir de même figure que
MODGDCs et MODGDCs avec leurs extensions asymétriques donnent de meilleurs résultats
que MFCCs et MODGDCs avec leurs extensions asymétriques. Ceci peut être expliqué par le
fait que, les caractéristiques du retard de groupe modifié (MODGDCs) extraites de la phase
du signal de parole, donnent une meilleures résolution des formants d'ordre supérieur dans les
régions de hautes fréquences, qui sont importants pour discriminer les locuteurs que MFCCs
extraits du spectre d'amplitude (voir Fig.5.19).

0.14
FFT spectrum
MGD spectrum
0.12

0.1

0.08
Amplitude

0.06

0.04

0.02

0
0 500 1000 1500 2000 2500 3000 3500 4000
Frequency (Hz)

Fig.5.19 Représentation spectrale d’une trame de parole non bruitée de durée de 30 ms, en utilisant la
transformée de Fourier et les fonctions du retard de groupe

5.3.5.3. Vérification du locuteur dans un environnement bruité


Le but des expériences réalisées dans cette section est d'évaluer les performances de
vérification de locuteur, lors de l’utilisation de vecteurs caractéristiques MFCCs et
MODGDCs avec leurs extensions asymétriques. Lorsque les données du test sont corrompues
par babble, l’usine et le bruit blanc.

139
Chapitre 5: Résultats Expérimentaux et Discussions

Tableau 17 Comparaison des performances de vérification du locuteur en termes de EER (%), quand en
utilisant MFCCs et leur extensions asymétriques dans un environnement bruité
Hamming Asy-taper Asy-taper Asy-taper Asy-taper
Bruit SNR(dB) taper (k=-2.21) (k=-1.41) (k=2.31) (k=4)
Babble 15 14.21 6.15 10.17 6.71 2.97
10 19.09 11.01 15.18 12.81 6.78
5 24.53 16.79 20.72 19.67 12.03
0 30.40 23.24 26.13 25.62 20.22
Usine 15 13.51 7.41 14.49 8.66 4.14
10 20.85 13.55 15.70 14.21 9.42
5 26.59 21.98 22.11 21.85 16.95
0 32.91 30.60 28.57 29.27 27.13
Blanc 15 17.15 21.07 17.52 16.45 17.83
10 26.13 28.76 27.10 24.87 27.01
5 33.66 35.59 33.27 33.42 34.01
0 40.95 40.63 39.99 39.73 40.39

Tableau 18 Comparaison des performances de vérification du locuteur en termes de EER (%), quand en
utilisant MGDCs et leur extensions asymétriques dans un environnement bruité
Hamming Asy-taper Asy-taper Asy-taper Asy-taper
Bruit SNR(dB) taper (k=-2.21) (k=-1.41) (k=2.31) (k=4)
Babble 15 13.75 7.53 9.67 6.53 2.81
10 18.98 11.52 14.57 11.48 6.05
5 23.61 16.96 20.62 16.92 11.83
0 30.27 22.57 25.75 24.75 18.96
Usine 15 13.07 9.89 10.80 7.66 4.02
10 19.39 15.25 15.20 13.81 8.74
5 26.25 21.89 21.35 20.60 16.33
0 31.78 28.69 28.02 28.54 26.63
Blanc 15 14.32 15.07 14.86 16.33 16.79
10 22.64 22.86 22.80 23.37 25.97
5 30.02 30.40 29.87 33.23 29.76
0 36.35 36.38 36.23 38.69 35.88

 Discussion

D'après les résultats donnés par les tableaux 17, et 18, on observe que MFCC et MODGDCs
avec leurs extensions asymétriques (k = 4) apportent une amélioration en termes de EER
qu’avec la fenêtre de Hamming. Ceci s’explique par le fait que, les fenêtres asymétriques
fournissent une meilleure réponse en amplitude dans des conditions perturbées que la fenêtre
de Hamming. Les figures (voir Fig.5.8 et Fig.5.9), montrent que les fenêtres asymétriques
montrent moins du bruit dans les spectrogrammes que la fenêtre de Hamming. Cela signifie
que les fenêtres asymétriques réduisent sensiblement la présence de bruit dans le signal de
parole bruitée, en réduisant les variations indésirables de l’enveloppe spectrale dues au bruit
additif. En outre, il est remarqué à partir des résultats donnés par les mêmes tableaux
précédents, que les performances de vérification du locuteur sont meilleures quand
MODGDCs sont adoptés que MODGDCs. Cela est dû au fait que pour MODGDCs et dans la
région des hautes fréquences, les formants d’ordre supérieur sont moins déformés en présence
de bruit que pour MFCCs.

140
Chapitre 5: Résultats Expérimentaux et Discussions

5.4. Conclusion

Dans ce chapitre nous avons effectué diverses expériences de la reconnaissance automatique


du locuteur (vérification et identification) en environnement calme et bruité, en utilisant les
différentes approches proposées dans le chapitre précédent, afin d’améliorer les performances
de notre système dans les conditions perturbées. Les résultats que nous avons obtenus à partir
de ces expériences, montrent que les approches que nous avons développées dans notre
travail, ont apporté des améliorations importantes en termes de réduction de l’erreur de
vérification, ou en termes de rehaussement de taux d’identification du locuteur quand les
fenêtres asymétriques sont utilisées dans la phase de fenêtrage du signal de parole au lieu de
la fenêtre de Hamming. La principale conclusion tirée de ce chapitre, c’est l’exploitation de la
complémentarité en termes d’information qui existe entre les paramètres acoustiques et les
modèles d’apprentissage, afin d’améliorer la robustesse de nos systèmes de reconnaissance
vis-à-vis des bruits d’environnement.

141
Conclusion Générale et
Perspectives
Conclusion Générale et Perspectives

Conclusion Générale et Perspectives

La reconnaissance automatique de locuteurs (RAL), qui pourrait constitue un élément


important de la biométrie humaine à travers la signature vocale, est une discipline
prometteuse en regard de ses nombreuse applications et perspectives. En effet, la signature
vocale, au même titre que les empreintes digitales ou l’iris, peut contribuer à l’identification
ou la vérification (authentification) d’un individu à travers la voix. Cette technique
émergeante est appelée à jouer un rôle important dans les sciences criminalistiques, en
complément des autres modalités reposant sur l’image telle que les empreintes digitales ou
l’iris, pour apporter la matérialisation des faits pouvant aider la justice dans sa quête de la
manifestation de la vérité.

L’objectif de notre travail était d’évaluer l’apport des méthodes de fusion de paramètres et de
modèles au niveau scores dans l’amélioration des performances des systèmes de
reconnaissance automatique de locuteurs (RAL) en milieu réel, représenté souvent par un
environnement acoustique fortement dégradé. En effet, la détermination des caractéristiques
physiques discriminant un locuteur d'un autre est une tâche très difficile, notamment en
environnement adverse.
Pour cela, nous avons élaboré un système de reconnaissance automatique du locuteur, en
mode indépendant du texte, dont la partie reconnaissance repose sur des modèles statistiques
comme GMM-UBM, et des modèles statistiques-discriminatifs comme GMM-SVM (ou
SVMs utilisent la fonction noyau radial, en particulier l’approche SVMmulticlass ).
L’application a porté sur l’utilisation des bases de données sonores TIMIT et NIST 2000, d’où
ont été extraits les vecteurs acoustiques MFCC, LFCC, LPC, LPCC, PLP et RAST-PLP. Nous
avons également étudié l’apport de fusion des paramètres d’entrées sur la reconnaissance de
locuteurs, notamment en environnement acoustique dégradé. Ce dernier a été simulé par trois
situations : bruit de chahut dans un restaurant (speech babble), bruit d’usine (factory noise) et
bruit blanc (white noise) issus de la base de données bruitée NOISEX’92, avec des niveaux
SNR échelonnés de 0 à 15dB.
Une difficulté majeure pour la mise en application d’un système RAL, est liée à l’extraction
des vecteurs caractéristiques qui représentent mieux le locuteur dans un environnement
fortement bruité. Pour cela, nous avons d’abord proposé dans cette thèse des extensions pour
les paramètres classiques MFCCs, en utilisant le fenêtrage asymétrique (fenêtres
asymétriques) dans la chaine d’extraction au lieu de la fenêtre Hamming. Ensuite, nous avons
présenté deux nouvelles méthodes de fusion de scores linéaires adaptatives, basées sur la
somme pondérée et la somme pondérée combinée avec la fonction sigmoïde et réseau de
neurones MLP, afin de calibrer et éliminer les valeurs aberrantes existantes dans les scores
bruités (en raison de bruit additif). Dans les deux approches proposées, l’idée clé est
d’intégrer l’erreur (EER) de vérification du locuteur estimée pour chaque vecteur de scores
de chaque système, obtenu en environnement calme ou bruité pour être adaptatives au bruit.
De plus, nous avons intégré le réseau de neurones MLP à l'intérieur dans l'une de nos
approches de fusion des scores, afin d'améliorer les performances en réduisant l’écart entre les

142
Conclusion Générale et Perspectives

scores déformés à cause du bruit d’environnement et leurs scores correspondant en


environnement calme.
Pour évaluer ces méthodes, nous les avons comparées avec certaines méthodes linéaires bien
connues telles que; produit, min, max et la somme simple. Les résultats trouvés ont montré
que, les méthodes proposées apportent des améliorations significatives en termes des
performances du système de vérification du locuteur mieux que les autres méthodes citées
auparavant, que ce soit dans des conditions calmes ou bruitées. En outre, nous concluons à
travers les différentes expériences réalisées dans ce travail, qu’une complémentarité
importante existait entre les caractéristiques et les modèles en termes de robustesse vis-à-vis
du bruit, lorsqu’une fusion est faite entre les paramètres et les modèles.
Comme perspective de ce travail:

 la première observation que nous pouvons faire est que toutes les contributions,
présentées dans ce document, ont été évaluées dans un cadre simulé. Une phase de
validation en conditions réelles de fonctionnement est encore nécessaire.

 Dans le futur, nous envisagerons aussi d’acquérir la base de donnée NIST 2008, 2010
et 2012 qui constitue un corpus de taille suffisante, est suffisamment significative en
termes de l’effet du canal de transmission et surtout la durée des conversations
téléphoniques, pour être ensuite utilisée dans différentes applications à savoir; l’étude
de l’effet du canal sur les performances de système vérification du locuteur, en
utilisant les modèles de l'analyse conjointe de facteur (JFA) et I-vecteurs.

 Nous envisagerons aussi d’entamer les applications de type spoofing (l’imitation de la


voix du locuteur cible), qui constituent actuellement la tendance du jour dans le
domaine de vérification du locuteur.

 L'intégration d’autres modalités comme ; l’iris et le visage dans le système RAL, afin
de concevoir un système biométrique multimodales.

143
Bibliographie
[1] Kinnunen, T., Karpov, E., & Franti, P. (2006). Real-time speaker identification and
verification. Audio, Speech, and Language Processing, IEEE Transactions on, 14(1),
277-288.
[2] Derycke, A., & Rouillard, J. (2002, November). La personnalisation de I'interaction dans
des contextes multimodaux et multicanaux: une première approche pour le commerce
electronique. In Proceedings of the 14th French-speaking conference on Human-
computer interaction (Conférence Francophone sur l'Interaction Homme-Machine) (pp.
97-104). ACM.
[3] Pernkopf, F., & Bouchaffra, D. (2005). Genetic-based EM algorithm for learning Gaussian
mixture models. Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 27(8), 1344-1348.
[4] Archambeau, C., Lee, J. A., & Verleysen, M. (2003, April). On Convergence Problems of
the EM Algorithm for Finite Gaussian Mixtures. In ESANN (Vol. 3, pp. 99-106).
[5] Hautamaki, V., Kinnunen, T., Karkkainen, I., Saastamoinen, J., Tuononen, M., & Franti,
P. (2008). Maximum a posteriori adaptation of the centroid model for speaker
verification. Signal Processing Letters, IEEE, 15, 162-165.
[6] Kotnik, B., Vlaj, D., Kacic, Z., & Horvat, B. (2002, September). Robust MFCC feature
extraction algorithm using efficient additive and convolutional noise reduction
procedures. In ICSLP (Vol. 2, pp. 445-448).
[7] Kumar, P., Biswas, A., Mishra, A. N., & Chandra, M. (2010). Spoken language
identification using hybrid feature extraction methods. arXiv preprint arXiv:1003.5623.
[8] Akhtar, M. I. (2012). Speaker Recognition in Noisy Environment. International Journal of
Advanced Research in Computer Science and Electronics Engineering
(IJARCSEE), 1(4), pp-52.
[9] Zhonghua, F., & Rongchun, Z. (2003, December). An overview of modeling technology
of speaker recognition. In Neural Networks and Signal Processing, 2003. Proceedings of
the 2003 International Conference on (Vol. 2, pp. 887-891). IEEE.
[10] Wang, N., Ching, P. C., Zheng, N., & Lee, T. (2011). Robust speaker recognition using
denoised vocal source and vocal tract features. Audio, Speech, and Language
Processing, IEEE Transactions on, 19(1), 196-205.
[11] Zhao, X., Shao, Y., & Wang, D. (2012). CASA-based robust speaker
identification. Audio, Speech, and Language Processing, IEEE Transactions on, 20(5),
1608-1616.
[12] Falk, T. H., & Chan, W. Y. (2010). Modulation spectral features for robust far-field
speaker identification. Audio, Speech, and Language Processing, IEEE Transactions
on, 18(1), 90-100.
[13] Wang, L., & Nakagawa, S. (2009). Speaker identification/verification for reverberant
speech using phase information. Proc. WESPAC, (0130), 8.
[14] Deller, J. R., Proakis, J. G., & Hansen, J. H. (2000). Discrete-time processing of speech
signals (pp. 516-553). New York, NY, USA:: IEEE.
[15] Narasimhan, S. V., & Pavanalatha, S. (2004). Estimation of evolutionary spectrum based
on short time Fourier transform and modified group delay.Signal Processing, 84(11),
2139-2152.
[16] You, C. H., Lee, K. A., & Li, H. (2010). GMM-SVM kernel with a Bhattacharyya-based
distance for speaker recognition. Audio, Speech, and Language Processing, IEEE
Transactions on, 18(6), 1300-1312.

144
[17] Asbai, N., Bengherabi, M., Harizi, F., & Amrouche, A. (2014). Effect of the Front-End
Processing on Speaker Verification Performance Using PCA and Scores Level Fusion.
In E-Business and Telecommunications (pp. 359-368). Springer Berlin Heidelberg.
[18] Fierrez-Aguilar, J., Garcia-Romero, D., Ortega-Garcia, J., & Gonzalez-Rodriguez, J.
(2005). Speaker verification using adapted user-dependent multilevel fusion.
In Multiple Classifier Systems (pp. 356-365). Springer Berlin Heidelberg.
[19] Mak, M. W., & Yu, H. B. (2014). A study of voice activity detection techniques for
NIST speaker recognition evaluations. Computer Speech & Language, 28(1), 295-313.
[20] Mak, M. W., Allen, W. G., & Sexton, G. G. (1994). Speaker identification using
multilayer perceptrons and radial basis function networks. Neurocomputing, 6(1), 99-
117.
[21] Fitch W.T., Reby D. (2001) « The descended larynx is not uniquely human », Proc Biol
Sci, 268, 1669-75.
[22] Deviren, M. (2004). Systemes de reconnaissance de la parole revisités: Réseaux
Bayesiens dynamiques et nouveaux paradigmes. Unpublished PhD thesis, Université
Henri Poincaré, Nancy.
[23] Watkins, K. E., Strafella, A. P., & Paus, T. (2003). Seeing and hearing speech excites
the motor system involved in speech production. Neuropsychologia, 41(8), 989-994.
[24] Folland N.A., Butler B.E., Smith N.A., Trainor L.J. (2012) « Processing simultaneous
auditory objects : infants’ ability to detect mistuning in harmonic complexes », J Acoust
Soc Am, 131, 993-7.
[25] Ferrand, L. (1994). Accès au lexique et production de la parole: un survol. L'année
psychologique, 94(2), 295-311.
[26] Dell, G. S., & Reich, P. A. (1981). Stages in sentence production: An analysis of speech
error data. Journal of verbal learning and verbal behavior, 20(6), 611-629.
[27] Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production.
Psychological review, 93(3), 283.
[28] Dell, G. S. (1988). The retrieval of phonological forms in production: Tests of
predictions from a connectionist model. Journal of memory and language, 27(2), 124-
142.
[29] Davis, H., & Silverman, S. R. (1970). Hearing and deafness. Holt, Rinehart & Winston
of Canada Ltd.
[30] Fletcher, H., & Munson, W. A. (1933). Loudness, Its Definition, Measurement and
Calculation*. Bell System Technical Journal, 12(4), 377-430.
[31] Zwicker, E., Feldlkeller, R., & Bosquet, J. (1982). Psychoacoustique L’oreille, récepteur
d’information. Annals of Telecommunications, 37(1), 110-111.
[32] Richard, G. (2003). Traitement de la parole. Brique PAMU, Module PAROL, ENST
Télécom Paris, 2004.
[33] Calliope (Firm). (1989). La parole et son traitement automatique. Masson.
[34] Boëffard, O., & d’Alessandro, C. (2002). Synthèse de la parole. Analyse, Synthèse et
Codage de la Parole, J. Mariani, Ed. Hermes, Lavoisier, Paris.
[35] Shannon, C. E. (1949). Communication in the presence of noise. Proceedings of the
IRE, 37(1), 10-21.
[36] Grenier, Y., Bry, K., Le Roux, J., & Sulpis, M. (1981, April). Autoregressive models for
noisy speech signals. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP'81. (Vol. 6, pp. 1093-1096). IEEE.
[37] Hermansky, H., Morgan, N., & Hirsch, H. G. (1993, April). Recognition of speech in
additive and convolutional noise based on RASTA spectral processing. In Acoustics,
Speech, and Signal Processing, IEEE International Conference on (Vol. 2, pp. 83-86).
IEEE.

145
[38] Ehlers, F., & Schuster, H. G. (1997). Blind separation of convolutive mixtures and an
application in automatic speech recognition in a noisy environment.IEEE Transactions
on Signal processing, 45(10), 2608-2612.
[39] Hermansky, H., & Sharma, S. (1999, March). Temporal patterns (TRAPS) in ASR of
noisy speech. In Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999
IEEE International Conference on (Vol. 1, pp. 289-292). IEEE.
[40] Shannon, C. E. (2001). A mathematical theory of communication. ACM SIGMOBILE
Mobile Computing and Communications Review, 5(1), 3-55..
[41] Treurniet, W. C., & Gong, Y. (1994, April). Noise independent speech recognition for a
variety of noise types. In Acoustics, Speech, and Signal Processing, 1994. ICASSP-94.,
1994 IEEE International Conference on (Vol. 1, pp. I-437). IEEE.
[42] Hellwarth, G., & Jones, G. (1968). Automatic conditioning of speech signals.Audio and
Electroacoustics, IEEE Transactions on, 16(2), 169-179.
[43] Chen, J., Paliwal, K. K., & Nakamura, S. (2001, September). Sub-band based additive
noise removal for robust speech recognition. In Interspeech (pp. 571-574).
[44] Vaseghi, S. V., & Milner, B. P. (1995, May). Speech recognition in impulsive noise.
In Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International
Conference on (Vol. 1, pp. 437-440). IEEE.
[45] Boyer, A., Di Martino, J., Divoux, P., Haton, J. P., Mari, J. F., & Smaïli, K. (1990).
Statistical methods in multi‐speaker automatic speech recognition. Applied Stochastic
Models and Data Analysis, 6(3), 143-155.
[46] Choi, S., Hong, H., Glotin, H., & Berthommier, F. (2002). Multichannel signal
separation for cocktail party speech recognition: A dynamic recurrent
network.Neurocomputing, 49(1), 299-314.
[47] Denbigh, P. N., & Luo, H. Y. (1994). An algorithm for separating overlapping voices.
In Techniques for Speech Processing and their Application, IEE Colloquium on (pp. 9-
1). IET.
[48] Noll, A. M. (1964). Short‐Time Spectrum and ―Cepstrum‖ Techniques for Vocal‐Pitch
Detection. The Journal of the Acoustical Society of America, 36(2), 296-302.
[49] Harris, F. J. (1978). On the use of windows for harmonic analysis with the discrete
Fourier transform. Proceedings of the IEEE, 66(1), 51-83.
[50] Rozman, R., & Kodek, D. M. (2007). Using asymmetric windows in automatic speech
recognition. Speech communication, 49(4), 268-276.
[51] Morales-Cordovilla, J. A., Sánchez, V., Gómez, A. M., & Peinado, A. M. (2012). On the
use of asymmetric windows for robust speech recognition. Circuits, Systems, and Signal
Processing, 31(2), 727-736.
[52] Blanchet, G., & Charbit, M. (1998). Traitement numérique du signal. Techniques de
l'ingénieur. Electronique, 3(E3087), 1-30.
[53] Furui, S. (1981). Cepstral analysis technique for automatic speaker
verification.Acoustics, Speech and Signal Processing, IEEE Transactions on, 29(2),
254-272.
[54] Fant, G. (1971). Acoustic theory of speech production: with calculations based on X-ray
studies of Russian articulations (Vol. 2). Walter de Gruyter.
[55] Kinnunen, T., & Li, H. (2010). An overview of text-independent speaker recognition:
from features to supervectors. Speech communication, 52(1), 12-40.
[56] Atal, B. S., & Schroeder, M. R. (1978). Linear prediction analysis of speech based on a
pole‐zero representation. The Journal of the Acoustical Society of America, 64(5),
1310-1318.

146
[57] Yujin, Y., Peihua, Z., & Qun, Z. (2010, October). Research of speaker recognition based
on combination of LPCC and MFCC. In Intelligent Computing and Intelligent Systems
(ICIS), 2010 IEEE International Conference on (Vol. 3, pp. 765-767). IEEE.
[58] Hermansky, H. (1990). Perceptual linear predictive (PLP) analysis of speech.the Journal
of the Acoustical Society of America, 87(4), 1738-1752.
[59] Markel, J. E., & Gray, A. H. (1982). Linear prediction of speech. Springer-Verlag New
York, Inc..
[60] Wijoyo, T. S. (2011). Speech recognition using linear predictive coding and artificial
neural network for controlling movement of mobile robot. InProceedings of
International Conference on Information and Electronics Engineering (ICIEE 2011).
[61] Yegnanarayana, B., Saikia, D., & Krishnan, T. (1984). Significance of group delay
functions in signal reconstruction from spectral magnitude or phase.Acoustics, Speech
and Signal Processing, IEEE Transactions on, 32(3), 610-623.
[62] Alsteris, L. D., & Paliwal, K. K. (2007). Short-time phase spectrum in speech processing:
A review and some experimental results. Digital Signal Processing,17(3), 578-616.
[63] Tribolet, J. (1977). A new phase unwrapping algorithm. IEEE Transactions on Acoustics
Speech and Signal Processing, 25(2), 170-177.
[64] Murthy, H. A., & Yegnanarayana, B. (1991). Formant extraction from group delay
function. Speech communication, 10(3), 209-221.
[65] Yegnanarayana, B., & Murthy, H. A. (1992). Significance of group delay functions in
spectrum estimation. Signal Processing, IEEE Transactions on,40(9), 2281-2289.
[66] Hegde, R. M., Murthy, H. A., & Gadde, V. R. R. (2007). Significance of the modified
group delay feature in speech recognition. Audio, Speech, and Language Processing,
IEEE Transactions on, 15(1), 190-202.
[67] Zhu, D., & Paliwal, K. K. (2004, May). Product of power spectrum and group delay
function for speech recognition. In Acoustics, Speech, and Signal Processing, 2004.
Proceedings.(ICASSP'04). IEEE International Conference on(Vol. 1, pp. I-125). IEEE.
[68] Hegde, R. M., Murthy, H. A., & Gadde, V. R. R. (2007). Significance of joint features
derived from the modified group delay function in speech processing.EURASIP Journal
on Audio, Speech, and Music Processing, 2007(1), 5-5.
[69] Murthy, H. A., & Gadde, V. (2003, April). The modified group delay function and its
application to phoneme recognition. In Acoustics, Speech, and Signal Processing, 2003.
Proceedings.(ICASSP'03). 2003 IEEE International Conference on (Vol. 1, pp. I-68).
IEEE.
[70] Reynolds, D. (2002). An overview of automatic speaker recognition. In Proceedings of
the International Conference on Acoustics, Speech and Signal Processing (ICASSP)(S.
4072-4075).
[71] Reynolds, D. A. (1995). Speaker identification and verification using Gaussian mixture
speaker models. Speech communication, 17(1), 91-108.
[72] Reynolds, D. A., & Rose, R. C. (1995). Robust text-independent speaker identification
using Gaussian mixture speaker models. Speech and Audio Processing, IEEE
Transactions on, 3(1), 72-83.
[73] Atal, B. S. (1976). Automatic recognition of speakers from their voices.Proceedings of
the IEEE, 64(4), 460-475.
[74] Doddington, G. R. (1985). Speaker recognition—Identifying people by their
voices. Proceedings of the IEEE, 73(11), 1651-1664.
[75] Brümmer, N., & du Preez, J. (2006). Application-independent evaluation of speaker
detection. Computer Speech & Language, 20(2), 230-275.

147
[76] Hagen, R., & Hedelin, P. (1993, April). Robust vector quantization in spectral coding.
In Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE
International Conference on (Vol. 2, pp. 13-16). IEEE.
[77] Reynolds, D. A., Quatieri, T. F., & Dunn, R. B. (2000). Speaker verification using
adapted Gaussian mixture models. Digital signal processing, 10(1), 19-41.
[78] Chaudhari, U. V., Navrátil, J., & Maes, S. H. (2003). Multigrained modeling with pattern
specific maximum likelihood transformations for text-independent speaker
recognition. Speech and Audio Processing, IEEE Transactions on,11(1), 61-69.
[79] Nwe, T. L., Foo, S. W., & De Silva, L. C. (2003). Speech emotion recognition using
hidden Markov models. Speech communication, 41(4), 603-623.
[80] Lauri, F. (2004). Adaptation au locuteur de modèles acoustiques markoviens pour la
reconnaissance automatique de la parole (Doctoral dissertation), Thèse de doctorat,
2004. Université Nancy 1).
[81] Smola, A. J., & Schölkopf, B. (2004). A tutorial on support vector regression.Statistics
and computing, 14(3), 199-222.
[82] Campbell, W. M., Sturim, D. E., & Reynolds, D. A. (2006). Support vector machines
using GMM supervectors for speaker verification. Signal Processing Letters,
IEEE, 13(5), 308-311.
[83] Campbell, W. M., Sturim, D. E., Reynolds, D. A., & Solomonoff, A. (2006, May). SVM
based speaker verification using a GMM supervector kernel and NAP variability
compensation. In Acoustics, Speech and Signal Processing, 2006. ICASSP 2006
Proceedings. 2006 IEEE International Conference on (Vol. 1, pp. I-I). IEEE.
[84] Vapnik, V. N., & Vapnik, V. (1998). Statistical learning theory (Vol. 2). New York:
Wiley.
[85] Vapnik, V. N., & Chervonenkis, A. J. (1974). Theory of pattern recognition.
[86] Perronnin, F., & Dugelay, J. L. (2002). Introduction à la biométrie-Authentification des
individus par traitement audio-vidéo. Traitement du signal,19(4).
[87] Doddington, G. R., Przybocki, M. A., Martin, A. F., & Reynolds, D. A. (2000). The
NIST speaker recognition evaluation–Overview, methodology, systems, results,
perspective. Speech Communication, 31(2), 225-254.
[88] Martin, A. F., & Przybocki, M. A. (2001, June). The NIST speaker recognition
evaluations: 1996-2001. In Proc. of SPIE Vol (Vol. 7324, pp. 732411-1).
[89] Kenny, P., Ouellet, P., Dehak, N., Gupta, V., & Dumouchel, P. (2008). A study of
interspeaker variability in speaker verification. Audio, Speech, and Language
Processing, IEEE Transactions on, 16(5), 980-988.
[90] Vogt, R. J., Baker, B. J., & Sridharan, S. (2005). Modelling session variability in text
independent speaker verification.
[91] Auckenthaler, R., Carey, M., & Lloyd-Thomas, H. (2000). Score normalization for text-
independent speaker verification systems. Digital Signal Processing,10(1), 42-54.
[92] Bengherabi, M., Harizi, F., Poh, N., Boutellaa, E., Guessoum, A., & Cheriet, M. (2012).
Improving biometric verification systems by fusing Z-norm and F-norm. In Biometric
Recognition (pp. 278-287). Springer Berlin Heidelberg.
[93] Barras, C., & Gauvain, J. L. (2003, April). Feature and score normalization for speaker
verification of cellular data. In Acoustics, Speech, and Signal Processing, 2003.
Proceedings.(ICASSP'03). 2003 IEEE International Conference on (Vol. 2, pp. II-49).
IEEE.
[94] Messaoudi, F., & Benyettou, M. (2011). Identification Biométrique Multimodale.
In CIIA.

148
[95] Fiérrez-Aguilar, J., Ortega-Garcia, J., & Gonzalez-Rodriguez, J. (2003, July). Fusion
strategies in multimodal biometric verification. In Multimedia and Expo, 2003.
ICME'03. Proceedings. 2003 International Conference on (Vol. 3, pp. III-5). IEEE.
[96] Roli, F., Kittler, J., Fumera, G., & Muntoni, D. (2002). An experimental comparison of
classifier fusion rules for multimodal personal identity verification systems. In Multiple
Classifier Systems (pp. 325-335). Springer Berlin Heidelberg.
[97] Pigeon, S., Druyts, P., & Verlinde, P. (2000). Applying logistic regression to the fusion
of the NIST'99 1-speaker submissions. Digital Signal Processing, 10(1), 237-248.
[98] Zhang, G. P. (2000). Neural networks for classification: a survey. Systems, Man, and
Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 30(4), 451-462.
[99] Hautamaki, V., Kinnunen, T., Sedlák, F., Lee, K. A., Ma, B., & Li, H. (2013). Sparse
classifier fusion for speaker verification. Audio, Speech, and Language Processing,
IEEE Transactions on, 21(8), 1622-1631.
[100] Bishop, C. M. (2006). Pattern recognition and machine learning. (Vol. 1, p. 740). New
York: springer.
[101] Schmidt, M., Fung, G., & Rosales, R. (2007). Fast optimization methods for l1
regularization: A comparative study and two new approaches. In Machine Learning:
ECML 2007 (pp. 286-297). Springer Berlin Heidelberg.
[102] Brummer, N., Burget, L., Cernocky, J. H., Glembek, O., Grezl, F., Karafiat, M., ... &
Strasheim, A. (2007). Fusion of heterogeneous speaker recognition systems in the
STBU submission for the NIST speaker recognition evaluation 2006. Audio, Speech,
and Language Processing, IEEE Transactions on, 15(7), 2072-2084.
[103 ] Keshet, J., & Bengio, S. (Eds.). (2009). Automatic speech and speaker recognition:
Large margin and kernel methods. John Wiley & Sons.
[104] Davis, K. H., Biddulph, R., & Balashek, S. (1952). Automatic recognition of spoken
digits. The Journal of the Acoustical Society of America, 24(6), 637-642.
[105] Jelinek, F. (1976). Speech recognition by statistical methods. Proceedings of the IEEE,
64, 532-556.
[106] Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. Information
Theory, IEEE Transactions on, 13(1), 21-27.
[107] Shakhnarovich, G., Darrell, T., & Indyk, P. (2008). Nearest-neighbor methods in
learning and vision. IEEE Transactions on Neural Networks, 19(2), 377.
[108] Baum, L. E., Petrie, T., Soules, G., & Weiss, N. (1970). A maximization technique
occurring in the statistical analysis of probabilistic functions of Markov chains. The
annals of mathematical statistics, 164-171.
[109] Blunsom, P. (2004). Hidden markov models. Lecture notes, August, 15, 18-19.
[110] Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, 77(2), 257-286.
[111] Myers, C., Rabiner, L., & Rosenberg, A. E. (1980). Performance tradeoffs in dynamic
time warping algorithms for isolated word recognition. Acoustics, Speech and Signal
Processing, IEEE Transactions on, 28(6), 623-635.
[112] Müller, M. (2007). Dynamic time warping. Information retrieval for music and motion,
69-84.
[113] Oglesby, J., & Mason, J. S. (1990, April). Optimisation of neural models for speaker
identification. In Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990
International Conference on (pp. 261-264). IEEE.
[114] Duds, R. O., & Hart, P. E. (1973). Pattern classification and scene analysis. A Wiley
lnterscience Publication, John Wiley and Sons, Inc.

149
[115] Mercer, J. (1909). Functions of positive and negative type, and their connection with the
theory of integral equations. Philosophical transactions of the royal society of London.
Series A, containing papers of a mathematical or physical character, 415-446.
[116] Aizerman, A., Braverman, E. M., & Rozoner, L. I. (1964). Theoretical foundations of
the potential function method in pattern recognition learning. Automation and remote
control, 25, 821-837.
[117] Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992, July). A training algorithm for
optimal margin classifiers. In Proceedings of the fifth annual workshop on
Computational learning theory (pp. 144-152). ACM.
[118] Vapnik, V. (1995). The nature of statistical learning theory. N-Y: Springer-Verlag.
[119] Dietterich, T. G., & Kong, E. B. (1995). Machine learning bias, statistical bias, and
statistical variance of decision tree algorithms. Technical report, Department of
Computer Science, Oregon State University.
[120] Shavlik, J. W., & Dietterich, T. G. (Eds.). (1990). Readings in machine learning.
Morgan Kaufmann.
[121] Song, Y., Huang, J., Zhou, D., Zha, H., & Giles, C. L. (2007). Iknn: Informative k-
nearest neighbor pattern classification. In Knowledge Discovery in Databases: PKDD
2007 (pp. 248-264). Springer Berlin Heidelberg.
[122] Jing, L., Ng, M. K., & Huang, J. Z. (2007). An entropy weighting k-means algorithm
for subspace clustering of high-dimensional sparse data. Knowledge and Data
Engineering, IEEE Transactions on, 19(8), 1026-1041.
[123] MacQueen, J. (1965, January). On convergence of k-means and partitions with
minimum average variance. In Annals of Mathematical Statistics (Vol. 36, No. 3, p.
1084). Ims business office-suite 7, 3401 investment blvd, hayward, ca 94545: inst
mathematical statistics.
[124] Abdi, H., & Williams, L. J. (2010). Principal component analysis. Wiley
Interdisciplinary Reviews: Computational Statistics, 2(4), 433-459.
[125] Li, M., & Yuan, B. (2005). 2D-LDA: A statistical linear discriminant analysis for image
matrix. Pattern Recognition Letters, 26(5), 527-532.
[126] Ghahramani, Z., & Jordan, M. I. (1994). Supervised learning from incomplete data via
an EM approach. In Advances in Neural Information Processing Systems 6.
[127] Hosseinzadeh, D., & Krishnan, S. (2007, October). Combining vocal source and MFCC
features for enhanced speaker recognition performance using GMMs. In Multimedia
Signal Processing, 2007. MMSP 2007. IEEE 9th Workshop on (pp. 365-368). IEEE.
[128] Chen, Y., Chu, M., Chang, E., Liu, J., & Liu, R. (2003, September). Voice conversion
with smoothed GMM and MAP adaptation. In interspeech.
[129] Gales, M. J. F., & Flego, F. (2010). Discriminative classifiers with adaptive kernels for
noise robust speech recognition. Computer Speech & Language, 24(4), 648-662.
[130] Atal, B. S. (1974). Effectiveness of linear prediction characteristics of the speech wave
for automatic speaker identification and verification. the Journal of the Acoustical
Society of America, 55(6), 1304-1312.
[131] Adami, A. G., Mihaescu, R., Reynolds, D. A., & Godfrey, J. J. (2003, April). Modeling
prosodic dynamics for speaker recognition. In Acoustics, Speech, and Signal
Processing, 2003. Proceedings.(ICASSP'03). 2003 IEEE International Conference
on (Vol. 4, pp. IV-788). IEEE.
[132] Senoussaoui, M., Kenny, P., Dehak, N., & Dumouchel, P. (2010, June). An i-vector
Extractor Suitable for Speaker Recognition with both Microphone and Telephone
Speech. In Odyssey (p. 6).

150
[133] Dehak, N., Kenny, P., Dehak, R., Dumouchel, P., & Ouellet, P. (2011). Front-end factor
analysis for speaker verification. Audio, Speech, and Language Processing, IEEE
Transactions on, 19(4), 788-798.
[134] Ortega-García, J., & González-Rodríguez, J. (1996, October). Overview of speech
enhancement techniques for automatic speaker recognition. In Spoken Language, 1996.
ICSLP 96. Proceedings., Fourth International Conference on(Vol. 2, pp. 929-932).
IEEE.
[135] Gales, M. J. F., & Young, S. J. (1993, September). HMM recognition in noise using
parallel model combination. In EUROSPEECH 93 proceedings (Vol. 2, pp. 837-840).
European Speech Communication Association.
[136] Wong, L. P., & Russell, M. (2001). Text-dependent speaker verification under noisy
conditions using parallel model combination. In Acoustics, Speech, and Signal
Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference
on (Vol. 1, pp. 457-460). IEEE.
[137] Cerisara, C., Rigazio, L., & Junqua, J. C. (2004). α-Jacobian environmental
adaptation. Speech Communication, 42(1), 25-41.
[138] Gonzalez-Rodriguez, J., & Ortega-Garcia, J. (1997, April). Robust speaker recognition
through acoustic array processing and spectral normalization. InAcoustics, Speech,
and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference
on (Vol. 2, pp. 1103-1106). IEEE.
[139] McCowan, I. A., Pelecanos, J., & Sridharan, S. (2001). Robust speaker recognition
using microphone arrays. In 2001: A Speaker Odyssey-The Speaker Recognition
Workshop.
[140] Drygajlo, A., & El-Maliki, M. (1998, May). Speaker verification in noisy environments
with combined spectral subtraction and missing feature theory. InAcoustics, Speech
and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference
on (Vol. 1, pp. 121-124). IEEE.
[141] Asbai, N., Bengherabi, M., Amrouche, A., & Aklouf, Y. (2014). Improving the Self-
Adaptive Voice Activity Detector for Speaker Verification using Map Adaptation and
Asymmetric Tapers. International Journal of Speech Technology, pp. 1-9.Springer.
[142] Lee, H. S., & Tsoi, A. C. (1995). Application of multi-layer perceptron in estimating
speech/noise characteristics for speech recognition in noisy environment. Speech
communication, 17(1), 59-76.
[143] Kinnunen, T., Rajan, P. (2013). A practical, self-adaptive voice activity detector for
speaker verification with noisy telephone and microphone data. Acoustics, Speech and
Signal Processing, 2013. ICASSP 2013. IEEE International Conference on (pp. 7229-
7233).
[144] Berouti, M., Schwartz, R., Makhoul, J. (1979). Enhancement of speech corrupted by
acoustic noise. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP'79. (Vol. 4, pp. 208-211).
[145] Gerkmann, T., Hendriks, R. C. (2012). Unbiased MMSE-based noise power estimation
with low complexity and low tracking delay. Audio, Speech, and Language Processing,
IEEE Transactions on, 20(4), 1383-1393.
[146] Martin, R. (2001). Noise power spectral density estimation based on optimal smoothing
and minimum statistics. Speech and Audio Processing, IEEE Transactions on, 9(5),
504-512.

151
[147]Boll, S. (1979). Suppression of acoustic noise in speech using spectral subtraction.
IEEE Trans. Acoust., Speech, Signal Processing, 27(5), 113–120.
[148] Linde, Y., Buzo, A., Gray, R. M. (1980). An algorithm for vector quantizer design.
Communications, IEEE Transactions on, 28(1), 84-95.
[149] Gauvain, J. L., Lee, C. H. (1994). Maximum a posteriori estimation for multivariate
Gaussian mixture observations of Markov chains. Speech and audio processing, ieee
transactions on, 2(2), 291-298.
[150] Amrouche, A., Debyeche, M., Taleb-Ahmed, A., Michel Rouvaen, J., Yagoub, M. C.
(2010). An efficient speech recognition system in adverse conditions using the
nonparametric regression. Engineering Applications of Artificial Intelligence, 23(1), 85-
94.
[151] Garofolo, J. S., Lamel, L. F., Fisher, W. M., Fiscus, J. G., & Pallett, D. S. (1993).
DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech
disc 1-1.1. NASA STI/Recon Technical Report N, 93, 27403.
[152] Varga, A., Steeneken, H. J. (1993). Assessment for automatic speech recognition: II.
NOISEX-92: A database and an experiment to study the effect of additive noise on
speech recognition systems. Speech communication, 12(3), 247-251.
[153] Asbai, N., Bengherabi, M., Amrouche, A., Harizi, F. (2013,). Improving Speaker
Verification Robustness by Front-End Diversity and Score Level Fusion. In Signal-
Image Technology & Internet-Based Systems (SITIS), 2013 International Conference
on (pp. 136-142).
[154] Asbai, N., Bengherabi, M., Harizi, F., Amrouche, A. (2013). Improving the
Performance of Speaker Verification Systems under Noisy Conditions using Low Level
Features and Score Level Fusion. In SIGMAP (pp. 33-38).
[155] Fan, X., & Hansen, J. H. (2009, April). Speaker identification with whispered speech
based on modified LFCC parameters and feature mapping. InAcoustics, Speech and
Signal Processing, 2009. ICASSP 2009. IEEE International Conference on (pp. 4553-
4556). IEEE.
[156] Martin, A. F., & Przybocki, M. A. (2001, June). The NIST speaker recognition
evaluations: 1996-2001. In Proc. of SPIE Vol (Vol. 7324, pp. 732411-1).
[157] https://sites.google.com/site/bosaristoolkit/home
[158] Kua, J. M. K., Epps, J., Ambikairajah, E., & Nosratighods, M. (2010). Front-end
Diversity in Fused Speaker Recognition Systems. Asia Pacific Signal and Information
Processing Association (APSIPA), 59-63.
[159] Aik Ming Toh. (2008). Feature Extraction for Robust Speech Recognition in Hostile
Environments. PhD Thesis, School of Electrical, Electronic and Computer Engineering.
Univesity of Western Australia UWA.

152

Vous aimerez peut-être aussi