Identification et Authentification Vocale
Identification et Authentification Vocale
THESE
Thème
Chapitre 1
Fig.1.1 schéma général de l’appareil phonatoire (les poumons jouent le rôle de soufflerie
alimentant le conduit vocal à travers la trachée artère). ............................................................. 7
Fig.1.2 Section schématique du larynx au niveau des cordes vocales ...................................... 8
Fig.1.3 Section schématique de l'oreille.................................................................................... 9
Fig.1.4 Audiogramme de production de la parole, seuils auditifs .......................................... 10
Fig.1.5 Allure temporelle de la fenêtre de Hamming .............................................................. 13
Fig.1.6 Allure temporelle de la fenêtre de Hanning ................................................................. 14
Fig.1.7 Allure temporelle de la fenêtre de Blackman .............................................................. 15
Fig.1.8 Comparaison entre les allures temporelles de la fenêtre symétrique et les fenêtres
asymétriques ............................................................................................................................. 16
Fig.1.9 Aperçu de l’algorithme de VAD ................................................................................. 18
Fig.1.10 Le modèle source-filtre ............................................................................................. 19
Fig.1.11 Calcul du cepstre complexe ....................................................................................... 20
Fig.1.12 Les étapes d’extraction des paramètres acoustiques. ................................................. 21
Fig.1.13 Filtre d'analyse de la parole ...................................................................................... 23
Fig.1.14 Filtre de synthèse de la parole .................................................................................. 23
Fig 1.15 Schéma de principe de LPCC .................................................................................... 27
Fig 1.16 Mel échelle ................................................................................................................. 28
Fig.1.17 calcul des MFCCs ...................................................................................................... 28
Fig.1.18 Mel filterbanks .......................................................................................................... 29
Fig.1.19 Calcul des dérivées premières et secondes de coefficients MFCC ............................ 31
Fig.1.20 Le processus de calcul des coefficients PLP ............................................................ 32
Chapitre 2
Fig.2.1 Schéma modulaire d'un système d'IAL. ...................................................................... 45
Fig.2.2 Schéma modulaire d'un système de VAL. ................................................................... 45
Fig.2.3 Schéma modulaire d'un système d’indexation du locuteur.......................................... 46
Fig.2.4 Principe de la quantification vectorielle ...................................................................... 48
Fig.2.5 trois gaussiennes forment une distribution de mélange ............................................... 48
Fig.2.6 Modèle de Markov caché............................................................................................. 49
Fig.2.7 Machines à vecteurs de support (SVM)....................................................................... 50
Fig.2.8 Calcul du seuil de décision en fonction de taux d’erreur de fausse acceptation (FAR,
ou FA) et taux d’erreur de faux rejet (FRR ou FR) .................................................................. 51
Fig.2.9 Exemple d’une courbe DET ........................................................................................ 53
Fig.2.10 Normalisation Min-max............................................................................................ 55
Fig.2.11 Système de fusion de scores ...................................................................................... 56
Chapitre 3
Fig.3.1 Modélisation du locuteur par GMM-UBM .................................................................. 74
Fig.3.2 Données linéairement séparables…………………………………………………….76
Fig.3.3 Données non linéairement séparables. ........................................................................ 78
Fig.3.4 Modélisation du locuteur par GMM-SVM .................................................................. 83
Chapitre 4
Fig.4.1 Les différent type de bruits et leurs impacts sur l’état physiologique de locuteur ...... 86
Fig.4.2 Schéma bloc de reconnaissance du locuteur dans un réseau de télécommunication, en
présence d’un bruit d’environnement ....................................................................................... 87
Fig.4.3 Bloc diagramme de l’approche GMM-MAP-VAD ..................................................... 91
Fig.4.4 Bloc diagramme de l’approche proposée de la fusion des scores basée sur la somme
pondérée adaptative .................................................................................................................. 97
Fig.4.5 allure de la fonction sigmoïde ...................................................................................... 98
Chapitre 5
Fig.5.1 Taux d’identification du locuteur en utilisant différentes composantes de GMM ... 103
Fig.5.2 Taux d’identification du locuteur en utilisant GMM (k=32) avec MFCCs et MFCCs
basés sur les fenêtres asymétriques ........................................................................................ 103
Fig.5.3 Spectrogramme d’un segment de 30 ms extrait d’un bruit Babble ........................... 105
Fig.5.4 Spectrogramme d’un segment de 30 ms extrait d’un bruit d’Usine .......................... 106
Fig.5.5 Comparaison des courbes DET lors de l'utilisation: a) VQ-VAD avec MFCC-
Hamming taper; b) GMM-VAD avec MFCC-Hamming taper; c) GMM-MAP-VAD avec
MFCC- Hamming et asymétriques tapers. ............................................................................. 108
Fig.5.6 Spectrogramme d’une trame de parole non bruitée de durée 15ms, pondérée par la
fenêtre symétrique de Hamming ........................................................................................... 109
Fig.5.7 Spectrogrammes d’une trame de parole non bruitée de durée 15ms pondérée par les
fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5 ......................................... 111
Fig.5.8 Spectrogramme d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de
durée 15ms, pondérée par la fenêtre symétrique de Hamming. ............................................ 114
Fig.5.9 Spectrogrammes d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB)
de durée 15ms pondérée par les fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d)
k=5 .......................................................................................................................................... 116
Fig.5.10 Filtre Linéaire ......................................................................................................... 117
Fig.5.11 Courbes DET en utilisant: a) GMM sans MAP, b) GMM-MAP ............................ 118
Fig.5.12 Spectrogramme d’un segment de 30 ms extrait d’un bruit Blanc ........................... 123
Fig.5.13 Les courbes DET en utilisant: a) GMM-UBM, b) GMM-SVM. ........................... 125
Fig.5.14 Les courbes DET en utilisant les méthodes de fusion de scores avec: a) GMM-
MAP, b) GMM-SVM ............................................................................................................. 126
Fig.5.15 La courbe DET en utilisant: l’approche de fusion des scores proposée entre GMM-
UBM and GMM-SVM ........................................................................................................... 127
Fig.5.16 Les courbes DET de la fusion de GMM-UBM avec GMM-SVM à: a) SNR= 0 dB,
b) SNR= 5 dB, c) SNR= 10 dB et d) SNR= 15 dB ................................................................ 132
Fig.5.17 les courbes DET de tous les systèmes sous l’environnement calme ....................... 134
Fig.5.18 les courbes DET en utilisant : a) MFCCs avec leurs extensions et b) MODGDCs s
avec leurs extensions .............................................................................................................. 138
Fig.5.19 Représentation spectrale d’une trame de parole non bruitée de durée de 30 ms, en
utilisant la transformée de Fourier et les fonctions du retard de groupe ................................ 139
Liste des tableaux
dynamisme, et de son efficacité. Ils ont été et resteront des moteurs de mon
travail de chercheur.
présider ce Jury.
Jury.
Je ne saurais oublier ma famille qui m’a été d’un grand soutien et qui n’a
jour aboutir.
BOUKEFFOUS El Yazid qui m’a accueilli à bras ouverts pendant mon séjour
sympathie avec moi, qui m’ont permis de travailler dans d’aussi bonnes
reconnaîtront.
Introduction Générale
Introduction Générale
Introduction Générale
L’identification et la vérification (authentification) automatique du locuteur, est le processus
de reconnaissance automatique du locuteur (RAL), sur la base des informations individuelles
incluses dans les ondes de son signal de parole [1]. Ce système de reconnaissance utilise la
voix du locuteur, afin de vérifier son identité et fournit un contrôle d'accès aux services tels
que ; les services d'accès aux bases de données, les services d'information, la messagerie
vocale, le contrôle de sécurité pour les zones d'informations confidentielles, l'accès à distance
à des ordinateurs et plusieurs autres domaines où la sécurité est le principal sujet de
préoccupation.
l’enregistrement du signal audio n’est pas considéré comme intrusif (mais peut
cependant présenter des difficultés au niveau législatif).
le signal audio est naturellement véhiculé dans la majorité des réseaux de
communication.
les techniques de stockage et de compression du signal audio sont très efficaces.
dans de nombreuses applications (serveurs vocaux), l’utilisateur emploie déjà la parole
pour communiquer avec la machine [2].
Cependant, un système RAL idéal n’existe pas encore, des applications réelles émergent sans
cesse d’une année à l’autre. Donc, la problématique de la RAL en termes de difficultés et
d’inconvénients majeurs rencontrés, lors de sa conception, a été identifiée à différents
niveaux:
La plupart des modèles d’apprentissage utilisés pour modéliser le locuteur, sont basés
sur le modèle classique de mélange gaussien (GMM) [3]. Ce dernier (GMM) utilise la
procédure EM (Expectation Maximization) [4] pour dériver les modèles probabilistes
du locuteur. Toutefois, il a été rapporté que ‘EM’ souffre de faibles taux de
convergence [4] et une tendance à se retrouver à des solutions sous-optimales. Donc,
diverses modèles ont été proposés, afin d’améliorer les performances [5]. Ce domaine
de recherche est toujours actif actuellement, en raison du grand intérêt dans les
algorithmes de modélisation performants permettant des applications en temps réel du
système de reconnaissance du locuteur.
1
Introduction Générale
Les systèmes actuels de RAL font face à la dégradation des performances, en raison de
l'âge du locuteur, l'évolution des conditions de sa santé et son état mental, ou en
particulier les conditions d’environnement où le système est mis en œuvre [8]. Les
effets exacts de ces facteurs sur la reconnaissance du locuteur ne sont pas encore
cernés.
Donc, le défi majeur en RAL, réside dans l’amélioration de ses performances dans des
conditions fortement dégradées (présence des bruits d’environnement ou canal de
transmission). Pour cela, divers et nombreux algorithmes ont été proposés au cours des
dernières décennies pour résoudre ce problème. Par exemple, les locuteurs peuvent être
modélisés dans plusieurs environnements bruités pour réduire l'inadéquation entre les
conditions de l’apprentissage et de test [9]. Les méthodes de rehaussement de la parole, telles
que la soustraction spectrale, ont été explorées pour la reconnaissance du locuteur en milieux
réel [10]. L’analyse auditive de la scène (CASA) a récemment été utilisée pour éliminer le
bruit [11]. Les méthodes d’extraction de paramètres telles que la modulation des
caractéristiques spectrales [12] et celles incorporant des informations de phase [13] ont
montré une robustesse contre la réverbération.
Dans cette thèse, nous continuons dans la même direction de recherche, par diversification des
méthodes d’extraction des paramètres acoustiques existantes déjà dans la littérature, et de
modélisation du locuteur utilisées dans la RAL, et de proposer des approches de fusion entres
les paramètres et les modèles qui pourraient conduire à une amélioration des performances de
RAL dans des conditions adverses. Ceux-ci résultent dans des modèles statistiques puissants
dont les paramètres peuvent être estimés automatiquement sur la base d’un grand ensemble
d’entraînement.
Beaucoup d’outils et de connaissances relatives au mécanisme de RAL sont maintenant
disponibles. Les systèmes actuels sont basés sur les caractéristiques extraites à partir de
l’enveloppe spectrale du signal de parole (MFCC, PLP, RSTA-PLP, …, etc.)[14] sont
dominants, alors que d’autres utilisent les vecteurs caractéristiques dérivés de la phase du
signal de parole, en utilisant les fonctions du retard de groupe comme MDGCs (Modified
Group Delay features) [15]. Des expériences importantes ont été menées dans ce travail de
thèse, concernant la mise en œuvre de ces méthodes d’extraction, leur comportement dans les
milieux réels en utilisant les méthodes de modélisations dites statistiques ou discriminatives,
2
Introduction Générale
qui font l’objet de cette thèse telles que les mélanges de gaussiennes GMM-UBM [3] et les
GMMs combinés avec les machines à vecteurs de support GMM-SVM [16], qui montrent
notamment leur manque de robustesse aux environnements bruités.
Notre effort de recherche dans cette thèse, se concentre également sur les nouvelles variantes
dérivées de MFCCs, en utilisant d’autres fenêtres dans l’analyse à courte terme du signal de
parole, telle que les fenêtres asymétriques [17], et la fusion des paramètres et des modèles à
différents niveaux, principalement au niveau de scores. L'amélioration des performances peut
être atteinte par les méthodes que nous proposons pour la fusion des systèmes avec différents
‘front-end’ ou ‘back-ends’. Ceci peut être réalisé par l'utilisation de différents détecteurs
d'activité vocale (VAD) et / ou des techniques d'extraction de caractéristique à travers le
système [17].
Par ailleurs, dans les systèmes de RAL réel actuels, la connaissance du type de bruit et la
valeur de rapport signal sur bruit (SNR) ont une grande importance, dans l’amélioration des
performances. Pour cela, une voie prometteuse pour lutter contre la dégradation des
performances de RAL sous les bruits d’environnements, est la fusion des scores.
De nombreuses méthodes récentes proposent des techniques de fusion basées sur la somme
pondérée des scores issus de chaque module de reconnaissance spécifique. Moyenne, max et
produit sont les fonctions les plus populaires utilisées [18]. Dans cette thèse, de nouvelles
approches sont proposées à savoir ; la somme pondérée adaptative, basée sur l’utilisation du
VAD à base de l'énergie (Par exemple, Mak et. al [19] a utilisé le VAD à base de l'énergie
qu’il trouve utile pour les données de la parole du NIST), afin d’estimer la valeur de SNR du
bruit d’environnement dans lequel le système RAL opère, pour que elle soit ensuite utilisée
dans le calcul des poids de pondération de la technique de fusion des scores.
Cependant, le VAD fonctionne très bien dans des conditions calmes (absence du bruit), mais
se détériore drastiquement dans des conditions bruitées. Une façon d'y parvenir est
d'introduire le module de rehaussement de la parole par soustraction spectrale dans l’étape de
prétraitement acoustique [10]. Man-Wai Mak et al concluent dans leurs travaux récents [19],
que la suppression du bruit est d'une importance primordiale pour le VAD sous de très faible
SNR. En outre, ils proposent une idée intelligente qui est l’indexation et l'étiquetage des
trames de parole et non-parole, sur la base de l'énergie après le rehaussement de la parole
[19]. Nous continuons dans le même sens, nous proposons des améliorations en modifiant
cette technique VAD via l'utilisation de l’adaptation maximum a posteriori (MAP) [16],pour
qu’elle soit plus efficace vis-à-vis du nombre faible de trames de parole, sélectionné après
soustraction spectrale.
La deuxième approche de la fusion des scores proposée est basée sur la fonction sigmoïde
adaptative avec le réseau de neurones MLP (Multi-Layer Perceptron) [20]. Le principe de
cette technique est inspiré du fait que, les scores loin de leur moyenne (outliers en anglais)
peuvent être normalisés et forcés à se rapprocher à nouveau de leur moyenne, en utilisant la
fonction sigmoïde, ainsi le réseau de neurones MLP.
Par conséquent, les contributions de cette thèse sont comme suit:
3
Introduction Générale
Dans le quatrième chapitre, nous décrivons les méthodes de fusion des scores
proposées, basées sur la nouvelle techniques (GMM-MAP-VAD) proposée et le réseau
de neurones (MLP) dans le cadre de notre travail, afin d’améliorer les performances de
RAL en milieux réel.
Au cinquième chapitre, nous présentons le système de RAL que nous avons élaboré et
qui repose sur les modèles d’apprentissage basés sur les méthodes GMM-UBM et
GMM-SVM, ainsi qu’une fusion des scores issus de ces deux modèles est réalisée,
lorsque différents paramètres acoustiques sont utilisés comme étant des entrées pour
ces modèles. L’application de tels systèmes n’a d’intérêt que s’ils sont utilisés dans un
milieu naturel réel, donc fortement pollué par les nuisances sonores. Dans notre étude,
l’efficacité de la reconnaissance a été évaluée dans des environnements acoustiques
4
Introduction Générale
hostiles à l’aide de la base de données NOISE’92 NAT. Des discussions porteront sur
l’interprétation des résultats obtenus.
Enfin une conclusion incluant les perspectives ouvertes par ce travail, ainsi que les
principales références bibliographiques utilisées termineront cette thèse.
5
Chapitre 1
Chapitre 1
1.1. Introduction
L’analyse acoustique de la parole est aujourd’hui une composante fondamentale des systèmes
de reconnaissance vocale (parole ou locuteur) [21], [22]. Située au croisement du traitement
du signal numérique et du traitement du langage. Cette analyse acoustique du signal de parole
(considéré comme étant un signal aléatoire d’une grande variabilité et redondance, continu,
d’énergie finie, non stationnaire) a pour but de donner une représentation moins redondante
de la parole, tout en permettant une extraction assez précise des paramètres acoustiques
qui caractérisent ce signal, et qui devraient respecter les critères de Deviren [22].
6
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Ce geste articulatoire est le résultat de l’action volontaire et coordonnée d’un certain nombre
de muscles. Cette action se déroule sous le contrôle du système nerveux central qui reçoit en
permanence des informations [25], [26], [27], [28].
Fig. 1.1 schéma général de l’appareil phonatoire (les poumons jouent le rôle de soufflerie alimentant le conduit
vocal à travers la trachée artère) [54].
Le larynx est un ensemble de muscles et de cartilages mobiles qui entourent une cavité
située à la partie supérieure de la trachée (voir Fig.1.1). Les cordes vocales sont en fait
deux lèvres symétriques placées en travers du larynx. Ces lèvres peuvent fermer
complètement le larynx et, en s’écartant progressivement, elles déterminent une ouverture
triangulaire appelée glotte. L’air y passe librement pendant la respiration et la voix
7
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
chuchotée, ainsi que pendant la phonation des sons non-voisés (ou sourds). Les sons voisés
(ou sonores) résultent au contraire d’une vibration périodique des cordes vocales. Le larynx
est d’abord complètement fermé, ce qui accroît la pression en amont des cordes vocales, et
les force à s’ouvrir, ce qui fait tomber la pression, et permet aux cordes vocales de se
refermer; des impulsions périodiques de pression sont ainsi appliquées au conduit vocal,
composé des cavités pharyngienne et buccale pour la plupart des sons. Lorsque la luette est
en position basse, la cavité nasale vient s’y ajouter en dérivation. Notons pour terminer le
rôle prépondérant de la langue dans le processus phonatoire. Sa hauteur détermine la hauteur
du pharynx : plus la langue est basse, plus le pharynx est court. Elle détermine aussi le lieu
d’articulation, région de rétrécissement maximal du canal buccal, ainsi que l’aperture,
écartement des organes au point d’articulation.
Fig. 1.2 Section schématique du larynx au niveau des cordes vocales [21]
8
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Un son, c'est une vibration qui oscille plus ou moins vite. On parle de fréquence, que l'on
exprime en Hertz : plus les vibrations sont rapprochées, plus la fréquence est élevée et le son
produit aigu. L'oreille humaine est capable de percevoir des sons entre 20 Hz et 20 000 Hz
[29], [30], [31]. Notre capacité à entendre ce son dépend aussi de l'intensité sonore avec
laquelle il s'exprime. Pour mesurer cette intensité, on utilise les décibels. Nous percevons les
sons compris entre 0 dB et 120 dB. Notre système auditif est chargé de transformer cette
vibration de l'air en une information décodable par le cerveau en tant que son. Pour ce faire,
l’appareil auditif recueillit des ondes sonores qui provoquent les sensations auditives. Ces
ondes de pression sont analysées dans l’oreille interne qui envoie au cerveau l’influx nerveux
qui en résulte; le phénomène physique induit ainsi un phénomène psychique grâce à un
mécanisme physiologique complexe.
9
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
L’appareil auditif comprend l’oreille externe, l’oreille moyenne, et l’oreille interne (voir Fig.
1.3). Le conduit auditif relie le pavillon au tympan : c’est un tube acoustique de section
uniforme fermé à une extrémité, son premier mode de résonance est situé vers 3000 Hz, ce
qui accroît la sensibilité du système auditif dans cette gamme de fréquences.
Notre capacité à comprendre la parole, même dans des conditions difficiles tient très
certainement à l’importance des redondances présentes dans toute situation de
communication, la connaissance préalable de l’interlocuteur, du sujet de la discussion, du
cadre dans lequel elle se déroule et, bien entendu, l’utilisation d’un code linguistique
commun. D’autres redondances ou variabilités, existent également au niveau de l’information
acoustique et qui sont dues aux :
10
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Variabilité intra-locuteur
La variabilité intra-locuteur est une variabilité propre au locuteur qui ne peut pas
reproduire exactement le même signal. Cette variabilité intra-locuteur est dépendante
de l’état physique et psychologique du locuteur
Variabilité interlocuteurs
La grande variabilité entre les locuteurs est due, d'une part, à l'héritage linguistique et
au milieu socioculturel de l'individu, et d'autre part aux différences physiologiques des
organes responsables de la production vocale. L'expression acoustique de ces
différences peut être traduite par une variation de la fréquence fondamentale, dans
l'échelle des formants.
Comme tout signal audio, le signal de parole émis transite par un milieu
intermédiaire avant d’être perçu par le système auditif [32]. Une transduction de la
pression acoustique est alors effectuée dans l’oreille interne humaine [33]. Lors
d’un enregistrement audio, la variation de pression est captée par un microphone
puis convertie en une grandeur électrique [34]. Ce milieu intermédiaire composé
de l’air, puis le cas échéant du matériel d’enregistrement et de restitution n’est
pas neutre. On considère alors comme principe général, que tout canal de
transmission contient des sources de bruit perturbant le signal transmis [35]. Les
perturbations liées à la transmission du signal viennent corrompre le signal de parole
émis en sortie du conduit vocal. Ces perturbations sont de divers ordres :
- des bruits additifs peuvent s’ajouter au signal de parole. Ces bruits additifs peuvent
être dus à la qualité de transmission (bruit aléatoire) ou à la superposition
d’évènements audio additionnels (environnement, mélange de voix) [36].
- des bruits convolutifs peuvent modifier la forme de l’onde du signal de parole, par
des effets acoustiques de type écho par exemple [37], [38]. Les perturbations dues
au canal de transmission du signal de parole, par exemple par le passage à travers
un réseau téléphonique filaire ou GSM, sont également génératrices de bruit
convolutif [39].
11
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Un bruit additif peut être distingué lors de la présence d’un bruit de fond perturbant le
signal de parole initial pendant sa transmission. Si ce bruit de fond est considéré
stationnaire à moyen terme, tel un bruit gaussien, alors on admet que la
répartition de son énergie est constante à travers l’ensemble de l’amplitude
fréquentielle selon l’échelle temporelle utilisée [41]. Dans ce cas, à l’échelle de la
parole, un bruit additif est considéré stationnaire dès qu’il est stable en fréquence à
partir d’une échelle de grandeur de l’ordre de 200 ms [32]. A cette échelle, le bruit de
fond peut se détecter par la présence d’énergies moyennes cumulatives dans certaines
plages de fréquence [42]. A ce moment, des techniques de compensation du
signal de parole peuvent être mises en œuvre, afin d’annuler la présence de ces
énergies moyennes [43]. Cependant, un bruit additif créant une perturbation
évoluant en fréquence à cette échelle est difficile à discriminer. Parmi ces autres
types de bruit additifs, le bruit de type impulsion est caractérisé par sa forme
théorique d’impulsion de Dirac, tels un bruit de marteau piqueur ou celui d’un
claquement de porte [44]. Par ailleurs, l’intervention simultanée d’autres locuteurs
que celui porteur du message dans le signal de parole, est également considérée
comme un bruit perturbateur nécessitant une adaptation du système de RAL [45].
Cette interférence est connue sous le nom d’effet « cocktail party » [46]. Ce type
de bruit est difficilement détectable car ses caractéristiques spectrales et
temporelles sont proches de celle du signal de parole à analyser [47].
Le signal de parole est continu, ce qui rend son traitement par la machine difficile, on procède
alors à une opération simple appelée ‘échantillonnage’ pour le discrétiser, tout en respectant
le théorème de Shannon [40].
D’autre part, il est difficile voire impossible de traiter un signal non stationnaire tel celui de la
parole sans le fragmenter en trames. Une analyse à court terme montre que le signal vocal est
quasi stationnaire sur des tranches temporelles de durées de 10 à 30 ms [48]. Cette analyse est
effectuée à l’aide de fenêtres [49] telles que :
n
Fenêtre Hamming wn 0,54 0,46. cos(2 ), 0n N (1.1)
N
N : la taille de la fenêtre.
12
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
0.9
0.8
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250 300
Samples
Cette fenêtre de Hamming est souvent utilisée, vu que son spectre n’introduit pas trop de
distorsion sur le signal vocal : l‘atténuation du lobe principal par rapport aux lobes
secondaires est de - 41db, et la concentration de l’énergie du principal est de 99.96%.
n
Fenêtre Hanning : wn 0,5(1 cos(2 )), 0n N (1.2)
N
N : la taille de la fenêtre.
13
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
0.9
0.8
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250 300
Samples
Fenêtre Blackman :
n n
wn 0,42 0.5 cos(2 ) 0.08 cos(4 ), 0n N (1.3)
N N
N : la taille de la fenêtre.
14
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
0.9
0.8
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250 300
Samples
Notons que toutes les fenêtres citées auparavant sont des fenêtres symétriques. Toutefois, y’a
d’autre types de fenêtres dites fenêtres asymétriques [50], [51], qui sont une extension des
fenêtres symétriques.
Etant donné une fenêtre symétrique ws (n) de longueur N [48], sa phase instantanée (n) est
calculée par l'application d'une transformée de Hilbert à la fenêtre symétrique. Ensuite, la
fenêtre asymétrique wat (n) est obtenue selon l’expression suivante:
où n est l'indice de temps, e k (n ) est une fonction asymétrique, k est un paramètre qui
contrôle le degré d'asymétrie, et c est la constante de normalisation qui est donnée par :
max( ws (n))
c ,0 n N 1 (1.5)
max( ws (n)e k ( n ) )
15
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
1
Baseline taper
0.9 Asy-taper(k=-1.41)
Asy-taper(k=-2.21)
0.8
Asy-taper(k=2.31)
Asy-taper(k=4)
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 50 100 150 200 250 300
Samples
Fig.1.8 Comparaison entre les allures temporelles de la fenêtre symétrique et les fenêtres asymétriques
Par contre, dans le domaine temporel on remarque que, l’amplitude du signal de parole varie
au cours du temps selon le type de son. En particulier, l’amplitude des segments non voisés
est généralement plus faible que celle des segments voisés. L’énergie à court terme du signal
de parole qui est donnée par l’expression suivante, fournit une représentation convenable qui
reflète ces variations d’amplitude :
N 1
1
E
N
x
k 0
2
(k ) (1.6)
Un autre paramètre significatif extrait de l’allure temporelle du signal de parole est ‘le taux
de passage par zéro (TPZ)’, dont l’expression est donnée par:
16
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
1 k 1
TPZ sign( x(k 1)) sign( x(k ))
2 k 0
(1.7)
Souvent les segments non voisés sont caractérisés par une faible énergie et un ‘taux de
passage par zéros’ très élevé par rapport aux segments voisés.
• Paramétriser le signal audio : extraire à partir du signal audio (que ce soit dans le domaine
temporel ou le domaine spectral) des paramètres pertinents telles que l’énergie, le taux de
passage par zéro, la forme spectrale, coefficients cepstraux, etc.
• Prendre une décision initiale: La décision est faite soit par des règles de décision sur un
segment de parole (parole/ ou non parole faite sur une trame), des modèles statistiques, ou des
seuils adaptatifs qui sont utilisés à cette fin. Ce pourrait aussi impliquer des mesures comme
l'estimation du SNR courant ou la détermination de type de bruit.
• Raffiner la décision VAD : La parole est fortement corrélée, si la trame courante
est de la parole, la trame suivante est également susceptible d'être de la parole. Donc, les
algorithmes de VAD raffinent la décision initiale pour éviter des transitions rapides de
parole à la non-parole. Les estimations de SNR et autres méthodes sont utilisées.
17
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Signal de parole
Pramétrisation
Raffiner la
décision
Décision
Comme VAD est considérée comme un problème de reconnaissance de formes, elle doit
distinguer deux classes, à savoir ; parole (qui peut être bruitée) et non- parole (silence). Dans
des environnements calmes, la plus part des algorithmes de VAD fonctionnent très bien,
mais leurs performances se détériorent considérablement dans la présence de bruit, avec de
nombreuses erreurs de détection.
Le signal vocal x(n) est produit par un signal excitateur g (n) , qui est la source glottique,
traversant un système linéaire passif de réponse impulsionnelle h(n) qui représente le conduit
vocal [53].
D’après cette hypothèse, tirée du concept source filtre de G.Fant [54], on aura le système
suivant:
18
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
G g(n) h x(n)
source conduit
Pour déconvoluer x(n), c’est à dire pour retrouver les deux composantes g(n) et h(n), avec
g(n) une séquence d’impulsions périodique pour les sons voisés, il suffit de transposer le
problème par homomorphisme dans un espace où l’opérateur de convolution «*»
correspond à un opérateur d’addition « + ».
^ ^
L’intérêt de la méthode réside dans le fait que g(n) et h(n) sont facilement séparables par un
filtrage temporel et ceci grâce à l’hypothèse simplificatrice sur g(n). Ce qui donne le système
schématisé dans la figure suivante :
19
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
TZ Log(.) TZ-1
La fonction log est utilisée pour le passage du domaine de la loi «. »(La multiplication) au
domaine de la loi « + » (l’addition), cette fonction n’est valable que pour les signaux
positifs, toutefois, étant donné que la majorité des signaux courants sont bipolaires
(positifs et négatifs), donc il faut faire appel à fonction log complexe.
Soit :
donc :
X (Z ) TZ x (n) (1.12)
X ( z ) logX ( z )
^
(la fonction log est complexe) (1.13)
x(n) TZ 1 X ( Z )
^
(1.14)
^
Le signal x(n) est appelé cepstre complexe associé au signal x(n).
20
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Le signal de parole présente donc, de la redondance et contient des informations jugées trop
redondantes [55] pour la reconnaissance de la parole ou du locuteur, ce qui justifie la
recherche d'une représentation spécifiquement pertinente.
L’extraction des paramètres du signal consiste à associer au signal de parole une série de
vecteurs de paramètres acoustiques en suivant les étapes données dans la figure (voir
Fig.1.12).
Signal
Échantillonnage
Pré- accentuation
Segmentation en trame
Il existe plusieurs types de coefficients avec lesquels le signal de parole est paramétré.
Les plus utilisés sont la coefficients LPC [56], LPCC (Linear Predictive Cepstral
Coefficients) [57], les coefficients PLP (Perceptual Linear Predictive) [58] et les coefficients
MFCC (Mel Frequency Cepstral Coefficients)[57].
21
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
- pertinents : extraits de mesures suffisamment fines, ils doivent être précis mais leur nombre
doit rester raisonnable afin de ne pas avoir de coût de calcul trop important dans le module
de décodage.
- discriminants : ils doivent donner une représentation caractéristique des sons de base et les
rendre facilement séparables.
- robustes : ils ne doivent pas être trop sensibles à des variations de niveau sonore ou à un
bruit de fond. Il existe dans la littérature différentes méthodes de paramétrisation du signal
vocal.
Cette méthode est basée sur les connaissances en production de la parole. La plus connue est
l’analyse LPC dans laquelle le système de production de la parole est modélisé par un filtre
Auto Régressif (AR) [59].
L’analyse LPC a été prouvée être efficace pour la représentation du signal de parole, sous
forme mathématique. LPC est un outil utile pour l'extraction de caractéristiques, que l'appareil
vocal peut être modélisé et analysé avec précision. Des études ont montré que l'échantillon de
parole actuel est fortement corrélé à l'échantillon précédent, et aux échantillons qui précédent
immédiatement l'échantillon précédent [60]. Les coefficients LPC sont générées par la
combinaison linéaire des échantillons de parole, à l'aide de l'auto-corrélation des échantillons
passées de signal de parole, ou la méthode de auto-variance qui minimise la somme des carrés
des différences entre l'échantillon de parole prédit et réel.
M
x (n) a1 x(n 1) a2 x(n 2) ...aM x(n M ) ai x(n i)
~ (1.15)
i 1
~
x (n) est l’échantillon prédit basé sur la sommation des échantillons précédents. a sont les
i
L'erreur entre l'échantillon réel et la prédiction peut alors être exprimée par
(n) x(n) ~
x (n) (1.16)
M
(n) x(n) ai x(n i) (1.17)
i 1
22
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
M
x(n) ai x(n i) (n) (1.18)
i 1
L'échantillon de parole peut alors être reconstitué avec précision à l'aide des coefficients a i et
de l'erreur résiduelle (n) . (n) peut être représentée par l’expression suivante dans le
domaine z.
M
A( z ) 1 ai z i (1.19)
i 1
(n)
La fonction de transfert H (z ) peut être exprimée comme une fonction de l'ensemble des
pôles, où G représente le gain du système.
G
H ( z) M
(1.20)
1 ai z i
i 1
23
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Atal dans ses travaux [56], mentionne que le modèle LPC peut modéliser plus adéquatement
la parole en faisant passer une impulsion d'excitation variant dans le temps à travers tous les
pôles de filtre, à l'aide coefficients LP. LPC est considérée comme une méthode qui fournit
une bonne estimation de l'enveloppe spectrale du conduit vocal, et elle est importante dans
l'analyse de la parole en raison de la précision et la rapidité, avec laquelle elle peut être
dérivée. Les vecteurs de caractéristiques sont calculés par LPC sur chaque trame. Les
coefficients utilisés pour représenter la trame varient généralement de 10 à 20 en fonction de
l'échantillon de parole, l'application et le nombre de pôles dans le modèle. Cependant, LPC a
aussi des inconvénients. Tout d'abord, LPC analyse linéairement le signal de parole à toutes
les gammes de fréquence qui est incompatible avec la perception auditive de l'être humain.
Deuxièmement, LPC est très sensible au bruit provenant de l'environnement qui peut
provoquer des erreurs dans la modélisation de locuteur ou de parole.
La méthode d’auto -corrélation garantit la stabilité du filtre LP. Les hypothèses de cette
méthode sont les suivantes :
- Chaque échantillon peut être prédit approximativement à partir des échantillons précédents.
L’erreur quadratique totale entre le signal fenêtré s w (n ) et le signal prédit par le modèle est
minimisée sur l’ensemble des échantillons. La fonction d’auto –corrélation du signal fenêtré
s w (n ) est :
N 1
R(i ) s w (n).s(n i) avec 1 i p (1.26)
n 1
Pour trouver les coefficients du filtre LPC, l’énergie du résiduel de prédiction doit être
minimisée sur l’intervalle fini 0 n N 1.
24
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
p
E e 2 ( n)
n
[sw (n) ak sw (n k )]2
n k 1
(1.23)
Cette erreur peut être minimisée en annulant les dérivées partielles par rapport aux
coefficients du filtre.
E
0 pour 1 k p (1.24)
a k
p
ak
k 1
n
s w (n i ) s w (n k ) s
n
w (n i) s w (n). tel que 1 i p (1.25)
R( i k )a
k 1
k R(i). tel que 1 i p (1.26)
La forme matricielle de l’ensemble des équations linéaires (1.26) est représenté par :
La matrice d’auto –corrélation pxp obtenue est symétrique dont les éléments de la diagonale
sont égaux, c’est la matrice de Toeplitz . Ce qui nous permet de trouver les coefficients de
prédiction minimisant la moyennes quadratique de l’erreur de prédiction par l’algorithme de
Levinson-Durbin [56].
25
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
a (1.31)
La matrice n’est pas une matrice de Toeplitz, et ne garantit pas la stabilité du filtre
LPC, elle est symétrique et définie positive. Donc, la matrice de covariance peut être
décomposée en deux matrices ; l’une triangulaire inférieure L, l’autre triangulaire
supérieure U, telles que :
L*U (1.33)
L* y (1.35)
Puis ;
U *a y (1.36)
26
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
L’analyse LPCC (Linear Predictive Cepstral Coefficients) combine les avantages de l'analyse
LPC [59] et cepstrale [53], et améliore aussi la précision des caractéristiques obtenues pour la
reconnaissance du locuteur. LPCC [57] est une méthode qui fait un très bon lissage de
l’enveloppe spectrale du signal de parole, qui permet l'extraction de caractéristiques du
locuteur. Le schéma de principe de LPCC est indiqué sur la figure ci-dessous
A/D Pre-
accentuation
Signal de
Parole
c1 a1
n 1
k
c n a n (1 )a k c n k , 1 n p (1.37)
k 1 n
où c i et a i sont les i ième coefficients de cepstre et de coefficients de prédiction linéaire (LPC),
respectivement.
Les coefficients MFCC (Mel-Frequency Cepstral Coefficients) [55],[57] sont des coefficients
cepstraux très souvent utilisés en reconnaissance automatique de la parole et du locuteur. Le
codage MFCC utilise une échelle fréquentielle non-linéaire ou échelle Mel.
f
B( f ) 2595 log 101 (1.38)
700
27
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
L'intérêt de l'échelle Mel est d'être assez proche d'échelles issues d'études sur la perception
sonore et sur les bandes passantes critiques de l’oreille.
Signal
Pré- accentuation
fenêtrage
DFT
Filtres de Mel-
fréquence
Log |. |
IDFT
MFCCs
28
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Pour un signal discret {x[n]} avec 0≤n ≤N, où N est le nombre d'échantillons d'une fenêtre
d’analyse, Fs est la fréquence d'échantillonnage, la transformée de Fourier discrète (DFT)
Le spectre du signal est multiplié avec des filtres triangulaires (voir Fig.1.18) dont les
bandes passantes sont équivalentes en domaine Mel-fréquence. Les points frontières B[m]
des filtres en mel-fréquence sont calculés ainsi :
B( f h ) B( f l )
B[m] B( f l ) m 0 m M 1 (1.40)
M 1
Où M est le nombre de filtres, fh est la fréquence la plus haute et fl est la fréquence la plus
basse pour le traitement du signal.
1.8
1.6
1.4
1.2
Amplitude
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120 140
Samples
29
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Dans le domaine fréquentiel, les points f[m] discrets correspondants sont calculés par
l'équation :
N B( f h ) B( f l )
f [m] B 1 B( f l ) m (1.41)
Fs M 1
0 si k f [m 1]
k f [m 1]
si f [m 1] f [m]
f [m] f [m 1]
H m [k ] (1.42)
f [m 1] k
si f [m] k f [m 1]
f [m 1] f [m]
0 si k f [m 1]
Pour un spectre lissé et stable, à la sortie des filtres un logarithme de spectre d'amplitude est
calculé :
N 1
E[m] log S[k ] H m [k ] 0mM
2
(1.43)
k 0
Les coefficients cepstraux de mel-fréquence (MFCCs) seront obtenus par une transformée
de cosinus discrète (permet d'obtenir des coefficients peu corrélés) à partir des coefficients
aux sorties des filtres :
1
M 1 n(m )
c[n] E[m] cos 2 0nM (1.44)
m 0 M
Une douzaine de coefficient MFCCs sont généralement considérés comme suffisants pour
les expériences de reconnaissance de la parole.
30
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Afin de prendre en compte la dynamique du signal, nous ajoutons aux paramètres MFCC les
coefficients différentiels (ou coefficients delta) du premier et du second ordre (voir
Fig.1.19).
Soit le vecteur acoustique à N composantes MFCCs Ct ct1 , ct2 ,...., ctN . Les
coefficients delta de premier ordre sont alors estimés par :
KC t
Ct K L
L
(1.45)
K
K L
2
Les coefficients du second ordre sont calculés en itérant deux fois l’expression (1.43)
F
Extraction des
paramètres C
31
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
L’étude expérimentale a conduit à la notion de bande critique: des signaux dont la fréquence
se situe à l’intérieur d’une bande critique, influent sur la perception de signaux situés dans la
même bande, mais n’influent pas à l’extérieur de cette bande.
Une bande critique peut être considérée comme un filtre passe-bande, dont la réponse en
fréquence correspond approximativement à une courbe d’accord d’une fibre nerveuse
auditive.
Ainsi, il est possible que certains détails spectraux importants du spectre ne soient pas pris en
compte par l’analyse LP, ou encore qu’ils prennent une importance majeure sans qu’ils soient
physiologiquement pris en compte par l’oreille.
L’analyse PLP [58] permet de résoudre ce problème. Elle permet d’estimer les paramètres du
filtre auto-régressif tout pôle, modélisant au mieux le spectre auditif.
Le processus de calcul des coefficients PLP peut être décrit par la figure suivante:
32
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Après une mise en forme du signal de parole, le spectre de puissance P( ) est calculé.
Ensuite, un passage de l’échelle de fréquence usuelle à l’échelle de Bark est effectué en
utilisant la relation suivante :
0.5
( ) 6 ln ( ) 1
2
(1.46)
1200 1200
Ce passage à l’échelle Bark, permet d’approximer de manière grossière ce que nous savons de
la forme des filtres auditifs. Elle est approximativement constante le long de l’échelle de
Bark. Le spectre de puissance dans l’échelle de Bark est convolué avec le spectre de
puissance de la courbe de bande critique en utilisant l’équation suivante:
0 1.3
10 2.5( 0.5) 1.3 0.5
() 1 pour 0.5 2.5 (1.47)
10 2.5( 0.5) 0.5 2.5
0 2.5
33
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
2.3
(t ) P( ). ()
1.3
t (1.50)
La non linéarité entre l’intensité d’un son et sa force de perception par l’oreille est ensuite
approximée par une loi de puissance :
L’analyse PLP est très similaire à l’analyse MFCC. La différence est que l’analyse PLP utilise
l’échelle Bark au lieu de l’échelle Mel et un modèle autorégressif tout pôle au lieu de la
transformée en cosinus discrète (DCT) pour le calcul des coefficients.
Cette méthode PLP a été par la suite améliorée pour résister à certaines conditions de bruit.
C’est ainsi que l’analyse RASTA-PLP [57], a été développée, RASTA étant l’acronyme de
RelAtive SpecTrAl.
La méthode PLP, dont l’algorithme repose sur des spectres à court terme de la parole, résiste
difficilement aux contraintes qui peuvent lui être imposées par la réponse fréquentielle d’un
canal de communication. Pour atténuer les effets de distorsion spectrale linéaire, Hermansky,
propose de modifier l’algorithme PLP en remplaçant le spectre à court terme par un spectre
estimé où chaque canal fréquentiel est modifié par passage à travers un filtre.
La représentation spectrale d'un signal de parole est complète seulement lorsqu’à la fois les
informations de l’amplitude et de phase sont spécifiées.
Etant donné un signal vocal x(n) , sa transformée de Fourier à court terme après une
pondération par une fenêtre (n) est comme suit :
34
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
X n ( ) x(m) (n m)e
m
jm
(1. 52)
Cette transformée peut être écrite sous sa forme polaire comme ceci :
X n ( ) X n ( ) e jn ( ) (1.53)
La plupart des représentations spectrales à court terme de la parole, sont dérivées à partir du
spectre d'amplitude (par exemple [55], [58]). Le spectre de phase à court terme n’a pas été
utilisé généralement dans la représentation spectrale de la parole. Il y a deux raisons majeures
à cela [61], [62]. La première raison est que les premières études de reconnaissance de la
parole humaine, ont indiqué que la phase à court terme a peu contribué à l'intelligibilité de la
parole. La deuxième raison est que le spectre de phase est généralement disponible sous une
forme discontinue (ou enveloppé), entre ses valeurs principales (-π, π]. Pour le rendre une
fonction continue, le spectre de phase doit être déballé en utilisant une fonction à valeurs
multiples. C'est ce qu'on appelle la phase déballée (unwrapping) [63].
Cependant, l'extraction d'information à partir du spectre de phase n'est pas aussi simple que
l'extraction d'information à partir du spectre d'amplitude. À la différence du spectre
d'amplitude, le spectre de phase ne présente pas explicitement les résonances du système. En
outre, les difficultés de traitement du signal (tels que le spectre de phase déballé) sont
rencontrés en travaillant directement avec le spectre de phase [61], [62]. Les informations
contenues dans le spectre de phase ont été utilisées la plupart du temps par le traitement de sa
dérivée (i.e ; la dérivée de la phase), « la fonction de retard de groupe ».
La fonction de retard de groupe a été utilisée dans des applications comme la reconstruction
du signal [61], l'extraction de formants [64] et de l'estimation du spectre [65]. Les chercheurs
ont également mis au point des représentations classiques à court terme provenant de la
fonction de retard de groupe [66], [67]. En outre, il est démontré que pour des applications
telles que la reconnaissance vocale et locuteur, utilisant les paramètres extraits sur la base de
la phase et l’amplitude réalisent des performances comparables, et surtout une amélioration
dans les résultats lorsqu’en les combinant [67], [68].
Sachant que, la transformée de Fourier d’un signal de parole x(n) est donnée sous sa forme
polaire par l’équation (1.53). La fonction de retard de groupe ( ) d'un signal x(n) est
définie comme la dérivée négative du spectre continu de la phase ( ) :
35
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
d ( )
( ) (1.54)
d
A partir de l’équation (1.53), la fonction de retard de groupe peut être calculée directement
du signal comme suit :
X R ( ) Xˆ R ( ) X I ( ) Xˆ I ( )
( ) (1.55)
X ( )
2
Il est démontré que pour un signal à phase minimale, le log de l’amplitude et le spectre
continu de la phase sont liés comme ceci [69] :
1
ln X ( ) c(0) c(n) cos(n ) (1.56)
2 n 1
( ) c(n) sin(n ) (1.57)
n 1
Où c(n) sont des coefficients cepstraux. Prenons la dérivée négative de l’équation (1.57),
nous obtenons la fonction de retard de groupe pour un signal à phase minimal comme indiqué
dans l’expression ci-dessous :
( ) nc(n) cos(n ) (1.58)
n 1
Les équations (1.56) et (1.57) montrent que pour les signaux à phase minimale, le log de
l’amplitude et la phase sont liés à travers les coefficients cepstraux. Aussi, via l’équation
(1.58), nous constatons que la fonction de retard de groupe ce n’est qu’une transformée de
Fourier pondérée du spectre.
36
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Soit x(n) un signal de parole à phase minimale non bruité, qui se dégrade par l’ajout d’un
bruit additif v(n) de variance 2 ( ) et de moyenne nulle. Le signal bruité y (n) peut être écrit
comme suit :
Multipliant les entités dans l’expression ci-dessus par leurs conjugués complexes, nous
obtenons le spectre de puissance :
PY ( ) PX ( ) 2 ( ) (1.61)
Le spectre de puissance du signal de parole bruité qui en résulte, peut être lié à la puissance
de bruit et à la puissance de signal de parole en milieu calme, dans une des trois régions de
fréquence suivant les formules ci-dessous:
Le spectre du signal de parole bruité, dans chaque cas de puissance est représentée par
PYn ( ), PYs ( ) et PYe ( ) respectivement. Ainsi, nous analysons la représentation de retard de
groupe de signal bruité dans les trois cas mentionnés ci-dessus.
Dans ces régions, la puissance spectrale de bruit est plus grande que celle du signal de parole.
A partir de l’équation (1.61), nous avons
37
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
PYn ( ) PY ( ) , PX ( ) 2 ( )
PX ( ) 2 ( ) (1.62)
PX ( )
2 ( )(1 )
2 ( )
En prenant les logarithmes des deux côtés, et en utilisant le développement en série de Taylor
P ( )
de ln(1 X2 ) , dont nous ignorons ensuite les termes d'ordre supérieur, nous obtenons
( )
l’expression suivante :
P ( )
ln( PYn ( ) ln 2 ( )(1 X2
( )
)
(1.63)
P ( )
ln( 2 ( )) X2
( )
Élargir PX ( ) comme une série de Fourier (Sachant que PX ( ) est une fonction périodique,
continue en fonction de avec période 0 2 ),
1 d0 2
ln( PYn ( ) ln( 2 ( )) d k cos( k ) (1.64)
( ) 2 k 1
2
0
Pour un signal à phase minimale, la fonction de retard de groupe peut être calculée en
fonction des coefficients cepstraux de log-amplitude du spectre, comme a été démontré dans
[61],
c0
ln X ( ) ck cos(k )
2 k 1
( ) kck cos(k ) (1.65)
k 1
38
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
En appliquant cette observation dans l’équation (1.64), nous obtenons la fonction de retard de
groupe comme suit:
1
Y ( )
n kdk cos(k )
2 ( ) k 1
(1.66)
Cette expression montre que la fonction de retard de groupe est inversement proportionnelle
à la puissance de bruit ( 2 ( ) ) dans les régions où la puissance de bruit est supérieur à celle
du signal.
PYs ( ) PY ( ) , PX ( ) 2 ( )
PX ( ) 2 ( ) (1.67)
2 ( )
PX ( )(1 )
PX ( )
2 ( )
ln( PYs ( ) ln PX ( )(1 )
PX ( )
(1.68)
2 ( )
ln( PX ( ))
PX ( )
1
Sachant que, PX ( ) est différente de zéro, continue et périodique en . De même ,
PX ( )
1
continue et périodique en . Donc, ln( PX ( )) et peuvent être développées en utilisant
PX ( )
la série de Fourier.
39
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
d0 2 e
2
ln( PYs ( ) d k cos( k ) 2 ( ) 0 ek cos( k )
2 k 1 0 2 k 1 0 (1.69)
d 0 2 ( )e0 2
(d k ek 2 ( )) cos( k )
2 k 1 0
En utilisant l'équation (1.65), et en suivant les étapes décrites dans le cas précédent, on obtient
l’expression de la fonction de retard de groupe en tant que :
Y ( ) k (d k 2 ( )ek ) cos(k )
s (1.70)
k 1
1
où d k et ek sont les coefficients de la série de Fourier de ln( PX ( )) et respectivement.
PX ( )
Il est satisfaisant de constater que si 2 ( ) est négligeable, la fonction de retard de groupe
peut être exprimés uniquement en termes de logarithme du spectre de l’amplitude.
40
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
Donc, à partir des équations (1.66), (1.70) et (1.73), le calcul des fonctions de retard de
groupe est résumé en trois cas :
1
( ) k (d k 2 ( )ek ) cos(k ) pour : PX ( ) 2 ( ) (1.74)
k 1
kdk cos(k ) pour : PX ( ) 2 ( )
k 1
De l'équation (1.74), en notant que la fonction de retard de groupe d'un signal à minimale de
phase (qui est corrompu par un bruit additif), est inversement proportionnelle à la puissance
de bruit à des fréquences correspondant aux régions où le bruit est élevé. Par contre, pour les
régions de faible bruit, la fonction de retard de groupe devient directement proportionnelle à
la puissance du signal. En d'autres termes, la fonction de retard de groupe a tendance à suivre
le spectre d'amplitude du signal, au lieu de celui du bruit. Ceci indique que la fonction de
retard de groupe d'un signal à phase minimale conserve les pics et vallées dans le spectre
d'amplitude, en présence d'un bruit additif. La représentation des fonctions de retard de
groupe est donc robuste au bruit.
Dans cette méthode, les zéros proches du cercle unité dans l'équation (1.55) sont supprimés
par un lissage du spectre d'amplitude X ( ) [69]. La fonction de retard de groupe modifiée
(MODGD) m ( ) résultante est définie comme suit :
s ( )
m ( ) ( )( s ( ) (1.75)
s ( )
Où
X R ( ) Xˆ R ( ) X I ( ) Xˆ I ( )
s ( ) 2
(1.76)
S ( )
41
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
4. Calculer MODGD :
s ( )
m ( ) ( )( s ( )
s ( )
Où
X R ( ) Xˆ R ( ) X I ( ) Xˆ I ( )
s ( ) 2
S ( )
42
Chapitre 1 : Analyse Acoustique de la Parole et Extraction des Paramètres
1.8. Conclusion
L’objet de cette partie est le traitement numérique de la parole produite par l’être humain, en
vue de son utilisation (la parole) en reconnaissance automatique du locuteur. Autrement dit,
utiliser la parole comme étant une modalité biométrique, pour reconnaitre ou authentifier la
personne sensée de la produire. Donc ce chapitre a été consacré, à la recherche et l’étude des
paramètres acoustiques, caractérisant mieux le locuteur, et qui sont robustes à tous types de
bruit (bruits liés à l’environnement, bruit de la communication, état de santé de
locuteur…etc.). Ainsi, les techniques de prétraitement acoustique qui sont insérées dans les
chaines d’extraction de ces vecteurs caractéristiques, afin d’assurer leurs robustesse aux
bruits, et aussi leurs bonne discrimination entre locuteurs ; à savoir la détection de l’activité
vocale (VAD) et le rehaussement de la parole. Aussi nous avons montré dans cette étude, que
les paramètres acoustiques du locuteur peuvent être extraits, soit à partir de l’amplitude
spectral du signal de parole, comme le cas de MFCC, LPC, PLP, LPCC, etc., ou à partir de la
phase du signal, comme le cas de MODGDC’s (Modified Group Delay Coefficients). Donc
cela, va nous permettre de voir les avantages et les inconvénients des uns (MFCC, LPC, PLP,
LPCC) par-rapport aux autres (MODGDC’s), dans le chapitre des résultats expérimentaux.
43
Chapitre 2
Reconnaissance Automatique du
Locuteur (RAL)
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Chapitre 2
2.1. Introduction
44
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Mais dans certaines applications, le système peut être amené à fournir un ensemble vide :
c'est l'identification en milieu ouvert. En milieu fermé, chaque accès de test est comparé à
tous les modèles des locuteurs référencés dans le système. L’identité du locuteur possédant
la référence la plus proche est émise en sortie du système.
Signal de parole
Un système de vérification automatique du locuteur (VAL), doit vérifier à partir d'un signal
de parole et d'une identité proclamée qui appartient à la base de données, si le signal présenté
provient de l'identité proclamée ou non [70], [71]. Pour cela, le système calcule une mesure de
similarité entre le signal de test produit (identité prétendue) et une forme particulière de la
base d’apprentissage (identité réelle).
En cas de concordance entre l’identité prétendue et l’identité réelle, nous pouvons dire que
l’identité du locuteur a été vérifiée. Dans le cas contraire, le locuteur candidat du test est
imposteur.
Identité proclamée i
Modèle
Modèle
Du
du client i
Signal de parole
La détection de locuteurs dans un flux audio est une variante de la VAL [75]. Sa particularité
est de considérer un flux audio composé de séquences de parole produites par plusieurs
locuteurs (conversations, débats, conférences, étc.). Dans ce contexte, la tache de détection,
consiste à déterminer si un locuteur donné intervient ou non dans le document audio [75].
Dans le cas d'un flux audio mono-locuteur, la tache de détection se résume à la tache de
vérification.
45
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
L’indexation en locuteurs permet de déterminer les temps de parole des individus dans un
signal audio. Elle s’intéresse à l’identité du locuteur dans le but de savoir qui parle et quand.
En pratique, les documents audio sont représentés par leurs modèles respectifs. La phase de
recherche du système d’indexation consiste, généralement, à évaluer des mesures de similarité
entre la requête et ces différents modèles. Par ailleurs, le système d’indexation par locuteur
peut servir également comme étape préliminaire pour des tâches de transcription ou pour le
suivi de locuteurs.
Locuteur cible
Appels
Appels Comparaison entre contenant le
interceptés les modèles locuteur cible
Fichiers
enregistrés Modèles de Vérification
références de scores
Fig.2.3 Schéma modulaire d'un système d’indexation du locuteur [recueillie à partir d'internet].
La poursuite du locuteur se fait avec un modèle du locuteur, elle consiste à déterminer quand
une personne parle dans une conversation. Elle est similaire à l’indexation en locuteur, à ceci
près que les locuteurs présents dans le signal sont connus par le système de RAL. Il s’agit
donc d’une simplification de la tâche d’indexation en locuteur.
Dans les systèmes de RAL opérant en mode dépendant du texte, ce dernier (texte) est imposé
par le système. Les systèmes de reconnaissance du locuteur sur base de texte présenté ont été
développés en premier. Dans ce cas, à chaque accès, l’utilisateur sera invité par le système
(par exemple, sous forme de voix synthétique ou texte écrit) à prononcer un vocabulaire de
base, qui peut être très large ou simplement contenir les 10 chiffres qui seront utilisés pour
créer des séquences aléatoires. L’avantage de cette approche, est que l’utilisateur ne peut
prédire la phrase qu’il sera invité à prononcer, ce qui rend tout enregistrement inutilisable.
46
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Dans le cas de la reconnaissance du locuteur indépendante du texte, les mots ou les phrases
prononcés pendant l’utilisation ne peuvent pas être prédits.
En général, les systèmes de reconnaissance du locuteur dépendants du texte sont plus robustes
que les systèmes indépendants du texte. Malheureusement, dans les deux cas, ceux-ci sont
aussi sujets à fraude étant donné que pour toutes les applications typiques de contrôle d’accès
sur ligne téléphonique, la voix du locuteur (ainsi que son mot de passe dans le cas de systèmes
dépendant du texte) pourrait être saisi, enregistré et reproduit frauduleusement
Dans ce cas, l’idée générale est de représenter les caractéristiques spectrales de chaque
locuteur, sur base de quelques vecteurs acoustiques les plus représentatifs et obtenus par
quantification vectorielle.
Dans ce cas, le score d’une phrase d’entrée est défini comme la somme des distances de
chacun des vecteurs acoustiques de la séquence, par rapport au vecteur prototype le plus
proche dans l’ensemble de vecteurs prototypes associés au locuteur considéré (proclamé ou
faisant partie de la cohorte dans le cas de la normalisation) [76].
Une variante de cette approche consiste à définir deux ensembles de prototypes par locuteur,
respectivement pour les parties voisées et non-voisées (ainsi qu’un détecteur automatique de
voisement). Pour les parties voisées, le pitch peut alors également être utilisé dans la
détermination des prototypes et des distances. Evidemment, différentes méthodes de
pondération des paramètres acoustiques intervenant dans le calcul des distances ont été
largement testées.
47
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Un modèle de mélange gaussien (usuellement abrégé par l'acronyme anglais GMM pour
Gaussian Mixture Model), est un modèle statistique exprimé selon une densité de mélange
[70], [77]. Elle sert usuellement à estimer paramétriquement la distribution de variables
aléatoires, en les modélisant comme une somme de plusieurs gaussiennes (appelées noyaux).
Il s'agit alors de déterminer la variance, la moyenne et l'amplitude de chaque gaussienne. Ces
paramètres sont optimisés selon un critère de maximum de vraisemblance (ML) [78] pour
approcher le plus possible la distribution recherchée. Cette procédure se fait le plus souvent
itérativement via l'algorithme espérance-maximisation (EM) [77].
Fig.2.5 trois gaussiennes forment une distribution de mélange [recueillies à partir d'internet]
48
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Dans ce cas, un modèle HMM [79] entièrement connecté est entraîné pour chaque locuteur.
Les états peuvent alors être définis de façon arbitraire et non supervisée, ou être associés à
des classes bien spécifiques (typiquement, des classes phonétiques ou mieux, des classes
phonétiques grossières de façon à réduire le nombre de paramètres). Finalement, quelques
contraintes temporelles seront généralement introduites dans le modèle, en imposant une
durée minimum pour chaque état. Plusieurs solutions relatives au nombre d’états de ces
modèles, ainsi que des densités de probabilités associées à chaque état, ont été proposées:
– Modèles HMM basés sur le critère de vraisemblance [80] et ayant plusieurs états à une seule
gaussienne, plusieurs états à multi gaussiennes, ou un seul état à multi gaussiennes. Certaines
méthodes discriminantes typiquement utilisées en reconnaissance du locuteur, ont également
été testées pour augmenter la discrimination entre locuteurs.
Les machines à vecteurs de support ou séparateurs à vaste marge (en anglais Support Vector
Machine, SVM), sont un ensemble de techniques d'apprentissage supervisé destinées à
résoudre des problèmes de discrimination et de régression [81], [82], [83]. Les SVM sont une
généralisation des cas linéaires. Les SVM ont été développés dans les années 1990, à partir
des considérations théoriques de Vladimir Vapnik [84] sur le développement d'une théorie
statistique de l'apprentissage : la Théorie de Vapnik-Chervonenkis [85]. Les SVM ont
rapidement été adoptés pour leur capacité à travailler avec des données de
grandes dimensions, le faible nombre d'hyper paramètres, leurs garanties théoriques, et leurs
bons résultats en pratique. Les SVM ont été appliqués à de très nombreux domaines
(bioinformatique, recherche d'information, vision par ordinateur, finance,… etc.). Selon les
données, les performances des machines à vecteurs de support sont de même ordre, ou même
supérieures, à celles d'un réseau de neurones ou d'un modèle de mixture gaussienne.
49
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
En identification, un signal de test est comparé à toutes les références des locuteurs connus du
système, résultant en un ensemble de mesure de similarité (ou un ensemble de mesure de
distance) à l’entrée du processus de décision.
Aussi, la règle de décision consiste à choisir le locuteur dont la mesure de similarité est
maximale (ou minimale dans le cas de mesure de distance).
Pour l’évaluation des performances du système d’identification du locuteur, le taux de
classification correcte est souvent utilisé. Ce taux est le rapport entre le nombre des segments
correctement identifiés et le nombre total des segments de test.
Par contre l’évaluation des systèmes de vérification du locuteur repose sur l’analyse des deux
types d’erreurs qu’ils peuvent commettre :
– l’erreur de fausse acceptation (false acceptation en anglais), qui se produit lorsqu’un signal
test est déclaré correspondre au modèle de locuteur considéré, alors qu’il a été émis par un
autre locuteur ;
– l’erreur de faux rejet (false reject en anglais), qui se produit lorsqu’un test est déclaré
négatif, alors même que le signal testé correspond bien au locuteur considéré.
Il est à noter que le taux de fausse acceptation est également appelé taux de fausse alarme, et
que le taux de faux rejet est également appelé taux de non détection, ces appellations
renvoyant à la théorie de la vérification.
Les deux taux d’erreurs correspondants sont notés FA et FR respectivement. Ils dépendent
directement du choix du seuil de décision.
50
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Fig.2.8 Calcul du seuil de décision en fonction de taux d’erreur de fausse acceptation (FAR, ou FA) et taux
d’erreur de faux rejet (FRR ou FR) [86]
Un système avec un seuil de décision bas, aura tendance à accepter à tort de nombreux
signaux de test ne correspondant pas réellement aux modèles auxquels ils sont comparés,
générant ainsi un fort taux d’erreurs de fausse acceptation, mais un faible taux de faux rejet. A
l’inverse, un seuil de décision élevé entrainera l’échec de nombreux tests, avec un taux de
faux rejet élevé mais un faible taux de fausse acceptation. Le choix du seuil de décision
revient à trouver un compromis entre les deux taux d’erreurs. Les valeurs de FA et de FR
alors obtenues définissent le point de fonctionnement du système.
Les taux FA et FR étant tous les deux, des fonctions du seuil de décision, il est possible
d’exprimer l’un en fonction de l’autre (fonction qui est alors monotone et décroissante).
La courbe correspondante est généralement tracée en utilisant une échelle garantissante une
courbe linéaire, et de pente -1 si les distributions de scores clients et imposteurs sont toutes
deux gaussiennes et de même variance, et elle est appelée courbe DET (Detection error Trade-
off) [86]. Une telle courbe permet d’avoir un aperçu des performances d’un système de
vérification dans diverses conditions d’utilisation. Les axes représentant les taux d’erreurs, un
meilleur système obtient une courbe plus proche de l’origine.
Ces caractéristiques font de la courbe DET l’outil privilégié d’évaluation, et surtout de
comparaison des performances des systèmes de vérification de locuteurs. Des courbes DET
sont systématiquement utilisées pour présenter les résultats de tels systèmes lors des
campagnes d’évaluation NIST [87], [88]. La figure (Fig.2.9) montre un exemple de courbe
DET.
Cependant, au-delà du fonctionnement global d’un système que présente la courbe DET, il est
également intéressant d’avoir une mesure des performances de ce système à son point de
fonctionnement (une fois le seuil de décision fixé), pour une application précise. Cette mesure
est réalisée par l’utilisation d’une fonction de cout (DCF; Detection Cost Function) qui prend
en compte les deux taux d’erreurs et le cout qui leur est associé dans le cadre de l’application
visée (les applications à visée sécuritaire donnant par exemple un cout très élevé à l’erreur de
fausse acceptation) :
51
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
L’utilisation de cette fonction permet de représenter par un simple nombre les performances
du système pour une application donnée. Le minimum de la fonction de cout est atteint pour
un seuil de décision réglé correctement pour l’application visée. La comparaison de ce
minimum à la valeur obtenue au point de fonctionnement réel permet dès lors d’évaluer la
qualité du choix du seuil de décision.
Le classement des systèmes de vérification du locuteur lors des campagnes d’évaluation
NIST, se fait par rapport à la valeur obtenue au point de fonctionnement pour une fonction de
cout qui définit C FA et C FR de manière un peu plus fine. Chacune de ces deux valeurs, est vue
comme le produit du cout de l’erreur considérée et de la probabilité a priori d’être en présence
d’un test susceptible de générer ce type d’erreur :
CFA CFA
NIST
Pimposteur (2.2)
CFR CFR
NIST
Pclient (2.3)
Où Pimposteur est la probabilité a priori d’être en présence d’un test de type imposteur et Pclient
celle d’être en présence d’un test de type client. Les valeurs typiquement utilisées au cours
des années sont : C FA NIST
1 , C FR
NIST
10 , Pimposteur 0.99 et Pclient 0.01 , soit des valeurs pour
C FA et C FR de 0, 99 et 1, respectivement.
Une fonction de cout particulière régulièrement utilisée est la demi-erreur totale (HTER ; Half
Total Error Rate ), qui est la moyenne arithmétique de FA et FR (soit C FA = C FR = 0.5).
Enfin, une autre mesure fréquemment utilisée pour évaluer les performances d’un système est
le taux d’égale erreur (EER ; Equal Error Rate ), qui correspond au point pour lequel
FA FR . Il peut être trouvé très facilement sur une courbe DET par l’intersection avec la
première diagonale. L’EER permet d’exprimer facilement la capacité d’un système de
vérification à séparer les clients des imposteurs.
52
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
40
10
0.5
0.2
0.1
La variabilité intersessions [89], [90] induit dans la phase de test, une variabilité des scores
de vérification. Cependant, le seuil de décision qui est fixé empiriquement lors de la phase
développement, est commun à toutes les conditions de test rencontrées et il est indépendant du
locuteur. De ce fait, on a introduit des techniques de normalisation des scores [91] pour
renforcer la robustesse des systèmes de reconnaissance. Ces techniques permettent d'atténuer
la variabilité des scores (non compensée lors de la paramétrisation et modélisation), rendant
finalement différents scores comparables. Elles se basent sur l'analyse des distributions des
scores des clients et des imposteurs. Généralement, la normalisation suit la forme suivante :
~ s I
s (2.4)
I
53
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
o Z-norm
o T-norm
La T-norm utilise les énoncés des locuteurs imposteurs pour leur apprendre des modèles. On
estime I ét I en calculant les scores d'appariement entre ces modèles des imposteurs et le
segment de test. C'est une normalisation dépendante de l'énoncé de test, qui ne peut se faire
que durant la phase d'évaluation. La T-norm permet de compenser les variations des
conditions d'enregistrement de l'énoncé.
Des expériences menées dans [93] ont montré que la Z-norm et T-norm ont des effets de
rotation sur la courbe DET qui se font dans deux directions opposées. Quand on a un point de
fonctionnement du système qui se situe dans la zone à faibles taux de fausses acceptations, la
T-norm améliore les performances de vérification.
Alors que la Z-norm améliore les performances du système, quand on a un point de
fonctionnement se situant dans la zone à faibles taux de faux rejets.
o S-norm
La symmetric normalization (S-norm) [89], est une technique récente de normalisation qui
normalise le score original en appariant à la fois l'information d'apprentissage et de test avec
la cohorte (la liste) d'imposteurs :
~ s Ia s It
s (2.5)
I
a t
I
Les méthodes de normalisation de scores par remise à l'échelle, ont pour objectif de
transformer chaque score dans un intervalle commun. Chaque score issu de chaque sous-
système est traité séparément par des translations et/ou changements d'échelle, pour le
transformer dans un intervalle défini et identique pour chaque sous-système.
Les méthodes de normalisation de scores par remise à l'échelle les plus utilisées sont :
~ S min( S )
S (2.6)
max( S ) min( S )
54
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Les paramètres min et max sont déterminés pour chaque sous-système sur une base de
~
développement. La méthode du Minmax met chaque score normalisé S dans l'intervalle
[0;1] sous forme de score de similarité, c'est-à-dire, avec les clients proches de la borne
supérieure (1) et les imposteurs proches de la borne inférieure (0).
Normalisation
Min-max
~ 1 S
S tanh(0.001 ) 1 (2.7)
2
55
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
méthodes, les scores sont combinés pour générer un score unique, qui est ensuite utilisé pour
former la décision finale. Dans l’approche de la classification, les scores sont considérés
comme des caractéristiques d'entrée pour une seconde classification de forme, entre deux
classes, soit client ou imposteur. Pour cette raison, les vecteurs de caractéristiques sont créés à
partir des scores obtenus avec différentes méthodes. Ces vecteurs de caractéristiques sont
utilisés pour apprendre à chaque locuteur deux modèles : un modèle de client à partir des
scores obtenus par le locuteur avec ses des données de parole, et un modèle d’imposteur
obtenu avec les autres données de parole. Ces modèles sont utilisés par la suite pour prendre
la décision finale : accepter en tant que client ou de rejeter comme un imposteur.
Contrairement à l'approche de combinaison, ces classificateurs sont capables d'apprendre la
frontière de décision, indépendamment de la façon dont le vecteur est généré, de sorte que les
scores de différentes modalités peuvent être non homogènes et pas de normalisation avant
l'utilisation du classificateur dans le processus de fusion.
Dans cette partie, Nous proposons plusieurs types de méthodes de combinaison qui sont aussi
les plus populaires comme techniques de fusion des scores [95], [96].
Somme simple, est la technique de fusion la plus connue et qui est basée sur les
approches de combinaison. Tous les scores normalisés S i des N sous-systèmes sont
directement sommés, résultant en un score final S final :
N
S final Si (2.8)
i 1
56
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Dans la règle du produit, le score S final résultant est obtenu par multipliant les scores
S i normalisés de chaque sous-système:
N
S final Si (2.9)
i 1
D'autres approches de fusion sont basées sur les valeurs extrêmes de N scores
normalisés des sous-systèmes à savoir ; l’approche Max, qui prend le maximum de
tous les N scores des sous-systèmes comme score final, tandis que la règle Min
prend la valeur minimale:
N
S final wi Si (2.12)
i 1
N
La somme pondérée est utilisée pour donner des différents poids wi ( wi 1 ) à
i 1
Par contre, parmi les méthodes de classification basées sur des modèles mathématiques, on
peut citer la fusion basée sur la régression logistique [97], SVM,…, etc.
La fusion linéaire du score basée sur la régression logistique, est généralement mise en œuvre
comme une combinaison linéaire pondérée des scores de classificateurs de base, où les poids
combinés sont estimés en utilisant un modèle de régression logistique [97]. Le problème de
cette approche se résume dans le calcul des poids de la régression logistique.
f w ( s) w0 l 1 wl sl wT s
L
(2.13)
57
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
vecteur de scores s (1, s1 , s 2 ,..., s L ) T contient une constante 1 et les scores de sorties de
classificateurs de base.
Notre objectif est de trouver le vecteur de poids optimal ( w ), pour lequel les erreurs de
classement sont réduites au minimum sur les données de développement, ainsi sur les données
d'évaluation qui sont cachées pour ( w ). Ici, nous adoptons la fonction de coût de détection
(detection cost function, DCF) couramment utilisée dans les évaluations de NIST en
reconnaissance du locuteur.
Ici, Pmiss ( ) et Pfa ( ) sont les probabilités de faux rejet et fausse alarme en fonction du seuil
de décision , Ptar est la probabilité a priori d'un locuteur cible (vrai), C miss est le coût d'un
faux rejet et C fa est le coût d'une fausse alarme (fausse acceptation). Dans la vérification du
locuteur, l’équation (2.14) est utilisée pour calculer à la fois la actual (ActDCF) et minimum
(MinDCF). L’actuel coût (ActDCF) correspond à la valeur de DCF obtenu chaque fois que le
seuil de décision est fixé à une valeur déterminée à l’avance, tandis que MinDCF indique la
valeur minimale sur l'ensemble de test qui peut facilement être trouvée par une recherche
linéaire sur la plage de seuil .
En théorie on peut optimiser l’équation (2.14) directement, par exemple en utilisant un réseau
de neurones [98]. Pour les raisons exposées ci-dessus, nous optimisons les poids en utilisant la
régression logistique qui est un modèle linéaire probabiliste, et qui est basé sur le fait que la
probabilité a posteriori de classe étiquetée représentant la classe client peut être écrite
comme :
p( y 1 s) (1 exp W T s ) 1 (W T s) (2.16)
p( y 0 s) 1 p(( y 1 s) (W T s)
(2.17)
N dev
p( y / W ) (W T sn ) yn (W T sn )1 y n (2.18)
n 1
58
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
N dev
yn ln(W T sn ) (1 yn ) ln (W T sn ) (2.19)
n 1
Ceci est également connu comme le coût C llr dans [101]. Le minimum de l’équation (2.18) ne
peut pas avoir une solution optimale [100], mais elle est convexe. Donc, des méthodes
itératives de gradient descendant peuvent être utilisées pour trouver W * le plus optimale.
La formulation ci-dessus suppose que les coûts de faux rejet et fausse alarme sont égaux
(C miss C fa ) et Ptar 0.5 . Pour re-calibrer le modèle en fonction des paramètres de coûts pré
spécifiés ( C miss , C fa and Ptar ), la modification suivante est utilisée [ 101 ] :
où Peff est connu comme la probabilité a priori effective, qui résume les trois paramètres de
l'application dépendante en un seul paramètre, dont l’expression est donnée comme suit,
Peff log it 1 (log it ( Ptar ) log( Cmiss C fa )) avec log it ( P) log( P /(1 P)) (2.21)
En plus des paramètres DCF, le nombre des exemples positifs et négatifs dans l'ensemble de
développement pourraient être très déséquilibré. C'est le cas avec les évaluations de NIST.
Pour remédier à ce problème de déséquilibre de classe, le coût était encore modifié dans [102]
comme suit:
Peff Nt
1 Peff Nf
log(1 e log(1 e
W T si logitPeff W T s j logitPeff
Cwlr (W , D) ) ) (2.22)
Nt i 1 Nf j 1
Dans ce paragraphe on donne quelques exemples d'applications de RAL, et que l'on peut
regrouper en trois catégories principales : applications en contrôle d’accès sur sites sensibles,
application dans le domaine sécuritaire et juridiques (notamment en sciences forensiques),
applications dans les systèmes de communication.
Cette catégorie concerne les applications qui se trouvent sur un site géographique particulier,
elles sont utilisées principalement pour limiter l'accès à des lieux privés. Voici quelques
exemples de ce type d'applications :
59
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
Verrouillage automatique: ces applications sont utilisées comme une sorte de verrous
électroniques comme par exemple la protection de domicile, garage, bâtiment, etc.
Validation des transactions sur site (comme contrôle supplémentaire au niveau des
distributeurs bancaires).
Accès aux lieux de production des usines : qui sont en général réservés aux employés,
ouvriers et inspecteurs afin de protéger le secret de la production et du matériel.
L'intérêt de ce type d'application est :
D'abord l'environnement est facilement contrôlable.
La vérification du locuteur a un rôle dissuasif.
La reconnaissance vocale peut être associée à d'autre techniques de reconnaissance d'identité
(ex : analyse du visage, des empreintes digitales, iris, etc.). L'utilisateur peut avoir son modèle
sur lui (ex : sur la puce d'une carte).
Enfin on trouve le domaine d'applications qui pose actuellement le plus de problèmes, c'est le
domaine juridique. La reconnaissance de locuteur est utilisée par exemple pour :
-L'orientation des enquêtes.
-La constitution des éléments de preuves au cours d'un procès.
Dans ces applications on trouve beaucoup plus d'inconvénients que d'avantages :
-La quantité de la parole à disposition est en général très limitée.
-Les conditions d'environnement sont très mauvaises.
-Les locuteurs impliqués sont très rarement coopératifs.
60
Chapitre 2 : Reconnaissance Automatique du Locuteur (RAL)
2.9. Conclusion
Dans ce chapitre nous avons présenté les principales tâches de reconnaissance automatique de
locuteurs (RAL), telles que l’identification et la vérification, ainsi quelques domaines
d’application de la RAL. Il est souligné également dans cette partie, la présentation d’un
système RAL avec tous ses modules, à savoir ; le module d’extraction des paramètres, le
module de modélisation et le module de prise de décision. On s’est focalisé sur les deux
modes de reconnaissance, dépendante et indépendante du texte. Enfin, les méthodes
d’évaluation des performances des systèmes de RAL, ont été décrites soigneusement dans ce
chapitre.
61
Chapitre 3
Chapitre 3
Les travaux sur la reconnaissance vocale (parole et locuteur) datent du début du XXe siècle.
Le premier système pouvant être considéré comme faisant de la reconnaissance vocale a
été développé par Davis, Biddulph, and Balashek aux laboratoires Bell Labs en 1952 [104].
Ce système électronique était essentiellement composé de relais et ses performances se
limitaient à reconnaître des chiffres isolés. La recherche s'est ensuite considérablement
accrue durant les années 1970 avec les travaux de Jelinek chez IBM (1972-1993) [105].
Aujourd'hui, la reconnaissance vocale en particulier la RAL, est un domaine à forte
croissance grâce à l’émergence d’applications notamment en biométrie vocale avec son
62
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
corolaire les sciences forensiques , les contrôles d’accès sécurisés nécessitant la signature
vocale, les applications dans les communications mobiles et filaires a déferlante des
systèmes embarqués.
Depuis les premier travaux dédiés à la RAL, de nombreuses approches ont été proposées
dans la littératures à savoir les approches vectorielle, statistique, prédictive et
connexionniste.
Vers les années 60 (1967) fut apparue une approche de classification utilisée dans la RAL,
dite K-plus proches voisins (KNN) publiée par Cover et Hart [106]. Cette méthode
discriminante de base appartient à la catégorie des algorithmes graphiques et ne comporte
pas d’étape d’apprentissage à proprement parler.
Sur une mesure de distance arbitraire entre les vecteurs. En phase de test, les distances entre
le vecteur à classer et tous les vecteurs d’apprentissage sont estimées et rangées en ordre
décroissant. Pour la décision, on procède par vote majoritaire parmi les k vecteurs
d’apprentissage les plus proches. Il peut arriver que deux classes majoritaires aient le même
nombre de plus proches voisins. Pour résoudre ce conflit, plusieurs stratégies sont
envisageables, comme par exemple choisir la classe ayant la distance moyenne la plus
faible. Notons enfin que la capacité de généralisation de la modélisation est réglée via le
paramètre k. Outre sa simplicité, l’avantage de cette méthode est qu’elle peut naturellement
s’appliquer au cas multi-classes même avec un nombre élevé de classes [107]. Mais les
inconvénients sont de taille :
1. Un volume important de données d’apprentissage implique une capacité des ressources
mémoire nécessaires d’autant plus élevée, ainsi qu’une forte complexité calculatoire en
phase de test.
2. Le renvoi d’une mesure de confiance de la décision (score) ne peut se faire que de
manière arbitraire, par exemple en calculant une moyenne des distances au k-plus proches
voisins à partir des distances calculées. A la base, la méthode est conçue pour renvoyer une
décision binaire.
A partir du milieu des années 1970, une des premières applications des HMMs a été la
reconnaissance vocale [108]. Le Modèle de Markov Caché (Hidden Markov Model) est une
méthode statistique puissante pour caractériser les échantillons de données observés d’un
processus à temps discret. Elle apporte un moyen efficace de construction de modèles
paramétriques. Dans la modélisation d’un processus par un HMM, les échantillons peuvent
être caractérisés par un processus paramétrique aléatoire dont les paramètres peuvent être
estimés suivant un modèle à plusieurs états d’après L. Baum [108]. Les HMMs sont
devenus la méthode la plus couramment utilisée pour la modélisation des signaux de parole
dans les applications suivantes : reconnaissance automatique de la parole, suivi de la
fréquence fondamentale et des formants, synthèse vocale, traduction automatique,
étiquetage syntaxique, compréhension du langage oral, traduction automatique et
reconnaissance du locuteur. Dans une chaîne de Markov, chaque état correspond à un
événement à observation déterministe [109].
Une extension naturelle à la chaîne de Markov introduit un processus non déterministe qui
génère des symboles de sortie pour chaque état. L’observation est donc une fonction
probabiliste de l’état [110].
Le modèle HMM, peut être vu comme deux processus stochastiques imbriqués dont l’un (la
séquence d’états) est non observable directement. Ce processus sous-jacent est donc associé
de façon probabiliste à un autre processus produisant la séquence de trames, qui elle, est
observable.
63
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Peu après et dans les années 80 apparue une autre méthode dite Dynamic Time Warping
dans le domaine du traitement de la parole [111], et encore utilisée dans des systèmes de
reconnaissance de locuteurs disposant de ressources matérielles limitées. Dans les systèmes
de reconnaissance basés sur la DTW, chaque locuteur est représenté par une réalisation de
référence. Le processus de reconnaissance consiste à évaluer la distance d’une observation
à chacune des références. Toute la difficulté du décodage réside dans cette mesure d’un
degré de similarité entre des formes acoustiques variables à la fois au niveau spectral et
temporel.
Dans les années 90, un engouement pour les méthodes connexionnistes a débouché sur
leurs applications dans le domaine de la parole. Depuis, les réseaux neuromimétiques
constituent une technique utilisée dans les systèmes de reconnaissance automatique de la
Parole et de locuteurs [113]. Ils sont basés sur une modélisation mathématique du neurone
biologique ou neurone formel. Dans ce modèle, le neurone formel calcule son activation en
fonction des signaux qu’il reçoit d’autres neurones, pondérés par des « poids synaptiques »
et une fonction d’activation plus ou moins complexe. L’ensemble de ces neurones est
organisé selon des architectures diverses suivant la complexité de problème à modéliser.
Quelques années après, furent apparus ce qu’on a appelé Les séparateurs à vastes marges
qui reposent sur deux idées clés : la notion de marge maximale et la notion de fonction
noyau. Ces deux notions existaient depuis plusieurs années avant qu'elles ne soient mises en
commun pour construire les SVM. L'idée des hyperplans à marge maximale a été explorée
dès 1974 par Vladimir Vapnik [85] et en 1973 par Richard Duds et Peter Hart dans leur
livre Pattern Classification [114]. Les fondations théoriques des SVM ont été explorés par
Vapnik et ses collègues dans les années 70 avec le développement de la Théorie de Vapnik-
Chervonenkis, qui portait sur la théorie de l’apprentissage [85]. L'idée des fonctions noyaux
n'est pas non plus nouvelle: le théorème de Mercer date de 1909 [115], et l'utilité des
fonctions noyaux dans le contexte de l'apprentissage artificiel a été montré dès 1964 par
Aizermann, Bravermann et Rozoener [116]. Ce n'est toutefois qu'en 1992 que ces idées
seront bien comprises et rassemblées par Boser, Guyon et Vapnik dans un article, qui est
l'article fondateur des séparateurs à vaste marge [117]. L'idée des variables ressorts, qui
permet de résoudre certaines limitations pratiques importantes, ne sera introduite qu'en
1995. À partir de cette date, qui correspond à la publication du livre de Vapnik [118], les
SVM gagnent en popularité et sont utilisés dans de nombreuses applications.
Et enfin, l’utilisation des GMMs pour la modélisation des locuteurs a été initiée par les
travaux de thèse de Douglas Reynolds [77], cette approche a donné, depuis plus de10 ans
maintenant, les meilleures performances pour les systèmes de reconnaissance du locuteur
64
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
en mode indépendant du texte basé sur l’approche probabiliste. La plupart des systèmes
actuels utilisent une modélisation de locuteurs par GMM [82].
L'apprentissage supervisé, quant à lui, utilise des exemples étiquetés ou classés. Ces
étiquettes ou ces classes peuvent être vues comme fournies par un professeur ou un
superviseur, d'où le nom d'apprentissage supervisé. Le but de l'apprentissage est alors de
produire une fonction de classification, appelée hypothèse, permettant de déterminer la
classe d'un exemple.
65
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel
[121]. Dans un contexte de classification d’une nouvelle observation x , l’idée fondatrice
simple est de faire voter les plus proches voisins de cette observation. La classe de x est
déterminée en fonction de la classe majoritaire parmi les K plus proches voisins de
l’observation x . Afin de trouver les K plus proches d’une donnée à classer, on peut choisir
la distance euclidienne. Soient deux données représentées par deux vecteurs x i et x j , la
distance entre ces deux données est donnée par
d
d ( xi , x j ) (x
k 1
ik x jk ) 2 (3.1)
1- Choisir les centres de gravité ( g1 ,..., g K ) des K classes (c1 ,..., c K ) d’une manière
aléatoire.
2- Pour tout élément ei , i 1,..., N ,
K
f d (ei , g j ) (3.3)
j 1 ei ck
Où d (ei , g j ) , est la distance euclidienne entre le i iem élément et j iem centre de gravité.
66
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
1
gk
nk
ei ck
ei (3.4)
L’analyse en composante principales est une méthode vectorielle linéaire de réduction des
dimensions de paramètres non supervisée, choisissant les directions dont la variance intra-
cluster est la plus grande [124]. Les données sont alors plus facilement visualisables sur
moins de dimensions. La PCA se calcule à partir de la matrice de covariance des données.
Celle-ci est diagonalisée afin d’en extraire les valeurs et vecteurs propres. Les données sont
projetées dans l’espace défini par les vecteurs propres. Les valeurs propres, classées dans
l’ordre décroissant, correspondent dans l’espace d’arrivée au vecteur propre dont la
direction maximise la variance.
k
Soit e1 , e2 ,..., ek une base orthonormale de W , et le vecteur Y1 1i ei la représentation
i 1
k 2
Pour définir l’erreur totale, nous devons sommer les erreurs de toutes les projections des
X j avec j 1,.., n .
k
Sachant que X j est représenté par
i 1
e dans le sous-espace W , l’erreur totale est égale
ji i
à:
n k 2
67
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
n k 2
n 2 n k n k
J (e1 , e2 ,..., ek , 11,..., nk ) X j 2 ( X tj )( ji ei ) 2ji (3.8)
j 1 j 1 i 1 j 1 i 1
n 2 n k n k
J (e1 , e2 ,..., ek , 11,..., nk ) X j 2 ji X tj ei 2ji (3.9)
j 1 j 1 i 1 j 1 i 1
J (e1 , e2 ,..., ek , 11,..., nk ) 2 X mt el 2 ml (3.10)
ml
(2 X mt el 2 ml 0) ml X mt el (3.11)
n 2 n k n k
J (e1 , e2 ,..., ek ) X j 2 ( X tj ei ) X tj ei ( X tj ei ) 2 (3.12)
j 1 j 1 i 1 j 1 i 1
n 2 n k
J (e1 , e2 ,..., ek ) X j ( X tj ei ) 2 (3.13)
j 1 j 1 i 1
n 2 k n
J (e1 , e2 ,..., ek ) X j eit ( ( X j X tj ))ei (3.14)
j 1 i 1 j 1
n 2 k
J (e1 , e2 ,..., ek ) X j (eit .S .ei ) (3.15)
j 1 i 1
n
avec S ( X j X tj )
j 1
68
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Ainsi, les vecteurs propres sont les vecteurs propres associés à la matrice de dispersion S .
Maintenant que nous avons fixé les e1 , e2 ,..., ek , il ne nous reste plus qu’à projeter les
vecteurs X 1 , X 2 ,..., X n dans le sous-espace W :
Soit la matrice E dont les colonnes sont les vecteurs bases e1 , e2 ,..., ek
Y E t .X (3.18)
L’analyse discriminante linéaire est aussi une méthode vectorielle linéaire de réduction des
dimensions de paramètres mais cette fois ci supervisée [125]. Elle est utilisée pour
optimiser le rapport entre la dispersion ”intra-clusters” et la dispersion ”inter-clusters” Les
directions jugées principales sont celles dont la variance inter-clusters est la plus grande.
Les exemples sont alors plus facilement séparables sur moins de dimensions. La LDA
attribue à chaque cluster une moyenne et une variance, et obtient ainsi une scatter- matrix,
représentant les distances séparant les clusters les uns des autres autour de la moyenne de
l’ensemble des points.
La projection d’un échantillon X i sur un sous-espace linéaire est définie comme suit :
Yi V t X i (3.19)
Où V est une matrice de projection identifiant le sous espace dans lequel on projette.
Soient :
69
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
1
i
ni
X
X i Ci
i (3.20)
1 n
Xi
n i 1
(3.21)
det(V t S BV )
J (V ) (3.22)
det(V t SW V )
c c
SW S i (X k i )( X k i ) t (3.23)
i 1 i 1 X k Ci
c
S B ni ( i )( i ) t (3.24)
i 1
Donc en résumé, les différentes étapes à suivre pour effectuer une analyse discriminante
linéaire sont comme suit:
S BV SW V (3.25)
Soient V1 ,V2 ,...,Vk les vecteurs propres correspondants à la matrice de projection V
sur un sous espace de dimension k .
Pour projeter un vecteur quelconque X dans un sous espace, il suffit de calculer la
multiplication suivante :
Y VtX (3.26)
70
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Les mélanges de Gaussiennes (en anglais Gaussian mixture, mixture of Gaussians, GMM,
GM ou MoG suivant les références) est un outil très utilisé dans la littérature et l’ingénierie
informatiques. Il peut en effet servir à modéliser des données numériques ou encore à
réaliser le clustering d’un ensemble d’individus [77]. L’utilisation d’un modèle GMM se
justifie essentiellement en faisant appel à l’interprétation des classes du mélange : il est
certain que les vecteurs de paramètres vont se répartir différemment selon les
caractéristiques du son de parole considéré (son voisé/non voisé). Chaque composante va
modéliser des ensembles sous-jacents de classe acoustiques, chaque classe représentant des
événements acoustiques (voyelles, nasales,…etc.). Ces classes caractérisent l’espace
acoustique propre à chaque locuteur.
1 1
f ( x / , ) d
exp( ( x )T 1 ( x )) (3.27)
1 2
(2 )
2 2
m 1
m 1 ), respectivement la moyenne et la matrice de covariance de la m-ième
M
p( x / ) m f ( x / m , m ) (3.28)
m1
Un jeu de données (ou échantillon, ou data set en anglais) est une matrice dont chaque ligne
caractérise un individu x n . On note un tel échantillon X ( x1 , x2 ,..., x N )T ; si on suppose
que celui-ci est indépendamment et identiquement distribué (i.i.d), la probabilité jointe de
cet échantillon est :
N
p ( X / ) p ( xn / ) (3.29)
n 1
Pour des raisons pratiques, on utilise préférentiellement le log de cette quantité, alors
appelée vraisemblance.
71
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
M N
Q( , (t ) ) p(m / xn , (t ) ) log p( xn , m / ) (3.30)
m 1 n 1
M N
D 1
Q( , (t ) ) n(t,m) log m log( 2 ) log m
m 1 n 1 2 2
(3.31)
M N
1
n(t,m) ( x n m ) T m1 ( x n m )
m 1 n 1 2
M N
1 M N (t ) ( xn m ) 2
Q( , ) (t ) (t )
log m n,m Cste log m
2
(3.33)
m2
n,m
m 1 n 1 2 m1 n1
Les paramètres sont estimés en annulant les dérivées partielles de la fonction auxiliaire Q
par rapport à chacun de ceux-ci. Le cas des poids des composantes de mélange m est assez
simple puisqu’il s’agit de paramètres scalaires. Ceci dit, il faut tenir compte de la contrainte
M
qui existe sur ces paramètres ( m 1 ). La maximisation sous contrainte se résout
m 1
simplement en introduisant un multiplicateur de Lagrange associé à cette contrainte et
l’obtient :
72
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
N
1
m(t 1)
N
n 1
( t 1)
n,m (3.34)
En ce qui concerne les vecteurs des moyenne, on montre que les formules de réestimation
sont données par :
(t )
n,m xn
( t 1)
m n 1
N
(3.35)
n 1
(t )
n,m
2 ( t 1)
(t )
n,m ( x n m(t ) ) 2
m n 1
N
(3.36)
n 1
(t )
n ,m
73
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Etant donné un signal de parole représenté par une séquence de vecteurs acoustiques
X x1 , x2 ,..., x N , les formules suivantes sont appliquées uniquement aux vecteurs
moyennes i du modèle UBM ( M gaussiennes) pour obtenir les vecteurs moyennes adaptés
i :
i i Ei ( X ) (1 i ) i , i 1,..., M (3.37)
ni ( X )
i (3.38)
ni ( X ) r
N
ni ( X ) P(i / x j ) (3.39)
j 1
1 N
Ei ( X ) . P(i / x j ) x j (3.40)
ni j 1
i pi ( x j ) (3.41)
P(i / x j )
k pk ( x j )
M
k 1
74
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
3.4.4. Les approches basées sur les Machines à Vecteurs de Support (SVM)
Les Machines à vecteurs de support (Support Vector Machines en anglais) souvent traduit
par l’appellation de Séparateur à Vaste Marge (SVM) [83] sont une approche d’algorithmes
d’apprentissage supervisé initialement définis pour la discrimination c’est-à-dire la
prévision d’une variable qualitative binaire. Ils ont été ensuite généralisés à la prévision
d’une variable quantitative. Dans le cas de la discrimination d’une variable dichotomique,
ils sont basés sur la recherche de l’hyperplan de marge optimale qui, lorsque c’est possible,
classe ou sépare correctement les données tout en étant le plus éloigné possible de toutes les
observations. Le principe est donc de trouver un classifieur, ou une fonction de
discrimination, dont la capacité de généralisation (qualité de prévision) est la plus grande
possible.
Les SVMs constituent une classe d’algorithmes basée sur le principe de minimisation du
« risque structurel » décrit par la théorie de l’apprentissage statistique de Vapnik et al [84]
qui utilise la séparation linéaire. Cela consiste à séparer l’hyperplan des individus
représentés dans un espace de dimension égal au nombre de caractéristiques, les individus
étant alors séparés en deux classes. Cela est possible quand les données à classer sont
linéairement séparables. Dans le cas contraire, les données seront projetées sur un espace de
plus grande dimension afin qu’elles deviennent linéairement séparables.
Classons des points en utilisant une famille de fonctions linéaires définies par
w, x b 0 avec wi N , b de telle sorte que la fonction de décision concernant
l’appartenance d’un point à l’une des deux classes soit donnée par :
f ( x) sgn( w, x b) (3.42)
H1 : w, x b 1 (3.43)
H 2 : w, x b 1 (3.44)
Condition 1 : il n’y a aucun point qui se situe entre H 1 et H 2 . Cette contrainte est donnée
par les ‘inégalités suivantes :
75
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
w, xi b 1 pour yi 1 (3.45)
w, xi b 1 pour yi 1 (3.46)
Donc, le problème de séparation par hyperplan optimal peut être formulé comme suit :
1 2
min w N w
2 (3.48)
yi ( w, xi b) 1 i 1,..., l
76
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
1 2
L( w, b, ) w i 1 i ( yi ( w, xi b) 1)
l
(3.49)
2
L
0 (*)
w
L
0 (**)
b
et les i 0 .
w i 1 i yi xi
l
(3.50)
i yi 0
l
i 1
(3.51)
l
1 l
LD i i j y i y j xi x j (3.52)
i 1 2 i , j 1
i yi 0 i 0
l
i 1
et i 1,..., l
f ( x) sgn( i 1 yi i xi , x b)
l
(3.53)
Cette fonction de décision est donc seulement influencée par les points correspondants à
des i non nuls. Ces points sont appelés les Vecteurs de Support. Ils correspondent, dans le
cas des données linéairement séparables, aux points les plus proches de la limite de
décision, c’est-à-dire aux points se trouvant exactement à une distance égale à la marge. Il
s’agit d’une propriété très intéressante des SVMs : seuls les Vecteurs Support sont
nécessaires pour décrire cette limite de décision, et le nombre de Vecteurs Support pour le
modèle optimal est généralement petit devant le nombre de données d’entrainement.
En pratique, il est assez rare d’avoir des données linéairement séparables. Afin de traiter
également des données bruitées ou non-linéairement séparables, les SVMs ont été
77
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
généralisés grâce à deux outils : la marge souple (soft margin)et les fonction noyau (kernel
function).
L’hyperplan optimal séparant les deux classes est celui qui sépare les données avec le
minimum d’erreurs, et satisfait donc les deux conditions suivantes :
Condition 1: la distance entre les vecteurs bien classés et l’hyperplan doit être maximal.
Condition 2: la distance entre les vecteurs mal classés et l’hyperplan doit être maximal
aussi.
y i ( w, xi b) 1 i , i 1,..., l (3.54)
l
1
min w,b, ( wT w) C i , C 0 (3.55)
2 i 1
Le paramètre C est défini par l’utilisateur. Il peut être interprété comme une tolérance au
bruit de classificateur. C’est aussi la pénalité associé à toute violation des contraintes de
l’équation (3.48) du cas linéairement séparable.
x1
78
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
1 T l
min w,b , ( w w) C i , C 0
2 i 1 (3.56)
y ( w, x b) 1 0, pour i 1,..., l
i i i i
l l l
1 T
L( w, b, i , ) w w C i i y i ( w T x i b) i 1 i i
2 i 1 i 1 i 1
l l l l
1 T
w w (C i i ) i ( i yi xi ) w ( yi i )b i (3.57)
2 i 1 i 1 i 1 i 1
L
0 (*)
w
L
0 (**)
b
L
0 (***)
i
l l
w i y i xi ; y i i 0 et i C i (3.58)
i 1 i 1
l
1 l
LD i i j yi y j xi x j À maximiser sous les contraintes
i 1 2 i , j 1
0 i C i 1,..., l
l (3.59)
et i 1
i yi 0
La seule différence avec le cas linéairement séparable est donc l’introduction d’une borne
supérieure pour les paramètres i
79
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Choisir des frontières de décision linéaires semble être un facteur limitant. Cependant, de
tels modèles peuvent être considérablement enrichis en projetant les données (généralement
non-linéairement séparables) dans un espace caractéristique F (feature space),
éventuellement de plus grande dimension que l'espace des entrées, afin de rendre
linéairement séparable le jeu de données.
: F
x ( x)
Pour certains espaces caractéristiques et applications associées, les produits scalaires sont
facilement calculables grâce à des fonctions noyaux k (kernel functions) telles que :
k ( xi , x j ) ( xi ), ( x j ) i, j 1,..., l (3.61)
Sous cette condition, le noyau définit donc bien un certain espace de Hilbert où s'exerce le
produit scalaire entre les données.
1. Positivité : k ( xi , x j ) 0 .
2. Symétrie : k ( xi , x j ) k ( x j , xi ) .
3. Inégalité de Cauchy-Shwartz : k ( xi , x j ) xi . x j .
x y
2
80
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
L'intérêt de la fonction noyau k est de rendre possible le calcul de produits scalaires dans
F sans utiliser explicitement ni même connaître l’application . Tout algorithme de
classification linéaire pouvant se formaliser sous forme de produits scalaires peut donc être
étendu à la classification non-linéaire grâce à une fonction noyau (choisie a priori).
l
1 l
Minimiser L D i i j y i y j k ( xi , x j )
2 i , j 1
i 1
0 i C i 1,..., l (4.64)
l
i y i 0
i 1
f ( x) sgn( i 1 yi i k ( xi , x) b)
l
(3.65)
Initialement les SVM ont été conçus principalement pour la classification binaire [55]. La
question de leur extension au problème de la classification multi-classes reste un thème de
recherche très actif. Ce problème multi-classes est typiquement résolu par la combinaison
de plusieurs SVM binaires.
WkT .x bk 0, k y (3.66)
Formulation
1
min Wk ,bk , ki 2 Wk C i
2 k
81
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
Etant donné que ce problème est difficile à résoudre, plusieurs méthodes ont été proposées
pour résoudre le cas multi-classes.
Pour chaque classe on détermine un hyperplan séparant celle-ci de toutes las autres. En
considérant cette dernière comme la classe (+1) et les autres comme étant la classe (-1),
ce qui résulte en k SVMs binaires.
Un contre un :
Dans ce cas on construit un SVM pour chaque paire de classes. Ainsi, on se ramène à
calculer k (k 1) / 2 SVMs binaires.
82
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
x1
x2
.
SV (3.70)
.
.
xM
M
K ( X , Y ) ( m m(1/ 2) xm )T ( m m(1/ 2) ym ) (3.71)
m1
Les poids et les variances des gaussiennes servent à normaliser les vecteurs de moyennes
avant l'apprentissage.
83
Chapitre 3 : Les Approches d’Apprentissage des Données du Locuteur
3.5. Conclusion
Dans ce chapitre nous avons présenté tout d’abord, l’état de l’art des méthodes de
modélisation (statistiques et discriminatives) de vecteurs caractéristiques du locuteur
utilisée dans la RAL. Ensuite, nous avons présenté les fondements théoriques des méthodes
de modélisation du locuteur utilisée dans le cadre de notre travail, et selon leurs modes
d’apprentissage (supervisé ou non-supervisé), à savoir ; SVMs et le modèle de mélanges de
Gaussiennes (GMM), qui est considéré comme étant l’approche d’estimation qui prédomine
dans le domaine de la RAL (vérification du locuteur). Autour d’elle, d’autres approches de
modélisation (GMM-SVM, JFA et I-vecteur) se sont greffées visant à améliorer la
robustesse des systèmes RAL, en particulier dans des environnements perturbés. Aussi,
dans ce chapitre nous avons décrit quelques techniques de réduction de dimension et de
modélisation à savoir PCA et LDA, qui servent essentiellement à projeter les données
d’apprentissage dans un espace propre de Fisher, dans lequel les données d’apprentissage
deviennent plus présentatives et moins corrélées.
84
Chapitre 4
Chapitre 4
4.1. Introduction
85
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Fig.4.1 Les différent type de bruits et leurs impacts sur l’état physiologique de locuteur
86
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Les chercheurs dans [138] et 139] ont discuté l'utilisation des réseaux de microphones pour
améliorer la robustesse au bruit. Des études récentes sur les approches-paramètres manquants
suggèrent que, lorsque la connaissance de bruit est insuffisante pour améliorer les données de
parole dégradée, alors on peut alternativement ignorer les données de parole sévèrement
endommagés et faire baser la reconnaissance seulement sur les données avec peu de
contamination [140].
Ce chapitre étudie le problème de la reconnaissance du locuteur en utilisant des échantillons
de parole déformés par le bruit ambiant (environnement). Nous supposons un scénario très
défavorable: une estimation précise de la nature et les caractéristiques du bruit est difficile,
voire impossible. Donc ces techniques traditionnelles, pour la suppression du bruit ou
compensation du canal, qui supposent généralement une connaissance préalable de la nature
du bruit, sont devenues difficilement applicables et donnent souvent des performances
décevantes. Il est probable que l'adoption de ce pire scénario sera nécessaire dans de
nombreuses applications dans le monde réel, par exemple, la reconnaissance du locuteur par
rapport aux dispositifs portables ou l'Internet.
Fig.4.2 Schéma bloc de reconnaissance du locuteur dans un réseau de télécommunication, en présence d’un bruit
d’environnement
Alors que les technologies promettent une couche supplémentaire de sécurité biométrique
afin de protéger l'utilisateur, la mise en œuvre pratique de ces systèmes face à de nombreux
défis.
87
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Par exemple, un système de reconnaissance sur la base d’un téléphone portable de poche doit
être robuste vis-à-vis des environnements bruyants, à savoir les environnements de bureau /
rue / voiture, qui sont sujet d’imprévisibles et potentielles sources inconnues de bruit (par
exemple, les bruits soudains, interférences d’autres locuteurs, le changement dynamique de
l'environnement, etc.). Cela soulève le besoin d'un procédé qui permet la suppression des
effets du bruit d’environnements, sans prendre connaissance préalable des statistiques de
bruit. Ce chapitre décrit un tel procédé.
Les nouvelles approches proposées dans ce chapitre, se concentrent toutes sur l’amélioration
des performances de RAL, en utilisant les techniques de fusion de scores. Ceci est réalisé par
une combinaison de plusieurs scores issus de différents modèles et paramètres acoustiques.
Comme le type de bruit et son intensité (la valeur de SNR) ont un impact direct sur les scores
issus de l’étape de prise de décision des systèmes RAL, alors il est important, voire nécessaire
d’estimer ces deux paramètres avant de faire une fusion. Pour cela, nous avons proposé dans
cette thèse une nouvelle approche de détection d’activité vocale nommée (GMM-MAP-VAD)
[141] à base de la soustraction spectrale, qui nous permet par la suite d’estimer la valeur de
SNR du bruit d’environnement, utilisée dans nos approches de fusion des scores proposées.
Dans le but d’améliorer encore ces techniques de fusion quand les scores sont bruités, nous
avons également proposé l’utilisation de réseau de neurones de type MLP (Muli-Layer
Perceptron) [142] afin de réduire au maximum la distorsion de ces scores due aux bruits
d’environnements.
La détection d'activité vocale (VAD) est un algorithme mathématique qui sépare un segment
de parole de segment non parole (silence) dans un signal vocal. Habituellement, un simple
VAD basée sur le seuil d'énergie des trames de parole fonctionne bien pour les signaux non
bruités. Toutefois, dans le cas où la parole est corrompue par du bruit (SNR <5 dB), on
constate que le bruit tend à masquer la plupart des trames de parole [143]. Ainsi, une
technique pour remédier à cela, consiste à utiliser une méthode de rehaussement de la parole
pour augmenter le SNR, avant d'estimer l'énergie des trames de parole [143] qui est donnée
par l'expression suivante :
1 N
Ei 10 log10 (
N 1 n 1
( xi [n] i ) 2 ) (4.1)
Où xi [n] représente le n-ieme échantillon de la i-ieme trame vocale dans une séquence de
N
parole. Et i (1 / N ) x[n] est la moyenne des échantillons d'une trame, N est la longueur
n 1
de la trame et 10 est une constante arbitraire pour éviter le log de zéro. Ensuite, un
16
maximum d'énergie Emax max i 1,...,I Ei est calculé par rapport à toutes les trames de la
parole. Enfin, la décision de VAD est basée sur un seuil de comparaison entre l’énergie
maximale et l’énergie minimale. La règle de VAD basée sur l'énergie est donnée par:
88
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Afin de rehausser la parole qui est endommagée par le bruit, la méthode de soustraction
spectrale [144] basée sur l'erreur quadratique moyenne minimale (MMSE) [145] et des
statistiques minimales (MS) [146] de bruit est utilisée, en multipliant l’amplitude du signal
bruité Y par un certain facteur de gain G . La soustraction spectrale est la méthode de
débruitage la plus ancienne. Elle est introduite dans les travaux de Boll en 1979 [147]. Elle
opère dans le domaine fréquentiel, et a pour principe de soustraire une estimée du bruit à
partir du signal observé. Le bruit est supposé additif, stationnaire ou légèrement variant ce qui
nous permet de l’estimer pendant les périodes de silence. Il existe deux versions de base de la
soustraction spectrale, qui se distingue l’une de l’autre par l’utilisation soit de la puissance
soit de l’amplitude.
Sˆ ( f ) Y ( f ) Bˆ ( f ) (4.3)
2 2
Sˆ ( f ) Y ( f ) Bˆ ( f )
2
(4.4)
Vu que le second terme de l’équation (4.4) peut être négatif, on peut le rendre positif en
changeant de signe ou bien en l’annulant comme dans l’équation (4.5). Ceci fait partie des
premières améliorations apportées à la soustraction spectrale :
2 2
Y ( f ) Bˆ ( f ) si Y ( f ) Bˆ ( f )
2 2 2
ˆ
S( f )
0 sinon
(4.5)
Le passage dans le domaine temporel est réalisé par la transformée de Fourrier inverse en
gardant la phase du signal bruité. On se permet de procéder ainsi, d’une part, parce que notre
oreille est peu sensible aux variations de la phase et, d’autre part, parce qu’une estimation de
la phase est une tâche très compliquée.
89
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
sˆ(t ) IFFT Sˆ ( f ) .ei*arg Y ( f ) (4.6)
Les algorithmes de soustraction spectrale peuvent être étudiés sous un autre angle, celui du
filtrage du signal observé en se basant toujours sur une estimation du bruit.
Sˆ ( f ) G( f ).Y ( f ) , 0 G( f ) 1 (4.7)
2
Bˆ ( f ) 2
1 si Y ( f ) Bˆ ( f )
2
G( f ) 2 (4.8)
Y( f )
0 sinon
On continu dans la même direction de recherche de VAD, Kinnunen et al. [143] ont proposé
une méthode d'auto-adaptative VAD (VQ-VAD), qui est basée sur les vecteurs
caractéristiques MFCCs qui sont extraits à partir du signal de parole bruité. Ensuite, un
rehaussement de ce signal bruité est appliqué en utilisant une soustraction spectrale. Par
conséquent, Kinnunen trie les valeurs énergétiques calculées pour chaque trame et fixe un
pourcentage pour trouver les trames de hautes et basses énergies (par exemple, 10% de toutes
les trames), supposées correspondre respectivement, aux étiquettes fiables des trames parole
et non-parole. Les modèles statistiques de la parole et non-parole indexés par MFCC, sont
modélisés par la quantification vectorielle (VQ) [148], comme une simplification des modèles
GMM [72], [77]. Enfin, le test du rapport de vraisemblance est estimé par une différence de
distorsion entre le modèle de la parole et le modèle non-parole. L’inconvénient majeur de
cette méthode VQ-VAD [143], est que les modèles de parole et non-parole sont formés, en
utilisant uniquement la séquence de parole actuelle prononcée par le locuteur. Alors que la
notion des segments parole et non-parole dans une séquence vocale, est indépendante du
locuteur. En outre, pour les séquences de courte durée d’entraînement et de tests, le nombre
faible de trames (environ 10% après l’application de rehaussement de la parole) peut se
traduire par des modèles statistiques non fiables.
Pour cela, nous proposons dans le cadre de notre travail de modifier VQ-VAD [143], afin
d'améliorer les performances de cette approche dans les séquences de courte durée. Ceci est
réalisé par la création des modèles offline de parole et non parole via le modèle universel
(UBM). Ces modèles de l’UBM sont créés par l’algorithme EM (Expectation-Maximization)
[77], en utilisant la parole issue d'un grand nombre de locuteurs. Ensuite, ces modèles sont
adaptés à la séquence de courte durée d’apprentissage ou de test en utilisant l’adaptation
maximum a posteriori (MAP) [149]. Pour la simplification, les modèles de parole et non-
parole dans VQ-VAD, sont obtenus dans notre approche (GMM-MAP-VAD) par l’utilisation
90
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
des vecteurs moyennes issus de l'adaptation de deux grands modèles GMM en utilisant une
concaténation de plusieurs séquences de parole. En d'autres termes, nous créons deux UBMs
pour les modèles de parole et non-parole, en utilisant toutes les séquences prononcées par
plusieurs locuteurs, et les adapter ensuite aux séquences de courtes durées de chaque locuteur
via l’adaptation MAP, afin d'obtenir pour chaque séquence de courte durée de chaque
locuteur, son modèle adapté de parole et non-parole (voir Fig.4.3.)
UBM de parole
Parole bruitée
non bruitée
µ0ubm
Le modèle UBM de non-
Soustraction
parole
spectrale
Les indices des Les indices des Les indices des Les indices des
trames non-parole trames parole trames non- trames parole
parole
Paramètres parole Extraction des
Apprentissage paramètres
Extraction des de GMM
paramètres
Apprentissage
Paramètres non- de GMM Paramètres non- Paramètres parole
parole parole
Adaptation Adaptation
MAP MAP
LLR(y)=log p(y/H1) - log p(y/H0)
Décision VAD H0 =(β0,µ0)
Le modèle de
non-parole
Les segments de parole/non parole adapté
Le modèle de
parole adapté
H1 =(β1,µ1)
model
91
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
I/ Entrée : Toute la parole S[n] de tous les locuteurs, la taille de la trame est L1
Sortie : les modèles de UBM - parole et UBM - non - parole
1.// Extraction des M FCCs à partir du signal non bruité
X Extraire M FCCs (S, L1, M FCCs Params);
2.// Calculer les énergies des trames du signal non bruité
E Calculer Energie (S, L1);
3.// Trouver les indices des trames de haute et basse énergie
[i low , i high ] Trouver les énergies hautes et basses (E, percentage (10%));
4.// Apprendre les modèles de UBM - parole et UBM - non - parole
µ UBMparole Apprendre GM M ({xt X | t i high});
µ UBMnon-parole Apprendre GM M ({xt X | t i low });
II/ Entrée : Signal de parole s[n] de chaque locuteur, la taille de trame est L
Sortie : Les étiquettes de VAD, VAD[t], t = 1, 2, …, T
1.// Extraction des M FCCs à partir du signal bruité
X new Extraire M FCCs (s, L, M FCCs Params);
2.// Débruiter le signal bruité
s clean Specsub(s, SpecsubParams);
3.// Calculer les énergies des trames du signal rehaussé
E new Calculer Energie (s clean , L);
4.// Trouver les indices des trames de haute et basse énergie
high ] Trouver les énergies hautes et basses (E
new
[i low , i new new
, percentage (10%));
5.// Apprendre les modèles adaptés de parole et non - parole
µ parole M AP - adaptation ({x t X new | t i new
high }, µ
UBMparole
);
µ non-parole M AP - adaptation ({x t X new | t i low
new
}, µ UBMnon-parole );
6.// Pour toutes les trames, choisir l' hypothèse la plus probable
VAD[t] {log p(x t | µ parole ) log p(x t | µ non-parole ) }
E new
t min // avec min est une contrainte d' énergie
K
Il est noté que p( x / ) k ( x k , k ) est un GMM avec un vecteur poids k , un vecteur
k 1
92
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Les Multi-layer Perceptron (MLP) appartiennent aux réseaux multicouches [150] : ils ne
possèdent donc pas de boucle de retour, ils sont « Feed-forward ».
Les MLPs possèdent une fonction d'activation de type sigmoïde ou de Heaviside.
Le MLP est une extension multicouche du perceptron, qui est un réseau à une couche, assez
limitée.
Il utilise un algorithme d'apprentissage très répandu car facile à implémenter : la rétro-
propagation du gradient [150], qui utilise une erreur quadratique moyenne.
La rétro-propagation du gradient consiste à propager « à l’envers » (de la couche de sortie
vers la couche d’entrée) l’erreur obtenue sur les exemples de la base d'apprentissage. On
utilise pour cela l’erreur quadratique, i.e. le carré de la différence entre ce qu'on obtient et ce
qu'on désire.
Soit le vecteur d'entrée xp= (xp1,...,xpN) appliqué à l'entrée du réseau, N étant la dimension
de ce vecteur descripteur des données d’apprentissage. Dans le cas du signal de parole, ces
vecteurs sont constitués des caractéristiques acoustiques.
Considérons les cellules de la couche cachée (repérée par l'incrément (2)). L'entrée de la jième
cellule de cette couche est:
(2) N (2)
a ( w(ji2 )x ) θ (4.9)
pj pi j
i 1
wji: matrice des poids de cette cellule avec la iième entrée (provenant de la couche d'entrée).
Cette sortie sera l'entrée de la kième cellule de la couche de sortie finale (repérée par
l'incrément (3)).
93
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
y pk f (a (pk3) ) (4.12)
Avec
L
a (pk3) wkj(3) s (pj2) k(3) (4.13)
j 1
On définit l'erreur entre la sortie désirée et la sortie actuelle pour la kième cellule de la couche
de sortie:
pk yd pk y pk (4.14)
On doit minimiser la somme quadratique des erreurs de toutes les cellules de sortie, soit:
1 K
Ep
2 k 1
( yd pk y pk )2 (4.15)
E p f (a (pk3) ) a (pk3)
( yd pk y pk ) (4.16)
wkj(3) a (pk3) wkj(3)
Par substitution de l’équation (4.13) dans (4.16), cette dernière relation devient:
E p f (a (pk3) )
( yd pk y pk ) s (pj2) (4.17)
wkj(3) a (pk3)
f (a (pk3) )
Posons pk
(3)
( yd pk y pk ) (4.18)
a (pk3)
Les équations (4.16) et (4.17) expriment une descente de gradient qui permet la mise à jour
des poids de la couche de sortie. L’équation de mise à jour des poids est exprimée par la
relation:
(3) (3) (3) (2)
wkj (t 1) wkj (t ) . pk .s pj (4.19)
: paramètre d'apprentissage qui est un nombre positif qui représente le pas de deplacement
en direction du minimum le plus proche. Il peut être fixe, decroissant, ou adaptatif
Si l’erreur calculée descend au dessous d’un certain critère de seuil fixé préalablement, la
phase d’apprentissage est arrétée.
94
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Dans cette section nous nous intéressons uniquement aux méthodes de combinaison simples
de scores, dont leur objectif est d'obtenir un score final S fusion à partir de N scores Si
disponibles pour i 1 à N sous-systèmes. La plupart de ces méthodes simples utilisent la
moyenne, le produit, le minimum, le maximum ou la médiane des scores pour fusionner les
sous-systèmes et ne nécessitent pas une adaptation. Toutefois, il existe également des
méthodes de combinaison de scores plus avancées, qui nécessitent une configuration de
certains paramètres tels que la somme pondérée dont l’expression est donnée comme suit:
N
S fusion wi Si (4.21)
i 1
Généralement, la somme pondérée est utilisée pour donner différents poids wi à chacun des
sous-systèmes Si en fonction de leur performance individuelle. Cependant, cette méthode de
combinaison ne peut pas être utilisée si tous les scores obtenus à partir des sous-systèmes ne
sont pas homogènes. Pour cela, cette méthode nécessite une étape préalable de normalisation
de scores.
4.5.1. L’approche de fusion des scores basée sur la somme pondérée adaptative et
GMM-MAP-VAD
Dans ce travail, nous proposons une nouvelle méthode de fusion simple des scores, qui
consiste à modifier la somme pondérée classique, pour être une méthode adaptative dans les
environnements bruités. Le schéma bloc du système de fusion en utilisant la méthode de
fusion adaptative est représenté par (voir Fig.4.5). Dans cette méthode, d’abord le taux
95
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
d’erreur égal (EER) de vérification de locuteurs et les scores issus de chaque sous-système,
sont estimés dans les environnements calmes et bruités. Ensuite, les poids wi de chaque sous-
système changent de valeurs à chaque fois que le type du bruit et le niveau de SNR change.
Autrement dit, les poids wi sont calculés à base de EER estimée à chaque niveau SNR de
chaque type du bruit. Et enfin, une normalisation de scores (Z-score) est appliquée aux scores
de tous les sous-systèmes dans l’équation (4.21).
1
EERi 1
où wi N , et Si sont respectivement le poids de pondération, l’inverse de
1
i 1 EERi
EERi
taux d'erreur égal et le vecteur scores de i-iem sous-système dans l’environnement bruité.
96
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
Sous-Sys 1
S1 SFusion O/N
S2
1
Sous-Sys N
EERi
SN wi N
1
i 1 EERi
Bloc d’adaptation
Bruit
Type de bruit
Estimation de
SNR
Estimation de l’énergie
du bruit
Fig.4.4 Bloc diagramme de l’approche proposée de la fusion des scores basée sur la somme pondérée adaptative
4.5.2. L’approche de fusion des scores basée sur la sigmoïde somme pondérée adaptative
et le réseau de neurones MLP
Dans cette approche, nous utilisons la fonction sigmoïde (courbe en S) qui est définie
mathématiquement par:
1
f ( x) ,xR (4.22)
(1 exp( x))
97
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
0.9
0.8
0.7
0.6
Amplitude
0.5
0.4
0.3
0.2
0.1
0
0 1 2 3 4 5 6 7 8 9 10
échantillons
1
f ( x) ,xR (4.23)
(1 exp( Cx))
où C est une constante qui est remplacée dans notre approche par la valeur du taux d'erreur
égal (EER). Cette dernière est calculée pour chaque sous-système, dans les environnements
calmes et bruités. Ainsi, on calcule le poids de pondération wi de i-ème sous-système comme
suit:
1
1 exp( EERi ( Si S i ))
wi N (4.24)
1
i 1 1 exp( EERi ( Si S i ))
98
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
d’environnement, calme et bruité. Dans les environnements bruités, EER est estimée à chaque
niveau SNR de chaque type du bruit. S i est le vecteur moyenne de Si .
Afin d'améliorer les performances de cette nouvelle approche dans l’environnement bruité,
nous intégrons le réseau de neurones MLP [150] à l'intérieur, comme suit:
Tout d'abord, avant de fusionner les scores de tous les sous-systèmes ensemble, nous
approchons chaque vecteur de scores de chaque sous-système à un vecteur de scores désiré en
utilisant le réseau MLP. Ce vecteur désiré est bien sélectionné parmi tous les vecteurs de
scores que nous voulons fusionner, sur la base de la plus petite valeur EER calculée à partir de
chaque vecteur de scores dans l’environnement calme. Ensuite, par l'application de notre
approche, nous fusionnons ces vecteurs approchés pour obtenir un autre vecteur de scores
approché, et ceci par l'ajout des poids estimés en phase d’approximation de scores en utilisant
MLP à ceux de la somme pondérée adaptative. Par conséquent, nous calculons la nouvelle
valeur EER correspond à ce nouveau vecteur de scores.
Maintenant; si à l'itération (i), la nouvelle valeur EER est inférieur à l'ancienne valeur (EERold
= 0,5), le processus d’approximation de scores, la fusion de scores et l’estimation de EER
continue jusqu'à l'itération (i+1), et l'ancienne valeur EER prend la nouvelle valeur EER
calculée à l'itération (i). Sinon, ce processus s’arrête et le dernier vecteur de scores fusionné
est considéré.
99
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
100
Chapitre 4 : Les Approches de Fusion des Scores Proposées pour une Reconnaissance de Locuteur Robuste
4.6. Conclusion
101
Chapitre 5
Résultats Expérimentaux et
Discussions
Chapitre 5: Résultats Expérimentaux et Discussions
Chapitre 5
5.1. Introduction
Dans ce chapitre nous allons présenter les résultats obtenus avec un système de
reconnaissance (identification et vérification) automatique du locuteur, que nous avons
élaboré et qui est basé sur quelques méthodes de modélisation du locuteur décrites dans les
chapitres précédents. Dans ce système, la tache de reconnaissance est dévolue aux GMM-
UBM et GMM-SVM. Les protocoles de développement et d’évaluation des différentes
méthodes de modélisation et de fusion des scores pour la reconnaissance du locuteur, sont
décrits dans ce volet. Ils mettent en jeu des modules d’extraction de paramètres acoustiques à
savoir MFCC, LPC, LPCC, LFCC, PLP et MODGDCs. Les expériences ont été menées en
mode indépendant du texte. L’influence de l’environnement a également été évaluée par
simulation de différents milieux bruités.
102
Chapitre 5: Résultats Expérimentaux et Discussions
extensions asymétriques sont considérés comme vecteurs d’entrées pour le GMM. Les
résultats obtenus sont présentés par les figures ci-dessous:
100
90
80
Taux d'identification (%)
70
60
50
40 GMM
30
20
10
0
k=8 k=16 k=32 k=64
Nombre de composantes
Discussion
100
90
80
70
Taux d'identification (%)
60
50
40
30
20
10
0
Hamming taper Asy-taper (k=-2.5)Asy-taper (k=-1.5)Asy-taper (k=2.5) Asy-taper (k=5)
Fig.5.2 Taux d’identification du locuteur en utilisant GMM (k=32) avec MFCCs et MFCCs basés sur
les fenêtres asymétriques
103
Chapitre 5: Résultats Expérimentaux et Discussions
La figure (voir Fig.5.2), montre que dans un environnement calme (non bruité), les
performances de l’identification du locuteur sont meilleures lorsque les MFCCs avec la
fenêtre asymétrique (k=-2.5 et k=-1.5)) sont utilisés (taux d’identification avec ce type de
fenêtre est de 97.85% pour k=-2.5 et de 96,87 pour k=-1.5).
Tableau 1 Comparaison des résultats de l’identification du locuteur en termes de taux d’identification lors de
l'utilisation de GMM-UBM (k=32), avec MFCCs basés sur les fenêtres Hamming et asymétriques dans un
environnement réel.
Bruit SNR(dB) Ham-taper asy-taper (k=-2.5) asy-taper (k=-1.5) asy-taper (k=2.5) asy-taper (k=5)
Discussion
Le tableau 1 présente les taux d’identification du locuteur, respectivement, pour les MFCCs à
base de la fenêtre Hamming (fenêtre de base) et les MFCCs basés sur les fenêtres
asymétriques [153], [154], à la fois sous les bruits de babble et de l'usine. Il semble que tous
les systèmes de MFCCs à base de fenêtres asymétriques (k=2.5 et k=5), donnent
systématiquement de bons résultats par rapport à la fenêtre Hamming en termes de taux
d'identification. Ceci est dû au fait que, dans les estimations du spectre d’amplitude en
utilisant les fenêtres asymétriques (k=2.5 et k=5), les données sont pondérés d’une manière
plus uniforme, et les spectres ont une variance réduite par rapport aux estimations basées sur
la pondération du signal par la fenêtre de Hamming.
104
Chapitre 5: Résultats Expérimentaux et Discussions
clients et 28056 scores imposteurs. Pour chaque locuteur cible, 15 secondes de parole est
disponible, tandis que la durée des séquences de test est de 9 secondes. Le Modèle de mélange
gaussien adapté au modèle du monde UBM (GMM-UBM) [70] est utilisé comme modèle
d’apprentissage. Chaque séquence d'apprentissage est adaptée à partir des données UBM via
l’adaptation MAP [77]. Notre UBM (42 minutes de parole) est un GMM avec 128
composantes, appris sur la parole issue d'un grand nombre de locuteurs en utilisant
l'algorithme EM. Pour les deux modules d'extraction de paramètres et de détection de
l’activité vocale, nous avons utilisé des vecteurs caractéristiques de 23 coefficients MFCCs, et
d’autres 23 coefficients MFCCs basés sur des fenêtres (tapers en anglais) asymétriques [153],
[154], dont les valeurs de paramètre k qui contrôle le degré d’asymétrie sont : k = -2,5, -1,5,
2,5 et 5. Ces vecteurs acoustiques ont été extraits toutes les 10 ms, en utilisant une fenêtre de
25 ms.
Une remarque importante à mentionner ici, pour le VAD nous avons inclus le premier
coefficient MFCC (0), ce qui est prouvé être très efficace pour VAD comme a été souligné
dans les travaux de Kinnunen et al [143]. Toutefois, ce coefficient n’est pas informatif pour la
tâche de vérification du locuteur, donc il est négligé.
Les expériences dans des conditions perturbées sont effectuées en ajoutant synthétiquement
des bruits additifs aux séquences de parole de test. Les échantillons de bruit sont extraits à
partir de la base de données Noisex-92. Le bruit est ajouté au signal de parole en utilisant les
étapes suivantes:
• Un segment d’échantillons de bruit est choisi de façon aléatoire à partir du signal de bruit
d'origine, en fonction de la longueur de la séquence de parole.
• L'amplitude du segment de bruit varie en fonction de SNR souhaité (0 dB, 5 dB, 10 dB et 15
dB).
• Le signal de bruit est ajouté au signal propre (non bruité) pour obtenir de la parole bruitée.
Dans notre expérience, nous avons choisi deux types différents de bruit: Babble et Usine
(Factory).
4000 -10
3500 -20
3000 -30
-40
2500
Frequency (Hz)
-50
2000
-60
1500
-70
1000
-80
500
-90
0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)
105
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-20
3500
-30
3000
-40
2500
Frequency (Hz)
-50
2000 -60
1500 -70
1000 -80
-90
500
-100
0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)
Les modèles génériques de parole et non-parole utilisés dans notre approche GMM-MAP-
VAD proposée, sont obtenus par concaténation 1344 séquences, prononcées par 168 locuteurs
de données d'apprentissage, en utilisant GMM avec 256 composantes. En adaptation MAP,
nous avons fixé la valeur du facteur de pertinence r à 16 pour les deux taches de vérification
du locuteur et la technique GMM-MAP-VAD proposée [141].
106
Chapitre 5: Résultats Expérimentaux et Discussions
A DET plot
20
10
Miss probability (in %)
0.5
0.2
0.1
(a)
A DET plot
20
10
Miss probability (in %)
0.5
0.2
0.1
(b)
107
Chapitre 5: Résultats Expérimentaux et Discussions
A DET plot
20
0.5
0.2
0.1
(c)
Fig.5.5 Comparaison des courbes DET lors de l'utilisation: a) VQ-VAD avec MFCC-Hamming taper; b) GMM-
VAD avec MFCC-Hamming taper; c) GMM-MAP-VAD avec MFCC- Hamming et asymétriques tapers.
Discussion
D'après les résultats montrés par Fig.5.5(a), et en comparant les performances de la
vérification du locuteur obtenues lors de l'utilisation de VQ-VAD basée sur les
caractéristiques MFCC [143], on peut observer que les performances de MFCCs avec VQ-
VAD (dans le cas où, la taille de dictionnaire-VQ est égale à 32, (k = 32)) surpassent celles de
MFCC sans VQ-VAD en termes de EER. Cependant, lorsque nous avons remplacé VQ par le
modèle GMM pour estimer les modèles parole/non-parole dans l’algorithme VQ-VAD, il est
constaté que, VAD avec VQ (EER = 1,10% avec k = 32) (voir Fig.5.5(a)) donne de meilleurs
résultats que le VAD avec GMM (EER = 3,02% avec k = 16) (voir Fig.5.5 (b)). Ceci peut être
expliqué par le fait que dans des conditions non perturbées, lorsque nous avons estimé les
zones d'activité vocale dans le signal de parole en utilisant un GMM au lieu de VQ, ce dernier
(GMM) a besoin d'une énorme quantité de données (parole) pour estimer de façon fiable les
deux modèles de la parole et non-parole (silence). D'autre part, la base de données TIMIT
utilisée dans nos expériences, est caractérisée par sa parole de courte durée (3 secondes par
séquence), et le GMM est un modèle statistique fondé sur l’estimation de maximum de
vraisemblance (ML), qui demande suffisamment de données pour effectuer une bonne
estimation [77]. Donc et vue tout ça, les performances de vérification du locuteur en matière
de EER semblent moins bonnes dans le cas de l'utilisation de GMM-VAD que dans le cas de
l'utilisation de l'approche VQ-VAD.
Pour pallier le manque de données de parole en GMM-VAD, nous avons proposé d'intégrer
l'adaptation MAP à l'intérieur. L'objectif principal de la technique GMM-MAP-VAD
proposée, est de calculer deux UBM pour les modèles de parole et non-parole, appris sur la
108
Chapitre 5: Résultats Expérimentaux et Discussions
parole de toutes les séquences prononcées par plusieurs locuteurs (168 locuteurs de la base de
données TIMIT), et de les adapter aux courtes séquences de chaque locuteur utilisé dans la
phase d’apprentissage et de test via adaptation MAP. Autrement dit, nous avons estimé les
modèles de parole et non-parole à partir de longues séquences, obtenues par concaténation des
courtes séquences (courte durée) de locuteurs, au lieu de courtes séquences seules. Fig.5.5(c)
résume les performances de vérification du locuteur lors de l'utilisation de l’approche GMM-
MAP-VAD. D’après cette figure, on constate qu’avec l’intégration de l’adaptation MAP dans
l’approche GMM-VAD proposée, l'EER diminue de 3,02% (en cas de GMM-VAD avec k =
16) à 1,74% (en cas de GMM-MAP-VAD avec la fenêtre asymétrique (k = 5)). Ceci valide
notre hypothèse sur l'impact de la taille (durée) de séquence de parole, sur les performances
de VAD et la vérification du locuteur. En outre, il peut être observé à partir de la Fig.5.5(c), la
réduction de l'erreur résultante de l'introduction de MFCCs extraits en utilisant les fenêtres
asymétriques dans GMM-MAP-VAD (EER = 1,74% pour la fenêtre asymétrique avec k = 5).
Cela a probablement dû, au bon lissage de l’enveloppe spectrale d'amplitude du signal, lors de
l'utilisation des fenêtres asymétriques, en particulier dans les régions à hautes fréquences, où
les formants d'ordre supérieur sont bien établis que lors de l'utilisation de la fenêtre de
Hamming. Et enfin, on observe que VQ-VAD surpasse légèrement notre approche GMM-
MAP-VAD en termes de EER lors de l'utilisation de la parole non bruitée.
4000
-20
Frequency (Hz)
3000 -40
2000 -60
1000 -80
0 -100
0 5 10 15
Time (s) -3
x 10
Fig.5.6 Spectrogramme d’une trame de parole non bruitée de durée 15ms, pondérée par la fenêtre symétrique de
Hamming
109
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-20
Frequency (Hz)
3000 -40
2000 -60
1000 -80
0 -100
0 5 10 15
Time (s) -3
x 10
(a)
4000
-20
Frequency (Hz)
3000 -40
2000 -60
1000 -80
0 -100
0 5 10 15
Time (s) -3
x 10
(b)
110
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-20
Frequency (Hz)
3000 -40
2000 -60
1000 -80
0 -100
0 5 10 15
Time (s) -3
x 10
(c)
4000
-20
Frequency (Hz)
3000
-40
2000 -60
1000 -80
0 -100
0 5 10 15
Time (s) -3
x 10
(d)
Fig.5.7 Spectrogrammes d’une trame de parole non bruitée de durée 15ms pondérée par les fenêtres
asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5
111
Chapitre 5: Résultats Expérimentaux et Discussions
Tableau 2 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation de
MFCC avec et sans VQ-VAD dans un environnement réel.
Babble Usine
SNR (dB) SNR (dB)
Taille de dictionnaire VQ
0 5 10 15 0 5 10 15
VQ-Codebook
Sans VQ-VAD 34.20 25.52 18.09 8.16 44.70 35.36 23.49 12.89
VQ-VAD (K=8) 27.88 18.70 13.24 8.49 31.87 26.53 19.02 14.20
VQ-VAD (K=16) 32.61 22.54 16.47 10.44 35.40 28.72 21.33 16.07
VQ-VAD (K=32) 27.24 17.47 5.88 1.87 31.56 23.08 12.28 4.20
VQ-VAD (K=64) 27.64 18.30 11.61 7.30 32.98 24.59 16.21 9.26
Tableau 3 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation
de VQ-VAD avec MFCCs basés sur les fenêtres Hamming et asymétriques dans un environnement réel, avec
VQ (k=32).
Babble Usine
SNR (dB) SNR (dB)
Fenêtre
0 5 10 15 0 5 10 15
Tapers
Hamming taper 27.24 17.47 5.88 1.87 31.56 23.08 12.28 4.20
Asy-taper (k=-2.5) 16.46 8.73 5.57 5.42 27.00 16.43 9.97 7.31
Asy-taper (k=-1.5) 24.27 14.25 10.45 6.04 30.55 21.73 14.92 10.21
Asy-taper (k=2) 24.19 18.06 14.33 11.88 31.34 26.51 20.67 16.15
Asy-taper (k=5) 16.10 8.53 5.48 4.48 26.50 15.42 9.46 6.03
112
Chapitre 5: Résultats Expérimentaux et Discussions
Babble Usine
SNR (dB) SNR (dB)
Les composantes de l’UBM
0 5 10 15 0 5 10 15
UBM’s components
K=16 34.17 25.09 18.11 12.25 39.23 34.31 23.11 12.19
Tableau 5 Comparaison des résultats de la vérification du locuteur en termes de EER(%), lors de l'utilisation de
GMM-MAP-VAD avec MFCCs basés sur les fenêtres Hamming et asymétriques, dans un environnement réel
avec le nombre de composantes de l’UBM, k=256.
Babble Usine
Tapers
Hamming taper 26.59 15.75 9.21 5.46 30.98 23.58 14. 16 7.51
Asy-taper (k=-2.5) 15.91 7.97 4.36 2.25 24.42 15.89 9.67 5.00
Asy-taper (k=2) 23.35 16.65 13.35 10.70 30.62 25.78 19.49 15.45
Asy-taper (k=5) 14.47 7.47 5.26 2.93 19.02 12.36 8.5 0 5.09
Discussion
D'après les résultats donnés par les tableaux 2, 3, 4 et 5, malgré la dégradation des
performances de toutes les méthodes d’extraction quand le SNR diminue, nous constatons que
les algorithmes de VAD avec soustraction spectrale comme un prétraitement acoustique de la
parole bruitée, donnent une amélioration importante en termes de EER par rapport aux
systèmes de vérification conçus sans le module de VAD. On observe dans le tableau 4 que
notre méthode GMM-MAP-VAD donne de meilleurs résultats en termes de EER (Usine: EER
= 30,98% à SNR = 0 dB ; Babble: EER = 26,59% à SNR = 0 dB), lorsque le nombre de
113
Chapitre 5: Résultats Expérimentaux et Discussions
composantes de l’UBM égal à 256. D’après le tableau 2, nous remarquons que VQ-VAD avec
soustraction spectrale réduit EER, de 44,70% à 31,56%% pour le bruit de l'usine à SNR = 0
dB, lorsque la taille de dictionnaires VQ égale à 32, et EER à partir de 34.20% à 27.24% pour
le bruit babble. Aussi, lorsque l'on compare les résultats donnés par les tableaux 3 et 5, nous
pouvons observer que les performances de la vérification du locuteur avec notre approche
GMM-MAP-VAD, surpassent celles de VQ-VAD utilisée dans l'extraction de caractéristiques
sur la base des fenêtres asymétrique [168], sous tous les types de bruit lorsque l'ordre de
GMM (UBM) est de 256. Ceci peut être expliqué par le fait que, lorsque nous adaptons les
modèles UBM de parole/non-parole, appris en utilisant la parole non bruitée de 1344
séquences concaténées avec GMM, aux séquences de courte durée de la parole bruitée via
l’adaptation MAP, nous constatons que les zones de parole/non-parole sont mieux détectées
par GMM-MAP-VAD que par VQ-VAD. Parce que dans les séquences bruitées, il y a un
chevauchement entre les zones de parole et non-parole, en raison de la courte durée de
silence. Ceci peut également être expliqué par la capacité de généralisation des modèles MAP
de parole et non de parole adaptés. En outre, il se trouve dans les résultats donnés par le
tableau 5 que GMM-MAP-VAD basée sur les fenêtres asymétriques (filtre passe-haut),
apparait mieux intéressante que GMM-MAP-VAD basée sur la fenêtre symétrique de
Hamming, dans la plupart des conditions bruitées (babble et usine) en termes de ERR. Cela
démontre que les fenêtres asymétriques (k = 5), capte mieux les fréquences utiles (parfois, il y
a des phonèmes dans la parole comme fricatives qui existent dans les régions hautes
fréquences, surtout pour les femmes) qui ne sont pas significativement affectées par le bruit
(Babble) que la fenêtre de Hamming. Dans les figures (Fig.5.8) et (Fig.5.9) ci-dessous, nous
observons que les fenêtres asymétriques montrent moins du bruit dans les spectrogrammes
que la fenêtre de Hamming.
4000
-30
3500
-40
3000 -50
2500 -60
Frequency (Hz)
2000 -70
1500 -80
-90
1000
-100
500
-110
0
0 5 10 15
Time (s) -3
x 10
Fig.5.8 Spectrogramme d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de durée 15ms,
pondérée par la fenêtre symétrique de Hamming.
114
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-40
3500
-50
3000
-60
2500
Frequency (Hz)
-70
2000
-80
1500
-90
1000
-100
500 -110
0 -120
0 5 10 15
Time (s) -3
x 10
(a)
4000
-30
3500
-40
3000 -50
2500 -60
Frequency (Hz)
2000 -70
-80
1500
-90
1000
-100
500
-110
0
0 5 10 15
Time (s) -3
x 10
(b)
115
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-30
3500 -40
3000 -50
2500 -60
Frequency (Hz)
-70
2000
-80
1500
-90
1000
-100
500
-110
0
0 5 10 15
Time (s) -3
x 10
(c)
4000
-40
3500
-50
3000
-60
2500
Frequency (Hz)
-70
2000
-80
1500
-90
1000
-100
500 -110
0 -120
0 5 10 15
Time (s) -3
x 10
(d)
Fig.5.9 Spectrogrammes d’une trame de parole corrompue par un bruit d’usine (SNR= 5dB) de durée 15ms
pondérée par les fenêtres asymétriques ; a) k=-2.5, b) k=-1.5, c) k=2.5 and d) k=5
116
Chapitre 5: Résultats Expérimentaux et Discussions
(UBM), qui est largement utilisé dans la vérification du locuteur. Notre UBM (42 minutes de
parole) est un GMM avec 128 composantes, appris sur la parole issue d'un grand nombre de
locuteurs en utilisant l'algorithme EM. Dans la deuxième phase, chaque séquence de parole
d'apprentissage est adaptée aux données UBM, en utilisant l’adaptation MAP. Dans la phase
de prétraitement, nous utilisons l’approche GMM-MAP-VAD proposée afin de détecter la
présence ou l'absence des segments vocaux dans un signal de parole. Le module de
paramétrage fournit toutes les 10 ms, des vecteurs caractéristiques de 23 coefficients MFCCs,
et d’autres 23 coefficients MFCCs basés sur des fenêtres asymétriques dont les valeurs de
paramètre k qui contrôle le degré d’asymétrie sont : k = -2,5, -1,5, 2,5 et 5, en utilisant une
fenêtre de 25 ms.
Dans le paramétrage LFCC, la dimension des vecteurs caractéristiques est la même que celle
des MFCCs. L’extraction de LFCCs (Linear Frequency Cepstral Coefficients) [155] est
similaire à celle de MFCCs, avec une différence dans la structure des bancs de filtres Mel.
Dans la région de hautes fréquences, les filtres Mel ont été remplacés par des bancs de filtre
linéaire afin de capturer plus de détails spectraux dans cette région.
1.8
1.6
1.4
1.2
Amplitude
0.8
0.6
0.4
0.2
0
0 20 40 60 80 100 120 140
Samples
Nous avons utilisé le taux d'erreur égal (EER) en tant qu’une mesure d'évaluation.
117
Chapitre 5: Résultats Expérimentaux et Discussions
DET curve
40
MFCC: EER=1.26% .
35 RASTA-LFCC: EER=10.85% .
Asy-taper (k=-2.5): EER=4.76% .
30 Asy-taper (k=-1.5): EER=2.97% .
Asy-taper (k=2.5): EER=1.35% .
False Reject Rate (%)
20
15
10
0
0 5 10 15 20 25 30 35 40
False Acceptation Rate (%)
(a)
DET curve
40
MFCC: EER=1.16% .
35 RASTA-LFCC: EER=18.45% .
Asy-taper (k=-2.5): EER=2.5% .
30 Asy-taper (k=-1.5): EER=1.19% .
Asy-taper (k=2.5): EER=2.89% .
False Reject Rate (%)
20
15
10
0
0 5 10 15 20 25 30 35 40
False Acceptation Rate (%)
(b)
118
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
Comme le montre Fig.5.11(a), nous constatons que les performances en termes de ERR de
MFCCs (EER = 1,26%) et MFCCs basés sur les fenêtres asymétriques (k = 5, EER = 1,31%)
surpassent celles de RASTA-LFCC (EER = 10,85%). Cela peut être expliqué par le fait que,
dans la région des hautes fréquences, LFCCs utilisent des bancs de filtres linéaires dans la
chaine d’extraction, et ceci est diffèrent du mécanisme de perception de l'oreille humaine
(l’échelle logarithmique). Lorsque les résultats montrés par Fig.5.11(b) sont comparés à ceux
de Fig.5.11 (a), il est observé qu'il y a une amélioration relative de 1,16% en termes de EER
pour les caractéristiques standards (MFCCs). Cela s'explique par le fait que parfois, une
mauvaise modélisation des données d’apprentissage est observée quand le modèle GMM sans
adaptation MAP est utilisé, ceci est dû aux données manquantes utilisées pour apprendre le
GMM, en utilisant le maximum de vraisemblance (Maximum likelihood) qui demande une
très grande quantité de données pour qu’il fasse une bonne estimation. Ce n'est pas le cas
lorsque les séquences de parole d’apprentissage sont adaptées aux données UBM (pas de
manque de données) quand GMM avec adaptation MAP est utilisé. En outre, il est à noter
que MFCCs utilisant les fenêtres asymétriques avec (k = 5, EER = 1.9% et k = -1.5, ERR =
1,19%) apporte une amélioration par rapport aux autres fenêtres de Fig.5.11 (b).
Tableau 6 Comparaison des résultats de la vérification du locuteur en termes de EER, quand GMM sans
adaptation MAP est utilisé dans un environnement réel
Bruit SNR MFCC LFCC Asy ( K=-2.5) Asy (K=-1.5) Asy (K=2.5) Asy(K=5)
119
Chapitre 5: Résultats Expérimentaux et Discussions
Tableau 7 Comparaison des résultats de la vérification du locuteur en termes de EER, quand GMM avec
adaptation MAP est utilisé dans un environnement réel
Bruit SNR MFCC LFCC Asy ( K=-2.5) Asy (K=-1.5) Asy (K=2.5) Asy (K=5)
Discussion
Les résultats présentés par le tableau 6 montrent que, malgré la dégradation des performances
de toutes les méthodes d’extraction quand le SNR diminue, nous constatons que les
paramètres basés sur les fenêtres asymétriques semblent robustes aux bruits que les autres
méthodes d'extraction de caractéristiques (MFCCs et LFCCs). En outre, on observe que les
fenêtres asymétriques donnent de meilleurs résultats que la fenêtre Hamming, dans la plupart
des environnements bruités (babble et usine) en termes de EER. Par rapport à la fenêtre
standard (Hammin), la fenêtre asymétrique avec k = 5, prévoit une amélioration en termes de
EER de: 32,14% à SNR = 0 dB et 18,63% à SNR = 5dB, sous le bruit babble et 40,27% à
SNR = 0 dB et 32,73% à SNR = 5 dB, sous le bruit de l'usine. L'insuffisance des données
d'entraînement dans ce cas (GMM sans adaptation MAP), en particulier dans les régions de
hautes fréquences, provoque la dégradation des performances qui probablement due à la
sélectivité du filtre Mel dans cette région. En effet, ce filtre capte moins les fréquences utiles
lorsque la fenêtre Hamming est utilisée. Toutefois, lorsque la fenêtre asymétrique (k = 5) est
considérée, nous constatons que le nombre des hautes fréquences qui sont retenues est élevé
par rapport à celle de Hamming, parce que la fenêtre asymétrique (k = 5) est considérée
comme un filtre passe-haut. Dans l’extraction des LFCCs, le spectre d'énergie dans la région
de hautes fréquences est faible, et il est donc plus sensible à la corruption de bruit. Par
conséquent, le système basé sur LFCC est moins robuste aux bruits de hautes fréquences
(usine) que MFCC et MFCC basés sur les fenêtres asymétriques en termes de EER.
120
Chapitre 5: Résultats Expérimentaux et Discussions
D’après les résultats résumés dans le tableau 7, on observe que MFCCs à base de la fenêtre
Hamming apporte une amélioration en termes de EER sous le bruit de l'usine. En outre, nous
notons que, sous le bruit babble et à SNR = 0 dB et 5 dB, les performances de toutes les
méthodes d’extraction de caractéristiques sont meilleures que celles de GMM sans MAP en
termes de EER. Ceci probablement est dû au fait que, le spectre de bruit babble est parfois
similaire à celui de la parole de test. En effet, il y a parfois des phonèmes qui sont mal classés
par le modèle d’apprentissage. Cependant, lorsque nous ajoutons le bruit babble à la parole de
test, il est constaté que les phonèmes de bruit qui sont semblables à ceux de la parole de test,
deviennent bien représentés et détectés par le modèle d’apprentissage en raison de la forte
présence de bruit.
Tableau 8 Comparaison entre les performances des différentes techniques de fusion des scores des sous-
systèmes, formés par les différents paramètres en termes de EER, en utilisant GMM sans l’adaptation MAP
dans un environnement bruité
Bruit SNR max min somme simple SVM Somme pondérée adaptative
121
Chapitre 5: Résultats Expérimentaux et Discussions
Tableau 9 Comparaison entre les performances des différentes techniques de fusion des scores des sous-
systèmes, formés par les différents paramètres en termes de EER, en utilisant GMM avec l’adaptation MAP dans
un environnement bruité
Bruit SNR max min somme simple SVM Somme pondérée adaptative
Discussion
D'après les tableaux 8 et 9, il est montré que la méthode de fusion des scores basée sur la
somme pondérée adaptative (approche proposée) surpasse et apporte une amélioration en
termes de EER dans l’environnement bruité par rapport aux résultats donnés par d'autres
techniques, sauf SVM [82] à faible SNR (SNR <10 dB). Ceci valide notre hypothèse sur la
complémentarité existante entre les caractéristiques de chaque sous-système. En outre, on
observe qu’au niveau SNR = 10 dB et 15 dB, lorsque GMM-UBM est utilisé comme modèle
d’apprentissage (voir Tableau 9), notre nouvelle approche donne de meilleurs résultats par
rapport aux SVMs (bruit babble : EER = 5,73% à 10 dB et EER = 2,38% à 15 dB. Bruit
d’usine: EER = 13,34% à 10 dB et EER = 5,95% à 15 dB). Par contre, dans les situations où
l'environnement est très bruité (SNR = 0 dB et 5 dB), nous constatons que, les SVMs
apportent une amélioration significative en termes de ERR (bruit Babble: EER = 22,81% à 0
dB et EER = 15.18% à 5 dB. Bruit d’usine: EER = 23,41% à 0 dB et EER = 20,80% à 5 dB).
Ceci peut être expliqué par le fait que dans des environnements peu bruités (SNR> = 10dB),
les scores issus de différents sous-systèmes sont linéairement séparables donc une fusion
linéaire simple (somme pondérée adaptative) peut faire l'affaire (de bons résultats). Par contre,
lorsque l'environnement devient très bruités (SNR <10 dB), données (scores) deviennent non-
linéairement séparables (données qui se chevauchent), alors les SVMs deviennent plus
intéressants que les méthodes simples.
122
Chapitre 5: Résultats Expérimentaux et Discussions
4000
-30
3500
-40
3000
-50
2500
Frequency (Hz)
-60
2000 -70
1500 -80
-90
1000
-100
500
-110
0
0 0.005 0.01 0.015 0.02 0.025 0.03
Time (s)
Les résultats des expériences de vérification du locuteur sont effectués sur le corpus NIST
2000 [156], qui est composée de données de la parole téléphonique en utilisant le même
combiné avec des fichiers à un seul canal SPHERE, encodés en muLaw 8 bits et
échantillonnés à 8 kHz. Ces données de parole sont contribuées par 200 locuteurs cibles (120
hommes et 80 femmes). Pour chacun d'eux, cinq séquences de conversation d'environ 2
minutes de parole d’apprentissage, et 30 secondes de tests ont été sélectionnées. Les attaques
123
Chapitre 5: Résultats Expérimentaux et Discussions
k ( x, x ) e
2
x xi
i (5.1)
2
Dans la méthode de fusion des scores proposée, notre réseau de neurones MLP [150] ne
contient qu'une seule couche cachée, avec 100 unités (neurones) cachées qui sont ajustées sur
la base des valeurs d'erreur de validation, et une seule couche de sortie. Aussi notre MLP est
appris sur 1000 itérations.
124
Chapitre 5: Résultats Expérimentaux et Discussions
A DET plot
MFCC+d+dD+e: EER=1.84% .
40
MFCC: EER=1.94% .
PLP: EER=2.02% .
LPC: EER=2.10% .
20 LPCC: EER=2.32% .
Miss probability (in %)
10
0.5
0.2
0.1
(a)
A DET plot
LPCC: EER=3.97% .
40
PLP: EER=3.46% .
LPC: EER=3.67% .
MFCC: EER=3.21% .
20 MFCC+d+dD+e: EER=3.21% .
Miss probability (in %)
10
0.5
0.2
0.1
125
Chapitre 5: Résultats Expérimentaux et Discussions
0.5
0.2
0.1
(a)
10
0.5
0.2
0.1
(b)
Fig.5.14 Les courbes DET en utilisant les méthodes de fusion de scores avec: a) GMM-MAP, b) GMM-
SVM
126
Chapitre 5: Résultats Expérimentaux et Discussions
GMM-UBM+GMM-SVM: EER=0.87% .
40
20
0.5
0.2
0.1
Fig.5.15 La courbe DET en utilisant: l’approche de fusion des scores proposée entre GMM-UBM and GMM-
SVM
Discussion
Comme le montre Fig.5.13(a) et Fig. 5.13 (b), pour différentes valeurs de EER et le type de
paramètres, MFCCs avec leurs dérivées premières et secondes ainsi le paramètre de l'énergie
surpassent LPCs, PLPs et LPCCs dans les environnements contrôlés où les données de la
parole sont recueillies à partir des environnements raisonnablement calme. En outre, on
observe que GMM-UBM est plus performant que le GMM-SVM en termes de EER. Les
figures (voir Fig.5.14 (a) et Fig.5.14(b)) montrent que pour les différentes approches de
fusion des scores, la somme pondérée basée sur la fonction sigmoïde adaptée, a ‘EER’ plus
petite que les autres approches (EER = 1,79% avec GMM-UBM et EER = 3,06% avec GMM-
SVM). Les résultats mettent en évidence la complémentarité entre ces différents vecteurs
acoustiques, malgré le fait que toutes les caractéristiques acoustiques utilisées dans cette
expérience, portent des informations différentes de celles de MFCCs. Selon les résultats
présentés par la figure (voir Fig.5.15), on peut confirmer que la fusion des scores basée sur
notre méthode apporte des améliorations en termes de EER (EER = 0,87%) grâce à une fusion
entre les modèles GMM-UBM et GMM-SVM. Cela confirme notre hypothèse sur la
complémentarité qui existe entre les modèles.
127
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
On peut remarquer dans les tableaux 10 et 11 que malgré la diminution de la valeur SNR, le
PLP et MFCC avec ou sans leurs dérivées premières et secondes ainsi le paramètre d’énergie
sont plus robustes et précis dans des conditions bruitées que LPC et LPCC, soit avec GMM-
UBM (à SNR = 0 dB, EER = 13,49% sous le bruit babble, EER = 25.12% sous le bruit de
l'usine avec PLP et EER = 38.19% sous bruit blanc avec MFCCs ainsi leurs première et
second dérivées + énergie) ou avec GMM-SVM (à SNR = 0 dB, EER = 10,37% sous le bruit
babble avec MFCCs, EER = 24,49% sous le bruit de l'usine avec MFCCs ainsi leurs première
et second dérivées + énergie, et EER = 34,50% sous bruit blanc avec PLP) .Ceci peut être
expliqué par le fait que, ces techniques d'extraction de caractéristiques (MFCC et PLP)
utilisent les concepts de la psychophysique de l'oriel et la résolution spectrale des bandes
128
Chapitre 5: Résultats Expérimentaux et Discussions
critiques. En outre, on peut voir pour les deux modèles (GMM-UBM et GMM-SVM) (à SNR
= 0 dB et 5 dB), que les performances de différents paramètres acoustiques sont meilleures
sous le bruit babble que sous les bruits de l’usine et le bruit blanc. Cela a probablement dû au
fait que, le spectre de bruit babble est similaire à la parole de test par rapport à une certaine
forme de phonèmes qui sont mal représentés par GMM-UBM en l'absence de bruit.
Cependant, lorsque nous ajoutons un bruit babble à la parole de test, il est constaté que les
phonèmes de la parole de test qui sont similaires à ceux de bruit babble sont bien discriminés
par GMM-UBM. En comparant les résultats du tableau 10 pour GMM-UBM avec ceux du
tableau 11 pour les GMM-SVM, il est possible de voir que lorsque le SNR est supérieur à 10
dB, à l'exception de quelques cas dans le cas d'un bruit blanc, le GMM-UBM donne de
bonnes performances en termes de EER. Ceci peut être expliqué par la séparabilité linéaire
des caractéristiques issues à partir de différentes méthodes d'extraction dans des conditions de
faible bruit (SNR> = 10 dB). Par conséquent, la représentation gaussienne peut distinguer et
bien classer les locuteurs. Mais, les paramètres acoustiques deviennent non-linéairement
séparables (données qui se chevauchent) aux niveaux beaucoup plus élevés de bruit (SNR <10
dB). Donc, le GMM-SVM avec son noyau (RBF) a de meilleures performances que GMM-
UBM.
129
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
130
Chapitre 5: Résultats Expérimentaux et Discussions
babble: EER=6.16% .
40
factory: EER=16.44% .
white: EER=26.60% .
20
0.5
0.2
0.1
(a)
babble: EER=4.02% .
40
factory: EER=9.87% .
white: EER=26.18% .
20
Miss probability (in %)
10
0.5
0.2
0.1
(b)
131
Chapitre 5: Résultats Expérimentaux et Discussions
babble: EER=2.41% .
40
factory: EER=5.67% .
white: EER=18.42% .
20
0.5
0.2
0.1
(c)
babble: EER=1.57% .
40
factory: EER=2.98% .
white: EER=10.56% .
20
Miss probability (in %)
10
0.5
0.2
0.1
(d)
Fig.5.16 Les courbes DET de la fusion de GMM-UBM avec GMM-SVM à: a) SNR= 0 dB, b) SNR= 5 dB, c)
SNR= 10 dB et d) SNR= 15 dB
132
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
A partir des résultats montrés par la figure (voir Fig.5.16), il est observé que les performances
du système de vérification du locuteur sont très améliorées dans les environnements bruités (à
SNR = 0 dB, EER = 6,16% sous le bruit babble, EER = 16,44% sous le bruit de l'usine et
EER = 26,60% sous le bruit blanc) lorsque les performances de GMM-UBM sont fusionnées
avec celles de GMM-SVM. Ceci conclu que la robustesse du système de vérification du
locuteur dans des environnements bruités est meilleure en termes de EER, lorsque la fusion
des scores est appliquée entre les modèles qu’entre les scores des paramètres spectraux
utilisés pour chaque modèle seul.
133
Chapitre 5: Résultats Expérimentaux et Discussions
régression logistique est appliquée à leurs scores. Fig.5.17. illustre les courbes DET des 15
systèmes de vérification dans un environnement calme.
DET plot
50
sys1 (MFCC)
sys2 (Asy-MFCC (k=-2.21))
40
sys3 (Asy-MFCC (k=-1.41))
sys4 (Asy-MFCC (k=2.31))
30 sys5 (Asy-MFCC (k=4))
sys6 (PCA-GMM-UBM) MFCC
sys7 (PCA-GMM-UBM)Asy-MFCC (k=-2.21)
20 sys8 (PCA-GMM-UBM)Asy-MFCC (k=-1.41)
sys9 (PCA-GMM-UBM)Asy-MFCC (k=2.31)
sys10 (PCA-GMM-UBM)Asy-MFCC (k=4)
sys11 (LDA-GMM-UBM) MFCC
Miss probability (in %)
10
sys12 (LDA-GMM-UBM)Asy-MFCC (k=-2.21)
sys13 (LDA-GMM-UBM)Asy-MFCC (k=-1.41)
sys14 (LDA-GMM-UBM)Asy-MFCC (k=2.31)
5 sys15 (LDA-GMM-UBM)Asy-MFCC (k=4)
fusion 1+2+3+4+5+6+7+8+9+10+11+12+13+14+15
0.5
0.2
0.1
Fig.5.17 les courbes DET de tous les systèmes sous l’environnement calme
Discussion
D'après la figure (voir Fig.5.17), il est observé que les performances de MFCCs basés sur les
fenêtres asymétriques surpassent celles de MFCCs basés sur la fenêtre de Hamming en termes
de EER, en particulier lorsque les fenêtres asymétriques sont considérées comme filtre passe-
bas (k = -2,21), parce que dans les conditions non bruitées, l'information utile dans la parole
existe dans les basses fréquences. En outre, on peut observer à partir de la même figure que
lorsque nous avons projeté les vecteurs caractéristiques dans les espaces de PCA et LDA, une
amélioration importante de l'EER est observée, surtout quand MFCCs basés sur les fenêtres
asymétriques sont utilisés. Cette amélioration peut être expliquée par le fait que, GMM-UBM
qui est utilisé comme le modèle d’apprentissage dans le présent travail, utilise la matrice de
covariance diagonale pour chaque gaussienne, et cette hypothèse est satisfaite par le
partitionnement obtenu par la projection des vecteurs caractéristiques dans les espaces PCA
et LDA. Autrement dit, avec la projection des paramètres spectraux dans les espaces propre
de PCA et LDA, la matrice de covariance de nouveaux paramètres dans l’espace de
projection, devient diagonale et elle contient toute l’information présentée par les nouveaux
paramètres. Parce que ces deux techniques (PCA et LDA) assurent une dé-corrélation entre
les paramètres dans l'espace de projection, par diagonalisation de leurs matrices de
134
Chapitre 5: Résultats Expérimentaux et Discussions
covariance. Donc pour cette raison, les performances de GMM-UBM apparaissent plus
performantes lorsque les paramètres sont précédés par une projection PCA et LDA. En outre,
il est constaté que lorsque les scores de tous les systèmes sont calibrés et fusionnés, en
utilisant la fonction linéaire de fusion à base de la régression logistique comme décrit dans
bosaristoolkit, le EER est devenue beaucoup plus petite que les systèmes sans fusion, ce
résultat confirme les résultats obtenus dans [158]. Malgré le fait que toutes les caractéristiques
étudiées portent une information très proche de MFCC, les résultats mettent en évidence la
complémentarité existante entre les différents paramètres. Ceci, nous conduit à confirmer que
la diversité frontale peut être atteinte à travers les différents «partitionnements» de l'espace
acoustique modélisé par le GMM-UBM [70].
Tableau 14 Comparaison des performances de vérification du locuteur en termes de EER (%) de tous les
systèmes dans un environnement bruité
Systèmes Bruit Babble Bruit de l’Usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 36.13 26.47 16.15 8.35 42.59 36.13 23.40 12.88
GMM-UBM (Asy-MFCC ,k=-2.21) 33.25 20.63 8.31 3.12 42.46 35.04 22.80 10.25
GMM-UBM (Asy-MFCC ,k=-1.41) 34.86 23.86 12.68 5.52 43.47 36.49 24.56 9.09
GMM-UBM (Asy-MFCC ,k=2.31) 30.93 19.12 8.59 3.13 40.37 35.16 19.08 6.61
GMM-UBM (Asy-MFCC ,k=4) 31.06 17.56 5.44 1.86 41.96 31.46 16.93 7.57
PCA-GMM-UBM (MFCC) 36.08 27.67 17.32 6.94 44.03 35.17 24.51 11.68
PCA-GMM-UBM (Asy-MFCC ,k=-2.21) 37.89 31.35 22.67 13.42 43.03 35.78 26.46 15.64
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 35.77 24.30 11.27 4.00 42.57 36.10 22.65 8.45
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 35.45 23.92 11.42 3.99 43.79 36.22 21.37 9.15
PCA-GMM-UBM (Asy-MFCC ,k=4) 35.45 20.78 8.13 2.76 42.77 36.87 21.41 9.26
LDA-GMM-UBM (MFCC) 36.00 23.74 12.26 4.00 41.90 34.16 21.13 8.35
LDA-GMM-UBM(Asy-MFCC,k=-2.21) 36.00 23.74 12.26 4.00 41.70 34.16 21.13 8.35
LDA-GMM-UBM(Asy-MFCC,k=1.41) 34.52 25.10 12.20 5.15 43.13 33.86 23.08 9.23
LDA-GMM-UBM(Asy-MFCC,k=2.31) 34.85 23.50 11.71 3.95 43.63 34.20 23.33 9.81
LDA-GMM-UBM (Asy-MFCC ,k=4) 32.37 19.14 8.21 3.09 42.20 34.01 21.48 8.45
Fusion de tous les systèmes 27.59 13.61 4.20 0.91 31.12 28.48 15.62 4.41
135
Chapitre 5: Résultats Expérimentaux et Discussions
Tableau 15 Comparaison des performances de vérification du locuteur en termes de minDCF de tous les systèmes
dans un environnement bruité
Systèmes Bruit Babble Bruit de l’Usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 0.76 0.52 0.35 0.18 0.99 0.86 0.62 0.32
GMM-UBM (Asy-MFCC ,k=-2.21) 0.74 0.51 0.23 0.08 1.00 0.91 0.59 0.29
GMM-UBM (Asy-MFCC ,k=-1.41) 0.77 0.50 0.31 0.14 1.00 0.89 0.65 0.24
GMM-UBM (Asy-MFCC ,k=2.31) 0.69 0.44 0.22 0.09 0.97 0.82 0.53 0.19
GMM-UBM (Asy-MFCC ,k=4) 0.74 0.41 0.14 0.05 0.98 0.79 0.47 0.22
PCA-GMM-UBM (MFCC) 0.80 0.55 0.36 0.18 1.00 0.85 0.60 0.28
PCA-GMM-UBM(Asy-MFCC,k=-2.21) 0.82 0.61 0.44 0.32 0.98 0.91 0.63 0.36
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 0.80 0.54 0.27 0.10 0.99 0.89 0.59 0.22
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 0.82 0.54 0.29 0.11 0.98 0.89 0.57 0.22
PCA-GMM-UBM (Asy-MFCC ,k=4) 0.79 0.50 0.22 0.07 0.99 0.85 0.60 0.27
LDA-GMM-UBM (MFCC) 0.82 0.54 0.27 0.11 0.99 0.87 0.57 0.22
LDA-GMM-UBM (Asy-MFCC ,k=-2.21) 0.82 0.54 0.27 0.11 0.99 0.87 0.57 0.22
LDA-GMM-UBM (Asy-MFCC ,k=-1.41) 0.80 0.57 0.29 0.12 0.98 0.84 0.57 0.24
LDA-GMM-UBM (Asy-MFCC ,k=2.31) 0.81 0.54 0.31 0.11 0.99 0.87 0.58 0.25
LDA-GMM-UBM (Asy-MFCC ,k=4) 0.79 0.50 0.21 0.08 0.92 0.87 0.57 0.24
Fusion de tous les systèmes 0.63 0.33 0.12 0.02 0.89 0.76 0.42 0.12
Tableau 16 Comparaison des performances de vérification du locuteur en terme de actDCF de tous les systèmes
dans un environnement bruité
Systèmes Bruit Babble Bruit de l’usine
SNR (dB) SNR (dB)
0 5 10 15 0 5 10 15
GMM-UBM (MFCC) 1.00 1.00 0.82 0.52 1.00 1.00 0.99 0.82
GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.85 0.63 1.00 1.00 1.00 0.93
GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 0.99 0.84 0.58 1.00 1.00 1.00 0.81
GMM-UBM (Asy-MFCC ,k=2.31) 1.00 0.99 0.73 0.45 1.00 1.00 1.00 0.80
GMM-UBM (Asy-MFCC ,k=4) 1.00 0.98 0.64 0.47 1.00 1.00 1.00 0.83
PCA-GMM-UBM (MFCC) 1.00 1.00 0.79 0.50 1.00 1.00 1.00 0.85
PCA-GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.99 0.67 1.00 1.00 1.00 0.92
PCA-GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 1.00 0.68 0.38 1.00 1.00 0.99 0.77
PCA-GMM-UBM (Asy-MFCC ,k=2.31) 1.00 1.00 0.77 0.42 1.00 1.00 1.00 0.84
PCA-GMM-UBM (Asy-MFCC ,k=4) 1.00 1.00 0.76 0.29 1.00 1.00 1.00 0.85
LDA-GMM-UBM (MFCC) 1.00 1.00 0.78 0.35 1.00 1.00 1.00 0.80
LDA-GMM-UBM (Asy-MFCC ,k=-2.21) 1.00 1.00 0.78 0.35 1.00 1.00 1.00 0.80
LDA-GMM-UBM (Asy-MFCC ,k=-1.41) 1.00 1.00 0.76 0.40 1.00 1.00 1.00 0.76
LDA-GMM-UBM (Asy-MFCC ,k=2.31) 1.00 1.00 0.85 0.40 1.00 1.00 1.00 0.82
LDA-GMM-UBM (Asy-MFCC ,k=4) 1.00 1.00 0.76 0.32 1.00 1.00 1.00 0.89
Fusion de tous les systèmes 0.65 0.38 0.15 0.03 0.97 0.83 0.46 0.16
136
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
D'après les résultats donnés par les tableaux 14-16, on observe que malgré la dégradation des
performances du système de vérification lorsque SNR diminue, les MFCCs basés sur les
fenêtres asymétriques (filtre passe-haut) apportent une amélioration en termes de EER,
minDCF et actDCF sous les deux types de bruits. Cependant, une dégradation importante des
performances de tous les systèmes lorsque PCA et LDA sont appliquées aux caractéristiques
spectrales. Ceci peut être expliqué par le fait que, selon des études récentes [159], la moyenne
et la variance de la parole corrompue (même les statistiques d'ordre élevé) change
radicalement dans le bruit par rapport à celles estimées dans un environnement calme. Ceci
est pourquoi; PCA et LDA ne fournissent pas de bons résultats dans un environnement bruité.
En outre, il est constaté que la méthode linéaire de fusion des scores, apporte une amélioration
importante en termes des performances du système de vérification du locuteur dans des
conditions diverses. Cela signifie que cette technique de fusion des scores est intéressante et
prometteuse, pour améliorer la robustesse du système de vérification en vertu des applications
réalistes.
137
Chapitre 5: Résultats Expérimentaux et Discussions
partir de l'environnement contrôlé (données propres). Figure (voir Fig.5.18) illustre les
courbes DET des 2 systèmes de vérification dans un environnement calme.
40 MFCC: EER=0.10% .
Asy-taper (k=-2.21): EER=0.50% .
Asy-taper (k=-1.41): EER=0.22% .
20 Asy-taper (k=2.31): EER=0.49% .
False Negative Rate (FNR) [%]
2
1
0.5
0.2
0.1
0.05
0.02
0.01
0.01
0.020.050.10.2 0.5 1 2 5 10 20 40
False Positive Rate (FPR) [%]
(a)
40 MMGDC: EER=0.035% .
Asy-taper (k=-2.21): EER=0.053% .
Asy-taper (k=-1.41): EER=0.035% .
20 Asy-taper (k=2.31): EER=0.12% .
False Negative Rate (FNR) [%]
2
1
0.5
0.2
0.1
0.05
0.02
0.01
0.01
0.020.050.10.2 0.5 1 2 5 10 20 40
False Positive Rate (FPR) [%]
(b)
Fig.5.18 les courbes DET en utilisant : a) MFCCs avec leurs extensions et b) MODGDCs s avec leurs extensions
138
Chapitre 5: Résultats Expérimentaux et Discussions
Discussion
D’après la figure (voir Fig.5.18), on constate que les performances de vérification du locuteur
en utilisant MFCCs et MODGDCs à base de la fenêtre de Hamming, surpassent celles de
MFC et MODGDCs avec leurs extensions asymétriques en termes de EER (MFCC: EER =
0,10% et MODGDCs: EER = 0,035 %). En outre, il est observé à partir de même figure que
MODGDCs et MODGDCs avec leurs extensions asymétriques donnent de meilleurs résultats
que MFCCs et MODGDCs avec leurs extensions asymétriques. Ceci peut être expliqué par le
fait que, les caractéristiques du retard de groupe modifié (MODGDCs) extraites de la phase
du signal de parole, donnent une meilleures résolution des formants d'ordre supérieur dans les
régions de hautes fréquences, qui sont importants pour discriminer les locuteurs que MFCCs
extraits du spectre d'amplitude (voir Fig.5.19).
0.14
FFT spectrum
MGD spectrum
0.12
0.1
0.08
Amplitude
0.06
0.04
0.02
0
0 500 1000 1500 2000 2500 3000 3500 4000
Frequency (Hz)
Fig.5.19 Représentation spectrale d’une trame de parole non bruitée de durée de 30 ms, en utilisant la
transformée de Fourier et les fonctions du retard de groupe
139
Chapitre 5: Résultats Expérimentaux et Discussions
Tableau 17 Comparaison des performances de vérification du locuteur en termes de EER (%), quand en
utilisant MFCCs et leur extensions asymétriques dans un environnement bruité
Hamming Asy-taper Asy-taper Asy-taper Asy-taper
Bruit SNR(dB) taper (k=-2.21) (k=-1.41) (k=2.31) (k=4)
Babble 15 14.21 6.15 10.17 6.71 2.97
10 19.09 11.01 15.18 12.81 6.78
5 24.53 16.79 20.72 19.67 12.03
0 30.40 23.24 26.13 25.62 20.22
Usine 15 13.51 7.41 14.49 8.66 4.14
10 20.85 13.55 15.70 14.21 9.42
5 26.59 21.98 22.11 21.85 16.95
0 32.91 30.60 28.57 29.27 27.13
Blanc 15 17.15 21.07 17.52 16.45 17.83
10 26.13 28.76 27.10 24.87 27.01
5 33.66 35.59 33.27 33.42 34.01
0 40.95 40.63 39.99 39.73 40.39
Tableau 18 Comparaison des performances de vérification du locuteur en termes de EER (%), quand en
utilisant MGDCs et leur extensions asymétriques dans un environnement bruité
Hamming Asy-taper Asy-taper Asy-taper Asy-taper
Bruit SNR(dB) taper (k=-2.21) (k=-1.41) (k=2.31) (k=4)
Babble 15 13.75 7.53 9.67 6.53 2.81
10 18.98 11.52 14.57 11.48 6.05
5 23.61 16.96 20.62 16.92 11.83
0 30.27 22.57 25.75 24.75 18.96
Usine 15 13.07 9.89 10.80 7.66 4.02
10 19.39 15.25 15.20 13.81 8.74
5 26.25 21.89 21.35 20.60 16.33
0 31.78 28.69 28.02 28.54 26.63
Blanc 15 14.32 15.07 14.86 16.33 16.79
10 22.64 22.86 22.80 23.37 25.97
5 30.02 30.40 29.87 33.23 29.76
0 36.35 36.38 36.23 38.69 35.88
Discussion
D'après les résultats donnés par les tableaux 17, et 18, on observe que MFCC et MODGDCs
avec leurs extensions asymétriques (k = 4) apportent une amélioration en termes de EER
qu’avec la fenêtre de Hamming. Ceci s’explique par le fait que, les fenêtres asymétriques
fournissent une meilleure réponse en amplitude dans des conditions perturbées que la fenêtre
de Hamming. Les figures (voir Fig.5.8 et Fig.5.9), montrent que les fenêtres asymétriques
montrent moins du bruit dans les spectrogrammes que la fenêtre de Hamming. Cela signifie
que les fenêtres asymétriques réduisent sensiblement la présence de bruit dans le signal de
parole bruitée, en réduisant les variations indésirables de l’enveloppe spectrale dues au bruit
additif. En outre, il est remarqué à partir des résultats donnés par les mêmes tableaux
précédents, que les performances de vérification du locuteur sont meilleures quand
MODGDCs sont adoptés que MODGDCs. Cela est dû au fait que pour MODGDCs et dans la
région des hautes fréquences, les formants d’ordre supérieur sont moins déformés en présence
de bruit que pour MFCCs.
140
Chapitre 5: Résultats Expérimentaux et Discussions
5.4. Conclusion
141
Conclusion Générale et
Perspectives
Conclusion Générale et Perspectives
L’objectif de notre travail était d’évaluer l’apport des méthodes de fusion de paramètres et de
modèles au niveau scores dans l’amélioration des performances des systèmes de
reconnaissance automatique de locuteurs (RAL) en milieu réel, représenté souvent par un
environnement acoustique fortement dégradé. En effet, la détermination des caractéristiques
physiques discriminant un locuteur d'un autre est une tâche très difficile, notamment en
environnement adverse.
Pour cela, nous avons élaboré un système de reconnaissance automatique du locuteur, en
mode indépendant du texte, dont la partie reconnaissance repose sur des modèles statistiques
comme GMM-UBM, et des modèles statistiques-discriminatifs comme GMM-SVM (ou
SVMs utilisent la fonction noyau radial, en particulier l’approche SVMmulticlass ).
L’application a porté sur l’utilisation des bases de données sonores TIMIT et NIST 2000, d’où
ont été extraits les vecteurs acoustiques MFCC, LFCC, LPC, LPCC, PLP et RAST-PLP. Nous
avons également étudié l’apport de fusion des paramètres d’entrées sur la reconnaissance de
locuteurs, notamment en environnement acoustique dégradé. Ce dernier a été simulé par trois
situations : bruit de chahut dans un restaurant (speech babble), bruit d’usine (factory noise) et
bruit blanc (white noise) issus de la base de données bruitée NOISEX’92, avec des niveaux
SNR échelonnés de 0 à 15dB.
Une difficulté majeure pour la mise en application d’un système RAL, est liée à l’extraction
des vecteurs caractéristiques qui représentent mieux le locuteur dans un environnement
fortement bruité. Pour cela, nous avons d’abord proposé dans cette thèse des extensions pour
les paramètres classiques MFCCs, en utilisant le fenêtrage asymétrique (fenêtres
asymétriques) dans la chaine d’extraction au lieu de la fenêtre Hamming. Ensuite, nous avons
présenté deux nouvelles méthodes de fusion de scores linéaires adaptatives, basées sur la
somme pondérée et la somme pondérée combinée avec la fonction sigmoïde et réseau de
neurones MLP, afin de calibrer et éliminer les valeurs aberrantes existantes dans les scores
bruités (en raison de bruit additif). Dans les deux approches proposées, l’idée clé est
d’intégrer l’erreur (EER) de vérification du locuteur estimée pour chaque vecteur de scores
de chaque système, obtenu en environnement calme ou bruité pour être adaptatives au bruit.
De plus, nous avons intégré le réseau de neurones MLP à l'intérieur dans l'une de nos
approches de fusion des scores, afin d'améliorer les performances en réduisant l’écart entre les
142
Conclusion Générale et Perspectives
la première observation que nous pouvons faire est que toutes les contributions,
présentées dans ce document, ont été évaluées dans un cadre simulé. Une phase de
validation en conditions réelles de fonctionnement est encore nécessaire.
Dans le futur, nous envisagerons aussi d’acquérir la base de donnée NIST 2008, 2010
et 2012 qui constitue un corpus de taille suffisante, est suffisamment significative en
termes de l’effet du canal de transmission et surtout la durée des conversations
téléphoniques, pour être ensuite utilisée dans différentes applications à savoir; l’étude
de l’effet du canal sur les performances de système vérification du locuteur, en
utilisant les modèles de l'analyse conjointe de facteur (JFA) et I-vecteurs.
L'intégration d’autres modalités comme ; l’iris et le visage dans le système RAL, afin
de concevoir un système biométrique multimodales.
143
Bibliographie
[1] Kinnunen, T., Karpov, E., & Franti, P. (2006). Real-time speaker identification and
verification. Audio, Speech, and Language Processing, IEEE Transactions on, 14(1),
277-288.
[2] Derycke, A., & Rouillard, J. (2002, November). La personnalisation de I'interaction dans
des contextes multimodaux et multicanaux: une première approche pour le commerce
electronique. In Proceedings of the 14th French-speaking conference on Human-
computer interaction (Conférence Francophone sur l'Interaction Homme-Machine) (pp.
97-104). ACM.
[3] Pernkopf, F., & Bouchaffra, D. (2005). Genetic-based EM algorithm for learning Gaussian
mixture models. Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 27(8), 1344-1348.
[4] Archambeau, C., Lee, J. A., & Verleysen, M. (2003, April). On Convergence Problems of
the EM Algorithm for Finite Gaussian Mixtures. In ESANN (Vol. 3, pp. 99-106).
[5] Hautamaki, V., Kinnunen, T., Karkkainen, I., Saastamoinen, J., Tuononen, M., & Franti,
P. (2008). Maximum a posteriori adaptation of the centroid model for speaker
verification. Signal Processing Letters, IEEE, 15, 162-165.
[6] Kotnik, B., Vlaj, D., Kacic, Z., & Horvat, B. (2002, September). Robust MFCC feature
extraction algorithm using efficient additive and convolutional noise reduction
procedures. In ICSLP (Vol. 2, pp. 445-448).
[7] Kumar, P., Biswas, A., Mishra, A. N., & Chandra, M. (2010). Spoken language
identification using hybrid feature extraction methods. arXiv preprint arXiv:1003.5623.
[8] Akhtar, M. I. (2012). Speaker Recognition in Noisy Environment. International Journal of
Advanced Research in Computer Science and Electronics Engineering
(IJARCSEE), 1(4), pp-52.
[9] Zhonghua, F., & Rongchun, Z. (2003, December). An overview of modeling technology
of speaker recognition. In Neural Networks and Signal Processing, 2003. Proceedings of
the 2003 International Conference on (Vol. 2, pp. 887-891). IEEE.
[10] Wang, N., Ching, P. C., Zheng, N., & Lee, T. (2011). Robust speaker recognition using
denoised vocal source and vocal tract features. Audio, Speech, and Language
Processing, IEEE Transactions on, 19(1), 196-205.
[11] Zhao, X., Shao, Y., & Wang, D. (2012). CASA-based robust speaker
identification. Audio, Speech, and Language Processing, IEEE Transactions on, 20(5),
1608-1616.
[12] Falk, T. H., & Chan, W. Y. (2010). Modulation spectral features for robust far-field
speaker identification. Audio, Speech, and Language Processing, IEEE Transactions
on, 18(1), 90-100.
[13] Wang, L., & Nakagawa, S. (2009). Speaker identification/verification for reverberant
speech using phase information. Proc. WESPAC, (0130), 8.
[14] Deller, J. R., Proakis, J. G., & Hansen, J. H. (2000). Discrete-time processing of speech
signals (pp. 516-553). New York, NY, USA:: IEEE.
[15] Narasimhan, S. V., & Pavanalatha, S. (2004). Estimation of evolutionary spectrum based
on short time Fourier transform and modified group delay.Signal Processing, 84(11),
2139-2152.
[16] You, C. H., Lee, K. A., & Li, H. (2010). GMM-SVM kernel with a Bhattacharyya-based
distance for speaker recognition. Audio, Speech, and Language Processing, IEEE
Transactions on, 18(6), 1300-1312.
144
[17] Asbai, N., Bengherabi, M., Harizi, F., & Amrouche, A. (2014). Effect of the Front-End
Processing on Speaker Verification Performance Using PCA and Scores Level Fusion.
In E-Business and Telecommunications (pp. 359-368). Springer Berlin Heidelberg.
[18] Fierrez-Aguilar, J., Garcia-Romero, D., Ortega-Garcia, J., & Gonzalez-Rodriguez, J.
(2005). Speaker verification using adapted user-dependent multilevel fusion.
In Multiple Classifier Systems (pp. 356-365). Springer Berlin Heidelberg.
[19] Mak, M. W., & Yu, H. B. (2014). A study of voice activity detection techniques for
NIST speaker recognition evaluations. Computer Speech & Language, 28(1), 295-313.
[20] Mak, M. W., Allen, W. G., & Sexton, G. G. (1994). Speaker identification using
multilayer perceptrons and radial basis function networks. Neurocomputing, 6(1), 99-
117.
[21] Fitch W.T., Reby D. (2001) « The descended larynx is not uniquely human », Proc Biol
Sci, 268, 1669-75.
[22] Deviren, M. (2004). Systemes de reconnaissance de la parole revisités: Réseaux
Bayesiens dynamiques et nouveaux paradigmes. Unpublished PhD thesis, Université
Henri Poincaré, Nancy.
[23] Watkins, K. E., Strafella, A. P., & Paus, T. (2003). Seeing and hearing speech excites
the motor system involved in speech production. Neuropsychologia, 41(8), 989-994.
[24] Folland N.A., Butler B.E., Smith N.A., Trainor L.J. (2012) « Processing simultaneous
auditory objects : infants’ ability to detect mistuning in harmonic complexes », J Acoust
Soc Am, 131, 993-7.
[25] Ferrand, L. (1994). Accès au lexique et production de la parole: un survol. L'année
psychologique, 94(2), 295-311.
[26] Dell, G. S., & Reich, P. A. (1981). Stages in sentence production: An analysis of speech
error data. Journal of verbal learning and verbal behavior, 20(6), 611-629.
[27] Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production.
Psychological review, 93(3), 283.
[28] Dell, G. S. (1988). The retrieval of phonological forms in production: Tests of
predictions from a connectionist model. Journal of memory and language, 27(2), 124-
142.
[29] Davis, H., & Silverman, S. R. (1970). Hearing and deafness. Holt, Rinehart & Winston
of Canada Ltd.
[30] Fletcher, H., & Munson, W. A. (1933). Loudness, Its Definition, Measurement and
Calculation*. Bell System Technical Journal, 12(4), 377-430.
[31] Zwicker, E., Feldlkeller, R., & Bosquet, J. (1982). Psychoacoustique L’oreille, récepteur
d’information. Annals of Telecommunications, 37(1), 110-111.
[32] Richard, G. (2003). Traitement de la parole. Brique PAMU, Module PAROL, ENST
Télécom Paris, 2004.
[33] Calliope (Firm). (1989). La parole et son traitement automatique. Masson.
[34] Boëffard, O., & d’Alessandro, C. (2002). Synthèse de la parole. Analyse, Synthèse et
Codage de la Parole, J. Mariani, Ed. Hermes, Lavoisier, Paris.
[35] Shannon, C. E. (1949). Communication in the presence of noise. Proceedings of the
IRE, 37(1), 10-21.
[36] Grenier, Y., Bry, K., Le Roux, J., & Sulpis, M. (1981, April). Autoregressive models for
noisy speech signals. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP'81. (Vol. 6, pp. 1093-1096). IEEE.
[37] Hermansky, H., Morgan, N., & Hirsch, H. G. (1993, April). Recognition of speech in
additive and convolutional noise based on RASTA spectral processing. In Acoustics,
Speech, and Signal Processing, IEEE International Conference on (Vol. 2, pp. 83-86).
IEEE.
145
[38] Ehlers, F., & Schuster, H. G. (1997). Blind separation of convolutive mixtures and an
application in automatic speech recognition in a noisy environment.IEEE Transactions
on Signal processing, 45(10), 2608-2612.
[39] Hermansky, H., & Sharma, S. (1999, March). Temporal patterns (TRAPS) in ASR of
noisy speech. In Acoustics, Speech, and Signal Processing, 1999. Proceedings., 1999
IEEE International Conference on (Vol. 1, pp. 289-292). IEEE.
[40] Shannon, C. E. (2001). A mathematical theory of communication. ACM SIGMOBILE
Mobile Computing and Communications Review, 5(1), 3-55..
[41] Treurniet, W. C., & Gong, Y. (1994, April). Noise independent speech recognition for a
variety of noise types. In Acoustics, Speech, and Signal Processing, 1994. ICASSP-94.,
1994 IEEE International Conference on (Vol. 1, pp. I-437). IEEE.
[42] Hellwarth, G., & Jones, G. (1968). Automatic conditioning of speech signals.Audio and
Electroacoustics, IEEE Transactions on, 16(2), 169-179.
[43] Chen, J., Paliwal, K. K., & Nakamura, S. (2001, September). Sub-band based additive
noise removal for robust speech recognition. In Interspeech (pp. 571-574).
[44] Vaseghi, S. V., & Milner, B. P. (1995, May). Speech recognition in impulsive noise.
In Acoustics, Speech, and Signal Processing, 1995. ICASSP-95., 1995 International
Conference on (Vol. 1, pp. 437-440). IEEE.
[45] Boyer, A., Di Martino, J., Divoux, P., Haton, J. P., Mari, J. F., & Smaïli, K. (1990).
Statistical methods in multi‐speaker automatic speech recognition. Applied Stochastic
Models and Data Analysis, 6(3), 143-155.
[46] Choi, S., Hong, H., Glotin, H., & Berthommier, F. (2002). Multichannel signal
separation for cocktail party speech recognition: A dynamic recurrent
network.Neurocomputing, 49(1), 299-314.
[47] Denbigh, P. N., & Luo, H. Y. (1994). An algorithm for separating overlapping voices.
In Techniques for Speech Processing and their Application, IEE Colloquium on (pp. 9-
1). IET.
[48] Noll, A. M. (1964). Short‐Time Spectrum and ―Cepstrum‖ Techniques for Vocal‐Pitch
Detection. The Journal of the Acoustical Society of America, 36(2), 296-302.
[49] Harris, F. J. (1978). On the use of windows for harmonic analysis with the discrete
Fourier transform. Proceedings of the IEEE, 66(1), 51-83.
[50] Rozman, R., & Kodek, D. M. (2007). Using asymmetric windows in automatic speech
recognition. Speech communication, 49(4), 268-276.
[51] Morales-Cordovilla, J. A., Sánchez, V., Gómez, A. M., & Peinado, A. M. (2012). On the
use of asymmetric windows for robust speech recognition. Circuits, Systems, and Signal
Processing, 31(2), 727-736.
[52] Blanchet, G., & Charbit, M. (1998). Traitement numérique du signal. Techniques de
l'ingénieur. Electronique, 3(E3087), 1-30.
[53] Furui, S. (1981). Cepstral analysis technique for automatic speaker
verification.Acoustics, Speech and Signal Processing, IEEE Transactions on, 29(2),
254-272.
[54] Fant, G. (1971). Acoustic theory of speech production: with calculations based on X-ray
studies of Russian articulations (Vol. 2). Walter de Gruyter.
[55] Kinnunen, T., & Li, H. (2010). An overview of text-independent speaker recognition:
from features to supervectors. Speech communication, 52(1), 12-40.
[56] Atal, B. S., & Schroeder, M. R. (1978). Linear prediction analysis of speech based on a
pole‐zero representation. The Journal of the Acoustical Society of America, 64(5),
1310-1318.
146
[57] Yujin, Y., Peihua, Z., & Qun, Z. (2010, October). Research of speaker recognition based
on combination of LPCC and MFCC. In Intelligent Computing and Intelligent Systems
(ICIS), 2010 IEEE International Conference on (Vol. 3, pp. 765-767). IEEE.
[58] Hermansky, H. (1990). Perceptual linear predictive (PLP) analysis of speech.the Journal
of the Acoustical Society of America, 87(4), 1738-1752.
[59] Markel, J. E., & Gray, A. H. (1982). Linear prediction of speech. Springer-Verlag New
York, Inc..
[60] Wijoyo, T. S. (2011). Speech recognition using linear predictive coding and artificial
neural network for controlling movement of mobile robot. InProceedings of
International Conference on Information and Electronics Engineering (ICIEE 2011).
[61] Yegnanarayana, B., Saikia, D., & Krishnan, T. (1984). Significance of group delay
functions in signal reconstruction from spectral magnitude or phase.Acoustics, Speech
and Signal Processing, IEEE Transactions on, 32(3), 610-623.
[62] Alsteris, L. D., & Paliwal, K. K. (2007). Short-time phase spectrum in speech processing:
A review and some experimental results. Digital Signal Processing,17(3), 578-616.
[63] Tribolet, J. (1977). A new phase unwrapping algorithm. IEEE Transactions on Acoustics
Speech and Signal Processing, 25(2), 170-177.
[64] Murthy, H. A., & Yegnanarayana, B. (1991). Formant extraction from group delay
function. Speech communication, 10(3), 209-221.
[65] Yegnanarayana, B., & Murthy, H. A. (1992). Significance of group delay functions in
spectrum estimation. Signal Processing, IEEE Transactions on,40(9), 2281-2289.
[66] Hegde, R. M., Murthy, H. A., & Gadde, V. R. R. (2007). Significance of the modified
group delay feature in speech recognition. Audio, Speech, and Language Processing,
IEEE Transactions on, 15(1), 190-202.
[67] Zhu, D., & Paliwal, K. K. (2004, May). Product of power spectrum and group delay
function for speech recognition. In Acoustics, Speech, and Signal Processing, 2004.
Proceedings.(ICASSP'04). IEEE International Conference on(Vol. 1, pp. I-125). IEEE.
[68] Hegde, R. M., Murthy, H. A., & Gadde, V. R. R. (2007). Significance of joint features
derived from the modified group delay function in speech processing.EURASIP Journal
on Audio, Speech, and Music Processing, 2007(1), 5-5.
[69] Murthy, H. A., & Gadde, V. (2003, April). The modified group delay function and its
application to phoneme recognition. In Acoustics, Speech, and Signal Processing, 2003.
Proceedings.(ICASSP'03). 2003 IEEE International Conference on (Vol. 1, pp. I-68).
IEEE.
[70] Reynolds, D. (2002). An overview of automatic speaker recognition. In Proceedings of
the International Conference on Acoustics, Speech and Signal Processing (ICASSP)(S.
4072-4075).
[71] Reynolds, D. A. (1995). Speaker identification and verification using Gaussian mixture
speaker models. Speech communication, 17(1), 91-108.
[72] Reynolds, D. A., & Rose, R. C. (1995). Robust text-independent speaker identification
using Gaussian mixture speaker models. Speech and Audio Processing, IEEE
Transactions on, 3(1), 72-83.
[73] Atal, B. S. (1976). Automatic recognition of speakers from their voices.Proceedings of
the IEEE, 64(4), 460-475.
[74] Doddington, G. R. (1985). Speaker recognition—Identifying people by their
voices. Proceedings of the IEEE, 73(11), 1651-1664.
[75] Brümmer, N., & du Preez, J. (2006). Application-independent evaluation of speaker
detection. Computer Speech & Language, 20(2), 230-275.
147
[76] Hagen, R., & Hedelin, P. (1993, April). Robust vector quantization in spectral coding.
In Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE
International Conference on (Vol. 2, pp. 13-16). IEEE.
[77] Reynolds, D. A., Quatieri, T. F., & Dunn, R. B. (2000). Speaker verification using
adapted Gaussian mixture models. Digital signal processing, 10(1), 19-41.
[78] Chaudhari, U. V., Navrátil, J., & Maes, S. H. (2003). Multigrained modeling with pattern
specific maximum likelihood transformations for text-independent speaker
recognition. Speech and Audio Processing, IEEE Transactions on,11(1), 61-69.
[79] Nwe, T. L., Foo, S. W., & De Silva, L. C. (2003). Speech emotion recognition using
hidden Markov models. Speech communication, 41(4), 603-623.
[80] Lauri, F. (2004). Adaptation au locuteur de modèles acoustiques markoviens pour la
reconnaissance automatique de la parole (Doctoral dissertation), Thèse de doctorat,
2004. Université Nancy 1).
[81] Smola, A. J., & Schölkopf, B. (2004). A tutorial on support vector regression.Statistics
and computing, 14(3), 199-222.
[82] Campbell, W. M., Sturim, D. E., & Reynolds, D. A. (2006). Support vector machines
using GMM supervectors for speaker verification. Signal Processing Letters,
IEEE, 13(5), 308-311.
[83] Campbell, W. M., Sturim, D. E., Reynolds, D. A., & Solomonoff, A. (2006, May). SVM
based speaker verification using a GMM supervector kernel and NAP variability
compensation. In Acoustics, Speech and Signal Processing, 2006. ICASSP 2006
Proceedings. 2006 IEEE International Conference on (Vol. 1, pp. I-I). IEEE.
[84] Vapnik, V. N., & Vapnik, V. (1998). Statistical learning theory (Vol. 2). New York:
Wiley.
[85] Vapnik, V. N., & Chervonenkis, A. J. (1974). Theory of pattern recognition.
[86] Perronnin, F., & Dugelay, J. L. (2002). Introduction à la biométrie-Authentification des
individus par traitement audio-vidéo. Traitement du signal,19(4).
[87] Doddington, G. R., Przybocki, M. A., Martin, A. F., & Reynolds, D. A. (2000). The
NIST speaker recognition evaluation–Overview, methodology, systems, results,
perspective. Speech Communication, 31(2), 225-254.
[88] Martin, A. F., & Przybocki, M. A. (2001, June). The NIST speaker recognition
evaluations: 1996-2001. In Proc. of SPIE Vol (Vol. 7324, pp. 732411-1).
[89] Kenny, P., Ouellet, P., Dehak, N., Gupta, V., & Dumouchel, P. (2008). A study of
interspeaker variability in speaker verification. Audio, Speech, and Language
Processing, IEEE Transactions on, 16(5), 980-988.
[90] Vogt, R. J., Baker, B. J., & Sridharan, S. (2005). Modelling session variability in text
independent speaker verification.
[91] Auckenthaler, R., Carey, M., & Lloyd-Thomas, H. (2000). Score normalization for text-
independent speaker verification systems. Digital Signal Processing,10(1), 42-54.
[92] Bengherabi, M., Harizi, F., Poh, N., Boutellaa, E., Guessoum, A., & Cheriet, M. (2012).
Improving biometric verification systems by fusing Z-norm and F-norm. In Biometric
Recognition (pp. 278-287). Springer Berlin Heidelberg.
[93] Barras, C., & Gauvain, J. L. (2003, April). Feature and score normalization for speaker
verification of cellular data. In Acoustics, Speech, and Signal Processing, 2003.
Proceedings.(ICASSP'03). 2003 IEEE International Conference on (Vol. 2, pp. II-49).
IEEE.
[94] Messaoudi, F., & Benyettou, M. (2011). Identification Biométrique Multimodale.
In CIIA.
148
[95] Fiérrez-Aguilar, J., Ortega-Garcia, J., & Gonzalez-Rodriguez, J. (2003, July). Fusion
strategies in multimodal biometric verification. In Multimedia and Expo, 2003.
ICME'03. Proceedings. 2003 International Conference on (Vol. 3, pp. III-5). IEEE.
[96] Roli, F., Kittler, J., Fumera, G., & Muntoni, D. (2002). An experimental comparison of
classifier fusion rules for multimodal personal identity verification systems. In Multiple
Classifier Systems (pp. 325-335). Springer Berlin Heidelberg.
[97] Pigeon, S., Druyts, P., & Verlinde, P. (2000). Applying logistic regression to the fusion
of the NIST'99 1-speaker submissions. Digital Signal Processing, 10(1), 237-248.
[98] Zhang, G. P. (2000). Neural networks for classification: a survey. Systems, Man, and
Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, 30(4), 451-462.
[99] Hautamaki, V., Kinnunen, T., Sedlák, F., Lee, K. A., Ma, B., & Li, H. (2013). Sparse
classifier fusion for speaker verification. Audio, Speech, and Language Processing,
IEEE Transactions on, 21(8), 1622-1631.
[100] Bishop, C. M. (2006). Pattern recognition and machine learning. (Vol. 1, p. 740). New
York: springer.
[101] Schmidt, M., Fung, G., & Rosales, R. (2007). Fast optimization methods for l1
regularization: A comparative study and two new approaches. In Machine Learning:
ECML 2007 (pp. 286-297). Springer Berlin Heidelberg.
[102] Brummer, N., Burget, L., Cernocky, J. H., Glembek, O., Grezl, F., Karafiat, M., ... &
Strasheim, A. (2007). Fusion of heterogeneous speaker recognition systems in the
STBU submission for the NIST speaker recognition evaluation 2006. Audio, Speech,
and Language Processing, IEEE Transactions on, 15(7), 2072-2084.
[103 ] Keshet, J., & Bengio, S. (Eds.). (2009). Automatic speech and speaker recognition:
Large margin and kernel methods. John Wiley & Sons.
[104] Davis, K. H., Biddulph, R., & Balashek, S. (1952). Automatic recognition of spoken
digits. The Journal of the Acoustical Society of America, 24(6), 637-642.
[105] Jelinek, F. (1976). Speech recognition by statistical methods. Proceedings of the IEEE,
64, 532-556.
[106] Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. Information
Theory, IEEE Transactions on, 13(1), 21-27.
[107] Shakhnarovich, G., Darrell, T., & Indyk, P. (2008). Nearest-neighbor methods in
learning and vision. IEEE Transactions on Neural Networks, 19(2), 377.
[108] Baum, L. E., Petrie, T., Soules, G., & Weiss, N. (1970). A maximization technique
occurring in the statistical analysis of probabilistic functions of Markov chains. The
annals of mathematical statistics, 164-171.
[109] Blunsom, P. (2004). Hidden markov models. Lecture notes, August, 15, 18-19.
[110] Rabiner, L. (1989). A tutorial on hidden Markov models and selected applications in
speech recognition. Proceedings of the IEEE, 77(2), 257-286.
[111] Myers, C., Rabiner, L., & Rosenberg, A. E. (1980). Performance tradeoffs in dynamic
time warping algorithms for isolated word recognition. Acoustics, Speech and Signal
Processing, IEEE Transactions on, 28(6), 623-635.
[112] Müller, M. (2007). Dynamic time warping. Information retrieval for music and motion,
69-84.
[113] Oglesby, J., & Mason, J. S. (1990, April). Optimisation of neural models for speaker
identification. In Acoustics, Speech, and Signal Processing, 1990. ICASSP-90., 1990
International Conference on (pp. 261-264). IEEE.
[114] Duds, R. O., & Hart, P. E. (1973). Pattern classification and scene analysis. A Wiley
lnterscience Publication, John Wiley and Sons, Inc.
149
[115] Mercer, J. (1909). Functions of positive and negative type, and their connection with the
theory of integral equations. Philosophical transactions of the royal society of London.
Series A, containing papers of a mathematical or physical character, 415-446.
[116] Aizerman, A., Braverman, E. M., & Rozoner, L. I. (1964). Theoretical foundations of
the potential function method in pattern recognition learning. Automation and remote
control, 25, 821-837.
[117] Boser, B. E., Guyon, I. M., & Vapnik, V. N. (1992, July). A training algorithm for
optimal margin classifiers. In Proceedings of the fifth annual workshop on
Computational learning theory (pp. 144-152). ACM.
[118] Vapnik, V. (1995). The nature of statistical learning theory. N-Y: Springer-Verlag.
[119] Dietterich, T. G., & Kong, E. B. (1995). Machine learning bias, statistical bias, and
statistical variance of decision tree algorithms. Technical report, Department of
Computer Science, Oregon State University.
[120] Shavlik, J. W., & Dietterich, T. G. (Eds.). (1990). Readings in machine learning.
Morgan Kaufmann.
[121] Song, Y., Huang, J., Zhou, D., Zha, H., & Giles, C. L. (2007). Iknn: Informative k-
nearest neighbor pattern classification. In Knowledge Discovery in Databases: PKDD
2007 (pp. 248-264). Springer Berlin Heidelberg.
[122] Jing, L., Ng, M. K., & Huang, J. Z. (2007). An entropy weighting k-means algorithm
for subspace clustering of high-dimensional sparse data. Knowledge and Data
Engineering, IEEE Transactions on, 19(8), 1026-1041.
[123] MacQueen, J. (1965, January). On convergence of k-means and partitions with
minimum average variance. In Annals of Mathematical Statistics (Vol. 36, No. 3, p.
1084). Ims business office-suite 7, 3401 investment blvd, hayward, ca 94545: inst
mathematical statistics.
[124] Abdi, H., & Williams, L. J. (2010). Principal component analysis. Wiley
Interdisciplinary Reviews: Computational Statistics, 2(4), 433-459.
[125] Li, M., & Yuan, B. (2005). 2D-LDA: A statistical linear discriminant analysis for image
matrix. Pattern Recognition Letters, 26(5), 527-532.
[126] Ghahramani, Z., & Jordan, M. I. (1994). Supervised learning from incomplete data via
an EM approach. In Advances in Neural Information Processing Systems 6.
[127] Hosseinzadeh, D., & Krishnan, S. (2007, October). Combining vocal source and MFCC
features for enhanced speaker recognition performance using GMMs. In Multimedia
Signal Processing, 2007. MMSP 2007. IEEE 9th Workshop on (pp. 365-368). IEEE.
[128] Chen, Y., Chu, M., Chang, E., Liu, J., & Liu, R. (2003, September). Voice conversion
with smoothed GMM and MAP adaptation. In interspeech.
[129] Gales, M. J. F., & Flego, F. (2010). Discriminative classifiers with adaptive kernels for
noise robust speech recognition. Computer Speech & Language, 24(4), 648-662.
[130] Atal, B. S. (1974). Effectiveness of linear prediction characteristics of the speech wave
for automatic speaker identification and verification. the Journal of the Acoustical
Society of America, 55(6), 1304-1312.
[131] Adami, A. G., Mihaescu, R., Reynolds, D. A., & Godfrey, J. J. (2003, April). Modeling
prosodic dynamics for speaker recognition. In Acoustics, Speech, and Signal
Processing, 2003. Proceedings.(ICASSP'03). 2003 IEEE International Conference
on (Vol. 4, pp. IV-788). IEEE.
[132] Senoussaoui, M., Kenny, P., Dehak, N., & Dumouchel, P. (2010, June). An i-vector
Extractor Suitable for Speaker Recognition with both Microphone and Telephone
Speech. In Odyssey (p. 6).
150
[133] Dehak, N., Kenny, P., Dehak, R., Dumouchel, P., & Ouellet, P. (2011). Front-end factor
analysis for speaker verification. Audio, Speech, and Language Processing, IEEE
Transactions on, 19(4), 788-798.
[134] Ortega-García, J., & González-Rodríguez, J. (1996, October). Overview of speech
enhancement techniques for automatic speaker recognition. In Spoken Language, 1996.
ICSLP 96. Proceedings., Fourth International Conference on(Vol. 2, pp. 929-932).
IEEE.
[135] Gales, M. J. F., & Young, S. J. (1993, September). HMM recognition in noise using
parallel model combination. In EUROSPEECH 93 proceedings (Vol. 2, pp. 837-840).
European Speech Communication Association.
[136] Wong, L. P., & Russell, M. (2001). Text-dependent speaker verification under noisy
conditions using parallel model combination. In Acoustics, Speech, and Signal
Processing, 2001. Proceedings.(ICASSP'01). 2001 IEEE International Conference
on (Vol. 1, pp. 457-460). IEEE.
[137] Cerisara, C., Rigazio, L., & Junqua, J. C. (2004). α-Jacobian environmental
adaptation. Speech Communication, 42(1), 25-41.
[138] Gonzalez-Rodriguez, J., & Ortega-Garcia, J. (1997, April). Robust speaker recognition
through acoustic array processing and spectral normalization. InAcoustics, Speech,
and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference
on (Vol. 2, pp. 1103-1106). IEEE.
[139] McCowan, I. A., Pelecanos, J., & Sridharan, S. (2001). Robust speaker recognition
using microphone arrays. In 2001: A Speaker Odyssey-The Speaker Recognition
Workshop.
[140] Drygajlo, A., & El-Maliki, M. (1998, May). Speaker verification in noisy environments
with combined spectral subtraction and missing feature theory. InAcoustics, Speech
and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference
on (Vol. 1, pp. 121-124). IEEE.
[141] Asbai, N., Bengherabi, M., Amrouche, A., & Aklouf, Y. (2014). Improving the Self-
Adaptive Voice Activity Detector for Speaker Verification using Map Adaptation and
Asymmetric Tapers. International Journal of Speech Technology, pp. 1-9.Springer.
[142] Lee, H. S., & Tsoi, A. C. (1995). Application of multi-layer perceptron in estimating
speech/noise characteristics for speech recognition in noisy environment. Speech
communication, 17(1), 59-76.
[143] Kinnunen, T., Rajan, P. (2013). A practical, self-adaptive voice activity detector for
speaker verification with noisy telephone and microphone data. Acoustics, Speech and
Signal Processing, 2013. ICASSP 2013. IEEE International Conference on (pp. 7229-
7233).
[144] Berouti, M., Schwartz, R., Makhoul, J. (1979). Enhancement of speech corrupted by
acoustic noise. In Acoustics, Speech, and Signal Processing, IEEE International
Conference on ICASSP'79. (Vol. 4, pp. 208-211).
[145] Gerkmann, T., Hendriks, R. C. (2012). Unbiased MMSE-based noise power estimation
with low complexity and low tracking delay. Audio, Speech, and Language Processing,
IEEE Transactions on, 20(4), 1383-1393.
[146] Martin, R. (2001). Noise power spectral density estimation based on optimal smoothing
and minimum statistics. Speech and Audio Processing, IEEE Transactions on, 9(5),
504-512.
151
[147]Boll, S. (1979). Suppression of acoustic noise in speech using spectral subtraction.
IEEE Trans. Acoust., Speech, Signal Processing, 27(5), 113–120.
[148] Linde, Y., Buzo, A., Gray, R. M. (1980). An algorithm for vector quantizer design.
Communications, IEEE Transactions on, 28(1), 84-95.
[149] Gauvain, J. L., Lee, C. H. (1994). Maximum a posteriori estimation for multivariate
Gaussian mixture observations of Markov chains. Speech and audio processing, ieee
transactions on, 2(2), 291-298.
[150] Amrouche, A., Debyeche, M., Taleb-Ahmed, A., Michel Rouvaen, J., Yagoub, M. C.
(2010). An efficient speech recognition system in adverse conditions using the
nonparametric regression. Engineering Applications of Artificial Intelligence, 23(1), 85-
94.
[151] Garofolo, J. S., Lamel, L. F., Fisher, W. M., Fiscus, J. G., & Pallett, D. S. (1993).
DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech
disc 1-1.1. NASA STI/Recon Technical Report N, 93, 27403.
[152] Varga, A., Steeneken, H. J. (1993). Assessment for automatic speech recognition: II.
NOISEX-92: A database and an experiment to study the effect of additive noise on
speech recognition systems. Speech communication, 12(3), 247-251.
[153] Asbai, N., Bengherabi, M., Amrouche, A., Harizi, F. (2013,). Improving Speaker
Verification Robustness by Front-End Diversity and Score Level Fusion. In Signal-
Image Technology & Internet-Based Systems (SITIS), 2013 International Conference
on (pp. 136-142).
[154] Asbai, N., Bengherabi, M., Harizi, F., Amrouche, A. (2013). Improving the
Performance of Speaker Verification Systems under Noisy Conditions using Low Level
Features and Score Level Fusion. In SIGMAP (pp. 33-38).
[155] Fan, X., & Hansen, J. H. (2009, April). Speaker identification with whispered speech
based on modified LFCC parameters and feature mapping. InAcoustics, Speech and
Signal Processing, 2009. ICASSP 2009. IEEE International Conference on (pp. 4553-
4556). IEEE.
[156] Martin, A. F., & Przybocki, M. A. (2001, June). The NIST speaker recognition
evaluations: 1996-2001. In Proc. of SPIE Vol (Vol. 7324, pp. 732411-1).
[157] https://sites.google.com/site/bosaristoolkit/home
[158] Kua, J. M. K., Epps, J., Ambikairajah, E., & Nosratighods, M. (2010). Front-end
Diversity in Fused Speaker Recognition Systems. Asia Pacific Signal and Information
Processing Association (APSIPA), 59-63.
[159] Aik Ming Toh. (2008). Feature Extraction for Robust Speech Recognition in Hostile
Environments. PhD Thesis, School of Electrical, Electronic and Computer Engineering.
Univesity of Western Australia UWA.
152