Réseaux de neurones pour la parole
Réseaux de neurones pour la parole
L’UNIVERSITÉ DU MANS
Par
Antoine CAUBRIÈRE
Mme. Irina ILLINA Maître de conférence - HDR, Université de Lorraine - LORIA / INRIA
M. Benoit FAVRE Maître de conférence - HDR, Aix-Marseille Université - LIS
Composition du Jury :
Invitée :
Mme. Sophie ROSSET Directrice de recherche, LIMSI, CNRS, Université Paris-Sud
R EMERCIEMENTS
Je tiens tout d’abord à remercier l’ensemble des membres de mon jury de thèse pour avoir
accepté de rapporter et d’examiner les travaux présentés dans ce manuscrit. Merci à tous pour
l’intérêt que vous portez à mes travaux et pour votre temps.
Je remercie très chaleureusement mon directeur de thèse, Yannick Estève, pour sa grande
disponibilité, son soutien et ses nombreux conseils avisés. L’ensemble de nos discussions m’ont
énormément apportées, tant sur le plan scientifique que personnel. Elles ont constitué un élé-
ment primordial à l’accomplissement de cette thèse. Mes remerciements les plus sincères vont
également à mon co-directeur de thèse, Emmanuel Morin, pour sa clairvoyance, ses encoura-
gements, ainsi que sa patience. Ses propositions ont toujours été intéressantes et m’ont guidé
vers des directions prometteuses. Je remercie aussi mon co-encadrant, Antoine Laurent, pour
son expérience qu’il m’a apportée et qui a été nécessaire à la réussite de ce travail de thèse.
Je souhaite exprimer ma gratitude à l’ensemble des personnes avec qui j’ai eu la chance de
collaborer. Je pense particulièrement à Natalia Tomashenko, Natalie Camelin, Sahar Ghannay,
Sophie Rosset, Edwin Simonnet et Renato De Mori. Travailler avec vous m’a beaucoup appris.
J’adresse mes plus vifs remerciements à toutes les personnes que j’ai rencontrées au LIUM,
pour votre aide précieuse et tous les bons moments partagés au cours de cette thèse. Je pense
notamment à, Rajoua Anane, Adrien Bardet, Amira Barhoumi, Emmanuelle Billard, Fethi Bou-
gares, Rémi Bouvet, Pierre-Alexandre Broux, Ozan Caglayan, Gaëtan Caillaut, Pierre Cham-
pion, Nicolas Dugué, Grégor Dupuy, Anne-Cécile Erreau, Bruno Jacob, Malik Koné, Anthony
Larcher, Martin Lebourdais, Daniel Luzzati, Salima Mdhaffar, Sylvain Meignier, Étienne Mi-
coulaut, Valentin Pelloin, Simon Petitrenaud, Thibault Prouteau, Dominique Py, Marie Tahon,
Thomas Thebaud, Kévin Vythelingum, Jane Wottawa. C’est une réelle chance d’avoir pu in-
tégrer un laboratoire offrant un environnement de cette qualité, propice au développement
personnel et professionnel.
Je n’oublie pas l’ensemble des personnes que j’ai rencontrées au LIA, le Laboratoire d’Infor-
matique de l’université d’Avignon. Je tiens à vous remercier sincèrement pour votre accueil
chaleureux, votre formidable énergie positive et tous les bons moments partagés. Je pense
particulièrement à Sondes Abderrazek, Carlos González, Adrien Gresse, Thibault Grousset,
Mayeul Mathias, Teva Merlin, Luis Moreno Jimenez, Tesnim Naceur, Paul-Gauthier Noe, Ti-
touan Parcollet, Céline Portalier, Matthieu Riou, Cyril Sahuc, Thierry Vallet. C’est une grande
chance d’avoir pu passer ces mois parmi vous.
3
Je remercie sincèrement ma famille et mes amis, qui ont su être présents, m’encourager et
me soutenir moralement sans faille tout au long de cette thèse. Je pense spécialement à mes
parents, mais aussi à Anthony, Bill, Francisque, Gaëlle, Gwladys, Ha, Halyna, Laura, Manon,
Marie, Marine, Mathias, Thomas.
Enfin, je tiens à adresser mes remerciements les plus sincères envers toutes les personnes
que je n’ai pu citer et qui ont fait partie de cette aventure. Je mesure la chance d’avoir pu réaliser
une thèse dans ces conditions et aussi bien entouré.
4
TABLE DES MATIÈRES
Introduction 19
2 Reconnaissance de la parole 49
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Modélisation acoustique Markovienne . . . . . . . . . . . . . . . . . . . . . . . . 51
2.2.1 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.2 Modèles à mélange de gaussiennes . . . . . . . . . . . . . . . . . . . . . . 53
2.2.3 Modèles neuronaux profonds . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.1 Modèle n-grammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5
TABLE DES MATIÈRES
3 Compréhension de la parole 63
3.1 Compréhension du langage appliquée à la parole . . . . . . . . . . . . . . . . . . 64
3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.2 Chaîne de traitements successifs . . . . . . . . . . . . . . . . . . . . . . . 65
3.1.3 Reconnaissance des entités nommées . . . . . . . . . . . . . . . . . . . . . 66
3.1.4 Extraction de concepts sémantiques . . . . . . . . . . . . . . . . . . . . . 67
3.1.5 Autres tâches de compréhension . . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Approches historiques d’étiquetage . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.1 Automates à états finis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.2 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2.3 Champs aléatoires conditionnels . . . . . . . . . . . . . . . . . . . . . . . 72
3.3 Approches neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Représentation vectorielle des mots . . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 Réseaux de neurones récurrents . . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.3 Combinaison aux champs aléatoires conditionnels . . . . . . . . . . . . . 76
3.3.4 Exploitation des mécanismes d’attention . . . . . . . . . . . . . . . . . . . 76
3.4 Évaluation des performances d’un système de compréhension du langage . . . . 77
3.4.1 Précision, Rappel et F-Mesure . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.2 Évaluation des entités nommées . . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.3 Évaluation des concepts sémantiques . . . . . . . . . . . . . . . . . . . . . 80
3.5 Impact des transcriptions automatiques . . . . . . . . . . . . . . . . . . . . . . . 81
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4 Ensembles de données 83
4.1 Les corpus ESTER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.1 ESTER 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.2 ESTER 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.3 Formalisme d’annotation en entités nommées ESTER . . . . . . . . . . . 86
4.2 QUÆRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6
TABLE DES MATIÈRES
II Contributions 99
7
TABLE DES MATIÈRES
Annexes 171
Références 175
8
TABLE DES FIGURES
9
TABLE DES FIGURES
10
TABLE DES FIGURES
7.1 Distribution des erreurs de notre approche de bout en bout pour l’ensemble de
développement de MEDIA. Extraction des 30 concepts sémantiques avec le plus
d’erreurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.2 Distribution des erreurs de la chaîne de composants pour l’ensemble de dévelop-
pement de MEDIA. Extraction des 30 concepts sémantiques avec le plus d’erreurs.149
7.3 Représentation d’une séquence pour l’entraînement d’une tâche de segmentation. 152
7.4 Représentation de l’extraction des représentations de caractères à chaque temps
t. Exemple pour une extraction de la dernière couche récurrente du système. . . 153
7.5 Exemple de sorties immédiates du système pour la séquence "si [ l’ hôtel > { est
près du > ( stade >". En rouge, les représentations internes sélectionnées pour re-
présenter les concepts associés. [ correspond au concept nom-hotel, { correspond
à localisation-distanceRelative et ( correspond à localisation-lieuRelatif. . . . . . . 154
7.6 Visualisation des représentations de concepts sémantiques par projection t-SNE
pour l’ensemble de développement de MEDIA. À gauche, la coloration des points
représente la classe sémantique associée à la projection. À droite, la couleur verte
représente les concepts correctement émis par le système et la couleur rouge re-
présente les erreurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
7.7 Schéma de la mise en œuvre de notre classifieur externe sur les représentations
internes de notre système de bout en bout. Le système principal de compréhen-
sion de la parole est encadrée en bleu et le classifieur externe encadré en vert. . 157
7.8 Représentation de l’extraction de la mesure de confiance proposée. [ correspond
au concept nom-hotel, { correspond à localisation-distanceRelative et ( correspond
à localisation-lieuRelatif. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
7.9 Précision en fonction du rappel des concepts sémantiques après application d’un
filtrage par seuil de confiance sur l’ensemble de tests de MEDIA pour les concepts
émis dans le cadre du système normal (1. dans la table 7.1). Seuil appliqué de 0
à 1 par pas de 10−6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.10 Précision en fonction du rappel des concepts sémantiques après application d’un
filtrage par seuil de confiance sur la mesure produite par un classifieur bLSTM,
pour l’ensemble de tests de MEDIA. Seuil appliqué de 0 à 1 par pas de 10−6 . . . 162
11
L ISTE DES TABLEAUX
13
LISTE DES TABLEAUX
14
LISTE DES TABLEAUX
7.1 Résultats de notre approche de bout en bout exploitée pour l’analyse des erreurs
de sorties sur l’ensemble de développement de MEDIA. Ces résultats sont repor-
tés des tables 6.5, 6.6 et 6.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2 Résultats de notre approche de bout en bout exploitée pour l’analyse des er-
reurs de sorties sur l’ensemble de tests de MEDIA. Ces résultats sont reportés
des tables 6.5, 6.6 et 6.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.3 Nombre d’erreurs de suppression en fonction de la transcription automatique.
Résultats de l’analyse sur l’ensemble de développement de MEDIA. . . . . . . . 151
7.4 Résultats de l’approche de bout en bout exploitant une tâche de segmentation
pour les sorties neuronales immédiates (greedy). Les résultats encadrés par des
guillemets sont reportés de la table 6.5. . . . . . . . . . . . . . . . . . . . . . . . . 152
7.5 Résultats de l’approche de bout en bout exploitant une tâche de segmentation
après exploitation d’un modèle de langage 5-gramme (beam search). Les résul-
tats encadrés par des guillemets sont reportés de la table 6.6. . . . . . . . . . . . 152
7.6 Comparaison des représentations moyennées et des séquences de représentation
en entrée des classifieurs externes, en fonction de la précision sur l’ensemble de
développement de MEDIA. Représentation interne extraite du système principal
pour les concepts sémantiques correctement reconnus. . . . . . . . . . . . . . . . 158
7.7 Fiabilité en score NCE des mesures de confiance produites par le classifieur bL-
STM pour chacun des deux modes du système de compréhension de la parole,
sur les ensembles de développement et de test de MEDIA. . . . . . . . . . . . . . 163
8.1 Principaux résultats de nos contributions autour des entités nommées (ces ré-
sultats sont issus de la table 5.10) . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.2 Principaux résultats de nos contributions autour des concepts sémantiques (ces
résultats sont issus de la table 6.12). . . . . . . . . . . . . . . . . . . . . . . . . . . 167
8.3 Résultats de fiabilité des mesures de confiance produites par le classifieur ex-
terne (ces résultats sont reportés de la table 7.7). . . . . . . . . . . . . . . . . . . 167
8.4 Estimation du temps de calcul et de la consommation énergétique associée pour
la reproduction des résultats présentés dans cette thèse. . . . . . . . . . . . . . . 171
15
ACRONYMES
17
I NTRODUCTION
19
Introduction
fond sont les briques de base d’une chaîne de traitements à l’état de l’art, avec des résultats
similaires à ceux obtenus avec des CRF [Simonnet, Ghannay, Camelin et Estève 2018]. Malgré
l’apport de ces technologies pour la tâche finale de compréhension, un obstacle subsiste au tra-
vers du principe même de la chaîne de traitements. En effet, le composant de reconnaissance
de la parole produit une représentation textuelle bruitées par des erreurs. Puis, par l’exploi-
tation de cette représentation comme élément d’entrée du composant de compréhension de
langue, ce bruit va inéluctablement impacter les performances du second composant. De plus,
la représentation textuelle agit comme un entonnoir et ne représente que le discours prononcé,
alors que la parole contient des informations allant nécessairement au-delà du discours. C’est-
à-dire l’ensemble des informations présentes dans la parole, faisant partie du domaine de la
paralinguistique, par exemple, la prosodie ou encore les disfluences.
Développer une approche permettant de surmonter cet obstacle correspond à l’objectif pre-
mier des travaux de cette thèse. Cela se traduit par la mise en œuvre d’un unique système
neuronale, entièrement optimisé pour la tâche finale de compréhension de la parole. Ainsi, ce
système doit être responsable de la projection directe d’informations de la dimension acous-
tique vers une représentation sémantique structurée.
Avant cette thèse, de premiers travaux dans le domaine de la reconnaissance de la parole
ont permis la mise en œuvre de systèmes permettant la projection directe d’informations de
la dimension acoustiques vers une représentation textuelle [Hannun et al. 2014 ; Amodei et
al. 2016]. Ces travaux ont exploité un unique modèle neuronal, alors que cette tâche était au
préalable réalisée par la combinaison de modèles acoustiques et de langues.
Dans le cadre de nos travaux, il est question d’étendre ces avancées à la compréhension
de la parole. Pour réaliser cette thèse, nous nous inscrivons dans un cadre applicatif que nous
trouvons dans les tâches de reconnaissance des entités nommées, ainsi que d’extraction des
concepts sémantiques dans la parole. Il s’agit de deux tâches de compréhension faisant l’objet
de travaux réguliers [Sundheim 1995 ; Galliano, Geoffrois, Mostefa et al. 2005 ; Hatmi 2014 ;
Simonnet 2019], pour lesquelles une quantité suffisante de données est disponible pour évaluer
nos contributions.
Cependant, les données manuellement annotées pour des tâches aussi complexes que la
compréhension de la parole ont un coût important, ce qui induit nécessairement leur rareté.
En effet, au-delà de nécessiter une transcription manuelle de la parole, un deuxième niveau
d’annotation est nécessaire pour mettre en avant la sémantique selon une structure définie en
fonction de la tâche. Ainsi, pour la réalisation de nos travaux, une difficulté supplémentaire
réside dans notre besoin de compenser le manque de données annotées pour la tâche finale.
Afin de contourner cette difficulté, nous nous intéressons aux méthodes d’augmentation
automatique de données, mais aussi au transfert d’apprentissage [Pan et Yang 2009]. Cette mé-
thode consiste en l’exploitation d’un premier ensemble de données pour extraire des connais-
20
Introduction
Organisation du document
21
Introduction
à notre disposition selon notre cadre applicatif. Nous précisons les origines de ces ensembles,
ainsi que leur composition et leur répartition. Lorsque ces données permettent une tâche de
compréhension, nous détaillons l’annotation sémantique définissant la tâche associée. Nous
fournissons également les références de l’ensemble de ces corpus, facilitant leur récupération
et donc la reproductibilité de l’ensemble de nos travaux. Enfin, nous détaillons l’exploitation
que nous effectuons de ces données dans le cadre de nos travaux.
Le cinquième chapitre de ce manuscrit correspond au premier chapitre de présentation de
nos contributions. Nous abordons nos travaux centrés autour de la tâche de reconnaissance
des entités nommées dans la parole. Dans ce chapitre, nous présentons un premier système
permettant la projection directe d’informations d’une dimension acoustique vers une repré-
sentation sémantique structurée. Ce système est inspiré de ceux existants dans le domaine de
la reconnaissance de la parole. Nous l’évaluons sur les données d’une campagne d’évaluation
française. En complément, nous effectuons sa comparaison à une approche traditionnelle par
chaîne de traitements successifs que nous avons mise à jour.
Au sein du sixième chapitre, nous proposons d’étendre notre approche sur une tâche d’ex-
traction des concepts sémantiques. Nous souhaitons vérifier la viabilité de notre approche dans
le cadre d’une représentation sémantique structurée plus précise. Nous envisageons également
de tirer bénéfice de connaissances acquises avec les entités nommées, pour l’extraction des
concepts sémantiques, par transfert d’apprentissage. Aussi, nous effectuons des travaux d’op-
timisation de notre architecture neuronale. Enfin, nous comparons à nouveau notre approche
avec une chaîne de traitements successifs traditionnelle.
Dans le cadre du septième chapitre, nous réalisons une analyse des erreurs produites par
nos systèmes dans le cadre de l’extraction des concepts sémantiques. Ces analyses nous ap-
portent des éléments d’amélioration de l’approche que nous avons mis en œuvre. Nous pro-
posons aussi une méthode d’extraction des représentations internes de la sémantique qui nous
permet tout d’abord une analyse visuelle. Puis, nous étendons l’utilisation de ces représen-
tations internes pour établir une mesure de confiance pertinente, concernant l’émission de la
sémantique par notre approche.
Enfin, dans un dernier chapitre, nous concluons sur les travaux présentés dans ce manus-
crit. Nous abordons à nouveau les points clefs de cette thèse, ainsi que les perspectives que nous
pouvons dégager pour de futurs travaux. Nous proposons également un aparté concernant une
estimation du coût environnemental de nos travaux.
22
Première partie
23
Chapitre 1
Sommaire
1.1 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.2 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.3 Apprentissage Automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.3.1 Algorithme de descente du gradient . . . . . . . . . . . . . . . . . . . . 28
1.3.2 Algorithme de Rétropropagation . . . . . . . . . . . . . . . . . . . . . . 30
1.4 Optimisation de l’apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.1 Momentum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.2 Algorithmes d’optimisation adaptatifs . . . . . . . . . . . . . . . . . . . 33
1.4.3 Initialisation des paramètres neuronaux . . . . . . . . . . . . . . . . . . 35
1.4.4 Régularisation des réseaux . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1.5 Spécificités de l’apprentissage neuronal . . . . . . . . . . . . . . . . . . . . . . 41
1.5.1 Disparition / Explosion du gradient . . . . . . . . . . . . . . . . . . . . 41
1.6 Modélisation de séquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.6.1 Réseau récurrent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.6.2 Réseau neuronal convolutif . . . . . . . . . . . . . . . . . . . . . . . . . 45
1.6.3 Architecture Encodeur-Décodeur . . . . . . . . . . . . . . . . . . . . . . 46
1.6.4 Transformers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
24
En informatique, le domaine de l’intelligence artificielle (IA) est vaste. Il concerne l’en-
semble des algorithmes et méthodes visant la mise en place d’un système capable de simuler
l’intelligence.
Parmi les méthodes employées, nous pouvons citer l’apprentissage machine. Cette méthode
permet à un ordinateur d’apprendre à réaliser une tâche pour laquelle il n’est pas directement
programmé. Elle est basée sur des approches mathématiques et l’exploitation de données.
Cette exploitation peut être effectuée différemment en fonction des informations dispo-
nibles. Lorsque pour une tâche donnée, les sorties attendues du système sont connues à l’avance,
on parle d’apprentissages supervisés. Il s’agit d’une tâche de régression si les prédictions sont
continues et d’une tâche de classification si les prédictions sont discrétisées. Également, Lorsque
les sorties attendues ne sont pas connues, on parle d’apprentissage non-supervisé.
Il existe plusieurs méthodes d’apprentissage machine. Parmi lesquelles on retrouve notam-
ment les réseaux de neurones artificiels. Il s’agit d’algorithmes sur lesquels repose l’apprentis-
sage profond.
Nous représentons l’emplacement de l’apprentissage profond au sein de l’IA dans la figure
suivante.
Intelligence Artificielle
Apprentissage Machine
Apprentissage
Profond
L’apprentissage profond est un type d’intelligence artificielle s’appuyant sur les réseaux
de neurones. Il s’agit de systèmes mettant en réseau une brique élémentaire qu’il nous est
nécessaire de définir, le neurone formel.
C’est en 1943 qu’est proposé le premier modèle de neurone formel par Warren Sturgis Mc-
Culloch et Walter Pitts. Leur modélisation s’appuie sur le fonctionnement observé des neurones
biologiques.
C’est ensuite en 1958 que Franck Rosenblatt met en place un algorithme d’apprentissage
applicable à un neurone formel, créant ainsi le perceptron [Rosenblatt 1958]. La représenta-
tion mathématique et le fonctionnement du perceptron sont décrits dans la section suivante.
25
Partie I, Chapitre 1 – Réseau neuronal profond
1.1 Perceptron
Le perceptron est un neurone formel binaire. Cela signifie que son unique sortie est soit 0,
soit 1, correspondant ainsi à deux classes prédictibles. L’ensemble de ses entrées est connecté à
sa sortie.
L’action d’un neurone sur ses entrées (xi ) correspond à une fonction d’agrégation, qui dans
le cas du perceptron est une somme pondérée. Pour la calculer, des paramètres sont associés
à chaque entrée (i), que nous appelons : poids (wi ). La fonction d’agrégation du perceptron
s’exprime ainsi : ni=1 wi xi . Son résultat s’appelle la valeur d’agrégation, notée z.
P
Une fonction d’activation est alors appliquée sur z, dont le résultat est noté a. Elle permet
de définir un seuil à partir duquel le neurone s’activera. La valeur de sortie du neurone est
directement dépendante de son activation. Dans le cas du perceptron de Rosenblatt, pour une
tâche de classification, la fonction
non linéaire de Heaviside est appliquée.
0, si x <= 0
Elle est définie ainsi : f (x)
1, si
x>0
Cette fonction indique que la réponse du neurone sera 0 si le résultat est inférieur ou égal
à 0 et sera 1 sinon.
Il est tout à fait possible d’utiliser d’autres fonctions d’activation, par exemple la fonction
1
sigmoïde (σ ), pour une tâche de régression, qui est définie par : f (x) = 1+e−x
Nous représentons le perceptron à l’aide de la figure 1.2.
x1
W1
W2
x2
W3
Wθ
x3
Les paramètres (poids), du perceptron sont initialisés aléatoirement et sont mis à jour à
l’aide d’une règle d’apprentissage définie comme : Wi0 = Wi + α(Yt − Y )Xi , avec Wi0 la nouvelle
valeur du poids i, Wi la valeur actuelle du poids i, α le taux d’apprentissage, Yt la sortie atten-
due, Y la sortie réelle et Xi l’entrée i.
La règle d’apprentissage permet ainsi d’optimiser les paramètres du neurone grâce à des
données d’exemple, pour lesquelles nous connaissons la sortie attendue. Ces données doivent
26
1.2. Perceptron multicouche
27
Partie I, Chapitre 1 – Réseau neuronal profond
Pour expliquer cet algorithme, il est d’abord nécessaire de définir le gradient. Il s’agit d’un
vecteur composé de l’ensemble des dérivées partielles de la fonction de coût. C’est-à-dire des
∂C(w)
implications des paramètres du système à la production de l’erreur : ∂w
. De plus, le gradient
pointe nécessairement dans la direction du plus grand taux d’augmentation de la fonction
considérée.
L’algorithme de descente du gradient est essentiel à l’apprentissage d’un système neuronal
28
1.3. Apprentissage Automatique
Figure 1.4 – Représentation de la descente de gradient sur une fonction de coût à deux para-
mètres.
29
Partie I, Chapitre 1 – Réseau neuronal profond
∂C(x)
xt+1 = xt − α (1.1)
∂x
Un inconvénient de la descente de gradient réside dans le risque de converger vers un mau-
vais minimum local. La fonction de coût considérée ne possède pas forcément un seul minimal.
Il est très probable qu’elle possède des minimums locaux impliquant des performances sous-
optimales par rapport à son minimum global. Notons toutefois que la descente de gradient
ne garantit pas à un système de converger vers le minimum global. Il est donc important de
minimiser les risques de convergence dans un mauvais minimum.
De plus, la vitesse de convergence a un rôle important dans l’apprentissage d’un réseau
neuronal. Il existe plusieurs variantes de la descente de gradient permettant de converger plus
où moins rapidement vers un minimum.
La première variante consiste à mettre les paramètres à jour après l’utilisation de chaque
exemple d’apprentissages. Nous parlons dans ce cas d’une descente de gradient stochastique.
Une seconde variante consiste à les mettre à jour après l’utilisation de la totalité des exemples
d’apprentissages. Dans ce cas, nous parlons d’une descente de gradient par lot (batch). Il s’agit
d’exploiter la moyenne des gradients du lot, accélérant grandement la vitesse de convergence.
Enfin, une dernière variante consiste à utiliser n exemples avant de mettre à jours les pa-
ramètres. Nous parlons d’une descente de gradient par mini-lot (mini-batch). C’est une combi-
naison des deux méthodes précédentes qui est désormais la plus communément utilisée.
En fournissant un échantillon en entrée d’un système, les calculs effectués à partir de celui-
ci vont se propager au fil des couches permettant ainsi d’obtenir une sortie. Cette sortie réelle
est directement comparable à une sortie attendue et à l’aide d’une fonction de coût dérivable
(C). L’objectif de cette fonction est de quantifier l’écart entre la sortie réelle et la sortie attendue.
Ainsi, plus la valeur de cette fonction est grande, plus la sortie réelle est éloignée de la sortie
attendue. Cet écart représente l’erreur en sortie du système, qui est nécessaire au calcul de
∂C(w)
l’implication d’un poids synaptique, noté ∂w
.
L’algorithme de rétropropagation s’appuie sur le théorème de dérivation en chaîne des fonc-
tions composées. Par emploi de ce théorème, il est possible de calculer efficacement l’implica-
tion des paramètres de la couche de sortie (L). Puis, suite à ce calcul, il est possible de détermi-
ner l’erreur des unités neuronales de cette couche (δiL ).
À ce stade de l’algorithme, nous connaissons le gradient de la fonction de coût par rapport
aux poids des unités de la couche (L), ainsi que les calculs ayant mené aux entrées de ces unités
pendant la propagation avant. Il est donc possible de déterminer l’implication des paramètres
30
1.3. Apprentissage Automatique
de la couche L − 1, ainsi que le gradient de ses unités neuronales. Il sera ensuite possible d’en
faire de même pour la couche L − 2 et ainsi de suite jusqu’à la couche d’entrée. Le calcul de
l’implication des paramètres et du gradient des unités neuronales s’effectue donc de la couche
de sortie vers la couche d’entrée, d’où le nom d’algorithme de rétropropagation.
L’ensemble des neurones du système possède un paramètre de biais qui a lui aussi un im-
pact sur la production de l’erreur de sortie. Ce paramètre doit être traité de la même manière
que les autres poids.
En soi, les biais peuvent être considérés comme des poids associés à des vecteurs qui partent
d’un seul nœud situé en dehors du réseau principal et dont l’activation est systématiquement 1.
Cette valeur d’activation permet à un système de toujours avoir des neurones actifs, quelles que
soient les valeurs d’entrées. Elle induit également une simplification des calculs de l’algorithme
de rétropropagation pour les biais.
Cet algorithme est régi par 4 équations essentielles :
∂C
4. = δil
∂bil
Le calcul de l’implication des paramètres conditionne leur mise à jour lors d’une étape
d’apprentissage. Ils sont mis à jour en suivant l’algorithme de descente de gradient permettant
la minimisation la fonction de coût (C) appliquée.
Un système neuronal est un ensemble d’algorithmes permettant d’adapter des milliers, voir
des millions, de paramètres pour trouver une configuration maximisant ses bonnes réponses.
Les données exploitées pour son apprentissage doivent représenter au mieux la tâche visée,
puisqu’au-delà des algorithmes, ce sont elles qui conditionnent la mise à jour des paramètres.
Toutefois, des méthodes d’optimisation de l’apprentissage permettent de pousser les limites de
l’apprentissage automatique. Nous décrivons les méthodes les plus communes dans la section
suivante.
31
Partie I, Chapitre 1 – Réseau neuronal profond
1.4.1 Momentum
Cette méthode [Qian 1999] a pour objectif d’accélérer la descente de gradient et limite les
risques de converger dans un mauvais minimum local de la fonction de coût. Concrètement,
elle exploite la mise à jour précédente des paramètres du système pour optimiser la mise à jour
suivante. Elle ajoute un coefficient de vélocité permettant d’accélérer la descente de gradient et
réduire les oscillations. Ce coefficient augmentera le pas d’apprentissage si le gradient au temps
t et au temps t − 1 vont dans la même direction et le diminuera s’ils vont dans des directions
opposées. La méthode du momentum peut être imagée comme l’action de la gravité sur une
bille descendant le long d’une surface concave.
D’un point de vue mathématique, cette méthode transforme la mise à jour des paramètres
de la manière suivante :
∂C(x)
vt+1 = µvt − α (1.3)
∂x
Avec vt le coefficient de vélocité et µ le paramètre du momentum.
Ainsi, comme pour la descente de gradient traditionnelle cette méthode calcule le gradient
présent puis effectue un déplacement dans la direction minimisant la fonction de coût. Elle
possède toutefois un inconvénient, puisqu’elle n’est pas en mesure d’anticiper un changement
de direction du gradient et donc de ralentir préventivement le coefficient de vélocité pour ne
pas dépasser le minimum. Une extension de cette méthode corrige cet inconvénient.
Cette méthode [Nesterov 2013] est une évolution de la méthode du momentum. Elle consiste
à effectuer un premier déplacement propre au terme du momentum, puis calculer le gradient
présent pour effectuer un déplacement dans la direction minimisant la fonction de coût. Le
déplacement effectué sur la fonction de coût s’effectue donc en deux temps. De plus, le terme
du momentum ne pointe pas obligatoirement dans la direction minimisant la fonction de coût
32
1.4. Optimisation de l’apprentissage
∂C(x + µvt )
vt+1 = µvt − α (1.5)
∂x + µvt
Avec vt le coefficient de vélocité et µ le paramètre du momentum.
Les méthodes s’appuyant sur le momentum ne sont pas les seules exploitées pour optimiser
la descente de gradient. Une famille d’algorithmes y est spécifiquement dédiée.
Il s’agit d’une catégorie d’algorithmes qui vise à adapter la mise à jour de chacun des para-
mètres d’un système pendant l’apprentissage. Les stratégies mises en place par ces algorithmes
permettent un apprentissage plus robuste par l’intermédiaire d’une descente de gradient plus
efficace. Nous décrivons ci-dessous certains des algorithmes les plus communs, bien qu’il ne
s’agisse pas d’un paysage exhaustif.
AdaGrad
L’algorithme AdaGrad (Adaptative gradient) [Duchi et al. 2011] est un algorithme dont l’in-
tuition est d’adapter le taux d’apprentissage de chaques paramètres proportionnellement à leur
historique de mise à jour. Il s’agit en soi de réaliser des mises à jour plus importantes pour les
paramètres peu fréquents et des mises à jour moins importantes pour les paramètres plus fré-
quents. L’intérêt de cette approche réside dans le cas de données éparses, puisque le système
sera capable de tirer bénéfice plus efficacement de l’information des données moins fréquentes.
Pour être mise en place, cette méthode modifie le taux d’apprentissage global en modifiant
la règle de mise à jour des paramètres. La nouvelle règle mise en place est la suivante :
α ∂C(x)
xt+1 = xt − p (1.6)
vtx + ∂x
x représente le paramètre en cours de mise à jour, α le taux d’apprentissage, vtx l’historique
accumulé du gradient de x et une constante très faible évitant la division par 0. Pour effectuer
l’accumulation du gradient de x, vtx est défini ainsi :
∂C(x) 2
vtx = vt−1
x
+ (1.7)
∂x
33
Partie I, Chapitre 1 – Réseau neuronal profond
Un autre avantage important de cette méthode d’optimisation est qu’elle règle automati-
quement le taux d’apprentissage. Les avantages d’AdaGrad permettent un apprentissage plus
efficace et plus robuste. Toutefois, cette méthode à l’inconvénient d’accumuler un gradient
carré au dénominateur. Ainsi, la somme accumulée peut croitre très rapidement et rendre le
taux d’apprentissage appliqué à certains paramètres extrêmement faible. Ce qui pourra rendre
impossible l’apprentissage de connaissances supplémentaires pour le système. L’algorithme
présenté ci-dessous est un des algorithmes visant à atténuer ce problème.
Adam
La méthode Adam (Adaptative Moment Estimation) [Kingma et Ba 2015] est une autre mé-
thode ayant pour objectif d’adapter le taux d’apprentissage de chaque paramètre. Elle est com-
plémentaire à la méthode AdaGrad, dans la mesure où elle corrige l’inconvénient de l’accumu-
lation carré au dénominateur. Pour le corriger, elle définit une autre accumulation du gradient
pour un paramètre x :
2
∂C(x)
vtx x
= β2 vt−1 + (1 − β2 ) (1.8)
∂x
Avec β2 un taux de décroissance compris en 0 et 1.
En complément de l’accumulation carré des gradients (vtx ), la méthode Adam préconise
aussi la mise en place d’une accumulation simple des gradients (mxt ) permettant un effet simi-
laire à la méthode du momentum.
∂C(x)
mxt = β1 mxt−1 + (1 − β1 ) (1.9)
∂x
Avec β1 un taux de décroissance aussi compris entre 0 et 1.
Une particularité de cette méthode concerne l’initialisation à 0 des vecteurs mt et vt . Il a été
noté par les auteurs que ces vecteurs sont biaisés vers 0 lorsque les taux de décroissances sont
faibles (soit β1 et β2 proche de 1). Ils ont ainsi proposé de contourner ce problème par le calcul
0 0
d’une correction mtx et vtx de la manière suivante :
0 mxt
mtx = (1.10)
1 − β1t
0 vtx
vt x = (1.11)
1 − β2t
Ainsi avec cette méthode la mise à jour d’un paramètre x est définie ainsi :
0
mtx
xt = xt−1 − α q (1.12)
0
vtx +
34
1.4. Optimisation de l’apprentissage
Avec α le taux d’apprentissage appliqué et une constante faible pour éviter la division par
0.
Il existe plusieurs autres variantes d’algorithmes d’optimisations, nous pouvons par exemple
citer AdaDelta [Zeiler 2012], RMSprop et NAdam [Dozat 2016]. Cependant, ce sont les avan-
tages de l’algorithme Adam qui en font actuellement un des algorithmes les plus communs.
Les valeurs suggérées par défaut des taux de décroissances β1 et β2 sont respectivement 0.9 et
0.999.
Il est important d’optimiser la mise à jour des paramètres neuronaux pour optimiser l’ap-
prentissage automatique. Cependant, la descente de gradient est aussi très dépendante de l’ini-
tialisation des paramètres qui en place le point de départ. La sous-section suivante nous permet
de décrire certaines méthodes d’initialisation pouvant être exploitées.
Initialisation de Xavier
Nous pouvons notamment citer l’initialisation de Xavier [Glorot et Bengio 2010], du nom
d’un des auteurs, qui est très largement suggérée pour l’apprentissage automatique. Dans
ces travaux, les auteurs préconisent une initialisation respectant deux critères. Le premier
concerne la moyenne des activations, qui doit être de 0. Le second concerne la variance des
activations, qui doit rester la même pour chacune des couches neuronales.
Cette méthode d’initialisation conserve une part d’aléatoire, qui est toutefois caractérisée
par les critères mentionnés. Les valeurs initiales des paramètres sont sélectionnées aléatoire-
1
ment dans une distribution normale. Sa moyenne est 0 et sa variance est nl−1
avec n le nombre
de neurones de la couche l − 1 et l la couche actuellement considérée.
Certaines méthodes n’utilisent pas la notion d’aléatoire, mais exploitent des données et le
résultat d’un préapprentissage pour l’initialisation d’un réseau.
Transfert d’apprentissage
Cette méthode [Pan et Yang 2009] consiste à tirer bénéfice d’un système préentrainé pour
une tâche proche, mais pas identique à la tâche qui sera apprise par le système. Le modèle pré-
entrainé a logiquement atteint une configuration de poids stables suite à sa convergence pour
35
Partie I, Chapitre 1 – Réseau neuronal profond
36
1.4. Optimisation de l’apprentissage
Figure 1.5 – Exemple de courbes du résultat d’une fonction de coût en fonction du nombre
d’itérations. En bleu, l’ensemble de validation, en vert l’ensemble d’apprentissage.
Régularisation L1
Cette méthode de régularisation est aussi appelée Lasso Regression [Tibshirani 1996]. Il
s’agit d’une pénalité appliquée durant l’apprentissage sur la fonction de coût. Son objectif est
de pénaliser les connexions neuronales à forte pondération. Elles sont responsables d’une plus
grande variance des sorties d’un système neuronal [Geman et al. 1992]. En soi, réduire la va-
riance en sortie du système permet de rendre un modèle moins flexible, ce qui a pour effet
de l’empêcher de trop bien s’optimiser aux données d’apprentissage. Cette régularisation agit
directement sur le phénomène de sur-apprentissage.
37
Partie I, Chapitre 1 – Réseau neuronal profond
Régularisation L2
Également appelée Ridge Regression, cette méthode vise aussi à pénaliser les connexions
neuronales à forte pondération [Hoerl et Kennard 1970]. Comme pour la régularisation L1,
cette méthode exploite une pénalité qui sera ajoutée à la fonction de coût. Elle s’exprime ainsi :
X
C = C0 + λ wi2 (1.14)
i
Dropout
Le dropout [Srivastava et al. 2014] est une autre régularisation efficace contre le sur-apprentissage.
Elle vise à impacter le modèle neuronal en lui même pour réduire sa spécialisation excessive.
Il s’agit de désactiver temporairement et aléatoirement des neurones composants le réseau à
chaque étape d’apprentissage. Cela signifie que les unités désactivées changent à chaque étape.
Les neurones désactivés ne sont pas utilisés pour propager l’exemple d’apprentissage dans le
réseau et ils ne bénéficieront pas non plus de la correction des poids suite à l’application de
la rétropropagation. Cette désactivation n’est appliquée que pendant la phase d’apprentissage.
Pour réaliser aléatoirement la désactivation, un hyper paramètre P est défini. Il correspond à
38
1.4. Optimisation de l’apprentissage
En soi, cette méthode permet d’exploiter le système neuronal dans des configurations diffé-
rentes à chaque étape d’apprentissage. Modifier ainsi sa configuration va permettre de simuler
une activation éparse des unités le composant, lui permettant d’apprendre des représentations
plus robuste.
Cette méthode vise à réduire les écarts entre les caractéristiques d’entrées de toutes les
couches d’un système pour optimiser l’apprentissage de représentations efficaces [Ioffe et Sze-
gedy 2015].
L’information circulant tout au long d’un réseau de neurones peut être représentée dans
un espace. Un système doit trouver une représentation permettant de séparer efficacement
différentes classes. Cependant, au sein d’une même classe, bien que proche, chaque exemple est
différent. Ils ont donc tous une projection différente dans l’espace. Ces différences de projection
correspondent au décalage des co-variables (covariate shift).
L’inconvénient de ce décalage est qu’il affecte négativement l’apprentissage lorsqu’il de-
vient trop important. Il ralentira l’apprentissage d’une représentation efficace et peut conduire
à l’obtention d’une représentation sous-optimale. Exploiter des batchs composés d’une sélec-
tion aléatoire des éléments d’une même classe suffirait à réduire cet inconvénient. Toutefois,
cela ne s’applique que pour la couche d’entrée du système.
Au sein des couches cachées d’un système neuronal profond, les représentations intermé-
diaires des exemples sont en constante évolution tout au long de l’apprentissage. La mise à jour
des paramètres d’une couche quelconque L, impactera nécessairement la représentation four-
nie à la couche L+1. Cela signifie que la distribution des entrées des unités neuronales d’une
39
Partie I, Chapitre 1 – Réseau neuronal profond
couche est modifiée à chaque mise à jour des paramètres de la couche précédente. C’est ce qui
est appelé le décalage interne des covariables (internal covariate shift).
La méthode de normalisation des batchs a pour objectif de réduire ce décalage interne en
réalisant une normalisation appliquée individuellement à chaque unité neuronale. La norma-
lisation est calculée avec la moyenne (µ) et la variance (σ ) d’un mini-lot (B), dont les équations
sont les suivantes :
m
1X i
µB = z (1.15)
m
i=1
m
1X i
σB2 = (z − µB )2 (1.16)
m
i=1
i zi − µB
znorm =q (1.17)
σB2 +
La constante est ajoutée pour des raisons de stabilité numérique. Il s’agit d’une constante
empêchant la division par 0. Pour finir la normalisation, un dernier calcul est à effectuer :
i i
zout = γznorm +β (1.18)
La valeur d’échelle (γ) et de décalage (β) sont deux paramètres appris pendant la phase
d’apprentissage du système. Ils bénéficient tous deux de l’algorithme de rétropropagation pour
leur mise à jour. L’intérêt de ces deux paramètres est qu’ils permettent au système de réguler la
normalisation appliquée à chaque unité pour la rendre la plus efficace possible. Ils permettent
q
également au système d’annuler l’application de la normalisation dans le cas où γ = σB2 + et
β = µB . Ainsi, cette méthode ne peut qu’apporter une amélioration des résultats.
En soi, elle normalise les entrées de chacune des couches du système en les redimension-
nant. Cela a pour effet d’accélérer l’apprentissage de représentations internes efficaces, amélio-
rant ainsi la stabilité et les performances du système final.
Les régularisations sont des ajouts importants, qui permettent l’amélioration de l’algo-
rithme d’optimisation utilisé. Ces ajouts participent à contrer certaines problématiques de l’ap-
prentissage automatique. Il existe tout de même des problématiques supplémentaires liées à
des spécificités de l’apprentissage neuronal. Nous proposons de couvrir ces spécificités et les
problématiques engendrées dans la section suivante.
40
1.5. Spécificités de l’apprentissage neuronal
Plus un réseau de neurones possède de couches cachées, plus il est susceptible de rencontrer
un problème de gradient, que ce soit une explosion ou une disparition [Bengio, Simard et al.
1994].
Une mauvaise initialisation des paramètres peut également être à l’origine d’un problème
de gradient. En effet, une initialisation trop grande de l’ensemble des paramètres conduit à un
problème d’explosion de gradient. Tandis qu’une initialisation trop petite de l’ensemble des
paramètres conduit à un problème de disparition de gradient.
Ces problèmes surviennent en exploitant l’algorithme de rétropropagation, puisque le cal-
cul du gradient s’effectue par une suite de multiplication successives. Plus nous calculons le
gradient d’un paramètre d’un neurone éloigné de la couche de sortie, plus le nombre de mul-
tiplications successives augmente. Ce sont elles qui sont responsables de l’explosion ou de la
disparition du gradient.
Multiplier des valeurs inférieures à 1 conduira nécessairement à des valeurs extrêmement
faibles. Lorsque la valeur du gradient est trop faible, le paramètre associé ne subira que des
modifications minimes. Empêchant ainsi l’unité neuronale associée d’apprendre efficacement,
c’est la disparition du gradient.
Multiplier des valeurs supérieures à 1 est susceptible de conduire à une augmentation forte
au fil des multiplications. Lorsque le gradient est trop fort, il provoque de trop grandes modi-
fications des paramètres à la moindre erreur du réseau. Dans ce cas, il s’agit d’une explosion
de gradient.
Afin de garantir une bonne convergence des paramètres d’un réseau neuronal profond, il
est important de contenir le gradient. Des méthodes ont été développées pour se prémunir de
ces deux problèmes.
Gradient clipping
Nous pouvons tout d’abord citer la méthode du gradient clipping [Pascanu et al. 2013]. Cette
méthode vise à empêcher l’explosion du gradient. Elle consiste simplement à placer un seuil
haut que le gradient ne peut pas dépasser. Le gradient atteindra au maximum la valeur de ce
seuil, supprimant ainsi les risques de modifications excessives d’un paramètre.
41
Partie I, Chapitre 1 – Réseau neuronal profond
42
1.6. Modélisation de séquences
trées doivent être de taille fixe. Même s’il est aussi possible d’exploiter des fenêtres glissantes
sur la séquence, il ne sera toutefois pas possible de modéliser les dépendances en dehors de ces
fenêtres.
Un type de réseau neuronal a été conçu pour exploiter des entrées de taille variables et
modéliser des dépendances entre les caractéristiques d’entrées. Ces spécificités en font des
systèmes particulièrement adaptés à la modélisation de séquences, y compris la parole. Nous
les décrivons dans la sous-section suivante.
ot ot-1 ot ot+1
ht ht-1 ht ht+1
xt xt-1 xt xt+1
Figure 1.7 – Représentation d’un réseau neuronal récurrent. Chaque carré représente l’entiè-
reté d’une couche. À gauche, le principe de récurrence. À droite, une représentation équiva-
lente entre le temps t-1 et le temps t+1
Le principe de boucle permet une prise en compte de l’historique de la séquence qui fa-
vorisera la modélisation de dépendances. De plus, il rend possible l’exploitation de séquences
de taille variable. Contrairement à un réseau standard qui fait correspondre une entrée à une
43
Partie I, Chapitre 1 – Réseau neuronal profond
sortie, un réseau récurrent à la capacité d’être modulable. C’est-à-dire qu’il est possible de faire
correspondre plusieurs entrées à plusieurs sorties (many-to-many), mais aussi plusieurs entrées
à une seule sortie (many-to-one).
Il est à noter que ce type de réseau est particulièrement sensible aux problèmes de gradient,
dans la mesure où la récurrence accroit considérablement la profondeur du réseau.
Un réseau récurrent simple possède toutefois une mémoire limitée des éléments précédents
de la séquence. Même si en théorie ils sont capables de modéliser des dépendances éloignées,
des études ont montré leurs limites [Bengio, Simard et al. 1994]. Il apparait difficile de mo-
déliser des dépendances entre deux éléments éloignés dans la séquence présentée à un réseau
récurrent.
Un type de réseau récurrent a été développé pour répondre à ce besoin. Il s’agit des réseaux
récurrents à mémoire court et long terme, que nous explicitons dans la sous-section suivante.
Les réseaux récurrents à mémoire court et long terme (long-short term memory, LSTM) ont
été développés en 1997 [Hochreiter et Schmidhuber 1997]. Ils ont pour but de répondre à la
problématique de la modélisation de dépendances éloignées au sein d’une séquence. Les LSTM
en sont capables grâce à une mémoire interne contrôlée à l’aide de portes. Elles sont au nombre
de trois et sont chacune responsable d’une partie distincte du fonctionnement d’une cellule
LSTM.
La porte d’oubli lui permet de réaliser la gestion de la mémoire interne. Elle permet de
remettre à zéro tout ou partie du contenu de cette mémoire. Puis, la porte d’entrée effectue
la gestion des ajouts à la mémoire interne de la cellule en fonction de l’élément courant de la
séquence présentée. Enfin, la porte de sortie. Elle a pour but de calculer la sortie effective de la
cellule en se basant sur l’élément courant de la séquence, ainsi que l’état de la mémoire interne.
Nous donnons dans la figure 1.8 le schéma d’une cellule LSTM avec chacune des portes et
la mémoire interne mise en avant.
Une cellule GRU (Gated Recurrent Unit) ayant des propriétés similaires, avec une réduction
et une réorganisation des portes a été proposé dans [K. Cho, Van Merriënboer, Bahdanau et
al. 2014].
En complément, il est régulier de voir ce type de réseau avec une implémentation bidirec-
tionnelle. Cela signifie que la séquence d’entrées sera présentée au réseau dans le sens chro-
nologique de ses éléments, mais aussi dans le sens antéchronologique. Chaque couche bidirec-
tionnelle est composée de deux couches neuronales, une par sens. Puis une concaténation des
sorties des deux couches est effectuée pour fournir la sortie finale de la couche bidirectionnelle.
Ainsi, le réseau aura la capacité de modéliser des dépendances dans les deux sens, c’est-à-dire
les dépendances passées et futures.
44
1.6. Modélisation de séquences
ht
Ct-1 Ct
tanh
σ σ tanh σ
ht-1 ht
xt
Figure 1.8 – Représentation d’une cellule LSTM. En bleu la porte d’oubli, en vert la porte
d’entrée et en rouge la porte de sortie. La mémoire interne de la cellule est représentée par Ct .
Les réseaux neuronaux convolutifs (Convolutional Neural Network, CNN) [LeCun et al. 1990]
ont pour objectif de traiter efficacement des données représentées sous forme de tableau. Ils
sont ainsi particulièrement efficaces pour le traitement d’image (tableau 2D) et de parole, no-
tamment sous forme de spectrogrammes. Un réseau de ce type effectue des produits de convo-
lution, contrairement aux réseaux précédemment détaillés qui effectuent des produits matri-
ciels. Comme pour un perceptron multicouche, l’information au sein d’un CNN se propagera
vers l’avant. Toutefois, son architecture diffère dans la mesure où toutes les unités neuronales
d’une couche ne sont pas reliées à l’entièreté de la couche suivante. On parle de champ récep-
teur d’une unité pour mentionner les sorties neuronales, de la couche précédente, qui lui sont
connectées.
Un réseau convolutif est couramment composé de couches de convolution et de couches de
sous-échantillonnage entre chacune d’entre elles.
La couche de convolution permet l’extraction de caractéristiques et s’effectue à l’aide d’un
filtrage par convolution. Afin d’effectuer ce filtrage, une fenêtre glissante (filtre) est appliquée
sur les entrées. Elle effectue le calcul du produit de convolution entre cette fenêtre et la portion
d’entrée considérée. Cela signifie que le filtre appliqué représentera la caractéristique à extraire
par le réseau et ses paramètres sont estimés pendant l’apprentissage du réseau.
Les couches de sous-échantillonnages ont pour objectif la réduction de dimension des ca-
ractéristiques issues de la convolution, sans perte d’informations importante. Une méthode
45
Partie I, Chapitre 1 – Réseau neuronal profond
commune est le max-pooling qui consiste à favoriser les valeurs les plus importantes des ca-
ractéristiques issues de la convolution. L’avantage de ce sous-échantillonnage réside dans sa
capacité à mettre en avant les caractéristiques importantes tout en supprimant les valeurs non
pertinentes.
Même si ce type de réseau a été conçu pour la modalité image, il s’est particulièrement
illustré dans le cadre de la reconnaissance de la parole [Peddinti et al. 2015 ; Amodei et al.
2016], dont l’état de l’art sera l’objet du chapitre suivant.
Les architectures de ce type sont apparues récemment [K. Cho, Van Merriënboer, Gul-
cehre et al. 2014]. Leur principe consiste en l’utilisation conjointe de deux modules, un enco-
deur et un décodeur.
Un encodeur, est un réseau de neurones récurrent transformant une séquence d’entrée X =
(x1 , x2 , ..., xn ) en une unique représentation vectorielle de taille fixe (X 0 ).
Un second réseau récurrent est responsable de la transformation de X 0 en une séquence
de sortie Y , il s’agit du décodeur. Pour effectuer cette transformation, il effectuera à chaque
temps t une distribution de probabilités P (Yt |X 0 ) sur l’ensemble des symboles prédictibles par
le système.
Nous donnons dans la figure 1.9, une représentation schématique de l’architecture encodeur-
décodeur.
Y1 Y2 Y3
X'
X1 X2 X3
Dans ce type d’architecture, le vecteur de contexte peut être limitant dans la mesure où il
peut devenir un goulot d’étranglement. Cela a pour effet de réduire leur capacité pour effectuer
la modélisation de dépendances longues distances.
46
1.6. Modélisation de séquences
Cet inconvénient à toutefois été surpassé avec les mécanismes d’attention proposés récem-
ment dans le cadre de la traduction automatique [Bahdanau, K. Cho et al. 2015 ; Luong et al.
2015]. Ils permettent au modèle de se concentrer sur les parties pertinentes de la séquence
d’entrée selon les besoins. Nous décrivons le fonctionnement de ces mécanismes ci-dessous.
Mécanisme d’attention
1.6.4 Transformers
Les Transformers ont été proposés par [Vaswani et al. 2017]. Il s’agit d’un modèle s’ap-
puyant sur une architecture encodeur-décodeur exploitant différemment les mécanismes d’at-
tention. L’architecture des Transformers est aussi différente de celle qui est conventionnelle,
dans la mesure où il s’agit d’un empilement de plusieurs encodeurs et de plusieurs décodeurs.
Le nombre d’encodeurs et de décodeurs doit être identique.
Un encodeur est composé d’une couche d’auto-attention (self-attention), suivie d’une couche
linéaire traditionnelle.
47
Partie I, Chapitre 1 – Réseau neuronal profond
Le décodeur est complété par une couche d’attention, l’aidant à se concentrer sur les parties
pertinentes de la séquence d’entrée.
En complément, les Transformers ont introduit les mécanismes d’attention à plusieurs têtes
(multi-head attention) [Vaswani et al. 2017].
Ils obtiennent d’importantes performances, mais ont toutefois l’inconvénient d’être cou-
teux à l’apprentissage. Ils exploitent un nombre important de paramètres, impliquant un temps
de convergence élevé, ainsi qu’une grande quantité de données [Devlin et al. 2019 ; Brown et
al. 2020].
1.7 Conclusion
Au sein de ce chapitre, nous avons évoqué les aspects primordiaux de l’apprentissage neu-
ronal. De son origine à certaines de ses variantes les plus récentes, en passant par son fonction-
nement algorithmique. Nous avons vu qu’il s’agit d’un sous-domaine de l’IA et que son avan-
tage réside dans sa capacité à apprendre à répondre à une problématique à partir de données
annotées par l’humain. Nous avons également vu qu’avec l’apprentissage neuronal certaines
problématiques apparaissent, nécessitant le développement de nouvelles méthodes.
Enfin, de par la variété et la complexité de l’apprentissage neuronal, ce chapitre ne peut
le représenter dans sa totalité. Pour un paysage plus complet, nous encourageons le lecteur à
consulter [Goodfellow et al. 2016].
48
Chapitre 2
R ECONNAISSANCE DE LA PAROLE
Sommaire
2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2 Modélisation acoustique Markovienne . . . . . . . . . . . . . . . . . . . . . . 51
2.2.1 Modèles de Markov cachés . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.2.2 Modèles à mélange de gaussiennes . . . . . . . . . . . . . . . . . . . . . 53
2.2.3 Modèles neuronaux profonds . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.1 Modèle n-grammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3.2 Modèles neuronaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.4 Approches neuronales de bout en bout . . . . . . . . . . . . . . . . . . . . . . 56
2.4.1 Classification Temporelle Connectionniste . . . . . . . . . . . . . . . . . 57
2.4.2 Algorithme de Beam Search . . . . . . . . . . . . . . . . . . . . . . . . . 57
2.4.3 Architecture encodeur-décodeur avec attention . . . . . . . . . . . . . . 58
2.5 Évaluation de la reconnaissance de la parole . . . . . . . . . . . . . . . . . . . 60
2.6 Choix technologiques pour cette thèse . . . . . . . . . . . . . . . . . . . . . . . 60
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
49
Partie I, Chapitre 2 – Reconnaissance de la parole
Dans le cadre de cette thèse, nous souhaitons effectuer des travaux de compréhension du
langage parlé. Celle-ci est couramment effectuée à l’aide de systèmes successifs dont le premier
est dédié à la tâche de reconnaissance automatique de la parole (RAP). Ainsi, les technologies
de RAP employées ont une influence sur les performances finales de compréhension.
Dans ce chapitre, nous proposons de décrire les méthodes couramment employées pour
la tâche de RAP. Nous définissons tout d’abord cette tâche, puis nous détaillons les méthodes
s’appuyant sur des systèmes hybrides combinant des modèles de Markov cachés (Hidden Mar-
kov Model, HMM) [Rabiner 1989] et des modèles à mélange gaussien (Gaussian Mixture Model,
GMM). Nous décrivons ensuite les approches neuronales récentes remplaçant les GMM, ainsi
que celles rendant les systèmes dits de bout en bout pertinents.
2.1 Définition
Comme nous avons commencé à l’évoquer dans le chapitre précédent, la parole peut être
considérée comme une suite finie d’événements non aléatoires. Effectuer la reconnaissance de
la parole consiste à produire une séquence de mots à partir d’observations sur un signal acous-
tique de parole.
L’approche statistique est très majoritairement utilisée dans le domaine depuis des décen-
nies [Jelinek 1976]. Le principe consiste à rechercher la séquence de mots W 0 = w1 , w2 , ...wn à
partir d’observations acoustiques X = x1 , x2 , ...xt qui maximise :
Toutefois, il est compliqué de modéliser directement cette probabilité P (W |X). Par applica-
tion du théorème de Bayes cette équation peut s’écrire sous la forme :
P (X|W )P (W )
W 0 = arg max (2.2)
P (X)
où P (X) est une constante indépendante de W . Il est donc possible de simplifier l’équation
à résoudre :
La reconnaissance de la parole peut ainsi être prise en charge par l’utilisation conjointe de
deux modèles plus simples à modéliser.
Le premier est le modèle acoustique. Il permet de modéliser la probabilité d’observer la
séquence acoustique X lorsque les mots W sont prononcés : P (X|W ).
Le second est le modèle de langage, qui modélise la probabilité d’observer le mot W dans
la langue reconnue : P (W ).
50
2.2. Modélisation acoustique Markovienne
Ces deux modèles définissent des éléments essentiels à la mise en place d’un système de
RAP. Ils sont toutefois complétés par plusieurs autres modules nécessaires que nous n’aborde-
rons pas en détail.
Il s’agit tout d’abord d’un module de segmentation, dont l’objectif est de découper un signal
de parole en fenêtres observables. L’intérêt étant de sélectionner les zones comportant de la
parole et d’écarter celles contenant du bruit dans un signal audio.
Il s’agit ensuite d’un module d’extraction des paramètres acoustiques, qui est responsable
de la conversion d’un signal audio de parole en vecteurs d’observations acoustiques. L’intérêt
de ce module est, au sein d’un segment de parole, d’extraire les informations pertinentes de la
parole. La méthode d’extraction la plus fréquente consiste à calculer des coefficients cepstraux
(Mel-Frequency Cepstral Coefficient, MFCC) [Davis et Mermelstein 1980].
Il s’agit enfin d’un dictionnaire de prononciation qui à chaque mot du vocabulaire associe
la séquence de phonèmes correspondante. Il fait le lien entre la modélisation acoustique et le
modèle de langage.
Nous donnons une représentation schématique d’un système complet de reconnaissance de
la parole dans la figure 2.1.
51
Partie I, Chapitre 2 – Reconnaissance de la parole
Modèle, GMM), qui ont ensuite été surpassés par l’usage de réseaux de neurones [G. Hinton
et al. 2012].
Au sein des sous-sections suivantes, nous proposons de détailler ces technologies de modé-
lisation acoustique.
Figure 2.2 – Représentation d’un modèle acoustique exploitant des modèles de Markov cachés
pour le mot salut [Vythelingum 2019].
52
2.2. Modélisation acoustique Markovienne
Enfin, un automate formé par concaténation d’HMM peut être parcouru selon différents
chemins qui représentent un alignement possible entre le signal acoustique et une séquence
de mots. Il s’agit de trouver le chemin le plus probable à l’aide de l’algorithme Viterbi [Forney
1973], donnant ainsi l’alignement optimal. C’est l’algorithme le plus couramment utilisé, bien
qu’il en existe d’autres, comme la méthode itérative de Baulm-Welch [Baum et al. 1972].
Pour la tâche de reconnaissance de la parole, il est nécessaire d’estimer les probabilités
d’observations acoustiques sur les états des HMM. Pendant des années, ce sont les GMM qui
ont été une solution efficace pour cette estimation, puis, récemment les DNN les ont complétés.
Nous détaillons ce processus dans les sections suivantes.
Le principe des GMM est d’associer à chaque état d’un HMM, une somme pondérée de den-
sités de probabilités gaussiennes. Il s’agit ainsi d’exploiter la somme de plusieurs gaussiennes
et d’estimer la variance et la moyenne de celles présentes dans le mélange. La probabilité d’ob-
servations des états est donnée par l’équation suivante :
K
X
bj (xi ) = wj,k N (xi , µj,k , Θj,k ) (2.4)
k=1
Avec, N (xi , µj,k , Θj,k ) une densité de probabilité gaussienne, wj,k les poids associés au mé-
lange de gaussiennes et K le nombre total de gaussiennes par mélange. Le nombre optimal de
gaussienne doit être déterminé empiriquement.
L’exploitation de réseau de neurones comme alternative aux GMM a tout d’abord été pro-
posée sous forme de MLP [Bourlard et Wellekens 1987], puis des réseaux plus complexes les
ont remplacés [W. Ma et Van Compernolle 1990].
Toutefois, ce n’est que récemment que les DNN ont surpassé les GMM pour l’estimation
des probabilités d’émission des états HMM [G. Hinton et al. 2012]. De plus, les réseaux de
neurones à retardement (Time-Delay Neural Network, TDNN) sont particulièrement adaptés à
la structure dynamique de la parole [Waibel et al. 1989]. Ils ont ainsi permis d’atteindre les
performances à l’état de l’art avec une approche Markovienne [Peddinti et al. 2015].
Concrètement, l’objectif du système neuronal exploité est de modéliser les probabilités a
posteriori des états des HMM.
Dans le cadre des HMM-DNN, l’estimation des paramètres du DNN s’effectue après l’opti-
misation d’un modèle HMM-GMM par remplacement de la partie GMM. Nous fournissons en
figure 2.3, l’exemple d’une architecture HMM-DNN pour la reconnaissance de la parole.
53
Partie I, Chapitre 2 – Reconnaissance de la parole
k
Y
P (W ) = P (w1 ) P (wi |w1 ...wi−1 ) (2.5)
i=2
54
2.3. Modélisation du langage
nées. Il est rare d’observer plusieurs fois de longues séquences de mots dans un ensemble de
données.
Pour estimer un modèle de langage, il est nécessaire de maximiser la vraisemblance sur
un ensemble de données textuelles [Dempster et al. 1977]. Il s’agit de calculer la probabilité
d’apparition d’un mot i selon l’historique h de la façon suivante :
C(h, wi )
P (wi |h) = (2.6)
C(h)
Les modèles neuronaux sont une autre méthode pour modéliser le langage. Il s’agit de pro-
jeter les n − 1 mots dans un espace continu. Ainsi, cette projection produit une représentation
continue des mots (word embeddings). L’intérêt de cette projection est qu’elle rend possible l’ex-
ploitation de la notion de similarité entre les mots, permettant au modèle de généraliser plus
facilement. Cela signifie que les modèles neuronaux ont une meilleure capacité à prendre en
compte les séquences de mots n’apparaissant pas dans l’ensemble d’apprentissages (Out Of
Vocabulary, OOV).
Les modèles de langue neuronaux ont tout d’abord été introduits par les réseaux de type
perceptron multicouches (MultiLayer Perceptron, MLP) [Bengio, Ducharme et al. 2003 ; Schwenk
2007]. Ils ont ensuite pu bénéficier des apports des réseaux récurrents, qui facilitent la modé-
lisation des dépendances longue distance [Tomáš Mikolov et al. 2011].
Au sein des réseaux récurrents, il est aussi possible de trouver des modèles de langage
s’appuyant sur des couches bLSTM [Sundermeyer et al. 2012].
55
Partie I, Chapitre 2 – Reconnaissance de la parole
Ces dernières années, des modèles dits de bout en bout sont apparus [Graves, A.-r. Moha-
med et al. 2013 ; Graves et Jaitly 2014 ; Hannun et al. 2014 ; Miao et al. 2015 ; Amodei et al.
2016]. L’intérêt de ce type d’approche réside dans la mise en place d’un unique modèle directe-
ment optimisé pour effectuer la transcription d’un segment de parole en une séquence de mots.
Ils font partie des modèles séquence à séquence, qui effectuent la conversion d’une séquence
d’une forme à une séquence d’une autre forme. Ici, de l’audio vers le texte.
Malgré leurs noms, ces systèmes ne sont pas "tout-en-un" puisque la majorité continue
de nécessiter des données segmentées et, parfois, une extraction des paramètres acoustiques
(acoustic features). Ils peuvent être considérés comme une forme alternative de modèle acous-
tique, si bien que certains travaux mettent en place des approches hybrides HMM-DNN (voir
section 2.2.3) avec un système neuronal initialement de bout en bout [Yongqiang Wang et al.
2020].
Les modèles de bout en bout peuvent être complétés par des modèles de langues de deux
manières. Soit externes au système par l’utilisation de l’algorithme de décodage Beam-Search et
d’un modèle de langage pré appris [Amodei et al. 2016 ; Watanabe et al. 2018 ; Yiming Wang
et al. 2019]. Soit interne, par l’exploitation de couches récurrentes dédiées à la modélisation
du langage (RNN-LM) pouvant être appris conjointement au système [Hori, Watanabe et al.
2017 ; Hori, J. Cho et al. 2018].
Parmi les modèles de bout en bout, une première approche consiste à se passer de l’aligne-
ment a priori, entre un segment de parole et la séquence textuelle associée, grâce à l’utilisation
de la fonction de coût CTC (Connectionist Temporal Classification) [Graves, Fernández et al.
2006].
Les premiers systèmes exploitant pleinement cette fonction, associée à des approches neu-
ronales récurrentes, sont apparus en 2014 [Graves et Jaitly 2014]. Ils ont ensuite été enrichis de
couches de convolution dédiées à la représentation de caractéristiques issue de la parole [Amo-
dei et al. 2016]. Certains systèmes se sont même passés des couches récurrentes pour n’être
composés que de couches convolutionnelles [Y. Zhang et al. 2016].
Une autre approche consiste à exploiter des architectures initialement utilisées en traduc-
tion automatique. Il s’agit des encodeurs-décodeurs bénéficiant des mécanismes d’attention [J.
Chorowski et al. 2014 ; Chan et al. 2016]. Plus récemment encore, les transformers, dérivés
des encodeurs-décodeurs, se sont montrés performants pour la tâche de reconnaissance de la
parole [Dong et al. 2018 ; Moritz et al. 2020].
Dans les sous-sections suivantes, nous donnons des détails sur l’évolution de ces technolo-
gies dans le cadre de la reconnaissance de la parole.
56
2.4. Approches neuronales de bout en bout
Cette fonction de coût permet à un système neuronal d’apprendre l’alignement entre une
séquence d’entrée X et une séquence de sortie Y . Il s’agit de modéliser la probabilité d’observer
la séquence Y sachant X : P (Y |X). Un autre avantage de cette fonction concerne sa flexibilité,
puisqu’elle n’impose pas d’avoir des séquences X et Y de même taille, ni de conserver un ratio.
Dans le cadre de la reconnaissance de la parole, elle peut permettre l’apprentissage d’un
alignement entre un segment audio et la séquence représentant le texte associé. Nous décri-
vons, ici, le fonctionnement de la fonction CTC pour l’émission de caractères. Comme il s’agit
de la plus petite unité composant l’écriture d’un mot, cela permet la prise en charge des mots
hors vocabulaire (OOV). Toutefois, elle ne limite pas l’unité aux caractères, il est possible d’en
utiliser d’autres, comme les phonèmes [Fernández et al. 2008].
Afin d’appliquer la fonction CTC, il est nécessaire de découper un segment de parole en
trames fines. Une fenêtre de temps de 20ms est couramment utilisée.
Suite à ce découpage, l’extraction des paramètres acoustiques est à effectuer pour une trame
considérée. Puis, ces paramètres sont propagés à travers un réseau de neurones qui sera respon-
sable d’une distribution de probabilité sur l’ensemble du vocabulaire (les caractères) pouvant
être émis. Grâce à la distribution de probabilité effectuée sur chacune des trames, il est possible
de construire la séquence de caractères la plus probable associée à un segment audio.
Cependant, la parole est variable en terme de vitesse d’élocution. Ce qui signifie qu’une
trame découpée arbitrairement ne correspond pas systématiquement à un caractère. Cette
fonction de coût est complétée par une projection qui consiste à réduire les répétitions de
caractères identiques successifs. La séquence émise [h h h e e l l l l o o o o] deviendrait [h e l o].
Il apparait que cette projection n’est pas suffisante en l’état puisqu’elle interdit l’émission de
mots composés de lettres identiques successives. Pour pallier ce souci, il est nécessaire d’ajouter
un symbole dans le vocabulaire ().
Ce symbole est exploité pour enrichir les séquences Y de manière à séparer deux lettres de-
vant se suivre, par exemple [h e l l o]. La projection réalisée après construction de la séquence
la plus probable s’effectuera ensuite en deux temps. Tout d’abord la réduction des caractères
identiques successifs, puis la suppression des symboles . Un exemple serait : [h h h e e l l l o
o o] → [h e l l o] → [h e l l o].
Nous donnons dans la figure 2.4 une représentation schématique des étapes composants la
fonction CTC.
57
Partie I, Chapitre 2 – Reconnaissance de la parole
graphe. Ce nombre n est aussi appelé largeur du faisceau. Avec une largeur infinie, cet algo-
rithme est équivalent à un parcours en largeur d’un arbre. Lors du parcours de l’arbre, il s’agit
de classer les successeurs du noeud courant et de sélectionner les n meilleurs suivant un score.
Cet algorithme est couramment exploité comme stratégie de recherche au sein des sorties
de systèmes séquences à séquences. L’intérêt étant de construire un arbre des possibilités à
l’aide des séquences de sorties immédiates d’un système et d’un modèle de langage. Le modèle
de langage permet de définir le score des successeurs de chaque noeud.
Concrètement, l’emploi de cet algorithme, couplé à un modèle de langage, permet à un sys-
tème d’émettre une sortie davantage vraisemblable par rapport au langage ciblé. Un exemple
serait que, dans le cas d’un système de reconnaissance de la parole basé sur les caractères, cet
algorithme est capable de corriger des erreurs orthographiques comme "banjour", à condition
que le mot "bonjour" soit connu dans le modèle de langage utilisé.
58
2.4. Approches neuronales de bout en bout
Cette implémentation est très similaire à celle réalisée initialement pour la tâche de tra-
duction automatique. Toutefois, ces travaux n’agissaient que comme preuve de concepts et
n’ont pas surpassé une approche CTC pour la reconnaissance de phonèmes sur l’ensemble de
données TIMIT. Plus tard, des travaux complémentaires ont permis cette fois de la surpasser
légèrement [J. K. Chorowski et al. 2015].
Les travaux suivants ont permis de conforter la pertinence de ce type d’architecture, pour
la RAP, en apportant des modifications améliorant leurs performances.
Certains travaux se sont concentrés sur la modification de l’architecture, par exemple un
encodeur pyramidal [Chan et al. 2016].
D’autres ont modifié l’exploitation des mécanismes d’attentions, qui utilisent traditionnel-
lement l’ensemble de la séquence d’entrée pour sélectionner les trames pertinentes. Il a été
proposé de mettre en place une fenêtre d’observation limitée sur la séquence d’entrée et de
regrouper l’information de trames voisines [Bahdanau, J. Chorowski et al. 2016].
Encore d’autres travaux ont permis de tirer bénéfice à la fois des mécanismes d’attention et
de la fonction de coût CTC [Kim et al. 2017 ; Hori, Watanabe et al. 2017].
Enfin, ces architectures se sont positionnées comme état de l’art en reconnaissance de la
parole en exploitant les mécanismes d’attention à plusieurs têtes [C.-C. Chiu et al. 2018].
Transformers
Les transformers sont une forme spécifique d’architecture encodeur-décodeur. Nous les
avons décrits et avons détaillé leur fonctionnement global dans la section 1.6.4. Cette architec-
ture neuronale a été proposée dans le cadre de la traduction automatique de la langue [Vaswani
et al. 2017].
Ce n’est que très récemment que les transformers ont été appliqués à une tâche de recon-
naissance de la parole [Dong et al. 2018].
Certains travaux ont permis de surpasser toutes les précédentes architectures de bout en
bout pour la tâche de RAP [Pham et al. 2019]. Ils ont proposé d’augmenter considérablement
la taille de l’architecture en utilisant jusqu’à 48 couches de type transformer pour l’encodeur et
le décodeur, tandis que le papier originel exploite seulement 5 pour la tâche de traduction [Vas-
wani et al. 2017].
Encore plus récemment, des travaux ont rendu possible l’exploitation des transformers
pour la reconnaissance de la parole en flux continue (online speech recognition) [Moritz et al.
2020]. Ils étaient jusqu’à présent limités par l’obligation de fournir une séquence d’entrée com-
plète à l’architecture encodeur-décodeur.
Pour la reconnaissance de la parole, les transformers forment désormais un type d’archi-
tecture prometteur. Ils seront, à terme, susceptibles de totalement surpasser les encodeurs-
décodeurs plus classiques.
59
Partie I, Chapitre 2 – Reconnaissance de la parole
S +D +I
W ER = (2.7)
n
.
Avec S, D, I respectivement le nombre d’erreurs de substitution, de suppression, d’insertion
et n le nombre de mots dans la référence.
L’objectif des travaux de cette thèse concerne la prise en charge de la tâche de compré-
hension du langage parlé, directement depuis la dimension acoustique. Ainsi, nous souhaitons
mettre en place un système capable d’effectuer à la fois la tâche de reconnaissance de la parole
et la tâche de compréhension du langage. Nous nous sommes donc naturellement tournés vers
les technologies de reconnaissance de la parole, parmi lesquelles figuraient des approches de
bout en bout.
Cette thèse a débuté en septembre 2017, alors que les technologies de RAP de bout en bout
n’étaient que très récentes. Nous pouvions choisir entre une approche récurrente exploitant
la fonction de coût CTC et une approche encodeur-décodeur. Notre choix s’est porté sur l’ap-
proche récurrente au travers des travaux de [Amodei et al. 2016], de par la mise à disposition
d’une implémentation 1 de ce système et de la différence de performance jusqu’alors faible avec
les systèmes encodeurs-décodeurs [Zenkel et al. 2017].
1. https ://[Link]/SeanNaren/[Link]
60
2.7. Conclusion
2.7 Conclusion
Au sein de ce chapitre, nous avons évoqué les technologies employées pour effectuer la
tâche de reconnaissance automatique de la parole. Nous avons ainsi vu que la parole peut être
modélisée comme une séquence finie d’évènements non aléatoires. Bien qu’initialement domi-
nées par les HMM-GMM, les technologies de RAP ont évolué vers des approches neuronales.
Cette évolution s’est effectuée en plusieurs étapes avec tout d’abord l’exploitation d’approches
hybrides conservant les modèles markovien (HMM-DNN). Par la suite, des approches neuro-
nales utilisant un unique modèle sont apparues pour effectuer la tâche de RAP. Il s’agit des
approches dites de bout en bout et qui peuvent principalement s’apparenter à de la modélisa-
tion acoustique. Les approches de ce type s’appuient régulièrement sur la fonction de coût CTC
ou des architectures encodeurs-décodeurs. Puis elles ont évolué, notamment par des modifica-
tions des architectures neuronales, conduisant à l’utilisation des réseaux de type transformers.
Les approches de bout en bout sont un élément de base pour les travaux de cette thèse qui
consistent à effectuer la compréhension du langage directement depuis les signaux de parole.
Dans le prochain chapitre, nous réaliserons l’état de l’art de cette tâche de compréhension.
61
Chapitre 3
C OMPRÉHENSION DE LA PAROLE
Sommaire
3.1 Compréhension du langage appliquée à la parole . . . . . . . . . . . . . . . . 64
3.1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1.2 Chaîne de traitements successifs . . . . . . . . . . . . . . . . . . . . . . 65
3.1.3 Reconnaissance des entités nommées . . . . . . . . . . . . . . . . . . . . 66
3.1.4 Extraction de concepts sémantiques . . . . . . . . . . . . . . . . . . . . 67
3.1.5 Autres tâches de compréhension . . . . . . . . . . . . . . . . . . . . . . 68
3.2 Approches historiques d’étiquetage . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2.1 Automates à états finis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.2.2 Machines à vecteurs de support . . . . . . . . . . . . . . . . . . . . . . . 71
3.2.3 Champs aléatoires conditionnels . . . . . . . . . . . . . . . . . . . . . . 72
3.3 Approches neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.1 Représentation vectorielle des mots . . . . . . . . . . . . . . . . . . . . . 74
3.3.2 Réseaux de neurones récurrents . . . . . . . . . . . . . . . . . . . . . . . 75
3.3.3 Combinaison aux champs aléatoires conditionnels . . . . . . . . . . . . 76
3.3.4 Exploitation des mécanismes d’attention . . . . . . . . . . . . . . . . . . 76
3.4 Évaluation des performances d’un système de compréhension du langage . . 77
3.4.1 Précision, Rappel et F-Mesure . . . . . . . . . . . . . . . . . . . . . . . . 77
3.4.2 Évaluation des entités nommées . . . . . . . . . . . . . . . . . . . . . . . 78
3.4.3 Évaluation des concepts sémantiques . . . . . . . . . . . . . . . . . . . . 80
3.5 Impact des transcriptions automatiques . . . . . . . . . . . . . . . . . . . . . 81
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
63
Partie I, Chapitre 3 – Compréhension de la parole
La tâche visée dans le cadre de cette thèse concerne la compréhension de la parole. L’in-
térêt pour cette tâche est apparu il y a des décennies avec des travaux déjà basés sur l’in-
telligence artificielle. Il s’agissait de combiner une analyse syntaxique et une représentation
sémantique [Klatt 1977].
Depuis, l’intérêt pour cette tâche est important dans la mesure où elle facilite, entre autres,
les communications humain-machine en rendant possible la compréhension du langage natu-
rel dans des cadres applicatifs spécifiques.
Les domaines applicatifs de la compréhension de la parole sont variés, nous pouvons no-
tamment mentionner les objets connectés, comme les smartphones ou les assistants personnels.
Nous pouvons également mentionner des services comme la réservation automatique par té-
léphone ou même le routage d’appel dans le cadre de centre d’appel. Les possibilités offertes
par la prise en charge de la tâche de compréhension de la parole renforcent son intérêt pour
un cadre industriel et commercial.
Au sein de ce chapitre, nous proposons une description de la tâche de compréhension de la
parole. Nous proposons également de détailler les tâches relatives à la compréhension du lan-
gage parlé et notamment autour des entités nommées et des concepts sémantiques. Il s’agit en
effet des représentations sémantiques que nous étudierons dans cette thèse. Par la suite, nous
décrirons les systèmes couramment utilisés pour réaliser cette tâche, qu’ils correspondent aux
approches d’apprentissage machine traditionnelles ou aux approches neuronales plus récentes.
Nous évoquerons également les principales métriques d’évaluation relatives aux représenta-
tions sémantiques que nous exploitons. Enfin, nous proposons de détailler les impacts de la
méthode jusque là employée pour effectuer la tâche de compréhension dans la parole. Ces im-
pacts sont sources d’une motivation forte pour la complétion de l’objectif de cette thèse.
Pour mieux délimiter les contours de cette thèse, il nous faut définir ce que nous entendons
par compréhension de parole, nous proposons une définition dans la section suivante.
3.1.1 Définition
La compréhension de la parole peut être définie comme une tâche d’interprétation des
signes véhiculés par un signal de parole. C’est une tâche complexe dans la mesure où le sens
est mélangé au milieu d’autres informations comme l’identité du locuteur ou même son envi-
ronnement [De Mori 2007].
En d’autres termes, la compréhension du langage parlé consiste en la projection des in-
formations de parole d’une dimension acoustique vers une représentation sémantique. Cette
64
3.1. Compréhension du langage appliquée à la parole
projection correspond à l’extraction du sens. Il est ainsi nécessaire de définir ce que nous en-
tendons par le sens ou sémantique.
Une définition de la sémantique est donnée dans les travaux de [Woods 1975]. Selon l’au-
teur, la sémantique correspond aux relations entre les signes ou symboles, et ce qu’ils désignent
ou signifient. En soi, cela correspond à l’organisation de la signification.
Dans le domaine informatique, la sémantique computationnelle consiste en la projection
du sens d’un message en une représentation plus ou moins structurée. Cela se caractérise par
une conceptualisation du monde, par l’utilisation de processus de calculs, dans le but de mettre
en place une structure de représentation du sens. Cette structure est extraite à partir des signes
disponibles (symboles) et de leurs caractéristiques présentes dans les mots et les phrases [De
Mori et al. 2008].
De plus, il est très complexe d’effectuer la mise en place d’une représentation sémantique
suffisamment générique pour réaliser la tâche de compréhension du langage ouvert. Aussi, la
plupart des travaux de recherche en informatique traitant cette tâche exploitent une représen-
tation sémantique prédéfinie pour correspondre à un usage particulier, c’est-à-dire de façon ad
hoc. C’est également le cas des représentations sémantiques utilisées pour les travaux de cette
thèse.
Il est possible d’effectuer une représentation sémantique plus ou moins complexe. Nous
pouvons mentionner les représentations logiques à base de règles et de faits, les cadres séman-
tiques [Fillmore et al. 1976], les graphes sémantiques [Xie et Passonneau 2015], mais aussi les
représentations structurées.
Néanmoins, dans ces travaux nous nous plaçons dans le cadre de la segmentation en sé-
quence de mots support de concepts et l’étiquetage sémantique. Cadre qui peut être pris en
charge par des méthodes d’apprentissage automatique supervisé.
Effectuer une projection directe de la dimension acoustique vers une représentation séman-
tique spécifique a, jusque là, été une tâche trop complexe pour être envisagée directement par
un unique système bénéficiant des méthodes d’apprentissages automatiques supervisés. Afin
de prendre en compte la modalité parole, il a longtemps été question d’effectuer la mise en
place d’une chaîne de traitements successifs [Raymond et Riccardi 2007 ; Mesnil, X. He et al.
2013]. Nous apportons davantage de détails sur cette chaîne dans la sous-section suivante.
L’intérêt de la mise en œuvre d’une chaîne de traitements successifs réside dans sa capacité
à prendre en charge une tâche finale comme un ensemble successif de sous-tâches plus simples.
Dans le cadre de la compréhension de la parole, cela consiste à exploiter une représen-
tation intermédiaire entre la dimension acoustique et la représentation sémantique possible.
Cette représentation intermédiaire consite généralement en une représentation symbolique ob-
65
Partie I, Chapitre 3 – Compréhension de la parole
Reconnaissance Compréhension du
Automatique de la Parole langage
L’origine de la tâche de reconnaissance des entités nommées provient des conférences MUC
(Message Understanding Conference) initiées en 1987. L’objectif était de mettre en place des tra-
vaux dédiés à la compréhension automatique de documents [Grishman et Sundheim 1996]. La
compréhension d’un document consiste à extraire des éléments informationnels pertinents qui
jouent un rôle dans la description d’un événement ou d’un fait [Nouvel et al. 2015].
L’objectif de cette tâche a ainsi été défini comme une tâche d’extraction d’informations qui
66
3.1. Compréhension du langage appliquée à la parole
se concrétise par le remplissage de champs prédéterminé d’un formulaire (Slot Filling), à partir
de rapports textuels décrivant des événements.
La reconnaissance d’entités nommées consiste à extraire au sein d’un texte, les séquence de
mots relatives aux champs du formulaire prédéfinis. Ainsi, une entité nommée est caractérisée
par un type et une valeur.
La reconnaissance d’une entité consiste d’abord en la détection des séquences de mots sup-
port, puis en leur catégorisation. Cette catégorisation correspond à l’association de ces mots
support à un champ du formulaire. Les entités nommées peuvent être définies comme les
briques élémentaires de l’information présente dans les documents.
Au fil des années, la tâche initiale s’est enrichie par l’intermédiaire d’une gamme étendue
de type et de sous-type d’entités nommées, mais aussi par sa complexification. Initialement
attachées aux noms propres, les entités nommées ont ensuite été étendues à d’autres éléments
comme des syntagmes nominaux.
En complément, l’imbrication des entités nommées a été proposée dans le cadre de travaux
français [Galliano, Gravier et al. 2009]. Une entité nommée est imbriquée si elle est entière-
ment incluse dans une autre entité.
Enfin, d’autres travaux français ont proposé une définition étendue des entités nommées
[Grouin et al. 2011]. Cette définition ajoute la nécessité de structurer et de décomposer les
entités. Cela implique une première annotation selon les types entités nommées définis, puis
une seconde consistant à typer les éléments composants les entités. Ces derniers éléments sont
nommés composants.
Dans le cadre des travaux de cette thèse, nous prenons en compte cette définition étendue
des entités nommées.
Pour davantage de détails sur la tâche de reconnaissance des entités nommées, nous encou-
rageons le lecteur à consulter [Nouvel et al. 2015].
67
Partie I, Chapitre 3 – Compréhension de la parole
La notion de concept sémantique peut être définie comme l’unité minimale de sens. Il s’agit
donc d’un mot, ou groupe de mots rattaché à un type de concept inclus dans l’espace séman-
tique ciblé.
Les domaines applicatifs sont variés. Nous pouvons notamment citer les domaines de ME-
DIA [Bonneau-Maynard et al. 2005] et PORTMEDIA [Lefèvre et al. 2012], qui correspondent
respectivement à des tâches de réservation d’hôtels et de réservation de tickets de théâtre. Il
existe d’autres domaines, comme ATIS [Hemphill et al. 1990] qui concerne une tâche de réser-
vation de vols, ou encore M2M [Shah et al. 2018] qui concerne la réservation de restaurants et
de places de cinéma.
L’extraction des concepts sémantiques est une tâche très similaire à la reconnaissance des
entités nommées, au niveau de sa prise en charge. La différence fondamentale entre ces deux
tâches réside dans leurs objectifs. Les entités nommées s’attachent à la compréhension de do-
cuments, tandis que les concepts sémantiques sont exploités généralement dans un cadre ap-
plicatif spécifique d’interaction humain-machine.
Il convient d’exploiter des représentations sémantiques ad hoc différentes et propres à cha-
cune des tâches. C’est pourquoi, au sein de cette thèse, nous portons notre étude également sur
la tâche d’extraction des concepts sémantiques dans le cadre de MEDIA et PORTMEDIA.
Au sein de cette sous-section, nous effectuons une description brève d’autres tâches exis-
tantes de compréhension de la parole. Il s’agit cependant de tâches que nous ne ciblerons pas
dans le cadre des travaux de cette thèse.
Détection d’intention
Pour comprendre la tâche de détection d’intention, il est tout d’abord nécessaire de définir
l’intention. Celle-ci correspond à l’objectif d’une personne, qui peut être interprété à partir du
discours qu’elle prononce [Tur et De Mori 2011].
Il s’agit d’une tâche relativement complexe dans la mesure où l’intention d’un utilisateur
n’est pas nécessairement reliée à une unique formulation. Il s’agira donc de regrouper sous la
même catégorie d’intention des phrases potentiellement très différentes.
L’intérêt applicatif de ce type de tâche vient de sa capacité à extraire automatiquement
la requête d’une personne. Cela s’avère utile dans le cadre de centres d’appel téléphonique,
notamment pour le routage d’appel [Paek et Horvitz 2004 ; Juang et Rabiner 2005].
La détection d’intention peut également être traitée comme une tâche de remplissage d’un
formulaire [Xu et Sarikaya 2013 ; B. Liu et Lane 2016].
68
3.2. Approches historiques d’étiquetage
Résumé de documents
La tâche de résumé de documents peut être considérée comme la tâche visant à extraire le
sens d’un document dans le but de le condenser pour produire un résumé. Il peut s’agir d’une
reformulation du document d’origine [Murray et al. 2010] ou d’une sélection de segments
représentatifs du sens du document [Maskey et Hirschberg 2008]. Dans les deux cas, il s’agira
de détecter l’information pertinente en effectuant l’analyse de l’importance des éléments du
document.
Il est également possible que cette tâche soit prise en charge à l’échelle de plusieurs docu-
ments [Maskey et Hirschberg 2008]. L’objectif étant d’extraire, de l’ensemble des documents,
des informations répondant à une requête formulée par l’utilisateur du système.
L’intérêt pour cette tâche réside dans sa capacité à réduire l’effort humain pour l’indexation
d’information documentaire ou son accès [Tur et De Mori 2011].
Segmentation thématique
Comme nous l’avons mentionné, la compréhension de la parole peut être réduite à une
tâche de segmentation et d’étiquetage pouvant être résolue par l’intermédiaire de méthodes
d’apprentissages supervisés. Nous proposons donc, au sein de cette section, une description
des principales approches historiques d’étiquetage. Par approches historiques, nous entendons
les approches non neuronales.
Nous pouvons distinguer trois types d’approches principales, correspondant aux automates
69
Partie I, Chapitre 3 – Compréhension de la parole
à états finis, aux machines à vecteurs de support et aux champs aléatoires conditionnels. Nous
effectuons une description de ces approches dans les sous-sections suivantes.
Grammaires
Une grammaire consiste en la représentation d’un langage par l’intermédiaire d’un nombre
fini de règles. Il est possible d’envisager le langage naturel comme fini et donc pouvant être dé-
crit par un nombre fini de règles. Il peut ainsi être représenté par une grammaire dite formelle.
Cette grammaire permet de définir une syntaxe et donc l’ensemble des mots admissibles par
un langage [Chomsky et Lightfoot 2002].
Une définition des grammaires formelles est donnée par :
G = (ST , SN , R, A) (3.1)
Avec, ST l’ensemble des symboles terminaux, SN l’ensemble des symboles non terminaux,
R l’ensemble des règles de la grammaire définissant le passage d’un symbole à un autre et A le
symbole initial (axiome) inclus dans SN .
À cette définition s’ajoute une définition hiérarchique qui vise à séparer les grammaires for-
melles en plusieurs types s’incluant entre elles. On distingue quatre types différents de gram-
maires.
Tout d’abord les grammaires régulières, qui sont incluses dans les grammaires hors contexte.
Ces dernières sont incluses dans les grammaires contextuelles, elles-mêmes incluses dans les
grammaires générales [Chomsky et Lightfoot 2002].
En complément, les grammaires probabilistes sont apparues dans le but de retirer des am-
biguïtés du langage représenté. Il s’agit de différencier les interprétations diverses d’un même
mot ou d’une même expression. Le principe de ce type de grammaires repose sur la présence
d’un poids associé à chaque règle la composant.
L’objectif des FSM est donc de représenter le langage correspondant à une grammaire régu-
lière par une suite d’états finis et de transitions. Ce qui permet de déterminer l’appartenance
d’une chaîne de symboles au langage représenté [Raymond 2005].
70
3.2. Approches historiques d’étiquetage
Un FSM est capable de reconnaitre une chaîne de symbols, uniquement s’ il peut lire tous
les symboles de la chaîne en allant de son état initial, vers son état final. Pour cela, il doit pou-
voir effectuer des transitions entre chaque symbole de la chaîne. Cela implique nécessairement
des systèmes en vocabulaire fermé, mais aussi qu’un automate est exploité pour la représenta-
tion de chaque règle de la grammaire.
En complément, les transducteurs à état finis sont des FSM effectuant le lien entre deux
ensembles de symboles. Leur objectif est donc d’effectuer le lien entre la dimension textuelle
et la dimension sémantique. Pour cela, ils réalisent, à partir du langage reconnu, une analyse
grammaticale permettant la reconnaissance de formes prédéfinies correspondantes à la repré-
sentation sémantique définie.
Un exemple de transducteur à états finis est donné dans la figure 3.2.
Les machines à vecteurs de support (Support Vector Machine, SVM) correspondent à des
séparateurs linéaires dont l’objectif est de trouver les hyperplans réalisant la séparation de
groupes d’échantillons [Vapnik 2006]. Il s’agit de trouver les hyperplans possédant une marge
maximale entre deux groupes.
La notion de marge correspond à la distance entre la frontière de séparation (hyperplan)
et les échantillons les plus proches. Ces échantillons sont appelés vecteurs supports. La marge
maximale consiste donc à trouver l’hyperplan le plus éloigné des vecteurs supports.
Ce type d’approche peut être appliquée uniquement dans le cas de problèmes linéairement
séparables. Pour les exploiter sur des problèmes non linéairement séparables, il est nécessaire
d’appliquer une transformation pour rendre les données exploitées linéairement séparables.
Cette transformation est réalisée à l’aide d’un noyau, qui correspond à la fonction employée
pour la transformation. Il peut par exemple, être linéaire, gaussien, polynomial ou laplacien.
Suite à la transformation, il suffit d’appliquer les SVM dans leur fonctionnement nominal,
puisque le problème sera désormais rendu linéairement séparable.
Leur application dans le cadre de la compréhension du langage consiste à considérer le
problème comme une suite de classification linéairement séparable. Pour ce faire, une classifi-
cation est réalisée par élément dans la séquence [Joachims 1998 ; Hahn et al. 2010].
71
Partie I, Chapitre 3 – Compréhension de la parole
Afin de représenter le langage en entrée des systèmes, il est possible d’exploiter la méthode
du sac de mots (bag of words), c’est notamment le cas dans [K. Zhang et al. 2006]. Cette méhode
consiste à attribuer un index unique à chaque mot du langage afin de créer un dictionnaire. Par
la suite, le segment de texte considéré sera représenté par un vecteur formé par remplacement
des mots par leur index dans le dictionnaire.
Il s’agit de modèles graphiques qui exploitent un graphe non orienté pour représenter les
dépendances entre des variables aléatoires. La structure de ce graphe permet de définir les
dépendances dans la mesure où un nœud correspond à une variable aléatoire et une arête
représente une dépendance entre les variables qu’elle relie. Ainsi, ce type de modèle est défini
par G = (V , E), avec V les sommets (Vertice) et E les arrêtes (Edge).
En fonction de sa structure, le graphe représentant le modèle peut être factorisé en groupes
distincts étant chacun régi par une fonction (φ) dont la portée se limite au sous-ensemble de
variables de son groupe. Aussi, au sein d’un même groupe, toutes les variables doivent être
connectées les unes aux autres.
Nous donnons une représentation d’un champ aléatoire Markovien à quatre variables dans
la figure 3.3.
Figure 3.3 – Représentation d’un champ aléatoire Markovien à quatre variables. Représenta-
tion issue de l’article de A. Prasad, 2019.
72
3.2. Approches historiques d’étiquetage
L’objectif d’un CRF est de calculer la probabilité d’observer une séquence d’étiquettes (Y =
y1 , y2 ...yn ) à partir d’une séquence d’observations (X = x1 , x2 ...xn ), qui s’exprime par P (Y |X).
Dans le cas de la compréhension du langage, il s’agit de maximiser cette probabilité pour Y , Y
étant une séquence d’étiquettes sémantiques, et X une séquence de mots.
Les champs aléatoires conditionnels correspondent à un cas particulier de champs aléa-
toires Markovien. Lorsqu’un graphe est conditionné sur X, c’est un CRF si l’ensemble des va-
riables aléatoires dans Y = (Yv )v∈V suivent la propriété de Markov définis par :
Avec, w ∼ v signifiant que v et w sont voisins dans le graphe G. Nous donnons une repré-
sentation de la structure d’un CRF dans la figure 3.4.
Un CRF est régi par la formule générale issue de la théorie fondamentale des champs aléa-
toires [Hammersley et Clifford 1971]. Cette formule s’exprime par :
X X
Pθ (Y |X) ∝ exp( λk tk (e, Y |e , X) + µk sk (v, Y |v , X)) (3.3)
e∈E,k v∈V ,k
Avec, λk etµk des vecteurs de poids et tk (e, Y |e , X)etsk (v, Y |v , X) des vecteurs de caractéris-
tiques supposés donnés et fixes.
L’apprentissage d’un CRF consiste donc à estimer l’ensemble des poids θ = (λ1 , λ2 ...λk , µ1 , µ2 ...µk )
qui maximisent le log-vraisemblance des données d’apprentissage, selon :
n
X
L(θ) = logPθ (yi |xi ) (3.4)
i=1
Il existe plusieurs méthodes de résolution proposées pour l’apprentissage des CRF, comme
l’algorithme Viterbi, ou même Improved Iterative Scaling. Une comparaison de ces méthodes est
73
Partie I, Chapitre 3 – Compréhension de la parole
Afin d’alimenter des modèles neuronnaux pour réaliser la tâche d’étiquetage sémantique,
il est nécessaire de représenter les mots sous la forme de vecteur.
Représentation one-hot
74
3.3. Approches neuronales
mension vont porter l’information de mot. Les plus connues sont les représentations dites de
plongement de mot.
Les plongements de mots (word embeddings) ont été introduits par les travaux de [Bengio,
Ducharme et al. 2003]. Ces travaux consistaient en la construction de modèles de langues
neuronaux et ont par la suite été enrichis par d’autres travaux, comme [Schwenk et al. 2006].
Ce type de représentation est largement utilisé en association des réseaux de neurones, en
raison de sa plus grande richesse informationnelle. Un système neuronal peut exploiter, via
un dictionnaire, des plongements de mots appris en amont. Il est également possible de les
apprendre pendant la phase d’entraînement du système, suite à une initialisation aléatoire.
Le principe des plongements est de représenter un mot par un ensemble de valeurs réelles,
denses et de faible dimension, correspondant à un vecteur. Chaque dimension de ce vecteur
correspond à une caractéristique latente du mot, qui peut ainsi représenter des informations
syntaxiques et sémantiques [Ghannay 2017].
Depuis leur introduction, les plongements de mots ont largement été étudiés pour per-
mettre des représentations plus efficaces. On distingue ainsi plusieurs méthodes de construc-
tion des plongements, comme les modèles de langue neuronaux [Bengio, Ducharme et al.
2003 ; Schwenk et al. 2006], ou les plongements de type Global Vectors - GloVe [Pennington et
al. 2014]. D’autres méthodes ont été développées, comme word2vec (CBOW ou Skip-Gram) [To-
mas Mikolov, K. Chen et al. 2013 ; Tomas Mikolov, Sutskever et al. 2013].
Enfin, les plongements de mots ont été employés avec succès dans le cadre de la compré-
hension de la parole [Mesnil, X. He et al. 2013 ; Yao, Peng et al. 2014 ; B. Liu et Lane 2016].
75
Partie I, Chapitre 3 – Compréhension de la parole
Dans le cadre des travaux de [Mesnil, Dauphin et al. 2014], il est cette fois question d’éva-
luer les performances des réseaux récurrents en fonction de la façon dont la séquence d’entrée
est exploitée. Cela correspond à comparer l’exploitation d’une séquence vers le passé ou vers le
futur. Ces travaux concluent qu’il est préférable d’exploiter un réseau récurrent bidirectionnel,
qui permettra de modélisation la séquence en bénéficiant du contexte dans les deux sens.
Des travaux plus récents ont proposé l’exploitation d’un troisième type de récurrence ap-
portant un gain par rapport aux récurrences de Elman et de Jordan [Dinarelli et Tellier 2016].
Cette nouvelle récurrence consiste à injecter les informations de sorties non plus au niveau des
couches cachées, mais dès les couches d’entrée du réseau.
En parallèle, des travaux ont proposé d’exploiter des réseaux de type CNN pour la com-
préhension du langage [Xu et Sarikaya 2013]. Il a aussi été proposé des couches de type
LSTM [Yao, Peng et al. 2014], avant d’exploiter le contexte dans les deux sens (bLSTM) [Hakkani-
Tür, Tür et al. 2016].
Plus récemment encore, il a été proposé de bénéficier des champs aléatoires conditionnels
comme complément des approches neuronales. Il est ainsi question d’effectuer une approche
hybride mêlant une représentation neuronale et un CRF [Mesnil, Dauphin et al. 2014 ; X. Ma
et Hovy 2016 ; Kadari et al. 2018].
Le principe de ces approches hybrides est d’apprendre tout d’abord une représentation
continue de la séquence de mots, le plus couramment avec des réseaux de types LSTM / bLSTM.
Puis une approche CRF est appliquée pour effectuer l’étiquetage sémantique.
Dans [X. Ma et Hovy 2016], il est également question d’exploiter des couches CNN en
amont des couches récurrentes bLSTM. Ces CNN permettent d’enrichir la représentation neu-
ronale obtenue par l’ajout d’informations morphologiques extraites automatiquement au ni-
veau caractère.
Au début de cette thèse, l’approche combinant des couches de types CNN, bLSTM, et CRF
correspondait à l’état de l’art pour l’étiquetage neuronal de séquences. Une implémentation 1
de ces travaux a été rendu disponible par ses auteurs. Nos travaux se sont grandement appuyés
sur cette implémentation comme référence.
D’autres travaux se sont tournés vers l’exploitation des approches neuronales de type en-
codeurs/décodeurs. Ce type d’architecture est régulièrement exploitée avec des mécanismes
d’attention.
1. https ://[Link]/XuezheMax/NeuroNLP2
76
3.4. Évaluation des performances d’un système de compréhension du langage
77
Partie I, Chapitre 3 – Compréhension de la parole
nC
P= (3.5)
n
Avec nC le nombre de concepts correctement émis et n le nombre total de concepts émis.
Ensuite, le rappel consiste à calculer la couverture des concepts correctement reconnus.
Il s’agit d’une indication de la quantité de concepts couverts par le système et il est exprimé
ainsi :
nC
R= (3.6)
nR
Avec nC le nombre de concepts corrects et nR le nombre de concepts dans la référence.
La précision et le rappel sont deux indications qui indépendamment ne peuvent être suf-
fisantes. Un système peut tout à fait obtenir un score de précision de 0,9 avec seulement un
rappel de 0,1, ou inversement. Dans la configuration mentionnée, très peu de concepts seraient
couverts par le système, même s’il était très performant pour correctement les classifier.
L’intérêt de la F-mesure est d’effectuer une combinaison (moyenne harmonique) de la pré-
cision et du rappel pour proposer une mesure unique des performances d’un système.
Elle s’exprime ainsi :
P ∗R
F = 2∗ (3.7)
P +R
Il s’agit d’une métrique couramment utilisée dans le cadre de tâches d’extraction d’infor-
mation. Toutefois, en fonction des représentations sémantiques ciblées, des métriques spéci-
fiques peuvent être employées. C’est le cas notamment pour les entités nommées, ainsi que les
concepts sémantiques. Dans les sous-sections suivantes, nous détaillons les métriques associées
à ces représentations.
Pour l’évaluation des entités nommées, nous distinguons deux métriques, le Slot Error Rate
(SER) [Makhoul et al. 1999] et l’Entity Tree Error Rate (ETER) [Jannet et al. 2014].
La première métrique mentionnée (SER) s’apparente à un taux d’erreur qui nécessiterait
une représentation sémantique à plat en raison de la définition d’un slot. La notion de slot
peut se définir comme un regroupement d’un ou plusieurs mots caractérisés par des frontières
de début et de fin, ainsi qu’un type d’entité nommée.
La seconde métrique (ETER) est quant à elle fondée sur le SER, mais en permettant la
prise en compte d’une définition arborescente des entités nommées. Nous donnons ci-dessous
davantage de détails concernant ces deux métriques.
78
3.4. Évaluation des performances d’un système de compréhension du langage
Le principe du SER est très similaire au WER puisqu’il consiste en un calcul de taux d’er-
reur. Il s’agit donc de prendre en compte des erreurs d’insertion, de substitution et de suppres-
sion.
Cependant, avec cette métrique on distingue trois types d’erreurs de substitution. Tout
d’abord, les substitutions de frontières des slots (Sf ), puis les substitutions de type d’entités
nommées (St ) et enfin, les erreurs de frontières et de types ensemble (Sf t ).
De plus, cette métrique préconise d’affecter des coefficients à chaque catégorie d’erreurs.
Ce principe permet de la rendre plus modulable en tenant compte du poids relatif des erreurs
selon leurs catégories.
Son équation est la suivante :
α1 St + α2 Sf + α3 Sf t + βD + γI
SER = (3.8)
n
En soi, l’évaluation d’un système repose nécessairement sur un alignement entre l’hypo-
thèse qu’il produit et une référence manuelle. La différence principale entre la métrique du
SER et la métrique ETER se situe au niveau des alignements réalisés.
Pour le calcul du SER, il s’agit d’aligner les hypothèses et les références slot à slot. Cepen-
dant, un slot d’entité nommée ne peut représenter l’entièreté d’une entité nommée structurée.
Pour ce type d’EN, il est nécessaire d’exploiter un arbre-entité représentant toute la structure
arborescente de l’imbrication des entités. Un slot ne représente donc qu’un nœud de l’arbre-
entité global. Évaluer une structure arborescente avec la métrique du SER, revient à simplifier
le problème en évaluant chaque élément de cette structure indépendamment.
C’est pour répondre à cet inconvénient que la métrique ETER a été proposée [Jannet et
al. 2014]. Elle consiste à réaliser un alignement entre les arbres d’hypothèses et les arbres de
références pour prendre en compte tous les slots référant à un même arbre-entité.
Cette métrique se définit par l’équation suivante :
P
I +D + (er ,eh ) E(r,h)
ET ER = (3.9)
n
79
Partie I, Chapitre 3 – Compréhension de la parole
Avec ET (er , eh ) l’erreur de détection et de classification des entités, EC (er , eh ) l’erreur de dé-
composition et α, compris entre 0 et 1, fixant le poids relatif de ET par rapport à EC .
Cette métrique est particulièrement adaptée aux tâches de reconnaissance des entités nom-
mées structurée telles que QUÆRO. Nous détaillerons cette tâche plus en avant dans ce ma-
nuscrit (section 4.2.1).
Bien qu’adaptée à la tâche de reconnaissance d’entités nommées que nos travaux ciblerons
(voir chapitre 5), nous n’utiliserons pas cette métrique au sein de cette thèse.
En effet, dans le but de comparer nos résultats à des travaux antérieur, nous conserverons la
métrique du SER pour les entités nommées. Les travaux auxquels nous faisons mention seront
l’objet du premier chapitre de contribution de ce manuscrit.
Traditionnellement, les concepts sémantiques sont également évalués à l’aide d’un taux
d’erreur. Cela correspond au taux d’erreurs sur les concepts (CER), ainsi qu’au taux d’erreurs
sur les concepts et leurs valeurs (CVER), c’est-à-dire les supports de mots associés aux concepts.
Il s’agit de métriques très proches du taux d’erreurs sur les mots décrits dans la section 2.5.
Le calcul du taux d’erreurs est identique, à savoir :
S +D +I
CER/CV ER = (3.11)
n
Avec S, D, I respectivement le nombre d’erreurs de substitution, de suppression, d’insertion
et n le nombre de références.
Pour le CER, il s’agit d’appliquer ce calcul uniquement aux concepts et donc d’évaluer la
capacité d’un système à effectuer une classification correcte.
Pour le CVER, ce calcul est cette fois appliqué aux couples concepts/valeurs et un couple
est correct, uniquement si l’ensemble de ce couple est correct. Cela signifie que cette métrique
permet l’évaluation de la classification de concepts, mais aussi de leurs segmentations. C’est-à-
dire le placement des frontières délimitant les supports de mots.
Ces deux métriques sont appliquées dans le cadre de tâche d’extraction des concepts sé-
mantiques dans la parole. Cette modalité parole fait intervenir une contrainte supplémentaire
au CVER. En effet, elle impose qu’un couple concept/valeur soit correct si la transcription
80
3.5. Impact des transcriptions automatiques
81
Partie I, Chapitre 3 – Compréhension de la parole
3.6 Conclusion
Au sein de ce chapitre, nous avons décrit la tâche de compréhension de la parole, ainsi que
les technologies principalement employées pour l’effectuer.
Nous avons ainsi vu que la compréhension de la parole consiste en la projection des in-
formations de paroles d’une dimension acoustique vers une représentation sémantique définie
de manière ad hoc. Cette définition ad hoc permet de prendre en charge la tâche par l’inter-
médiaire des méthodes d’apprentissage supervisé. Ces méthodes ont jusque-là traité la tâche
comme une chaîne de traitements successifs, avec tout d’abord la reconnaissance de la parole,
puis la compréhension du langage appliqué sur les transcriptions automatiques.
Nous avons aussi mentionné que les tâches de compréhension de la parole correspondent
souvent à une tâche de remplissage de champs. C’est notamment le cas de la reconnaissance
des entités nommées et de l’extraction des concepts sémantiques, qui sont les tâches exploitées
dans le cadre de cette thèse.
Nous avons vu que l’approche d’apprentissage machine traditionnelle la plus efficace cor-
respondait aux CRF, mais aussi que les approches neuronales ont permis de pousser les limites
en termes de performances.
Au début de cette thèse, des approches fondées sur une combinaison de couches neuro-
nales CNN et bLSTM associées à un CRF constitué l’état de l’art, pour le composant de com-
préhension. Puis, pendant cette thèse, les technologies ont évolué vers les approches de type
encodeur/décodeur, les mécanismes d’attention et les approches de bout en bout.
Enfin, nous avons évoqué les principales métriques d’évaluation concernant la compréhen-
sion de la parole, ainsi que l’impact des transcriptions automatiques pour la tâche finale dans
le cadre d’une chaîne de composants.
Cet impact constitue une motivation importante pour la réalisation de l’objectif de cette
thèse, qui concerne la mise en œuvre d’une approche de bout en bout entièrement optimisée
pour la compréhension de la parole.
Pour terminer, davantage de détails concernant la compréhension du langage parlé sont
donnés dans [Tur et De Mori 2011]. Nous encourageons le lecteur à consulter cette référence.
82
Chapitre 4
E NSEMBLES DE DONNÉES
Sommaire
4.1 Les corpus ESTER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.1 ESTER 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.2 ESTER 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.1.3 Formalisme d’annotation en entités nommées ESTER . . . . . . . . . . 86
4.2 QUÆRO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.1 Formalisme d’annotation en entités nommées QUÆRO . . . . . . . . . 88
4.3 ETAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.4 EPAC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5 REPERE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.6 Les corpus MEDIA et PORTMEDIA . . . . . . . . . . . . . . . . . . . . . . . . 94
4.6.1 MEDIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.6.2 PORTMEDIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.6.3 Formalisme d’annotation en concepts sémantiques . . . . . . . . . . . . 96
4.7 DECODA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.8 Répartition des données au sein de cette thèse . . . . . . . . . . . . . . . . . . 97
83
Partie I, Chapitre 4 – Ensembles de données
84
4.1. Les corpus ESTER
nuellement et annotées dans le but d’évaluer les performances des systèmes de traitement de
la parole. Les évaluations des campagnes ESTER ont porté sur plusieurs tâches, notamment
sur la transcription de la parole et l’extraction d’information. Nous décrivons plus en détail les
données produites, ainsi que leurs origines dans les sous-sections suivantes.
4.1.1 ESTER 1
ESTER 1 est la première campagne d’évaluation ESTER qui s’est déroulée en deux phases,
en 2003 [Gravier, Bonastre et al. 2004] et en 2005 [Galliano, Geoffrois, Mostefa et al. 2005].
Le corpus [Galliano, Geoffrois, Gravier et al. 2006] produit à l’occasion de cette campagne
a été mis à disposition en 2005 par l’organisme ELRA sous la référence ELRA-S0241. L’ob-
jectif de cette campagne était d’initier des travaux sur le traitement d’émissions de journaux
d’informations. Elle visait notamment la transcription orthographique, la détection et le suivi
d’événement, ainsi que l’extraction d’informations (détection des entités nommées).
Ce corpus est constitué d’un ensemble de données audio transcrites manuellement et com-
portant 95 heures de paroles. Il est complété avec un ensemble de données audio non trans-
crites représentant 1700 heures. L’audio est issu de six sources francophones distinctes toutes
enregistrées entre 1998 et 2004 : Radio France International, France Inter, France Info, Radio
Télévision Marocaine, France Culture et Radio Classique.
Dans le cadre de cette thèse, nous exploitons uniquement les données manuellement trans-
crites. La répartition de ces données en fonction des ensembles d’apprentissage, de développe-
ment et de test est représentée par la figure 4.1.
69,5 h 9,5 h 16 h
Figure 4.1 – Répartition des données dans le corpus ESTER 1 exprimée en heures
Cet ensemble est annoté manuellement en entités nommées. Cependant, la tâche de Recon-
naissance des Entités Nommées était prospective. Elle avait pour but de définir un formalisme,
un corpus et des outils d’évaluation. Le formalisme d’annotation mis initialement en place
pendant cette campagne a été corrigé et augmenté lors de la seconde campagne (ESTER 2).
Ce corpus est donc annoté selon le formalisme corrigé que nous présenterons dans la sous-
section 4.1.3.
85
Partie I, Chapitre 4 – Ensembles de données
4.1.2 ESTER 2
Ce corpus est un complément à l’ensemble de données ESTER 1. Il est produit dans le
cadre de la campagne d’évaluation du même nom [Galliano, Gravier et al. 2009], réalisée en
2009. Cette campagne est une extension d’ESTER 1 ciblant une plus grande variété de styles
d’expressions orales et d’accents. Le corpus est mis à disposition par l’ELRA depuis 2012 sous la
référence ELRA-S0338 et il est constitué de 102,5 heures de paroles manuellement transcrites.
Les données audio sont, comme ESTER 1, issues de journaux d’informations de radio et de
télévision française. Elles proviennent de cinq sources distinctes : Radio France International,
France Inter, Radio Télévision Marocaine, Africa number one et Radio Congo. La figure 4.2
représente la répartition des données de ce corpus.
91 h 6,5 h 5h
86
4.1. Les corpus ESTER
87
Partie I, Chapitre 4 – Ensembles de données
4.2 QUÆRO
Le projet QUÆRO, initié en 2008 et achevé en 2013, est un projet de recherche collaboratif
relatif à l’analyse automatique et à l’enrichissement de contenus numériques, multimédias et
multilingues. Ce projet utilise la totalité des transcriptions du corpus ESTER 1 décrit en section
4.1.1 comme ensemble d’apprentissage. Un ensemble de 6,5 heures de paroles nouvellement
transcrites forme l’ensemble de test. L’ensemble QUÆRO est distribué par l’ELRA sous la ré-
férence ELRA-S0349. Nous donnons la répartition des données de cet ensemble dans la figure
4.3.
93,5 h 6,5 h
Une particularité du projet QUÆRO correspond à la mise en place d’une définition étendue
des entités nommées [Grouin et al. 2011]. Ainsi, tout ce corpus est annoté selon ce formalisme.
Cela signifie que l’ensemble d’apprentissage a été réannoté selon ce formalisme. Nous le décri-
vons dans la sous-section suivante.
88
4.2. QUÆRO
en composants et elle est donc structurée. Nous pouvons prendre en exemple une personne,
Jean-Baptiste Poquelin. Il s’agit d’une personne ([Link]) qui a un prénom ([Link]) et un nom
([Link]) permettant ainsi de décomposer l’entité nommée. L’aspect hiérarchique et compo-
sitionnel de cet exemple est représenté en A dans la figure 4.4.
Dans le formalisme QUÆRO, il est aussi possible d’imbriquer des concepts d’entités nom-
mées. C’est-à-dire qu’une entité nommée peut être décomposée à l’aide de composants, mais
aussi à l’aide d’une ou plusieurs autres entités nommées (exemple B de la même figure).
A B
[Link] [Link]
name
Figure 4.4 – Exemple de la structure QUÆRO des entités nommées. En bleu les annotations de
catégories, en vert les annotations de composants
89
Partie I, Chapitre 4 – Ensembles de données
90
4.3. ETAPE
Nous avons analysé les données du corpus QUÆRO. Cette analyse nous a permis de com-
prendre la répartition des entités nommées qui sont décrites dans la table 4.4 et la figure 4.5.
La table précise la composition générale du corpus en termes de mots, d’entités nommées et de
composants tandis que la figure donne la répartition des catégories d’entités nommées.
Table 4.4 – Composition des données QUÆRO en nombre de mots, d’entités nommées et de
composants
Entraînement Test
Figure 4.5 – Répartition des catégories d’entités nommées des données QUÆRO
4.3 ETAPE
La campagne d’évaluation ETAPE [Galibert, Leixa et al. 2014] correspond à la troisième
campagne française pour l’évaluation du traitement d’émission de journaux d’informations et
a été réalisée en 2012. Il s’agit d’une campagne faisant suite à la série des campagnes ESTER
présentées précédemment. ETAPE a apporté certaines nouveautés, comme par exemple l’in-
troduction de paroles spontanées et le chevauchement de locuteurs. Un corpus [Gravier, Adda
et al. 2012], tiré de cette campagne, est distribué depuis 2017 par l’ELDA sous la référence
ELRA-E0046.
Ce corpus est constitué de 32,5 heures de paroles issue d’émissions de journaux provenant
de quatre sources distinctes : France Inter, BFM TV, LCP et TV8 Mont-Blanc.
Nous donnons la répartition des données de ce corpus dans la figure 4.6.
91
Partie I, Chapitre 4 – Ensembles de données
Figure 4.6 – Répartition des données dans le corpus ETAPE exprimée en heures
ETAPE exploite le formalisme QUÆRO des entités nommées tel que défini dans la sec-
tion 4.2.1. Des statistiques sur le corpus en termes de nombre de mots, d’entités nommées et
de composants, pour chaques parties du corpus, sont présentées dans la table 4.5.
Table 4.5 – Composition des données ETAPE en nombre de mots, d’entités nommées et de
composants
Nous présentons la répartition des catégories des entités nommées pour les ensembles de
développement, de test et d’apprentissage dans la figure 4.7.
Figure 4.7 – Répartition des catégories d’entités nommées des données ETAPE
92
4.4. EPAC
4.4 EPAC
Le projet d’Exploration de masse de documents audio pour l’extraction et le traitement de
la PArole Conversationnelle (EPAC) s’est déroulé du 1er janvier 2007 au 31 décembre 2009. Il
concerne le traitement de données audio non structurées et a pour but de proposer des mé-
thodes d’extraction d’information et de structuration de données audio.
Pour ce faire, un corpus [Estève et al. 2010] a été construit à partir des 1 700 heures de
données audio non transcrites fournies par la campagne ESTER 1. L’objectif de ce corpus est
de mettre l’accent sur la parole conversationnelle. Il est composé de 90 heures de paroles ma-
nuellement transcrits et il est provient de trois sources distinctes : France Inter, France Culture
et RFI. Il est mis à disposition depuis 2010 par l’ELRA sous la référence ELRA-S0305. Nous
donnons la répartition de ce corpus dans la figure 4.8.
Figure 4.8 – Répartition des données dans le corpus EPAC exprimée en heures
4.5 REPERE
Le projet de REconnaissance de PERsonnes dans des Émissions audiovisuelles (REPERE)
est une campagne d’évaluation [Galibert et Kahn 2013 ; Bernard et al. 2014] de systèmes
permettant l’identification du locuteur, selon les modalités visuelle et parole. Cette campagne
s’est déroulée en trois étapes entre 2012 et 2014.
Un corpus [Giraudel et al. 2012] a été construit pour mener à bien cette campagne d’éva-
luation. Plusieurs versions de ce corpus ont été distribuées et nous utilisons sa version finale.
Le corpus est constitué d’enregistrements d’émissions de journaux télévisés provenant de deux
chaînes françaises : BFM TV et LCP. REPERE est composé de 48 heures de vidéo et de paroles
distribuées par l’ELRA sous la référence ELRA-E0044 depuis 2015. Nous donnons la réparti-
tion des données dans la figure 4.9.
35,5 h 9,5 h 3h
Figure 4.9 – Répartition des données dans le corpus REPERE exprimée en heures
93
Partie I, Chapitre 4 – Ensembles de données
4.6.1 MEDIA
Utilisateur
17 h 5h 1,5 h
Système
25 h 7h 2h
Figure 4.10 – Répartition des données dans le corpus MEDIA exprimée en heures en fonction
de la partie utilisateur et de la partie système.
94
4.6. Les corpus MEDIA et PORTMEDIA
4.6.2 PORTMEDIA
Le projet PORTMEDIA a pour objectif de compléter le corpus MEDIA. Les principaux axes
de ce projet concerne la portabilité multilingue, multidomaines, ainsi que la représentation
sémantique. Ce projet a permis la mise en place d’un corpus [Lefèvre et al. 2012] qui est un
complément au corpus MEDIA. Ce corpus est séparé en deux parties distinctes : PM-Lang et
PM-Dom.
La partie PM-Lang correspond au corpus MEDIA traduit en italien et annoté sémantique-
ment de la même manière.
La partie PM-Dom correspond à un nouveau corpus français de dialogue homme-machine
suivant le paradigme et les spécifications du corpus MEDIA. Pour cette partie, le domaine est
modifié, passant ainsi d’une tâche de réservation d’hôtel à une tâche de réservation de billet
pour le festival d’Avignon de 2010. Ce corpus est distribué par l’ELRA sous la référence ELRA-
S0371 depuis 2014.
Nous exploitons les données françaises, c’est-à-dire la partie PM-Dom. Elle est constituée
de 700 dialogues manuellement transcrits représentant un total de 34 heures de parole. La
partie PM-Dom est divisée en une sous partie utilisateur, représentant 12,5 heures, et en une
sous partie système, représentant 21,5 heures. Nous fournissons la répartition des données de
la partie PM-Dom en fonction du système et de l’utilisateur dans la figure 4.11.
Utilisateur
7h 3,5 h 2h
Système
10,5 h 8h 2,5 h
Figure 4.11 – Répartition des données dans le corpus PORTMEDIA exprimée en heures en
fonction de la partie utilisateur et de la partie système.
Une annotation sémantique est appliquée sur la partie utilisateur, nous la décrivons dans
la sous-section suivante.
95
Partie I, Chapitre 4 – Ensembles de données
96
4.7. DECODA
4.7 DECODA
Le projet de DÉpouillement automatique de COnversations provenant de centres D’Appels
(DECODA) a démarré en 2009 et vise à réduire le coût de développement des systèmes d’ana-
lyse de la parole. Il s’oriente notamment sur la réduction des besoins en annotation manuelle
des corpus. Son objectif est de proposer des outils robustes pour le traitement de la parole,
dans le cadre des centres d’appel de la Régie Autonome des Transports Parisiens (RATP). Pour
réaliser ce projet, un corpus a été collecté [Bechet et al. 2012] en conditions réelles.
Il est composé de 1 514 conversations représentant 56,5 heures de parole dont nous four-
nissons la répartition dans la figure 4.12.
40 h 8,5 h 8h
Figure 4.12 – Répartition des données dans le corpus DECODA exprimée en heures.
97
Partie I, Chapitre 4 – Ensembles de données
(ESTER 1 et ESTER 2) et QUÆRO (QUÆRO et ETAPE). Ces annotations nous permettent d’en-
visager la tâche de reconnaissance des entités nommées. Pour cette tâche, nous exploiterons
comme base de référence la campagne ETAPE qui correspond à la campagne d’évaluation la
plus récente. Cette campagne utilise le formalisme QUÆRO. Ainsi, nous choisisons de conser-
ver les annotations de ce formalisme et d’utiliser la répartition du corpus QUÆRO plutôt que
celle d’ESTER 1. Ce regroupement contient donc 132,5 heures de paroles annotées en entités
nommées.
Les données d’appels téléphoniques que nous regroupons correspondent aux corpus DE-
CODA, MEDIA et PORTMEDIA. Ils représentent un total de 147,5 heures de paroles télépho-
niques, composés de dialogues humain-machine et de conversation. Les 36 heures composants
les parties utilisateurs des données MEDIA et PORTMEDIA sont annotés sémantiquement. Ces
données rendent envisageable la tâche de compréhension de la parole par l’extraction de ces
concepts sémantiques.
Les deux types de données que nous regroupons permettent la tâche de reconnaissance de
la parole grâce à leur transcription. Cependant un échantillonnage différent (8 et 16 Khz) nous
impose d’adapter l’audio, en sous-échantillonant, lorsque l’on ne souhaite pas considérer ces
deux types indépendamment. Le rassemblement de toutes ces données nous permet d’obtenir
un corpus totalisant 520 heures de paroles, dont la répartion est représentée dans la figure 4.13.
409,5 h 70,5 h 40 h
Figure 4.13 – Répartition des données dans le regroupement des corpus exprimée en heures.
Dans le cadre de cette thèse, nous avons regroupé ces corpus afin de mettre en place les
bases nécessaires aux tâches de reconnaissance de la parole, de reconnaissance des entités nom-
mées et d’extraction des concepts sémantiques, que nous étudions dans la partie suivante.
98
Deuxième partie
Contributions
99
Chapitre 5
Sommaire
5.1 Contexte des travaux : ETAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.1.1 Résultats de la campagne . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.2 REN structurée par chaîne de composants . . . . . . . . . . . . . . . . . . . . 103
5.2.1 Déploiement d’un système de RAP intégrant un modèle neuronal . . . 103
5.2.2 Déploiement d’un système de REN intégrant un modèle neuronal . . . 104
5.2.3 Limite du formalisme BIO . . . . . . . . . . . . . . . . . . . . . . . . . . 104
5.2.4 Implémentation en trois niveaux . . . . . . . . . . . . . . . . . . . . . . 105
5.2.5 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 REN simplifiée de bout en bout . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.3.1 Définition de la tâche simplifiée . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.2 Système DeepSpeech 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.3 Alignement de parole et de transcriptions enrichies . . . . . . . . . . . 113
5.3.4 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . . 114
5.4 REN structurée de bout en bout . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.4.1 Mise en œuvre de DeepSpeech 2 . . . . . . . . . . . . . . . . . . . . . . 119
5.4.2 Extension du transfert d’apprentissage . . . . . . . . . . . . . . . . . . . 120
5.4.3 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . . 120
5.4.4 Comparaison avec l’approche en chaînes de composants . . . . . . . . . 122
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
100
Ce premier chapitre de contributions concerne la mise en place d’un système de bout en
bout appliqué à la compréhension de la parole.
Comme nous l’avons vu dans la partie état de l’art, les systèmes permettant la compréhen-
sion de la parole sont, jusque-là, des chaînes de traitements avec des composants successifs.
Elles sont composées d’un système de reconnaissance automatique de la parole (RAP) et d’un
système de compréhension du langage qui sera appliqué sur les transcriptions automatiques.
Cette thèse a pour objectif de s’émanciper de la transcription automatique intermédiaire
pour ne former qu’un seul système entièrement optimisé sur la tâche finale. L’intérêt premier
étant de dépasser la difficulté provoquée par l’application d’un système de compréhension
sur des transcriptions automatiques imparfaites, sources de bruits et donc d’erreurs. L’intérêt
second étant de disposer d’un système unique plus simple à maintenir.
Lorsque cette thèse a débuté, l’apprentissage profond constituait l’état de l’art dans plu-
sieurs domaines, dont la reconnaissance de la parole et la compréhension du langage. Des
travaux, orientant ceux de cette thèse, montrent l’intérêt d’approches de bout en bout dans le
cadre de ces tâches indépendantes [Hannun et al. 2014 ; Amodei et al. 2016 ; Y. Zhang et al.
2016 ; X. Ma et Hovy 2016].
L’objectif de ce chapitre est de bénéficier des travaux du domaine de RAP pour mettre en
place un premier système de bout en bout effectuant la reconnaissance des entités nommées
(REN) directement depuis la parole.
Nous choisissons la reconnaissance des entités nommées en français comme première tâche
applicative de compréhension de la parole. L’intérêt pour cette tâche réside dans les nombreux
travaux réalisés par de multiples campagnes d’évaluation [Gravier, Bonastre et al. 2004 ; Gal-
liano, Geoffrois, Mostefa et al. 2005 ; Galliano, Gravier et al. 2009 ; Galibert, Leixa et al.
2014]. En outre, nous avons à notre disposition l’ensemble des données de ces campagnes,
renforçant notre intérêt pour cette tâche.
Toutefois, les derniers travaux réalisés correspondent à la campagne ETAPE qui s’est dé-
roulée avant l’application avec succès des technologies neuronales pour la RAP et la REN. Ce
point définit notre première contribution, qui consiste à mettre en œuvre des systèmes à l’état
de l’art dans le cadre de la campagne ETAPE. C’est-à-dire, mettre en œuvre les nouvelles ap-
proches neuronales sur les ensembles de données de la campagne ETAPE. Cette mise à jour
des résultats nous permettra d’avoir une vision des capacités actuelles des systèmes neuronaux
employés sous forme d’une chaîne de composants.
Nous définissons ensuite notre deuxième contribution, qui concerne la mise en œuvre d’une
première approche de bout en bout dédiée à la REN dans la parole. Toutefois, la campagne
ETAPE fait appel à une définition structurée des entités nommées pouvant être considérée
comme riche (voir sous-section 4.2.1). Pour cette contribution, nous choisissons de simplifier
la tâche de REN afin de vérifier la viabilité de notre approche.
101
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
102
5.2. REN structurée par chaîne de composants
En 2012, les systèmes de reconnaissance de la parole les plus avancés étaient composés de
modèles de Markov cachés (Hidden Markov Model, HMM) et de modèles à mixtures de gaus-
siennes (gaussian mixture model, GMM) [Bougares et al. 2013]. Ce type de système a été appli-
qué avec succès pendant ETAPE, permettant d’obtenir un taux d’erreur (WER) de 21,8 %.
En complément, les systèmes basés sur les champs aléatoires conditionnels (Conditional
Random Field, CRF) étaient les plus avancés pour une tâche de reconnaissance des entités nom-
mées [McCallum et Li 2003 ; Sarawagi et Cohen 2004 ; Bundschus et al. 2008]. Par l’intermé-
diaire de 68 modèles CRF binaires, un par type et par composants d’EN, il a été possible d’at-
teindre un score SER de 59,3 %. Ce score est obtenu en appliquant le système décrit dans [Ray-
mond 2013] sur les transcriptions automatiques du meilleur système de RAP de la campagne.
Lorsque cette thèse a débuté, les technologies de RAP et de REN ont bénéficié des avancées
liées aux réseaux neuronaux. Ces avancées rendent désormais les résultats de la campagne
incomplets, voire obsolètes. Définissant ainsi le premier objectif de cette thèse, qui consiste
à mettre à jour les résultats de la campagne ETAPE avec les technologies à l’état de l’art. Ce
travail de mises à jour est l’objet de la section suivante.
Le système de RAP que nous souhaitons exploiter est un système hybride composé d’un
modèle de markov caché (HMM) et d’un modèle neuronal à retardement (TDNN). Nous le
choisissons en partie pour sa proximité avec les systèmes utilisés lors d’ETAPE, exploitant aussi
des modèles de Markov.
De plus, ce système est déjà disponible sur les serveurs de notre laboratoire et a été mis
en œuvre dans le cadre de précédents travaux. Il a montré sa capacité à atteindre des perfor-
mances à l’état de l’art. Il nous est ainsi apparu judicieux d’exploiter ce système qui, en plus de
correspondre aux besoins de cette étude, ne nécessitait que peu de temps humain à sa mise en
œuvre.
103
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
104
5.2. REN structurée par chaîne de composants
Nous fournissons en figure 5.1 l’exemple d’un fragment de texte annoté, la représentation
de son arborescence et l’annotation BIO en trois niveaux qui en découle.
105
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
la <[Link]> <kind> mairie </kind> de <[Link]> <name> paris </name> </[Link]> </[Link]>
[Link]
la O
mairie B-org.adm_B-kind
[Link]
de [Link]
paris I-org.adm_B-[Link].town_B-name
kind name
la mairie de paris
Figure 5.1 – Triple représentation d’une séquence, en haut la séquence de mots enrichie en en-
tités nommées, à gauche la représentation de l’arborescence de l’annotation et à droite l’anno-
tation BIO concaténée. En bleu, le premier niveau, en vert, le deuxième et en rouge, le dernier.
Un composant est dépendant du type de l’entité qu’il décompose. Il existe donc un lien
entre composants et entités nommées. Nous proposons de le modéliser en réutilisant les pré-
dictions d’un système comme entrée additionnelle des systèmes des niveaux suivants. Les sor-
ties du premier système seront des entrées additionnelles des systèmes des niveaux 2 et 3 et les
sorties du deuxième système seront des entrées supplémentaires du troisième.
Nous donnons dans la figure 5.2 une représentation schématique de l’implémentation des
systèmes de REN proposée.
106
5.2. REN structurée par chaîne de composants
O
[Link]
REN niveau 1
[Link]
[Link]
la O O_O_O
mairie O B-org.adm_O_B-kind
REN niveau 2
de O I-org.adm_O_O
paris [Link] I-org.adm_B-[Link].town_B-name
O
B-kind
REN niveau 3
O
B-name
Les expérimentations que nous menons dans cette partie visent à de mettre à jour les ré-
sultats de la campagne ETAPE. Comme la REN dans la parole s’effectue par l’intermédiaire de
chaînes de composants, nous avons précédemment identifié quatre systèmes pour nos expé-
rimentations. Le système de RAP HMM-GMM de 2012, le système de RAP HMM-TDNN de
2017, le système de REN CRF de 2012 et le système de REN CNN-bLSTM-CRF de 2017.
Pour réaliser notre étude, nous avons à disposition les scripts d’évaluation utilisés pen-
dant la campagne. Nous pouvons donc mener l’évaluation de nos systèmes dans des conditions
identiques à celles-ci.
Nous avons également à disposition les transcriptions automatiques du meilleur système
de RAP de la campagne ETAPE. Nous n’effectuerons donc pas la mise en œuvre d’un système
HMM-GMM.
À partir de ces 4 systèmes, des scripts d’évaluations et des données autorisées lors de la
campagne, nous sommes en mesure de déterminer expérimentalement l’impact de la mise à
jour de chacun des composants de RAP et de REN.
Nous détaillons ci-dessous la mise en œuvre des systèmes utilisés, ainsi que les résultats
que nous avons obtenus.
Système HMM-TDNN
Pour la mise en œuvre de ce système, le modèle acoustique est appris à l’aide des ensembles
de données, ESTER 1, ESTER 2, REPERE et VERA. Une description des trois premiers en-
107
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
sembles cités peut être trouvée dans le chapitre 4 de ce manuscrit. VERA [Goryainova et al.
2014] correspond à un ensemble de données recueillies dans le même cadre que projet ETAPE.
Par l’addition des parties d’apprentissage de ces ensembles, le modèle acoustique du système
HMM-TDNN est appris sur l’équivalent de 220 heures de paroles entièrement transcrites ma-
nuellement.
Le modèle de langage de ce système est, quant à lui, appris à l’aide des transcriptions ma-
nuelles des quatre ensembles cités. Des données issues d’articles de journaux les complètent.
Ces données correspondent à 19 ans d’articles du journal Le Monde, les articles du journal
L’Humanité de 1990 à 2007, ainsi que le corpus français Giga Word.
Système CRF
Nous mettons en œuvre un système CRF à l’aide de l’outil WAPITI [Lavergne et al. 2010].
Il s’agit d’un logiciel largement utilisé en raison de son efficacité à déployer des systèmes de
type CRF. Les modèles que nous entraînons s’appuient sur différentes caractéristiques :
— Mots et bigrammes des mots localisés autour des mots cibles sur une fenêtre [-2,+2].
— Préfixes et suffixes localisés autour des mots cibles sur une fenêtre [-2,+2].
— Caractéristiques de types Oui / Non : la présence de chiffres dans le mot, la présence
d’une majuscule comme première lettre.
— Plusieurs caractéristiques morphosyntaxiques extraites via l’outil tree-tagger 1 .
La mise en œuvre de ce système de REN suit naturellement l’implémentation en trois ni-
veaux que nous proposons. Nous utilisons donc des caractéristiques complémentaires corres-
pondant aux prédictions des modèles CRF précédents.
En appliquant notre annotation en trois niveaux, nous dénombrons 96 labels distincts pour
le premier niveau, 187 pour le deuxième niveau et 57 pour le dernier niveau. Ces chiffres sont
obtenus par l’utilisation de l’ensemble de données ETAPE dont l’apprentissage est augmenté
par les données QUÆRO, comme exploités durant la campagne.
Nous effectuons l’apprentissage de nos modèles CRF à l’aide de l’algorithme rprop [Ried-
miller et Braun 1993] pour un maximum de 40 époques.
Système NeuroNLP2
Le système NeuroNLP2 est une combinaison d’une couche CNN, de deux couches bLSTM
et d’un CRF. Pour la couche CNN, nous utilisons 30 filtres de taille 3 (kernel size). Les couches
bLSTM possèdent 200 unités et un dropout de 0,5 est appliqué entre chaque couche. Ce dro-
pout est également appliqué en entrée de la couche CNN. La taille des minibatchs est de 10 et
le taux d’apprentissage initial est 0,001.
108
5.2. REN structurée par chaîne de composants
Nous entraînons le système sur 100 époques et sélectionnons le modèle final en fonction
des performances sur l’ensemble de développement d’ETAPE.
NeuroNLP2 effectue l’extraction de représentation de caractères via sa couche CNN. Cette
représentation est concaténée à une représentation de mots, avant les couches bLSTM. Nous
apprenons notre propre dictionnaire de représentations de mots en amont de l’apprentissage
de NeuroNLP2. Puis, nous utilisons systématiquement le même dictionnaire pour toutes nos
expérimentations. Nous apprenons ce dictionnaire à l’aide de l’outil word2vec et d’un large
ensemble de données textuelles de deux milliards de mots. Cet ensemble est composé de 3,5
millions de mots uniques.
Nous utilisons des étiquettes morphosyntaxiques (Part-Of-Speech, POS) obtenues à l’aide
de l’outil Macaon [Nasr et al. 2011], comme données d’entrées complémentaires.
Pour effectuer l’apprentissage NeuroNLP2, nous utilisons les mêmes données que celles
employées pour notre CRF (ETAPE et QUÆRO). Nous exploitons également notre implémen-
tation en trois niveaux. L’injection des prédictions précédentes s’effectue par l’intermédiaire de
leur représentation vectorielle directement issue de la couche CRF. Nous concaténons les repré-
sentations intermédiaires aux représentations de caractères et de mots en entrée des couches
bLSTM.
Résultats
109
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
Système SER
(Sys 0) Référence ETAPE 2012 59, 3
(Sys A) RAP2012 / REN2012 69, 4
(Sys B) RAP2012 / REN2012 - 3 niveaux 59, 5
aux meilleurs systèmes de la campagne, par l’utilisation de 3 modèles CRF au lieu de 68 CRF
binaires. L’ensemble des expérimentations suivantes s’effectuera donc avec notre implémenta-
tion en trois niveaux.
Elles consistent cette fois à quantifier les performances. Nous considérons donc 4 systèmes
différents, le système (Sys B) déjà expérimenté, un système suite à la mise à jour du composant
de REN (Sys C), un système suite à la mise à jour du composant de RAP (Sys D) et enfin un
système suite à la mise à jour des deux composants (Sys E).
Système SER
(Sys B) RAP2012 / REN2012 59, 5
(Sys C) RAP2017 / REN2012 56, 1
(Sys D) RAP2012 / REN2017 55, 0
(Sys E) RAP2017 / REN2017 51,1
Table 5.2 – Résultats expérimentaux des mises à jour des chaînes de composants, exprimés en
SER pour l’ensemble de test d’ETAPE.
Nos expérimentations montrent, par comparaison des systèmes B et C, que la nouvelle tech-
nologie de reconnaissance de la parole apporte un gain de 3,4 points de SER. Il est explicable
par l’amélioration de la qualité des transcriptions automatiques qui sont fournies au compo-
sant de REN. En effet, le taux d’erreur sur les mots (WER) du système RAP2012 était de 21,8 %
sur le test d’ETAPE [Galibert, Leixa et al. 2014], tandis que lors de ces expérimentations, nous
avons mesuré un nouveau WER de 16,5 % (RAP2017 ).
La mise à jour du composant de REN seule nous permet de mesurer, par comparaison des
systèmes B et D, un gain de 4,5 points de SER. Enfin, en comparant les systèmes B et E, nous
observons que l’utilisation conjointe des deux systèmes mis à jour permet une amélioration
globale significative de 8,4 points de SER.
Par la mise à jour de chacun des composants et l’utilisation de l’implémentation en trois
niveaux que nous avons proposés, nous sommes en mesure d’obtenir 51,1 points de SER contre
59,3 points en 2012.
Nous avons effectué la mise à jour des résultats de la campagne ETAPE, qui constituait le
premier objectif de nos travaux autour de la reconnaissance des entités nommées. L’objectif sui-
110
5.3. REN simplifiée de bout en bout
vant de nos travaux consiste en la mise œuvre d’un premier système de bout en bout dédié à la
REN dans la parole. Il s’agit d’un unique système capable d’effectuer simultanément la recon-
naissance de la parole et la reconnaissance des entités nommées, plutôt que par l’intermédiaire
d’une chaîne de composants. Dans la section suivante, nous aborderons ce premier système
mis en œuvre dans le cadre d’une tâche de REN simplifiée par rapport à la REN structurée.
Dans cette section, l’objectif est de vérifier la capacité d’un système neuronal à apprendre
un unique modèle effectuant les tâches de RAP et de REN conjointement. Une approche de bout
en bout implique l’optimisation d’un unique modèle contre deux dans le cadre d’une chaîne
de composants. Son intérêt réside dans sa capacité à se passer de la transcription textuelle
intermédiaire entre les composants. Supprimant ainsi le bruit, issu de la reconnaissance de la
parole, qui été présent en entrée du composant de REN.
Des approches de ce type ont déjà été mis en œuvre avec succès pour la tâche de recon-
naissance de la parole [Hannun et al. 2014 ; Amodei et al. 2016 ; Y. Zhang et al. 2016]. Nous
souhaitons étendre la capacité des systèmes de RAP de bout en bout pour leur permettre d’ef-
fectuer la REN directement depuis la parole. Dans cette thèse, nous nous concentrerons sur le
système de RAP DeepSpeech 2 [Amodei et al. 2016] dont l’implémentation est mise à disposi-
tion par les auteurs.
Nous avons jusque là réalisé la reconnaissance des entités nommées structurées, qui reste
en soit une tâche complexe. Pour notre premier système de bout en bout, nous souhaitons
réaliser une tâche de REN plus simple.
Nous avons à notre disposition des données annotées en entités nommées issues des en-
sembles ESTER 1 / QUÆRO, ESTER 2 (partie développement) et ETAPE. Rappelons que les
données QUÆRO sont une réannotation en EN des transcriptions manuelles d’ESTER 1.
Nous souhaitons maximiser notre quantité de données d’apprentissage. Ainsi, nous récu-
pérons toutes les données annotées et nous envisageons d’utiliser l’ensemble ESTER 1 couplé à
ESTER 2 et ETAPE. Toutefois, leurs schémas d’annotation ne sont pas entièrement compatibles
(plus de détails sont données dans les sections 4.1.3 et 4.2.1). La simplification de l’annotation
en entités nommées nous permet de bénéficier de toutes nos données en les rendant suffisam-
ment simples pour être compatibles.
Nous définissons ainsi une tâche de REN simplifiée et nous donnons les transformations
effectuées dans la sous-section suivante.
111
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
Nos données sont annotées selon les formalismes ESTER et QUÆRO. Ces formalismes uti-
lisent une typologie hiérarchique définissant un grand nombre de types d’EN. Notre première
simplification consiste à supprimer cette hiérarchie pour conserver des entités plus génériques,
comme c’est notamment le cas dans certaines définitions, par exemple MUC 7 2 .
Le formalisme QUÆRO nécessite la décomposition des EN, ce qui constitue la plus grande
source de complexité de l’annotation. Nous proposons de supprimer l’aspect compositionnel
en supprimant la notion de composants, mais aussi en supprimant l’imbrication des types EN.
Pour supprimer cette imbrication, nous avons décidé de ne conserver que les types entités
nommés de plus bas niveau, soit les plus proches des mots.
En effectuant ces transformations, nous définissons une tâche de REN non structurée basée
sur 8 catégories d’EN : "time", "f unc", "loc", "org", "pers", "prod", "amount", "event". Comme
les formalismes ESTER (voir section 4.1.3) et QUÆRO (voir section 4.2.1) sont proches, ils
deviennent additionnables par application de nos transformations.
Nous donnons un exemple de séquence et sa version simplifiée en figure 5.3.
Séquence
<[Link]> <title> Monsieur le <[Link]> <kind> ministre </kind> </[Link]> </title> </[Link]>
complète
Séquence
Monsieur le <func> ministre </func>
simplifié
Figure 5.3 – Exemple de séquence enrichie en entités nommées. Une séquence complète au-
dessus, sa version après application de nos transformations en dessous.
Après avoir défini notre tâche simplifiée, nous présentons dans la sous-section suivante le
système nous servant de point de départ.
112
5.3. REN simplifiée de bout en bout
113
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
En complément, la fonction CTC donne la même importance à chaque caractère émis. Nous
proposons ainsi une modification des transcriptions pour contraindre cette fonction à concen-
trer l’apprentissage sur les frontières d’EN et leurs valeurs. Cette modification consiste à rem-
placer l’ensemble du contexte (les mots à l’extérieur d’une entité), par une simple étoile. Nous
appelons cette modification "mode étoile". En remplaçant par une simple étoile, nous réduisons
le contexte à un unique caractère là où il était représenté par plusieurs. De cette manière, les
types entités nommés et leurs valeurs représentent désormais la principale source de caractères
devant être émis.
Nous donnons ci-dessous, un exemple avec chacune des annotations mentionnées dans
cette sous-section.
Séquence le sculpteur césar est mort hier à paris à l'âge de soixante dix sept ans
de mots
Séquence
le sculpteur <pers césar > est mort <time hier > à <loc paris > à l'âge de
de mots
<amount soixante dix sept ans >
enrichie
Séquence
de mots le sculpteur [ césar > est mort # hier > à $ paris > à l'âge de % soixante
enrichie dix sept ans >
encodée
* [ césar > * # hier > * $ paris > * % soixante dix sept ans >
Mode étoile
Ensembles de données
Dans le cadre de nos expérimentations, nous souhaitons disposer du système le plus perfor-
mant possible. Nous souhaitons donc naturellement maximiser la quantité de données à notre
114
5.3. REN simplifiée de bout en bout
disposition. Pour l’aspect entités nommées, nous exploitons le maximum de données manuel-
lement annotées qui ne représentent que près de 140 heures de parole.
Nous avons la possibilité d’augmenter notre quantité de données pour l’aspect parole.
Même si elles ne sont pas annotées manuellement en entités nommées, nous récupérons les
données des ensembles EPAC, REPERE et ESTER 2 (apprentissage / test) qui sont manuelle-
ment transcrites.
Nous avons donc à disposition ESTER 1 / QUÆRO, ESTER 2 (développement) et ETAPE
manuellement annotée pour la tâche de REN et manuellement transcrit. Nous avons aussi,
ESTER 2 (apprentissage / test), REPERE et EPAC comme données manuellement transcrites.
Lorsque nous effectuons l’utilisation conjointe de différents ensembles de données, nous
utilisons systématiquement la répartition d’origine des ensembles. Pour nos expériences, nous
constituons donc un ensemble de près de 290 heures d’apprentissage, de 40 heures de test et
de 40 heures de développement. Parmi ces données, l’annotation manuelle en EN est réalisée
sur 90 heures d’apprentissage (ESTER 1, ETAPE), 16 heures de test (ESTER 1, ETAPE) et 28
heures de développement (ESTER 1, ESTER 2, ETAPE).
Toujours dans l’optique de maximiser notre quantité de données, nous proposons pour ces
travaux d’effectuer une augmentation automatique des données d’EN. Pour ce faire, nous pro-
posons d’apprendre le système NeuroNLP2 pour effectuer la tâche de REN simplifiée dans les
transcriptions de la parole. Nous effectuons sa mise en œuvre de la même façon que présentée
en section 5.2.
Au vu des simplifications appliquées, nous n’utilisons pas notre approche en trois niveaux.
Nous effectuons l’apprentissage d’un modèle NeuroNLP2 à partir des annotations manuelles
d’EN. Nous réalisons ensuite l’annotation automatique des transcriptions manuelles des don-
nées de paroles à notre disposition.
Cette augmentation automatique est portée sur les ensembles d’apprentissages unique-
ment, permettant ainsi d’atteindre 290 heures de paroles annotées en entités nommées au-
tomatiquement et manuellement.
À partir du système DeepSpeech 2, de notre proposition d’enrichissement des transcrip-
tions, de nos données et de la métrique d’évaluation choisis, nous menons les expérimentations
visant à vérifier la viabilité de notre approche.
Expériences et résultats
115
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
Table 5.3 – Résultats exprimés en précision, rappel et F-mesure pour la détection de type
entités nommées.
Ces résultats tendent à montrer la viabilité de notre approche pour la REN dans la parole
de bout en bout. En effet, nous obtenons des scores de F-mesure supérieurs à 0,6 pour la classi-
fication de 8 catégories d’EN. Notre système est donc en mesure de modéliser une information
pertinente.
De plus, l’évaluation sur l’ensemble de développement définit les performances atteignables
lorsque nous optimisons un modèle. La comparaison des performances sur les ensembles de
développement et de test montre une perte raisonnable, renforçant la pertinence de notre ap-
proche. Plus cette perte est minime, plus le système mis en œuvre aura modélisé une informa-
tion généralisable.
Nous pouvons aussi voir l’intérêt du mode étoile proposé qui donne une amélioration glo-
3. http ://[Link]/Speech/docs/sctk-1.2/[Link]
116
5.3. REN simplifiée de bout en bout
bale des F-scores. Nous remarquons qu’elle est effective grâce à une amélioration notable du
rappel. Il est ainsi possible de détecter davantage de types EN en concentrant l’apprentissage
de la fonction de coût sur les types et leurs valeurs.
Toutefois, la précision chute en cas d’utilisation de ce mode. Cela peut s’expliquer par la
perte du contexte qui semble être un élément nécessaire à la classification correcte d’une fron-
tière détectée.
En complément, nous effectuons l’évaluation des deux systèmes pour la reconnaissance des
types EN et de leur valeur. Pour ce faire, nous effectuons à nouveau un alignement avec l’outil
sclite. Nous donnons en table 5.4 les résultats exprimés en Précision, Rappel et F-mesure pour
la détection conjointe de type EN et de leurs valeurs.
Table 5.4 – Résultats exprimés en Précision, Rappel et F-mesure pour la détection de type
entités nommées et leurs valeurs.
Sur ces résultats, nous observons aussi un gain en rappel et une perte en précision par
l’utilisation du mode étoile. Cependant, le gain en rappel ne permet pas de compenser la perte
en précision, rendant le mode étoile moins intéressant.
L’analyse de ces résultats semble indiquer que l’alignement réalisé pour l’évaluation im-
plique une certaine rigidité. Une réponse du système est considérée correcte si le type d’EN
et la valeur correspondent parfaitement à la référence. Des erreurs minimes de frontières im-
pliquent une réponse fausse, par exemple "<loc> à Paris </loc>" est faux si la référence est "à
<loc> Paris </loc>". Il en est de même pour des erreurs mineures de transcription ne modifiant
pas fondamentalement le sens du segment.
Ainsi, ces résultats, bien que très en dessous de ceux de la reconnaissance de type EN seul,
sont un nouvel indice de la viabilité de notre approche de bout en bout. Dans la suite des expé-
rimentations, nous évaluerons les performances de notre système uniquement sur l’ensemble
de test.
Nous proposons désormais de maximiser les performances de notre approche en exploitant
la totalité de nos données annotées manuellement et automatiquement en EN. Nous appre-
nons ainsi deux systèmes supplémentaires avec les données augmentés en suivant également
l’apprentissage par transfert. Le premier système bénéficie uniquement de l’augmentation de
données et est nommé RAP → REN +, tandis que le second bénéficie, en plus, du mode étoile
(nommé RAP → REN +*). Nous reportons les résultats de nos évaluations dans la table 5.5.
L’augmentation de données imparfaite que nous réalisons permet une amélioration globale
117
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
Table 5.5 – Résultats exprimés en Précision, Rappel et F-mesure pour la REN sur l’ensemble
de test. Comparaison de l’approche augmentée et de l’approche augmentée en mode étoile.
des résultats en comparaison avec les tables 5.3 et 5.4. Elle est aussi bénéfique pour le mode
étoile qui permet d’atteindre nos meilleurs résultats pour la REN simplifiée de bout en bout.
Afin de compléter ces résultats, nous proposons d’effectuer une comparaison à une ap-
proche traditionnelle par chaîne de composants. Nous détaillons dans la section suivante la
chaîne que nous mettons en place.
Nous avons vu en section 5.2 qu’il est préférable d’exploiter des composants à l’état de l’art.
Nous utilisons donc naturellement le système NeuroNLP2 comme composant de REN. Nous le
mettons en œuvre dans la même configuration que dans la sous-section 5.2.5, y compris pour
l’exploitation des informations d’étiquettes morphosyntaxiques.
Nous utilisons comme système de RAP, le système DeepSpeech 2 obtenu lors de la première
étape de l’apprentissage par transfert évoqué précédemment. Comme la qualité des transcrip-
tions automatique a une incidence au sein d’une chaîne de composants, nous souhaitons la
maximiser.
Le système DeepSpeech 2 peut effectuer la transcription de l’audio de manière totalement
neuronale (greedy decoding), c’est-à-dire en utilisant un algorithme glouton qui selectionne la
sortie la plus probable à chaque temps t pour construire la séquence de sortie. Il peut éga-
lement tirer bénéfice d’un modèle de langage (Beam Search decoding, voir section 2.4.2). Son
utilisation implique l’amélioration de la qualité des transcriptions automatiques, puisque les
sorties initiales seront modifiées pour être en cohérence avec le modèle de langage. DeepSpeech
2 effectue une prédiction caractère par caractère. Ainsi, le modèle de langage est en mesure de
corriger des émissions de mots inconnus ou mal orthographiés.
Nous effectuons l’évaluation des transcriptions automatiques sur les ensembles de test ma-
nuellement transcrits, indépendamment de l’annotation en entités nommées. Nous utilisons,
comme métrique, le taux d’erreur sur les mots (WER) et le taux d’erreur sur les caractères. Cette
deuxième métrique est identique au WER, hormis son application à l’échelle des caractères au
lieu des mots. Ce système obtient un score de 19,95 % de WER et 7,68 % de taux d’erreur sur
les caractères, pour les ensembles de tests conjoints de 40 heures. Nous rappelons que cet en-
118
5.4. REN structurée de bout en bout
semble de tests conjoint correspond à la réunion des ensembles de test manuellement transcrits
d’ESTER 1 et 2, d’ETAPE, d’EPAC et de REPERE.
Nous effectuons ensuite la tâche de REN simplifiée sur les transcriptions automatiques de
test. Nous donnons dans la table 5.6, les résultats de la chaîne de composants pour cette tâche.
Table 5.6 – Résultats exprimés en Précision, Rappel et F-mesure pour la REN simplifiée avec
une chaîne de composants composée de DeepSpeech 2 (DS2) et NeuroNLP2. Les résultats en-
cadrés par des guillemets sont reportés de la table 5.5.
Ces résultats peuvent êtres comparés à ceux obtenus sur l’ensemble de test des tables 5.3, 5.4
et 5.5. Ils nous montrent que l’approche de bout en bout est performante pour la reconnais-
sance des types entités nommées, tandis que l’approche par chaîne de composants reste préfé-
rable pour la reconnaissance des types et des valeurs. Il s’agit en soit de résultats appuyant la
viabilité de notre approche de bout en bout pour la tâche de REN simplifiée.
Nous souhaitons désormais confirmer sa viabilité dans le cadre de tâches plus complexes.
Nous définition ainsi un nouvel objectif qui consiste à mettre en œuvre notre approche de bout
en bout pour la REN structurée. Les travaux menant à la réalisation de cet objectif sont l’objet
de la section suivante.
Nous exploitons ce système avec une architecture identique à celle présentée en sous-
section 5.3.2. Il s’agit donc d’une architecture basée sur 2 couches CNN à 30 filtres, 5 couches
119
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
Nous avons précédemment exploité, par transfert, l’ensemble des données de parole, pour
l’apprentissage d’un système de RAP, avant l’apprentissage du système de REN visé. L’objectif
était de pallier le manque de données pour l’apprentissage de notre système final.
Pour mettre en place un apprentissage de ce type, il était nécessaire de conserver l’intégra-
lité des paramètres du système de RAP appris, puis d’effectuer l’apprentissage du système de
REN par transfert. Seule la couche de sortie softmax était réinitialisée pour permettre la prise
en compte des caractères représentant les types d’entités nommées.
Ici, nous proposons d’étendre l’apprentissage par transfert en séparant la tâche de REN en
deux étapes. Nous rappelons que dans le cadre de l’annotation structurée, une entité nommée
doit être décomposée. Il existe donc un lien entre les types entités et les composants.
Nous proposons de différencier l’apprentissage des types d’entités nommées et des com-
posants. Il s’agit donc conserver l’apprentissage du système de RAP initial, puis d’effectuer
l’apprentissage d’un système de REN dédié aux types entités et enfin l’apprentissage d’un sys-
tème de REN dédié aux types et aux composants. Le transfert effectué entre les deux systèmes
de REN serait identique au transfert effectué entre les tâches de RAP et de REN.
En procédant de cette manière avec la tâche de REN structurée, nous espérons faciliter son
apprentissage en exploitant le lien existant entre les types EN et les composants. L’intuition
étant qu’un système déjà optimisé sur les types EN devrait être en mesure d’apprendre plus
facilement une représentation des composants plutôt qu’un système s’optimisant à la fois sur
les types et les composants.
À partir de DeepSpeech 2 et de nos données, nous menons des expérimentations visant à
confirmer la viabilité de l’approche de bout en bout et de l’extension proposée.
120
5.4. REN structurée de bout en bout
temps, d’abord la reconnaissance de types (RENtypes ), puis la reconnaissance des types et des
composants, correspondant à la tâche de REN structurée complète (RENstruct ).
Dans les deux cas, nous utilisons comme point de départ un système de RAP appris sur
toutes nos données de parole.
Nous donnons dans la table 5.7 les résultats de ces deux systèmes exprimés en SER sur
l’ensemble de test de la campagne ETAPE.
Système SER
RAP → RENstruct 62,9
RAP → RENtypes → RENstruct 61,9
Table 5.7 – Résultats exprimés en SER pour l’approche de bout en bout avec et sans utilisation
de l’extension de l’apprentissage par transfert sur l’ensemble de test ETAPE.
Par une amélioration d’un point de SER, ces résultats confirment l’intérêt d’une étape in-
termédiaire répartissant la difficulté d’apprentissage sur deux tâches distinctes.
Pour exploiter pleinement les modèles appris, nous envisageons de tirer parti du décodage
beam search proposé par DeepSpeech 2. Nous apprenons ainsi deux modèles de langue pour la
tâche de REN structurée, un premier trigramme et un second quadri gramme. Pour prendre en
compte les concepts d’EN au sein des modèles de langue, nous les apprenons sur les transcrip-
tions manuelles enrichies. En termes de données, nous utilisons les ensembles d’apprentissages
d’ETAPE et de QUÆRO.
Nous donnons dans la table 5.8 les résultats du décodage de nos modèles en utilisant les
deux modèles de langues.
Système ML SER
RAP → RENstruct 3-gramme 57,9
RAP → RENtypes → RENstruct 3-gramme 57,5
RAP → RENstruct 4-gramme 57,3
RAP → RENtypes → RENstruct 4-gramme 56,9
Table 5.8 – Résultats exprimés en SER pour l’approche de bout en bout par utilisation de
modèle de langage sur l’ensemble de test d’ETAPE.
Au regard du gain obtenu, nous voyons l’utilité des modèles de langue. Nous observons
aussi que l’apprentissage par transfert étendu conserve son intérêt dans le cas des deux modèles
de langue. Enfin, le meilleur score SER obtenu pour une approche de bout en bout avec un
modèle de langage 4-gramme est de 56,9 %.
En complément de ces expérimentations, nous proposons d’effectuer une augmentation de
données automatique de façon similaire aux expérimentations de la section 5.3.4. Cette pré-
cédente augmentation de données avait un impact positif sur la reconnaissance des entités
121
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
nommées. Nous proposons, ici, de bénéficier de l’approche en trois étapes proposée pour la
reconnaissance d’entités nommées structurées afin d’effectuer l’annotation automatique de nos
données audio ne possédant pas d’annotation structurée manuelle. Nous nommons REN + les
apprentissages réalisés avec l’ensemble de données regroupant les annotations manuellement
et automatiques.
Nous reportons dans la table 5.9, les résultats des expérimentations réalisées à partir de
l’augmentation automatique de données. Nous proposons de bénéficier également des modèles
de langages déjà appris et d’exploiter à nouveau notre méthode d’apprentissage par transferts
successifs en séparant la tâche de classification en type de la tâche de décomposition des EN.
Système ML SER
RAP → REN +struct X 57,9
RAP → REN +struct 3-gramme 53,5
RAP → REN +struct 4-gramme 53,1
RAP → REN +types → REN +struct X 56,4
RAP → REN +types → REN +struct 3-gramme 52,3
RAP → REN +types → REN +struct 4-gramme 51,9
Table 5.9 – Résultats exprimés en SER pour l’approche de bout en bout par utilisation de notre
augmentation de données automatique sur l’ensemble de test d’ETAPE.
Par comparaison des résultats des tables 5.9 et 5.8, nous pouvons observer l’apport positif
systématique de l’augmentation automatique de l’annotation sémantique que nous proposons.
Ces résultats montrent aussi que nous conservons l’intérêt de l’apprentissage par transferts
successifs en séparant l’apprentissage de la typologie des entités nommées et l’apprentissage
de leurs décompositions. Les modèles de langues 3-grammes et 4-grammes maintiennent éga-
lement leur apport pour les performances finales du système de bout en bout.
Enfin, la combinaison de notre approche par transferts successifs associée à l’augmenta-
tion de données automatique proposée nous permet d’atteindre nos meilleures performances
pour une approche de bout en bout dans le cadre de cette thèse. Ce dernier système bénéficie
également du modèle de langage 4-gramme et permet d’atteindre un score SER de 51,9 %.
Dans cette section, nous effectuons une brève comparaison des résultats obtenus dans le
cadre de la campagne ETAPE. Nous récupérons donc les résultats issus de la campagne, de
nos travaux de mises à jour des chaînes de composants et enfin de notre mise en œuvre d’un
système de bout en bout. Nous les reportons dans la table 5.10.
La comparaison de ces résultats tend à confirmer la viabilité de notre approche de bout en
bout. Même si elle n’est pas en mesure de surpasser une approche traditionnelle actualisée avec
122
5.5. Conclusion
Système SER
Sys 0. Référence ETAPE 2012 59, 3
RAP → REN +types → REN +struct (4-gramme) 51,9
Sys E. RAP2017 / REN2017 51,1
Table 5.10 – Résultats reportés de notre référence ETAPE, meilleure chaîne de composants et
meilleur système de bout en bout. Exprimés en SER sur l’ensemble de tests d’ETAPE.
les systèmes neuronaux, elle reste toutefois intéressante. En obtenant un score SER de 51,9 %,
notre premier système de bout en bout atteint de meilleures performances que les résultats
initiaux de la campagne ETAPE.
Il ne s’agit que d’un premier système de bout en bout qui a été appliqué à la REN structurée.
Afin d’explorer sa généricité, il serait désormais intéressant de l’appliquer à une autre tâche.
L’extension de l’apprentissage par transfert a également soulevé un point intéressant. Il
s’agit de la possibilité de découper l’apprentissage d’une tâche pour faciliter l’entraînement du
système. Ces deux points nous servent de bases pour orienter la suite de nos travaux.
Ainsi, nous proposons de nous intéresser à la tâche d’extraction de concepts sémantiques.
C’est en soit une tâche très similaire à la reconnaissance des entités nommées, qui est toutefois
plus complexe par sa diversité en terme concepts à retrouver.
Le prochain chapitre fera l’objet de nos travaux autour de la tâche d’extraction, de bout
en bout, des concepts sémantiques dans la parole. Basés sur l’extension de l’apprentissage par
transfert de ce chapitre, nous développerons une utilisation originale des données permettant
à une approche de bout en bout de surpasser les performances d’une chaîne de composants.
5.5 Conclusion
Dans ce chapitre, nous nous sommes concentrés sur la tâche de reconnaissance des entités
nommées dans la parole. Nous avons exploité le cadre de la campagne d’évaluation française
ETAPE qui correspond aux travaux les plus récents pour les données à notre disposition.
Nos premiers travaux se sont concentrés sur la mise à jour des résultats d’ETAPE en raison
de l’évolution des technologies depuis 2012, notamment par l’emploi des approches neuro-
nales.
Nous avons ensuite réalisé la mise en œuvre d’un premier système répondant à la problé-
matique de cette thèse. Nous avons été en mesure d’effectuer une tâche de reconnaissance des
entités nommées dans la parole de bout en bout dans un contexte simplifié.
Enfin, nous avons étendu le champ applicatif de notre premier système au cadre de la
campagne ETAPE. Les résultats de toutes nos expérimentations ont confirmé l’intérêt d’une
approche neuronale de bout en bout. Nous notons qu’elle n’est pas encore suffisamment per-
123
Partie II, Chapitre 5 – Reconnaissance d’entités nommées
124
Chapitre 6
E XTRACTION DE CONCEPTS
SÉMANTIQUES
Sommaire
6.1 Application de l’approche de bout en bout à l’extraction concepts sémantiques126
6.1.1 Approche par chaîne de composants . . . . . . . . . . . . . . . . . . . . 127
6.1.2 Premiers résultats avec une approche de bout en bout . . . . . . . . . . 129
6.2 Transfert d’apprentissage piloté par une stratégie de curriculum . . . . . . . 132
6.2.1 Apprentissage par curriculum . . . . . . . . . . . . . . . . . . . . . . . . 133
6.2.2 Association du transfert et du curriculum d’apprentissage . . . . . . . . 133
6.2.3 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . . 134
6.2.4 Analyse de l’apport des Entités Nommées . . . . . . . . . . . . . . . . . 137
6.3 Impact de la profondeur du modèle . . . . . . . . . . . . . . . . . . . . . . . . 140
6.3.1 Comparaison de l’approche proposée avec une approche par chaîne de
composants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
125
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Lors du chapitre précédent, nous avons appliqué une approche de bout en bout pour la
reconnaissance des entités nommées dans la parole. Nous avons vu que, bien que prometteuse,
notre approche n’a pas été en mesure de rivaliser avec une approche par chaîne de composants.
Dans ce chapitre, notre premier objectif consiste à étendre nos travaux à la tâche d’extrac-
tion des concepts sémantiques dans la parole. Il s’agit d’une tâche similaire à la reconnaissance
des entités nommées. Pour l’extraction des concepts sémantiques, nous envisageons une appli-
cation directe du système que nous avons proposé dans le chapitre précédent.
Alors que les entités nommées correspondent à des éléments sémantiques généraux, comme
une personne, un lieu, les concepts sémantiques correspondent à des éléments liés à un cadre
applicatif spécifique ; il s’agit d’éléments sémantiques plus précis. Même si plus précis, ce sont
des éléments qui peuvent s’exprimer sous la forme d’entités nommées et donc bénéficier d’un
modèle initialement dédié à la REN par transfert d’apprentissage.
Dans le cadre de notre étude, les tâches applicatives visées correspondent à une tâche de
réservation d’hôtel (MEDIA), ainsi qu’à une tâche de réservation de tickets de théâtre (PORT-
MEDIA). Les concepts sémantiques appuyant ces applications sont par exemple, la nom d’un
hôtel (hotel-nom) ou le nom de l’auteur d’une pièce (piece-nom-auteur). Davantage de détails
sur ces corpus de données sont présents dans le chapitre 4.
Dans ce nouveau chapitre, nous proposons de développer davantage notre approche par
transfert d’apprentissage. Nous avons noté le caractère plus générique des entités nommées
par rapport aux concepts sémantiques. De plus, la quantité de données disponibles pour esti-
mer un modèle de reconnaissance des entités nommées à notre disposition est beaucoup plus
importante que la quantité disponible pour la mise en place d’un modèle destiné à l’extraction
de concepts sémantiques. Il nous semble intéressant d’étudier l’apport d’un transfert d’ap-
prentissage d’un modèle appris pour les entités nommées vers un modèle pour l’extraction des
concepts sémantiques.
Enfin, un dernier objectif consiste à effectuer des expérimentations afin d’optimiser notre
architecture neuronale pour obtenir de meilleures performances.
Nous organisons ce chapitre en trois sections. Chacune d’entre elles vise à détailler un des
objectifs évoqués et elles sont organisées suivant l’ordre mentionné.
126
6.1. Application de l’approche de bout en bout à l’extraction concepts sémantiques
lisateur et ne représente ainsi que 23,5 heures de paroles annotées. Une difficulté sera donc de
compenser le manque de données annotées pour la tâche finale de compréhension de la parole.
Le schéma d’annotation en concepts sémantiques est plus riche que celui des entités nom-
mées, avec 76 concepts contre 57 entités nommées et composants (QUÆRO), avec une repré-
sentation à plat de ces concepts là où nous avions une représentation structurée dans les entités
nommées.
En appliquant notre approche de bout en bout sur cette tâche, notre objectif est de vérifier
sa pertinence dans un cadre plus contraint par la quantité des concepts et la taille réduite du
corpus d’apprentissage.
Pour prendre en compte le manque de données annotées, nous exploiterons à nouveau l’ap-
prentissage par transfert que nous avons utilisé pour la reconnaissance des entités nommées.
En complément, nous exploitons l’ensemble de données PORTMEDIA comme augmenta-
tion de données annotées, en raison de la proximité de sa tâche applicative avec celle de ME-
DIA.
Afin de vérifier la pertinence de notre approche de bout en bout, nous effectuons à nouveau
une comparaison à une approche par chaîne de composants. Nous effectuons donc la mise en
œuvre de cette approche par chaîne de composants dans la sous-section suivante.
La chaîne de composants que nous mettons en œuvre correspond à l’imbrication d’un sys-
tème de reconnaissance de la parole neuronale de type Deep Speech 2 et d’un système d’extrac-
tion des concepts sémantiques exploitant une approche par CRF. L’objectif est de déterminer
les performances à l’état de l’art de cette approche pour l’ensemble de données MEDIA.
Nous avons choisi d’utiliser Deep Speech 2 comme système de RAP puisque celui obtient
des résultats similaires à un système de RAP hybride de modèle de markov caché et neuronal.
Nous proposons également d’exploiter les données de l’ensemble PORTMEDIA pour aug-
mentater les données avant une optimisation du système de RAP sur MEDIA. Nous mettons
ainsi en place une approche par transfert d’apprentissage en trois étapes successives, dans un
but d’optimisation fine (fine tuning).
Tout d’abord nous estimons un système de RAP (noté RAP ) en utilisant toutes nos données
audio décrites en section 4.8. Cela signifie que nous avons sous-échantillonné nos données
audios d’enregistrement studio en 8 Khz, que nous avons ajoutés aux enregistrements télé-
phoniques déjà disponibles. Ces enregistrements téléphoniques proviennent des ensembles de
données MEDIA, PORTMEDIA et DECODA.
À la suite de l’entraînement du système de RAP exploitant toutes nos données, nous effec-
tuons un fine tuning sur les données des tâches MEDIA et PORTMEDIA (le système obtenu est
noté P M + M).
127
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Enfin, nous effectuons un dernier fine tuning sur les données MEDIA (dont le système est
noté M). Le système final correspond aux apprentissages successifs RAP → P M + M → M et
est dénommé RAPcc (cc pour chaîne de composants).
Ce système permet l’obtention d’un taux d’erreur sur les mots (WER) de 9, 3 % pour l’en-
semble de test de MEDIA.
Pour la tâche cible, les travaux conduisant aux meilleurs résultats publiés avant cette thèse
ont utilisé un composant de RAP atteignant un score WER de 23, 6 % [Simonnet, Ghannay,
Camelin, Estève et De Mori 2017]. Au vu de l’impact de la qualité des transcriptions automa-
tiques pour une tâche de compréhension de la parole, la différence de performances observée
nous motive à effectuer la mise à jour des résultats de l’approche par chaîne de composants.
Ainsi, nous réalisons la mise en œuvre de deux systèmes CRF dédiés à l’extraction des
concepts sémantiques. Le premier système exploite uniquement la forme de surface des mots
et nous le dénommons ECStexte . Ce système est appris à l’aide des transcriptions et annotations
sémantiques manuelles de MEDIA.
Le second système (ECStexte+carac ) est aussi appris à l’aide des transcriptions et annota-
tions manuelles. Toutefois, il est enrichi par l’extraction automatique de caractéristiques ex-
traites à l’aide de l’outil MACAON [Nasr et al. 2011]. Nous utilisons notamment les lemmes,
les étiquettes morphosyntaxiques, les "governor words" ainsi que leurs relations avec le mot
courant. En complément, nous extrayons des caractéristiques morphologiques correspondant
aux n-grammes de la première à la troisième lettre du mot, ainsi qu’aux mêmes n-grammes des
dernières lettres du mot. Nous utilisons les mêmes caractéristiques que celles décrites dans [Si-
monnet, Ghannay, Camelin, Estève et De Mori 2017].
L’évaluation de la tâche est effectuée avec les métriques du taux d’erreurs sur les concepts
(CER) et du taux d’erreurs sur les concepts et leurs valeurs (CVER). Comme détaillé dans la
section 3.4, il s’agit des métriques couramment utilisées pour l’évaluation dans le cadre de cette
tâche.
Nous réalisons l’entraînement des deux systèmes CRF mentionnés et nous fournissons,
dans la table 6.1, les résultats de la chaîne de composants obtenus. Les résultats sont fournis
pour l’ensemble de test de MEDIA (l’optimisation étant réalisée sur le corpus de développe-
ment).
Table 6.1 – Résultats expérimentaux d’une chaîne de composants état de l’art appliquée à
l’ensemble de test de MEDIA.
Les résultats de ces deux expérimentations montrent l’impact très positif de l’exploitation
128
6.1. Application de l’approche de bout en bout à l’extraction concepts sémantiques
des caractéristiques additionnelles. Aussi, ils permettent de rendre compte de l’état de l’art
pour MEDIA en exploitant un système de RAP plus performant. Nous sommes ici capables
d’obtenir un CER de 16, 1 % contrairement aux 19, 3 % obtenus par [Simonnet, Ghannay, Ca-
melin, Estève et De Mori 2017].
Suite à la mise à jour des résultats de la chaîne de composants, nous appliquons désor-
mais notre système de bout en bout sur les mêmes données afin de rendre ces deux approches
comparables.
Décodage Greedy
Nous comparons un premier système (M) appris directement sur l’ensemble MEDIA à un
second système (RAP → M) bénéficiant du transfert d’apprentissage à partir d’un système de
RAP. Ensuite, nous comparons ces deux systèmes avec un troisième bénéficiant de l’utilisation
des données PORTMEDIA (RAP → P M + M → M).
Nous reportons les résultats obtenus en termes de CER et de CVER dans la table 6.2.
Comme dans nos expériences concernant la tâche de reconnaissance des entités nommées,
ces résultats montrent les bénéfices de l’apprentissage par transferts successifs. Nous pouvons
noter une amélioration importante des performances grâce à l’utilisation d’un système de RAP
préentrainé. De plus, l’augmentation de données par PORTMEDIA a un impact positif, que ce
soit en termes de CER et de CVER.
129
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Développement Test
Système CER CVER CER CVER
M 40, 1 53, 6 39, 8 52, 1
RAP → M 25, 3 31, 8 23, 7 30, 3
RAP → P M + M → M 23,1 29,2 22,2 28,8
Bien que les performances soient en deçà d’une approche classique par composants, l’ap-
proche de bout en bout semble toutefois fonctionnelle pour une tâche comme MEDIA.
Ces résultats correspondent aux sorties immédiates du système neuronal, sans l’utilisation
d’un modèle de langage entraîné pour modéliser les séquences de mots et de concepts séman-
tiques.
De la même façon que nos travaux sur les entités nommées, nous effectuons l’apprentis-
sage de modèles de langue n-grammes à l’aide des transcriptions manuelles enrichies de nos
données MEDIA. Comparant des modèles 3-gramme à 6-gramme, nous avons déterminé qu’un
modèle 5-gramme est optimal pour cet ensemble de données. Nous reportons dans la table 6.3,
les résultats de nos trois systèmes ayant bénéficié de l’algorithme Beam search (Beam-Search
decoding) et du modèle de langage 5-gramme.
Développement Test
Système CER CVER CER CVER
M 32, 2 38, 2 32, 8 37, 9
RAP → M 21, 3 25, 1 20, 1 24, 0
RAP → P M + M → M 19,7 23,3 19,0 22,9
L’utilisation d’un modèle de langage et de l’algorithme de beam search nous permet d’amé-
liorer nos résultats et de nous rapprocher des performances du système par chaîne de compo-
sants sans être encore du même ordre.
Mode étoile
Lors de nos expérimentations autour de la tâche de REN, nous avons proposé un mode
étoile dont l’objectif était d’aider le système à concentrer son apprentissage sur les EN et leurs
130
6.1. Application de l’approche de bout en bout à l’extraction concepts sémantiques
valeurs par l’intermédiaire de la fonction de coût CTC. Nous appliquons à nouveau notre mode
étoile à notre système dédié à l’extraction de concepts sémantiques. Comme nous effectuons la
tâche d’extraction de concepts en deux étapes, un apprentissage avec les données MEDIA et
PORTMEDIA puis un fine tuning avec les données MEDIA, nous proposons d’étudier l’impact
du mode étoile.
Les résultats par utilisation d’un modèle de langage et du mode étoile sont donnés dans la
table 6.4.
Développement Test
Système CER CVER CER CVER
Greedy
M∗ 49, 4 67, 6 47, 8 63, 6
RAP → M∗ 23, 5 31, 4 23, 1 30, 8
RAP → P M + M → M∗ 22, 2 29, 4 20, 9 27, 9
RAP → P M ∗ +M∗ → M∗ 21, 2 27, 9 20, 6 27, 7
Beam Search
M∗ 39, 8 50, 3 39, 0 47, 0
RAP → M∗ 20, 0 24, 4 18, 9 22, 5
RAP → P M + M → M∗ 18, 5 23, 2 17, 0 21,5
RAP → P M ∗ +M∗ → M∗ 18,3 23,0 16,8 21,5
Ces résultats nous permettent d’observer des similarités avec les expérimentations concer-
nant les entités nommées. Ils nous montrent que le mode étoile couplé à un modèle de langage
5-gramme améliore l’ensemble de nos résultats.
En complément, nous pouvons déduire de ces résultats qu’il est préférable d’appliquer
notre mode étoile pour l’ensemble de la tâche d’extraction des concepts sémantiques, c’est-
à-dire dès l’augmentation de données réalisée avec PORTMEDIA.
Jusqu’ici, notre meilleure approche de bout en bout ne permet pas d’atteindre des perfor-
mances aussi compétitives qu’une approche par chaîne de composants.
Notre approche n’utilise que le signal audio et un modèle de langage de type n-gramme.
Alors que notre meilleure chaîne de composants est enrichie via des traitements de langage
naturel par des caractéristiques linguistiques, notre approche n’intègre pas explicitement ce
type de informations.
Comme nous l’avons vu dans la table 6.1, la meilleure approche par chaîne de composants
obtient 16, 1 de CER et 20, 4 de CVER, que nous comparons à notre meilleure approche de bout
en bout qui obtient 16, 8 de CER et 21, 5 de CVER sur le test de MEDIA.
Il apparait que ces informations tierces sont une source importante d’informations. Pour la
131
Partie II, Chapitre 6 – Extraction de concepts sémantiques
suite de nos travaux, nous proposons d’injecter de nouvelles informations lors de l’apprentis-
sage de notre modèle.
Certains travaux concernant l’ajout d’informations additionnelles n’ont pas été directement
réalisés dans le cadre de cette thèse. Il s’agit cependant de travaux auxquels nous avons pris
part et qui s’appuient sur le système de bout en bout proposés dans ce manuscrit.
Nous pouvons citer des travaux visant l’étude de l’adaptation au locuteur et l’utilisation
de données issues d’une langue étrangère pour pallier le manque de données d’apprentis-
sage [Tomashenko, Caubrière et Estève 2019 ; Tomashenko, Caubrière, Estève et al. 2019].
L’information concernant le locuteur est injectée dans le système par l’intermédiaire d’une
représentation vectorielle (i-Vector) qui sera concaténée aux représentations calculées par les
couches convolutionnelles sur les spectrogrammes de l’audio. Les résultats de ces travaux ont
montré l’utilité d’un système de reconnaissance de la parole anglais appris avec une quantité
importante de données avant l’exploitation de la tâche française de compréhension de la pa-
role. De plus, ils ont montré l’intérêt de l’adaptation au locuteur pour l’extraction de concepts
sémantiques.
Nous pouvons également citer les travaux effectuant l’étude de l’impact de l’historique de
dialogue pour la reconnaissance des concepts [Tomashenko, Raymond et al. 2020]. Comme
pour l’adaptation au locuteur, ces travaux exploitent une représentation vectorielle qui sera
concaténée à la représentation issue des couches de convolution. Il s’agit toutefois d’une re-
présentation de l’historique de dialogue (h-vectors). Ces travaux explorent plusieurs types d’h-
vectors et montrent l’intérêt de l’exploitation de cet historique. Nous avons été impliqués dans
l’ensemble de ces travaux.
Dans le cadre de cette thèse, nous avons également proposé de bénéficier des entités nom-
mées comme information additionnelle. Par l’intermédiaire de la tâche de REN précédemment
explorée, nous avons montré son exploitabilité par notre système. Au sein de la section sui-
vante, nous détaillons nos motivations concernant la prise en compte des entités nommées,
notre méthode d’utilisation, ainsi que nos expérimentations et résultats.
132
6.2. Transfert d’apprentissage piloté par une stratégie de curriculum
taires de l’information contenue dans les documents. Par nature, elles permettent de répondre
à des questions simples et générales comme Qui ? Quoi ? où ? Quand ? [Nouvel et al. 2015]. Au
contraire, les concepts sémantiques dans le contexte de MEDIA sont ultraspécialisés pour la
tâche de réservation d’hôtel (par exemple chambre-equipement).
Nous émettons l’hypothèse qu’il est possible de tirer partie les données existantes concer-
nant les entités nommées pour notre tâche d’extraction de concepts sémantiques. En apprenant
dans un premier temps un modèle capable d’extraire des concepts généraux comme les entités
nommées, nous pouvons ensuite le spécialiser sur des concepts sémantiques plus spécifiques.
Ce processus d’apprentissage s’apparente à l’approche par curriculum [Bengio, Louradour et
al. 2009].
L’idée sous-jacente est que le premier modèle devrait être capable de construire des repré-
sentations internes portant de la sémantique générale réexploitable dans un domaine spécia-
lisé.
133
Partie II, Chapitre 6 – Extraction de concepts sémantiques
aux plus spécialisés, l’ensemble de la chaîne de transfert est alors reconsidéré. Nous proposons
d’apprendre un modèle d’extraction des concepts sémantiques fondé sur la séquence d’appren-
tissage et de transfert d’apprentissages suivantes :
134
6.2. Transfert d’apprentissage piloté par une stratégie de curriculum
CNN, 5 couches bLSTM avec normalisation des batchs, 1 couche linéaire et une couche de sor-
ties softmax. Pour les couches CNN, nous utilisons à nouveau 32 filtres et nous conservons la
taille des couches bLSTM à 800 unités.
L’évaluation des performances de nos systèmes s’effectue aussi avec les métriques du CER
et du CVER calculées sur les ensembles de développement et de test du corpus MEDIA.
Nous fournissons dans la table 6.5, les résultats des expérimentations bénéficiant de l’étape
de transfert d’apprentissage portant sur les entités nommées. Il s’agit des résultats pour les
sorties immédiates du système neuronal (greedy). Ils peuvent ainsi être directement comparés
aux résultats de la table 6.2. Nous effectuons donc un report de ces résultats dans la première
partie de la table ci-dessous.
Les résultats de ces expérimentations montrent l’apport des entités nommées dans la chaîne
d’apprentissage. Par leur utilisation, nous observons une amélioration systématique des perfor-
mances, que ce soit en termes de CER et de CVER. Nous considérons que le gain provenant de
cette étape vient effectivement de la tâche de reconnaissance des entités nommées elle-même,
dans la mesure où les données audio associées sont déjà exploitées lors de l’étape de RAP.
Nous souhaitons confirmer que l’apport des EN provient effectivement de la stratégie de
curriculum employée. Nous effectuons donc l’apprentissage d’une chaîne au sein de laquelle
nous brisons le processus itératif de spécialisation, à savoir RAP → P M + M → REN → M.
135
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Développement Test
Système CER CVER CER CVER
"RAP → M" 25, 3 31, 8 23, 7 30, 3
"RAP → P M + M → M" 23, 1 29, 2 22, 2 28, 8
RAP → REN → M 23, 5 30, 4 22, 4 28, 7
RAP → REN → P M + M → M 22,0 28,0 21,6 27,7
Nous observons lors de l’apprentissage de l’étape de REN que le système ne converge pas,
et ce malgré nos différentes tentatives de modification des paramètres, notamment le taux d’ap-
prentissage.
Cette absence de convergence tend à confirmer l’importance et l’apport de l’ordonnance-
ment des étapes d’apprentissage que nous avons présentées dans notre stratégie de transfert
par curriculum. En inversant les étapes REN et P M + M, nous ne pouvons pas tirer bénéfice
des connaissances apportées par les données étiquetées en entités nommées.
Pour compléter nos résultats, nous proposons d’appliquer l’algorithme de beam search et
de notre modèle de langage 5-gramme dédié à MEDIA. Nous fournissons les résultats associés
dans la table 6.6.
Développement Test
Système CER CVER CER CVER
"RAP → M" 21, 3 25, 1 20, 1 24, 0
"RAP → P M + M → M" 19, 7 23, 3 19, 0 22, 9
RAP → REN → M 19, 8 23, 7 18, 8 22, 8
RAP → REN → P M + M → M 19,1 22,9 18,1 22,1
Table 6.6 – Résultats expérimentaux pour une chaîne d’apprentissage incorporant les entités
nommées sur l’ensemble de développement et de test de MEDIA, par exploitation du beam
search avec un modèle de langage 5-gramme. Les résultats encadrés par des guillemets sont
reportés de la table 6.3.
L’emploi du beam search nous permet à nouveau d’améliorer les performances de nos sys-
tèmes. Nous observons qu’avec cet algorithme, nous conservons l’apport des entités nommées.
En complément de ces résultats, nous proposons d’appliquer à nouveau le mode étoile.
Nous reportons les résultats des chaînes d’apprentissages exploitant ce mode dans la table 6.7.
En raison de l’apport systématique de l’utilisation des données PORTMEDIA, nous ne consi-
dérons désormais que les chaînes d’apprentissage en bénéficiant.
Ces expérimentations nous permettent d’obtenir nos meilleures performances avec le sys-
136
6.2. Transfert d’apprentissage piloté par une stratégie de curriculum
Développement Test
Système CER CVER CER CVER
"RAP → P M + M → M∗" 18, 5 23, 2 17, 0 21, 5
"RAP → P M ∗ +M∗ → M∗" 18, 3 23, 0 16, 8 21, 5
RAP → REN → P M + M → M∗ 17, 8 22, 1 16, 6 21, 3
RAP → REN → P M ∗ +M∗ → M∗ 17,6 21,8 16, 4 20, 9
Table 6.7 – Résultats expérimentaux pour une chaîne d’apprentissage incorporant les entités
nommées sur l’ensemble de développement et de test de MEDIA, par exploitation du beam
search avec un modèle de langage 5-gramme et du mode étoile. Les résultats encadrés par des
guillemets sont reportés de la table 6.4.
tème actuel en ayant un taux de CER à 16, 4 et un taux de CVER à 20, 9. Ces résultats confirment
que l’application du mode étoile à chaque étape d’extraction des concepts sémantiques (P M +
MetM) est bénéfique.
La présence des entités nommées dans la chaîne d’apprentissage apporte une information
additionnelle utile à la mise en œuvre de notre meilleur système. Nous proposons d’effectuer
une analyse qualitative de l’apport des entités nommées.
137
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Figure 6.2 – Impact par concepts sur le nombre d’erreurs en fonction de l’utilisation des entités
nommées dans la chaîne d’apprentissage.
138
6.2. Transfert d’apprentissage piloté par une stratégie de curriculum
notons que l’impact positif sur ce concept sémantique correspond principalement à des erreurs
de suppression qui ne sont plus commises. L’information apportée par cette entité nommée
semble suffisamment importante pour permettre au système d’extraire plus efficacement les
concepts sémantiques pouvant s’en rapprocher dans un contexte différent.
Il est également intéressant de noter les modifications de typologie d’erreurs de certains
concepts. Par exemple, le concept temps-date voit ses erreurs de suppression en partie corrigée,
en même temps que de nouvelles insertions apparaissent. Ce phénomène pourrait être révéla-
teur d’une plus forte sensibilité de notre système aux dates suite à l’apprentissage des entités
nommées.
Il est aussi possible de noter que les entités nommées peuvent avoir un impact négatif. Par
exemple, une partie importante des concepts impactés négativement peuvent se rapprocher de
l’entité nommée amount, par exemple nombre, sejour-nbNuit, sejour-nbEnfant, nombre-chambre.
Il pourrait être intéressant de mettre en place une stratégie d’apprentissage plus souple pour
cette entité nommée, qui semble trop spécialisée pour les données d’EN et incapable de se
placer efficacement dans le contexte de MEDIA.
Enfin, nous proposons de comparer les deux chaînes d’apprentissage pour l’émission de
concepts et de leurs valeurs n’apparaissant pas dans l’ensemble d’apprentissage MEDIA. Nous
nommons ces concepts les couples UCV (Unseen Concept-Value pairs). Nous dénombrons 467
UCV uniques pour un total de 533 occurrences sur l’ensemble de développement de MEDIA. Il
s’agit de vérifier si les entités nommées ont un apport concernant la capacité de généralisation
du système final.
Nous fournissons dans la table 6.8, le nombre d’UCV correctement reconnu en termes de
concepts et de valeurs. Nous donnons également le nombre d’UCV pour lesquels la valeur a
correctement été reconnue, correspondant uniquement à une substitution de concept.
Table 6.8 – Nombre de couples concept/Valeur, n’apparaissant pas dans l’ensemble d’appren-
tissages, correctement reconnus au sein de l’ensemble de développement de MEDIA.
Nous voyons que le système est capable de reconnaitre des couples concepts valeurs ja-
mais rencontrées dans le corpus d’apprentissage, sans toutefois être capable d’une très forte
généralisation, puisque seulement 25 % d’entre eux sont correctement reconnus.
Il est important de noter que la capacité de reconnaissance de ce type de concepts est de
moins de 25 % pour les deux systèmes, indiquant une difficulté de généralisation.
Nous pouvons toutefois noter que l’ajout des entités nommées dans la chaîne d’appren-
139
Partie II, Chapitre 6 – Extraction de concepts sémantiques
tissage permet un gain relatif de 6 % pour la reconnaissance des couples UCV. Les entités
nommées apportent une information améliorant la capacité de généralisation de notre système
final.
Par la suite, nous essayons d’améliorer les performances de notre modèle en agissant sur sa
topologie.
140
6.3. Impact de la profondeur du modèle
Table 6.9 – Résultats expérimentaux exprimés en CER et CVER sur l’ensemble de test de ME-
DIA, pour différentes profondeurs du système. Le résultat encadré par des guillemets est re-
porté des tables 6.5 et 6.6.
La différence entre 6 et 7 couches cachées n’est pas significative, toutefois nos meilleurs
résultats sont obtenus avec le système à 7 couches avec le décodage par Beam Search.
Comme nous l’avons vu plus haut, les temps de calcul pour ce type de tâche et d’architec-
ture sont loin d’être négligeable. Afin de tester notre hypothèse de spécialisation de la dernière
couche cachée, nous avons réalisé plusieurs expériences dans lesquelles une couche est ajou-
tée au moment d’un transfert. Nous fournissons dans la table 6.10, les résultats de plusieurs
configurations d’entraînement modifiant la profondeur durant l’apprentissage.
Ces résultats nous montrent qu’il est préférable d’ajouter cette couche lors du traitement
conjoint des données MEDIA et PORTMEDIA, plutôt que lors du dernier transfert ne concer-
nant que les données MEDIA. En raison de contrainte de temps, nous n’avons pas eu la pos-
sibilité d’ajouter une couche cachée de spécialisation lors de l’apprentissage du modèle pour
la reconnaissance des entités nommées. Dans nos expériences, les performances sont systé-
matiquement meilleures lorsque l’entraînement de la tâche P M + M est réalisé avec la même
profondeur que la tâche finale M.
141
Partie II, Chapitre 6 – Extraction de concepts sémantiques
Dans le but de concentrer l’apprentissage du système sur les concepts et leurs valeurs, nous
proposons d’appliquer une nouvelle fois notre mode étoile. Nous fournissons les résultats des
deux systèmes que nous avons mis en œuvre dans la table 6.11.
Table 6.11 – Résultats expérimentaux exprimés en CER et CVER pour des chaînes d’appren-
tissages optimisées en profondeur et l’utilisation du mode étoile.
6.3.1 Comparaison de l’approche proposée avec une approche par chaîne de com-
posants
Notre meilleure approche de bout en bout exploite pleinement toutes les contributions que
nous avons apportées dans le cadre de cette thèse.
Notre meilleure approche par chaîne de composants est constituée d’un système de RAP
Deep Speech 2 optimisé pour MEDIA. L’extraction des concepts sémantique de MEDIA à l’aide
des transcriptions et annotations manuelles enrichies par des caractéristiques extraites auto-
matiquement est réalisée avec un CRF.
Pour faciliter la comparaison entre ces deux systèmes, nous reportons dans le table 6.12 les
résultats déjà vus dans les tables 6.1 et 6.11.
Table 6.12 – Comparaison des approches à chaînes de composants et de bout en bout. Report
des meilleurs résultats de chaque approche obtenus dans le cadre de cette thèse.
Cette comparaison montre que nous avons réussi à mettre en œuvre une approche neuro-
nale de bout en bout aussi compétitive qu’une approche par chaîne de composants.
Cette approche pourrait être améliorée. Il serait par exemple possible d’utiliser une archi-
tecture neuronale plus complexe, comme les encodeurs-décodeurs avec mécanismes d’atten-
142
6.4. Conclusion
tion ou les transformers. Associés à ces nouvelles architectures neuronales, nous pourrions
considérer l’utilisation d’autres types de représentation de la parole, comme wav2vec, mais
aussi injecter des informations additionnelles, comme l’historique de dialogue. Nous pourrions
aussi considérer l’utilisation des modèles de langage neuronaux (RNN-LM).
Dans le cadre de ces travaux de thèse, il n’était pas possible d’explorer ces propositions. En
revanche, dans le but de mieux comprendre l’approche que nous avons proposée, nous avons
effectué une analyse des erreurs produites par notre système et proposé une méthode de calcul
de mesure de confiance fiable. Ceci sera vu dans le chapitre suivant.
6.4 Conclusion
Nous nous sommes concentrés ici sur la tâche d’extraction des concepts sémantiques dans
le cadre de MEDIA. À des fins de comparaison, nous avons mis en œuvre une approche par
chaîne de composants afin d’obtenir des performances à l’état de l’art. Ceci nous a permis de
confirmer la viabilité de notre approche préliminaire de bout en bout.
Dans la continuité de ces travaux, nous avons proposé une stratégie d’entraînement compo-
sée d’une séquence de transfert d’apprentissage guidée par curriculum. Cette approche consiste
à apprendre notre modèle tout d’abord avec des tâches plus générales, puis des tâches plus spé-
cifiques. L’emploi de cette stratégie est essentiel à l’obtention de nos meilleurs résultats.
Nous avons par la suite tenté d’agir sur la profondeur de notre modèle neuronal. Ce modèle
couplé aux méthodes proposées dans cette thèse nous permet d’obtenir nos meilleurs résultats
sur la tâche MEDIA.
L’approche finale que nous mettons en œuvre nous permet d’obtenir des performances lé-
gèrement supérieures à celles d’une approche par chaîne de composants à jour, même si ces
différences ne sont pas significatives. Il est intéressant de noter que notre approche n’exploite
que le signal audio et un modèle de langage pour obtenir ces performances, alors que l’ap-
proche par chaîne de composants bénéficie de l’enrichissement d’informations linguistiques
obtenues à l’aide d’outil externe de traitement automatique du langage naturel.
Les travaux de ce chapitre concernant notre application d’une stratégie de curriculum ont
conduit aux publications scientifiques [Caubrière, Tomashenko, Laurent et al. 2019 ; Cau-
brière, Tomashenko, Estève et al. 2019].
En raison des contraintes de temps liés à la durée d’une thèse, plutôt que d’optimiser da-
vantage notre approche qui obtient déjà des performances à l’état de l’art, nous avons choisi
pour la suite de nos travaux d’effectuer une analyse des erreurs produites par le système.
Enfin, en nous inspirant de travaux similaires effectués pour la reconnaissance de la pa-
role, nous proposons dans le chapitre suivant une mesure de confiance associée aux concepts
sémantiques reconnue par notre système.
143
Chapitre 7
Sommaire
7.1 Contexte de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
7.2 Analyse d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.1 Distribution des types d’erreurs . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.2 Problème de reconnaissance des mots . . . . . . . . . . . . . . . . . . . 150
7.2.3 Problème de segmentation en concept . . . . . . . . . . . . . . . . . . . 151
7.3 Analyse de représentations internes . . . . . . . . . . . . . . . . . . . . . . . . 153
7.3.1 Extraction des représentations . . . . . . . . . . . . . . . . . . . . . . . . 153
7.3.2 Visualisation des représentations . . . . . . . . . . . . . . . . . . . . . . 154
7.3.3 Entraînement de classifieurs externes . . . . . . . . . . . . . . . . . . . . 156
7.4 Mesure de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
7.4.1 Extraction de la mesure de confiance . . . . . . . . . . . . . . . . . . . . 160
7.4.2 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . . 161
7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
145
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
Nos deux premiers chapitres de contribution se sont concentrés sur la mise en œuvre d’un
système de bout en bout dédié à la compréhension de la parole. Cette mise en œuvre a été
réalisée avec succès pour les tâches de reconnaissance des entités nommées et d’extraction de
concepts sémantiques.
Nous proposons maintenant de réaliser une étude de notre approche dont l’objectif est de
comprendre l’origine des erreurs produites.
Ces travaux nous ont conduit à l’extraction d’une représentation interne des concepts rela-
tifs à la compréhension du langage. Nous exploitons initialement ces représentations dans un
but d’analyse. Puis, nous les envisageons comme source d’informations permettant l’établisse-
ment d’une mesure de confiance relative aux concepts émis.
Nous découpons ce chapitre en fonction des points mentionnés précédemment. Nous pro-
posons donc d’abord de décrire le contexte de notre étude, puis les axes choisis d’analyses des
erreurs de notre approche. Nous détaillons ensuite notre méthode pour l’extraction des repré-
sentations internes de la sémantique, ainsi que les visualisations associées. Enfin, nous effec-
tuons la description de l’approche que nous proposons pour établir une mesure de confiance
concernant l’émission de concepts, suivi de la présentation des résultats des expérimentations
réalisées pour confirmer son intérêt.
Nous portons notre étude sur le système que nous avons mis en œuvre pour la tâche d’ex-
traction des concepts sémantiques. Nous effectuons donc notre analyse sur les concepts séman-
tiques émis dans le cadre de la réservation d’hôtel MEDIA.
Ces travaux d’analyse ont été conduits en parallèle des travaux d’optimisation de la pro-
fondeur du système détaillés en section 6.3. Ainsi, notre étude ne portera pas sur le système
entièrement optimisé obtenant les performances les plus élevées, mais sur le meilleur à son
commencement. Ce système est appris à l’aide de transferts successifs pilotés par la stratégie
de curriculum décrite dans le chapitre précédent.
Nous reportons les résultats de ce système dans la table 7.1. Ces résultats sont exprimés
en taux d’erreur sur les concepts (CER) et en taux d’erreur sur les concepts et leurs valeurs
(CVER) pour l’ensemble de développement de MEDIA. Nous donnons les résultats pour les
sorties neuronales directes du système (greedy) et suite à l’exploitation du modèle de langage 5-
gramme (beam search). Il s’agit du même modèle de langage que celui exploité dans le chapitre
précédent. Nous fournissons également les résultats issus de l’utilisation du mode étoile que
nous avons proposé dans cette thèse.
Dans la table 7.2, nous effectuons le report des résultats des mêmes approches pour l’en-
semble de tests de MEDIA.
146
7.2. Analyse d’erreurs
Table 7.1 – Résultats de notre approche de bout en bout exploitée pour l’analyse des er-
reurs de sorties sur l’ensemble de développement de MEDIA. Ces résultats sont reportés des
tables 6.5, 6.6 et 6.7.
Table 7.2 – Résultats de notre approche de bout en bout exploitée pour l’analyse des erreurs de
sorties sur l’ensemble de tests de MEDIA. Ces résultats sont reportés des tables 6.5, 6.6 et 6.7.
Dans ce chapitre, nos travaux porterons sur les sorties de ces deux systèmes. Nous pri-
vilégions toutefois le système 1., dans la mesure où il permet l’émission de l’ensemble de la
transcription cible et donc du contexte. Nous commençons par effectuer l’analyse des erreurs
de sorties, que nous détaillons dans la prochaine section.
147
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
Nous reportons dans la figure 7.1, la distribution des erreurs observées pour l’approche
de bout en bout. La tâche MEDIA comporte plus de 70 classes sémantiques, afin de conserver
une représentation lisible, nous ne conservons dans cette figure que les 30 classes sémantiques
pour lesquelles le système émet le plus d’erreurs.
Figure 7.1 – Distribution des erreurs de notre approche de bout en bout pour l’ensemble de
développement de MEDIA. Extraction des 30 concepts sémantiques avec le plus d’erreurs.
Sur cette figure, nous pouvons observer qu’une grande partie des erreurs produites par le
système proviennent principalement de quelques classes sémantiques. Nous pouvons notam-
ment citer les concepts connectProp, lienref-coref, objet, reponse, command-tache, localisation-ville
et nombre, qui représentent près de 50 % des erreurs de l’ensemble de développement. Notons
toutefois que ces concepts représentent 43,4 % des références de l’ensemble de développement.
Cette figure nous montre également que le type d’erreur le plus courant correspond aux
suppressions des concepts sémantiques. Ce taux plus élevé de suppressions pourrait être un
indicateur de l’apprentissage d’une représentation sous-optimale des concepts sémantiques.
L’augmentation de la quantité et de la diversité des annotations sémantiques manuelles pour
la tâche MEDIA pourrait être une piste de réduction de ces erreurs.
148
7.2. Analyse d’erreurs
Figure 7.2 – Distribution des erreurs de la chaîne de composants pour l’ensemble de dévelop-
pement de MEDIA. Extraction des 30 concepts sémantiques avec le plus d’erreurs.
Cette figure nous permet d’observer que les deux distributions d’erreurs semblent simi-
laires. Pour la chaîne de composants nous remarquons aussi un type d’erreur principale corres-
pondant aux suppressions, ainsi qu’un regroupement des erreurs autour de quelques concepts.
Par comparaison des sept concepts avec le plus d’erreurs entre les deux approches, nous
pouvons remarquer que six concepts sont partagés entre les deux approches. Nous retrouvons
ainsi une quantité importante des erreurs sur les concepts sémantiques communs : connectProp,
lienref-coref, objet, reponse, localisation-ville et nombre. Ces concepts communs semblent être
149
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
révélateurs d’erreurs fréquentes liées à la tâche MEDIA et non d’erreurs propres aux systèmes
employés.
La comparaison de ces distributions montre que les deux erreurs les plus fréquentes corres-
pondent aux concepts connectProp et lienref-coref. Ces concepts sont indépendants du domaine
et correspondent à des opérateurs logiques, comme le mot et, ou à des références, comme le
mot il.
Il s’agit de valeurs de concepts relativement courtes et souvent portées par un seul mot.
Nous émettons l’hypothèse que ces valeurs de concepts sont mal transcrites, impliquant un
taux de suppression élevé de ces concepts.
Dans la prochaine sous-section, nous détaillons l’analyse effectuée sur la capacité de notre
système à reconnaitre les mots supports de concepts.
150
7.2. Analyse d’erreurs
Nous reportons dans la table 7.3, les résultats de notre analyse sur les trois concepts men-
tionnés.
Les résultats de cette table montrent que dans une grande majorité des cas, la transcrip-
tion automatique des mots supports de concepts est correcte. Sa qualité n’est ainsi pas une
source de suppression des concepts, ce qui indique qu’il s’agit principalement d’un problème
d’étiquetage sémantique.
Lors de cette analyse, nous avons régulièrement observé la présence d’une frontière de
fin de concept (">") sans la présence d’une frontière de début. Par exemple, pour le concept
connectProp nous avons pu dénombrer 11 cas de ce type sur l’ensemble des 39 concepts sup-
primés, ce qui représente environ 28 % des suppressions de ce concept sémantique.
Ce phénomène est révélateur d’un problème de segmentation de la part de notre approche
de bout en bout. Nous proposons donc dans la prochaine sous-section de décrire notre propo-
sition de prise en charge de ce problème.
Pour réduire le problème de segmentation observé, nous proposons d’ajouter une nouvelle
tâche dans notre chaîne d’apprentissages successifs. Nous envisageons de la séparer en deux
étapes puisque nous observons l’absence d’une frontière de début de concept pour la tâche
finale MEDIA. Ces deux étapes correspondent d’abord à une tâche de segmentation (Mseg ),
puis à une tâche de segmentation et de classification des concepts sémantiques tels que nous le
faisons jusqu’à présent (M).
Pour la tâche Mseg , nous proposons de remplacer la frontière ouvrante des concepts par
un unique symbole représentant la segmentation (<). Nous proposons donc à nouveau une
modification des séquences ciblées pendant l’apprentissage. Nous donnons dans la figure 7.3
un exemple de séquence annotée pour la tâche de segmentation.
Afin de respecter la spécialisation successive des apprentissages de notre approche de bout
151
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
Séquence
le sculpteur <pers césar > est mort <time hier > à <loc paris > à l'âge de
de mots
<amount soixante dix sept ans >
enrichie
Séquence
le sculpteur < césar > est mort < hier > à < paris > à l'âge de < soixante dix sept ans >
pour la
segmentation
Figure 7.3 – Représentation d’une séquence pour l’entraînement d’une tâche de segmentation.
Développement Test
chaîne d’apprentissage CER CVER CER CVER
"RAP → REN → PM+M → M" 22,0 28,0 21,6 27,7
RAP → REN → PM+M → Mseg → M 20,6 26,8 20,7 27,2
Table 7.4 – Résultats de l’approche de bout en bout exploitant une tâche de segmentation
pour les sorties neuronales immédiates (greedy). Les résultats encadrés par des guillemets sont
reportés de la table 6.5.
Ces résultats confirment l’intérêt de la tâche de segmentation par une amélioration du CER
de 0,9 point et du CVER de 0,5 point pour l’ensemble de tests. Nous pouvons également obser-
ver l’amélioration sur l’ensemble de développement avec un gain de 1,4 point de CER et de 1,2
point de CVER.
En complément, nous donnons les résultats de ces systèmes suite à l’exploitation du modèle
de langage 5-gramme et de l’algorithme de beam search. Nous les fournissons dans la table 7.5.
Développement Test
chaîne d’apprentissage CER CVER CER CVER
"RAP → REN → PM+M → M" 19,1 22,9 18,1 22,1
RAP → REN → PM+M → Mseg → M 18,5 22,5 17,8 21,8
Table 7.5 – Résultats de l’approche de bout en bout exploitant une tâche de segmentation après
exploitation d’un modèle de langage 5-gramme (beam search). Les résultats encadrés par des
guillemets sont reportés de la table 6.6.
Ces résultats nous montrent que nous conservons l’apport de la tâche de segmentation dans
le cas de l’utilisation du modèle de langage. Nous pouvons donc conclure de ces résultats qu’il
152
7.3. Analyse de représentations internes
est préférable de séparer la tâche finale ciblée en deux étapes, avec tout d’abord l’apprentissage
de la segmentation, puis l’apprentissage complet de la classification en concepts.
Enfin, pour compléter les analyses réalisées jusqu’ici, nous proposons d’apporter des élé-
ments supplémentaires. Nous envisageons d’extraire de notre système une représentation in-
terne des concepts sémantiques à des fins d’analyse. Dans la prochaine section nous détaille-
rons notre méthode d’extraction de ces représentations.
Dans le cadre de notre système, la fonction de coût CTC permet l’apprentissage d’un ali-
gnement entre l’entrée acoustique et une séquence sous forme de texte enrichi par les concepts
sémantiques. Suite à l’émission d’une séquence par notre système, la fonction de mapping est
appliquée pour supprimer les répétitions des caractères et produire une séquence finale de
mots et de concepts (voir section 2.4.1).
À partir de la séquence d’observations d’entrée, une séquence intermédiaire est produite
par les couches convolutionnelles. Pour chacun de ses éléments, une représentation interne
(embeddings) sera propagée dans le système pour effectuer l’émission d’un caractère. Nous pro-
posons d’exploiter ces représentations internes. Nous donnons une représentation de cette ex-
traction pour la dernière couche récurrente du système principale dans la figure 7.4.
...
t t+1 tn
153
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
Nous proposons d’exploiter l’alignement appris par le système pour effectuer l’extraction
de représentations internes de concepts. Cela se traduit par l’accumulation des représentations
de chacun des caractères composants le concept sémantique ciblé, à partir d’observations sur
la séquence émise par le système. Nous considérons que la valeur d’un concept correspond aux
mots supports de ce concept et par conséquent nous accumulons aussi les représentations des
caractères des mots supports de concept, ainsi que du marqueur de fin de concepts.
Nous présentons dans la figure 7.5, l’exemple d’une séquence de sortie du système avant
réduction des répétitions et la sélection des représentations effectuées.
Figure 7.5 – Exemple de sorties immédiates du système pour la séquence "si [ l’ hôtel >
{ est près du > ( stade >". En rouge, les représentations internes sélectionnées pour repré-
senter les concepts associés. [ correspond au concept nom-hotel, { correspond à localisation-
distanceRelative et ( correspond à localisation-lieuRelatif.
Nous exploitons les représentations des concepts sémantiques afin d’effectuer la visuali-
sation des informations sémantiques capturées par notre système. Ainsi, nous extrayons les
représentations issues des couches récurrentes de notre système neuronal. Pour rappel, notre
système exploite un empilement de deux couches CNN, cinq couches bLSTM, une couche li-
néaire et une couche de sortie softmax. Nous souhaitons visualiser les représentations issues de
la dernière couche récurrente bLSTM. Nous présentons cette visualisation dans la prochaine
sous-section.
Comme nous l’avons vu, nous accumulons les représentations de chacun des caractères
émis correspondants aux concepts sémantiques. Cela signifie que nous pouvons accumuler un
nombre variable de représentations internes pour un concept.
Afin d’homogénéiser la taille de notre représentation des concepts, nous proposons d’ef-
fectuer une transformation moyennant les représentations accumulées. Cette moyenne nous
permet d’exploiter un vecteur de taille fixe comme représentation des concepts, plutôt qu’une
matrice dont la largeur dépendrait du nombre de caractères émis pour le concept.
En complément, nous souhaitons effectuer la visualisation de ces représentations dans un
154
7.3. Analyse de représentations internes
espace à deux dimensions. Nous appliquons donc une autre transformation sur la représenta-
tion moyennée des concepts permettant de réduire ce vecteur à deux dimensions.
Elle consiste cette fois en une transformation t-Distributed Stochastic Neighbor Embedding
(t-SNE). Il s’agit d’un algorithme d’apprentissage machine régulièrement utilisée pour visua-
liser des données de dimensions importantes dans des dimensions interprétables par l’hu-
main [Maaten et G. Hinton 2008].
Nous proposons dans la figure 7.6, la visualisation des représentations des concepts séman-
tiques pour la dernière couche récurrente de notre système. Au sein de cette figure, chaque
couleur représente une classe sémantique distincte et chaque point représente un concept.
En complément, nous proposons une seconde visualisation exploitant une coloration non
plus en fonction de la classe sémantique des concepts, mais en fonction de la réponse du sys-
tème. Nous représentons ainsi en vert les concepts correctement émis par le système et en
rouge les erreurs.
Ces représentations sont obtenues pour les concepts sémantiques de l’ensemble de déve-
loppement de MEDIA pour les sorties immédiates (Greedy) du système neuronal dénombré 1.
dans la table 7.1.
Figure 7.6 – Visualisation des représentations de concepts sémantiques par projection t-SNE
pour l’ensemble de développement de MEDIA. À gauche, la coloration des points représente
la classe sémantique associée à la projection. À droite, la couleur verte représente les concepts
correctement émis par le système et la couleur rouge représente les erreurs.
155
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
formations sémantiques capturées par notre système. Nous observons aussi que la majorité
des erreurs produites par le système sont présentes dans la zone centrale où les projections
ne montrent pas des regroupements correctement définis. Ce phénomène est révélateur de
l’apprentissage d’une représentation de la sémantique encore imparfaite, soulevant la problé-
matique de l’entraînement d’un système modélisant une représentation plus pertinente.
Pour compléter l’analyse des représentations internes de notre système, nous proposons
d’exploiter des classifieurs externes. Nous envisageons d’utiliser ces classifieurs pour obtenir
une information complémentaire permettant l’évaluation de la qualité des représentations in-
ternes. En comparant des représentations issues de différentes couches neuronales nous pou-
vons localiser la couche capturant l’information sémantique la plus pertinente.
L’exploitation des représentations internes des concepts pour entraîner un classifieur ex-
terne est inspiré des travaux de [Belinkov et Glass 2017]. Ces travaux consistent à extraire les
représentations de la phonétique d’un système de RAP et à apprendre un classifieur externe
pour en effectuer l’analyse. Il est aussi à noter que ces travaux exploitent aussi une architecture
neuronale proche de notre système de compréhension de la parole.
Dans les prochaines sous-sections, nous détaillons notre implémentation des classifieurs
externes, ainsi que leurs performances de classifications pour les représentations internes des
concepts extraites de différentes couches récurrentes.
L’exploitation que nous proposons d’un classifieur externe consiste en l’entraînement d’un
système neuronal composé d’une couche permettant la représentation d’informations puis une
couche de sortie softmax. Nous entraînons ce classifieur pour l’émission des classes séman-
tiques de MEDIA, à partir de l’extraction des représentations internes des concepts émis par
notre système principal de bout en bout.
Pour notre classifieur, nous envisageons deux types de couches neuronales de représenta-
tion de l’information. Le premier type correspond à une couche classique totalement connectée
(MLP), tandis que le second correspond à une couche récurrente de type LSTM bidirection-
nelle.
Notre système de compréhension de la parole émet une représentation interne pour chaque
caractère de sa séquence complète de sortie. Comme plusieurs caractères peuvent représen-
ter un concept, nous avons jusque là exploité une représentation finale correspondant à la
moyenne des représentations des caractères. Nous proposons donc l’emploi d’une couche ré-
currente bLSTM pour profiter de l’ensemble de la séquence de représentation des caractères
plutôt que d’une représentation des concepts moyennées.
Nous schématisons l’interaction du classifieur externe proposé avec le système principal
dans la figure 7.7.
156
7.3. Analyse de représentations internes
Concepts sémantiques
t t+1 t+2
... Extraction de Softmax
représentations internes
des caractères des
concepts et leur valeurs MLP ou bLSTM
tn-2 tn-1 tn
Figure 7.7 – Schéma de la mise en œuvre de notre classifieur externe sur les représentations
internes de notre système de bout en bout. Le système principal de compréhension de la parole
est encadrée en bleu et le classifieur externe encadré en vert.
157
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
Le second classifieur que nous mettons en œuvre exploite une couche neuronale de type
LSTM bidirectionnelle. La différence principale réside dans la prise en charge de l’ensemble
de la séquence de représentation des caractères composants un concept et sa valeur, plutôt
que la représentation moyennée. Cela signifie que nous exploitons en entrée du classifieur une
séquence de taille n de vecteurs à 800 dimensions.
Nous effectuons son apprentissage selon la même paramétrisation que le premier classi-
fieur décrit précédemment. C’est-à-dire, selon l’optimiseur Adam et la fonction de coût d’en-
tropie croisée pour 100 époques avec des mini-lots (minibatchs) de taille 20. Nous exploitons
à nouveau une couche cachée de taille 200 et une couche de sortie softmax de taille 76. Nous
sélectionnons le modèle optimisé selon la précision calculée sur l’ensemble de développement.
Performances de classification
Nous effectuons la comparaison des performances des deux classifieurs proposés par expé-
rimentations. Cette comparaison nous permet d’évaluer la qualité de la représentation moyen-
née par rapport à l’exploitation de la séquence complète de représentation des concepts.
Nous proposons aussi une comparaison des représentations internes extraites de chacune
des couches récurrentes de notre système principal. L’objectif étant d’observer l’évolution des
performances des classifieurs sur les représentations des couches cachées pour mettre en avant
les capacités de captures d’informations sémantiques de notre système principal.
Nous reportons dans la table 7.6, les résultats de l’apprentissage des deux classifieurs sur
les représentations internes des cinq couches cachées de notre système principal.
158
7.4. Mesure de confiance
159
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
[ l '
( { [ Mesure de
t t+1 t+2 confiance
h ô t
Représentations internes
de [ l'hôtel >
t+1
e l >
Nous nous inspirons des travaux sur les mesures de confiance en reconnaissance de la pa-
role [Evermann et Woodland 2000] pour proposer la calibration des sorties des classifieurs
plutôt que leur utilisation directe comme mesure de confiance. Cette calibration correspond à
un ensemble de transformations linéaires appliquées par segment (piece-wise linear mapping)
sur les sorties des classifieurs. Nous définissons la calibration par observation sur l’ensemble
de développement de MEDIA, puis réalisons son application sur l’ensemble de tests.
Nous décrivons dans la prochaine sous-section les expérimentations menées autour de la
mesure de confiance proposée, ainsi que les résultats obtenus. Nous proposons également
d’évaluer la fiabilité de la mesure proposée, c’est-à-dire la quantité d’informations addition-
nelles qu’elle apporte.
160
7.4. Mesure de confiance
Figure 7.9 – Précision en fonction du rappel des concepts sémantiques après application d’un
filtrage par seuil de confiance sur l’ensemble de tests de MEDIA pour les concepts émis dans
le cadre du système normal (1. dans la table 7.1). Seuil appliqué de 0 à 1 par pas de 10−6 .
Ces résultats nous montrent l’apport des classifieurs externes pour la production d’une
mesure de confiance. Nous pouvons observer que dans tous les cas, la précision en fonction du
161
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
rappel est meilleure par l’utilisation d’une mesure de confiance issue des classifieurs externes.
Nous notons également que le classifieur bLSTM est le plus performant concernant l’émission
de cette mesure, puisqu’il permet une précision systématiquement plus importante pour un
rappel identique.
Nous effectuons en complément l’évaluation de la mesure de confiance pour notre système
principale appris selon le mode étoile. Il s’agit du système 2. dans la table 7.1.
Nous reportons dans la figure 7.10, les courbes de précision en fonction du rappel obtenu
par le classifieur bLSTM dans le cas des représentations du système principal en mode étoile.
À des fins de comparaison, nous reportons aussi la courbe obtenu par le classifieur bLSTM sans
utilisation du mode étoile.
Figure 7.10 – Précision en fonction du rappel des concepts sémantiques après application d’un
filtrage par seuil de confiance sur la mesure produite par un classifieur bLSTM, pour l’ensemble
de tests de MEDIA. Seuil appliqué de 0 à 1 par pas de 10−6 .
Sur cette figure, il est intéressant d’observer que le mode étoile ne surpasse pas systéma-
tiquement le mode normal. Ce mode permet de meilleures performances finales en terme de
CER et CVER, alors que pour un rappel entre 0,74 et 0,78, ce mode ne permet pas une précision
suffisante par rapport au mode normal.
Pour compléter nos travaux de mise en place d’une mesure de confiance, nous proposons
de calculer la fiabilité des meilleures mesures obtenues. Nous effectuons donc la suite de nos
travaux avec les mesures émises par le classifieur bLSTM selon des représentations en mode
normal et en mode étoile.
162
7.4. Mesure de confiance
Afin d’évaluer cette fiabilité, nous exploitons la métrique d’entropie croisée normalisée
(Normalised Cross Entropy, NCE). Il s’agit d’une métrique couramment exploitée pour les me-
sures de confiance en reconnaissance de la parole [Siu et al. 1997 ; Evermann et Woodland
2000].
La NCE est une mesure théorique de la quantité d’informations supplémentaires fournies
par une mesure de confiance. Une mesure supérieure à 0 indique la présence d’informations
additionnelles. Également, plus le score NCE est proche de 1, plus la quantité d’informations
apportées est importante. Cette métrique est définie par l’équation :
P P
Hmax + log2 (m(C)) + log2 (1 − m(C))
Ccor Cincor
N CE = (7.1)
Hmax
Avec, m(C) la mesure de confiance associée au concept sémantique courant, et Hmax défini
par :
Table 7.7 – Fiabilité en score NCE des mesures de confiance produites par le classifieur bLSTM
pour chacun des deux modes du système de compréhension de la parole, sur les ensembles de
développement et de test de MEDIA.
Ces résultats montrent la pertinence des calibrations définies à l’aide des ensembles de
développement en mode normal et en mode étoile. L’application de ces calibrations sur l’en-
semble de tests permet d’obtenir des scores de NCE de 0,288 pour le mode normal et 0,241
pour le mode étoile. Ces résultats montrent aussi que les mesures de confiance produites ap-
portent une information additionnelle exploitable.
Il serait ainsi intéressant d’utiliser la mesure de confiance proposée dans le but de rejeter
les concepts émis par notre système principal qui peuvent être considérés comme non fiables.
Dans de futurs travaux, il peut aussi être intéressant d’explorer les possibilités offertes par la
mesure de confiance pour réaliser des corrections d’erreurs.
163
Partie II, Chapitre 7 – Analyse d’erreurs et exploitation de représentations internes
7.5 Conclusion
Nous avons présenté ici les dernières contributions réalisées dans le cadre de cette thèse.
Ces contributions se sont tout d’abord concentrées autour de l’analyse des erreurs effectuées
par le système de compréhension de la parole que nous avons mis en œuvre.
Nous avons tout d’abord déterminé par analyse que les erreurs en sortie de notre système
affectent principalement une poignée de concepts sémantiques. Également, le type d’erreurs
le plus largement représenté concerne des erreurs de suppression, qui peuvent révéler un
manque de données manuellement annotées. Il serait intéressant de réaliser une augmentation
de données pour accroitre la taille de nos ensembles et vérifier ce point. En portant l’analyse
sur les sorties d’un système exploitant une chaîne de composants, nous avons observé un scé-
nario similaire. Cette similarité nous a indiqué que les erreurs produites semblent davantage
liées à la tâche MEDIA qu’à notre approche de bout en bout.
Nous avons ensuite envisagé un problème de reconnaissance des mots composants les va-
leurs des concepts sémantiques, dégradant la qualité des transcriptions automatique de ces
valeurs et impliquant l’augmentation de la quantité de suppressions de concepts. Il apparait
après analyse que la qualité de la transcription des valeurs ne peut pas être mise en cause, ce
qui nous signale un problème d’étiquetage sémantique. Cette analyse de la qualité de recon-
naissance des mots nous a permis d’observer un problème de segmentation en concept. Pour
contrer ce problème, nous avons proposé l’entraînement de la segmentation comme une tâche
à part entière dans la chaîne d’apprentissage de notre système de bout en bout.
Pour compléter ces analyses, nous avons aussi proposé une méthode d’extraction de re-
présentation interne des concepts sémantiques. Nous avons effectué une visualisation en deux
dimensions de ces représentations internes des concepts sémantiques. La visualisation a mis en
évidence un effet de regroupement en fonction des classes de concepts, et a montré la capacité
de notre approche de bout en bout à modéliser des informations sémantiques.
Enfin, nous avons proposé d’exploiter ces représentations internes dans le but de produire
une mesure de confiance évaluant la fiabilité de l’émission d’un concept sémantique. Nous
avons ainsi mis en place un classifieur externe appris pour émettre une classe sémantique à
partir de la représentation interne d’un concept. Nous avons proposé d’exploiter les scores de
la fonction softmax en sortie de ce classifieur comme mesure de confiance et les expérimenta-
tions menées ont montré la pertinence de la mesure proposée par l’obtention d’un score NCE
allant jusqu’à 0,288. L’intérêt de la mise en place d’une mesure de confiance réside dans l’in-
formation supplémentaire qu’elle apporte. Elle permet en effet d’envisager le rejet de concepts
émis considérés non fiables par un seuil de confiance. Elle peut aussi rendre possible la correc-
tion de certaines erreurs émises. Ces pistes pourront être explorées dans de futurs travaux.
Enfin, les contributions décrites dans ce chapitre ont fait l’objet des publications scienti-
fiques [Caubrière, Ghannay et al. 2020 ; Caubrière, Estève et al. 2020].
164
Chapitre 8
C ONCLUSION ET PERSPECTIVES
Au sein de ce dernier chapitre, nous concluons sur les travaux réalisés dans le cadre de cette
thèse. Nous proposons ensuite quelques perspectives pouvant orienter de futurs travaux.
8.1 Conclusion
Dans le cadre de cette thèse, nous avons travaillé à l’élaboration et l’optimisation d’un pre-
mier système neuronal entièrement dédié à une tâche de compréhension de la parole qui s’ap-
puie directement sur des observations du signal acoustique.
L’intérêt pour la mise en œuvre d’une telle approche est qu’elle permet de lever un obstacle
présent au sein des approches plus classique. Ces approches effectuent la tâche de compré-
hension par une chaîne de traitements via des représentations symboliques intermédiaire. Ces
représentations intermédiaire induisent la propagation d’erreurs au fil de la chaîne de traite-
ments, mais provoque également une perte d’information par la suppression de l’ensemble des
informations paralinguistiques présente dans la parole.
Afin de mener à bien nos travaux, nous nous sommes situés dans le cadre applicatif de
la compréhension de la parole, que nous avons trouvé dans les tâches de reconnaissance des
entités nommées et d’extraction des concepts sémantiques. Il s’agit de tâches de compréhension
similaires, qui peuvent être prises en charge par des méthodes d’apprentissage supervisé. La
différence entre ces deux tâches provient de leur représentation de la sémantique, c’est-à-dire
du sens. Les entités nommées sont définies comme des briques élémentaires de l’information
générale contenue dans un document, tandis que les concepts sémantiques dans le contexte de
MEDIA sont ultraspécialisés pour la tâche de réservation d’hôtel.
Dans notre cadre applicatif, nous faisons face à une problématique de rareté des données de
parole manuellement transcrites et annotées sémantiquement. Ainsi, tout au long de nos tra-
vaux, nous avons mis en place des stratégies d’augmentations de données, et d’entraînements
de nos systèmes répondant à cette problématique.
Dans nos contributions, nous exploitons les avancées dans le domaine de la reconnaissance
de la parole comme point de départ. Dans ce domaine, de premiers systèmes ont effectués
la projection d’informations de la dimension acoustique vers une représentation textuelle de
la parole, à travers une architecture neuronal récurrente exploitant la fonction de coût CTC
165
(Connectionnist Temporal Classification). L’intérêt de cette fonction de coût est qu’elle permet à
un système d’apprendre l’alignement entre un segment audio et la représentation textuelle du
discours prononcé.
Nos travaux s’appuient sur cette fonction de coût en effectuant l’enrichissement des repré-
sentations textuelles par des marqueurs de la sémantique. Ainsi, nous entraînons nos systèmes
en alignement les segments audio et leur transcriptions enrichis de ces marqueurs.
Dans un premier temps, nos travaux visent à mettre en œuvre un système de ce type dans
un cadre simplifié de reconnaissance des entités nommées. En abordant ensuite la reconnais-
sance des entités nommées structurées, nous vérifions la viabilité de notre proposition et nous
la comparons aux approches classiques par chaîne de traitements.
Nous reportons dans la table 8.1 les principaux résultats de nos expérimentations autour
de la reconnaissance des entités nommées.
Table 8.1 – Principaux résultats de nos contributions autour des entités nommées (ces résultats
sont issus de la table 5.10)
Pour cette tâche, nos résultats ont montré une amélioration des performances de nos sys-
tèmes par rapport au système de référence. Ils ont ainsi confirmé la viabilité de notre approche.
Toutefois, notre approche de bout en bout ne surpasse pas une chaîne de traitements à l’état de
l’art tout en s’en approchant.
La suite de nos travaux s’est orientée sur l’extraction des concepts sémantiques. Via cette
tâche, nous mettons en œuvre notre approche dans un cadre applicatif lié à une définition plus
précise de la sémantique. Dans ce cadre applicatif, le problème de la rareté des données est
accentué. Aussi, nous mettons en place une stratégie d’entraînement visant à compenser cette
rareté.
Cette stratégie s’appuie sur la méthode de transfert d’apprentissage afin de bénéficier de
connaissances acquises sur des données tierces. Par exemple, nous avons pu bénéficier de l’in-
formation sémantique générale portée par les entités nommées. Nous avons vérifié la viabilité
de notre approche en la comparant à une approche classique par chaîne de traitements.
Nous reportons dans la table 8.2 les principaux résultats de nos expérimentations autour
de l’extraction des concepts sémantiques.
Nos résultats pour cette tâche confirment à nouveau la viabilité de l’approche proposée
dans les travaux de cette thèse.
Nous avons poursuivi en nous orientant vers l’analyse des erreurs produites par notre sys-
166
Approche Identification dans ce manuscrit CER CVER
Chaîne de composants RAPcc / ECStexte+carac 16, 1 20, 4
Système de bout en bout RAP6 → REN6 → PM*+M*7 → M*7 15,8 20,3
Table 8.2 – Principaux résultats de nos contributions autour des concepts sémantiques (ces
résultats sont issus de la table 6.12).
tème d’extraction des concepts sémantiques. L’objectif de ces analyses était de mieux com-
prendre les raisons des erreurs commises.
Nos analyses relèvent que les erreurs produites affectent principalement quelques catégo-
ries de concepts sémantiques. De plus, il s’agit majoritairement d’erreurs de suppressions de
concepts. Parmi les concepts les plus impactés, certains possèdent une valeur courte. Nous
étendons nos analyses à la qualité des transcriptions automatiques de ces mots supports et
déterminons que leurs transcriptions ne sont pas à mettre en cause dans les cas de suppres-
sions. Nos analyses ont aussi permis de déceler un problème de segmentation en concepts,
nous conduisant à l’apprentissage d’une tâche de segmentation par transfert d’apprentissage.
Par la suite, nous avons dirigé nos travaux vers l’extraction de représentations internes des
concepts sémantiques à des fins d’analyses. En nous appuyant sur ces représentations, nous
avons proposé une mesure de confiance sur les concept sémantique émis. L’évaluation de cette
mesure à travers la la métrique NCE (Normalized Cross-Entropy) à montré sa fiabilité.
Les résultats de cette évaluation sont reportés dans la table 8.3 et ont montré la pertinence
de la mesure de confiance proposée.
Table 8.3 – Résultats de fiabilité des mesures de confiance produites par le classifieur externe
(ces résultats sont reportés de la table 7.7).
8.2 Perspectives
Tout d’abord, il est possible d’effectuer une optimisation fine de l’architecture et des hyper-
paramètres de notre système.
167
En effet, nous n’avons cherché à optimiser que sa profondeur. Une étude des paramètres des
optimiseurs exploités ou du nombre d’unités neuronales par couche peut conduire à l’obten-
tion d’un meilleur minima local. Nous n’avons pas réalisé ce type d’optimisation en raison de
la quantité importante d’entraînements que cela implique, et donc du temps et de la puissance
de calcul nécessaire.
Dans le cadre de notre approche de bout en bout, nous entraînons un système à partir du
signal acoustique et de la représentation cible des mots et de la sémantique. L’enrichissement
des données d’entraînement pourrait être réalisé avec des caractéristiques additionnelles, par
exemple, des lemmes ou des descripteurs morphosyntaxiques. Il s’agirait d’extraire, via des
réseaux de neurones tiers, une ou plusieurs représentations vectorielles (embeddings) de ces
informations additionnelles, puis effectuer leur injection au niveau des couches neuronales ré-
currentes responsables de la capture de l’information sémantique. Des travaux similaires ont
été effectués pour injecter une information permettant l’adaptation au locuteur dans [Toma-
shenko, Caubrière et Estève 2019].
Une autre perspective suite à nos travaux concernerait notre apprentissage par transferts
successifs piloté par une stratégie de curriculum. Une étude complémentaire pour déterminer
plus efficacement le dimensionnement des tâches impliquées pourrait permettre d’optimiser
son utilisation. Nous pouvons par exemple concentrer cette étude sur la taille des ensembles
de données exploités, mais aussi sur leurs degrés de spécialisation.
En complément, nous pouvons étendre nos travaux d’analyse à l’ensemble de la chaîne d’ap-
prentissage, dans le but de comprendre les informations considérées comme pertinentes par le
168
système. Par analyse de l’impact des entités nommées dans cette chaîne d’apprentissage, nous
avons par exemple relevé un impact négatif sur une grande partie des concepts sémantiques
pouvant être considérés proche de l’entité nommée amount. Une analyse de ce type permettrait
l’obtention d’un meilleur système final par une spécialisation plus précise du modèle.
Une autre perspective centrée sur la stratégie de curriculum correspondrait à l’enrichis-
sement des tâches composants la chaîne d’apprentissage. Nous pouvons envisager d’étudier
d’autres tâches pouvant s’intégrer pleinement dans notre stratégie d’apprentissage, comme
nous l’avons fait avec la tâche de segmentation. Par exemple, nous pouvons exploitater des
données multilingues, comme c’est le cas dans [Tomashenko, Caubrière et Estève 2019]. Dans
cette étude, les données multilingues sont exploitées dans un but de modélisation acoustique.
Il pourrait être intéressant de pouvoir tirer bénéfice de données multilingues au niveau de la
sémantique, ce qui pourrait en partie répondre à la problématique du manque de données
annotées manuellement. Il s’agit d’exploiter une langue étrangère suffisamment proche, afin
d’extraire des informations de structure sémantique qui vont au-delà d’une langue. Dans notre
cadre expérimentale, l’utilisation de la partie italienne du corpus PORTMEDIA rend possible
une étude de ce type.
Nos travaux d’analyse d’erreurs nous ont conduits à la mise en œuvre d’une projection
de représentation des concepts dans un espace à deux dimensions. Ces travaux ont permis de
mettre en avant la capacité d’un réseau à projeter les informations sémantiques dans cet espace.
Lors de nos expérimentations, nous avons observé le regroupement des projections en fonction
de la classe sémantique associée.
Il semble envisageable d’exploiter cette capacité de projection dans l’espace, afin d’effectuer
la détection d’incohérences dans l’annotation sémantique. En soit, l’analyse de ces projections
pourrait mettre en avant des incohérences dans l’annotation manuelle, qui pourront ensuite
être corrigées par un expert. Cela revient à faciliter le débruitage de l’annotation manuelle des
ensembles de données.
Il est également envisageable d’exploiter cette projection pour remettre en cause la struc-
ture sémantique définie. Par analyse du positionnement des regroupements dans l’espace, nous
pouvons envisager de détecter des incohérences de définition. Par exemple, le positionnement
de deux classes sémantiques différentes dans une même portion de l’espace de représentation.
Dans nos travaux, nous avons exploité avec succès une augmentation de données automa-
tique pour les entités nommées. Nous avons également vu une quantité élevée d’erreurs de
suppression dans le cas des concepts sémantiques. Pour améliorer les performances de nos
169
systèmes et réduire la quantité de suppression, nous pouvons envisager une augmentation au-
tomatique de nos données concernant les concepts avec un fort taux de suppression.
Par exemple, dans le cadre de la tâche MEDIA, la variabilité des phrases prononcées est as-
sez faible. Il est ainsi possible d’effectuer la génération d’une structure de phrase, par exemple
"Je souhaite réserver un hôtel à VILLE". Au sein de cette phrase, nous pouvons ainsi remplir les
champs avec des valeurs de concepts sémantiques cohérentes récupérées à partir d’un diction-
naire. Ces dictionnaires peuvent être issus d’une analyse sur l’ensemble manuellement annoté
ou même bénéficier d’un enrichissement expert extérieur.
Enfin, comme nous exploitons une modalité parole en entrée de nos systèmes, nous pou-
vons compléter une augmentation automatique de ce type par la synthèse des phrases générées.
Dans nos travaux, nous avons mis en place un système neuronal de bout en bout pour la
compréhension de la parole. Nous fournissons à ce système des segments audio correspondant
à une phrase, impliquant une modélisation de la sémantique à l’échelle de la phrase.
L’information sémantique est généralement présente globalement au sein d’un document,
elle n’est pas restreinte à l’échelle d’une phrase. Nous pouvons par exemple mentionner les
reportages d’informations qui traitent d’un même sujet sur l’ensemble du document.
Il serait ainsi pertinent d’étendre les travaux de cette thèse en proposant un traitement
neuronal de bout en bout effectuant une modélisation sémantique à l’échelle d’un document.
Mettre en place un système à cette échelle entraine des difficultés comme la gestion d’une
plus grande quantité de données, la taille d’un document pouvant être très importante compa-
rée à une phrase. Celà entraine aussi une modélisation sémantique plus générale.
170
A NNEXES
Nous proposons ici d’effectuer un aparté pour rendre compte du coût environnemental des
travaux menés dans le cadre de cette thèse.
Cette section est motivée par le coût énergétique grandissant des approches d’apprentis-
sages profonds. Ce domaine progresse rapidement avec des méthodes se perfectionnant, mais
qui nécessite un temps de calcul de plus en plus important. Certaines études s’intéressent
au coût énergétique de l’apprentissage profond, notamment dans le cadre du traitement de
la langue naturel [Strubell et al. 2019]. Ces études signalent l’importance de l’indication du
coût énergétique afin de s’orienter à terme vers des algorithmes et du matériel de calcul plus
efficaces.
Dans cette thèse, nous avons exposé nos travaux du point de vue des performances obte-
nues. Nous proposons au travers de cette section, une estimation factuelle du coût énergétique
de l’ensemble des travaux permettant la réalisation de cette thèse. L’estimation que nous propo-
sons ne peut être très précise en raison des variabilités matérielles lors de nos expérimentations.
De plus nous n’avons pas consigné l’intégralité de nos expérimentations, notamment lorsqu’il
s’agissait de développement. Ainsi, cette estimation se veut plutôt indicative d’un ordre de
grandeur.
Dans le but de réaliser notre estimation, nous considérons que nous réalisons l’ensemble
de nos expérimentations sur un gpu de type Nvidia Tesla K40, ayant une consommation élec-
trique de 235 watts. Nous effectuons une estimation du temps de calcul nécessaire à un GPU
de ce type pour réaliser l’apprentissage de l’ensemble des modèles exploités. Nous regroupons,
dans la table 8.4, l’estimation du temps de calcul total des expérimentations que nous avons
présentés dans cette thèse par chapitre de contributions.
171
Dans cette table, nous avons fourni qu’une estimation du temps de calcul correspondant
aux expérimentations présentées dans les chapitres de contributions de ce manuscrit. Il ne
peut s’agir que d’une estimation basse, puisque nous avons nécessairement effectué davantage
d’expérimentations que celles présentées. En effet, nous avons réalisé plusieurs séries d’expé-
rimentations n’ayant pas montré de résultats concluants. De plus, un nombre non négligeable
d’expériences ont été nécessaires à des fins de développement.
Il est ainsi raisonnable de penser qu’avec la prise en compte de l’intégralité des expérimen-
tations menées dans le cadre de cette thèse, nous pouvons à minima doubler l’estimation du
coût en temps de calcul et énergétique de ces travaux.
Pour rendre compte de la consommation énergétique, il est à noté qu’avec 1kW h il est pos-
sible d’alimenter un chauffage électrique pendant 1 heure l’hiver, mais également de parcourir
2 km dans une voiture électrique smart. Pour davantage de correspondance, nous invitons le
lecteur à consulter le site internet d ’EDF 1 .
1. [Link]
durable/que-peut-on-faire-avec-1-kwh
172
R ÉFÉRENCES PERSONNELLES
173
Tomashenko, N., Caubrière, A., Estève, Y., Laurent, A. & Morin, E., (2019), Recent Advances
in End-to-End Spoken Language Understanding. In Proceedings of the 7th International
Conference on Statistical Language and Speech Processing (SLSP), Ljubljana, Slovenia.
174
R ÉFÉRENCES
Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., . . . Chen, G.
et al., (2016), Deep speech 2 : End-to-end speech recognition in english and mandarin. In
Proceedings of the 33rd International Conference on Machine Learning (ICML) (p. 173-182),
New York City, NY, USA.
Bahdanau, D., Cho, K. & Bengio, Y., (2015), Neural machine translation by jointly learning to
align and translate. In Proceedings of the 3rd International Conference on Learning Repre-
sentations (ICLR), San Diego, CA, USA.
Bahdanau, D., Chorowski, J., Serdyuk, D., Brakel, P. & Bengio, Y., (2016), End-to-end attention-
based large vocabulary speech recognition. In Proceedings of the 41st International Confe-
rence on Acoustics, Speech and Signal Processing (ICASSP) (p. 4945-4949), IEEE, Shanghai,
China.
Baum, L. E. et al., (1972), An inequality and associated maximization technique in statistical
estimation for probabilistic functions of Markov processes, Inequalities, 31, 1-8.
Bechet, F., Maza, B., Bigouroux, N., Bazillon, T., El-Beze, M., De Mori, R. & Arbillot, E.,
(2012), DECODA : a call-centre human-human spoken conversation corpus. In Procee-
dings of the 8th Language Resources and Evaluation Conference (LREC) (p. 114-118), Istan-
bul, Turkey : European Language Resources Association (ELRA).
Belinkov, Y. & Glass, J., (2017), Analyzing hidden representations in end-to-end automatic
speech recognition systems. In Proceedings of the 30th Advances in Neural Information Pro-
cessing Systems Conference (NIPS) (p. 2441-2451), Long Beach, CA, USA.
Bengio, Y., Ducharme, R., Vincent, P. & Jauvin, C., (2003), A neural probabilistic language
model, Journal of machine learning research, 3Feb, 1137-1155.
Bengio, Y., Louradour, J., Collobert, R. & Weston, J., (2009), Curriculum learning. In Procee-
dings of the 26th annual international conference on machine learning (ICML) (p. 41-48).
Bengio, Y., Simard, P. & Frasconi, P., (1994), Learning long-term dependencies with gradient
descent is difficult, IEEE transactions on neural networks, 52, 157-166.
Bernard, G., Galibert, O. & Kahn, J., (2014), The second official REPERE evaluation. In Pro-
ceedings of the 2nd International Workshop on Speech, Language and Audio in Multimedia,
SLAM (p. 34-38), Penang, Malaysia.
Bonneau-Maynard, H., Rosset, S., Ayache, C., Kuhn, A. & Mostefa, D., (2005), Semantic an-
notation of the french media dialog corpus. In Proceedings of the 9th European Conference
175
on Speech Communication and Technology (EUROSPEECH) (p. 3457-3460), Lisbon, Portu-
gal.
Bouchekif, A., (2016), Structuration automatique de documents audio (thèse de doct., Le Mans
Université).
Bougares, F., Deléglise, P., Esteve, Y. & Rouvier, M., (2013), LIUM ASR system for Etape
French evaluation campaign : experiments on system combination using open-source re-
cognizers. In Proceedings of the 16th International Conference on Text, Speech and Dialogue
(TSD) (p. 319-326), Pilsen, Czech Republic.
Bourlard, H. & Wellekens, C. J., (1987), Multilayer perceptrons and automatic speech re-
cognition. In Proceedings of the 1st International Conference on Neural Networks (ICNN)
(p. 407-416).
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., . . . Askell, A. et al.,
(2020), Language models are few-shot learners, arXiv preprint arXiv :2005.14165.
Bundschus, M., Dejori, M., Stetter, M., Tresp, V. & Kriegel, H.-P., (2008), Extraction of se-
mantic biomedical relations from text using conditional random fields, BMC bioinforma-
tics, 91, 207, doi :10.1186/1471-2105-9-207
Caubrière, A., Estève, Y., Laurent, A. & Morin, E., (2020), Confidence measure for speech-
to-concept end-to-end spoken language understanding. In Proceedings of the 21th Annual
Conference of the International Speech Association (INTERSPEECH), Shanghai, China.
Caubrière, A., Ghannay, S., Tomashenko, N., De Mori, R., Laurent, A., Morin, E. & Estève,
Y., (2020), Error analysis applied to end-to end spoken language understanding. In Pro-
ceedings of the 45th International Conference on Acoustics, Speech and Signal Processing
(ICASSP), Barcelona, Spain.
Caubrière, A., Rosset, S., Estève, Y., Laurent, A. & Morin, E., (2020a), Où en sommes-nous
dans la reconnaissance des entités nommées structurées à partir de la parole ?, In C. Ben-
zitoun, C. Braud, L. Huber, D. Langlois, S. Ouni, S. Pogodalla & S. Schneider (Éd.),
6e conférence conjointe Journées d’Études sur la Parole (JEP, 33e édition), Traitement Auto-
matique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en
Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume
1 : Journées d’Études sur la Parole (p. 64-72), Nancy, France : ATALA.
Caubrière, A., Rosset, S., Estève, Y., Laurent, A. & Morin, E., (2020b), Where are we in Named
Entity Recognition from Speech ? In Proceedings of the 12th International Conference on
Language Resources and Evaluation (LREC), Marseille, France.
Caubrière, A., Tomashenko, N., Estève, Y., Laurent, A. & Morin, E., (2019), Curriculum d’ap-
prentissage : reconnaissance d’entités nommées pour l’extraction de concepts séman-
tiques. In 26e conférence sur le Traitement Automatique des Langues Naturelles (TALN),
Toulouse, France.
176
Caubrière, A., Tomashenko, N., Laurent, A., Morin, E., Camelin, N. & Estève, Y., (2019),
Curriculum-based transfer learning for an effective end-to-end spoken language unders-
tanding and domain portability. In Proceedings of the 20th Annual Conference of the Inter-
national Speech Association (INTERSPEECH) (p. 1198-1202), Graz, Austria, doi :10.21437/
interspeech.2019-1832
Chan, W., Jaitly, N., Le, Q. & Vinyals, O., (2016), Listen, attend and spell : A neural network
for large vocabulary conversational speech recognition. In Proceedings of the 41st Interna-
tional Conference on Acoustics, Speech and Signal Processing (ICASSP) (p. 4960-4964), IEEE,
Shanghai, China.
Chen, S. F. & Goodman, J., (1999), An empirical study of smoothing techniques for language
modeling, Computer Speech & Language, 134, 359-394.
Chiu, C.-C., Sainath, T. N., Wu, Y., Prabhavalkar, R., Nguyen, P., Chen, Z., . . . Gonina, E.
et al., (2018), State-of-the-art speech recognition with sequence-to-sequence models. In
Proceedings of the 43th International Conference on Acoustics, Speech and Signal Processing
(ICASSP) (p. 4774-4778), IEEE, Calgary, Alberta, Canada.
Chiu, J. P. & Nichols, E., (2016), Named entity recognition with bidirectional LSTM-CNNs,
Transactions of the Association for Computational Linguistics, 4, 357-370.
Cho, K., Van Merriënboer, B., Bahdanau, D. & Bengio, Y., (2014), On the properties of neural
machine translation : Encoder-decoder approaches. In Proceedings of the 8th Workshop on
Syntax, Semantics and Structure in Statistical Translation (SSST), (p. 103-111), Doha, Qatar,
doi :10.3115/v1/W14-4012
Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. &
Bengio, Y., (2014), Learning phrase representations using RNN encoder-decoder for sta-
tistical machine translation. In Proceedings of the 19th Conference on Empirical Methods in
Natural Language Processing (EMNLP) (p. 1724-1734), Doha, Qatar, doi :10.3115/v1/D14-
1179
Chomsky, N. & Lightfoot, D. W., (2002), Syntactic structures, Walter de Gruyter.
Chorowski, J. K., Bahdanau, D., Serdyuk, D., Cho, K. & Bengio, Y., (2015), Attention-based
models for speech recognition. In Proceedings of the 28th Advances in Neural Information
Processing Systems Conference (NIPS) (p. 577-585), Montréal, Canada.
Chorowski, J., Bahdanau, D., Cho, K. & Bengio, Y., (2014), End-to-end continuous speech
recognition using attention-based recurrent NN : First results. In Proceedings of the Deep
Learning and Representation Learning Workshop of the 27th Advances in Neural Information
Processing Systems Conference (NIPS), Montréal, Canada.
Davis, S. & Mermelstein, P., (1980), Comparison of parametric representations for monosyl-
labic word recognition in continuously spoken sentences, IEEE transactions on acoustics,
speech, and signal processing, 284, 357-366.
177
De Mori, R., (2007), Spoken language understanding : a survey. In Proceedings of the Workshop
on Automatic Speech Recognition and Understanding (ASRU) (p. 365-376), IEEE, Kyoto,
Japan.
De Mori, R., Bechet, F., Hakkani-Tur, D., McTear, M., Riccardi, G. & Tur, G., (2008), Spoken
language understanding, IEEE Signal Processing Magazine, 253, 50-58.
Dempster, A. P., Laird, N. M. & Rubin, D. B., (1977), Maximum likelihood from incomplete
data via the EM algorithm, Journal of the Royal Statistical Society : Series B (Methodological),
391, 1-22.
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K., (2019), Bert : Pre-training of deep bidirec-
tional transformers for language understanding, 4171-4186, doi :10.18653/v1/N19-1423
Dietterich, T., (1995), Overfitting and undercomputing in machine learning, ACM computing
surveys (CSUR), 273, 326-327.
Dinarelli, M. & Tellier, I., (2016), Improving recurrent neural networks for sequence label-
ling, arXiv preprint arXiv :1606.02555.
Dong, L., Xu, S. & Xu, B., (2018), Speech-transformer : a no-recurrence sequence-to-sequence
model for speech recognition. In Proceedings of the 43th International Conference on Acous-
tics, Speech and Signal Processing (ICASSP) (p. 5884-5888), IEEE, Calgary, Alberta, Ca-
nada.
Dozat, T., (2016), Incorporating nesterov momentum into adam.
Duchi, J., Hazan, E. & Singer, Y., (2011), Adaptive subgradient methods for online learning
and stochastic optimization., Journal of machine learning research, 127.
Elman, J. L., (1990), Finding structure in time, Cognitive science, 142, 179-211.
Estève, Y., Bazillon, T., Antoine, J.-Y., Béchet, F. & Farinas, J., (2010), The EPAC Corpus : Ma-
nual and Automatic Annotations of Conversational Speech in French Broadcast News. In
Proceedings of the 7th international conference on Language Resources and Evaluation (LREC)
(p. 1686-1689), Malta : European Language Resources Association (ELRA).
Evermann, G. & Woodland, P., (2000), Posterior probability decoding, confidence estimation
and system combination. In Proceedings of the Speech Transcription Workshop (T. 27, p. 78-
81).
Fernández, S., Graves, A. & Schmidhuber, J., (2008), Phoneme recognition in TIMIT with BLSTM-
CTC.
Fillmore, C. J. et al., (1976), Frame semantics and the nature of language. In Annals of the New
York Academy of Sciences : Conference on the origin and development of language and speech
(T. 280, 1, p. 20-32), New York.
Forney, G. D., (1973), The viterbi algorithm, Proceedings of the IEEE, 613, 268-278.
Galibert, O. & Kahn, J., (2013), The first official repere evaluation. In First Workshop on Speech,
Language and Audio in Multimedia.
178
Galibert, O., Leixa, J., Adda, G., Choukri, K. & Gravier, G., (2014), The ETAPE speech pro-
cessing evaluation. In Proceedings of the 9th International Conference on Language Resources
and Evaluation (LREC) (p. 3995-3999), Reykjavik, Iceland : European Language Resources
Association (ELRA).
Galliano, S., Geoffrois, E., Gravier, G., Bonastre, J.-F., Mostefa, D. & Choukri, K., (2006),
Corpus description of the ESTER Evaluation Campaign for the Rich Transcription of
French Broadcast News. In Proceedings of the 5th Language Resources and Evaluation Confe-
rence (LREC) (p. 139-142), Genoa, Italy : European Language Resources Association (ELRA).
Galliano, S., Geoffrois, E., Mostefa, D., Choukri, K., Bonastre, J.-F. & Gravier, G., (2005),
The ESTER phase II evaluation campaign for the rich transcription of French broadcast
news. In Proceedings of the 9th European Conference on Speech Communication and Techno-
logy (EUROSPEECH) (p. 1149-1152), Lisbon, Portugal.
Galliano, S., Gravier, G. & Chaubard, L., (2009), The ESTER 2 evaluation campaign for the
rich transcription of French radio broadcasts. In Proceedings of the 10th Annual Conference
of the International Speech Communication Association (INTERSPEECH) (p. 2543-2546),
Brighton, United Kingdom.
Geman, S., Bienenstock, E. & Doursat, R., (1992), Neural networks and the bias/variance di-
lemma, Neural computation, 41, 1-58.
Ghannay, S., (2017), Étude sur les représentations continues de mots appliquées à la détection au-
tomatique des erreurs de reconnaissance de la parole (thèse de doct., Le Mans Université).
Ghannay, S., Caubrière, A., Estève, Y., Camelin, N., Simonnet, E., Laurent, A. & Morin, E.,
(2018), End-to-end named entity and semantic concept extraction from speech. In Pro-
ceedings of the Spoken Language Technology Workshop (SLT), Athens, Greece.
Ghannay, S., Estève, Y., Camelin, N., Dutrey, C., Santiago, F. & Adda-Decker, M., (2015),
Combining continuous word representation and prosodic features for asr error predic-
tion. In Proceedings of the 3rd International Conference on Statistical Language and Speech
Processing (SLSP) (p. 84-95), Budapest, Hungary.
Giraudel, A., Carré, M., Mapelli, V., Kahn, J., Galibert, O. & Quintard, L., (2012), The RE-
PERE Corpus : a multimodal corpus for person recognition. In Proceedings of the 8th Lan-
guage Resources and Evaluation Conference (LREC) (p. 1102-1107), Istanbul, Turkey : Eu-
ropean Language Resources Association (ELRA).
Glorot, X. & Bengio, Y., (2010), Understanding the difficulty of training deep feedforward
neural networks. In Proceedings of the 13th International Conference on Artificial Intelligence
and Statistics (AISTATS) (p. 249-256), Sardinia, Italy.
Goodfellow, I., Bengio, Y. & Courville, A., (2016), Deep learning, MIT press.
Goryainova, M., Grouin, C., Rosset, S. & Vasilescu, I., (2014), Morpho-Syntactic Study of Er-
rors from Speech Recognition System. In Proceedings of the 9th International Conference on
179
Language Resources and Evaluation (LREC) (p. 3995-3999), Reykjavik, Iceland : European
Language Resources Association (ELRA).
Graves, A., Fernández, S., Gomez, F. & Schmidhuber, J., (2006), Connectionist temporal clas-
sification : labelling unsegmented sequence data with recurrent neural networks. In Pro-
ceedings of the 23rd international conference on Machine learning (ICML) (p. 369-376), Pitts-
burgh, PA, USA.
Graves, A. & Jaitly, N., (2014), Towards end-to-end speech recognition with recurrent neural
networks. In Proceedings of the 31st International Conference on Machine Learning (ICML)
(p. 1764-1772), Beijing, China.
Graves, A., Mohamed, A.-r. & Hinton, G., (2013), Speech recognition with deep recurrent
neural networks. In Proceedings of the 38th International Conference on Acoustics, Speech
and Signal Processing (ICASSP) (p. 6645-6649), IEEE, Vancouver, Canada.
Gravier, G., Adda, G., Paulson, N., Carré, M., Giraudel, A. & Galibert, O., (2012), The ETAPE
corpus for the evaluation of speech-based TV content processing in the French language.
In Proceedings of the 8th Language Resources and Evaluation Conference (LREC) (p. 114-
118), Istanbul, Turkey : European Language Resources Association (ELRA).
Gravier, G., Bonastre, J.-F., Geoffrois, E., Galliano, S., McTait, K. & Choukri, K., (2004),
The ESTER Evaluation Campaign for the Rich Transcription of French Broadcast News.
In Proceedings of the 4th Language Resources and Evaluation Conference (LREC) (p. 885-
888), Lisbon, Portugal : European Language Resources Association (ELRA).
Grishman, R. & Sundheim, B. M., (1996), Message understanding conference-6 : A brief history.
In Proceedings of the 16th International Conference on Computational Linguistics (COLING)
(p. 466-471), Copenhagen, Denmark.
Grouin, C., Rosset, S., Zweigenbaum, P., Fort, K., Galibert, O. & Quintard, L., (2011), Pro-
posal for an extension of traditional named entities : From guidelines to evaluation, an
overview. In Proceedings of the 5th Linguistic Annotation Workshop (p. 92-100), Portland,
OR, USA.
Guinaudeau, C., (2011), Structuration automatique de flux télévisuels (thèse de doct., Université
de Rennes).
Hahn, S., Dinarelli, M., Raymond, C., Lefevre, F., Lehnen, P., De Mori, R., . . . Riccardi, G.,
(2010), Comparing stochastic approaches to spoken language understanding in multiple
languages, IEEE Transactions on Audio, Speech, and Language Processing, 196, 1569-1583.
Hakkani-Tür, D., Béchet, F., Riccardi, G. & Tur, G., (2006), Beyond ASR 1-best : Using word
confusion networks in spoken language understanding, Computer Speech & Language,
204, 495-514.
Hakkani-Tür, D., Tür, G., Celikyilmaz, A., Chen, Y.-N., Gao, J., Deng, L. & Wang, Y.-Y.,
(2016), Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Pro-
180
ceedings of the 17th Annual Conference of the International Speech Communication Associa-
tion (INTERSPEECH) (p. 715-719), San Francisco, CA, USA, doi :10.21437/Interspeech.
2016-402
Hammersley, J. M. & Clifford, P., (1971), Markov fields on finite graphs and lattices, Unpubli-
shed manuscript, 46.
Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., . . . Coates, A. et al.,
(2014), Deep speech : Scaling up end-to-end speech recognition, arXiv preprint arXiv :1412.5567.
Hatmi, M., (2014), Reconnaissance des entités nommées dans des documents multimodaux (thèse
de doct., Université de Nantes).
Hazen, T. J., Seneff, S. & Polifroni, J., (2002), Recognition confidence scoring and its use in
speech understanding systems, Computer Speech & Language, 161, 49-67.
He, K., Zhang, X., Ren, S. & Sun, J., (2015), Delving deep into rectifiers : Surpassing human-
level performance on imagenet classification. In Proceedings of the 15th International Confe-
rence on Computer Vision (ICCV) (p. 1026-1034), IEEE, Santiago, Chile.
Hemphill, C. T., Godfrey, J. J. & Doddington, G. R., (1990), The ATIS spoken language systems
pilot corpus. In Speech and Natural Language : Proceedings of a Workshop Held at Hidden
Valley, Pennsylvania, June 24-27, 1990.
Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A.-r., Jaitly, N., . . . Sainath, T. N. et al.,
(2012), Deep neural networks for acoustic modeling in speech recognition : The shared
views of four research groups, IEEE Signal processing magazine, 296, 82-97.
Hochreiter, S. & Schmidhuber, J., (1997), Long short-term memory, Neural computation, 98,
1735-1780.
Hoerl, A. E. & Kennard, R. W., (1970), Ridge regression : Biased estimation for nonorthogonal
problems, Technometrics, 121, 55-67.
Hori, T., Cho, J. & Watanabe, S., (2018), End-to-end speech recognition with word-based
RNN language models. In Proceedings of the Spoken Language Technology Workshop (SLT)
(p. 389-396), IEEE, Athens, Greece.
Hori, T., Watanabe, S., Zhang, Y. & Chan, W., (2017), Advances in joint CTC-attention based
end-to-end speech recognition with a deep CNN encoder and RNN-LM. In Proceedings of
the 18th Annual Conference of the International Speech Communication Association (INTER-
SPEECH) (p. 949-953), Stockholm, Sweden, doi :10.21437/Interspeech.2017-1296
Huang, Z., Xu, W. & Yu, K., (2015), Bidirectional LSTM-CRF models for sequence tagging,
arXiv preprint arXiv :1508.01991.
Ioffe, S. & Szegedy, C., (2015), Batch normalization : Accelerating deep network training by
reducing internal covariate shift. (T. 37, p. 448-456), Lille, France.
181
Jabaian, B., (2012), Systèmes de compréhension et de traduction de la parole : vers une approche
unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue (thèse de doct.,
Université d’Avignon et des Pays de Vaucluse).
Jannet, M. B., Adda-Decker, M., Galibert, O., Kahn, J. & Rosset, S., (2014), Eter : a new
metric for the evaluation of hierarchical named entity recognition. In Proceedings of the
9th International Conference on Language Resources and Evaluation (LREC) (p. 3987-3994),
Reykjavik, Iceland : European Language Resources Association (ELRA).
Jelinek, F., (1976), Continuous speech recognition by statistical methods, Proceedings of the
IEEE, 644, 532-556.
Jiang, H., (2005), Confidence measures for speech recognition : A survey, Speech communica-
tion, 454, 455-470.
Joachims, T., (1998), Text categorization with support vector machines : Learning with many
relevant features. In Proceedings of the 10th European Conference on Machine Learning
(ECML) (p. 137-142), Chemnitz, Germany.
Jordan, M. I., (1986), Attractor dynamics and parallelism in a connectionist sequential ma-
chine. In Proceedings of the 8th Annual Conference of the Cognitive Science Society (CSS)
(p. 531-546), Hillsdale, NJ, USA.
Jordan, M. I., (1997), Serial order : A parallel distributed processing approach. In Advances in
psychology (T. 121, p. 471-495), Elsevier.
Juang, B.-H. & Rabiner, L. R., (2005), Automatic speech recognition–a brief history of the tech-
nology development, Georgia Institute of Technology. Atlanta Rutgers University and the
University of California. Santa Barbara, 1, 67.
Kadari, R., Zhang, Y., Zhang, W. & Liu, T., (2018), CCG supertagging via Bidirectional LSTM-
CRF neural architecture, Neurocomputing, 283, 31-37.
Katz, S., (1987), Estimation of probabilities from sparse data for the language model com-
ponent of a speech recognizer, IEEE transactions on acoustics, speech, and signal processing,
353, 400-401.
Kim, S., Hori, T. & Watanabe, S., (2017), Joint CTC-attention based end-to-end speech recog-
nition using multi-task learning. In Proceedings of the 42nd International Conference on
Acoustics, Speech and Signal Processing (ICASSP) (p. 4835-4839), IEEE, New Orleans, LA,
USA.
Kingma, D. P. & Ba, J., (2015), Adam : A method for stochastic optimization. In Proceedings of
the 3rd International Conference on Learning Representations (ICLR), San Diego, CA, USA.
Klambauer, G., Unterthiner, T., Mayr, A. & Hochreiter, S., (2017), Self-normalizing neural
networks. In Proceedings of the 30th Advances in Neural Information Processing Systems
Conference (NIPS) (p. 971-980), Long Beach, CA, USA.
182
Klatt, D. H., (1977), Review of the ARPA speech understanding project, The Journal of the
Acoustical Society of America, 626, 1345-1366.
Lafferty, J., McCallum, A. & Pereira, F. C., (2001), Conditional random fields : Probabilistic
models for segmenting and labeling sequence data. In Proceedings of the 18th International
Conference on Machine Learning (ICML) (p. 282-289), Williamstown, MA, USA, doi :10.
5555/645530.655813
Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K. & Dyer, C., (2016), Neural archi-
tectures for named entity recognition. In Proceedings of the 15th Annual Conference of the
North American Chapter of the Association for Computational Linguistics : Human Language
Technologies (NAACL HLT) (p. 260-270), San Diego, CA, USA, doi :10.18653/v1/N16-
1030
Lavergne, T., Cappé, O. & Yvon, F., (2010), Practical very large scale CRFs. In Proceedings of the
48th Annual Meeting of the Association for Computational Linguistics (ACL) (p. 504-513).
LeCun, Y., Boser, B. E., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W. E. & Ja-
ckel, L. D., (1990), Handwritten digit recognition with a back-propagation network. In
Proceedings of the 3rd Advances in Neural Information Processing Systems Conference (NIPS)
(p. 396-404), Denver, CO, USA.
Lefèvre, F., Mostefa, D., Besacier, L., Estève, Y., Quignard, M., Camelin, N., . . . Rojas-Barahona,
L., (2012), Robustesse et portabilités multilingue et multi-domaines des systèmes de com-
préhension de la parole : les corpus du projet PortMedia. In Proceedings of the Joint Confe-
rence JEP-TALN-RECITAL (p. 779-786), Grenoble, France.
Liu, B. & Lane, I., (2016), Attention-based recurrent neural network models for joint intent
detection and slot filling, 685-689.
Luong, M.-T., Pham, H. & Manning, C. D., (2015), Effective approaches to attention-based
neural machine translation. In Proceedings of the 20th Conference on Empirical Methods in
Natural Language Processing (EMNLP) (p. 1412-1421), Lisbon, Portugal, doi :10.18653/
v1/D15-1166
Ma, W. & Van Compernolle, D., (1990), TDNN Labeling for a HMM Recognizer. In Proceedings
of the 15th International Conference on Acoustics, Speech and Signal Processing (ICASSP)
(p. 421-423), IEEE, Albuquerque, NM, USA.
Ma, X. & Hovy, E., (2016), End-to-end sequence labeling via bi-directional lstm-cnns-crf. In
Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics
(ACL) (p. 1064-1074), Berlin, Germany, doi :10.18653/v1/P16-1101
Maas, A. L., Hannun, A. Y. & Ng, A. Y., (2013), Rectifier nonlinearities improve neural network
acoustic models. In Proceedings of the 30th International Conference on Machine Learning
(ICML), Atlanta, GA, USA.
183
Maaten, L. v. d. & Hinton, G., (2008), Visualizing data using t-SNE, Journal of machine learning
research, 9Nov, 2579-2605.
Makhoul, J., Kubala, F., Schwartz, R., Weischedel, R. et al., (1999), Performance measures
for information extraction. In Proceedings of DARPA broadcast news workshop (p. 249-252),
Herndon, VA, USA.
Malouf, R., (2002), A comparison of algorithms for maximum entropy parameter estimation.
In Proceedings of the 6th Conference on Natural Language Learning (CoNLL-2002), Taipei,
Taiwan, doi :10.3115/1118853.1118871
Maskey, S. R. & Hirschberg, J., (2008), Automatic broadcast news speech summarization, Colum-
bia University.
McCallum, A. & Li, W., (2003), Early results for named entity recognition with conditional
random fields, feature induction and web-enhanced lexicons. In Proceedings of the 2nd
Annual Conference of the North American Chapter of the Association for Computational Lin-
guistics : Human Language Technologies (NAACL HLT) (T. 4, p. 188-191), Edmonton, Ca-
nada, doi :10.3115/1119176.1119206
Mesnil, G., Dauphin, Y., Yao, K., Bengio, Y., Deng, L., Hakkani-Tur, D., . . . Yu, D. et al.,
(2014), Using recurrent neural networks for slot filling in spoken language understan-
ding, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 233, 530-539.
Mesnil, G., He, X., Deng, L. & Bengio, Y., (2013), Investigation of recurrent-neural-network
architectures and learning methods for spoken language understanding. In Proceedings
of the 14th Annual Conference of the International Speech Communication Association (IN-
TERSPEECH) (p. 3771-3775), Lyon, France.
Miao, Y., Gowayyed, M. & Metze, F., (2015), EESEN : End-to-end speech recognition using
deep RNN models and WFST-based decoding. In Proceedings of the Workshop on Automatic
Speech Recognition and Understanding (ASRU) (p. 167-174), IEEE, Scottsdale, AZ, USA.
Mikolov, T. [Tomas], Chen, K., Corrado, G. & Dean, J., (2013), Efficient estimation of word re-
presentations in vector space. In Proceedings of the workshop of the 1st International Confe-
rence on Learning Representations (ICLR), Scottsdale, AZ, USA.
Mikolov, T. [Tomáš], Kombrink, S., Burget, L., Černockỳ, J. & Khudanpur, S., (2011), Exten-
sions of recurrent neural network language model. In Proceedings of the 36th Internatio-
nal Conference on Acoustics, Speech and Signal Processing (ICASSP) (p. 5528-5531), IEEE,
Prague, Czech Republic.
Mikolov, T. [Tomas], Sutskever, I., Chen, K., Corrado, G. S. & Dean, J., (2013), Distributed
representations of words and phrases and their compositionality. In Proceedings of the
26th Advances in Neural Information Processing Systems Conference (NIPS) (p. 3111-3119),
South Lake Tahoe, NV, USA.
184
Moritz, N., Hori, T. & Le, J., (2020), Streaming automatic speech recognition with the trans-
former model. In Proceedings of the 45th International Conference on Acoustics, Speech and
Signal Processing (ICASSP) (p. 6074-6078), IEEE, Barcelona, Spain.
Murray, G., Carenini, G. & Ng, R., (2010), Interpretation and transformation for abstracting
conversations. In Proceedings of the 11th Annual Conference of the North American Chapter
of the Association for Computational Linguistics : Human Language Technologies (NAACL
HLT) (p. 894-902), Los Angeles, CA, USA.
Nair, V. & Hinton, G. E., (2010), Rectified linear units improve restricted boltzmann machines.
In Proceedings of the 27th International Conference on Machine Learning (ICML), Haifa,
Israel.
Nasr, A., Béchet, F., Rey, J.-F., Favre, B. & Le Roux, J., (2011), Macaon : An nlp tool suite for
processing word lattices. In Proceedings of the 12th Annual Conference of the North Ameri-
can Chapter of the Association for Computational Linguistics : Human Language Technologies
(NAACL HLT) System Demonstrations (p. 86-91), Portland, OR, USA.
Nesterov, Y., (2013), Gradient methods for minimizing composite functions, Mathematical Pro-
gramming, 1401, 125-161, doi :10.1007/s10107-012-0629-5
Nouvel, D., Ehrmann, M. & Rosset, S., (2015), Les entités nommées pour le traitement automa-
tique des langues, ISTE Group.
Paek, T. & Horvitz, E., (2004), Optimizing Automated Call Routing by Integrating Spoken
Dialog Models with Queuing Models. In Proceedings of the 3rd Annual Conference of the
North American Chapter of the Association for Computational Linguistics : Human Language
Technologies (NAACL HLT) (p. 41-48), Boston, MA, USA.
Pan, S. J. & Yang, Q., (2009), A survey on transfer learning, IEEE Transactions on knowledge and
data engineering, 2210, 1345-1359.
Pascanu, R., Mikolov, T. & Bengio, Y., (2013), On the difficulty of training recurrent neural
networks. In Proceedings of the 30th International Conference on Machine Learning (ICML)
(p. 1310-1318), Atlanta, GA, USA.
Passonneau, R. J. & Litman, D., (1997), Discourse segmentation by human and automated
means, Computational Linguistics, 231, 103-139.
Peddinti, V., Povey, D. & Khudanpur, S., (2015), A time delay neural network architecture for
efficient modeling of long temporal contexts. In Proceedings of the 16th Annual Conference
of the International Speech Communication Association (INTERSPEECH) (p. 3214-3218),
Dresden, Germany.
Pennington, J., Socher, R. & Manning, C. D., (2014), Glove : Global vectors for word repre-
sentation. In Proceedings of the 19th Conference on Empirical Methods in Natural Language
Processing (EMNLP) (p. 1532-1543), Doha, Qatar.
185
Pham, N.-Q., Nguyen, T.-S., Niehues, J., Müller, M., Stüker, S. & Waibel, A., (2019), Very
deep self-attention networks for end-to-end speech recognition. In Proceedings of the 20th
Annual Conference of the International Speech Communication Association (INTERSPEECH)
(p. 66-70), Graz, Austria.
Qian, N., (1999), On the momentum term in gradient descent learning algorithms, Neural net-
works, 121, 145-151.
Rabiner, L. R., (1989), A tutorial on hidden Markov models and selected applications in speech
recognition, Proceedings of the IEEE, 772, 257-286.
Raymond, C., (2005), Décodage conceptuel : co-articulation des processus de transcription et com-
préhension dans les systèmes de dialogue (thèse de doct., Université d’Avignon et des Pays
de Vaucluse).
Raymond, C., (2013), Robust tree-structured named entities recognition from speech. In Pro-
ceedings of the 38th International Conference on Acoustics, Speech and Signal Processing
(ICASSP), IEEE, Vancouver, Canada.
Raymond, C., Esteve, Y., Béchet, F., De Mori, R. & Damnati, G., (2003), Belief confirmation
in spoken dialog systems using confidence measures. In Proceedings of the Workshop on
Automatic Speech Recognition and Understanding (ASRU) (p. 150-155), IEEE, US, Virgin
Islands.
Raymond, C. & Riccardi, G., (2007), Generative and discriminative algorithms for spoken
language understanding. In Proceedings of the 8th Annual Conference of the International
Speech Communication Association (INTERSPEECH) (p. 1605-1608), Antwerp, Belgium.
Riedmiller, M. & Braun, H., (1993), A direct adaptive method for faster backpropagation lear-
ning : The RPROP algorithm. In Proceedings of the international conference on neural net-
works (ICNN) (p. 586-591), IEEE, San Francisco, CA, USA.
Rosenblatt, F., (1958), The perceptron : a probabilistic model for information storage and
organization in the brain., Psychological review, 656, 386.
Ruder, S., (2016), An overview of gradient descent optimization algorithms, arXiv preprint
arXiv :1609.04747.
Rumelhart, D. E., Hinton, G. E. & Williams, R. J., (1985), Learning internal representations by
error propagation, California Univ San Diego La Jolla Inst for Cognitive Science.
Samson Juan, F. S., (2015), Exploiting resources from closely-related languages for automatic speech
recognition in low-resource languages from Malaysia (thèse de doct., Université Grenoble
Alpes).
Sarawagi, S. & Cohen, W. W., (2004), Semi-markov conditional random fields for information
extraction. In Proceedings of the 17th Advances in Neural Information Processing Systems
Conference (NIPS) (p. 1185-1192), Vancouver, Canada.
186
Schwenk, H., (2007), Continuous space language models, Computer Speech & Language, 213,
492-518.
Schwenk, H., Déchelotte, D. & Gauvain, J.-L., (2006), Continuous space language models
for statistical machine translation. In Proceedings of the 21st International Conference on
Computational Linguistics and 44th Annual Meeting of the Association for Computational
Linguistics (COLING ACL) (p. 723-730), Sydney, Australia.
Serdyuk, D., Wang, Y., Fuegen, C., Kumar, A., Liu, B. & Bengio, Y., (2018), Towards end-to-
end spoken language understanding. In Proceedings of the 43th International Conference on
Acoustics, Speech and Signal Processing (ICASSP) (p. 5754-5758), IEEE, Calgary, Alberta,
Canada.
Seymore, K. & Rosenfeld, R., (1997), Using story topics for language model adaptation. In
Proceedings of the 5th European Conference on Speech Communication and Technology (EU-
ROSPEECH) (p. 1987-1990), Rhodes, Greece.
Shah, P., Hakkani-Tür, D., Tür, G., Rastogi, A., Bapna, A., Nayak, N. & Heck, L., (2018), Buil-
ding a conversational agent overnight with dialogue self-play, arXiv preprint arXiv :1801.04871.
Shi, Y., Yao, K., Chen, H., Pan, Y.-C., Hwang, M.-Y. & Peng, B., (2015), Contextual spoken
language understanding using recurrent neural networks. In Proceedings of the 40th In-
ternational Conference on Acoustics, Speech and Signal Processing (ICASSP) (p. 5271-5275),
IEEE, Brisbane, Australia.
Simonnet, E., (2019), Réseaux de neurones profonds appliqués à la compréhension de la parole
(thèse de doct., Le Mans Université).
Simonnet, E., Camelin, N., Deléglise, P. & Esteve, Y., (2015), Exploring the use of attention-
based recurrent neural networks for spoken language understanding. In Proceedings of the
Machine Learning for Spoken Language Understanding and Interaction workshop (SLUNIPS)
(T. 11), Montreal, Canada.
Simonnet, E., Ghannay, S., Camelin, N. & Estève, Y., (2018), Simulating ASR errors for trai-
ning SLU systems. In Proceedings of the 11th international conference on Language Re-
sources and Evaluation (LREC), Miyazaki, Japan : European Language Resources Asso-
ciation (ELRA).
Simonnet, E., Ghannay, S., Camelin, N., Estève, Y. & De Mori, R., (2017), ASR error mana-
gement for improving spoken language understanding. In Proceedings of the 18th An-
nual Conference of the International Speech Communication Association (INTERSPEECH)
(p. 3329-3333), Stockholm, Sweden, doi :10.21437/Interspeech.2017-1178
Siu, M.-h., Gish, H. & Richardson, F., (1997), Improved estimation, evaluation and applications
of confidence measures for speech recognition. In Proceedings of the 5th European Confe-
rence on Speech Communication and Technology (EUROSPEECH) (p. 831-834), Rhodes,
Greece.
187
Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R., (2014), Dro-
pout : a simple way to prevent neural networks from overfitting, The journal of machine
learning research, 151, 1929-1958.
Strubell, E., Ganesh, A. & McCallum, A., (2019), Energy and Policy Considerations for Deep
Learning in NLP. In Proceedings of the 57th Annual Meeting of the Association for Compu-
tational Linguistics (p. 3645-3650), Florence, Italy, doi :10.18653/v1/P19-1355
Sundermeyer, M., Schlüter, R. & Ney, H., (2012), LSTM neural networks for language mode-
ling. In Proceedings of the 13th Annual Conference of the International Speech Communica-
tion Association (INTERSPEECH) (p. 194-197), Portland, OR, USA.
Sundheim, B. M., (1995), Overview of results of the MUC-6 evaluation, Naval Command Control
et Ocean Surveillance Center, San Diego CA, USA.
Tibshirani, R., (1996), Regression shrinkage and selection via the lasso, Journal of the Royal
Statistical Society : Series B (Methodological), 581, 267-288.
Tjong Kim Sang, E. F. & Veenstra, J., (1999), Representing text chunks, 173-179.
Tomashenko, N., Caubrière, A. & Estève, Y., (2019), Investigating Adaptation and Transfer
Learning for End-to-End Spoken Language Understanding from Speech. In Proceedings of
the 20th Annual Conference of the International Speech Association (INTERSPEECH) (p. 824-
828), Graz, Austria : ISCA, doi :10.21437/Interspeech.2019-2158
Tomashenko, N., Caubrière, A., Estève, Y., Laurent, A. & Morin, E., (2019), Recent Advances
in End-to-End Spoken Language Understanding. In Proceedings of the 7th International
Conference on Statistical Language and Speech Processing (SLSP), Ljubljana, Slovenia.
Tomashenko, N., Raymond, C., Caubrière, A., De Mori, R. & Estève, Y., (2020), Dialogue
History Integration into End-to-End Signal-to-Concept Spoken Language Understanding
Systems. In Proceedings of the 45th International Conference on Acoustics, Speech and Signal
Processing (ICASSP) (p. 5), Barcelona, Spain, doi :10.1109/ICASSP40776.2020.9053247
Tur, G. & De Mori, R., (2011), Spoken language understanding : Systems for extracting semantic
information from speech, John Wiley & Sons.
Van Rijsbergen, C. J., (1974), Foundation of evaluation, Journal of documentation.
Vapnik, V., (2006), Estimation of dependences based on empirical data, Springer Science & Busi-
ness Media.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., . . . Polosukhin, I.,
(2017), Attention is all you need. In Proceedings of the 30th Advances in Neural Information
Processing Systems Conference (NIPS) (p. 5998-6008), Long Beach, CA, USA.
Vukotić, V., Raymond, C. & Gravier, G., (2015), Is it time to switch to word embedding and
recurrent neural networks for spoken language understanding ?
188
Vythelingum, K., (2019), Construction rapide, performante et mutualisée de systèmes de recon-
naissance et de synthèse de la parole pour de nouvelles langues (thèse de doct., Le Mans
Université).
Waibel, A., Hanazawa, T., Hinton, G., Shikano, K. & Lang, K. J., (1989), Phoneme recogni-
tion using time-delay neural networks, IEEE transactions on acoustics, speech, and signal
processing, 373, 328-339.
Wang, Y. [Yiming], Chen, T., Xu, H., Ding, S., Lv, H., Shao, Y., . . . Khudanpur, S., (2019), Es-
presso : A fast end-to-end neural speech recognition toolkit. In Proceedings of the Workshop
on Automatic Speech Recognition and Understanding (ASRU) (p. 136-143), IEEE, Sentosa,
Singapore.
Wang, Y. [Yongqiang], Mohamed, A., Le, D., Liu, C., Xiao, A., Mahadeokar, J., . . . Zhang,
F. et al., (2020), Transformer-based acoustic modeling for hybrid speech recognition. In
Proceedings of the 45th International Conference on Acoustics, Speech and Signal Processing
(ICASSP) (p. 6874-6878), IEEE, Barcelona, Spain.
Wang, Y. [Yufan], Tang, L. & He, T., (2018), Attention-based CNN-BLSTM networks for joint
intent detection and slot filling. In Proceedings of the 17th Chinese Computational Linguis-
tics (CCL) and the 6th Natural Language Processing based on Naturally Annotated Big Data
(NLP-NABD) (p. 250-261), Changsha, China.
Watanabe, S., Hori, T., Karita, S., Hayashi, T., Nishitoba, J., Unno, Y., . . . Chen, N. et al.,
(2018), Espnet : End-to-end speech processing toolkit. In Proceedings of the 19th An-
nual Conference of the International Speech Communication Association (INTERSPEECH)
(p. 2207-2211), IEEE, Hyderabad, India, doi :10.21437/Interspeech.2018-1456
Woods, W. A., (1975), What’s in a link : Foundations for semantic networks. In Representation
and understanding (p. 35-82), Elsevier.
Xie, B. & Passonneau, R. J., (2015), Graph Structured Semantic Representation and Learning
for Financial News. In FLAIRS Conference (p. 237-240).
Xu, P. & Sarikaya, R., (2013), Convolutional neural network based triangular crf for joint intent
detection and slot filling. In Proceedings of the Workshop on Automatic Speech Recognition
and Understanding (ASRU) (p. 78-83), IEEE, Olomouc, Czech Republic.
Xu, P. & Sarikaya, R., (2014), Contextual domain classification in spoken language unders-
tanding systems using recurrent neural network. In Proceedings of the 39th International
Conference on Acoustics, Speech and Signal Processing (ICASSP) (p. 136-140), IEEE, Flo-
rence, Italy.
Yao, K., Peng, B., Zhang, Y., Yu, D., Zweig, G. & Shi, Y., (2014), Spoken language understan-
ding using long short-term memory neural networks. In Proceedings of the Spoken Lan-
guage Technology Workshop (SLT) (p. 189-194), IEEE, South Lake Tahoe, NV, USA.
189
Yao, K., Zweig, G., Hwang, M.-Y., Shi, Y. & Yu, D., (2013), Recurrent neural networks for lan-
guage understanding. In Proceedings of the 14th Annual Conference of the International
Speech Association (INTERSPEECH) (p. 2524-2528), Lyon, France.
Zeiler, M. D., (2012), Adadelta : an adaptive learning rate method, arXiv preprint arXiv :1212.5701.
Zenkel, T., Sanabria, R., Metze, F., Niehues, J., Sperber, M., Stüker, S. & Waibel, A., (2017),
Comparison of decoding strategies for ctc acoustic models. In Proceedings of the 18th An-
nual Conference of the International Speech Communication Association (INTERSPEECH)
(p. 513-517), IEEE, Stockholm, Sweden, doi :10.21437/Interspeech.2017-1683
Zhang, K., Xu, H., Tang, J. & Li, J., (2006), Keyword extraction using support vector machine.
In Proceedings of the 7th International Conference on Web-Age Information Management (IC-
WAIM) (p. 85-96), Hong Kong, China.
Zhang, L. & Wang, H., (2019), Using Bidirectional Transformer-CRF for Spoken Language Un-
derstanding. In Proceedings of the 8th International Conference on Natural Language Proces-
sing and Chinese Computing (NLPCC) (p. 130-141), Dunhuang, China.
Zhang, Y., Pezeshki, M., Brakel, P., Zhang, S., Bengio, C. L. Y. & Courville, A., (2016), To-
wards end-to-end speech recognition with deep convolutional neural networks. In Procee-
dings of the 17th Annual Conference of the International Speech Communication Association
(INTERSPEECH) (p. 410-414), San Francisco, CA, USA, doi :10.21437/Interspeech.2016-
1446
Zhu, S. & Yu, K., (2017), Encoder-decoder with focus-mechanism for sequence labelling based
spoken language understanding. In Proceedings of the 42nd International Conference on
Acoustics, Speech and Signal Processing (ICASSP) (p. 5675-5679), IEEE, New Orleans, LA,
USA.
190
Titre : Du signal au concept : Réseaux de neurones profonds appliqués à la compréhension de la parole
Mot clés : Compréhension de la parole, Réseaux de neurones profonds, Du signal au concept, Re-
connaissance d’entités nommées, Extraction de concepts sémantiques, Analyse d’erreurs, Mesure de
confiance
Résumé : Cette thèse s’inscrit dans le cadre de cipes de l’apprentissage neuronal profond, de la
l’apprentissage profond appliqué à la compréhen- reconnaissance de la parole, et de la compré-
sion de la parole. Jusqu’à présent, cette tâche était hension de la parole. Nous décrivons ensuite les
réalisée par l’intermédiaire d’une chaîne de com- contributions réalisées selon trois axes principaux.
posants mettant en oeuvre, par exemple, un sys- Nous proposons un premier système répondant à
tème de reconnaissance de la parole, puis diffé- la problématique posée et l’appliquons à une tâche
rents traitements du langage naturel, avant d’im- de reconnaissance des entités nommées. Puis,
pliquer un système de compréhension du langage nous proposons une stratégie de transfert d’ap-
sur les transcriptions automatiques enrichies. Ré- prentissage guidée par une approche de type cur-
cemment, des travaux dans le domaine de la re- riculum learning. Cette stratégie s’appuie sur les
connaissance de la parole ont montré qu’il était connaissances génériques apprises afin d’amélio-
possible de produire une séquence de mots di- rer les performances d’un système neuronal sur
rectement à partir du signal acoustique. Dans le une tâche d’extraction de concepts sémantiques.
cadre de cette thèse, il est question d’exploiter ces Ensuite, nous effectuons une analyse des erreurs
avancées et de les étendre pour concevoir un sys- produites par notre approche, tout en étudiant le
tème composé d’un seul modèle neuronal entiè- fonctionnement de l’architecture neuronale propo-
rement optimisé pour la tâche de compréhension sée. Enfin, nous mettons en place une mesure de
de la parole, du signal au concept. Tout d’abord, confiance permettant d’évaluer la fiabilité d’une hy-
nous présentons un état de l’art décrivant les prin- pothèse produite par notre système.
Title: From signal to concept : Deep neural networks applied to spoken language understanding
Keywords: Spoken language understanding, Deep neural networks, From signal to concept, Named
entity recognition, Semantic concept extraction, Errors analysis, Confidence measure
Abstract: This thesis is part of the deep learning deep learning, speech recognition, and speech un-
applied to spoken language understanding. Until derstanding. Then, we describe the contributions
now, this task was performed through a pipeline of made along three main axes. We propose a first
components implementing, for example, a speech system answering the problematic posed and ap-
recognition system, then different natural language ply it to a task of named entities recognition. Then,
processing, before involving a language under- we propose a transfer learning strategy guided by
standing system on enriched automatic transcrip- a curriculum learning approach. This strategy is
tions. Recently, work in the field of speech recogni- based on the generic knowledge learned to im-
tion has shown that it is possible to produce a se- prove the performance of a neural system on a
quence of words directly from the acoustic signal. semantic concept extraction task. Then, we per-
Within the framework of this thesis, the aim is to form an analysis of the errors produced by our ap-
exploit these advances and extend them to design proach, while studying the functioning of the pro-
a system composed of a single neural model fully posed neural architecture. Finally, we set up a con-
optimized for the spoken language understand- fidence measure to evaluate the reliability of a hy-
ing task, from signal to concept. First, we present pothesis produced by our system.
a state of the art describing the principles of