0% ont trouvé ce document utile (0 vote)
56 vues15 pages

Reconnaissance Vocale

Le projet présente un système de reconnaissance vocale capable d'identifier les chiffres prononcés de 0 à 9, basé sur des Modèles de Markov Cachés (HMM) et des coefficients MFCC. Il aborde les principes de fonctionnement de la reconnaissance vocale, les défis liés au bruit et aux accents, ainsi que les perspectives d'amélioration pour des applications futures. Les résultats montrent l'efficacité de l'approche choisie tout en soulignant les limites et les pistes d'évolution possibles.

Transféré par

Ismaël
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
56 vues15 pages

Reconnaissance Vocale

Le projet présente un système de reconnaissance vocale capable d'identifier les chiffres prononcés de 0 à 9, basé sur des Modèles de Markov Cachés (HMM) et des coefficients MFCC. Il aborde les principes de fonctionnement de la reconnaissance vocale, les défis liés au bruit et aux accents, ainsi que les perspectives d'amélioration pour des applications futures. Les résultats montrent l'efficacité de l'approche choisie tout en soulignant les limites et les pistes d'évolution possibles.

Transféré par

Ismaël
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

RECONNAISSANCE VOCALE

Présenté par :

BOUKARI Haboudi
DJESSOU Lysias
GLODJO Jolémon
HOUNSOUNOU Marius
SOGBEDJI Prosper
TCHINHOUN Thibaut

Supervisé par : Dr Bruno DANDOGBESSI


PLAN DU PROJET
1 Introduction
Contexte général de la reconnaissance vocale et objectifs du projet.

2 La reconnaissance vocale
Définition, principes et fonctionnement des systèmes.

3 Pourquoi utiliser les modèles HMM ?


Justification du choix des Modèles de Markov Cachés.

4 Préparation des données et extraction


Description des données et des techniques d'extraction de caractéristiques.

5 Les modèles HMM


Détails sur la modélisation et l'entraînement des HMM.

6 Résultats et tests
Présentation des performances du système.

7 Analyse critique et perspectives


Bilan et pistes d'amélioration.

8 Conclusion
Synthèse des principaux points.
Introduction
La reconnaissance vocale est un domaine en pleine expansion, au cSur de nombreuses applications modernes telles que les assistants vocaux
(Siri, Alexa, Google Assistant), la commande vocale dans les véhicules, ou encore la transcription automatique de la parole en texte. Elle consiste
à permettre à une machine de comprendre et d'interpréter des signaux vocaux humains. L'objectif principal de ce projet est de concevoir un
système capable de reconnaître automatiquement des chiffres prononcés (de 0 à 9) à partir de fichiers audio.

Une technologie omniprésente Objectif du projet

Des smartphones aux voitures connectées, la reconnaissance vocale Développer un système robuste pour la reconnaissance des chiffres
simplifie nos interactions avec la technologie, offrant de nouvelles parlés, jetant les bases pour des applications plus complexes.
possibilités d'accessibilité et d'efficacité.
La reconnaissance vocale
La reconnaissance vocale est une technologie permettant à une machine ou un système informatique d'identifier et de comprendre la parole
humaine. Elle repose sur la conversion d'un signal audio (représentant une parole) en texte ou en commande exploitable par une machine. Ce
processus implique plusieurs étapes : la capture du signal sonore, le traitement du signal pour en extraire des caractéristiques pertinentes, la
modélisation de ces caractéristiques, et enfin leur interprétation en unités linguistiques (lettres, mots, chiffres, etc.). La reconnaissance vocale se
distingue de la synthèse vocale (Text-To-Speech) qui effectue l'opération inverse, à savoir la génération d'un signal audio à partir d'un texte écrit.

Capture du signal
Enregistrement de la parole.

Traitement du signal
Extraction des caractéristiques acoustiques.

Modélisation
Utilisation d'algorithmes pour interpréter les données.

Interprétation
Conversion en texte ou commande.
Applications
La reconnaissance vocale trouve des applications dans de nombreux domaines de la vie quotidienne et industrielle. Parmi les applications les
plus courantes, on peut citer : les assistants vocaux intelligents (Google Assistant, Siri, Alexa) ; les systèmes de commande vocale pour véhicules,
domotique ou objets connectés ; la transcription automatique de réunions, conférences, ou vidéos ; les systèmes de réponse vocale interactive
dans les centres d'appels ; les outils d'accessibilité pour les personnes en situation de handicap ; l'apprentissage des langues et l'éducation.

Assistants vocaux Commande vocale Transcription Centres d'appels


Siri, Alexa, Google Assistant pour Contrôle mains-libres dans les Convertir la parole en texte pour Systèmes de réponse vocale
une interaction intuitive. véhicules et la domotique. réunions et conférences. interactive pour un service client
amélioré.
Aperçu des approches
Historiquement, les premières approches de reconnaissance vocale reposaient sur des techniques basées sur les modèles statistiques, en
particulier les modèles de Markov cachés (HMM). Ces modèles sont capables de représenter la structure temporelle et probabiliste des signaux
vocaux. Par la suite, des approches hybrides combinant HMM et réseaux de neurones ont vu le jour, permettant d'améliorer la précision de
reconnaissance. Avec l'avènement de l'apprentissage profond (Deep Learning), les architectures à base de réseaux de neurones convolutifs (CNN),
récurrents (RNN) ou transformeurs (comme Wav2Vec ou Whisper) se sont imposées comme des références dans le domaine. Cependant, les
approches traditionnelles basées sur HMM restent pertinentes pour les systèmes à petite échelle ou les contextes pédagogiques, car elles sont
plus simples à implémenter, interprétables, et ne nécessitent pas de ressources de calcul importantes.

HMM (Modèles de Markov cachés) Apprentissage profond


Modèles statistiques pour la structure temporelle des signaux CNN, RNN, et transformeurs (Wav2Vec, Whisper) pour des
vocaux. performances avancées.

1 2 3

Approches hybrides
Combinaison HMM et réseaux de neurones pour une meilleure
précision.
Limites des approches existantes
Malgré les avancées significatives en reconnaissance vocale, chaque approche présente des limitations qu'il est important de souligner. Les
approches HMM classiques, bien qu'efficaces pour des tâches simples, peinent avec la complexité du langage et le bruit, supposant une
indépendance restrictive des observations. Les méthodes par apprentissage profond exigent de grandes quantités de données et de ressources
matérielles, et sont souvent perçues comme des "boîtes noires" difficiles à interpréter. De plus, la reconnaissance vocale reste sensible aux bruits
de fond, aux accents et aux variations de vitesse d'élocution, quelle que soit l'approche.

HMM classiques Apprentissage profond Sensibilité au bruit


Limités par la complexité du langage Nécessite de grandes quantités de Performances dégradées par le bruit
et le bruit. données annotées. de fond et les accents.
Hypothèse restrictive d'indépendance Demande des ressources matérielles Impact des variations de vitesse
des observations. importantes (GPU). d'élocution.
Mauvaise modélisation des Souvent des "boîtes noires" difficiles Dépendance à la qualité du micro et
dépendances à long terme. à interpréter. de l'enregistrement.
Multilinguisme et généralisation
Adapter un système à plusieurs langues ou à de nouveaux locuteurs demande généralement un réentraînement partiel ou complet du modèle, ce
qui peut limiter sa portabilité. Ces limitations doivent être prises en compte lors du choix d'une approche, en fonction du contexte d'application,
des ressources disponibles et des objectifs du projet. Dans le cadre de ce travail, nous avons choisi une méthode simple mais robuste, centrée sur
les HMM, adaptée à un système de reconnaissance des chiffres parlés dans un environnement contrôlé.

Défi du multilinguisme Objectif du projet

Adapter les modèles à différentes langues et accents nécessite Utiliser les HMM pour un système de reconnaissance des chiffres
souvent un réentraînement complet ou partiel, ce qui impacte la dans un environnement contrôlé, priorisant la simplicité et la
portabilité et le coût. robustesse pour un apprentissage fondamental.
Pourquoi utiliser les modèles HMM?
Dans ce projet, nous avons choisi d'utiliser les modèles de Markov cachés (HMM) pour la reconnaissance des chiffres parlés. Ce choix repose sur
plusieurs justifications : les HMM sont particulièrement adaptés aux données séquentielles comme les signaux vocaux, car ils modélisent les
dépendances temporelles ; leur implémentation est relativement simple et bien documentée dans les bibliothèques Python comme hmm learn ;
ils permettent une reconnaissance efficace sur de petits ensembles de données, sans nécessiter de gros volumes d'entraînement ; leur
comportement est mathématiquement bien compris, ce qui est idéal dans un cadre académique ou pour l'apprentissage des concepts
fondamentaux de la reconnaissance vocale.

1 2 3 4
Adaptés aux séquences Implémentation simple Efficacité pour petits jeux Compréhension
Idéaux pour les signaux vocaux Facilité d'utilisation avec des
de données mathématique
grâce à la modélisation des bibliothèques comme hmm learn. Bonnes performances sans Parfaits pour l'apprentissage des
dépendances temporelles. nécessiter de vastes ensembles fondamentaux de la
d'entraînement. reconnaissance vocale.
Préparation des données et extraction
Pour entraîner et évaluer notre système de reconnaissance vocale, nous avons utilisé un ensemble de fichiers audio représentant les chiffres de 0
à 9 prononcés par différents locuteurs. Ces enregistrements sont organisés en sous-dossiers nommés selon les chiffres, par exemple 0/, 1/, 2/, ...,
9/. Chaque sous-dossier contient plusieurs fichiers .wav, chacun correspondant à une prononciation d'un chiffre par un locuteur. Les fichiers sont
préenregistrés en format PCM (Pulse Code Modulation) avec un taux d'échantillonnage uniforme de 16 kHz, ce qui est standard pour les
applications de reconnaissance vocale. Les enregistrements sont courts, clairs, et réalisés dans un environnement relativement peu bruité, ce qui
facilite l'extraction des caractéristiques acoustiques pertinentes.

Organisation
Fichiers audio Sous-dossiers numériques (0/, 1/, ..., 9/) contenant les fichiers .wav.
Enregistrements des chiffres de 0 à 9 par différents locuteurs.

Qualité des enregistrements


Format standardisé Courts, clairs et peu bruités pour maximiser la pertinence des
PCM à 16 kHz pour une qualité optimale et une extraction facile. caractéristiques.
Les Modèles de Markov Cachés
(HMM)
Explorez les fondements des HMM. Apprenez leur structure interne et leur capacité
à modéliser des séquences. Découvrez comment ils sont entraînés pour la
reconnaissance vocale.
Protocole de Test du Système

Extraction MFCC
Chargement Audio Les coefficients MFCC sont extraits du signal audio pour l'analyse.
Un fichier audio de test, contenant un chiffre, est chargé pour
l'évaluation.

Identification du Chiffre
Calcul Log-Vraisemblance Le modèle HMM maximisant la log-vraisemblance identifie le
La log-vraisemblance est calculée pour chaque modèle HMM chiffre.
entraîné.
Analyse Critique et Perspectives

Dépendance aux Données Sensibilité au Bruit


Les performances dépendent des données. La généralisation aux nouveaux locuteurs est limitée. Le système est sensible aux bruits de fond. La précision diminue en conditions dégradées.

Vocabulaire Restreint Limites des HMM


La reconnaissance se limite aux chiffres 0-9. L'extension demande des modifications majeures. Les HMM modélisent mal les dépendances complexes. Cela peut causer des erreurs de reconnaissance.
Pistes d9amélioration
Diversification des données : Élargir la base de données d'enregistrements pour créer un modèle plus robuste et généralisable à différents
locuteurs et contextes.
Réduction du bruit : Intégrer des techniques avancées de traitement du signal pour minimiser l'impact du bruit ambiant et améliorer la
qualité des Coefficients Cepstraux par Fréquence de Mel (MFCC).
Modèles avancés : Adopter des architectures de réseaux neuronaux profonds (DNN-HMM ou end-to-end) afin d'accroître significativement la
précision de la reconnaissance vocale.
Extension du vocabulaire : Développer la capacité du système pour la reconnaissance continue de la parole, permettant ainsi de traiter et
d'interpréter des phrases complètes plutôt que des chiffres isolés.
CONCLUSION
Bilan du Projet Perspectives Futures

Nous avons réussi à concevoir un système de reconnaissance vocale Les limites identifiées, notamment la sensibilité au bruit, ouvrent des
opérationnel, capable d'identifier les chiffres en français. Basé sur les avenues prometteuses pour l'amélioration. L'intégration de réseaux
coefficients MFCC et les Modèles de Markov Cachés (HMM), ce neuronaux avancés est envisagée pour optimiser les performances.
prototype valide l'efficacité de l'approche choisie. Ce projet a significativement consolidé nos compétences en
traitement du signal et en reconnaissance vocale.

Vous aimerez peut-être aussi