TIPS-IA
Rendre la transcription automatisée plus efficace et mieux utilisée en SHS
Porteur·ses et affiliations
Groupe de travail thématique TIPS-IA :Transcription Interface Pipeline Synergie – Intelligence Artificielle ( https://mate-shs.cnrs.fr/les-groupes/groupes-thematiques/tips-ia/ ) coordonné par Max Beligné, Ingénieur de recherche, Plateforme Universitaire de Données, MSH-Alpes, UGA
Partenaires : – IR* Progedo
– IR* Huma-Num
Contexte et problématique
La transcription automatisée (speech to text) est de plus en plus utilisée, notamment depuis la diffusion du modèle Whisper d’OpenAI (https://openai.com/fr-FR/index/whisper/). Cet essor s’accompagne de plusieurs difficultés :
- La question du coût environnemental de ces technologies (transcription mais aussi détection de locuteurs souvent utilisée conjointement) n’est pas négligeable, ce qui pose le défi de leurs optimisations. Si le modèle Whisper a déjà benéficié de beaucoup d’améliorations sur les temps de traitement (FasterWhisper, …), l’arrivée de plus petits modèles comme Parakeet (https://huggingface.co/collections/nvidia/parakeet) ouvrent de nouvelles perspectives par rapport à cette dimension de l’efficacité environnementale.
- Ensuite, la question de la correction est cruciale comme le montre par exemple le cas des hopitaux américains qui ont connus des difficultés importantes après avoir négligé cette étape ( https://web.archive.org/web/20241026170105/https://apnews.com/article/ai-artificial-intelligence-health-business-90020cdf5fa16c79ca2e5b6c4c9bbb14 ). Comment rendre la correction plus facile et intégrée dans une chaîne de traitement ?
- Cette optique, visant à réfléchir à ce qui vient après la transcription, nous a conduit également jusqu’à l’étape de pseudonymisation / anonymisation. Nous pensons que cette étape peut être intégrée pendant la phase de correction. Ainsi, ce travail de pseudonymisation / anonymisation, souvent relegué en fin de projet et abandonné, serait réalisé en amont. Cette nouvelle organisation contribuerait à renforcer la science ouverte.
- Enfin, de nombreux étudiants ne sachant pas qu’il existe des services de transcription hébergés par l’ESR utilisent ChatGPT, Word, Google Doc… ce qui pose des problèmes RGPD conséquents.
Objectifs, méthodologies et livrables
Notre projet répond à ces différents points :
- Le premier objectif est de réaliser un benchmark de quelques nouveaux modèles dans une perspective d’intégration à des outils de transcription en production. En effet, il existe déjà des benchmarks standards mais il est nécessaire de tester les modèles dans des conditions proches des situations réelles (audio possiblement bruité, de tailles variables, dans des langues multiples… ) avant d’envisager de les utiliser vraiment dans des services en production. Si ce benchmark met en avant des résultats intéressants, de premières intégrations seront réalisées et testées dans le service grenoblois Tadddam. Ces évolutions seront partagées notamment via le groupe de travail TIPS-IA et l’IR* Huma-Num.
- Pour la correction et l’intégration de l’étape de pseudonymisation/anonymisation, un travail a commencé avec Alex Alber (sociologue à l’Université de Tours) à travers un outil intitulé Whispurge ( https://sonal-info.com/whispurge.html ). Ce travail sera poursuivi avec la volonté qu’il puisse être intégré également dans d’autres outils. Un travail de communication sera effectué autour de ces nouvelles possibilités techniques. Une attention particulière sera apportée aux retours des utilisateurs pour faire évoluer cet outillage.
- Au niveau de la communication et notamment de la formation des Master, une première étape sera réalisée à l’université Grenoble Alpes. L’objectif est d’éprouver un support pédagogique qui pourra ensuite être diffusé et réutilisé pour faire une promotion plus large des bonnes pratiques en matière de transcription automatisée.
OpenEdition vous propose de citer ce billet de la manière suivante :
GisUrfist (2 février 2026). TIPS-IA. GIS Réseau Urfist. Consulté le 8 mai 2026 à l’adresse https://doi.org/10.58079/15lou
