IA et Accents

par GisUrfist · Publié 02/02/2026 · Mis à jour 02/02/2026

Accents “étrangers” et formation linguistique du français : quels défis et impacts des “hallucinations” et biais de l’IA face à la diversité ?

Porteur·ses et affiliations :

Nom	Fonction	Institution	Rôles au sein du projet
Myriam DUPOUY	Maitresse de conférences en Sociolinguistique et Didactique des langues	CREN EA 2661Département Didactique des Langues-IFUNO, UFR LLSH, Le Mans Université	PorteuseExperte des accents en formation linguistique
Anissa HAMZA-JAMANN	Maitresse de conférences en Sciences du langage	ATILF (UL/CNRS), UMR 7118Université de Lorraine I INSPÉ Lorraine, Montigny-lès-Metz	Experte en linguistique appliquée et IA
Grégory MIRAS	Professeur des Universités en Didactique des Langues	INSPE de Lorraine & ATILF UMR 7118 – CNRS & Université de Lorraine	Expert en didactique des langues et prononciation
Maude VADOT	Maitresse de conférences en Sciences du langage et didactique des langues	LLSETI EA 3706UFR LLSH, Université Savoie Mont-Blanc	Experte de l’accompagnement linguistique des adultes allophones en situation postmigratoire
Yuchen CHEN	Maitresse de conférences en Didactique des langues	CREN EA 2661UFR LLSH, Le Mans Université Service “Accompagnement à la pédagogie universitaire”	Experte en umérique et langues, ingénierie pédagogique, éthique des projets de recherche
Jane WOTTAWA	Maitresse de conférences en Sciences du langage	LIUM – EA 4023UFR LLSH, Le Mans Université	Experte en phonétique / phonologie, LLM
Tiphaine GALPIN	Ingénieure pédagogique	Service d’Accompagnement à la Pédagogie et auxPratiques Universitaires InnovantesLe Mans Université	Accompagnement et construction de prompts – IA à l’université

Contexte et problématique

Le projet Accents « étrangers » et formation linguistique du français : quels défis et impacts des « hallucinations » de l’IA face à la diversité ? s’inscrit d’une part dans une actualité très récente liée à la publication d’une offre de marché OFII n°247400/ janvier 2025 pour la formation linguistique des personnes adultes extra-européennes signataires d’un Contrat d’intégration républicaine. Ce document instaure une formation linguistique 100% en ligne sans accompagnement humain, mais avec la possibilité de recourir à l’IA dans les situations d’enseignement-apprentissage du français.

D’autre part, ce projet s’inscrit dans un mouvement d’études et de recherches plus larges en Didactique des langues et sociolinguistique sur les enjeux de l’utilisation de l’”IA” en formation, et notamment la capacité des agents conversationnels à traiter les demandes des adultes débutant·es ayant des traces d’autres langues de leur répertoire dans leurs manières de parler. En effet, l’apprentissage des langues assisté par les intelligences artificielles s’est considérablement développé depuis ces dernières années (Warschauer et al., 2023). Le potentiel semble illimité, tant dans le développement d’habiletés linguistiques pour les apprenant·es que pour le développement de matériaux pédagogiques à destination des équipes pédagogiques. Les recherches francophones actuelles (Cellier et al., 2025) sur le sujet questionnent à la fois le volet épistémologique et le volet praxéologique sur les usages de ces IAG dans les situations d’enseignement/apprentissage des langues. Les défis sont nombreux, tant au niveau des questions techniques de prise en main qu’au niveau éthique, surtout si l’on adopte une perspective critique (Collins, 2023).

Par ailleurs, la formation linguistique des adultes extra-européens migrants en France est un domaine complexe fortement traversé par les influences des politiques migratoires (Vadot, 2023). Les dernières annonces indiquent une montée du niveau exigé pour l’obtention des titres de séjour et de la nationalité, en même temps qu’une bascule de nombreuses formations en présence et obligatoires vers un auto-apprentissage 100% asynchrone sur une plateforme numérique potentiellement alimentée par des IAG. Au-delà des questions politiques soulevées par cette orientation, il semble nécessaire de comprendre si ce projet est réaliste et pertinent au regard des réalités techniques : les hallucinations constituent un risque majeur dans la technologie de l’IAG à l’heure actuelle. Le public adulte allophone est-il capable d’identifier ces “erreurs” alors qu’elles prennent la forme de réponses en apparence plausibles et factuelles aux demandes de renseignements ? Il semble également nécessaire d’interroger les implications éthiques de ces orientations, notamment les biais de variation linguistique et socio-culturelle dus aux données d’entraînement des IAG (principalement en anglais ou en français standard) intégrant le système de reconnaissance vocale lorsqu’il est question de publics spécifiques comme celui décrit plus haut (ce qui rejoint les points de vigilance plus globaux quant à la protection des données personnelles et du contenu généré avec les IAG).

Mais, qu’est-ce qu’on entend par « accents » ?

Les accents sont ce que l’on pourrait appeler des manières de parler puisqu’ils recouvrent à la fois des prononciations, des musicalités et mots spécifiques en fonction de critères géographiques et sociaux (“accent du sud”, “accent des banlieues”, (Candea 2017)). Dans cette étude il est question de ce qui est communément appelé “l’accent étranger”, énoncé peu tangible scientifiquement puisqu’il recouvre un nombre très large de spécificités (prononciations, prosodie, traces de la langue première ou d’autres langues du répertoire…). Il existe une tendance à remarquer ou faire remarquer les accents lorsqu’ils s’éloignent d’une « norme », ici le français standard (= le français de Paris, même si cela n’a pas beaucoup de sens aujourd’hui tant les pratiques langagières parisiennes sont hétérogènes). Des phénomènes de discriminations aux accents ont été démontrés et analysés dans la sphère professionnelle, les médias ou bien encore dans des concours d’enseignement (Miras & Sock, 2024, Blanchet 2019). La question de l’acceptation de l’hétérogénéité des manières de parler et des accents est donc socialement vive et doit être étendue et croisée aux questions posées autour de l’IA.

Alors, pour en revenir au cœur du sujet, dans quelle mesure les accents sont-ils détectés ? Comment les requêtes accentuées sont-elles traitées ? À terme, ces questions permettront de déterminer quelles sont les potentialités et limites de l’IAG pour des publics ayant une obligation de résultats dans le cadre d’obtention de titres de séjours.

Objectifs du projet

L’équipe du projet a pour objectif principal de contribuer aux connaissances scientifiques sur le sujet de la reconnaissance et traitement de la diversité des manières de parler des adultes apprenant·es du français en France, de comprendre comment ces diverses prises de paroles en français marquées par des traces (plus ou moins fortes) de langues premières sont traitées par les agents conversationnels. Cette approche globale intégrera dans la mesure du possible les dimensions linguistique, interactionnelle, sociale et éthique du traitement des productions en français par les IAG dans un contexte de diversité linguistique.

Les questions de recherches principales sont les suivantes : Comment les agents conversationnels traitent-ils les productions orales marquées par des traces de langues premières ? Quels sont les biais (de compréhension, de transcription, d’interprétation) et les hallucinations de l’IAG face à des productions marquées par des traces de langues premières (= non-standardisées) ?

Les liens avec le GIS réseau URFIST sont pluriels puisque le projet vise à documenter des usages particuliers de l’IA, s’intéresse aux enjeux éthiques de la mobilisation de l’IA dans des contextes de formation après de publics vulnérables et propose de travailler de manière interdisciplinaire des questions socialement vives.

Méthodologie

La méthodologie repose sur deux phases complémentaires.

La première phase est expérimentale et comporte un travail de contextualisation et de dimension énonciative lors de laquelle l’IAG est placée dans un environnement spécifique relatif à la formation linguistique pour adultes (être capable de communiquer à un guichet d’accueil de la préfecture par exemple). La seconde partie de cette phase exploratoire consiste à une collecte de données audio et donc des enregistrements de prompts oralisés auprès de deux cohortes (cohorte expérimentale et cohorte de témoins locuteurices du français dit « standard ». S’en suit une étape de vérification de la qualité des données recueillies avec la passation de tests de perception. Enfin, les enregistrements audios seront soumis au bouquet d’IAG choisies en amont en lien avec leurs spécificités et pertinence pour al réalisation de la phase expérimentale.

La seconde phase est compréhensive, elle vise à comprendre quel sont les phénomènes interactionnels qui se jouent lors d’interactions entre IAG et adultes en formation linguistique dans la réalisation de tâches sociopragmatiques. Elle repose donc sur les données collectées en phase 1 et comportera une collecte de données multimodales cette fois. Des adultes (n=10) suivant une formation linguistique sont placé·es face à une IAG sous la forme d’un chatbotdevant réaliser la tâche socio-pragmatique définie en amont. Ils devront interagir pour mener à bien la tâche définie au préalable. Les profils des sujets sont définis en amont afin de contrôler leur niveau en langue. Les données sont recueillies via un dispositif de multicaptation (enregistrement par vidéo de la situation de dos, enregistrement de l’écran et du son via OBS Studio). Les données seront ensuite transcrites et codées (ELAN).

Résultats attendus et livrables

Ce protocole permettra d’évaluer la capacité de l’IA à comprendre et traiter des demandes formulées avec différents accents, tout en identifiant les biais potentiels liés aux difficultés, voire aux échecs de l’IAG à décoder correctement l’intention communicative d’une personne en raison d’accents, syntaxe, prononciation (éléments en grande partie liés à l’influence de la langue première). Nous étudierons l’altération de la transcription du discours oral (omissions, ajouts…) qui peut refléter des jugements implicites sur la “normativité” et standardisation linguistique (Romero, 2023). Nous nous interrogerons également sur les causes de ces mauvaises interprétations en lien avec une méconnaissance des variations interculturelles dans les pratiques langagières ou bien encore une stéréotypie liant d’emblée accents et origines ou niveau d’éducation par exemple… Un point de vigilance sera accordé à la non reproduction de phénomènes d’exclusion systémiques auxquels sont confrontés les publics ciblés dans ce travail. Enfin, les résultats devraient permettre d’améliorer l’inclusivité des systèmes d’IAG et participer à garantir une réponse adaptée à l’ensemble des utilisateurs et utilisatrices, indépendamment de leurs origines.

Les résultats obtenus feront l’objet d’un travail de vulgarisation scientifique afin de permettre au plus grand nombre d’accéder aux avancées de la recherche. Une attention particulière sera accordée à l’accès à ces connaissances pour les publics ciblés dans cette recherche, un travail de création visuelle et sonore avec une graphiste et journaliste sonore permettra de donner à entendre, voir et comprendre les enjeux d’une telle question autour des accents et de l’IAG. Ce travail de vulgarisation sera présenté conjointement à d’autres livrables (communication orale envisagée au colloque ALSIC 2026, article scientifique) dans diverses sphères universitaires, associatives et institutionnelles (colloques, centres socio-culturels, médiathèques…).

Liens vers d’autres sites du projet

https://accent-discrimination.atilf.fr/projet-urfist2025/

OpenEdition vous propose de citer ce billet de la manière suivante :
GisUrfist (2 février 2026). IA et Accents. GIS Réseau Urfist. Consulté le 7 mai 2026 à l’adresse https://doi.org/10.58079/15lp4