UNIVERSITÉ MOHAMMED PREMIER
FACULTÉ DES LETTRES ET DES SCIENCES HUMAINES
-OUJDA-
FILIÈRE : Études françaises SEMESTRE : 5
MODULE : Corpus oraux
ANNÉE UNIVERSITAIRE : 2020-2021 PROFESSEURE : BOUALI RACHIDA
Séance 3
La grammaire descriptive d’une langue s’établit à partir d’un ensemble d’énoncés qu’on
soumet à l’analyse et qui constitue le corpus de la recherche. Le corpus n’est pas collecté pour
soi-même mais il est collecté pour être analysé. Il est utile de distinguer le corpus des termes
voisins désignant des ensembles d’énoncés :
L’« univers » est l’ensemble des énoncés tenus dans une circonstance donnée, tant que le
chercheur n’a pas décidé si ces énoncés entraient en totalité ou en partie dans la matière de sa
recherche. Ainsi, un dialectologue qui s’intéresse aux mots d’origine étrangère dans un parler
donné, réunira d’abord ou fera réunir un grand nombre d’énoncés produits librement ou sur
incitation des enquêteurs. Beaucoup de ces énoncés pourront fort bien n’avoir aucun des mots
qui intéressent le linguiste. La totalité des énoncés recueillis est l’univers.
À partir de l’univers des énoncés en vrac, le linguiste tire les énoncés qu’il va soumettre
à l’analyse ; ça pourra être l’ensemble des phrases ou groupes de phrases, comprenant des mots
présentant tels traits phonétiques ou bien une terminaison ou une origine étrangère. Ce sont
uniquement ces segments d’énoncés qui seront soumis à l’analyse et qui constitueront le
corpus.
Types de corpus :
- Corpus ouvert vs corpus fermé (dit aussi stratifié) :
Pearson ne fait pas une distinction de base entre des corpus ouverts (auxquels on ajoute
constamment de nouveaux textes) et fermés (qui restent « stables »).
Les corpus ouverts, bien que plus à jour, impliquent un entretien constant et minutieux.
Ceci les rend plus difficile à gérer.
- Les corpus de parole vs corpus oraux :
La distinction est généralement faite entre ces deux types de corpus :
Corpus de parole : il s’agit de base de données contenant des données orales. Le contenu
peut être très variable : liste de logatomes, liste de mots, liste de phrase, liste de texte (etc).
Les corpus de parole sont toujours accompagnés d’un enregistrement. La présentation se
fera sous forme d’audio et la transcription est souvent alignée sur le signal.
Les corpus oraux : représentation de la dimension orale de la langue dans tous ces aspects
(formel, informel, etc.). Elle peut se faire sous forme écrite. Ce type de corpus peut
apparaître soit sous la forme d’une transcription orthographique, soit sous la forme d’une
transcription alignée. Son étude se fait sur la dimension sonore, mais également sur la
syntaxe, le discours, etc.
L’opposition entre les corpus oraux et les corpus de parole tend à disparaître pour trois raisons
à savoir :
- Capacité de mémoire des ordinateurs a énormément évolué et permet donc de stocker de
nombreuses données, mais sous un format audio « lourd »;
- Outils pour le traitement des données audio se développent, et permettent d’analyser un
volume important de données;
- Amélioration des outils d’enregistrement.
- Les corpus dits « spécialisés » ou « de spécialité », à savoir, des corpus contenant des
textes traitant d’un sujet lié à un domaine de la connaissance comme la médecine, le droit
ou l’informatique.
- Certains chercheurs favorisent l’utilisation d’un corpus témoin dans leurs travaux pour
tenir à jour le contenu du corpus. Ce corpus moniteur contient des textes entiers, dont on
prélève éventuellement des échantillons pour intégration au corpus principal. Cependant,
un corpus moniteur peut fournir des données qualitatives sur de nouveaux mots ou usages,
mais sont moins utiles pour des données qualitatives. Donc, l’utilité d’un corpus moniteur
varie selon son usage.
Formes de corpus :
Il existe plusieurs formes de corpus ; entre autres on cite :
- Le corpus arboré (phrases) ;
- Le corpus annoté (étiquettes qui fournissent des informations),
- Le corpus dynamique contraire de statique (évolution temporelle) ……
Conditions de corpus :
1- Conditions de signifiance:
Le corpus prend sens par rapport à un objectif d’analyse. Il est constitué en vue d’une étude
déterminée (pertinence), portant sur un objet particulier, une réalité telle qu’elle est perçue
sous un certain angle de vue (et non sur plusieurs thèmes ou facettes indépendants,
simultanément) (cohérence)
2- Conditions d’acceptabilité contient 3 aspects :
- représentativité : le corpus doit apporter une représentation fidèle (échantillon) ;
- homogénéité : il ne doit pas être parasité par des contraintes externes (régularité) ;
- complétude : il doit avoir une ampleur et un niveau de détails adaptés au degré de
finesse et à la richesse attendue en résultat de l’analyse.
3- Conditions d’exploitabilité :
Les textes qui forment le corpus doivent être commensurables (homogénéité). Le corpus doit
apporter suffisamment d’éléments pour pouvoir repérer des comportements significatifs (au
sens statistique du terme/volume).
Les caractéristiques d’un corpus significatif :
1- L’homogénéité ;
2- La synchronie ;
3- La moindre redondance possible
Le travail sur échantillon se révèle donc être un impératif pratique. Mais pour que l'analyse
prétende à quelque validité, on ne saurait se contenter d'un échantillon aléatoire.
En revanche un corpus est adéquat ou non à une tâche en fonction de laquelle on peut
48T
déterminer les critères de sa représentativité et son homogénéité. Tout corpus dépend
étroitement du point de vue qui a présidé à sa constitution.
Cependant,
48T
« le corpus quel qu’en soit le type, n’est jamais obtenu à l’aide d’une seule technique
48T
et il est rare que deux chercheurs organisent leur travail de façon identique. En outre,
quelles que soient les précautions théoriques prise pour la constitution de corpus, le
choix des informateurs, un maximum d’objectivité ou de non-ingérence de la part de
l’investigateur, il faut avant de procéder à l’enquête proprement dite, définir les
situations de communication ou d’interaction avec une précision rigoureuse »
(Konopczynski 1990)
Le corpus joue un rôle de premier plan dans le travail quotidien du linguiste ; sachant
bien que l’usage de corpus n’est pas réservé aux linguistes. Leurs analyses portent sur des
productions linguistiques ou langagières non finies dont l’étude ne peut s’opérer que sur un
échantillon. Mais pour que l’analyse prétende à quelque validité, cet échantillon doit être
représentatif d’une réalité qui à la fois préexiste à l’analyse et qu’il contribue à cerner et à
établir. D’où toute une palette de corpus dont les principaux types en usage dans la discipline,
selon les matériaux utilisés, selon la clôture imaginée, selon la fonction assignée…, sont
brièvement rappelés. La réflexion est ensuite centré sur la délimitation de la place et de la
fonction du corpus entre faits, analyses et théories ; il est montré, quelques exemples à l’appui,
empruntés à la démarche du dialectologue et du lexicologue, que le corpus ne saurait être qu’un
construit et que sa construction fait partie intégrante du prisme théorique à travers lequel le
linguiste entend appréhender le réel.