Linguistique de corpus
écrits
Ahamada KASSIME
(Contenu inspiré du cours de Marie Chandelier)
[Link]@[Link]
Séance 1
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Présentation du cours
Linguistique de corpus écrits
1) Contexte d’émergence de la discipline
2) Le corpus écrit : enjeux et définitions
3) Les différents courants de la linguistique de corpus
4) De la conception à l’étude de corpus écrits : aspects théoriques et méthodologiques
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Objectifs
- Connaître le contexte d’émergence de la linguistique de corpus et ses fondements
méthodologiques
- Savoir constituer un corpus écrit à partir d’une question de recherche (recueil des données et
des métadonnées)
- Maîtriser les outils des principaux logiciels d’analyse
- Savoir interpréter les résultats issus des analyses
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Modalités d’évaluation
Dossier : constitution et analyse d’un corpus de données textuelles
Calendrier
- 13 février : groupes constitués
- 29 février : avoir déterminé une question de recherche. Indiquer le corpus et les outils qui
seront utilisés pour y répondre
Google docs partagé à compléter sur Moodle
Envoi des dossiers : au maximum le 31 mars
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Outils d’analyse de corpus
Antconc : [Link]
Txm : [Link]
Iramuteq : Téléchargement et installation — IRaMuTeQ
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Contexte d’émergence de la linguistique de corpus
Seconde moitié du XXe siècle
Structuralisme Générativisme
Saussure Chomsky
Volonté de fonder l’étude
linguistique sur des usages attestés,
en contexte
La linguistique de corpus comporte une forte
dimension empirique
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Contexte d’émergence de la linguistique de corpus
Favorisée par le développement des technologies et des outils informatiques
Permet de collecter de grands corpus de textes
De l’analyse de texte à l’analyse de corpus
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Contexte d’émergence de la linguistique de corpus
Traits majeurs de la linguistique de corpus
(1) Intérêt pour la performance linguistique, plutôt que sur la compétence linguistique
(2) Focalisation sur la description linguistique et non sur les universaux linguistiques
(3) Etude quantitative et qualitative des modèles du langage
(4) Approche plus empiriste que rationaliste de l’étude scientifique
Leech (1992:107)
Leech, G. (1992). Corpora and theories of linguistic performance. In J. Svartvik(Ed.), Directions in corpus
linguistics (pp. 105-122). Berlin, New York : Mouton de Gruyter.
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Contexte d’émergence de la linguistique de corpus
De l’analyse de texte à l’analyse de corpus
Quelles conséquences pour l’analyse linguistique ?
Tognini-Bonelli 2001
The ability to examine large text corpora in a systematic manner allows access to a quality of evidence that has
not been available before.
Sinclair 1991 : 4
Licence 3 –Sciences du langage E64SLL5 / E64SLL9 Tognini-Bonelli 2001
Contexte d’émergence de la linguistique de
corpus
Premiers grands corpus :
Développement d’annotations morphosyntaxiques (à chaque mot est associé une catégorie
grammaticale)
-Brown Corpus of Standard American English (1963)
- Frantext (1970)
- British National Corpus (1994)
L’annotation constitue un court texte qui vient enrichir le texte initial
Exemple de l’annotation morphosyntaxique :
Pierre [Npr] et [coord] Jean [Npr] sont [V] partis [V] à [prep] la [art] mer [N]
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?
Regroupement d’un ensemble de textes documentés, annotés et rassemblés de manière à
constituer un tout cohérent qui permettra de répondre à/aux questions particulières posées par
le chercheur.
[Link]
Qu’est-ce qu’un corpus ?
Tognini-Bonelli2001
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?
- Le caractère authentique des textes constituent le corpus
-La représentativité du langage inclut dans le corpus
-Le critère d’échantillonnage utilisé pour sélectionner les textes
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?
Importance de la question de recherche !
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Qu’est-ce qu’un corpus ?
Pour qu’une collection de texte constitue un corpus, elle doit répondre à plusieurs conditions :
Conditions de signifiance :
Un corpus est constitué en vue d’une étude déterminée (pertinence), portant sur un objet
particulier, une réalité telle qu’elle est perçue sous un certain angle de vue (et non sur plusieurs
thèmes ou facettes indépendants, simultanément) (cohérence).
Conditions d’acceptabilité :
Le corpus doit apporter une représentation fidèle (représentativité), sans être parasité par des
contraintes externes (régularité). Il doit avoir une ampleur et un niveau de détail adaptés au
degré de finesse et à la richesse attendue en résultat de l’analyse (complétude).
Conditions d’exploitabilité :
Les textes qui forment le corpus doivent être commensurables (homogénéité). Le corpus doit
apporter suffisamment d’éléments pour pouvoir repérer des comportements significatifs (au
sens statistique du terme) (volume)
Pincemin1999
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Plusieurs éléments peuvent être pris en compte
• Support sur lesquels sont produits les données (oral, écrit, vidéo)
• Nature des documents constitutifs (mots, phrases, textes, etc.)
• La forme et la nature des annotations
• La représentativité
Nesrine Raisi
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Plusieurs éléments peuvent être pris en compte
• Les corpus écrits sont les plus fréquents
• Les corpus oraux supposent au moins, en plus de la documentation, une transcription de
base.
• Les corpus vidéo sont également de plusieurs sortes, selon la façon dont les données ont été
collectées
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Un corpus peut être composé de
• Textes complets
• Ensemble de textes complets
• Echantillons extraits de textes complets
• Ensembles de citations
• Dictionnaire(s)
• Gigantesque archive non structurée de textes
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Corpus vs archives
Le contenu et la façon dont il est structuré aide à distinguer le corpus de l’archive:
• Corpus : compilation systématique et structurée
• archive: assemblage gigantesque, non structuré de textes généralement récoltés un peu au
hasard
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Typologie des corpus
Corpus et archives
Une archive peut regrouper :
• Les œuvres complètes d’un ou de plusieurs auteurs
• Tous les numéros d ’un journal sur une ou plusieurs années
• Tous les textes connus d’une période historique particulière
• ⇒ Peut être utilisée dans les mêmes buts qu’un corpus
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
L’analyse des corpus : deux approches
Corpus based
Hypothèses et grilles d’analyse construites a priori
Corpus driven
Hypothèses émergeant de l’exploration des données textuelles
Lexicométrie
(Salem & Lebart1994)
Textométrie Logométrie
TogniniBonelli2001
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La lexicométrie : « ensemble de méthodes permettant d’opérer des réorganisations formelles de
la séquence textuelle et des analyses statistiques sur le vocabulaire d’un corpus de textes »
(Lebart et Salem 1988)
- s’appuie sur des données quantitatives (grand corpus)
Textométrie
- discipline qui reprenant les acquis de la lexicométrie et de la statistique textuelle
- étudie les textes à partir de formes lexicales (lexicométrie)
- caractérise les genres, les auteurs
- s’applique à l’analyse du discours et à la stylistique
- s’appuie sur les données quantitatives (statistique)
Exemple:
- la notion d’écologie chez François Hollande (discours)
- le vocabulaire spécifique de Zola (stylistique)
Nesrine Raisi
Logométrie :
- elle ne se contente pas de traiter que du lexique
- elle étend ses procédures à toutes les unités linguistiques jugées pertinentes du
discours (mots graphiques, lemmes, codes grammaticaux, cooccurrents, enchaînements
syntaxiques, etc.)
- décrit qualitativement et quantitativement le contenu linguistique d’un corpus.
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
PARTIE II
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Corpus based–Corpus driven
London School of linguistics
Corpus driven Corpus based
Hypothèses émergeant de Hypothèses et grilles d’analyse
l’exploration des données textuelles construites a priori
(John Sinclair) (Geoffrey Leech)
Lexique Grammaire
TogniniBonelli2002
Léon 2008
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Importance de la question de recherche
critère d’échantillonnage
authenticité
représentativité
TogniniBonelli2002
Léon 2008
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
L’analyse du discours, même lorsqu’elle convoque l’outil informatique, s’inscrit en sciences
humaines et sociales dans une démarche scientifique : les données sont construites en fonction
d’une problématique de recherche, elles servent à valider ou infirmer des hypothèses de
recherche. (Fleury et al., 2017 : 28)
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Question de recherche Objectifs de l’analyse
Analyse du discours (analyse énonciative, rhétorique par exemple)
Exemple : Modalités de représentation du discours rapporté des gilets jaunes dans la presse
Construction et/ou vérification d’une hypothèses
Exemple: Analyse de la circulation d’un terme scientifique dans le discours courant : l’usage intensif conduit à
des modifications sémantiques
Analyse de la structure des textes (question du genre textuel)
Exemple : Spécificités linguistiques du genre scientifique (présence d’un vocabulaire spécialisé) vs spécificités
linguistiques du discours de presse sur un même sujet
Phénomène linguistiques particuliers (syntaxique, lexical ou discursif)
Exemple: néologie
Description systématique d’une langue
Traitements automatiques des langues
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Question de recherche Objectifs de l’analyse
Critères
Critères externes
(extralinguistiques)
Critères internes
(linguistiques, distributionnels)
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Le consortium CORLI recense les corpus écrits et oraux
Corpus écrits : [Link]
Corpus oraux : [Link]
Exercice :
À partir des descriptions des projets listés ci-dessous, identifier les questions et objectifs de recherche
(critères externes) d’une part, les critères de constitution des corpus (critères internes) d’autre part
Les interrogatives directes tirées de dix romans policiers
([Link]
Débats parlementaires sur l’Europe à l’Assemblée Nationale (2002-2012)
([Link]
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Corpus : Les interrogatives directes tirées de dix romans policiers
Critères externes Critères internes
(extralinguistiques) (distributionnels, linguistiques)
Les interrogatives directes
Roman policier (genre) Les variations morphosyntaxiques
Multimodalité
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Corpus Débats parlementaires sur l’Europe à l’Assemblée nationale (2002-2012)
Critères externes Critères internes (distributionnels,
(extralinguistiques) linguistiques)
Expressions de la 3e personne
Débat parlementaire (genre)
Langues (français, allemand, anglais)
Temporalité
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La constitution de corpus
Critères
Critères externes (extralinguistiques) Critères internes (distributionnels, linguistiques)
-> Comment prendre en compte ces critères, linguistiques et extralinguistiques dans l’analyse des données
textuelles ?
« Les métadonnées »
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Le rôle des métadonnées
Les données textuelles sont non structurées
Métadonnées : ajouts d’information aux données brutes, dans le but d’organiser et de documenter
les textes
Produit un enrichissement des données et ouvre la voie à des analyses quantitatives
contextualisées
Les métadonnées (et les annotations) permettent de structurer les textes
Explicitation du contexte et des conditions de production des textes observés
-> Le corpus est structuré par les métadonnées
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Exemple du British National Corpus
Considéré comme un corpus de référence
4,124 textes (incluant des transcriptions d’enregistrements)
Environ 100 millions de mots: 90% écrit+ 10% oral
Critères pour les collections écrites
• Le domaine: le type de contenu(i.e. sujet, thème)
• Le temps: la période de production des textes
• Medium: le type de publication (livres, périodiques, etc)
Critères pour les collections orales
• Démographiques: conversations informelles de locuteurs sélectionnés suivant leur groupe d’âge, leur sexe, leur
classe sociale et leur région
• Context-governed : rencontres formelles comme des réunions, des conférences et des émissions de radio
enregistrées dans 4 catégories contextuelles larges
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Les genres du discours
Tout texte relève d’une catégorie de discours, d’un genre de discours
Grande variété de termes pour désigner et catégoriser les textes produits dans une société :
conversation, manuel, journal, tragédie, roman sentimental, description, polémique, sonnet, récit, proverbe et
maxime, hebdo, tract, rapport de stage, mythe, carte de voeux, etc.
Ces dénominations de genres s’appuient sur des critères très hétérogènes :
Roman sentimental→ contenu (sentimental);
Récit → mode d’organisation (narratif)
Journal→ caractère périodique de la publication
Sonnet→ disposition particulière des vers du poème
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Les genres du discours
Le genre de discours induit des niveaux de régularités linguistiques en fonction des dispositifs de
communications. Ces dispositifs de communications émergent dans des contextes socio-
historiques spécifiques.
- Par exemple, le genre du rapport de stage suppose l’existence d’entreprises, d’étudiants qui ont
besoin d’expérience professionnelles, de professeurs pour évaluer ces travaux.
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
La question de l’échantillonnage
Un corpus est un échantillon d’une population donnée (langue, usage linguistique)
Un échantillon est une version réduite d’une population plus large
Ce que nous observons dans un échantillon vaut pour la population prise en compte
The aim of sampling “is to secure a sample which, subject to limitations of size, will reproduce the characteristics of
the population, especially those of immediate interest, as closely as possible” (Yates 1965: 9)
La méthode d’échantillonnage est déterminante pour la représentativité du corpus
Licence 3 –Sciences du langage E64SLL5 / E64SLL9
Clôture des corpus
Peut-on considérer un corpus comme clos ?
- Clôture du corpus par rapport à d’autres corpus
Est-ce que des corpus potentiellement équivalents sont accessibles ?
Peut-on les adjoindre à notre corpus de travail, ou comparer les deux jeux de données ?
- Clôture du corpus par rapport aux connaissances de l’analyste
Jusqu’où le linguiste s’autorise-t-il à faire intervenir sa connaissance pour construire une
interprétation ?
Doit-on interpréter l’absence d’une unité ?
Licence 3 –Sciences du langage E64SLL5 / E64SLL9