0% ont trouvé ce document utile (0 vote)
80 vues6 pages

Lexicométrie et Linguistique de Corpus

Le document traite de l'analyse lexicométrique, une discipline qui utilise des méthodes statistiques pour étudier des corpus linguistiques. Il aborde la linguistique de corpus, les méthodes statistiques appliquées à la linguistique, ainsi que les techniques de segmentation et d'analyse des textes. La lexicométrie se distingue par son approche systématique et objective de l'analyse du vocabulaire, en intégrant des outils informatiques pour traiter les données textuelles.

Transféré par

BABADEMBA MANDIANG
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
80 vues6 pages

Lexicométrie et Linguistique de Corpus

Le document traite de l'analyse lexicométrique, une discipline qui utilise des méthodes statistiques pour étudier des corpus linguistiques. Il aborde la linguistique de corpus, les méthodes statistiques appliquées à la linguistique, ainsi que les techniques de segmentation et d'analyse des textes. La lexicométrie se distingue par son approche systématique et objective de l'analyse du vocabulaire, en intégrant des outils informatiques pour traiter les données textuelles.

Transféré par

BABADEMBA MANDIANG
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

INFORMATIQUE

L’analyse lexicométrie
Nous allons nous intéresser de méthode relevant d’un champ d’analyse diversement
nommé : statistique linguistique, lexicale ou linguistique quantitative ou encore lexicométrie
ou identifier plusieurs logiciels : Alceste, Spad T, Hyper base, et Lexico5 précédé des versions
1,2 et 3
I. La linguistique du corpus
Il s’agit d’une discipline qui date des années 80 et a pris son essor avec une
démocratisation des PC. C’est un domaine très peu connu au Sénégal dans le domaine des
lettres. L’outil informatique est considérée comme purement quantitatif et donc pas assez
noble pour les recherche de littérature et de civilisation. La linguistique de corpus s’intéresse
à la langue en contexte sous la forme de grands ensembles de texte LES CORPUS. Cette
discipline est très liée à l’informatique mais demeure une discipline des sciences humaines.
D’un point de vu linguistique, elle ne cherche pas nécessairement les formalismes mais
plutôt à révélés les choix linguistique opérés par les locuteurs dans les contextes réels. Elle
relève de la linguistique appliquée et cherche à comprendre les mécanismes de
communications et éventuellement à apporter des solutions à des questions pratique. La
linguistique de corpus s’est fait une place dans l’enseignement des langues : la lexicographie,
la terminologie. Elle n’est pas seulement une méthodologie elle est de faite une discipline
avec ses propres présupposée. Deux approches fondamentales se côtoient l’une déductive
(corpus based) qui utilise le corpus pour confirmer ou infirmer une hypothèse. L’autre
inductive (corpus driver) qui cherche à explorer les données a priori. Les deux approche sont
complémentaire et ont besoin de corpus électronique du point de vue du matériau le corpus
est à distinguer de l’archive. La linguistique de corpus porte sur des textes réels produit en
situation de communication. Et plus que le texte le matériau d’analyse se constitue
d’ensemble de texte choisi soigneusement et ordonné selon les critères précis pour RASTIER
(2005) pour passer de l’archive au corpus il faut distinguer 4 niveau
 L’archive contient l’ensemble des documents accessible ce n’est pas un corpus car
pas constituer une recherche déterminée
 Le corpus de référence est constitué par l’ensemble des textes sur lequel on va
contraster les corpus d’étude
 Le corpus d’étude est délimité par les besoin de l’application
 Le sous corpus de travail en cours varie selon les phases de l’étude et peut ne
contenir que des passages pertinents du texte ou des textes étudié
II. Linguistique et méthode statistique
 Rappel historique
L’utilisation des méthodes statistique dans le domaine textuel est très tardive alors
que ces méthodes trouvaient des applications dans d’autre discipline la linguistique ne se
tourné très peu vers ces potentialité de sorte qu’en 1948 COHEN fait le constat suivant « il
me semble pouvoir affirmer que se serai entravé le développement de la linguistique que de
continuer à temps se désintéressé des nombres quand nous parlons des phénomènes
linguistiques ». La pratique qui consiste à mesurer les données lexicales est certes anciennes
mais se dont souffre la linguistique c’est de l’absence d’une méthodologie propre ors les
nouveaux moyens informatique permettent tant aux chercheurs qu’aux professionnelles
d’accumuler un stocke d’information qui ne peut plus rester inexploité. Et ceux surtout si on
considère avec de nombreux linguiste exploitons le traitement quantitatif que ses outils
constituent une assistance très efficace à l’analyse des données et garantissent une
systématicité d’analyse ils permettent d’objectivés les intuitions que l’on peut avoir vis-à-vis
d’un corpus tout en mettant en évidence certains aspects qu’une analyse manuelle ne
relèverait sans doute pas. C’est une aide à la lecture et à l’analyse des textes utile pour
différents types d’analyse et dans différents domaines d’analyse. C’est dans la première
moitié du 20ème siècle que les travaux de linguistiques exploitant les statistiques se
développent par exemple les études menés par BRUNER sur le trésor de la langue française
ou encore les recherche du laboratoire lexicométrie et texte texte politique de l’école
normale supérieure FONTHNAY ST CLOUD
 Perspective de la lexico
La lexicométrie proclame son statut scientifique à l’encontre des méthodes
quantitatives passées, développées par les analyses textuelles traditionnelles ou la
lexicologie. Elle rejette tout à apriorisme et s’inscrit dans un souci d’exhaustivité des
données étudiées. Il existe deux méthodes de traitement quantitatif selon SALEM la
lexicomancie et la lexicométrie BONNAFOUS (1991) les décrient ainsi « une étude de
vocabulaire peut relever de la lexicologie aussi bien que de la lexicométrie. La lexicologie
s’appuie sur des relevés manuels de mots choisis lors de la lecture de texte souvent assez
hétérogène et s’inscrit dans une perspective de comparaison et de datation des enfants.
Travail d’historien de la langue effectué sur un corpus ouvert toujours enrichissable. La
lexicométrie en revanche se donne comme objectif d’analyser de façon objective et
systématique le vocabulaire de corpus clos constitué au tour de variable et d’invariant
déterminé. L’analyse est automatisée et porte sur des critères quantifiés »
III. Segmentation de la matière textuelle
 Quelles unités choisis ?
Par définition tout logiciel d’analyse textuel implique des comptages effectués sur
les textes autrement dit tout logiciel de ce type implique une segmentation de la matière
textuelle. C’est au concepteur de définir cette unité et naturellement la viabilité de
l’analyse repose sur l’invariabilité de cette unité i-e pour que pour être étudiable
statistiquement les unités qui segmentent la matière textuelle ne doivent jamais changer
au cours de la recherche hors un texte est composé de formes qui peuvent s’envisager
sous plusieurs angles on peut isoler des unités lexicales des unités sémantiques des
unités morphosyntaxiques. La lexicométrie repose sur l’unité lexicale.
 Les unités lexicales
L’unité d’analyse des méthodes lexicométrie est donc l’unité lexicale conçus
comme unité minimale et indivisible. L’identification de cette unité relève de la
segmentation. Le texte est découpé en forme graphique définie comme une suite de
caractère lettre, chiffres, symboles délimité par deux blancs et la ponctuation. De faite
c’est l’écriture qui fournit une première définition de l’unité graphique. Les logiciels qui
reposent sur une analyse en unité lexicale intègrent deux types de caractères : les
délimiteurs et les non délimiteurs qui permettent de segmenter le texte en forme et en
l’occurrence : toute séquence définie par des caractères délimiteur est une occurrence.
Deux suites de caractère identique sont 2 occurrences d’une même forme. L’ensemble
des formes d’un texte définie son vocabulaire et l’ensemble de ses occurrence sa taille. A
l’issue de la segmentation un texte contient toujours plus d’occurrence que de forme
Exemple : la maison ou habite Paul ressemble à la maison de Pierre (9 formes 11
occurrences dont 7 hapax = mots qui ne reviennent qu’une seul fois dans un corpus). Les
délimiteurs intégrés au logiciel et qui fonctionnent par défaut et qui sont modifiable par
l’utilisateur sont : l’espace ,. ;:!() ?... par rapport à ce travail de segmentation un certains
nombres d’interrogations peuvent apparaitre
Un tiré peut renvoyer au signe moins à un mot composé à la marque d’une
parenthèse
L’apostrophe peut signifier la disparition d’un « e muet » ou d’une autre voyelle
elle peut aussi ne pas fonctionner comme délimiteur (aujourd’hui)

 Les index de formes


Le résultat de l’opération de segmentation se présente sous la forme d’index qui sont des
inventaires de l’ensemble des unités isolées. On trouve un index des formes graphiques
simple dans lequel chaque forme reçoit une adresse (numéro placé avant la forme) et une
fréquence (numéro placé après la forme). Ces index se présentent sous la forme d’un ordre
lexico-métrique allant de la forme la plus fréquente à la forme la moins fréquente ou sous la
forme d’un ordre lexicographique (a-z).
 La lemmatisation
La définition des unités soumises à l’analyse ouvre un débat entre les logiciels exploitant des
lemmatiseurs et ceux n’en exploitant pas. Ce débat oppose les partisans d’une analyse qui
refusant tout apriorisme colle à la surface du texte et ceux qui appuient leurs analyses sur
une perspective plus lexicographique que lexico-métrique et accepte donc une intervention
sur le matériau avant traitement. La lemmatisation consiste à ramener toutes les formes
dérivationnelle et flexionnelle d’une unité à un représentant ou une forme canonique
correspondant en général à l’entrée du dictionnaire. Ainsi pour lemmatiser un texte on
ramène en général : les formes verbales à l’infinitif, les substantifs au singulier, les adjectifs
au masculin singulier, les formes élidés à la forme sans élisions, les formes en majuscule à la
forme sans majuscule. En général se traitement s’effectue sur la base d’un dictionnaire
intégré au logiciel. L’un des problèmes c’est celui du traitement des formes ambiguës qui
disparait avec la lemmatisation. En outre, pour certaines études il est crucial de s’intéresser
aux temps verbaux
Exemple : un président qui semble résigner dans le traitement des certains problèmes de
société et qui utilise très majoritairement le conditionnel présent : création d’un univers de
rêve. Lexico n’a pas de lemmatiseur automatique. En revanche la fonctionnalité groupe de
forme palie se manque alors il s’agit d’une lemmatisation non automatique ou manuelle
 Les segments répétés
Nous avons vu précédemment que notamment l’apostrophe et le tiré utilisaient comme
caractère délimiteur mes également l’espace peuvent occasionner la segmentation des mots
composés. Ainsi désolidariser et non identifier en tant que forme graphique une. Afin de
pallier cet inconvénient les logiciels lexico-métriques permettent l’identification sur requête
ou nom de l’utilisateur de ce que l’on appelle les segments répétés. Ces unités complètent
les formes graphiques et correspondent à de séquence de formes graphiques non séparés
par un délimiteur et qui apparaissent plus d’une fois dans le corpus. Un inventaire des
segments répétés permet d’isoler des mots composés mais aussi des segments figés plus ou
moins stable dont le sens n’est pas réductible à la somme du sens des éléments constitutifs.
Il permet également de lever en partie les problèmes de polysémie toute fois à cette effet on
aura plutôt recours à la fonctionnalité concordance.
 Les concordances
Ils permettent de rassembler toutes les occurrences d’une forme pole en l’accompagnant de
son contexte de gauche et de droite. Il revient à l’utilisateur de définir la longueur de ces
contextes.
IV. Une approche typologique
La phase de segmentation de la matière textuelle ne présente pas réellement d’originalité.
De nombreux logiciels de traitement statistique reposent en effet sur cette opération. Ces
dans les phases suivantes du traitement statistique qu’apparaient l’originalité des logiciels
de lexico-métriques. Ceux-ci s’articulent à une approche typologique des corpus qui visent à
établir des différences de profil entre texte soumis aux traitements. La lexicométrie trouve
son fondement sur des opérations de comparaison : le corpus est divisé en partie ou sous
corpus obtenu par des regroupements de texte élémentaire et se sont les différences entre
ces parties qui seront analysées. On est une perspectiviste qui vise l’objectivité et seul et
seule la confrontation à d’autre valeur de même type permet d’interpréter les valeurs
obtenues.
 Le corpus d’étude
La méthode lexicométrie ainsi définie montre qu’une étape primordiale à toute analyse est
la constitution du corpus, celui-ci devant se caractérisé par plus d’homogénéité que
d’hétérogénéité (l’hétérogénéité est indispensable car elle permet la comparaison). Afin de
mener une analyse on opère sur un corpus dit clos puisse que ne sont comparable que des
unités stabilisés et partitionnés en partie qui forme la base de la comparaison. La définition
de la partition relève d’une variable propre au corpus et en général sélectionnés selon les
objectifs de l’analyse. Elle correspond à une des données de la situation d’énonciation :
l’espace, le temps, le canal, le locuteur, interlocuteur… le corpus est divisé en n partie au
regard des quels chaque forme est étudié pour définir sa fréquence sur l’ensemble du
corpus et ses sous fréquences sur chaque partie. L’ensemble des sous fréquences d’une
forme est appelée ventilation des occurrences de cette forme. Ainsi la somme des sous
fréquences correspond à la fréquence totale de la forme sur l’ensemble du corpus. Une
forme appartenant au vocabulaire de chaque partie étudié est dite forme commune. En
revanche si elle n’est occurrente que dans une seule des parties, elle est dite originale.
- Vocabulaire commun :
 Les clés de partition concrètement
La partition du corpus nécessairement enregistré sous le format .txt se réalise à l’aide de clé
de partition introduite dans le matériau soumis à l’analyse. Ces clés doivent être présenté
entre chevrons au sein des quels on n’utilise pas d’espace et dans lesquels on entre des
informations alpha numérique. L’information comprise entre ses crochets n’entre pas dans
la segmentation et le décompte des unités. Si l’étape de segmentation échoue c’est bien
souvent parce qu’il y’a une erreur dans la formulation des clés. Le logiciel indique l’échec par
un message qui invite l’utilisateur à consulter l’Atrace (document généré automatiquement
et ranger dans le fichier d’origine du corpus)
 L’analyse factorielle des correspondances (AFC)
A la base des traitements statistiques on trouvait traditionnellement des calculs de
pourcentages et des moyennes croisant plusieurs variances et construisant des tables de
contingences ou des tableaux croisés. L’AFC repose sur ses principes statistiques de base.
L’objet de cette analyse est de comparer l’ensemble de données numériques contenues
dans un tableau pour en donner une représentation géométrique qui permettra de décrire
simultanément la similitude entre les profils-lignes et les profils-colonnes. Ce que permet
l’AFC c’est de déterminer des distances et des proximités de point. Salen 1982 définit ainsi
l’AFC « partant du décompte des occurrences de chacune des formes dans chacune des sous
parties du corpus analysé l’AFC fournit une typologie des sous parties du corpus qui vise à
rapprocher entre elle celle qui emploi les mêmes mots dans les mêmes proportions ».
 L’analyse des spécificités
L’AFC est une analyse globale de l’ordre d’un panorama qui doit nécessairement être
compléter par une analyse des sous fréquences dites analyse des spécificités, qui repose sur
des calculs probabiliste intégrés au logiciel. Pour apprécier la répartition d’une unité
linguistique à l’intérieur d’un corpus il est nécessaire d’établir des comparaisons sur la valeur
de cette unité sur la valeur de l’ensemble des unités de même type contenu dans ce corpus.
Mais cette comparaison ne peut être pertinente que si elle se réalise en prenant en compte
la taille des textes étudiés du corpus dans son entier et des sous parties. Hors espérer
travailler sur des corpus ayant des sous parties de même taille est illusoire. Pour contourner
cette difficultés l’analyse des spécificités intègrent des calculs de probabilistes qui
permettent pour chaque forme graphique de définir un seuil de probabilité … autrement dit
il s’agit de calcul de proportionnalité et de pondération qui définissent ce que serai une
répartition uniforme de la forme sur l’ensemble des sous corpus par rapport à leurs taille. A
cette répartition est confrontée la fréquence réelle pour obtenir une information exploitable
sur chacun des formes étudiées. On peut ainsi obtenir 3 types d’information pour une forme
- Si la sous fréquence d’une forme dans une sous partie est par rapport au seuil de
spécificités fixés anormalement élevé, on dit qu’elle est spécifique positive. Cette
forme est en surreprésentation dans la partie. A nous d’interpréter en suite cette
spécificités positive. Elle est note S+X, X indiquant l’indice de spécificité.
- Si la sous fréquence d’une f forme dans une sous partie est par rapport au seuil de
spécificités fixés anormalement faible, on dit qu’elle est spécifique négative. Cette
forme est en surreprésentation dans la partie. A nous d’interpréter en suite cette
spécificités négative. Elle est note S-X, X indiquant l’indice de spécificité.
- Si une forme pour une sous partie donnée ne présente aucune spécificité vi positive
ni négative, elle est dite banale. L’ensemble des formes banales pour chaque sous
partie du corpus i-e l’ensemble des formes ne représentant pour un seuil fixé aucun
spécificité dans aucune des parties du corpus constitue le vocabulaire de base du
corpus étudié.
Conclusion
C’est ce matériau qui constitue une clé de lecture nouvelle des textes
l’interprétation qui en découle est naturellement, étroitement solidaire des hypothèses de
départ du corpus que l’on analyse. Ces spécificités permettent de construire des profils-
types de chacun des sous parties, on pourrait par exemple construire le profil du discours
politique le profil du discours journalistique, panafricain, souverainiste...

Vous aimerez peut-être aussi