0% ont trouvé ce document utile (0 vote)
72 vues34 pages

Thème

Le document présente les concepts fondamentaux des technologies du langage, en se concentrant sur le traitement automatique du langage naturel (TALN), le big data, les algorithmes, et l'intelligence artificielle. Il explore également l'évolution historique des disciplines linguistiques et informatiques, en mettant en lumière le tournant de l'automatisation avec l'émergence de la traduction automatique après la Seconde Guerre mondiale. Enfin, il aborde les applications pratiques du TAL, telles que la compréhension et la génération de langage naturel, ainsi que les défis associés à l'interprétation des intentions des utilisateurs.

Transféré par

amandine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
72 vues34 pages

Thème

Le document présente les concepts fondamentaux des technologies du langage, en se concentrant sur le traitement automatique du langage naturel (TALN), le big data, les algorithmes, et l'intelligence artificielle. Il explore également l'évolution historique des disciplines linguistiques et informatiques, en mettant en lumière le tournant de l'automatisation avec l'émergence de la traduction automatique après la Seconde Guerre mondiale. Enfin, il aborde les applications pratiques du TAL, telles que la compréhension et la génération de langage naturel, ainsi que les défis associés à l'interprétation des intentions des utilisateurs.

Transféré par

amandine
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

THÈME 1.

LES TECHNOLOGIES DU LANGAGE : QUELQUES CONCEPTS DE BASE

1. INTRODUCTION- DÉFINITIONS

TRAITEMENT AUTOMATIQUE LANGAGE (NATUREL) TAL - TALN - NLP

Langage naturel vs artificiel


Les langues humaines sont naturelles dans le sens où elles sont des créations collectives spontanées
sans date de naissance précise. Elles s’opposent ainsi principalement aux “langues artificielles” ou
“formelles”, telles que les langages de programmation informatiques ou la logique mathématique.
« tandis que les langues naturelles se développent spontanément au sein de communautés humaines,
les langues artificielles sont le plus souvent développées par des individus avant toute énonciation .
Les concepteurs de langues artificielles dictent les normes avant l’usage, tandis que l’usage des
langues naturelles précède leur codification normative. »
Le traitement automatique fait partie de l’informatique.
Traitement de Données (pièces d’information) > dans le cas du TAL, les données sont linguistiques

Big data :
Le big data ("données massives" ou "mégadonnée") est l’ensemble des disciplines technologiques
visant à traiter les données en masse, de façon rapide et indépendante du format. Elle a émergé avec
le développement d'internet et l'explosion du volume d'infor mations numériques de tous types
(textes, images, audio…) depuis le début des données 2000.
« Bien que la problématique de données volumineuses soit apparue au début des années 2000, le
terme « Big data » n’apparaît que mi-2010 sur le Web. Le Big data représente donc d’énormes volumes
de données structurées ou non structurées, difficilement gérab les avec des solutions classiques de
stockage et de traitement, qui proviennent de sources diverses et sont produites en temps réel. Le Big
data est le point de rencontre entre la multiplication des données non structurées, les besoins
d’analyse de ces données et les progrès de la technologie. » (Brasseur 2015)

Algorithme
« Un algorithme est la description d'une suite d'étapes permettant d'obtenir un résultat à partir
d'éléments fournis en entrée. Par exemple, une recette de cuisine est un algorithme permettant
d'obtenir un plat à partir de ses ingrédients! Dans le monde de plus en plus numérique dans lequel
nous vivons, les algorithmes mathématiques permettent de combiner les informations les plus
diverses pour produire une grande variété de résultats : simuler l'évolution de la propagation de la
grippe en hiver, recommander des livres à des clients sur la base des choix déjà effectués par d'autres
clients, comparer des images numériques de visages ou d'empreintes digitales, piloter de façon
autonome des automobiles ou des sondes spatiales, etc.

Pour qu'un algorithme puisse être mis en œuvre par un ordinateur, il faut qu'il soit exprimé dans un
langage informatique, sous la forme d'un logiciel (souvent aussi appelé « application »). Un logiciel
combine en général de nombreux algorithmes : pour la saisie des données, le calcul du résultat, leur
affichage, la communication avec d'autres logiciels, etc.

Certains algorithmes ont été conçus de sorte que leur comportement évolue dans le temps, en
fonction des données qui leur ont été fournies. Ces algorithmes « auto -apprenants » relèvent du
domaine de recherche des systèmes experts et de l'« intelligence art ificielle ». Ils sont utilisés dans
un nombre croissant de domaines, allant de la prédiction du trafic routier à l'analyse d'images
médicales. » (CNIL)

Intelligence artificielle (IA)


« L’IA désigne la possibilité pour une machine de reproduire des comportements liés aux humains, tels
que le raisonnement, la planification et la créativité. L’IA permet à des systèmes techniques de
percevoir leur environnement, gérer ces perceptions, réso udre des problèmes et entreprendre des
actions pour atteindre un but précis. L’ordinateur reçoit des données (déjà préparées ou collectées
via ses capteurs - une caméra, par exemple) les analyse et réagit.

Les systèmes dotés d’IA sont capables d’adapter leurs comportements (plus ou moins) en analysant
les effets produits par leurs actions précédentes, travaillant de manière autonome. »

IA prédictive : les systèmes qui peuvent déterminer quelque chose grâce à des exemples sur lesquels
ils ont été entrainés.

IA générative : les systèmes qui peuvent créer des images et des textes. (Chat GPT sont des exemples
concrets d’IA générative)

IA agentique : les systèmes qui sont capables de faire des actions à partir d’une instruction complexe
(les voitures autonomes, ou des IA qui peuvent ouvrir une application et exécuter une série de tâches
pour vous ).

Tous ces types d’IA font partie des IA faibles (qui peuvent réaliser des tâches très concrètes, bien
qu’assez impressionnantes). On parle d’IA faible par opposition à l’intelligence humaine, qui est
caractérisée par la compréhension, la conscience et les émotions.

Dans ce sens, une Intelligence artificielle forte (ou Intelligence artificielle général), qui serait à la
hauteur des humains pour toutes les tâches et dans tous les contextes n’existe pas encore et n’est
qu’un concept théorique pour l’instant.

Machine learning (ML)


« L ’apprentissage automatique (machine learning en anglais) est un champ d’étude de l’intelligence
artificielle qui vise à donner aux machines la capacité d’« apprendre » à partir de données, via des
modèles mathématiques. Plus précisément, il s’agit du p rocédé par lequel les informations pertinentes
sont tirées d’un ensemble de données d’entraînement.
Le but de cette phase est l’obtention des paramètres d’un modèle qui atteindront les meilleures
performances, notamment lors de la réalisation de la tâche attribuée au modèle. Une fois
l’apprentissage réalisé, le modèle pourra ensuite être déployé en produ ction. »

Le traitement automatique du langage a comme résultat des modèles de langage.


GPT-4, Claude, BERT, Lamda…, sont des grands modèles de langage (LLM, large language model) ultra -
performants.
« Modèle statistique de la distribution d’unité linguistiques (par exemple : lettres, phonèmes, mots)
dans une langue naturelle. Un modèle de langage peut par exemple prédire le mot suivant dans une
séquence de mots. On parle de modèles de langage de grand e taille ou « Large Language Models »
(LLM) en anglais pour les modèles possédant un grand nombre de paramètres (généralement de
l'ordre du milliard de poids ou plus) comme GPT-3, BLOOM, Megatron NLG, Llama ou encore PaLM. »
(CNIL)

1. UTILITÉ DES TECHNOLOGIES DU LANGAGE


• Comment répond google à mes recherches ?
• Comment corrige Word mes erreurs ?
• Comment fonctionne Deepl ?
• Comment peuvent certaines applications remplir mes données automatiquement ?
• Comment savent certaines plateformes qu’un commentaire est offensif ?
• Comment détecte-on des fakes news ?

Le TAL a deux fonctions principales :


La compréhension (Natural Language Understanding, NLU) : un sous -ensemble du traitement du
langage naturel, qui utilise l'analyse syntaxique et sémantique du texte et de la parole pour déterminer
le sens d'une phrase.

input: séquence linguistique When was Einstein born


Output: détermination du sens et de l’intention

Génération (Natural Language generation, NLG) La génération de langage naturel permet aux
ordinateurs d'écrire. Le NLG est le processus qui consiste à produire une réponse textuelle en langage
humain sur la base d'une entrée de données. Ce texte peut égale ment être converti en format vocal
grâce à des services de synthèse vocale.
Input: données
Output: séquence linguistique

L’input n’est pas toujours évident. Par exemple, dans les moteurs de recherche on peut utiliser des
formulations potentiellement très différentes pour chercher la même chose. Pour faire face à cette
équivalence sémantique, mais disparité formelle, Google u tilise le TAL pour enrichir ses capacités de
recherche. Des phrases interrogatives complètes en input (When was Einstein born) ou incomplètes
(Einstein birth) ou même vagues (Einstein date) rendent toutes la date de naissance d’Einstein.

Comment est le moteur capable d’interpréter les intentions à partir d’expressions différentes ?
Voir le film : Trillions of Questions, No Easy Answers: A (home) movie about how Google Search
works (produit par Google)

Fragment 1 :
Vidéo 1: jusqu’à 14:58

Google indexe tous les sites web, qu’est-ce que cela veut dire?
Google scanne toutes les pages et établit une liste de tous les mots et de toutes les pages sur
lesquelles chaque mot apparaît. Comme l'index d'un livre
Quels défi présente l’homonymie pour la recherche?
Quand deux référents ont le même nom (Lasagna : plat italien, Lasagna : le médecin), le moteur de
recherche doit déterminer lequel est le plus pertinent, tenant compte de plusieurs facteurs
(localisation, date d’actualisation de la page, combien de pages o nt un lien vers cette page…)

Fragment 2:
Jusqu’à min. 43’59

« Search is not just matching words, but matching the thing you ask to the concept that you were
really looking for »… qu’est-ce que cela veut dire ?
Il ne s'agit pas seulement de faire correspondre des mots (le mot X dans la requête est présent dans
une page), mais de comprendre le langage afin de pouvoir faire correspondre ce qu’ils demandent
(question) au concept qu’ils recherchent réellement.
Quel est le rôle du TAL pour la recherche dans Google?
Comme les machines ne peuvent pas parler l'humain, les humains ont dû trouver de nouvelles façons
de dire aux machines ce qu'elles doivent faire (par exemple, cartes perforées, écriture de code). Même
au tout début du moteur de Google, on écrivait encore e n code, avec des mots-clés que la machine
pouvait comprendre (Keyword-ese). Le TAL aide la machine à comprendre le langage de sorte que
l'utilisateur ne doive pas s'adapter à la machine, mais que celle -ci soit capable d'interpréter ce que
vous aviez en tête de la manière la plus naturelle possible.

Depuis 20 ans, le TAL a aidé à résoudre : des erreurs d’orthographe, des synonymes... Surtout avec
l'apprentissage automatique, et le développement de Bert : une technologie qui peut aider à
comprendre le langage.

Fragment 3 :
Jusqu’à min 54

Selon l’exemple, pourquoi des mots grammaticaux tels que « for » démontrent l’importance du TAL
pour les moteurs de recherche?
Auparavant, les mots grammaticaux (tels que " pour ") étaient ignorés. Maintenant, grâce à BERT (un
modèle NLP), la machine peut comprendre que ces mots sont parfois très importants. Le TAL incorpore
leur signification sémantique.
THÈME 2 — Histoire et évolution des technologies linguistiques

1. Délimitation des disciplines : Linguistique et informatique

L’objet de la linguistique (ou des sciences du langage), c’est l’étude scientifique des langues naturelles et, à travers
elles, du langage en tant que “faculté”. Derrière l’apparente diversité des langues humaines, les linguistes essaient
de traquer des fonctionnements communs, des structures partagées, des universaux. Les linguistes cherchent plus
à comprendre les principes qui régissent les langues qu’à multiplier les connaissances qu’ils ont de certaines d’entre
elles. Cette linguistique est descriptive (≠prescriptive), on observe comment fonctionnent les langues, sans
chercher à les contrôler ni à corriger leur évolution.

L’informatique est la science du “traitement automatique de l’information”. Héritière d’une longue tradition
mathématique et logique de modélisation du calcul. Les fondements de l’informatique sont doubles :
– le codage des données à l’aide d’éléments discrets (0/1)
– le codage effectif des traitements à l’aide d’algorithmes
Pour pouvoir traiter le langage de façon automatique, l’informatique doit déterminer quelles sont les données
adéquates et comment les coder, et quels sont les traitements pertinents pour traiter ces données.

2. Avant 1950 : deux histoires indépendantes


Plusieurs moments importants dans l’histoire de la linguistique et de l’informatique :

Linguistique Informatique

•Avant le XVIIIè s.: grammaires descriptives •Maths: Descriptions de méthodes


•XVIII-XIXè s.: linguistique comparative et générales de calcul.)
historique, lois d’évolution générales •Maths: naissance logique booléenne
•1916: Cours de linguistique générale,
Saussure •1936 Alan Turing « machine de Turing »,
•1930-40: Cercle de Prague: Linguistique naissance de l’informatique.
structurale, Jakobson •1945: Von Neumann: plan ordinateur
•Martinet: Double articulation des langues moderne
•Chomsky, grammaire générative

Logique booléenne
George Boole (1815-1864) Britannique, mathématicien, logicien et philosophe des mathématiques.
• utilisée dans les ordinateurs
• Logique du vrai / faux, du 0 / 1
• Les opérateurs logiques sont: (et, ou, non)

Ferdinand de Saussure (1857-1913)


“Cours de linguistique générale”
• Langue = Système de signes (signifiant, signifié, référent)
• Langue ≠ parole
• dimensions diachronique / synchronique
• Axe syntagmatique / axe paradigmatique

Machine de Turing = Naissance de l’informatique


Alan Turing (1912-1954), Mathématicien anglais. Créateur de la "machine de Turing"
Pas une machine concrète, mais un modèle abstrait pour déterminer la calculabilité, c’est à dire, ce qu’on peut
calculer.
3. Années 50 : Le « tournant de l’automatisation »

« L’automatisation des sciences du langage commence avec les premières expériences de traduction automatique
(désormais TA) entreprises à la fin de la seconde guerre mondiale, en 1948-1949 aux États-Unis et en Grande-
Bretagne. On parlera de ‘tournant de l’automatisation’.
La traduction automatique est issue des sciences de la guerre (Dahan et Pestre 2004).
Développées essentiellement au MIT, les sciences de la guerre ont permis l’élaboration de technologies de pointe
comme les radars, les systèmes de défense antiaérienne et les ordinateurs, puis, après-guerre, la traduction
automatique.
Cette période d’une quinzaine d’années (1948-1966), entre le début des premières expériences de TA et la mise
en place de la linguistique computationnelle, peut être considérée comme un véritable événement, constitutif du
tournant de l’automatisation.
On peut avancer que c’est grâce à la TA, c’est-à-dire grâce à la nécessité stratégique de produire des traductions
rentables en série, que les langages formels […] se sont investis dans des algorithmes d’analyse syntaxique qui ont
déterminé l’essor des grammaires formelles, notamment celles de Chomsky. »

« On doit mentionner trois rapports et deux personnalités d’exception, Warren Weaver et Yehoshua Bar-Hillel, qui
ont eu une importance crucial sur le plan institutionnel :
(i) 1949 [1955] : Translation, de Warren Weaver ;
Ce mémorandum a impulsé la création de centres de traduction automatique, en grande partie
dans les universités, avec pour mission de produire des traductions en série de textes
scientifiques du russe vers l’anglais
Par contre, les erreurs de trad font qu’on doute de l’efficacité de la TA, malgré le succès
médiatique de la 1ère démonstration sur ordinateur en 1954 .

(ii) 1960 : « The present status of automatic translation of languages », Yehoshua Bar-Hillel ;
[Selon ce document], le seul objectif « raisonnable », pour la commercialisation de la traduction
scientifique de bonne qualité, est la traduction assistée par ordinateur, comportant au moins une
intervention humaine sur la sortie de la machine, ou post-édition ; « raisonnable » signifiant à la fois
possible en termes de faisabilité technique et scientifique, et compétitif en termes de coût par rapport à
la traduction humaine.

(iii) 1966 : Language and Machines. Computers in Translation and Linguistics, Automatic Language
Processing Advisory Committee (ALPAC) of the National Research Council.
La littérature scientifique traduite automatiquement sans post-édition est très difficile à lire et même
source d’erreurs. Par ailleurs, tous les témoignages attestent que les sorties de TA avec post-éditions sont
plus coûteuses que la traduction humaine. Le comité conclut qu’il n’est pas utile de dépenser des sommes
d’argent considérables pour mécaniser une petite industrie déjà économiquement en déclin et qui utilise
une force de travail inférieure à 5 000 personnes. Ce qui est envisagé de façon positive en revanche, ce
sont les aides automatisées à la traduction.
Il décrète la légitimité de la linguistique computationnelle comme « nouvelle linguistique » fondée sur la
grammaire générative et transformationnelle de Chomsky, en remplacement de la TA.

Relation avec la linguistique :

« Dans le cadre de la culture scientifique de guerre, la linguistique n’a pas de place.


La TA n’est pas une discipline, c’est une technologie destinée à produire des traductions en série économiquement
rentables. Les questions linguistiques sont donc considérées comme non prioritaires au regard des problèmes liés
à l’architecture et à la limitation de la puissance des machines : limitation de mémoire, donc de vitesse et de
stockage. On essaie de formaliser la langue naturelle, pas d’inclure les linguistes dans la réflexion.

Par ailleurs, un pourcentage d’erreur est admissible dans le cadre d’un usage pratique. Cet argument est de taille.
Il a constamment été mis en avant par les acteurs de la TA puis du TAL encore aujourd’hui.

En 1952 (première conférence de traduction automatique à MIT), on comprend que l’analyse syntaxique doit faire
partie de la TA : suivant Bar-Hillel, tous s’accordent pour définir les deux étapes préalables à la TA : (i) créer un
dictionnaire automatique de formes sans lemmatisation ; (ii) développer une analyse syntaxique opérationnelle
programmable (remettant à plus tard les problèmes grammaticaux). […]

En 1962, la linguistique computationnelle (computational linguistics) s’institutionalise avec la création de


l’Association for Machine Translation and Computational Linguistics (AMTCL). Le premier colloque, intitulé
International Conference on Computational Linguistics, a lieu à New York en mai 1965, regroupant 150
participants.[…]
Computational linguistics [devient] une technique indispensable devant être utilisée par tous les linguistes
(Akhmanova et al. 1963). La TA y est vue comme un champ expérimental permettant de vérifier des hypothèses
théoriques. […]
Après 1966, la TA perd l’ambition d’être discipline indépendant, et devient une partie du TAL. »

4. 1966 : Eliza (Weinbaum)

ELIZA est un premier système de traitement du langage naturel qui pouvait tenir une conversation limitée avec un
utilisateur en imitant les réponses d'un psychothérapeute rogérien (Weinbaum, 1966).

Lisez ce dialogue classique d’Eliza et essayez de comprendre quel peut être le fonctionnement du programme :
User: I am unhappy.
ELIZA: DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY
User: I need some help, that much seems certain.
ELIZA: WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP
User: Perhaps I could learn to get along with my mother.
ELIZA: TELL ME MORE ABOUT YOUR FAMILY
User: My mother takes care of me.
ELIZA: WHO ELSE IN YOU FAMILY TAKES CARE OF YOU
User: My father.
ELIZA: YOUR FATHER
User: You are like my father in some ways.

Eliza est un “early natural language processing system that could carry on a limited conversation with a user by
imitating the responses of a Rogerian psychotherapist (Weizenbaum, 1966). ELIZA is a surprisingly simple program
that uses pattern matching to recognize phrases like “I need X” and translate them into suitable outputs like “What
would it mean to you if you got X?”. This simple technique succeeds in this domain because ELIZA doesn’t actually
need to know anything to mimic a Rogerian psychotherapist. As Weizenbaum notes, this is one of the few dialogue
genres where listeners can act as if they know nothing of the world. Eliza’s mimicry of human conversation was
remarkably successful: many people who interacted with ELIZA came to believe that it really understood their
problems, many continued to believe in ELIZA’s abilities even after the program’s operation was explained to them
(Weizenbaum, 1976)”

5. Les années 70 et 80

Les années 70 et 80 sont marquées en TAL par l’effervescence de la sémantique formelle pour représenter des
connaissances et formaliser des raisonnements. La pragmatique, c’est-à-dire l’étude de l’utilisation du langage en
contexte, dans des situations concrètes, est aussi prise en compte dans ces modélisations.
Ce sont les années des systèmes experts (programmes qui simulent, sous la forme de règles, les connaissances
d’un expert, pour reproduire son mode de raisonnement). Exemple d’intelligence artificielle de l’époque.
Le premier et le plus connu des systèmes de cette époque est MYCIN, conçu à l'université de Stanford par Shortliffe.
C'est un système expert de diagnostic médical.
Les différentes parties d'un système expert:

« Le coeur d'un système en I.A. est composé de trois parties:

1. Une base de connaissances où sont stockées, sous une forme appropriée, toutes les connaissances
permettant de résoudre le problème que l'on veut traiter dans un domaine déterminé.
2. Un mécanisme d'exploitation (moteur) qui est un ensemble de programmes susceptibles de traduire le
raisonnement humain (heuristique, progression par avancement et retour arrière, décomposition en sous
ensemble...). Ces programmes utilisent les connaissances stockées dans la base de connaissances afin de
résoudre le problème que l'utilisateur lui a posé en lui donnant des hypothèses de départ.
3. Une base des faits du problème à résoudre, qui est en fait une mémoire de travail où seront stockées les
hypothèses de départ où viendront s'ajouter des faits nouveaux au fur et à mesure que progressera le
mécanisme d'exploitation.

Un système, en I.A., doit posséder deux autres parties qui sont en fait des modules d'interface avec l'extérieur :

4. Un module d'interaction avec les utilisateurs potentiels : cette interface de dialogue doit être la plus
conviviale possible. Ce module est lié au mécanisme d'exploitation.
5. Un module d'aide à l'acquisition des connaissances qui est surtout une interface de dialogue entre la base
de connaissances et les experts du domaine qui doivent alimenter cette dernière. »

En TALN, on essaie de reproduire les systèmes experts pour la langue en ramenant l’usage de la langue à des règles
symboliques. À cette époque, les technologies du langage développées étaient des programmes restreints à leur
propre domaine, basés sur des connaissances du monde et un langage propre à l’application.
Les approches symboliques sont encore utilisées de nos jours. On a encore beaucoup de concepts et modèles qui
sont liés à ces règles symboliques. Celles-ci sont prédéfinies et « écrites à la main ». Elles sont basées sur des
grammaires formelles. Elles ont une bonne précision (ce qui est traité est bien traité) mais une mauvaise
couverture (beaucoup de cas non traités).

6. 1990 : 2ème moment clé, le « corpus turn »

Pendant les années 90, on se retrouve face à des changements importants :


- Du point de vue de la société, la banalisation des ordinateurs personnels, avec des capacités de stockage
et de traitement en progression exponentielle,
- et l’apparition du Web, qui a motivé l’évolution d’une civilization localisée à une civilization de la
communication.
- Du point de vue de la technologie, la puissance des ordinateurs va permettre de traiter des données
textuelles en nombre

Il y a pourtant une situation paradoxale : le web auberge des quantités immenses d’information, mais on doit
pouvoir transformer ces données en information organisée et structurée, càd en connaissances. Tout ce qui peut
aider à classer ou traiter les documents textuels, à extraire l’information qu’ils contiennent, devient un enjeu
majeur. En effet, les données se multiplient : dans les ordinateurs personnels et dans le web, tout est texte.

C’est à ce moment que se développent l’ingénierie linguistique et la linguistique de corpus (c’est la branche
appliqué des recherches en TAL, càd des programmes applicables à des données réelles.)
Grace aux avances technologiques, les linguistes vont pouvoir utiliser des données informatisées et de nouveaux
outils linguistiques. L’ingénierie linguistique se met ainsi au service de la “fouille de textes” (texte mining). Ce qui
constitue le plus grand changement pour les sciences du langage, c’est l’automatisation des données qui introduit
un changement radical dans les pratiques des linguistes. C’est pourquoi ce qu’on appelle actuellement «
linguistique de corpus », ou plutôt, « linguistiques de corpus » (au pluriel) recouvre des champs extrêmement
variés des sciences du langage (Habert et al. 1997).

Les approches symboliques laissent souvent la place à des méthodes statistiques.

➔ Apprentissage automatique : ces méthodes permettent de traiter les problèmes liés à la langue « réelle
». Ces méthodes apprennent à partir d’exemples de grandes quantités de données textuelles, enrichie
avec information morphosyntaxique et sémantique.

Contrairement aux approches symboliques, les approches statistiques ont bonne couverture (plus on a de
données, mieux ça marche) mais il est très difficile de disposer de bons corpus annotés.

Chronologie synthétique :
Partie pratique

Le programme Eliza fonctionne à partir d’Expressions régulières (ER)

Expressions régulières : façon simple de caractériser un ensemble de chaînes de caractères de façon compacte.
Utiles pour trouver des informations simples, et les remplacer, par ex.
Ex : trouver tous les montants d’argents, toutes les abréviations,…

Eliza est un exemple de chaine de substitution par des ER. Elle prend la phrase de l’interlocuteur et la modifie pour
construire sa réponse :

Le programme cherche dans l’input la présence de certains mots, et les transforme dans l’output, notamment
pour les marques de 1ère personne :
- My > YOUR
- I’m > YOU ARE

Et une fois faites ces substitutions, si le programme retrouve certains mots-clés, tels que depressed ou sad, le
programme répond : I am sorry…

Les mots clés sont associés à un rang, les mots spécifiques étant mieux classés et les mots plus généraux moins
bien classés. Si le programme se trouve face à une phrase de l’input pour laquelle il peut appliquer plus d’une
règle, il donne priorité aux mots-clés mieux classés, plus spécifiques. Par ex. dans la phrase «I know everybody
laughed at me » le programme trouve « I » et « everybody ». C’est ce dernier qui est mieux classé, et qui détermine
la réponse :
A: «I know everybody laughed at me »
Eliza : WHO IN PARTICULAR ARE YOU THINKING OF?

Si aucun mot-clé ne correspond, ELIZA choisit une réponse sans engagement comme « PLEASE
GO ON”, “THAT’S VERY INTERESTING”, or “I SEE”.
THEME 3 COMPOSANTES DU TAL

Le TAL est la composante langagière de l’intelligence artificielle. Le langage est d’ailleurs au centre de la question
philosophique « est-ce que les machines ont la capacité de penser ? », puisque le test du Turing est basé sur une
conversation : si une machine peut passer par un humain lors d’un dialogue avec une personne, alors on n’a aucune
raison pour affirmer que ce n’est pas un humain ; de la même façon que, à priori, en parlant avec un autre être
humain on n’a aucune preuve de sa capacité interne de penser, si ce n’est qu’à travers le langage.

Pour pouvoir atteindre ce niveau de performance linguistique, le but du TAL est la modélisation informatique de la
capacité du langage, à partir de la manipulation (traitement) de données linguistiques à l’aide de certains
algorithmes. Pour bien comprendre le fonctionnement du TAL, il est nécessaire d’aborder plusieurs
composantes théoriques et méthodologiques : les niveaux de langue qui sont l’objet du TAL, les approches
méthodologiques principales de la discipline, les ressources et outils nécessaires pour le TAL, et quelques
applications typiques. Dans les leçons suivantes on développera en plus de détail certaines des composantes qui
ne seront que mentionnées ici pour offrir une vision globale de la discipline.

Niveaux de langue

Pour qu’une machine puisse performer des tâches linguistiques (traduire, communiquer avec un humain, faire
résumé), on doit programmer un système qui fonctionne à tous les niveaux de langue, aussi bien pour la
compréhension que pour la génération de messages:
- pour les tâches de compréhension, l’input est un séquence linguistique (écrite ou orale) et la machine doit
déterminer le sens. L’output est un message avec une intention.
- pour les tâches de génération, on part d’une intention qu’on veut communiquer et l’output sera une séquence
linguistique (écrite ou orale), en passant par tous les niveaux de langue.

Pragmatique
Sémantique
Syntaxe
compréhension Morphologie génération
Phonologie
Phonétique

La phonétique et la phonologie sont traitées par un système différent : la reconnaissance vocale, dont l’output est
une transcription du message reçu.
Le reste est géré par un système de compréhension du langage naturel, l'entrée est un texte et la sortie est une
réponse à une question, ou un texte traduit, un résumé, une réponse au dialogue, une action...
Ces deux systèmes sont combinés dans un pipeline (ou chaîne de traitement): la sortie du premier système (la
transcription) est utilisée comme entrée pour le suivant.

Pour essayer de reproduire un système complet de traitement du langage à tous les niveaux, une approche possible
consiste à tenter de reproduire une architecture de ce genre, en traduisant les “fonctions” en programmes qui
s’enchaînent. C’est l’approche adoptée par le TAL pendant ses premières années : on dit que c’est une approche
symbolique, ou basé sur des règles.

Approches symboliques : (approche à base de règles) « rule-based system »

Dans ce type de systèmes, les programmeurs écrivent une définition pour chaque mot et chaque règle syntaxique.
Ces approches sont issues du rationalisme : on défend que nos connaissances sur la langue sont innées, et qu’on
doit pouvoir les énumérer pour donner à la machine la capacité de les utiliser. Noam Chomsky a été le plus célèbre
représentant de cette approche.

Ces systèmes sont évidemment très limités, car on ne peut inclure qu’un certain nombre de mots et de règles
syntaxiques. Concrètement, on se retrouve face aux problèmes suivants :
- Les mots n’appartiennent souvent qu’à un domaine concret, car le nombre de règles dont on a besoin est
très large
- Le sens des mots est très difficile à définir à partir de règles.
- Les règles écrites pour la grammaire ne fonctionnent pas très bien lorsque les problèmes (grammaticaux)
se compliquent, ou lorsqu’il n’y a pas de consensus sur la grammaticalité (souvent)
- Le langage humain est très ambigu. Une seule phrase peut avoir plusieurs interprétations. Désambigüiser
les énoncés ne pose en général pas de problèmes pour les humains, mais c’est très difficile à faire pour
une machine.
o Ambigüité syntaxique
Our company is training workers

o Ambigüité lexicale : usage non litéral du langage, comme les métaphores :


o Notre pays regorge de talents et de compétences (chercheurs, entreprises, etc.).
o L'Espagne semble voir le bout du tunnel
Une approche à base de règles devrait couvrir aussi les usages non-litéraux, ce qui serait une tâche gigantesque.
- Parler une langue requiert une quantité énorme de connaissances du monde, il est très complexe de créer
des bases de données contenant assez de connaissances de base sur le monde.
- Autres sources de difficultés : Variation diachronique (Changement de sens, création de mots…),
Géographique (différents termes selon l’origine des utilisateurs), Stylistique (mots différents selon les
registres)

De nos jours, c’est démontré que cette approche est limitée et peu flexible pour être utile. C’est limitations ont
mené à l’adoption d’approches radicalement différentes, les approches statistiques, qui sont dominantes de nos
jours.

Approches statistiques

Les approches statistiques utilisent une quantité massive de textes pour effectuer les tâches de compréhension et
la génération du langage.
La connaissance sur les langues est obtenue de façon empirique ( « You shall know a word by the company it
keeps » Firth 1957). On va obtenir les propriétés de mots en observant leur contexte :
- Les définitions des mots sont basées sur leur utilisation : on définit un mot en observant tous les contextes
dans lesquels il apparaît, dans d'énormes quantités de textes (par ex. pomme et banane apparaîtront
dans des contextes similaires entre eux, mais très différents des contextes de gsm et ordinateur).
- Les approches statistiques permettent d’attaquer naturellement l’ambigüité, à partir d’exemples réels, le
modèle peut décider quelle est l’interprétation la plus probable selon le contexte.

Ces approches ont été dominantes presque jusqu’à nos jours et ont été utilisées pour toutes les applications du
TAL.
Quels sont les éléments nécessaires pour cette approche ?

- Les ressources linguistiques sont les données brutes indispensables pour construire, améliorer et évaluer
les outils de traitement du langage naturel. Les ressources linguistiques peuvent prendre différentes
formes et se présenter sous différentes formes, notamment des corpus écrits ou parlés, des grammaires
ou des bases de données terminologiques.
o Ressources primaires : sources textuelles brutes
o Ressources secondaires : données prétraitées et annotées avec des informations
supplémentaires telles que des descriptions linguistiques des différents niveaux. Cela veut dire
que cette technique fonctionne à partir de certaines caractéristiques spécifiques qui sont
définies.
On considère aussi que les outils linguistiques (vid infra) utilisés pour annoter les corpus brutes sont des
ressources linguistiques.

- Des algorithmes d'apprentissage automatique (machine learning), basés sur des principes d'intelligence
artificielle, analysent et modélisent ces ressources linguistiques.

- Les modèles linguistiques issus du processus d'apprentissage automatique : Ces approches peuvent
générer des modèles de langage, c’est-à-dire, un système qui observe les statistiques des mots dans
d'énormes quantités de textes et apprend à produire un texte réaliste basé sur ces statistiques.

Ils peuvent être utilisés pour une grande variété d'applications, dont certaines sont encore émergentes.
Plus les ressources et les modèles sont importants, plus leurs applications sont englobantes et
génériques. Le potentiel de ces modèles est vaste et encore relativement inexploré.

Exemples des outils linguistiques par niveau de langue

Pour que les ressources linguistiques brutes (les corpus) soient utiles au TAL lors de l’apprentissage automatique,
la machine doit pouvoir « comprendre » ces textes. Cette compréhension consiste en la capacité de transformer
une phrase en langage naturel en une représentation conceptuelle de son sens. Les étapes de ce processus
comprennent des analyses à tous les niveaux de la langue : l'analyse morphologique, la détection de groupes et
de syntagmes, l'analyse syntaxique ou de dépendance, ou l'analyse sémantique (désambiguïsation du sens,
désambiguïsation des rôles sémantiques, etc.)
NB : Du point de vue de la préparation des ressources primaires, ces programmes sont considérés des « outils »
car ils sont nécessaires pour pouvoir préparer les sources primaires. Par contre, ils peuvent être considérés aussi
tout simplement des « tâches » du TAL, lorsque leur application est un but en soi-même.

Morphologie Syntaxe Sémantique Pragmatique/Discours

Extraction des
Etiquetage
Segmentation unités de sens Structure de
morpho-
morphologique simples et textes
syntaxique
complexes

Analyse Analyse Recherche de


Anaphore
morphologique syntaxique définitions

Détections de
Chunking
relations
À ce sujet, il est important de souligner que le TAL n’est pas développé au même point pour toutes les langues,
d’ailleurs, certaines langues ne possèdent pas les ressources nécessaires pour certaines tâches. Entre autres,
l’arabe.

État de l’art
Récemment (depuis 2020), un sous-type concret de Machine learning (ML), l’apprentissage profond (Deep
learning, DL) est devenu l’approche dominante et a motivé des avances impressionnantes dans le domaine du TAL.
L’apprentissage profond utilise des techniques différentes aux techniques traditionnelles du Machine learning. Le
deep learning utilise des réseaux de neurones artificiels (artificial neural networks) qui imitent le fonctionnement
du cerveau, en différentes couches ou niveaux. A différence du ML traditionnel, le DL n’a pas besoin des pré-
traitements proportionnés par les humains : les algorithmes d'apprentissage profond peuvent déterminer la
plupart des caractéristiques qui sont importantes dans les données textuelles qu’on lui présente. Par contre, le DL
a besoin de beaucoup plus de données d’entrainement.

Quelques applications du TAL

- Classification de textes: utilisée pour


o Filtres de spam
o Identification de langue
o Sentiment analysis

- Reconnaissance d’entités nommées: (NER) premier pas pour Extraction d’information

- Traduction automatique

- Analyse de sentiments

- Aides à l’édition : ortographe, grammaire

- Question-réponses

- Génération de texte

- Résumé automatique de texte


Exercice ChatGPT / Copilot / Claude : résolution des ambigüités
• Choisissez une phrase ambigüe et testez la compréhension de ChatGPT.
• Utilisez des phrases avec ambigüité syntaxique, avec langage non littéral et avec un néologisme.
• Écrivez un prompt très simple pour obtenir le sens de la phrase.
• Ex. Que veut dire « …. » ?
• Après la réponse, écrivez un autre prompt pour que ChatGPT vous explique comment il arrive à
cette interprétation
• Maintenant, testez la traduction automatique avec la même phrase.

Pour savoir plus :

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge,
MA: May 1999.
THÈME 4 - Ressources linguistiques: Corpus

Définition
Corpus (Sinclair, 1996, 2005)
• une collection finie de textes d'une langue donnée sélectionnés et disposés selon des critères afin d'être
utilisés dans un but précis. Par exemple, des échantillons de langue, des traductions, documentation
lexicale, etc.
• “A corpus is a collection of pieces of language text in electronic form, selected according to external
criteria to represent, as far as possible, a language or language variety as a source of data for linguistic
research.”

Dans le recueil d’un corpus, on cherche à respecter les critères suivants :


➢ Base de données représentative d’une langue (le corpus sera aussi grand que possible, quelques millions
de mots)
➢ Échantillons diversifiés (éventuellement de taille similaire)
➢ Origine repérée (on garde les coordonnées des documents primaires)
➢ Divisé en documents, divisés en paragraphes, phrases, mots et tokens

Les corpus sont souvent enrichis avec des informations variées (aspects du texte, des mots, des phrases…)
(Corpus annoté VS corpus brut)

Objectifs d’un corpus :

Les corpus sont utilisés dans plusieurs disciplines linguistiques et pour plusieurs objectifs. Entre autres :
• Linguistique de corpus : Analyser la langue telle qu’elle est utilisée (combinaisons linguistiques typiques,
distributions de phénomènes linguistiques selon le type de texte, …)
• Lexicographie : construire un dictionnaire avec des exemples de corpus
• TAL : Servir de base aux tâches d’apprentissage automatique

Types de corpus
On peut classifier les corpus selon leurs caractéristiques à différents niveaux :
o Selon le type de données
o Corpus oraux
o Corpus écrits
o Selon le niveau de représentativité :
o Corpus de textes complets
▪ Corpus de référence : représente toutes les variétés d’une langue (registre, types de
discours, vocabulaire, thématiques, etc.) de façon équilibrée
« Un corpus de référence est conçu pour fournir une information en profondeur sur
une langue. Il vise à être suffisamment étendu pour représenter toutes les variétés
pertinentes du langage et son vocabulaire caractéristique, de manière à pouvoir servir
de base à des grammaires, des dictionnaires et d'autres usuels fiables » (Sinclair 1996)
par ex. Brown, LOB (Lancaster-Oslo/Bergen Corpus (LOB) et BNC (British National
Corpus), qui sont tous accessibles dans SketchEngine.
▪ Corpus de spécialité : « sont limités à une situation de communication, ou à un
domaine. Parmi ces corpus, on trouve les ensembles relevant de sous-langages que l'on
trouve dans les domaines scientifiques et techniques »
o Corpus d’échantillons : fragments plus ou moins longs
o Conception de la structure :
o Chronologie : synchronique, diachronique
o Moyen de publication : livres, internet, revues…
o Genre : essai, narration, poésie et théâtre
o Thème : gastronomie, arts, technologie, ...
o Caractéristiques sociales des auteurs…
o Selon les langues du corpus
o Monolingues
o Multilingues : le corpus contient des textes dans deux langues ou plus
• Comparables : on peut comparer leurs contenus, mais ce n’est pas une traduction
exacte
• Ex.: manuels d’instructions, articles de recherche, Wikipédia…
• Alignés ou parallèles (bi-textes): Textes qui sont les traductions l’un de l’autre.
• Les phrases dans les deux langues sont alignées (se correspondent)
• Le point de départ est la réutilisation des traductions existantes faites par des
traducteurs humains

Exemple de corpus comparables : articles de Wikipédia : les contenus sont similaires, mais ne sont pas de
traductions :
1. Français

2. Anglais

Exemple de corpus aligné : DGT-Translation memory parallel dans Sketch Engine :


Français-Anglais
L’alignement se fait de façon automatique, en divisant le texte en séquences et en les mettant en relation
avec leurs équivalents dans le texte traduit. Ceci est souvent plus facile pour les grandes sections, même pour les
paragraphes d’un document, que pour le niveau des phrases. On consultant des corpus parallèles, on peut
observer les difficultés dans la tâche d’alignement :
- Manque de correspondance : Une phrase n’est pas toujours traduite par une seule phrase
- Les deux langues ne suivent pas le même ordre, ou on trouve des décalages entre les deux versions
- Un mot dans un langue peut correspondre à une expression avec plusieurs mots

Cela dit, les corpus alignés sont très utiles pour la traduction, notamment, ils permettent d’observer les
contextes d’utilisation d’un mot que l’on veut utiliser pour vérifier son adéquation, ils permettent de plus de
consulter la traduction homologué de certaines expressions qui ne se traduisent pas mot-à-mot (voir
Linguee.com), et de repérer des néologismes et leur traduction.
« Les textes alignés donnent accès à « la bonne expression » que le traducteur ne trouvera pas forcément
dans un dictionnaire ou à des solutions auxquelles il n’avait pas pensé mais qui le satisfont et qui lui permettent
de varier son expression. »
De plus, ils peuvent servir comme base pour les mémoires de traduction, de dictionnaires bilingues de
spécialité, et sont aussi la base d’apprentissage pour la traduction automatique.

Utilité des corpus pour le TAL

Les possibilités d’exploitation d’un corpus pour le TAL à partir de l’apprentissage automatique dépendent de
l’annotation, c’est-à-dire de l’étiquetage explicite d’information autrement implicite de nature différente, telle
que :
o Aspects bibliographiques du texte [métadonnées] : auteur, titre, année de publication, thème,
genre…
o Aspects structurels du texte : typographie, divisions, paragraphes, citations, titres, etc.
o Caractérisation des unités lexicales : lexique general, termes étrangers, noms propres,
abreviations, …]
o Relations syntaxiques

L’annotation pour certaines de ces informations peut se faire de façon automatique.

Propriétés des données textuelles

Tous les corpus ont certaines propriétés statistiques, ce n’est jamais une combinaison arbitraire de mots, ce
qui démontre qu’il y a en fait une structure. Ces propriétés sont facilement observables :
o Nombre total de mots
o Fréquence des mots
o mots rares (1, 2… 100 fois) :
o mots fréquents (3000 fois) : proviennent surtout des classes syntaxiques de mots fermées (=on
n’ajoute jamais de mots neufs à ces classes).
▪ Déterminants, pronoms, conjonctions, prépositions
o combien de fois apparait chaque fréquence (fréquence de la fréquence des mots, on peut leur
attribuer un rang) : il y a normalement beaucoup de mots différents avec des fréquences très
basses, et très peu de mots avec des fréquences très élevés (loi de Zipf)
NB : “Because corpora don’t contain the same number of words, we can’t use a simple
frequency count to see in which corpus a word is more common. For example, very occurs in
the spoken portion of the Corpus of Contemporary American English (COCA) 195,000 times and
in the written portion of the COCA 198,000 times; from looking only at the simple frequency
count, we might conclude that very is used only slightly more in written language. But, because
the written portion of the COCA is much larger than the spoken portion, we can only get an
accurate comparison by calculating how many times very occurs per million words. This is the
normed count. » Cf. Bennett
o Fréquence de la fréquence des mots : combien de mots différents (types) apparaissent dans un texte? La
distribution des mots dans les textes est souvent très déséquilibré : il y a des mots qui se répètent
souvent, mais d’autres qui apparaissent très rarement, même une seule fois par texte (hapax legomena,
en grec, « lu une seule fois » ).
o Dispersion «the degree to which occurrences of a word are distributed throughout a corpus evenly or
unevenly/clumpily” (Gries)
o Even dispersion: a word appears evenly throughout a corpus
o Uneven dispersion: a word only appears in specific parts of a corpus
- Dispersion : "le degré auquel les occurrences d'un mot sont distribuées dans un corpus de manière
égale ou inégale/agglutiné" (Gries).
o Dispersion régulière : un mot apparaît uniformément dans un corpus.
o Dispersion inégale : un mot n'apparaît que dans certaines parties du corpus.

o Collocations : combinaison de mots qui apparaissent ensemble plus souvent que par hasard. Phrase
courte composée de quelques mots (2 ou plus) dont la combinaison a un sens propre, qui n’est pas
simplement la somme des mots qui la composent.
o Pourraient être incluses dans un dictionnaire
o Ont une traduction propre, pas littérale : make up > maquillage
o Facilement observables statistiquement : sélection des paires les plus fréquents (nom-nom,
nom-adjetif) (cf. Manning Schütz)
Exemples des collocations les plus fréquentes de verbes avec les noms « paix » et « climat »
o Mots-clés : mots simples ou expressions multi-mot (multi-word expressions) qui apparaissent plus
fréquemment dans le corpus principal (focus corpus) que dans le discours général. Le discours général
est représenté par le corpus de référence. Cela donne une idée du vocabulaire typique qui caractérise un
corpus particulier.

Exemple : en bas, on compare un corpus thématique sur le TAL avec un corpus de référence général du Web.
On peut observer que les mots-clés simples et les expressions multi-mots de notre corpus sont des termes du TAL.
Cela veut dire que ces mots apparaissent plus souvent dans le corpus thématique que dans celui de référence.
Questions méthodologiques
Fiche du corpus
• Lors de la collecte d'un corpus, il est important de documenter l'origine des sources et la date de collecte
des documents, entre autres aspects.
Limitations d’usage et droits d’auteur
• Certains textes ont un copyright (livres, articles…)
• Textes sur Internet > normalement ok pour fins de recherche, mais besoin d’anonymiser si on va les faire
publiques

Concordanciers

Comme un corpus peut contenir des millions de mots, il est généralement impossible de l'examiner sans un outil
informatique puissant, à savoir un concordancier. C’est un moteur de recherche qui permet d'examiner un corpus
afin de visualiser les mots dans leur contexte et d'en extraire des informations sur la fréquence, les collocations
ou la grammaire. Certains concordanciers peuvent être installés sur un ordinateur, tandis que d'autres sont en
ligne.
• Exemples:
• https://www.english-corpora.org/ (Mark Davies)
• https://cfpr.huma-num.fr/index.php?page=concordancier
• https://www.corpusdelespanol.org/

Les concordanciers permettent de vérifier l'usage réel, plutôt que de se fier à l’intuition.

Activité Sketch Engine – Comparaison de corpus - pour dossier


THÈME 5 — Prétraitements des corpus par niveaux de langue : Morphologie

L’analyse du langage doit pouvoir déterminer n’importe quelle structure dans une séquence de mots
(morphologique, syntaxique, sémantique, textuelle).

Prétraitements

Avant d’appliquer une méthode statistique, les corpus bruts doivent subir une série de prétraitements : c’est à dire,
des transformations du texte brut (suite de caractères) pour lui donner une forme/structure. On parle aussi de
nettoyage et de normalisation.

Nettoyer le corpus signifie ignorer certains caractères (ponctuation, espaces,…) et le normaliser implique
regrouper les variantes d’un même élément sous une seule forme standardisée (par ex. En éliminant les variations
dans l’orthographe).

Si on observe un exemple de notre corpus TAL, on déduit que certains éléments ne sont sûrement pas nécessaires
pour certaines analyses (les chiffres, caractères {}, emails @ univ-ubs.fr… ) :

« Quand le TAL robuste s'attaque au langage parlé : analyse incrémentale pour la compréhension de la parole
spontanée Antoine Jean-Yves, Goulian Jérôme, Villaneau Jeanne Laboratoire VALORIA – Université de Bretagne Sud
Rue Yves Mainguy, F-56000 Vannes – Mel : {Nom. Prenom} @ univ-ubs.fr Résumé – Abstract Dans cet article, nous
discutons de l'application au langage parlé des techniques d'analyse syntaxique robuste développées pour l'écrit…
» [exemple de texte brut du corpus TAL]

Très souvent on applique des algorithmes qui vont filtrer ces éléments.
Dans des types de textes concrets comme les textes des réseaux sociaux cela pose des problèmes particuliers,
comme le traitement des émojis, des hashtags ou des mentions. Selon le but de notre tâche de TAL, on les gardera
ou on les filtrera. Dans l’exemple suivant, si on filtre les émojis, on perd complètement le sens du tweet :

Du point de vue pratique, pour nettoyer les corpus bruts on applique des règles de transformation sous forme
d’algorithmes de base. On identifie (de façon automatique) des chaines de caractères, et on les transforme dans
le format désiré. Pour cela on utilise les expressions régulières.

Expressions régulières (regex)


Façon simple de caractériser un ensemble de chaînes de caractères de façon compacte. Utiles pour trouver des
informations simples, et les remplacer, par ex. trouver tous les montants d’argents, toutes les abréviations, tous
les mots qui commencent une certaine suite de caractères…

L’expression régulière la plus simple est une seule chaîne de caractères (case respectée)
/woodchucks/
/WOODCHUCKS/

Opérations utiles des expressions régulières :


- Disjonction (OU) : pour trouver une correspondance de plus d’un caractère, entre crochets (caractères
individuels) ou avec | (chaine de caractères) :
/[wW]oodchuck/ trouve ce terme avec ou sans majuscule initiale
/1-10/ trouve un chiffre de 1 à 10
/cat|dog/ trouve les mots cat ou dog
- Négation (ET NON) : pour trouver une correspondance sans les caractères indiqués, précédés par ^
[^A-Z] pas de majuscule
- Présence optionnelle : suivi de ?
/woodchucks?/ ce terme avec ou sans s finale
- Répétition : pour exprimer un nombre arbitraire de répétitions d’un caractère, suivis de * (répété 0 ou
plus) ou + (répété au moins une fois)
/hallo+/ hallo halloo hallooooooo
Le programme Eliza est un exemple de chaine de substitution par des ER. Elle prend la phrase de l’interlocuteur et
la modifie pour construire sa réponse.

Le niveau morphologique

Avant de présenter les prétraitements au niveau morphologique, il faut réfléchir sur une question essentielle :
qu’est ce qu’un mot ? Les définitions existantes sont souvent problématiques : « un mot est compris entre deux
séparateurs » , « un mot est la plus petite unité de sens possible »…

Du point de vue linguistique, le morphème est l’unité de base pour la construction d’un mot. Les morphèmes
peuvent être lexicaux (liste ouverte) ou grammaticaux (fermée), mais en TAL on considère aussi la catégorie des
entités nommées (liste ouverte). Typiquement, un mot ou unité lexicale se compose de morphèmes : un radical et
des affixes (préfixe, suffixe, circonfixe, infixe), qui peuvent se combiner selon les règles de composition et affixation :
dérivation / flexion.

Une unité lexicale présente certaines caractéristiques que l’on peut définir : elle a une forme lemmatisée, elle
appartient à une catégorie grammaticale, et présente des informations de flexion.

La conceptualisation de ce que l’on entend par « mot » aura des conséquences sur la façon dont on applique les
prétraitements au niveau morphologique.

Listes des prétraitements

Segmentation du texte en tokens (Tokenization -> Tokenizer)


Couper chaque document (liste de caractères) en une liste d’occurrences (tokens). Selon les critères, chaque unité
sera un mot ou un non-mot. Mais cette opération apparemment simple pose plusieurs problèmes car il faut
décider comment séparer les tokens de façon automatique :
- À l’aide des espaces :
o On aurait des mots avec des signes de ponctuation.
o Certaines langues comme le japonais ne séparent pas avec des espaces, ce qui complique la
tokenisation.
- Il faut traiter la ponctuation comme un mot, avec des exceptions : Ph.D., google.com, les émoticons :-D
ou les hashtags #metoo,…
- On doit reconvertir les clitiques : s’attaque > se + attaque
- En ce qui concerne les collocations (expressions multi-mots, locutions…), on voudra normalement
qu’elles soient traitées comme un seul mot (Bretagne Sud)

Exercice : Séparez en tokens :


Au contraire, cet article s’intéresse à leur application au langage parlé et plus précisément à la compréhension de
parole en situation de dialogue homme-machine finalisé.

Pour les textes oraux, il faudra prendre des décisions sur les marqueurs de disfluence tels que l’interjection euh…
Pour des outils de transcription, il est probablement mieux de les éliminer, mais pour la reconnaissance de la
parole ils sont normalement maintenus car ils indiquent que le locuteur va reformuler, et donc elles aident à
prédire le mot suivant.

Ex. du corpus CHILDES


Batman ! tu connais ça ? . oui . tu l'as déjà vu ? regarde la voiture il va y a là du feu regarde il a y a du feu partout
là . mais c'est pas euh c'est pas trop violent ça pour toi ça fait pas peur ? non . non ? ah bon . regarde ça me fait
pas peur . ben moi ça me fait peur hein .

Suppression des mots vides (Stop word-remover)


Ce sont les mots très courants ("et", "à", "le"... en français) qui n'apportent pas toujours de valeur informative
pour la compréhension du "sens" d'un document et corpus, ou pour certaines tâches (analyse de keywords). (NB
: Mais cela n’est pas toujours vrai, car dans certains contextes ces mots contribuent de façon cruciale au sens de
la phrase.). Voilà un exemple de programme qui supprime les mots vides :

Lemmatisation
C’est la tâche qui consiste à déterminer que deux mots ont la même racine. Pour cela, on représente les mots
dans leur forme canonique, comme dans l’entrée de dictionnaire, par ex. l’infinitif des verbes, masculin singulier
des adjectifs, des noms. Pour chaque mot, on aura une forme canonique et des formes fléchies :
- Lemme : Ensemble de formes lexicales ayant le même radical, la même catégorie et le même sens du
mot (cf. Jurafsky). Par exemple : « manger »
- Forme d’un mot : la forme complète fléchie ou dérivée du mot (cf. idem) « mangeant, mangeait, mange…
»

La lemmatisation est nécessaire pour les langues complexes du point de vue morphologique (comme le français
ou l’espagnol), mais pour l’anglais, la forme des mots est souvent suffisante pour la plupart des tâches du TAL.

Racinisation (stemming)
Cela consiste à normaliser les variantes morphologiques (singulier = pluriel, temps verbaux) de tous les tokens, en
retirant les affixes. Le résultat ne doit pas forcément être un mot existant (unbuckles > unbuckl)

Problèmes :
- On parle de over-stemming lorsque deux mots ayant des lemmes différents sont ramenés à la même
racine. C'est ce qu'on appelle un faux positif.
o Wander > wand
- On parle de under-stemming lorsque deux mots qui devraient avoir la même racine ne le sont pas. Il s'agit
également d'un faux négatif.
o Alumnus > alumnu / alumni > alumni

Dans la pratique, on applique ces prétraitements avant d’élaborer les listes de vocabulaires d’un corpus, comme
les listes des mots les plus fréquents, des lemmes les plus fréquents, etc.

Différence types et tokens

Types: nombre de mots différents dans un corpus VS Tokens : nombre total de mots filés
« Types are the number of distinct words in a corpus […]. Tokens are the total number N of running words. If we
ignore punctuation, the following Brown sentence has 16 tokens and 14 types:
They picnicked by the pool, then lay back on the grass and looked at the stars. […]
Another measure of the number of words in the language is the number of lemmas instead of wordform types. »
(Jurafsky and Martin p.13)

Exercice :
1. Dans la phrase suivante :
- Compter le nombre de mots (tokens) avec et sans ponctuation
- Compter les types de mots
- Faire une liste des lemmes

Au contraire, cet article s'intéresse à leur application au langage parlé et plus précisément à la compréhension de
parole en situation de dialogue homme-machine finalisé. 27 / 30

à+le contraire, cet article se intéresse à leur application à+le langage parlé et plus précisément à la compréhension
de parole en situation de dialogue homme-machine finalisé 23

à
le
contraire
ce
article
se
intéresser
leur
application
langage
parler
et
plus
précisément
la
compréhension
parole
en
situation
dialogue
homme
machine
finaliser

Exercice 2 :
Dans la nuit de lundi à mardi, une attaque « massive » de dizaines de drones ukrainiens a visé Moscou, a indiqué
le maire de la capitale.
Cette phrase compte 25 mots et 20 types.

Sketch Engine –Exploration de corpus (Continuation)

Page « corpus info »


Choisissez un corpus et dans la page « Corpus info », explorez :
- les comptages (chiffres totaux des tokens du corpus). Notez la différence entre « tokens » (mots et non-
mots ensemble ; les non-mots sont ceux qui ne commence pas par une lettre) et seulement les «mots »
(c’est-à-dire les tokens qui sont des mots, sans compter les non-mots).
- La taille des lexiques (comptages des types de mots) : « word » (tous les types, dont les types de non-
mots) et « lemma » (lemmes proprement dits)
Fonction « Liste de mots »
A partir du tableau de bord, vous pouvez accéder aux listes de mots du corpus choisi. Cette fonction rend des listes
des mots du corpus par ordre décroissant de fréquence. Les listes sont créées au niveau des tokens, c’est pourquoi
le corpus doit être tokénisé (SE lance ce prétraitement de façon automatique pour tous les corpus). La fonction
“liste de mots” filtre automatiquement les non-mots (tout ce qui ne commence pas par une lettre.)

SE « A token is the smallest unit that a corpus consists of. A token normally refers to:
• a word form: going, trees, Mary, twenty-five…
• punctuation: comma, dot, question mark, quotes…
• digit: 50,000…
• abbreviations, product names: 3M, i600, XP, FB…
• anything else between spaces

There are two types of tokens: words and nonwords. Corpora contain more tokens than words. Spaces are not
tokens. A text is divided into tokens by a tool called a tokenizer which is often specific for each language.”

La fonction basique vous permet de sélectionner si vous voulez une liste de mots ou des lemmes, et des catégories
grammaticales spécifiques, et de filtrer selon si le mot commence, finit ou contient certains caractères.

La fonction avancée présente plus d’options aussi bien pour le type de mots que de lemmes, ainsi que des
possibilités avancées pour les filtres de caractères, notamment en incluant les expressions régulières ou une liste
déterminée de mots.

Vous pouvez aussi : exclure de mots, inclure des non-mots, distinguer la case, préciser les fréquences minimales
et maximales, choisir des options pour l’affichage (selon certains attributs) et calculer la liste pour un sous-corpus.

Les résultats sont présentées par ordre décroissant de fréquence. Sketch Engine propose plusieurs mesures de
fréquence (Voir options d’affichage ) :
- fréquence absolue : nombre total de fois que l’élément est trouvé dans le corpus
- fréquence par million : fréquence relative, utile pour comparer des fréquences dans des corpus différents
- ARF (Average reduced frequency) et ALDF (Average Logarithmic Distance Frequency): fréquences
modifiées dont le calcul permet d'éviter que les résultats ne soient excessivement influencés par une
forte concentration d'un élément dans une ou plusieurs petites parties du corpus.
- On peut aussi calculer combien de documents présentent un mot en termes absolus (« comptage de
documents ») ou relatifs (« Relative DOCF », pourcentage des documents).
THÈME 6 — Prétraitements des corpus par niveaux de langue : Lexique

A partir de maintenant, on expliquera des prétraitements qui ne sont pas toujours appliqués pour toutes les tâches
du TAL. Ce sont des traitements du texte qui visent à l’enrichir avec des informations qui ne sont pas dans le texte
(et pas tellement à le nettoyer ou à le normaliser, comme les prétraitements expliqués auparavant).

Le niveau lexical

Au niveau du lexique, chaque unité peut être classifiée selon la catégorie grammaticale (ou parties du discours, en
TAL) à laquelle elle appartient. Certaines catégories remontent à l’Antiquité grecque, lorsque Denys le Thrace, aussi
appelé « le grammairien », a déterminé les parties du discours dont la dénomination persiste jusqu’à nos jours :
nom, verbe, pronom, préposition, adverbe, conjonction, participe et article.
Les catégories peuvent appartenir à une classe fermée (dont les membres sont fixes, comme pour les mots
grammaticaux tels que les prépositions ou les conjonctions) ou ouverte (dont de nouveaux membres sont créés
en permanence, comme les noms ou les verbes). La liste des « dépendances universelles » de Nivre et al. (voir
tableau) inclut des catégories applicables en théorie à tous les types de langues. Par contre, il existe aussi des listes
plus spécifiques qui s’appliquent à des langues particulières et qui sont souvent utilisées pour l’étiquetage de
corpus dans des langues concrètes (ex. la liste des catégories pour l’anglais du Penn Treebank).

Pour le TAL, il est nécessaire aussi de considérer la catégorie des entités nommées, qui correspond au sens général
aux noms propres, et pour le domaines biomédical aux termes de genre naturel tels que les espèces et les
substances biologiques (tels que les noms de médicamentes, de maladies ou de gènes) . C’est une catégorie
spéciale puisqu’elle s’applique souvent à des expressions de plus d’un mot tels que « New York city » ou « Brussels
Airport Zaventem ». Les entités nommées sont principalement des noms de personne, de lieu et d’organisation.

Ces informations catégorielles sont l’objet d’annotations à partir de programmes qui étiquettent les corpus de
façon automatique.

Listes des prétraitements

Étiquetages en catégories (POS tagging: part-of-speech tagging)


Le POS Tagger est un logiciel qui lit le texte et attribue à chaque mot les catégories grammaticales appropriées. Le
principal défi pour le POS tagger est l’ambigüité : identifier la meilleure étiquette pour un mot donné dans le cas
où le mot aurait plusieurs étiquettes possibles. Ceci est le cas de plus de la moitié des tokens dans un texte
quelconque, car 55 à 67 % des tokens d'un texte sont ambigus (Jurafsky and Martin, p. 152). Cela dit, la précision
de ces programmes est très élevée (97% des étiquettes sont correctes, ce qui est aussi le pourcentage atteint pour
les annotateurs humains).

Exemple d’ambigüité catégorielle :


- Rapport du Giec : les outils pour éviter la catastrophe climatique sont là, manque [Verb] la volonté
politique (Le Soir)
- Sécheresse : le manque [Noun] de pluie est réel en Belgique (Le Soir)

Reconnaissance d’entités nommées (NER, named entityrecognition)


La tâche de la reconnaissance des entités nommées (NER) consiste à trouver des parties de texte qui constituent
des noms propres et à les étiqueter selon l'entité. Quatre étiquettes d'entité sont les plus courantes : PER
(personne), LOC (lieu), ORG (organisation) ou GPE (entité géopolitique). Toutefois, le terme d'entité nommée est
souvent étendu à des éléments qui ne sont pas des entités en tant que telles, notamment TIME (les dates, les
heures et d'autres types d'expressions temporelles), et MONEY (prix et devise), et autres expressions numériques
telles que les pourcentages. De plus, selon la tache particulière, la classification peut contenir plus de niveaux et
chaque entité peut recevoir des étiquettes à plusieurs niveaux.

La difficulté de la reconnaissance d’entité nommée est non seulement l’attribution d’une étiquette correcte
(« Charles de Gaulle » peut être PER ou LOC), mais aussi la délimitation de l’extension de l’expression (où
commence et surtout où finit l’entité nommée).

Les techniques utilisées pour la NER sont :


- Symboliques : basée sur des règles écrites manuellement(par exemple, en utilisant des répertoires
géographiques, dictionnaires de noms propres…)
- Statistiques : basée sur des algorithmes d’apprentissage automatique (supervisées ou pas)
- Basées sur l’apprentissage profond

De nombreuses tâches de compréhension du langage naturelutilisent la NER (telles que la recherche


sémantique, lesprogrammes de questions-réponses, la traduction automatique…). La performance d’un modèle
de reconnaissance d’entités nommées dépend évidemment de la qualité des ressources disponibles, c’est à
dire des donnéesannotées. Souvent ces données sont publiées par leurs créateurs-trices pour qu’elles puissent
servir à d’autres spécialistes pour l’entrainement de modèles de TAL. De plus, on retrouve aussi des outils de NER
(entre autres) disponibles en ligne gratuitement, comme StanfordCoreNLP
(https://stanfordnlp.github.io/CoreNLP/).

Exercice :
1. En commençant par le début, annotez les catégories grammaticales de la première phrase du texte copié
en bas (extrait de Wikipédia).
2. Extrayez les entités nommées du texte et annotez-les.
Marie Haps, née Marie Julie Frauenberg au Luxembourg, à Diekirch, le 29 avril 1879 et morte le 14 mars 1939 à La
Panne en Belgique est une philanthrope belgo-luxembourgeoise qui œuvra toute sa vie pour l'accès à l'éducation
pour les jeunes filles. Elle fonde en 1919 l'École supérieure de jeunes filles qui, mixte depuis 1963, s'appelle
aujourd'hui l'Institut libre Marie Haps.

3. Il y a beaucoup de programmes en ligne que vous permettent de faire des analyses automatiques à
plusieurs niveaux de langue. Par exemple, CoreNLP(https://corenlp.run/) inclut un POS Tagger, NER, et
un parser pour plusieurs langues, dont le français. Copiez le texte précédent et appliquez les différentes
analyses.
4. Comparez avec vos analyses.

Sketch Engine applique ces traitements au niveau lexical pour tous ses corpus. Cela fait que, pour la plupart des
outils de la plateforme, la plateforme permet de restreindre la recherche selon les catégories grammaticales (part-
of-speech) (WordSketch, Thesaurus, Différence de profils lexicaux, Concordance, Liste de mots, Mots-clés).

Par exemple, pour l’outil Liste de mots, au lieu de créer une liste de tous les mots les plus fréquents, vous pouvez
filtrer par catégorie et créer une liste des adjectifs, adverbes, noms… les plus fréquents.

Vous pouvez consulter la liste complète des étiquettes utilisées pour le Français dans Sketch
Engine ici : https://www.sketchengine.eu/french-freeling-part-of-speech-tagset/
THÈME 7 — Prétraitements des corpus par niveaux de langue : Syntaxe

Dans le niveau de la syntaxe, l’analyse de la structure syntaxique aide à trouver le sens de la phrase. Les corpus
arborés (treebanks), collections de corpus analysés et annotéssyntaxiquement, constituent une ressource
essentielle pour le traitement du langage naturel dans n'importe quelle langue. L'analyse automatique des phrases
bénéficie directement des corpus annotés syntaxiquement. Actuellement, la plupart des analyseurs syntaxiques
de pointe utilisent des approches statistiques ou neuronales. Ces analyseurs syntaxiques utilisent les informations
syntaxiques annotées dans les corpus arborés pour entraîner les modèles d'analyse syntaxique.
Souvent l’ordre et la dépendance des mots dans un phrase aident à déterminer qui a fait quoi à qui (« le chat tue
la souris » « la souris tue le chat »), mais cela n’est pas le cas pour toutes les langues.

Le point sur les dénominations : Avec le terme « phrase », on se retrouve face au même problème qu’avec le terme
« mot », il est difficile à caractériser. Il y a d’autres unités constituées de plusieurs mots, mais plus petites qu’une
phrase :
- Chunks : les plus petites séquences de mots auxquelles on peut associer une catégorie (Elles ne peuvent
pas contenir un autre groupe de même nature : « l’arbre du jardin », 2 chunks)
- Termes : noms communs, entités nommées ou groupes nominaux éventuellement composés d’autres
groupes nominaux (« syndrome de Gilles de la Tourette »)
- Clauses : séquences de mots contenant au moins un sujet et un prédicat
- Proposition : idem
- Syntagmes : un mot ou une suite de mots consécutifs auquel on peut associer une catégorie syntaxique

Prétraitements

Il y a deux types de programmes utilisés pour prétraiter les textes et les enrichir du point de vue syntaxique :

L’analyseur syntaxique superficiel (chunker)


L'analyse syntaxique superficielle ou légère est l'analyse d'une phrase pour identifier ses constituants ou "groupes"
à un niveau superficiel, sans mettre l'accent sur la structure interne. Elle regroupe les mots, sur la base des
propriétés linguistiques (POS). Le chunker reçoit les résultats du POS tagger en input, et définit de morceaux de
phrases qui incluent les parties du discours. Afin de créer un chunker, on doit d'abord définir une grammaire
composée de règles qui indiquent comment les phrases doivent être découpées. Exemple : SN -> DT ADJ N = un
déterminant et un modificateur de nom (adjectif) sontassociés à un nom. Les "morceaux" doivent être minimes et
ne pas se chevaucher.
« Puis que les « chunks » définissent la structure syntaxique superficielle des phrases […] [ils] sont moins coûteux
et plus faciles à obtenir que leur structure en constituants complète. Pour certains textes non normés
(transcriptions de l’oral par exemple), ils représentent le degré d’analyse le plus poussé qu’on puisse
espérer. » (Tellier et al. 2012)

L’analyse syntaxique (parser)


L'analyse syntaxique est un processus qui consiste à prendre une phrase et à lui attribuer une structure appropriée
qui peut aider le système NLP à comprendre la relation entre les mots dans la phrase. Le processus d'analyse
syntaxique nécessite deux composants - l'analyseur (composant procédural/de traitement) et la grammaire
(composant déclaratif).
Types d'analyseurs :

- Analyseurs basés sur les constituants. Les programmes basés sur les constituants se concentrent sur la
structure hiérarchique d'une phrase. Les mots appartiennent à des catégories lexicales (nom/verbe, etc.)
et se regroupent selon des règles pour former des syntagmes (NP-groupe nominal /VP-groupe verbal,
etc.) qui, à leur tour, forment la phrase. Les règles de structure de phrase définissent l'ordre correct des
constituants dans la phrase.
Pour visualiser cette structure hiérarchique, on utilise habituellement une représentation arborescente.
Les constituants sont par la suite annotés selon leur fonctions.
- Analyseurs basés sur les dépendances. Certaines traditions s’en passent des arbres et analysent la syntaxe
par des relations de dépendances. Ces grammaires se concentrent sur les relations entre les mots. Il y a
principalement deux types de mots dans une phrase, le mot dépendant (enfant) et le mot parent (tête).La
relation dirigée (étiquette) est utilisée pour indiquer la relation entre le mot dépendant et le mot parent.

Ambigüités : Certaines phrases sont ambiguës, car elles peuvent avoir plusieurs interprétations possibles et donc
plusieurs représentations. Pour résoudre les ambigüités on a besoin de la sémantique, on identifie les rôles
sémantiques pour arriver à l’arbre correct. En fait, certains cas sont plus complexes et difficiles à représenter
(ellipse, apposition, thématisation)
Ex. de Chomsky : 4 structures possibles de la phrase « Time flies like an arrow »

• "Le temps vole comme une flèche"


• "Les mouches du temps aiment une flèche"
• "Chronométrez les mouches comme (vous chronométriez) une flèche"
• "Chronométrez les mouches qui ressemblent à une flèche"
• (Explications pour le français, I. Tellier)

SKETCH ENGINE – EXPLORATION DE CORPUS CONTINUATION

En parlant des caractéristiques statistiques d’un corpus(Thème 4), on avait mentionnée aussi les « collocations » et
de « mots-clés », des notions que nous allons explorer par la suite, ainsi que les calculs utilisés et la façon de les
explorer dans Sketch Engine. (La notion de collocation appartient à ce chapitre, les mots-clés au chapitre suivant.)

Collocations
La notion de collocation est à cheval entre le niveau lexical et le niveau syntaxique. Une collocation est une
expressioncomposée de deux mots ou plus qui correspond à une façon conventionnelle de dire les choses. Par ex.
les groupes nominaux « armes de destruction massive », locutions verbales « mettre en œuvre », ou expressions
idiomatiques « mesdames et messieurs».
Le linguiste qui a introduit et développé la notion c’est Firth dans sa théorie contextuelle du sens
(Contextual theory of Meaning, 1957), où le contexte est essentiel : le contexte social, le contexte textuel ( pas
seulement la phrase) et le contexte des mots (à différence de la linguistique Chomskienne, ou même
structurelle). Selon lui, « collocations of a given word are statements of the habitual or customary places of that
word” (1957:181).

Les collocations présentent les caractéristiques suivantes :


- Elles ont une faible compositionnalité : le sens du tout ne peut pas être exactement déduit du sens des
parties, il y a une composante sémantique ajoutée au tout, comme on peut voir dans le cas extrême
des exp. idiomatiques kick the bucket.
- On ne peut pas substituer les éléments qui composent la collocation par d’autres, même s’ils ont le même
sens (vin blanc, *vin clair).
- Elles ne peuvent pas être modifiées, surtout les expressions idiomatiques.
- On peut tester si une suite de mots est une collocation en essayant de la traduire. Si la traduction mot à
mot est incorrecte, on est sûrement face à une collocation (makea decision > *faire une décision)
Exemples : light verbs (do a favor), phrasal verbs (tell off), noms propres, expressions terminologiques (assez
compositionnelles, mais doivent être traitées comme une combinaison fixe).

Les collocations sont importantes pour le TAL pour les tâches de :


- génération du langage naturel (pour éviter des erreurs de combinaison comme « powerfultea » au lieu
de « strong tea »)
- lexicographie informatique (pour détecter les collocations qui doivent faire partie d’un dictionnaire)
- segmentation des phrases (parsing)
- recherche en linguistique de corpus (recherche des stéréotypes)

Il y a plusieurs méthodes pour détecter des collocations, la plus simple est la fréquence. Si deux mots apparaissent
souvent ensemble, ils sont probablement des collocations. Une façon de compter les mots qui apparaissent
fréquemment ensemble c’est en utilisant les comptages de n-grams.

Fonction n-grams
Un n-gramme est une séquence de n mots : un 2-gramme (que nous appellerons bigramme) est une séquence de
deux mots, comme « votre devoir », et un 3-gramme (un trigramme) est une séquence de trois mots
comme « rendez votre devoir ».
Pour calculer les n-grammes dans un corpus, il faut d’abord choisir leur longueur, c'est-à-dire le nombre
de tokens dont les n-grammes doivent être composés. Une valeur ou une fourchette de valeurs peut être
sélectionnée (entre 2 et 6).Dans la fonction basique de SE, c’est le seul choix à prendre :

Les n-grammes sont sensibles à la casse, et les non-mots seront exclus (ces options peuvent être modifiés dans
Avancé).

En faisant une liste de bigrammes dans n’importe quel corpus, on observera que les plus fréquents sont des
combinaisons de mots grammaticaux (de la, de l’, d’un…) qui apparaissent très souvent ensemble mais ne
constituent pas une collocation. Par exemple, dans le corpus French Web 2023, le premier bigramme avec contenu
lexical (un peu) est en position 48.

Avec l’exploration de 3-grammes et plus (4-grammes, 5-grammes) on observera plus facilement des collocations
au sens plus strict du terme.

Exemple :
Si vous comparez les listes de résultats pour les 2-, 3- et 4-grammes du French Web 2023, vous verrez que les 3-
grammes et les 4-grammes rendent plusieurs locutions (à partir de, à la fois, de plus en plus, dans le cadre de/du,
la mise en place, pour la première fois). Pour englober toutes leslocutions dans une même liste de résultats, on
peut choisir la fourchette 3-4 dans le choix de la longueur.
Dans l’option avancée, le filtre « imbriquer les n-grams » nous permet de regrouper les résultats qui font partie du
même n-gramme plus long. Par exemple « la mise en » et « mise en place » seront regroupés dans « la mise en
place ».
Exercice :

Explorez les n-grammes (de 3- à 6-grammes) dans le corpus TAL, pour l’attribut « mot », en imbriquant les n-
grammes et en choisissant l’option d’ignorer la casse (A=a). Vérifiez que vous avez ce résultat-ci :

Fonction WordSketch

C’est la fonction qui permet d’observer les collocations d’un terme concret (fonctions basique et avancée), ou
toutes les collocations présentes dans un corpus (fonction « as a list »).

Les résultats sont ordonnés selon les patrons grammaticaux(par ex. si on cherche un nom, on observera les
résultats des collocations du nom en tant que sujet, en tant qu’objet, ou modifié par des adjectifs, entre autres).
Ceci est dû au fait que, à différence des n-grams, pour inclure une collocation dans la liste, le
programme tient en compte les règles grammaticales définies para la grammaire de la langue sélectionnée. C’est
une façon d’éviter les combinaisons de mots grammaticaux dans l’exploration de collocations (comme il arrive avec
les n-grammes), en filtrant par catégories grammaticales et notamment par les combinaisons typiques du point de
vue catégorielle (adjectif, noms, prépositions…): AN, NN, AAN, ANN, NAN, NNN, NPN… Pour arriver à cela, le corpus
a dû être enrichi avec un analyseur syntaxique (voir page 2).

De plus, le programme calcule la distance entre les mots. Très souvent, une collocation n’est pas une composition
fixe mais elle contient quelques éléments variables (knocked on hisdoor, knock on the metal door, …). Pour inclure
ces cas, le programme inclut dans ses calculs de fréquence des mots dans le contexte (jusqu’à une certaine
distance +- 3 mots à droite et à gauche, par ex.).

Les options de la fonction Avancée du Word Sketch permettent d’appliquer un filtre de catégorie grammaticale
(classe de mots, ou POS-tag) et établir les fréquences minimales d’apparition, ainsi que choisir un sous-
corpus.Dans la fenêtre des résultats, à côté de chaque collocation un menu est proposé (symbole : trois points …)
pour explorer la collocation en profondeur à partir des concordances (listes de tous les exemples de la concordance
en contexte), la collocation de la collocation (word sketch combiné des deux termes) , et le thesaurus (mots qui
apparaissent dans les mêmes contextes, synonymes ou autres termes sémantiquement liés.)
Il est utile aussi de visualiser les collocations les plus fréquentes. Dans le menu de visualisation, vous pouvez choisir
quelques options : le/s patron/s grammaticaux à visualiser, le nombre de collocations (10 par défaut), les cercles
des mots et la taille dynamique du texte (cela reflète la fréquence, cercle/ texte plus grand -> collocation plus
fréquente)
Word Sketch Difference – Différence de profils lexicaux

Cette fonctionnalité permet de comparer les collocations dedeux termes de façon conjointe. Les résultats sont une
liste des collocations typiques de l’un et de l’autre, classifiés dans un continuum marqué par des couleurs. Les
options et filtres sont les mêmes que pour le word sketch simple.
On peut par exemple comparer les collocations des termes « roi » et « reine » pour extraire des conclusions sur la
façon dont on parle des rois et reines dans le corpus.

Vous aimerez peut-être aussi