Thème
Thème
1. INTRODUCTION- DÉFINITIONS
Big data :
Le big data ("données massives" ou "mégadonnée") est l’ensemble des disciplines technologiques
visant à traiter les données en masse, de façon rapide et indépendante du format. Elle a émergé avec
le développement d'internet et l'explosion du volume d'infor mations numériques de tous types
(textes, images, audio…) depuis le début des données 2000.
« Bien que la problématique de données volumineuses soit apparue au début des années 2000, le
terme « Big data » n’apparaît que mi-2010 sur le Web. Le Big data représente donc d’énormes volumes
de données structurées ou non structurées, difficilement gérab les avec des solutions classiques de
stockage et de traitement, qui proviennent de sources diverses et sont produites en temps réel. Le Big
data est le point de rencontre entre la multiplication des données non structurées, les besoins
d’analyse de ces données et les progrès de la technologie. » (Brasseur 2015)
Algorithme
« Un algorithme est la description d'une suite d'étapes permettant d'obtenir un résultat à partir
d'éléments fournis en entrée. Par exemple, une recette de cuisine est un algorithme permettant
d'obtenir un plat à partir de ses ingrédients! Dans le monde de plus en plus numérique dans lequel
nous vivons, les algorithmes mathématiques permettent de combiner les informations les plus
diverses pour produire une grande variété de résultats : simuler l'évolution de la propagation de la
grippe en hiver, recommander des livres à des clients sur la base des choix déjà effectués par d'autres
clients, comparer des images numériques de visages ou d'empreintes digitales, piloter de façon
autonome des automobiles ou des sondes spatiales, etc.
Pour qu'un algorithme puisse être mis en œuvre par un ordinateur, il faut qu'il soit exprimé dans un
langage informatique, sous la forme d'un logiciel (souvent aussi appelé « application »). Un logiciel
combine en général de nombreux algorithmes : pour la saisie des données, le calcul du résultat, leur
affichage, la communication avec d'autres logiciels, etc.
Certains algorithmes ont été conçus de sorte que leur comportement évolue dans le temps, en
fonction des données qui leur ont été fournies. Ces algorithmes « auto -apprenants » relèvent du
domaine de recherche des systèmes experts et de l'« intelligence art ificielle ». Ils sont utilisés dans
un nombre croissant de domaines, allant de la prédiction du trafic routier à l'analyse d'images
médicales. » (CNIL)
Les systèmes dotés d’IA sont capables d’adapter leurs comportements (plus ou moins) en analysant
les effets produits par leurs actions précédentes, travaillant de manière autonome. »
IA prédictive : les systèmes qui peuvent déterminer quelque chose grâce à des exemples sur lesquels
ils ont été entrainés.
IA générative : les systèmes qui peuvent créer des images et des textes. (Chat GPT sont des exemples
concrets d’IA générative)
IA agentique : les systèmes qui sont capables de faire des actions à partir d’une instruction complexe
(les voitures autonomes, ou des IA qui peuvent ouvrir une application et exécuter une série de tâches
pour vous ).
Tous ces types d’IA font partie des IA faibles (qui peuvent réaliser des tâches très concrètes, bien
qu’assez impressionnantes). On parle d’IA faible par opposition à l’intelligence humaine, qui est
caractérisée par la compréhension, la conscience et les émotions.
Dans ce sens, une Intelligence artificielle forte (ou Intelligence artificielle général), qui serait à la
hauteur des humains pour toutes les tâches et dans tous les contextes n’existe pas encore et n’est
qu’un concept théorique pour l’instant.
Génération (Natural Language generation, NLG) La génération de langage naturel permet aux
ordinateurs d'écrire. Le NLG est le processus qui consiste à produire une réponse textuelle en langage
humain sur la base d'une entrée de données. Ce texte peut égale ment être converti en format vocal
grâce à des services de synthèse vocale.
Input: données
Output: séquence linguistique
L’input n’est pas toujours évident. Par exemple, dans les moteurs de recherche on peut utiliser des
formulations potentiellement très différentes pour chercher la même chose. Pour faire face à cette
équivalence sémantique, mais disparité formelle, Google u tilise le TAL pour enrichir ses capacités de
recherche. Des phrases interrogatives complètes en input (When was Einstein born) ou incomplètes
(Einstein birth) ou même vagues (Einstein date) rendent toutes la date de naissance d’Einstein.
Comment est le moteur capable d’interpréter les intentions à partir d’expressions différentes ?
Voir le film : Trillions of Questions, No Easy Answers: A (home) movie about how Google Search
works (produit par Google)
Fragment 1 :
Vidéo 1: jusqu’à 14:58
Google indexe tous les sites web, qu’est-ce que cela veut dire?
Google scanne toutes les pages et établit une liste de tous les mots et de toutes les pages sur
lesquelles chaque mot apparaît. Comme l'index d'un livre
Quels défi présente l’homonymie pour la recherche?
Quand deux référents ont le même nom (Lasagna : plat italien, Lasagna : le médecin), le moteur de
recherche doit déterminer lequel est le plus pertinent, tenant compte de plusieurs facteurs
(localisation, date d’actualisation de la page, combien de pages o nt un lien vers cette page…)
Fragment 2:
Jusqu’à min. 43’59
« Search is not just matching words, but matching the thing you ask to the concept that you were
really looking for »… qu’est-ce que cela veut dire ?
Il ne s'agit pas seulement de faire correspondre des mots (le mot X dans la requête est présent dans
une page), mais de comprendre le langage afin de pouvoir faire correspondre ce qu’ils demandent
(question) au concept qu’ils recherchent réellement.
Quel est le rôle du TAL pour la recherche dans Google?
Comme les machines ne peuvent pas parler l'humain, les humains ont dû trouver de nouvelles façons
de dire aux machines ce qu'elles doivent faire (par exemple, cartes perforées, écriture de code). Même
au tout début du moteur de Google, on écrivait encore e n code, avec des mots-clés que la machine
pouvait comprendre (Keyword-ese). Le TAL aide la machine à comprendre le langage de sorte que
l'utilisateur ne doive pas s'adapter à la machine, mais que celle -ci soit capable d'interpréter ce que
vous aviez en tête de la manière la plus naturelle possible.
Depuis 20 ans, le TAL a aidé à résoudre : des erreurs d’orthographe, des synonymes... Surtout avec
l'apprentissage automatique, et le développement de Bert : une technologie qui peut aider à
comprendre le langage.
Fragment 3 :
Jusqu’à min 54
Selon l’exemple, pourquoi des mots grammaticaux tels que « for » démontrent l’importance du TAL
pour les moteurs de recherche?
Auparavant, les mots grammaticaux (tels que " pour ") étaient ignorés. Maintenant, grâce à BERT (un
modèle NLP), la machine peut comprendre que ces mots sont parfois très importants. Le TAL incorpore
leur signification sémantique.
THÈME 2 — Histoire et évolution des technologies linguistiques
L’objet de la linguistique (ou des sciences du langage), c’est l’étude scientifique des langues naturelles et, à travers
elles, du langage en tant que “faculté”. Derrière l’apparente diversité des langues humaines, les linguistes essaient
de traquer des fonctionnements communs, des structures partagées, des universaux. Les linguistes cherchent plus
à comprendre les principes qui régissent les langues qu’à multiplier les connaissances qu’ils ont de certaines d’entre
elles. Cette linguistique est descriptive (≠prescriptive), on observe comment fonctionnent les langues, sans
chercher à les contrôler ni à corriger leur évolution.
L’informatique est la science du “traitement automatique de l’information”. Héritière d’une longue tradition
mathématique et logique de modélisation du calcul. Les fondements de l’informatique sont doubles :
– le codage des données à l’aide d’éléments discrets (0/1)
– le codage effectif des traitements à l’aide d’algorithmes
Pour pouvoir traiter le langage de façon automatique, l’informatique doit déterminer quelles sont les données
adéquates et comment les coder, et quels sont les traitements pertinents pour traiter ces données.
Linguistique Informatique
Logique booléenne
George Boole (1815-1864) Britannique, mathématicien, logicien et philosophe des mathématiques.
• utilisée dans les ordinateurs
• Logique du vrai / faux, du 0 / 1
• Les opérateurs logiques sont: (et, ou, non)
« L’automatisation des sciences du langage commence avec les premières expériences de traduction automatique
(désormais TA) entreprises à la fin de la seconde guerre mondiale, en 1948-1949 aux États-Unis et en Grande-
Bretagne. On parlera de ‘tournant de l’automatisation’.
La traduction automatique est issue des sciences de la guerre (Dahan et Pestre 2004).
Développées essentiellement au MIT, les sciences de la guerre ont permis l’élaboration de technologies de pointe
comme les radars, les systèmes de défense antiaérienne et les ordinateurs, puis, après-guerre, la traduction
automatique.
Cette période d’une quinzaine d’années (1948-1966), entre le début des premières expériences de TA et la mise
en place de la linguistique computationnelle, peut être considérée comme un véritable événement, constitutif du
tournant de l’automatisation.
On peut avancer que c’est grâce à la TA, c’est-à-dire grâce à la nécessité stratégique de produire des traductions
rentables en série, que les langages formels […] se sont investis dans des algorithmes d’analyse syntaxique qui ont
déterminé l’essor des grammaires formelles, notamment celles de Chomsky. »
« On doit mentionner trois rapports et deux personnalités d’exception, Warren Weaver et Yehoshua Bar-Hillel, qui
ont eu une importance crucial sur le plan institutionnel :
(i) 1949 [1955] : Translation, de Warren Weaver ;
Ce mémorandum a impulsé la création de centres de traduction automatique, en grande partie
dans les universités, avec pour mission de produire des traductions en série de textes
scientifiques du russe vers l’anglais
Par contre, les erreurs de trad font qu’on doute de l’efficacité de la TA, malgré le succès
médiatique de la 1ère démonstration sur ordinateur en 1954 .
(ii) 1960 : « The present status of automatic translation of languages », Yehoshua Bar-Hillel ;
[Selon ce document], le seul objectif « raisonnable », pour la commercialisation de la traduction
scientifique de bonne qualité, est la traduction assistée par ordinateur, comportant au moins une
intervention humaine sur la sortie de la machine, ou post-édition ; « raisonnable » signifiant à la fois
possible en termes de faisabilité technique et scientifique, et compétitif en termes de coût par rapport à
la traduction humaine.
(iii) 1966 : Language and Machines. Computers in Translation and Linguistics, Automatic Language
Processing Advisory Committee (ALPAC) of the National Research Council.
La littérature scientifique traduite automatiquement sans post-édition est très difficile à lire et même
source d’erreurs. Par ailleurs, tous les témoignages attestent que les sorties de TA avec post-éditions sont
plus coûteuses que la traduction humaine. Le comité conclut qu’il n’est pas utile de dépenser des sommes
d’argent considérables pour mécaniser une petite industrie déjà économiquement en déclin et qui utilise
une force de travail inférieure à 5 000 personnes. Ce qui est envisagé de façon positive en revanche, ce
sont les aides automatisées à la traduction.
Il décrète la légitimité de la linguistique computationnelle comme « nouvelle linguistique » fondée sur la
grammaire générative et transformationnelle de Chomsky, en remplacement de la TA.
Par ailleurs, un pourcentage d’erreur est admissible dans le cadre d’un usage pratique. Cet argument est de taille.
Il a constamment été mis en avant par les acteurs de la TA puis du TAL encore aujourd’hui.
En 1952 (première conférence de traduction automatique à MIT), on comprend que l’analyse syntaxique doit faire
partie de la TA : suivant Bar-Hillel, tous s’accordent pour définir les deux étapes préalables à la TA : (i) créer un
dictionnaire automatique de formes sans lemmatisation ; (ii) développer une analyse syntaxique opérationnelle
programmable (remettant à plus tard les problèmes grammaticaux). […]
ELIZA est un premier système de traitement du langage naturel qui pouvait tenir une conversation limitée avec un
utilisateur en imitant les réponses d'un psychothérapeute rogérien (Weinbaum, 1966).
Lisez ce dialogue classique d’Eliza et essayez de comprendre quel peut être le fonctionnement du programme :
User: I am unhappy.
ELIZA: DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY
User: I need some help, that much seems certain.
ELIZA: WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP
User: Perhaps I could learn to get along with my mother.
ELIZA: TELL ME MORE ABOUT YOUR FAMILY
User: My mother takes care of me.
ELIZA: WHO ELSE IN YOU FAMILY TAKES CARE OF YOU
User: My father.
ELIZA: YOUR FATHER
User: You are like my father in some ways.
Eliza est un “early natural language processing system that could carry on a limited conversation with a user by
imitating the responses of a Rogerian psychotherapist (Weizenbaum, 1966). ELIZA is a surprisingly simple program
that uses pattern matching to recognize phrases like “I need X” and translate them into suitable outputs like “What
would it mean to you if you got X?”. This simple technique succeeds in this domain because ELIZA doesn’t actually
need to know anything to mimic a Rogerian psychotherapist. As Weizenbaum notes, this is one of the few dialogue
genres where listeners can act as if they know nothing of the world. Eliza’s mimicry of human conversation was
remarkably successful: many people who interacted with ELIZA came to believe that it really understood their
problems, many continued to believe in ELIZA’s abilities even after the program’s operation was explained to them
(Weizenbaum, 1976)”
5. Les années 70 et 80
Les années 70 et 80 sont marquées en TAL par l’effervescence de la sémantique formelle pour représenter des
connaissances et formaliser des raisonnements. La pragmatique, c’est-à-dire l’étude de l’utilisation du langage en
contexte, dans des situations concrètes, est aussi prise en compte dans ces modélisations.
Ce sont les années des systèmes experts (programmes qui simulent, sous la forme de règles, les connaissances
d’un expert, pour reproduire son mode de raisonnement). Exemple d’intelligence artificielle de l’époque.
Le premier et le plus connu des systèmes de cette époque est MYCIN, conçu à l'université de Stanford par Shortliffe.
C'est un système expert de diagnostic médical.
Les différentes parties d'un système expert:
1. Une base de connaissances où sont stockées, sous une forme appropriée, toutes les connaissances
permettant de résoudre le problème que l'on veut traiter dans un domaine déterminé.
2. Un mécanisme d'exploitation (moteur) qui est un ensemble de programmes susceptibles de traduire le
raisonnement humain (heuristique, progression par avancement et retour arrière, décomposition en sous
ensemble...). Ces programmes utilisent les connaissances stockées dans la base de connaissances afin de
résoudre le problème que l'utilisateur lui a posé en lui donnant des hypothèses de départ.
3. Une base des faits du problème à résoudre, qui est en fait une mémoire de travail où seront stockées les
hypothèses de départ où viendront s'ajouter des faits nouveaux au fur et à mesure que progressera le
mécanisme d'exploitation.
Un système, en I.A., doit posséder deux autres parties qui sont en fait des modules d'interface avec l'extérieur :
4. Un module d'interaction avec les utilisateurs potentiels : cette interface de dialogue doit être la plus
conviviale possible. Ce module est lié au mécanisme d'exploitation.
5. Un module d'aide à l'acquisition des connaissances qui est surtout une interface de dialogue entre la base
de connaissances et les experts du domaine qui doivent alimenter cette dernière. »
En TALN, on essaie de reproduire les systèmes experts pour la langue en ramenant l’usage de la langue à des règles
symboliques. À cette époque, les technologies du langage développées étaient des programmes restreints à leur
propre domaine, basés sur des connaissances du monde et un langage propre à l’application.
Les approches symboliques sont encore utilisées de nos jours. On a encore beaucoup de concepts et modèles qui
sont liés à ces règles symboliques. Celles-ci sont prédéfinies et « écrites à la main ». Elles sont basées sur des
grammaires formelles. Elles ont une bonne précision (ce qui est traité est bien traité) mais une mauvaise
couverture (beaucoup de cas non traités).
Il y a pourtant une situation paradoxale : le web auberge des quantités immenses d’information, mais on doit
pouvoir transformer ces données en information organisée et structurée, càd en connaissances. Tout ce qui peut
aider à classer ou traiter les documents textuels, à extraire l’information qu’ils contiennent, devient un enjeu
majeur. En effet, les données se multiplient : dans les ordinateurs personnels et dans le web, tout est texte.
C’est à ce moment que se développent l’ingénierie linguistique et la linguistique de corpus (c’est la branche
appliqué des recherches en TAL, càd des programmes applicables à des données réelles.)
Grace aux avances technologiques, les linguistes vont pouvoir utiliser des données informatisées et de nouveaux
outils linguistiques. L’ingénierie linguistique se met ainsi au service de la “fouille de textes” (texte mining). Ce qui
constitue le plus grand changement pour les sciences du langage, c’est l’automatisation des données qui introduit
un changement radical dans les pratiques des linguistes. C’est pourquoi ce qu’on appelle actuellement «
linguistique de corpus », ou plutôt, « linguistiques de corpus » (au pluriel) recouvre des champs extrêmement
variés des sciences du langage (Habert et al. 1997).
➔ Apprentissage automatique : ces méthodes permettent de traiter les problèmes liés à la langue « réelle
». Ces méthodes apprennent à partir d’exemples de grandes quantités de données textuelles, enrichie
avec information morphosyntaxique et sémantique.
Contrairement aux approches symboliques, les approches statistiques ont bonne couverture (plus on a de
données, mieux ça marche) mais il est très difficile de disposer de bons corpus annotés.
Chronologie synthétique :
Partie pratique
Expressions régulières : façon simple de caractériser un ensemble de chaînes de caractères de façon compacte.
Utiles pour trouver des informations simples, et les remplacer, par ex.
Ex : trouver tous les montants d’argents, toutes les abréviations,…
Eliza est un exemple de chaine de substitution par des ER. Elle prend la phrase de l’interlocuteur et la modifie pour
construire sa réponse :
Le programme cherche dans l’input la présence de certains mots, et les transforme dans l’output, notamment
pour les marques de 1ère personne :
- My > YOUR
- I’m > YOU ARE
Et une fois faites ces substitutions, si le programme retrouve certains mots-clés, tels que depressed ou sad, le
programme répond : I am sorry…
Les mots clés sont associés à un rang, les mots spécifiques étant mieux classés et les mots plus généraux moins
bien classés. Si le programme se trouve face à une phrase de l’input pour laquelle il peut appliquer plus d’une
règle, il donne priorité aux mots-clés mieux classés, plus spécifiques. Par ex. dans la phrase «I know everybody
laughed at me » le programme trouve « I » et « everybody ». C’est ce dernier qui est mieux classé, et qui détermine
la réponse :
A: «I know everybody laughed at me »
Eliza : WHO IN PARTICULAR ARE YOU THINKING OF?
Si aucun mot-clé ne correspond, ELIZA choisit une réponse sans engagement comme « PLEASE
GO ON”, “THAT’S VERY INTERESTING”, or “I SEE”.
THEME 3 COMPOSANTES DU TAL
Le TAL est la composante langagière de l’intelligence artificielle. Le langage est d’ailleurs au centre de la question
philosophique « est-ce que les machines ont la capacité de penser ? », puisque le test du Turing est basé sur une
conversation : si une machine peut passer par un humain lors d’un dialogue avec une personne, alors on n’a aucune
raison pour affirmer que ce n’est pas un humain ; de la même façon que, à priori, en parlant avec un autre être
humain on n’a aucune preuve de sa capacité interne de penser, si ce n’est qu’à travers le langage.
Pour pouvoir atteindre ce niveau de performance linguistique, le but du TAL est la modélisation informatique de la
capacité du langage, à partir de la manipulation (traitement) de données linguistiques à l’aide de certains
algorithmes. Pour bien comprendre le fonctionnement du TAL, il est nécessaire d’aborder plusieurs
composantes théoriques et méthodologiques : les niveaux de langue qui sont l’objet du TAL, les approches
méthodologiques principales de la discipline, les ressources et outils nécessaires pour le TAL, et quelques
applications typiques. Dans les leçons suivantes on développera en plus de détail certaines des composantes qui
ne seront que mentionnées ici pour offrir une vision globale de la discipline.
Niveaux de langue
Pour qu’une machine puisse performer des tâches linguistiques (traduire, communiquer avec un humain, faire
résumé), on doit programmer un système qui fonctionne à tous les niveaux de langue, aussi bien pour la
compréhension que pour la génération de messages:
- pour les tâches de compréhension, l’input est un séquence linguistique (écrite ou orale) et la machine doit
déterminer le sens. L’output est un message avec une intention.
- pour les tâches de génération, on part d’une intention qu’on veut communiquer et l’output sera une séquence
linguistique (écrite ou orale), en passant par tous les niveaux de langue.
Pragmatique
Sémantique
Syntaxe
compréhension Morphologie génération
Phonologie
Phonétique
La phonétique et la phonologie sont traitées par un système différent : la reconnaissance vocale, dont l’output est
une transcription du message reçu.
Le reste est géré par un système de compréhension du langage naturel, l'entrée est un texte et la sortie est une
réponse à une question, ou un texte traduit, un résumé, une réponse au dialogue, une action...
Ces deux systèmes sont combinés dans un pipeline (ou chaîne de traitement): la sortie du premier système (la
transcription) est utilisée comme entrée pour le suivant.
Pour essayer de reproduire un système complet de traitement du langage à tous les niveaux, une approche possible
consiste à tenter de reproduire une architecture de ce genre, en traduisant les “fonctions” en programmes qui
s’enchaînent. C’est l’approche adoptée par le TAL pendant ses premières années : on dit que c’est une approche
symbolique, ou basé sur des règles.
Dans ce type de systèmes, les programmeurs écrivent une définition pour chaque mot et chaque règle syntaxique.
Ces approches sont issues du rationalisme : on défend que nos connaissances sur la langue sont innées, et qu’on
doit pouvoir les énumérer pour donner à la machine la capacité de les utiliser. Noam Chomsky a été le plus célèbre
représentant de cette approche.
Ces systèmes sont évidemment très limités, car on ne peut inclure qu’un certain nombre de mots et de règles
syntaxiques. Concrètement, on se retrouve face aux problèmes suivants :
- Les mots n’appartiennent souvent qu’à un domaine concret, car le nombre de règles dont on a besoin est
très large
- Le sens des mots est très difficile à définir à partir de règles.
- Les règles écrites pour la grammaire ne fonctionnent pas très bien lorsque les problèmes (grammaticaux)
se compliquent, ou lorsqu’il n’y a pas de consensus sur la grammaticalité (souvent)
- Le langage humain est très ambigu. Une seule phrase peut avoir plusieurs interprétations. Désambigüiser
les énoncés ne pose en général pas de problèmes pour les humains, mais c’est très difficile à faire pour
une machine.
o Ambigüité syntaxique
Our company is training workers
De nos jours, c’est démontré que cette approche est limitée et peu flexible pour être utile. C’est limitations ont
mené à l’adoption d’approches radicalement différentes, les approches statistiques, qui sont dominantes de nos
jours.
Approches statistiques
Les approches statistiques utilisent une quantité massive de textes pour effectuer les tâches de compréhension et
la génération du langage.
La connaissance sur les langues est obtenue de façon empirique ( « You shall know a word by the company it
keeps » Firth 1957). On va obtenir les propriétés de mots en observant leur contexte :
- Les définitions des mots sont basées sur leur utilisation : on définit un mot en observant tous les contextes
dans lesquels il apparaît, dans d'énormes quantités de textes (par ex. pomme et banane apparaîtront
dans des contextes similaires entre eux, mais très différents des contextes de gsm et ordinateur).
- Les approches statistiques permettent d’attaquer naturellement l’ambigüité, à partir d’exemples réels, le
modèle peut décider quelle est l’interprétation la plus probable selon le contexte.
Ces approches ont été dominantes presque jusqu’à nos jours et ont été utilisées pour toutes les applications du
TAL.
Quels sont les éléments nécessaires pour cette approche ?
- Les ressources linguistiques sont les données brutes indispensables pour construire, améliorer et évaluer
les outils de traitement du langage naturel. Les ressources linguistiques peuvent prendre différentes
formes et se présenter sous différentes formes, notamment des corpus écrits ou parlés, des grammaires
ou des bases de données terminologiques.
o Ressources primaires : sources textuelles brutes
o Ressources secondaires : données prétraitées et annotées avec des informations
supplémentaires telles que des descriptions linguistiques des différents niveaux. Cela veut dire
que cette technique fonctionne à partir de certaines caractéristiques spécifiques qui sont
définies.
On considère aussi que les outils linguistiques (vid infra) utilisés pour annoter les corpus brutes sont des
ressources linguistiques.
- Des algorithmes d'apprentissage automatique (machine learning), basés sur des principes d'intelligence
artificielle, analysent et modélisent ces ressources linguistiques.
- Les modèles linguistiques issus du processus d'apprentissage automatique : Ces approches peuvent
générer des modèles de langage, c’est-à-dire, un système qui observe les statistiques des mots dans
d'énormes quantités de textes et apprend à produire un texte réaliste basé sur ces statistiques.
Ils peuvent être utilisés pour une grande variété d'applications, dont certaines sont encore émergentes.
Plus les ressources et les modèles sont importants, plus leurs applications sont englobantes et
génériques. Le potentiel de ces modèles est vaste et encore relativement inexploré.
Pour que les ressources linguistiques brutes (les corpus) soient utiles au TAL lors de l’apprentissage automatique,
la machine doit pouvoir « comprendre » ces textes. Cette compréhension consiste en la capacité de transformer
une phrase en langage naturel en une représentation conceptuelle de son sens. Les étapes de ce processus
comprennent des analyses à tous les niveaux de la langue : l'analyse morphologique, la détection de groupes et
de syntagmes, l'analyse syntaxique ou de dépendance, ou l'analyse sémantique (désambiguïsation du sens,
désambiguïsation des rôles sémantiques, etc.)
NB : Du point de vue de la préparation des ressources primaires, ces programmes sont considérés des « outils »
car ils sont nécessaires pour pouvoir préparer les sources primaires. Par contre, ils peuvent être considérés aussi
tout simplement des « tâches » du TAL, lorsque leur application est un but en soi-même.
Extraction des
Etiquetage
Segmentation unités de sens Structure de
morpho-
morphologique simples et textes
syntaxique
complexes
Détections de
Chunking
relations
À ce sujet, il est important de souligner que le TAL n’est pas développé au même point pour toutes les langues,
d’ailleurs, certaines langues ne possèdent pas les ressources nécessaires pour certaines tâches. Entre autres,
l’arabe.
État de l’art
Récemment (depuis 2020), un sous-type concret de Machine learning (ML), l’apprentissage profond (Deep
learning, DL) est devenu l’approche dominante et a motivé des avances impressionnantes dans le domaine du TAL.
L’apprentissage profond utilise des techniques différentes aux techniques traditionnelles du Machine learning. Le
deep learning utilise des réseaux de neurones artificiels (artificial neural networks) qui imitent le fonctionnement
du cerveau, en différentes couches ou niveaux. A différence du ML traditionnel, le DL n’a pas besoin des pré-
traitements proportionnés par les humains : les algorithmes d'apprentissage profond peuvent déterminer la
plupart des caractéristiques qui sont importantes dans les données textuelles qu’on lui présente. Par contre, le DL
a besoin de beaucoup plus de données d’entrainement.
- Traduction automatique
- Analyse de sentiments
- Question-réponses
- Génération de texte
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge,
MA: May 1999.
THÈME 4 - Ressources linguistiques: Corpus
Définition
Corpus (Sinclair, 1996, 2005)
• une collection finie de textes d'une langue donnée sélectionnés et disposés selon des critères afin d'être
utilisés dans un but précis. Par exemple, des échantillons de langue, des traductions, documentation
lexicale, etc.
• “A corpus is a collection of pieces of language text in electronic form, selected according to external
criteria to represent, as far as possible, a language or language variety as a source of data for linguistic
research.”
Les corpus sont souvent enrichis avec des informations variées (aspects du texte, des mots, des phrases…)
(Corpus annoté VS corpus brut)
Les corpus sont utilisés dans plusieurs disciplines linguistiques et pour plusieurs objectifs. Entre autres :
• Linguistique de corpus : Analyser la langue telle qu’elle est utilisée (combinaisons linguistiques typiques,
distributions de phénomènes linguistiques selon le type de texte, …)
• Lexicographie : construire un dictionnaire avec des exemples de corpus
• TAL : Servir de base aux tâches d’apprentissage automatique
Types de corpus
On peut classifier les corpus selon leurs caractéristiques à différents niveaux :
o Selon le type de données
o Corpus oraux
o Corpus écrits
o Selon le niveau de représentativité :
o Corpus de textes complets
▪ Corpus de référence : représente toutes les variétés d’une langue (registre, types de
discours, vocabulaire, thématiques, etc.) de façon équilibrée
« Un corpus de référence est conçu pour fournir une information en profondeur sur
une langue. Il vise à être suffisamment étendu pour représenter toutes les variétés
pertinentes du langage et son vocabulaire caractéristique, de manière à pouvoir servir
de base à des grammaires, des dictionnaires et d'autres usuels fiables » (Sinclair 1996)
par ex. Brown, LOB (Lancaster-Oslo/Bergen Corpus (LOB) et BNC (British National
Corpus), qui sont tous accessibles dans SketchEngine.
▪ Corpus de spécialité : « sont limités à une situation de communication, ou à un
domaine. Parmi ces corpus, on trouve les ensembles relevant de sous-langages que l'on
trouve dans les domaines scientifiques et techniques »
o Corpus d’échantillons : fragments plus ou moins longs
o Conception de la structure :
o Chronologie : synchronique, diachronique
o Moyen de publication : livres, internet, revues…
o Genre : essai, narration, poésie et théâtre
o Thème : gastronomie, arts, technologie, ...
o Caractéristiques sociales des auteurs…
o Selon les langues du corpus
o Monolingues
o Multilingues : le corpus contient des textes dans deux langues ou plus
• Comparables : on peut comparer leurs contenus, mais ce n’est pas une traduction
exacte
• Ex.: manuels d’instructions, articles de recherche, Wikipédia…
• Alignés ou parallèles (bi-textes): Textes qui sont les traductions l’un de l’autre.
• Les phrases dans les deux langues sont alignées (se correspondent)
• Le point de départ est la réutilisation des traductions existantes faites par des
traducteurs humains
Exemple de corpus comparables : articles de Wikipédia : les contenus sont similaires, mais ne sont pas de
traductions :
1. Français
2. Anglais
Cela dit, les corpus alignés sont très utiles pour la traduction, notamment, ils permettent d’observer les
contextes d’utilisation d’un mot que l’on veut utiliser pour vérifier son adéquation, ils permettent de plus de
consulter la traduction homologué de certaines expressions qui ne se traduisent pas mot-à-mot (voir
Linguee.com), et de repérer des néologismes et leur traduction.
« Les textes alignés donnent accès à « la bonne expression » que le traducteur ne trouvera pas forcément
dans un dictionnaire ou à des solutions auxquelles il n’avait pas pensé mais qui le satisfont et qui lui permettent
de varier son expression. »
De plus, ils peuvent servir comme base pour les mémoires de traduction, de dictionnaires bilingues de
spécialité, et sont aussi la base d’apprentissage pour la traduction automatique.
Les possibilités d’exploitation d’un corpus pour le TAL à partir de l’apprentissage automatique dépendent de
l’annotation, c’est-à-dire de l’étiquetage explicite d’information autrement implicite de nature différente, telle
que :
o Aspects bibliographiques du texte [métadonnées] : auteur, titre, année de publication, thème,
genre…
o Aspects structurels du texte : typographie, divisions, paragraphes, citations, titres, etc.
o Caractérisation des unités lexicales : lexique general, termes étrangers, noms propres,
abreviations, …]
o Relations syntaxiques
Tous les corpus ont certaines propriétés statistiques, ce n’est jamais une combinaison arbitraire de mots, ce
qui démontre qu’il y a en fait une structure. Ces propriétés sont facilement observables :
o Nombre total de mots
o Fréquence des mots
o mots rares (1, 2… 100 fois) :
o mots fréquents (3000 fois) : proviennent surtout des classes syntaxiques de mots fermées (=on
n’ajoute jamais de mots neufs à ces classes).
▪ Déterminants, pronoms, conjonctions, prépositions
o combien de fois apparait chaque fréquence (fréquence de la fréquence des mots, on peut leur
attribuer un rang) : il y a normalement beaucoup de mots différents avec des fréquences très
basses, et très peu de mots avec des fréquences très élevés (loi de Zipf)
NB : “Because corpora don’t contain the same number of words, we can’t use a simple
frequency count to see in which corpus a word is more common. For example, very occurs in
the spoken portion of the Corpus of Contemporary American English (COCA) 195,000 times and
in the written portion of the COCA 198,000 times; from looking only at the simple frequency
count, we might conclude that very is used only slightly more in written language. But, because
the written portion of the COCA is much larger than the spoken portion, we can only get an
accurate comparison by calculating how many times very occurs per million words. This is the
normed count. » Cf. Bennett
o Fréquence de la fréquence des mots : combien de mots différents (types) apparaissent dans un texte? La
distribution des mots dans les textes est souvent très déséquilibré : il y a des mots qui se répètent
souvent, mais d’autres qui apparaissent très rarement, même une seule fois par texte (hapax legomena,
en grec, « lu une seule fois » ).
o Dispersion «the degree to which occurrences of a word are distributed throughout a corpus evenly or
unevenly/clumpily” (Gries)
o Even dispersion: a word appears evenly throughout a corpus
o Uneven dispersion: a word only appears in specific parts of a corpus
- Dispersion : "le degré auquel les occurrences d'un mot sont distribuées dans un corpus de manière
égale ou inégale/agglutiné" (Gries).
o Dispersion régulière : un mot apparaît uniformément dans un corpus.
o Dispersion inégale : un mot n'apparaît que dans certaines parties du corpus.
o Collocations : combinaison de mots qui apparaissent ensemble plus souvent que par hasard. Phrase
courte composée de quelques mots (2 ou plus) dont la combinaison a un sens propre, qui n’est pas
simplement la somme des mots qui la composent.
o Pourraient être incluses dans un dictionnaire
o Ont une traduction propre, pas littérale : make up > maquillage
o Facilement observables statistiquement : sélection des paires les plus fréquents (nom-nom,
nom-adjetif) (cf. Manning Schütz)
Exemples des collocations les plus fréquentes de verbes avec les noms « paix » et « climat »
o Mots-clés : mots simples ou expressions multi-mot (multi-word expressions) qui apparaissent plus
fréquemment dans le corpus principal (focus corpus) que dans le discours général. Le discours général
est représenté par le corpus de référence. Cela donne une idée du vocabulaire typique qui caractérise un
corpus particulier.
Exemple : en bas, on compare un corpus thématique sur le TAL avec un corpus de référence général du Web.
On peut observer que les mots-clés simples et les expressions multi-mots de notre corpus sont des termes du TAL.
Cela veut dire que ces mots apparaissent plus souvent dans le corpus thématique que dans celui de référence.
Questions méthodologiques
Fiche du corpus
• Lors de la collecte d'un corpus, il est important de documenter l'origine des sources et la date de collecte
des documents, entre autres aspects.
Limitations d’usage et droits d’auteur
• Certains textes ont un copyright (livres, articles…)
• Textes sur Internet > normalement ok pour fins de recherche, mais besoin d’anonymiser si on va les faire
publiques
Concordanciers
Comme un corpus peut contenir des millions de mots, il est généralement impossible de l'examiner sans un outil
informatique puissant, à savoir un concordancier. C’est un moteur de recherche qui permet d'examiner un corpus
afin de visualiser les mots dans leur contexte et d'en extraire des informations sur la fréquence, les collocations
ou la grammaire. Certains concordanciers peuvent être installés sur un ordinateur, tandis que d'autres sont en
ligne.
• Exemples:
• https://www.english-corpora.org/ (Mark Davies)
• https://cfpr.huma-num.fr/index.php?page=concordancier
• https://www.corpusdelespanol.org/
Les concordanciers permettent de vérifier l'usage réel, plutôt que de se fier à l’intuition.
L’analyse du langage doit pouvoir déterminer n’importe quelle structure dans une séquence de mots
(morphologique, syntaxique, sémantique, textuelle).
Prétraitements
Avant d’appliquer une méthode statistique, les corpus bruts doivent subir une série de prétraitements : c’est à dire,
des transformations du texte brut (suite de caractères) pour lui donner une forme/structure. On parle aussi de
nettoyage et de normalisation.
Nettoyer le corpus signifie ignorer certains caractères (ponctuation, espaces,…) et le normaliser implique
regrouper les variantes d’un même élément sous une seule forme standardisée (par ex. En éliminant les variations
dans l’orthographe).
Si on observe un exemple de notre corpus TAL, on déduit que certains éléments ne sont sûrement pas nécessaires
pour certaines analyses (les chiffres, caractères {}, emails @ univ-ubs.fr… ) :
« Quand le TAL robuste s'attaque au langage parlé : analyse incrémentale pour la compréhension de la parole
spontanée Antoine Jean-Yves, Goulian Jérôme, Villaneau Jeanne Laboratoire VALORIA – Université de Bretagne Sud
Rue Yves Mainguy, F-56000 Vannes – Mel : {Nom. Prenom} @ univ-ubs.fr Résumé – Abstract Dans cet article, nous
discutons de l'application au langage parlé des techniques d'analyse syntaxique robuste développées pour l'écrit…
» [exemple de texte brut du corpus TAL]
Très souvent on applique des algorithmes qui vont filtrer ces éléments.
Dans des types de textes concrets comme les textes des réseaux sociaux cela pose des problèmes particuliers,
comme le traitement des émojis, des hashtags ou des mentions. Selon le but de notre tâche de TAL, on les gardera
ou on les filtrera. Dans l’exemple suivant, si on filtre les émojis, on perd complètement le sens du tweet :
Du point de vue pratique, pour nettoyer les corpus bruts on applique des règles de transformation sous forme
d’algorithmes de base. On identifie (de façon automatique) des chaines de caractères, et on les transforme dans
le format désiré. Pour cela on utilise les expressions régulières.
L’expression régulière la plus simple est une seule chaîne de caractères (case respectée)
/woodchucks/
/WOODCHUCKS/
Le niveau morphologique
Avant de présenter les prétraitements au niveau morphologique, il faut réfléchir sur une question essentielle :
qu’est ce qu’un mot ? Les définitions existantes sont souvent problématiques : « un mot est compris entre deux
séparateurs » , « un mot est la plus petite unité de sens possible »…
Du point de vue linguistique, le morphème est l’unité de base pour la construction d’un mot. Les morphèmes
peuvent être lexicaux (liste ouverte) ou grammaticaux (fermée), mais en TAL on considère aussi la catégorie des
entités nommées (liste ouverte). Typiquement, un mot ou unité lexicale se compose de morphèmes : un radical et
des affixes (préfixe, suffixe, circonfixe, infixe), qui peuvent se combiner selon les règles de composition et affixation :
dérivation / flexion.
Une unité lexicale présente certaines caractéristiques que l’on peut définir : elle a une forme lemmatisée, elle
appartient à une catégorie grammaticale, et présente des informations de flexion.
La conceptualisation de ce que l’on entend par « mot » aura des conséquences sur la façon dont on applique les
prétraitements au niveau morphologique.
Pour les textes oraux, il faudra prendre des décisions sur les marqueurs de disfluence tels que l’interjection euh…
Pour des outils de transcription, il est probablement mieux de les éliminer, mais pour la reconnaissance de la
parole ils sont normalement maintenus car ils indiquent que le locuteur va reformuler, et donc elles aident à
prédire le mot suivant.
Lemmatisation
C’est la tâche qui consiste à déterminer que deux mots ont la même racine. Pour cela, on représente les mots
dans leur forme canonique, comme dans l’entrée de dictionnaire, par ex. l’infinitif des verbes, masculin singulier
des adjectifs, des noms. Pour chaque mot, on aura une forme canonique et des formes fléchies :
- Lemme : Ensemble de formes lexicales ayant le même radical, la même catégorie et le même sens du
mot (cf. Jurafsky). Par exemple : « manger »
- Forme d’un mot : la forme complète fléchie ou dérivée du mot (cf. idem) « mangeant, mangeait, mange…
»
La lemmatisation est nécessaire pour les langues complexes du point de vue morphologique (comme le français
ou l’espagnol), mais pour l’anglais, la forme des mots est souvent suffisante pour la plupart des tâches du TAL.
Racinisation (stemming)
Cela consiste à normaliser les variantes morphologiques (singulier = pluriel, temps verbaux) de tous les tokens, en
retirant les affixes. Le résultat ne doit pas forcément être un mot existant (unbuckles > unbuckl)
Problèmes :
- On parle de over-stemming lorsque deux mots ayant des lemmes différents sont ramenés à la même
racine. C'est ce qu'on appelle un faux positif.
o Wander > wand
- On parle de under-stemming lorsque deux mots qui devraient avoir la même racine ne le sont pas. Il s'agit
également d'un faux négatif.
o Alumnus > alumnu / alumni > alumni
Dans la pratique, on applique ces prétraitements avant d’élaborer les listes de vocabulaires d’un corpus, comme
les listes des mots les plus fréquents, des lemmes les plus fréquents, etc.
Types: nombre de mots différents dans un corpus VS Tokens : nombre total de mots filés
« Types are the number of distinct words in a corpus […]. Tokens are the total number N of running words. If we
ignore punctuation, the following Brown sentence has 16 tokens and 14 types:
They picnicked by the pool, then lay back on the grass and looked at the stars. […]
Another measure of the number of words in the language is the number of lemmas instead of wordform types. »
(Jurafsky and Martin p.13)
Exercice :
1. Dans la phrase suivante :
- Compter le nombre de mots (tokens) avec et sans ponctuation
- Compter les types de mots
- Faire une liste des lemmes
Au contraire, cet article s'intéresse à leur application au langage parlé et plus précisément à la compréhension de
parole en situation de dialogue homme-machine finalisé. 27 / 30
à+le contraire, cet article se intéresse à leur application à+le langage parlé et plus précisément à la compréhension
de parole en situation de dialogue homme-machine finalisé 23
à
le
contraire
ce
article
se
intéresser
leur
application
langage
parler
et
plus
précisément
la
compréhension
parole
en
situation
dialogue
homme
machine
finaliser
Exercice 2 :
Dans la nuit de lundi à mardi, une attaque « massive » de dizaines de drones ukrainiens a visé Moscou, a indiqué
le maire de la capitale.
Cette phrase compte 25 mots et 20 types.
SE « A token is the smallest unit that a corpus consists of. A token normally refers to:
• a word form: going, trees, Mary, twenty-five…
• punctuation: comma, dot, question mark, quotes…
• digit: 50,000…
• abbreviations, product names: 3M, i600, XP, FB…
• anything else between spaces
There are two types of tokens: words and nonwords. Corpora contain more tokens than words. Spaces are not
tokens. A text is divided into tokens by a tool called a tokenizer which is often specific for each language.”
La fonction basique vous permet de sélectionner si vous voulez une liste de mots ou des lemmes, et des catégories
grammaticales spécifiques, et de filtrer selon si le mot commence, finit ou contient certains caractères.
La fonction avancée présente plus d’options aussi bien pour le type de mots que de lemmes, ainsi que des
possibilités avancées pour les filtres de caractères, notamment en incluant les expressions régulières ou une liste
déterminée de mots.
Vous pouvez aussi : exclure de mots, inclure des non-mots, distinguer la case, préciser les fréquences minimales
et maximales, choisir des options pour l’affichage (selon certains attributs) et calculer la liste pour un sous-corpus.
Les résultats sont présentées par ordre décroissant de fréquence. Sketch Engine propose plusieurs mesures de
fréquence (Voir options d’affichage ) :
- fréquence absolue : nombre total de fois que l’élément est trouvé dans le corpus
- fréquence par million : fréquence relative, utile pour comparer des fréquences dans des corpus différents
- ARF (Average reduced frequency) et ALDF (Average Logarithmic Distance Frequency): fréquences
modifiées dont le calcul permet d'éviter que les résultats ne soient excessivement influencés par une
forte concentration d'un élément dans une ou plusieurs petites parties du corpus.
- On peut aussi calculer combien de documents présentent un mot en termes absolus (« comptage de
documents ») ou relatifs (« Relative DOCF », pourcentage des documents).
THÈME 6 — Prétraitements des corpus par niveaux de langue : Lexique
A partir de maintenant, on expliquera des prétraitements qui ne sont pas toujours appliqués pour toutes les tâches
du TAL. Ce sont des traitements du texte qui visent à l’enrichir avec des informations qui ne sont pas dans le texte
(et pas tellement à le nettoyer ou à le normaliser, comme les prétraitements expliqués auparavant).
Le niveau lexical
Au niveau du lexique, chaque unité peut être classifiée selon la catégorie grammaticale (ou parties du discours, en
TAL) à laquelle elle appartient. Certaines catégories remontent à l’Antiquité grecque, lorsque Denys le Thrace, aussi
appelé « le grammairien », a déterminé les parties du discours dont la dénomination persiste jusqu’à nos jours :
nom, verbe, pronom, préposition, adverbe, conjonction, participe et article.
Les catégories peuvent appartenir à une classe fermée (dont les membres sont fixes, comme pour les mots
grammaticaux tels que les prépositions ou les conjonctions) ou ouverte (dont de nouveaux membres sont créés
en permanence, comme les noms ou les verbes). La liste des « dépendances universelles » de Nivre et al. (voir
tableau) inclut des catégories applicables en théorie à tous les types de langues. Par contre, il existe aussi des listes
plus spécifiques qui s’appliquent à des langues particulières et qui sont souvent utilisées pour l’étiquetage de
corpus dans des langues concrètes (ex. la liste des catégories pour l’anglais du Penn Treebank).
Pour le TAL, il est nécessaire aussi de considérer la catégorie des entités nommées, qui correspond au sens général
aux noms propres, et pour le domaines biomédical aux termes de genre naturel tels que les espèces et les
substances biologiques (tels que les noms de médicamentes, de maladies ou de gènes) . C’est une catégorie
spéciale puisqu’elle s’applique souvent à des expressions de plus d’un mot tels que « New York city » ou « Brussels
Airport Zaventem ». Les entités nommées sont principalement des noms de personne, de lieu et d’organisation.
Ces informations catégorielles sont l’objet d’annotations à partir de programmes qui étiquettent les corpus de
façon automatique.
La difficulté de la reconnaissance d’entité nommée est non seulement l’attribution d’une étiquette correcte
(« Charles de Gaulle » peut être PER ou LOC), mais aussi la délimitation de l’extension de l’expression (où
commence et surtout où finit l’entité nommée).
Exercice :
1. En commençant par le début, annotez les catégories grammaticales de la première phrase du texte copié
en bas (extrait de Wikipédia).
2. Extrayez les entités nommées du texte et annotez-les.
Marie Haps, née Marie Julie Frauenberg au Luxembourg, à Diekirch, le 29 avril 1879 et morte le 14 mars 1939 à La
Panne en Belgique est une philanthrope belgo-luxembourgeoise qui œuvra toute sa vie pour l'accès à l'éducation
pour les jeunes filles. Elle fonde en 1919 l'École supérieure de jeunes filles qui, mixte depuis 1963, s'appelle
aujourd'hui l'Institut libre Marie Haps.
3. Il y a beaucoup de programmes en ligne que vous permettent de faire des analyses automatiques à
plusieurs niveaux de langue. Par exemple, CoreNLP(https://corenlp.run/) inclut un POS Tagger, NER, et
un parser pour plusieurs langues, dont le français. Copiez le texte précédent et appliquez les différentes
analyses.
4. Comparez avec vos analyses.
Sketch Engine applique ces traitements au niveau lexical pour tous ses corpus. Cela fait que, pour la plupart des
outils de la plateforme, la plateforme permet de restreindre la recherche selon les catégories grammaticales (part-
of-speech) (WordSketch, Thesaurus, Différence de profils lexicaux, Concordance, Liste de mots, Mots-clés).
Par exemple, pour l’outil Liste de mots, au lieu de créer une liste de tous les mots les plus fréquents, vous pouvez
filtrer par catégorie et créer une liste des adjectifs, adverbes, noms… les plus fréquents.
Vous pouvez consulter la liste complète des étiquettes utilisées pour le Français dans Sketch
Engine ici : https://www.sketchengine.eu/french-freeling-part-of-speech-tagset/
THÈME 7 — Prétraitements des corpus par niveaux de langue : Syntaxe
Dans le niveau de la syntaxe, l’analyse de la structure syntaxique aide à trouver le sens de la phrase. Les corpus
arborés (treebanks), collections de corpus analysés et annotéssyntaxiquement, constituent une ressource
essentielle pour le traitement du langage naturel dans n'importe quelle langue. L'analyse automatique des phrases
bénéficie directement des corpus annotés syntaxiquement. Actuellement, la plupart des analyseurs syntaxiques
de pointe utilisent des approches statistiques ou neuronales. Ces analyseurs syntaxiques utilisent les informations
syntaxiques annotées dans les corpus arborés pour entraîner les modèles d'analyse syntaxique.
Souvent l’ordre et la dépendance des mots dans un phrase aident à déterminer qui a fait quoi à qui (« le chat tue
la souris » « la souris tue le chat »), mais cela n’est pas le cas pour toutes les langues.
Le point sur les dénominations : Avec le terme « phrase », on se retrouve face au même problème qu’avec le terme
« mot », il est difficile à caractériser. Il y a d’autres unités constituées de plusieurs mots, mais plus petites qu’une
phrase :
- Chunks : les plus petites séquences de mots auxquelles on peut associer une catégorie (Elles ne peuvent
pas contenir un autre groupe de même nature : « l’arbre du jardin », 2 chunks)
- Termes : noms communs, entités nommées ou groupes nominaux éventuellement composés d’autres
groupes nominaux (« syndrome de Gilles de la Tourette »)
- Clauses : séquences de mots contenant au moins un sujet et un prédicat
- Proposition : idem
- Syntagmes : un mot ou une suite de mots consécutifs auquel on peut associer une catégorie syntaxique
Prétraitements
Il y a deux types de programmes utilisés pour prétraiter les textes et les enrichir du point de vue syntaxique :
- Analyseurs basés sur les constituants. Les programmes basés sur les constituants se concentrent sur la
structure hiérarchique d'une phrase. Les mots appartiennent à des catégories lexicales (nom/verbe, etc.)
et se regroupent selon des règles pour former des syntagmes (NP-groupe nominal /VP-groupe verbal,
etc.) qui, à leur tour, forment la phrase. Les règles de structure de phrase définissent l'ordre correct des
constituants dans la phrase.
Pour visualiser cette structure hiérarchique, on utilise habituellement une représentation arborescente.
Les constituants sont par la suite annotés selon leur fonctions.
- Analyseurs basés sur les dépendances. Certaines traditions s’en passent des arbres et analysent la syntaxe
par des relations de dépendances. Ces grammaires se concentrent sur les relations entre les mots. Il y a
principalement deux types de mots dans une phrase, le mot dépendant (enfant) et le mot parent (tête).La
relation dirigée (étiquette) est utilisée pour indiquer la relation entre le mot dépendant et le mot parent.
Ambigüités : Certaines phrases sont ambiguës, car elles peuvent avoir plusieurs interprétations possibles et donc
plusieurs représentations. Pour résoudre les ambigüités on a besoin de la sémantique, on identifie les rôles
sémantiques pour arriver à l’arbre correct. En fait, certains cas sont plus complexes et difficiles à représenter
(ellipse, apposition, thématisation)
Ex. de Chomsky : 4 structures possibles de la phrase « Time flies like an arrow »
En parlant des caractéristiques statistiques d’un corpus(Thème 4), on avait mentionnée aussi les « collocations » et
de « mots-clés », des notions que nous allons explorer par la suite, ainsi que les calculs utilisés et la façon de les
explorer dans Sketch Engine. (La notion de collocation appartient à ce chapitre, les mots-clés au chapitre suivant.)
Collocations
La notion de collocation est à cheval entre le niveau lexical et le niveau syntaxique. Une collocation est une
expressioncomposée de deux mots ou plus qui correspond à une façon conventionnelle de dire les choses. Par ex.
les groupes nominaux « armes de destruction massive », locutions verbales « mettre en œuvre », ou expressions
idiomatiques « mesdames et messieurs».
Le linguiste qui a introduit et développé la notion c’est Firth dans sa théorie contextuelle du sens
(Contextual theory of Meaning, 1957), où le contexte est essentiel : le contexte social, le contexte textuel ( pas
seulement la phrase) et le contexte des mots (à différence de la linguistique Chomskienne, ou même
structurelle). Selon lui, « collocations of a given word are statements of the habitual or customary places of that
word” (1957:181).
Il y a plusieurs méthodes pour détecter des collocations, la plus simple est la fréquence. Si deux mots apparaissent
souvent ensemble, ils sont probablement des collocations. Une façon de compter les mots qui apparaissent
fréquemment ensemble c’est en utilisant les comptages de n-grams.
Fonction n-grams
Un n-gramme est une séquence de n mots : un 2-gramme (que nous appellerons bigramme) est une séquence de
deux mots, comme « votre devoir », et un 3-gramme (un trigramme) est une séquence de trois mots
comme « rendez votre devoir ».
Pour calculer les n-grammes dans un corpus, il faut d’abord choisir leur longueur, c'est-à-dire le nombre
de tokens dont les n-grammes doivent être composés. Une valeur ou une fourchette de valeurs peut être
sélectionnée (entre 2 et 6).Dans la fonction basique de SE, c’est le seul choix à prendre :
Les n-grammes sont sensibles à la casse, et les non-mots seront exclus (ces options peuvent être modifiés dans
Avancé).
En faisant une liste de bigrammes dans n’importe quel corpus, on observera que les plus fréquents sont des
combinaisons de mots grammaticaux (de la, de l’, d’un…) qui apparaissent très souvent ensemble mais ne
constituent pas une collocation. Par exemple, dans le corpus French Web 2023, le premier bigramme avec contenu
lexical (un peu) est en position 48.
Avec l’exploration de 3-grammes et plus (4-grammes, 5-grammes) on observera plus facilement des collocations
au sens plus strict du terme.
Exemple :
Si vous comparez les listes de résultats pour les 2-, 3- et 4-grammes du French Web 2023, vous verrez que les 3-
grammes et les 4-grammes rendent plusieurs locutions (à partir de, à la fois, de plus en plus, dans le cadre de/du,
la mise en place, pour la première fois). Pour englober toutes leslocutions dans une même liste de résultats, on
peut choisir la fourchette 3-4 dans le choix de la longueur.
Dans l’option avancée, le filtre « imbriquer les n-grams » nous permet de regrouper les résultats qui font partie du
même n-gramme plus long. Par exemple « la mise en » et « mise en place » seront regroupés dans « la mise en
place ».
Exercice :
Explorez les n-grammes (de 3- à 6-grammes) dans le corpus TAL, pour l’attribut « mot », en imbriquant les n-
grammes et en choisissant l’option d’ignorer la casse (A=a). Vérifiez que vous avez ce résultat-ci :
Fonction WordSketch
C’est la fonction qui permet d’observer les collocations d’un terme concret (fonctions basique et avancée), ou
toutes les collocations présentes dans un corpus (fonction « as a list »).
Les résultats sont ordonnés selon les patrons grammaticaux(par ex. si on cherche un nom, on observera les
résultats des collocations du nom en tant que sujet, en tant qu’objet, ou modifié par des adjectifs, entre autres).
Ceci est dû au fait que, à différence des n-grams, pour inclure une collocation dans la liste, le
programme tient en compte les règles grammaticales définies para la grammaire de la langue sélectionnée. C’est
une façon d’éviter les combinaisons de mots grammaticaux dans l’exploration de collocations (comme il arrive avec
les n-grammes), en filtrant par catégories grammaticales et notamment par les combinaisons typiques du point de
vue catégorielle (adjectif, noms, prépositions…): AN, NN, AAN, ANN, NAN, NNN, NPN… Pour arriver à cela, le corpus
a dû être enrichi avec un analyseur syntaxique (voir page 2).
De plus, le programme calcule la distance entre les mots. Très souvent, une collocation n’est pas une composition
fixe mais elle contient quelques éléments variables (knocked on hisdoor, knock on the metal door, …). Pour inclure
ces cas, le programme inclut dans ses calculs de fréquence des mots dans le contexte (jusqu’à une certaine
distance +- 3 mots à droite et à gauche, par ex.).
Les options de la fonction Avancée du Word Sketch permettent d’appliquer un filtre de catégorie grammaticale
(classe de mots, ou POS-tag) et établir les fréquences minimales d’apparition, ainsi que choisir un sous-
corpus.Dans la fenêtre des résultats, à côté de chaque collocation un menu est proposé (symbole : trois points …)
pour explorer la collocation en profondeur à partir des concordances (listes de tous les exemples de la concordance
en contexte), la collocation de la collocation (word sketch combiné des deux termes) , et le thesaurus (mots qui
apparaissent dans les mêmes contextes, synonymes ou autres termes sémantiquement liés.)
Il est utile aussi de visualiser les collocations les plus fréquentes. Dans le menu de visualisation, vous pouvez choisir
quelques options : le/s patron/s grammaticaux à visualiser, le nombre de collocations (10 par défaut), les cercles
des mots et la taille dynamique du texte (cela reflète la fréquence, cercle/ texte plus grand -> collocation plus
fréquente)
Word Sketch Difference – Différence de profils lexicaux
Cette fonctionnalité permet de comparer les collocations dedeux termes de façon conjointe. Les résultats sont une
liste des collocations typiques de l’un et de l’autre, classifiés dans un continuum marqué par des couleurs. Les
options et filtres sont les mêmes que pour le word sketch simple.
On peut par exemple comparer les collocations des termes « roi » et « reine » pour extraire des conclusions sur la
façon dont on parle des rois et reines dans le corpus.