Outil RAFALES pour l'acquisition linguistique
Outil RAFALES pour l'acquisition linguistique
Le travail que nous présentons est le produit This work is the product of
d'une recherche interdisciplinaire impliquant interdisciplinary research involving
l'Intelligence Artificielle, la psychologie Artificial Intelligence, cognitive
cognitive et la didactique des langues. LSA psychology and applied linguistics. LSA
(Analyse Sémantique Latente) est un outil (Latent Semantic Analysis) is a computer
informatique qui a été appliqué à l'acquisition tool which was later applied to language
du langage (Landauer et Dumais, 1997). Nous acquisition (Landauer & Dumais, 1997).
avons utilisé LSA pour élaborer un prototype We have been using LSA to elaborate a
appelé RAFALES (Recueil Automatisé prototype: RAFALES (an automatized text
Favorisant l'Acquisition d'une Langue de collection favouring LSP acquisition).
Spécialité). RAFALES est un outil RAFALES is a computer tool designed to
informatique d’aide à l’acquisition d’une help foreign langage acquisition that
langue étrangère inspiré à la fois des théories borrows from Vygotsky's theory of
de Vygotsky sur la zone proximale de Proximal Zone of Development (1968) and
développement (1968) et de la théorie de Krashen's Input Theory (1985).
l’input développée par Krashen (1985). After exposing the theoretical basis of LSA
Après avoir exposé les bases théoriques de and RAFALES, we describe the procedure
LSA et de RAFALES, nous présentons la through which we propose to validate our
procédure que nous avons adoptée pour subjects' Optimum Acquisition Proximity
valider la Proximité Optimale d'Acquisition (POA) of Legal English.
des sujets apprenant l'anglais juridique
comme langue de spécialité.
Introduction
D ans les années 1980-90, les travaux menés dans le cadre de l’analyse
formelle automatisée de la langue intéressent de plus en plus les
chercheurs en ALE (Acquisition des Langues Etrangères), en particulier
ceux qui développent des programmes d’enseignement des langues assisté par
164 V. Zampa & F. Raby Un outil pour l’acquisition de la langue de spécialité
La méthode
LSA analyse un large corpus de textes par le biais d’une analyse statistique et
représente le sens de chaque mot, paragraphe et texte, par un vecteur, dans un
espace de grandes dimensions.
LSA est un outil automatique ne nécessitant que très peu l’intervention d’un
humain. En effet, la seule intervention de l’humain réside dans la fabrication du
corpus qu’il va lui donner, c’est-à-dire dans la sélection des textes qui vont
permettre à LSA de créer ses “ connaissances du domaine ”. Par exemple, si
nous voulons travailler en anglais des sciences sociales, nous aurons recours à
un expert de ce domaine pour fabriquer ce corpus ; si, par contre, nous
travaillons sur une langue “ dans sa globalité ”, nous utiliserons un corpus
contenant des textes divers et variés (livres, encyclopédie, article, etc.).
vecteur à 2000 dimensions. Ce sont ces vecteurs qui représentent le sens des
mots.
Le sens d’un mot est donc donné par tous les mots qui sont proches de lui dans
les différents paragraphes où il apparaît. Puis cette matrice est réduite. C’est
dans cette réduction que réside la puissance de LSA. En effet, c’est ce processus
qui induit les similarités sémantiques entre mots. Tous les vecteurs sont réduits
par une méthode proche d’une décomposition aux valeurs singulières. Cela
permet de ne garder que les dimensions ayant les valeurs les plus élevées. Le
nombre de dimensions est très important ; il doit se situer entre 100 et 300 afin
d’obtenir les meilleurs résultats dans le domaine des langues (Landauer et
Dumais 1997).
Cette réduction est au cœur de la méthode car elle extrait les relations
sémantiques : si un mot, par exemple mouse, co-occurre avec des mots, par
exemple cat, cheese, qui co-occurrent avec un second mot, par exemple mice, et
que le premier mot ne co-occurre pas avec des mots tels que : rice, television,
qui ne co-occurrent pas non plus avec le second mot, alors les deux mots sont
considérés comme proches.
Les similarités entre mots ou paragraphes sont calculées à partir des cosinus
entre les vecteurs les représentant. Une mesure de similarité sémantique a une
valeur comprise entre –1 et 1.
Cette méthode est très puissante : un mot peut être considéré comme proche
sémantiquement d’un autre mot sans jamais apparaître dans le même texte. De
la même façon, deux documents peuvent être proches sans avoir aucun mot en
commun. Une intéressante fonctionnalité de cette méthode est que
l’information sémantique ne provient que du niveau lexical. Il n’est pas
nécessaire de représenter la théorie du domaine par un réseau sémantique ou
une formule logique.
Nous allons utiliser LSA au sein de notre prototype pour modéliser les
connaissances du domaine et les connaissances de l’élève mais aussi pour
sélectionner les textes les plus appropriés pour optimiser l’acquisition du
vocabulaire de spécialité. Dans le prototype que nous avons développé, nous
sélectionnons les textes qui nous semblent les plus appropriés afin d’optimiser
l’acquisition du vocabulaire de spécialité. Nous avons choisi de travailler en
acquisition d’une langue naturelle, mais, signalons qu’il est aussi possible de
travailler sur des langues non naturelles telles que les jeux par exemple. En
effet, des recherches sur l’acquisition de jeux tels que khala ou tic-tac-toe, ont
montré que l’acquisition est meilleure quand elle est fondée sur des
informations sémantiques et non uniquement sur des informations syntaxiques
(Lemaire 1998 ; Zampa et Lemaire à paraître).
ASp N°31-33 2001 167
Notre base de connaissances du domaine contient 1 013 174 mots, pour la partie
base de connaissances en anglais général, répartis dans huit œuvres complètes
et 1 123 362 mots répartis dans 677 textes, pour la partie base de connaissances
de la langue de spécialité. La plupart des textes proviennent de la Toile, et le
reste nous a été fourni par divers collègues enseignant l’anglais juridique
auxquels nous avons demandé de l’aide, via la SAES , pour constituer notre
corpus.
La tâche de nos sujets consiste donc à lire des textes sélectionnés par RAFALES
dans la base de connaissances du domaine en tenant compte du modèle de
l’élève. Ce dernier est initialisé avec des textes de la langue générale (nous
estimons qu’un élève de premier cycle a déjà été exposé à environ 1 000 000 de
mots dans une langue étrangère au cours de sa scolarité), puis au fur et à
mesure de l’utilisation du prototype, nous mettons à jour le modèle de l’élève en
ajoutant les textes qu’il a lus.
Comme nous l’avons mentionné, le sujet apprend en lisant, mais nous pensons
que le processus d’acquisition peut être accéléré en sélectionnant les bons
textes, c’est-à-dire les plus appropriés au sujet en tenant compte de ses
connaissances. Le problème est donc de savoir quel texte a la plus grande
chance d’élargir l’espace sémantique de l’élève. Il est évident que si l’on donne
des textes trop proches ou trop éloignés de ce que l’élève a déjà acquis, il
n’acquerra que peu ou pas de connaissances supplémentaires. Il faut donc
fournir à l’élève des connaissances qui ne sont ni trop éloignées ni trop proches
de ce qu’il connaît déjà. En référence aux théories de Vygotsky (1968) avec la
notion de zone proximale de développement et celle de Krashen (1985) sur
Input Hypothesis, nous sommes en mesure de définir une proximité optimale
d’acquisition (POA), grâce à LSA. Afin de valider (ou d’invalider) notre valeur
de POA, nous avons fait une expérimentation.
Expérimentation du prototype
L ’expérience s’est déroulée sur 5 séances, chacune durant à peu prés une
demi-heure avec 10 sujets répartis dans 2 groupes. Le premier groupe lit
les textes de la POA, le second les textes les plus éloignés de ce qu’il
connaît déjà. Nous voulons ainsi savoir si le groupe auquel nous fournissons les
textes les mieux situés progresse mieux que l’autre. Au départ, nous aurions
souhaité pouvoir constituer quatre groupes incluant également un groupe
aléatoire et un groupe auquel nous aurions fourni des textes situés juste dans la
zone de connaissances du modèle des étudiants. Malheureusement, nous
n’avons pas suffisamment de volontaires et nous avons dû nous limiter à deux
groupes. De ce fait, notre travail n’a pas encore de statut expérimental, à
proprement parler, mais la pré-expérimentation à laquelle nous procédons
nous permettra de savoir si les outils expérimentaux que nous avons élaborés
sont pertinents ou non pour tester la validité de la POA.
Les hypothèses
A travers notre expérimentation nous essayons de valider différentes
hypothèses :
L’acquisition est optimale quand la sélection des textes se fait avec la
POA.
LSA permet de fabriquer un modèle de l’apprenant qui peut être testé.
Nous avons une hypothèse supplémentaire qui sera validée (ou invalidée) par
des sujets différents, les experts :
ASp N°31-33 2001 169
les réponses faites aux différents exercices par LSA et par des experts du
domaine sont similaires.
Pour valider nos hypothèses notre plan d’expérience comporte trois types de
variables :
La variable dépendante est la note aux exercices. Elle peut être divisée en
plusieurs variables qui correspondent aux différents domaines de
compréhension traités : compréhension générale, vocabulaire général,
vocabulaire spécialisé.
Des variables contrôlées qui sont : l’homogénéité des groupes (pour cela
nous avons utilisé un test de placement) et la quantité de mots lus par
séance (2000 mots environ à chaque séance).
1Les textes ont été donnés sur papier. En effet, dans un premier temps, nous cherchons à
valider un prototype et le fait d’effectuer l’expérimentation sur machine n’apporte rien.
170 V. Zampa & F. Raby Un outil pour l’acquisition de la langue de spécialité
Séance n°1 :
Séances 2, 3 et 4
Exercice de vocabulaire Lecture de n Exercice de vocabulaire
textes
Séance n°5
ou à une loi plus ancienne dont le poids juridique sera jugé plus fort. Il sera
donc inhibé sur le modèle de l’information contradictoire ou inattendue
(Tapiero & Otero 1999). Pour bien comprendre la décision finale et le
commentaire, l’étudiant doit garder en mémoire de travail chaque proposition
pertinente. Il doit se souvenir de son contenu sémantique, et de l’explication de
son poids ou de sa faiblesse juridique. Le processus fait appel au travail de
synthèse sémantique chez Walker et Meyer (1980) au travers duquel le texte lu
fait l’objet d’une constante réévaluation à un niveau supérieur d’emboîtement
et dépend fortement des connaissances du sujet dans le domaine. Ici, les deux
textes sélectionnés par LSA comme les plus centraux posent un problème
intéressant. Les exercices proposés ont été conçus de manière à rendre les
tâches de compréhension aussi équivalentes que possible : même format,
mêmes types d’inférence, même type de structure et de nature du discours. En
revanche, pour un étudiant français, la connaissance du domaine présente un
grand écart : la question de l’intégration par le travail des handicapés et des
minorités est une question qui se pose en France, tant sur le plan politique que
social ou juridique, tandis que les processus conduisant à la désignation d’un
candidat aux postes de gouverneur, sénateur ou attorney lui sont, a priori,
étrangers. Aussi, si nous comparons les deux phrases ci-dessous, nous pouvons
faire l’hypothèse qu’elles présentent des difficultés identiques sur le plan
lexical, mais que la deuxième sera plus difficile à traiter à cause de la
connaissance du domaine.
Texte1
Earlier this week, the court ordered lower courts to restudy rulings
that said states and their agencies must abide by a 1963 federal law
that requires employers to give men and women equal pay for
equal work.
Texte2
The justices will hear arguments in the case in April. A decision is
expected by July. Before 1996, California allowed only voters who
were members of a political party to vote in that party's primary to
nominate candidates for the general election.
Nous avons également sélectionné au hasard, toutes les cinq lettres, des mots
de la langue générale, dans le dictionnaire général du CNRS2. Nous ne nous
préoccupons pas des effets de polysémie puisque LSA postule que, grâce aux
effets de contexte et de proximité, la polysémie ne gêne pas l’acquisition du
langage. Cependant, lorsque nous analyserons les résultats, nous distinguerons
les trois catégories ÷mots appartenant uniquement au vocabulaire général,
mots appartenant uniquement au vocabulaire de spécialité et mots appartenant
aux deux vocabulaires÷ afin de savoir si les mots appartenant uniquement à la
langue de spécialité s’acquièrent mieux que ceux appartenant au double
registre. En effet, Tapiero et Otero (1999) ont montré que l’information la mieux
retenue était l’information la plus surprenante comme des mots totalement
étrangers ou des idées contraires aux hypothèses contenues dans le reste du
texte (inconsistent information). En ce cas, les mots appartenant strictement au
lexique de spécialité devraient être mieux rappelés. Mais seront-ils mieux
acquis ? C’est ce que devraient vérifier les exercices de vocabulaire. Par ailleurs,
LSA stipule que l’acquisition se fait par l’établissement de liens de proximité à
travers des proximités de contextes. Un mot appartenant aux deux lexiques
(général et de spécialité) devrait alors être plus facilement acquis du fait de la
variété des contextes dans lequel il apparaît.
Nous allons vous fournir une série de mots cibles. Pour chacun d’eux
nous vous donnerons une liste de 5 mots et vous devrez indiquer le
type de relation qui les unit au mot cible. Il y a quatre types de
relation : même sens, sens contraire, mot d’un même domaine, et pas
de relation.
Vous pouvez aussi signaler que vous ne connaissez pas le mot en
cochant la case “ mot inconnu ”.
Pour chacune des relations de même sens, même domaine et sens
contraire, que vous aurez pu établir, vous voudrez bien juger aussi de
sa force ( + pour une relation forte ou – pour une relation faible).
Attention : Pour chacun des mots de la liste vous ne devez cocher
qu’une seule case.
De même l’exemple était aussi donné en français pour les mêmes raisons :
Pour chaque mot nous vous fournirons un tableau tel que ceux ci-
dessus que vous devrez remplir (faites une croix pour donner votre
réponse).
Remarque : Les relations sont indépendantes de la nature
grammaticale (verbe, nom, adjectif, etc.) des mots.
d1 d2 d3 d4 d5 d6 d7 d8 d9 d10
e1 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
e2 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
e3 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
e4 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
M .1 .2 .3 .4 .5 .6 .7 .8 .9 1
174 V. Zampa & F. Raby Un outil pour l’acquisition de la langue de spécialité
Remarque : la proximité est une valeur donnée sur une échelle allant de -1 à 1.
Une valeur de 1 correspond à un texte très proche (proximité sémantique d’un
texte avec lui-même) et une valeur proche de 0 correspond à des textes n’ayant
aucun rapport.
T out d’abord, nous allons vérifier les effets de notre prototype sur
l’acquisition au travers de l’évolution des “ notes ” aux exercices de
vocabulaire (cette notion de note est explicitée dans la section “ validation
de la seconde hypothèse ”). Cette vérification se fera à deux niveaux : au niveau
de chaque séance et au niveau de l’ensemble des séances. Nous comparerons,
tout d’abord, les notes obtenues à l’exercice de vocabulaire en début de séance à
celles de fin de séance. Ensuite, nous observerons l’évolution de ces “ notes ”
entre le premier test de la première séance et le dernier test de la dernière
séance. Enfin nous analyserons les résultats obtenus aux deux tests de
compréhension situés en première et en dernière séances.
Nous allons comparer les résultats des deux groupes aux différents exercices
ainsi que leurs évolutions. Nous allons aussi étudier comment évoluent les trois
grandes catégories de mots : mots appartenant à l’anglais juridique et à la
langue générale ; mots appartenant seulement à l’anglais juridique, mots
n’appartenant pas à l’anglais juridique.
qu’un élève moyen de DEUG est supposé avoir acquises. Nous avons
grossièrement estimé cela à 1 000 000 mots pour l’anglais général et aux 25
textes les plus centraux de la base de connaissances de la langue de spécialité.
En prenant ce nombre de 25 nous obtenons le même nombre de fois la réponse
“ mot inconnu ” par les sujets et par LSA. Puis quand LSA effectuera le
deuxième exercice il aura en plus dans ses connaissances les n textes lus par le
sujet entre les deux exercices. Et ainsi de suite.
-4 sens différent +
-3 sens différent –
0 pas de relation
1 même domaine –
2 même domaine +
3 même sens -
4 même sens +
Donner le type de relation et la force entre deux mots correspond à donner une
valeur de proximité sémantique. Nous fabriquons donc une échelle permettant
de placer toutes nos réponses possibles. Nous centrons cette échelle sur 0 qui
correspond au fait que les deux mots n’ont pas de relation. Puis nous mettons à
4 les mots de même sens avec une relation forte (ce qui correspond en quelque
sorte à une relation de synonymie). Une relation “ sens différent ” avec une
relation forte (qui correspond à une relation d’antonymie), a une valeur de –4
sur cette échelle. Nous avons donc les relations de synonymie et d’antonymie
qui se trouvent à une égale distance de “ pas de relation ”. Puis nous plaçons sur
ce continuum, à 1, les mots appartenant à un même domaine mais ayant une
relation faible, et à 2 les mots appartenant au même domaine et ayant une
relation forte.
176 V. Zampa & F. Raby Un outil pour l’acquisition de la langue de spécialité
Si l’étudiant indique qu’il s’agit d’une relation forte de sens différent, ce qui
correspond à un score de –4, son score sera égal à : |2,5 – (-4)| = 6,5
Cas particuliers :
Quand un expert ne connaît pas un mot ou qu’il n’a pas répondu, nous ne
tenons pas compte de sa réponse (ou non réponse) pour le calcul de la
norme.
Quand l’étudiant ne connaît pas un mot, nous considérons que la distance
entre sa réponse et la norme est égale à la valeur maximale, soit 8.
Une fois que nous avons calculé le score de l’étudiant au pré- et au post-
exercice, nous évaluons son acquisition au cours de la séance. Cette acquisition
correspond à l’évolution de la valeur absolue de l’écart entre le pré-exercice et la
norme et le post-exercice et la norme. Elle est calculée de la manière suivante :
score post-exercice – score pré-exercice.
Avec cette méthode de calcul, une acquisition maximale a une valeur de –8 (le
sujet ne connaît pas le mot lors du pré-exercice (score de 8) et donne la même
valeur que la norme lors du post-exercice (score de 0) ; 0-8 = -8) et une
acquisition minimale a une valeur de 8 (le sujet donne la même valeur que la
norme lors du pré-exercice et coche la réponse “ mot inconnu ” lors du post-
exercice).
Conclusion
sur des travaux antérieurs ; c’est pourquoi nous avons besoin d’une phase
importante de pré-expérimentation3.
S’il est vrai que le cadre théorique relève d’une recherche fondamentale sur les
processus d’acquisition du langage, notre souci est bien de déboucher sur des
applications didactiques concernant l’acquisition d’une langue étrangère de
spécialité. L’idée qu’il serait possible de constituer un logiciel de type RAFALES
dans un domaine de spécialité, d’introduire ce programme dans des centres de
langues ou des médiathèques pour que les étudiants puissent venir tester leurs
connaissances et lire les documents fournis par la base de données comme
convenant le mieux à leurs progrès, a semblé à nos collègues une idée
prometteuse. Les travaux de Lemaire et Dessus (2001) sur la correction
automatique des copies vont dans le même sens : alléger le travail de
l’enseignant, faciliter le travail personnel de l’étudiant.
3 C’est pour cette raison que nous avons présenté ce programme de recherche, avant même
d’en connaître les résultats, au sous-groupe “ droit ” du GERAS et lors de l’atelier sur les TICE
de la SAES. Nous remercions vivement les membres du sous-groupe pour l’accueil qu’ils nous
ont réservé. Les résultats seront communiqués lors du prochain colloque du GERAS.
178 V. Zampa & F. Raby Un outil pour l’acquisition de la langue de spécialité
RÉFÉRENCES BIBLIOGRAPHIQUES
Coirier, P. et al. Knowledge of Language : its nature, origin and use. Convergence.
London : Praeger, 1996.
Fayol, M. Des idées aux textes. Psychologie cognitive de la production orale, verbale
et écrite, Paris : PUF, 1997.
Foltz, P.W. “ Latent Semantic Analysis for Text-Based Research ”, Behavior Research
Methods, Instruments & Computers, 28, 2, 197-202, 1996.
Landauer, T.K. & S.T. Dumais. “ A Solution to Plato's Problem : The Latent
Semantic Analysis Theory of the Acquisition, Induction, and Representation of
Knowledge ”, Psychological Review, 1 04, 211-40, 1997.
Landauer, T.K., D. Laham, B. Rehedr & M.E. Schreiner. “ How Well Can Passage
Meaning Be Derived without Using Word Order ? A Comparison of Latent Semantic
Analysis and Humans ”, 19th annual meeting of the Cognitive Science Society. P.
Langley, M.G. Shafto (eds.), Mawhwah, N.J. : Erlbaum, 412-17, 1997.
Vygotsky, L.S. Thought and language, 1934, A. Kozulin (trad.) Cambridge, MA : The
MIT Press, 1968.
Walker, C.H. & B.J. Meyer. “ Integrating Different Types of Information in Text ”,
Journal of Verbal Learning and Verbal Behavior, 19, 263-75, 1980.
Wolfe, M.B.W. et al. “ Learning from Text : Matching Readers and Texts by Latent
Semantic Analysis ”, Discourse Processes, 25, 309-36, 1998.
Zampa, V. & B. Lemaire. “ Latent Semantic Analysis for Student Modeling ”, Journal
of intelligent Information Systems, special issue on Education applications, (à
paraître).
[Link]@[Link]
http ://[Link]/sciedu/fraby
[Link]@[Link]
___________________ö