HDR Torres
HDR Torres
Spécialité : Informatique
1
Dans ce document, je présente les travaux de recherche que j’ai menés après ma
thèse, d’abord comme chercheur au LANIA, Mexique, puis pendant mon post-doctorat
au Canada au LANCI-UQAM et comme chercheur au ERMETIS, ensuite à l’École Po-
lytechnique de Montréal et finalement au LIA où je suis actuellement responsable de
la thématique TALNE. Un goût personnel pour les méthodes d’apprentissage automa-
tique m’a orienté vers leur utilisation dans le Traitement Automatique de la Langue Na-
turelle. Je laisserai de côte des aspects psycholinguistiques de la compréhension d’une
langue humaine et je vais m’intéresser uniquement à la modélisation de son traitement
comme un système à entrée-sortie. L’approche linguistique possède des limitations
pour décider de cette appartenance, et en général pour faire face à trois caractéristiques
des langages humaines : Ambiguïté. Je pense que l’approche linguistique n’est pas tout
à fait appropriée pour traiter des problèmes qui sont liés à un phénomène sous-jacent
des langues humaines : l’incertitude. L’incertitude affecte aussi les réalisations tech-
nologiques dérivées du TAL : un système de reconnaissance vocale par exemple, doit
faire face à de multiples choix générés par une entrée. Les phrases étranges, mal écrites
ou avec une syntaxe pauvre ne posent pas un problème insurmontable à un humain,
car les personnes sont capables de choisir l’interprétation des phrases en fonction de
leur utilisation courante. L’approche probabiliste fait face à l’incertitude en posant un
modèle de langage comme une distribution de probabilité. Il permet de diviser un mo-
dèle de langage en plusieurs couches : morphologie, syntaxe, sémantique et ainsi de
suite. Tout au long de cette dissertation, j’ai essayé de montrer que les méthodes nu-
mériques sont performantes en utilisant une approche pragmatique : les campagnes
d’évaluation nationales et internationales. Et au moins, dans les campagnes à portée
de ma connaissance, les performances des méthodes numériques surpassent celles des
méthodes linguistiques. Au moment de traiter de grandes masses de documents, l’ana-
lyse linguistique fine est vite dépassée par la quantité de textes à traiter. On voit des
articles et des études portant sur Jean aime Marie et autant sur Marie aime Jean ou en-
core Marie est aimée par Jean. J’ai découvert tout au long de mes travaux, en particulier
ceux consacrés au résumé automatique et au raffinement de requêtes, qu’un système
hybride combinant des approches numériques à la base et une analyse linguistique au
sommet, donne de meilleures performances que les systèmes pris de façon isolée. Dans
l’Introduction je me posais la question de savoir si la linguistique pouvait encore jouer
1
Résumé généré automatiquement par C ORTEX 3.8 (métriques ALFX et un taux de compression de
10%) à partir de quelques sources LATEXdu manuscrit.
3
un rôle dans le traitement de la langue naturelle. Enfin, le modèle de sac de mots est une
simplification exagérée qui néglige la structure de la phrase, ce qui implique une perte
importante d’information. Je reformule alors les deux questions précédentes comme
ceci : Les approches linguistiques et les méthodes numériques peuvent-elles jouer un
partenariat dans les tâches du TAL ? Cela ouvre une voie intéressante aux recherches
que je compte entreprendre la conception de systèmes TAL hybrides, notamment pour
la génération automatique de texte et pour la compression de phrases. On peut diffici-
lement envisager de dépasser le plafond auquel les méthodes numériques se heurtent
sans faire appel à la finesse des approches linguistiques, mais sans négliger pour autant
de les valider et de les tester sur des corpora.
4
Table des matières
5
4 Classification probabiliste de texte 63
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2 Modélisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.1 Modèles bayésiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.2 Automate de Markov . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3 Adaptation statique et dynamique . . . . . . . . . . . . . . . . . . 69
4.2.4 Réseau de Noms Propres . . . . . . . . . . . . . . . . . . . . . . . 69
4.3 Cohésion thématique des discours . . . . . . . . . . . . . . . . . . . . . . 70
4.4 Expériences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.4.1 Résultats de l’adaptation . . . . . . . . . . . . . . . . . . . . . . . . 73
4.4.2 Résultats avec la cohérence interne . . . . . . . . . . . . . . . . . . 74
4.4.3 Analyse des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6
7.4.1 Comparaison globale des méthodes . . . . . . . . . . . . . . . . . 126
7.4.2 Comparaison des méthodes de classement requête par requête . 128
7.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Références 155
7
8
De l’écrit au numérique
Dans ce document, je présente les travaux de recherche que j’ai menés après ma
thèse, d’abord comme chercheur au LANIA2 Mexique, puis pendant mon post-doctorat
au Canada au LANCI-UQAM3 et comme chercheur au ERMETIS4 , ensuite à l’École Po-
lytechnique de Montréal5 et finalement au LIA où je suis actuellement responsable de
la thématique TALNE6 . L’ensemble de mes recherches, tout au long de presque dix ans,
a été possible grâce à la collaboration avec des collègues de trois pays différents, de mes
étudiants en DEA, Master ou des chercheurs en thèse. Dans cette dissertation, j’essaie
de donner une vision cohérente de mes travaux, même si la chronologie n’est pas for-
cément respectée. Il n’aurait pas pu en être autrement. Le double fil conducteur de mes
recherches, donc du manuscrit, reste l’apprentissage automatique et le traitement de
textes. Un goût personnel pour les méthodes d’apprentissage automatique m’a orienté
vers leur utilisation dans le Traitement Automatique de la Langue Naturelle (TAL).
Délibérément, j’ai décidé d’utiliser un minimum de ressources ou de méthodes lin-
2
Laboratorio Nacional de Informática Avanzada, http://www.lania.mx
3
Laboratoire d’Analyse Cognitive de l’Information http://www.lanci.uqam.ca
4
UQAC http://wwwdsa.uqac.ca/ermetis
5
http://www.polymtl.ca
6
http://www.lia.univ-avignon.fr/equipes/TALNE
9
guistiques. En dehors du recours à des lemmatiseurs et à quelques outils mineurs, mes
recherches ne font pas appel à ces techniques. Le choix n’était pas anodin : je voulais
à tout moment, créer des algorithmes à la fois indépendants de la langue et du do-
maine d’application. Les ressources linguistiques sont, par définition, très liées à une
langue. Souvent elles le sont aussi à un domaine particulier. Le choix numérique s’im-
posait donc comme une issue prometteuse. À mon avis, il fallait en tirer le maximum
de profit. Je vais justifier ce choix initial.
Un modèle peut être validé empiriquement de plusieurs façons. Je laisserai de côté
des aspects psycholinguistiques de la compréhension d’une langue humaine et je vais
m’intéresser uniquement à la modélisation de son traitement comme un système (boîte
noire) à entrées-sorties. Mais comment définir l’entrée et la sortie dans le processus de la
langue naturelle ? On peut les définir de plusieurs façons : de manière statistique (corré-
lations des mots dans les phrases) ou symbolique (analyse profonde de la structure lin-
guistique). Je vais prendre en exemple le traitement de la syntaxe. Elle joue un rôle cen-
tral dans le TAL, car les outils subséquents (comme l’analyse sémantique par exemple)
en ont besoin. Le paradigme linguistique est basé sur la notion qu’une langue peut être
décrite en utilisant une grammaire formelle (comme les grammaires CFG). Une gram-
maire est un ensemble de règles qui spécifient comment la paire phrase-analyse est
reconnue comme appartenant (grammaticalement correcte) ou pas (non-grammaticale)
à une langue. L’approche linguistique possède des limitations pour décider de cette ap-
partenance, et en général pour faire face à trois caractéristiques des langages humaines :
– Ambiguïté. Les humains sont capables de choisir l’analyse pertinente d’une phrase.
En opposition, une grammaire souvent associe des multiples analyses à une phrase,
sans donner d’indication pour choisir parmi elles.
– Robustesse. Les personnes sont capables de comprendre des déviations non-gra-
mmaticales. Par contre, de petites variations dans une phrase ne sont pas accep-
tées par une grammaire.
– Performances. Les humains sont capables de traiter les phrases complexes de fa-
çon efficace. Ces mêmes phrases posent des défis formidables aux approches lin-
guistiques, et leurs analyses sont souvent incorrectes.
Je pense que l’approche linguistique n’est pas tout à fait appropriée pour traiter des
problèmes qui sont liés à un phénomène sous-jacent des langues humaines : l’incer-
titude. L’ambiguïté se manifeste à plusieurs niveaux : sens (puce, le petit animal vs.
puce électronique), étiquettes grammaticales (la belle ferme le voile : ART- ADJ | NOM -
ADJ | NOM | VERB - ART | PRON - NOM | VERB ), structure syntaxique (I saw the man with
the telescope possède au moins deux structures)... L’ambiguïté fait partie des langues
humaines et en fait sa richesse, mais certainement elle pose un énorme problème aux
grammaires. Les grammaires formelles sur-génèrent les analyses possibles comme une
fonction exponentielle du nombre de mots dans une phrase (Martin et al., 1987). L’in-
certitude affecte aussi les réalisations technologiques dérivées du TAL : un système de
reconnaissance vocale par exemple, doit faire face à de multiples choix générés par
une entrée. Il doit choisir le meilleur. Pour une personne, le problème est différent.
Malgré le fait que l’ambiguïté est liée à l’incertitude, une personne a accès à de vastes
ressources extra-linguistiques (connaissance du monde, préférences culturelles, expé-
riences...). L’humain est habitué à traiter la langue avec des connaissances incomplètes.
10
Par contre, une grammaire n’a pas accès à ces connaissances. Elle est a priori non adé-
quate pour résoudre l’ambiguïté car elle ne peut pas faire face à l’incertitude. La robus-
tesse est une caractéristique des langues naturelles difficile à appréhender. Les entrées
non-grammaticales (par exemple : John not home où il manque le verbe et l’artiste peins
la nuit où il manque l’accord à la 3ème personne, mais elles restent encore compréhen-
sibles) induisent l’utilisation non commune de la langue (pie niche haut, oie niche bas).
Je voies mes propres phrases, celles de ce manuscrit comme un exemple auquel la lin-
guistique peut se heurter. Les grammaires formelles déterminent les frontières de la
langue et donc les phrases non-grammaticales sont classés comme non appartenant à
la langue. Les phrases étranges, mal écrites ou avec une syntaxe pauvre (chat, SMS, e-
mail...) ne posent pas un problème insurmontable à un humain, car les personnes sont
capables de choisir l’interprétation des phrases en fonction de leur utilisation courante.
Mais la robustesse sort aussi du domaine de la linguistique. La performance n’est pas
uniquement un aspect technologique du TAL. La vitesse de traitement des algorithmes
TAL est fonction directe de l’espace de représentation qui a été reténu. L’incertitude
donne lieu à de grands espaces qui sont difficiles à traiter.
11
prentissage statistique : étant donné un ensemble fini de données, l’apprentissage auto-
matique estime les paramètres d’un modèle qui s’ajuste le plus possible aux données et
qui est capable de généraliser sur des nouvelles données non vues auparavant. Le cœur
du problème revient à savoir comment estimer ces paramètres. L’approche probabiliste
et l’apprentissage automatique offrent plusieurs choix pour résoudre ce problème, cha-
cun avec ses propres motivations théoriques et philosophiques : Maximum-Likelihood,
modèles de Markov, réseaux de neurones... Enfin un mot sur l’intégration dans l’ap-
proche probabiliste. Il permet de diviser un modèle de langage en plusieurs couches :
morphologie, syntaxe, sémantique et ainsi de suite. Accepter cette division implique
que ces couches peuvent fonctionner séparément les unes des autres. C’est à dire, que
la syntaxe et la morphologie sont totalement déconnectées, ce qui est faux, spécialement
dans des langues sémitiques (Sima’an, 2003). La question de savoir comment résoudre
cette intégration est un problème difficile pour la linguistique. Une solution possible
se trouve dans l’utilisation de la définition des probabilités conditionnelles. C’est cela
d’ailleurs qui permet, par exemple, d’utiliser le modèle du canal bruité pour la traduc-
tion statistique ou encore l’analyse sémantique, une fois que l’analyse syntaxique a été
réalisée. Après cette réflexion, on peut se poser les questions suivantes : La linguistique
peut-elle encore jouer un rôle dans le traitement de la langue naturelle ? Les méthodes
numériques sont elles complètement adéquates et suffisantes pour les tâches du TAL ?
Je réserve mes réponses pour le chapitre de Bilan général et Perspectives. On ne sait pas
encore écrire des programmes qui comprennent le texte tel que le fait un être humain
(Ibekwe-SanJuan, 2007). Cela devient trop complexe. Il est parfois difficile pour un in-
dividu d’expliquer comment il arrive à extraire des conclusions à partir d’une lecture
entre les lignes. Il faut aborder le problème sous une autre optique, plus pragmatique
peut-être. On ne peut pas, avec un logiciel, reproduire exactement la manière dont les
personnes lisent et produisent des documents. Ce sont des chemins très différents, sé-
parés par un abîme d’expériences, de vécus, des perceptions de la réalité... La démarche
de la machine reste donc très inhumaine. Et c’est là où réside, entre autres, sa force. Une
démarche numérique du TAL, quoi qu’on en dise, reste très compréhensible, car tout
est réduit à des chiffres ou des probabilités qui sont assez parlantes. On peut à tout
moment savoir pourquoi un système a privilégié tel choix par rapport à autre. À mon
avis, on n’a probablement pas besoin d’écrire des programmes qui comprennent véri-
tablement le texte. Il est connu, par exemple, que les résumeurs professionnels n’ont
pas besoin de comprendre un document pour en rédiger un résumé pertinent : il leur
suffit d’en avoir la technique. On a besoin uniquement d’écrire des programmes qui
raisonnablement traitent les masses de documents à la place des personnes... et qu’ils
le fassent rapidement. Tant que la démarche reste efficace, peu importe si elle est in-
humaine, de près ou de loin pourvu que le résultat soit au rendez-vous en termes de
quantité et de qualité.
Je commencerai par les perceptrons et les règles d’apprentissage basées sur la phy-
sique statistique. Puis la classification de courriels, d’opinions, et les méthodes proba-
bilistes pour identifier auteur et thématique. Je présenterai un système de résumé auto-
matique, une application au raffinement des requêtes, pour revenir enfin à la physique
statistique en introduisant le concept d’énergie textuelle comme une nouvelle mesure
de similarité.
12
Chapitre 1
13
Chapitre 1. Classification d’objets par des perceptrons
Pour une tâche de classification, l’apprentissage est supervisé si les étiquettes des
classes des patrons sont données a priori. Une fonction de coût calcule la différence
entre les sorties souhaitées et réelles produites par un classifieur, puis, cette différence
est minimisée en modifiant les paramètres par une règle d’apprentissage. En particulier,
si le classifieur est un réseau de neurones, les paramètres sont l’ensemble des poids et
son architecture. Un ensemble d’apprentissage supervisé est constitué par P couples,
tel que L = {(~ξ µ , τ µ ), µ = 1, ..., P, τ µ } ; où ~ξ µ est le patron d’entrée µ, et τ µ sa classe.
En particulier τ µ ± 1 dans le cas des problèmes à deux classes. ~ξ µ est un vecteur de
dimension N avec des valeurs numériques ou catégoriques. Si les étiquettes τ µ ne sont
pas présentes en L, il s’agit d’apprentissage non supervisé : la classe des objets n’est
pas connue et on cherche à établir des similarités entre les patrons.
Dans ce mémoire, lors des expériences, je ferai appel aux deux types d’appren-
tissage, séparément ou ensemble. Dans une autre approche intermédiaire, dite semi-
supervisée, le classifieur nécessite de connaître un petit sous-ensemble des exemples
d’apprentissage L avec leur classe, afin d’effectuer des regroupements sur le reste des
données. Je ferai appel à cette stratégie dans les tâches de classification de courriels (c.f.
section 2.2).
Le neurone formel (Hertz et al., 1991) peut se trouver dans l’état actif (sa sortie σ =
1) ou inactif (sa sortie σ = 0). Celui-ci additionne les signaux reçus, qu’on note ~ξ =
(ξ 1 , · · · , ξ N ), qui sont pondérés par des poids w = (w1 · · · , w N ). Si le résultat de cette
sommation est supérieur au seuil θ = −w0 , le neurone est actif, inactif autrement. La
sortie d’un neurone peut s’écrire comme une fonction du champ h donné par :
N
h= ∑ wi ξ i + w0 = w · ~ξ + w0 (1.1)
i
14
1.3. Monoplan : un réseau qui grandit en apprenant
Afin de résoudre des problèmes non linéairement séparables, il est nécessaire d’uti-
liser un réseau de neurones multicouches. Une approche constructive contrôle la crois-
sance du réseau (nombre d’unités) selon la difficulté de l’ensemble d’apprentissage,
15
Chapitre 1. Classification d’objets par des perceptrons
16
1.4. La parité N-dimensionnelle et ses pièges
blèmes tels que la parité à 2 entrées (ou en générale, le problème ou-exclusif XOR). La
capacité d’un simple perceptron est limitée, puisqu’il peut résoudre uniquement les
problèmes linéairement séparables (Cover, 1965; Gardner, 1987). La N-parité est dif-
ficile même dans de petites dimensions : N ≤ 5, et sa difficulté augmente exponen-
tiellement en fonction du nombre de patrons disponibles. Ce problème a été abordé
par plusieurs méthodes, telles que la BP et ses variations. Ces méthodes ont des dif-
ficultés même dans de petites dimensions dues aux minima locaux dans lesquels la
minimisation de la fonction de coût peut être piégée. Cette anomalie est provoquée par
le grand nombre d’états voisins (dans l’espace des entrées, leurs distances de Ham-
ming sont d H = 1) avec des sorties opposées. Une solution avec des poids binaires a
été présentée par (Kim et Park, 1995). Une approche alternative est l’utilisation de ré-
seaux de neurones incrémentaux qui ajoutent des unités afin de corriger les erreurs
d’apprentissage avec une heuristique appropriée, comme je l’ai montré dans ma thèse
(Torres Moreno, Juan-Manuel, 1998).
J’ai initié l’étude concernant la solution de la N-parité au CEA/Grenoble avec Mme.
Gordon, puis je l’ai continuée avec Julio Aguilar au LANIA, Mexique. Les résultats ont
été publiés dans la revue Neural Processing Letters (Torres-Moreno et al., 2002).
17
Chapitre 1. Classification d’objets par des perceptrons
w ξ -1-1-1-1
+ w 2 4
2 +1 4
w+
+ -1-1-1 1
1-1-1-1 -1 1-1 1 -1-1 1-1
3 8
+1
-1
ξ -1-1 1 1
1 6
1-1 1-1 -1 1 1-1 1-1-1 1 -1 1-1 1
1 1-1-1
1 -1 3 5 7 1 1 1-1 1 1-1 1 1- 1 1 1 -1 1 1 1
τ=+
τ=- 1111
N ν0 ν1 ν2 ν3 ν4 ν5 ν6 ν7 ν8 ν9 ν10 ν11 ν f
2 1 2 1 1
3 1 3 3 1 2
4 1 4 6 4 1 5
5 1 5 10 10 5 1 10
6 1 6 15 20 15 6 1 22
7 1 7 21 35 35 21 7 1 44
8 1 8 28 56 70 56 28 8 1 93
9 1 9 36 84 126 126 84 36 9 1 186
10 1 10 45 120 210 252 210 120 45 10 1 386
11 1 11 55 165 330 462 462 330 165 55 11 1 772
τ= - + - + - + - + - + - +
Cette table représente le triangle du Pascal. La distribution de classes alternée des som-
mets νk (la classe de patrons τ = −1 ou τ = +1) peut être séparée pour des hyperplans
successifs. Si N = 3, nous avons un patron de la classe −1 (sommet ν0 ), trois de la classe
+1 (sommet ν1 ), trois de la classe −1 (sommet ν2 ) et un patron de la classe +1 (sommet
18
1.4. La parité N-dimensionnelle et ses pièges
supposons que l’hyperplan séparateur soit placé entre νm et νm+1 , orienté de telle manière que
les patrons aux deux sommets νm et νm+1 sont bien classés. Si m est pair, les patrons mal
classés à gauche de l’hyperplan séparateur, selon le vecteur normal, sont dans les sommets
ν1 , ν3 , · · · , νm−1 . Si m est impair, alors les erreurs sont dans les sommets ν0 , ν2 , · · · , νm−1 .
On appelle η1 la première moitié du nombre d’erreurs, et on a :
m
2 −1
N
∑ si m est pair
k =0
2k + 1
η1 = (1.11)
m −1
N 2
si m est impair
∑ 2k
k =0
m −1
N−1
= ∑ (1.12)
k =0
k
19
Chapitre 1. Classification d’objets par des perceptrons
De la même façon, on peut compter les erreurs η2 du côté droit de l’hyperplan séparateur :
N −m
2
N
∑ si N − m est pair
k =2 m + k
η2 = (1.13)
N − m −1
2
N
si N − m est impair
∑
m+k
k =2
N
N−1
= ∑ (1.14)
k = m +1
k
alors :
N −1 N−1
νf = 2 − (1.16)
m
N−1
Et donc, ν f sera plus petit quand est plus grand. En outre, si N = 2p, alors m = p,
m
et si N = 2p + 1 alors m = p ou m = p + 1. Q.E.D.
J’ai décidé de vérifier l’expression (1.9) expérimentalement. Pour ce faire, j’ai pré-
paré des ensembles d’apprentissage exhaustifs de la parité N-dimensionnelle avec 2 ≤
N ≤ 15 et P = 2N . Dans tous les cas, la solution trouvée par Minimerror pour la pre-
mière unité cachée correspond exactement au nombre d’erreurs prédit par (1.9). Pour le
reste des unités, bien qu’il est connu que le nombre exact d’unités cachées nécessaires
avec un réseau à une seule couche cachée sans rétroaction est H = N, la Rétropropa-
gation (et d’autres algorithmes non-constructifs (Peretto, 1992)) ne peut pas le trouver.
Monoplan a trouvé la solution correcte, et elle a été vérifiée expérimentalement jusqu’à
N ≤ 15. Les résultats expérimentaux au delà de N > 15 sont très difficiles à obtenir, car
le gradient cherche la minimisation d’un coût parmi un très grand nombre de minima
locaux.
Il est possible que plusieurs patrons soient associés à la même représentation in-
terne. En d’autres termes, quelques représentations internes sont dégénérées, puis-
qu’elles associent une représentation interne ~σµ à plusieurs patrons µ. Par exemple,
20
1.4. La parité N-dimensionnelle et ses pièges
i Biais w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
1 -1.04 -1.10 0.52 1.00 1.03 -1.03 -1.07 -1.02 -1.00 -1.07 -1.00
2 1.44 -0.93 0.88 0.92 0.92 -0.96 -0.93 -0.97 -1.06 -0.93 -0.93
3 2.45 0.68 -0.69 -0.73 -0.71 0.68 0.72 0.74 0.73 0.71 0.68
4 2.47 -0.70 0.72 0.69 0.70 -0.70 -0.71 -0.69 -0.71 -0.68 -0.69
5 2.87 -0.54 0.54 0.51 0.53 -0.52 -0.52 -0.54 -0.50 -0.54 -0.52
6 2.84 0.49 -0.50 -0.58 -0.53 0.54 0.54 0.57 0.56 0.54 0.55
7 3.03 0.39 -0.37 -0.46 -0.45 0.41 0.42 0.43 0.47 0.42 0.45
8 3.06 -0.45 0.46 0.33 0.39 -0.42 -0.43 -0.40 -0.37 -0.43 -0.39
9 3.12 0.23 -0.17 -0.62 -0.40 0.26 0.19 0.31 0.49 0.25 0.39
10 3.12 -0.49 0.63 0.17 0.22 -0.28 -0.42 -0.33 -0.22 -0.38 -0.15
dans le problème du XOR les quatre patrons sont associés seulement à trois états dif-
férents σ. Ceci est un phénomène souhaitable qu’on a appelé la contraction de l’espace
d’entrées (Torres Moreno, Juan-Manuel, 1998). En effet, pour les P patrons appartenant
à L, seulement Pℓ ≤ P auront des représentations internes ~σν ; ν = 1, · · · , Pℓ .
Biais w1 w2 w3 w4 w5 w6 w7 w8 w9 w10
1.00 1.00 -1.00 1.00 1.00 -1.00 -1.00 1.00 1.00 -1.00 -1.00
21
Chapitre 1. Classification d’objets par des perceptrons
En 2002, lors d’un séjour comme chercheur invité au Laboratoire Lorrain de Re-
cherche en Informatique et ses Applications2 (LORIA) de l’INRIA (équipe Cortex), on
m’a proposé d’étudier le problème de classification de minéraux. J’ai décidé d’utiliser
les perceptrons sphériques pour trouver une solution. Cette section présente une stra-
tégie d’apprentissage hybride pour des tâches de classification non supervisées. J’ai
combiné l’apprentissage Fuzzy k-means et la version sphérique de Minimerror pour
développer une stratégie incrémentale permettant des classifications non supervisées.
Cette recherche a été réalisée en collaboration entre le Bureau des Recherches Géolo-
gique et Minière (BRGM)3 , l’équipe Cortex du LORIA-INRIA (France), l’École Polytech-
nique de Montréal et le Conseil de Recherche en Sciences Naturelles et Génie (CRSNG)
(Grant Nb. 239862-01), Canada. Nous avons publié les résultats de cette étude dans le
congrès ICANN/ICONIP 2003 (Torres-Moreno et al., 2003).
22
1.5. Classification hybride : Fuzzy-k et perceptrons sphériques
buts (15, 16, 17 ou 22, parmi d’autres) qui ne semblent pas pertinents. D’autre part, les
attributs 3, 5, 6 et 25 sont plutôt discriminants. Il est intéressant de savoir comment le
choix des attributs influence l’apprentissage et particulièrement la tâche de généralisa-
tion. Pour cette raison, nous avons créé 11 bases de données avec différentes combinai-
sons des attributs. Le tableau 1.4 montre le nombre d’attributs qualitatifs et quantitatifs
et la dimension des bases utilisée. La plage des valeurs étant extrêmement large, un
0,5
0,4
0,3
Difference
0,2
0,1
0,0
0 5 10 15 20 25
Attribute
pré-traitement des attributs quantitatifs s’impose afin de les homogénéiser. Ainsi, pour
chaque variable continue, la standardisation calcule la moyenne et l’écart-type. Puis, la
variable est centrée et toutes leurs valeurs ont été divisées par l’écart-type. Les attributs
qualitatifs ne sont pas modifiés. Le corpus ainsi modifié a été divisé de façon aléatoire
en ensembles allant de 10% (64 patrons) à 95 % (577 patrons) de la taille de la base
originale (641 patrons). Le complément a été choisi comme ensemble de test.
23
Chapitre 1. Classification d’objets par des perceptrons
P
f
λ/( f −1)
dµk
∑ mµk ξ µ
µ =1
mµk = c ; βk = P
; µ = 1, · · · , P; k = 1, · · · , c (1.19)
λ/( f −1) f
∑ dµj ∑ mµk
j =1 µ =1
~ − ~ξ − ρ2
γs = w (1.20)
24
1.5. Classification hybride : Fuzzy-k et perceptrons sphériques
que celui linéaire, le rayon prend la place du biais. Quelques tests ont suggéré que
les perceptrons hypersphériques pouvaient être appliqués de façon efficace sur pro-
blèmes de classification (Torres Moreno, Juan-Manuel, 1998; Torres Moreno et Gordon,
1998a). D’autres études (Godin, Christelle, 2000) ont approfondi les perceptrons sphé-
riques avec Minimerror. Ainsi, des stratégies incrémentales combinant perceptrons li-
néaires et sphériques, NetLS (tel que je l’avais envisagé dans ma thèse) ont confirmé les
performances des réseaux incrémentaux.
J’ai choisi une stratégie combinée : une première couche cachée non supervisée cal-
cule les centroïdes avec l’algorithme Fuzzy k-means. Comme entrée, on aura P patrons
à N entrées de l’ensemble d’apprentissage L. Alors, Minimerror-S de façon supervisée
trouve les séparations sphériques les mieux adaptées afin de maximiser la stabilité des
patrons. L’entrée pour Minimerror est la même L ensemble, avec les étiquettes τ µ cal-
culées par Fuzzy k-means. Bien que le nombre de classes est choisi à l’avance, la couche
non supervisée permet de se passer d’un étiquetage préalable des données, qui peut
s’avérer assez coûteux dans le cas des sites miniers.
J’ai mesuré la performance en classification (pourcentage des sites bien classés)
des ensembles de tests. La base VII (avec très peu d’attributs quantitatifs) a eu les
meilleures performances en apprentissage et en généralisation par rapport aux autres
bases. En utilisant tous les attributs, les performances s’écroulent. La figure 1.3 à droite,
montre au travers de quelques résultats ce comportement. Sur la base de cette constata-
tion, j’ai gardé la base de données VII pour réaliser 100 essais aléatoires. La capacité de
discrimination entre site et barren, selon le pourcentage des patrons appris est montrée
sur la figure 1.3. La détection de la classe site est bien supérieure à celle de la classe
barren. Une analyse fine des résultats a constaté que la détection d’or, d’argent et de
cuivre reste très précise, mais, celle de molybdène est plutôt pauvre. Ceci peut être ex-
pliqué en accord avec la présence faible de ce métal. Dans les mêmes conditions, un
perceptron multicouche avec 10 neurones sur une seule couche cachée obtient 77 % de
bons classements.
Après ma thèse, je me suis demandé s’il était possible de créer une approche non
supervisée de Minimerror. Les perceptrons sphériques, avec la stabilité γs définie par
l’équation (1.20), sont de bons candidats pour créer un algorithme non supervisé. Une
stratégie de croissance non supervisée a été suggérée pendant mon séjour au LORIA.
L’algorithme Minimerror-S non supervisé commence par obtenir les distances entre
les patrons. Une distance euclidienne peut être employée pour les calculer. Une fois les
distances établies, il commence par trouver la paire µ et ν de patrons avec la plus petite
distance ρ. Ceci crée le premier noyau incrémental. On fixe le centre de l’hypersphère
25
Chapitre 1. Classification d’objets par des perceptrons
80 90
85
VII (11,12,13,14,25) deposit
80
70
% Generalization Performance
75
IV (11,12,13,14) 70
% Performance
generalization
60 65
II (1 to 8)
60
55
50 barren
I (all attributes) 50
45
database VII (11,12,13,14,25)
40 40
10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100
% Patterns % Patterns
(~ξ µ + ~ξ ν )
w
~0 = (1.21)
2
Le rayon initial est fixé
3ρ
(1.22) ρ0 =
2
pour faire rentrer un certain nombre de patrons dans le noyau incrémental. Puis, les
patrons sont marqués τ = −1 s’ils sont à l’intérieur ou au bord de la sphère initiale,
et τ = 1 ailleurs. Minimerror-S trouve l’hypersphère {ρ∗, w~∗} qui sépare le mieux les
patrons. Les représentations internes sont σ = −1 si
1 1
− 2
<
cosh (γµ ) 2
autrement σ = 1. Ceci permet de vérifier s’il y a des patrons avec τ = 1 à l’extérieur
mais suffisamment proches de la sphère (ρ1∗ , w ~ ∗ ). Dans ce cas, τ = −1 pour ces patrons
1
et il les réapprend, répétant la procédure pour tous les patrons de L. En même temps,
il passe à un autre noyau de croissance qui formera une deuxième classe w ~ 2 , calcu-
∗ ~∗
lant avec Minimerror-S (ρ2 , w2 ), et répétant la procédure jusqu’à ce qu’il n’y ait plus
de patrons à classer. Il obtient enfin k classes. Une procédure de réduction peut éviter
d’avoir trop de classes en éliminant les perceptrons avec peu d’éléments (seuil fixé à
l’avance). Il est possible de définir des conditions à la frontière, qui sont des restrictions
qui empêchent de localiser le centre de l’hypersphère à l’extérieur de l’espace d’entrées.
Pour certains problèmes, cette stratégie peut être intéressante. Ces restrictions sont ce-
pendant facultatives : s’il y a trop d’erreurs d’apprentissage, l’algorithme décide de les
négliger, le centre et le rayon des sphères séparatrices peuvent diverger.
J’ai testé la version de Minimerror non supervisé sur le GIS Andes. Malgré sa simpli-
cité séduisante, le nombre de classes obtenues est parfois trop élevée. Les performances
26
1.6. Au delà des perceptrons
sont donc inférieures à celles obtenues avec l’approche hybride combinant k-means.
Des réflexions plus approfondies doivent être faites.
Les machines a support vectoriel (SVM) proposées par Vapnik (Vapnik, 1982, 1995)
permettent de construire un classifieur à valeurs réelles qui découpe le problème de
classification en deux sous-problèmes : transformation non-linéaire des entrées et choix
d’une séparation linéaire optimale. Les données sont d’abord projetées dans un espace
de grande dimension H muni d’un produit scalaire h· · · i où elles sont linéairement sé-
parables selon une transformation basée sur un noyau linéaire, polynomial ou gaussien.
Puis, dans cet espace transformé, les classes sont séparées par des classifieurs linéaires
qui déterminent un hyperplan séparant correctement toutes les données et maximisant
la marge, la distance du point le plus proche à l’hyperplan.
Elles offrent, en particulier, une bonne approximation du principe de minimisation
du risque structurel (c’est-à-dire, trouver une hypothèse h pour laquelle la probabilité
que h soit fausse sur un exemple non-vu et extrait aléatoirement du corpus de test soit
minimale).
En pratique, cette transformation est implicite dans le noyau K ( x, y) = hφ( x), φ(y)i.
La frontière de décision est de la forme :
P
f ( x) = hw, φ( x)i H + b = ∑ αi K ( xi , x ) + b (1.23)
µ =1
1
minw ||w||2 (1.24)
2
s.a
yi (< w, φ( xi ) > +b) ≥ 1∀i ∈ 1, · · · , P (1.25)
1.7 Conclusion
La classification d’objets est une tâche qui peut être réalisée par des perceptrons. J’ai
décidé d’étudier en profondeur les capacités de la règle d’apprentissage Minimerror et
27
Chapitre 1. Classification d’objets par des perceptrons
de l’algorithme Monoplan, qui croît en apprenant. Pour cela, j’ai étudié théoriquement
le problème de la parité N-dimensionnelle et une application de classification des sites
miniers.
La N-parité est une tâche de classification très difficile pour les réseaux de neu-
rones. Nous avons trouvé une expression théorique pour obtenir le nombre minimum
d’erreurs ν f comme fonction de N qui devrait correspondre à une séparation optimale.
On a vérifié expérimentalement cette quantité pour N = 1, · · · , 15 à l’aide d’un per-
ceptron entraîné par Minimerror. On a aussi résolu le problème complet de la parité
N-dimensionnelle selon une approche constructive avec un réseau de neurones feed-
forward minimal à une seule couche cachée de h = N unités. La combinaison hybride
de Minimerror et de Fuzzy k-means semble être prometteuse du point de vue d’un
apprentissage hybride. Cette stratégie a été appliquée à une base de données réelle,
qui nous a permis de prévoir d’une manière plutôt satisfaisante si un site pouvait être
identifié comme un dépôt de minerai ou pas. 75% des patrons bien classés par cet algo-
rithme est comparable aux valeurs obtenues avec d’autres méthodes supervisées clas-
siques. Ceci montre également la capacité driscriminante des attributs descriptifs que
nous avons choisis en tant que plus appropriés pour ce problème. Je pense qu’on de-
vrait obtenir une amélioration significative des performances en augmentant le nombre
d’exemples. Des études additionnelles doivent être effectuées pour déterminer plus
exactement d’autres attributs pertinents, afin d’attaquer des problèmes multiclasses.
J’ai suggéré également une variation de Minimerror pour la classification non supervi-
sée, en utilisant des séparateurs hypersphériques. Cependant il faudra approfondir la
stratégie pour la rendre plus performante.
D’autres méthodes plus avancées que les réseaux de neurones, telles que les SVM
ont été aussi présentées. J’utiliserai l’ensemble de ces classifieurs pour des tâches de
Traitement Automatique de la Langue Naturelle : catégorisation de texte, routage de
courriels, résumé automatique... combinées avec d’autres techniques probabilistes co-
mme les chaînes de Markov. Cela fera l’objet des deux chapitres suivants.
28
Chapitre 2
29
Chapitre 2. Classification de textes et le modèle vectoriel
30
2.1. La vectorisation de textes
31
Chapitre 2. Classification de textes et le modèle vectoriel
Descartes
1,0
INRA
0,9
Coran
0,8
0,7
0,6
<Terme>
0,5
0,4
0,3
0,2
0,1
0,0
0 50 100 150 200 250 300 350 400 450 500 550 600 650
Segment
F IG . 2.1: À gauche : le Coran avec 637 segments et 9 438 mots, dont 2 524 termes. À droite : les
courbes normalisée de termes en fonction du segments, appartenant à différents textes.
est proche de 1, plus les classes seront sélectives (moins d’éléments) et leur nombre
important. Alors que pour des faibles valeurs de ρ, le nombre de classes sera faible,
chaque classe comportant un grand nombre d’éléments. Bien que puissant pour des
applications textuelles montrant des performances supérieures (Meunier et al., 1999) à
d’autres méthodes, telles que k-means, ART1 est incapable de faire appartenir un même
segment à plusieurs classes et dépend du choix de ρ. Au LANCI, on utilisait le modèle
vectoriel et ART1 pour classer les textes (Seffah et Meunier, 1995; Meunier et al., 1999).
En 2000, J. G. Meunier, Patricia Velàzquez et moi-même, avons développé au LANCI,
l’algorithme incrémental Classphères (une sorte de perceptrons hypersphériques bien
plus simples que ceux proposés dans la section 1.5.5). Cet algorithme est basé sur
les distances entre hypersphères, pour essayer de palier les handicaps évoqués. Clas-
sphères est un algorithme à apprentissage non supervisé. Il construit des regroupe-
ments de segments qui se ressemblent en fonction d’une mesure de distance adéquate.
Il trouve donc, les prototypes qui codent mieux les classes. Nous avons opté pour la
version avec des distances de Hamming, car elle est mieux adaptée dans un espace bi-
naire. On cherche tous les voisins les plus proches de chaque segment dans l’hypercube
de dimension N, en les regroupant par rapport à une distance minimale. L’algorithme
commence par créer la matrice triangulaire de Hamming : H (µ, ν); 1 ≤ µ ≤ P; µ + 1 ≤
ν < P, qui correspond à la distance entre les segments µ et ν. Il suffit de calculer seule-
ment la partie triangulaire supérieure car la matrice est symétrique. Puis, il construit le
vecteur V (ν) : 2 ≤ ν ≤ P qui est la distance minimale entre un segment ν fixé, et les
segments µ, où 1 ≤ µ < ν − 1. Une classe est ainsi formée en cherchant dans H (µ, ν)
pour chaque ligne µ, les segments ν voisins qui ont la même distance minimale V (ν),
où µ + 1 ≤ ν < P. Cet algorithme construit alors des hypersphères centrées sur un
segment µ (patron), à rayon variable V (ν), à l’intérieur desquelles on retrouve des seg-
32
2.2. Routage automatique de courriels
ments voisins. Nous avons effectué plusieurs tests sur des textes de petite taille4 (< 3000
mots) et de taille moyenne5 (< 43 000 mots). Nous avons constaté que ART1 obtient un
nombre plus important de classes avec des écarts-types plus grands que Classphères
(l’écart-type augmente en fonction de la taille du texte pour les deux classifieurs). Bien
que séduisant, nous avons calculé la complexité de Classphères comme O( P2 ), étant P
le nombre de segments, ce qui limite son utilisation dans des corpus réels. Les résul-
tats de ce réseau de jouets, ont été publiés dans les mémoires du congrès JADT 2000
(Torres-Moreno et al., 2000).
Les méthodes de fouille de textes, utilisant le modèle vectoriel, apportent des solu-
tions partielles aux tâches de filtrage, de routage, de recherche d’information, de clas-
sification thématique et de structuration non supervisée. Ces méthodes présentent, de
surcroît, l’intérêt de fournir des réponses adaptées à des situations où les corpus sont en
constante évolution ou bien de se passer des barrières de la langue. Je présenterai dans
les sections suivantes deux applications de classification textuelle basées sur le modèle
vectoriel.
Les nouvelles formes de communication écrite posent des défis considérables aux
systèmes du TAL. On observe des phénomènes linguistiques bien particuliers, comme
les émoticônes6 , les acronymes, les fautes (orthographiques, typographiques, mots col-
lés, etc.) d’une très grande morpho-variabilité et d’une créativité explosive. Ces phé-
nomènes doivent leur origine au mode de communication (direct ou semi-direct), à la
rapidité de composition du message ou aux contraintes technologiques de saisie impo-
sées par le matériel (terminal mobile, téléphone, etc.). J’ai introduit le terme phonécri-
ture ou phonécrit comme toute forme écrite qui utilise un type d’écriture phonétique
sans contraintes ou avec des règles établies par l’usage7 . Le traitement automatique des
courriels est extrêmement difficile à cause de son caractère imprévisible (Beauregard,
2001; Kosseim et Lapalme, 2001; Kosseim et al., 2001; Cohen, 1996b) : des textes trop
courts (≈ 11 mots par courriel), régis par une syntaxe mal orthographiée et/ou pauvre.
Ceci impose donc d’utiliser des outils de traitement automatique robustes et flexibles.
On voulait proposer la combinaison des méthodes d’apprentissage supervisé et non su-
pervisés afin d’effectuer le routage de courriels. Des approches probabilistes, fondées
sur des mots et des n-grammes de lettres (Jalam et Chauchat, 2002; Miller et al., 2000)
ont aussi été utilisées. La catégorisation thématique est au cœur de nombreuses appli-
cations du TAL. Ce contexte fait émerger un certain nombre de questions théoriques
4
Extraits de la presse française sur l’Internet et « Les rêveries du promeneur solitaire » De J.J. Rousseau,
disponible sur http://abu.cnam.fr/BIB/auteurs
5
« Discours de la méthode » de R. Descartes, disponible à la même adresse que le précédent et « Dis-
cours sur l’origine et les fondements de l’inégalité parmi les hommes » de J.J. Rousseau, disponible à
l’adresse http://un2sg4.unige.ch/athena/rousseau/jjr_ineg.html
6
Symboles utilisés dans les messages pour exprimer les émotions, exemple le sourire :-) ou la tristesse :-(
7
Par exemple kdo à la place de cadeau, 10ko pour dictionnaire, A+ à plus tard, @2m1 à demain, etc.
33
Chapitre 2. Classification de textes et le modèle vectoriel
Soit une boîte aux lettres qui reçoit un grand nombre de courriels correspondant
à plusieurs thématiques. Une personne doit lire ces courriers et les rediriger vers le
service concerné (les courriels relatifs à des problèmes techniques vers le service tech-
nique, ceux pour le service après vente seront redirigés en conséquence, etc.). Il s’agit
donc d’automatiser cette tâche. Il existe des approches pour effectuer le traitement au-
tomatique de courriels en anglais (Kiritchenko et Matwin, 2001; Kosseim et al., 2001;
Cohen, 1996a; Jake D. Brutlag, 2000). Cependant, il s’est avéré difficile de trouver des
travaux sur les courriels en français (des corpus en anglais existent cependant pour la
classification de spams). Pour générer le corpus, on a créé une adresse électronique et
on l’a abonné à plusieurs listes de diffusion : Football, jeux de rôles, ornithologie, ci-
néma, jeux vidéo, poèmes, humour... ainsi qu’à des newsletters : Sécurité informatique,
journaux, matériel informatique... Il faut noter que l’évaluation du système s’effectue
en fonction de la liste de diffusion émettrice.
La catégorisation de documents consiste à attribuer une classe à un document donné.
Cette tâche peut-être vue comme une tâche de classification (Lewis et Ringuette, 1994),
où l’on fait correspondre des objets à une classe définie par une fonction d’apparte-
nance. Le calcul de cette fonction inconnue peut être formulé comme un problème
d’apprentissage supervisé, non supervisé ou semi-supervisé. Les méthodes retenues
reposent sur la représentation vectorielle.
La première partie du pré-traitement identifie les courriels et sépare le corps du
message des pièces jointes (celles-ci, contenant des graphiques, sons, etc. dans une
grande diversité de formats, posent un problème complexe). Un second processus sup-
prime automatiquement la micro-publicité qui n’apporte aucune information mais, au
contraire, ajoute du bruit risquant de gêner la catégorisation. Il s’agit en général (à plus
de 95 % de cas) de publicités rajoutées au bas des courriels par les fournisseurs de ser-
vice de messagerie électronique. Nous avons supprimé la micro-publicité à l’aide de
recherche de patrons. Un dictionnaire a été constitué à partir de sites8 décrivant les
divers termes de phonécriture, afin de trouver leur équivalent en français. Cette « tra-
duction » est réalisée avant la suppression de la ponctuation, car beaucoup de termes
phonécrits sont composés à l’aide de ponctuation. Concernant la lemmatisation, dans
un premier temps, nous avons effectué le pré-traitement avec un dictionnaire accen-
tué. L’usage des caractères accentués n’étant pas systématique dans les courriels, on a
8
http://www.mobimelpro.com/portail/fr/my/dictionnaire_sms.asp
http://www.mobilou.org/10kosms.htm ou http://www.affection.org/chat/dico.html
34
2.2. Routage automatique de courriels
35
Chapitre 2. Classification de textes et le modèle vectoriel
valeur finale.
aléatoire
% erreur de généralisation εg
70 70
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 70 80 90 100 2 4 8 16 32 64
Fraction d'exemples P paramètre de flou f
N-grammes
Un n-gramme de lettres est une séquence de n caractères consécutifs. Pour un do-
cument donné, on peut générer l’ensemble des n-grammes (n = 1, 2, 3, ...) en dé-
plaçant une fenêtre glissante de n cases sur le corpus. À chaque n-gramme, on as-
socie une fréquence. De nombreux travaux (Damashek, 1995; Dunning, 1994) ont
montré l’efficacité de l’approche des n-grammes comme méthode de représenta-
tion des textes pour des tâches de classification : soit la recherche d’une partition
en groupes homogènes, soit pour leur catégorisation (Jalam et Chauchat, 2002).
Comparativement à d’autres techniques, les n-grammes de lettres capturent au-
tomatiquement les racines des mots (Grefenstette, 1996) et ils opèrent indépen-
damment des langues (Dunning, 1994), contrairement aux systèmes basés sur les
mots. Ces méthodes sont tolérantes au bruit (fautes d’orthographe). (Miller et al.,
2000) montre que des systèmes basés sur les n-grammes gardent leurs perfor-
mances malgrè des taux de bruit de 30 %. Enfin, ces techniques n’ont pas besoin
d’éliminer les mots-outils ni de procéder à la racinisation (lemmatisation ou radi-
calisation), traitements qui augmentent la performance des techniques basées sur
les mots. Par contre, pour les systèmes n-grammes, des études comme celle de
(Sahami, 1999) ont montré que les performances ne s’améliorent pas après l’éli-
mination de mots fonctionnels et de racinisation.
Étant donné la faible quantité de mots (≈ 11 mots) contenues dans ce corpus de
courriels, des tests préliminaires concernant leur classification, ont montré que les
n-grammes de lettres ont des performances supérieures à celles de n-grammes de
mots. Pour tenir compte de ces observations, nous avons donc décidé d’utiliser
les n-grammes de lettres à la place des n-grammes de mots comme termes. Nous
effectuons pour cela un découpage des messages en n-grammes avec ou sans lem-
36
2.2. Routage automatique de courriels
matisation afin de pouvoir effectuer un comparatif entre les deux méthodes ainsi
qu’en fonction de la racinisation des termes.
Apprentissage supervisé
Les SVM ont déjà été appliquées au domaine de la classification du texte dans
plusieurs travaux (Grilheres et al., 2004; Vinot et al., 2003; Joachims, 1998, 1999),
mais toujours en utilisant des corpus bien rédigés (des articles journalistiques,
scientifiques...). On a testé plusieurs implantations des machines SVM (Lia_SCT
(Béchet et al., 2000), SVMTorch9 , Winsvm10 , M-SVM11 ) afin de sélectionner la plus
efficace. Nous avons décidé d’utiliser SVMTorch (Collobert et Bengio, 2000), qui
permet une approche multiclasse des problèmes de classification. Elle utilise le
principe One-against-the-Rest, où chaque classe est comparée à l’ensemble des
autres afin de trouver un hyperplan séparateur. Les résultats de la section 2.2.1
ont été obtenus avec une fonction à noyau simple, qui s’est averée la plus perfor-
mante. Les erreurs d’apprentissage et de test sont plus importantes avec d’autres
fonctions noyaux.
La méthode hybride
On a décidé de combiner les méthodes d’apprentissage supervisé et non super-
visé afin de tirer parti des avantages de chacune d’entre elles. En effet, l’appren-
tissage non supervisé avec k-means donnait de résultats acceptables lors de la
phase d’apprentissage mais faisait beaucoup d’erreurs en généralisation. D’un
autre côté, l’apprentissage avec les SVM est supervisé et comme on le sait, il est
très coûteux d’avoir de grands ensembles de données etiquetées. Nous effectuons
un tirage aléatoire afin de constituer les matrices d’apprentissage γ1 et de test
γ2 . Nous effectuons ensuite un apprentissage non supervisé avec k-means sur la
matrice γ1 qui fournit la classe prédite pour chaque courriel. La deuxième étape
consiste à présenter γ1 à la machine à vecteurs de support, celle-ci pouvant dès
lors effectuer un apprentissage supervisé à l’aide des étiquettes fournies par k-
means. La généralisation est effectuée par la méthode SVM sur l’ensemble γ2 à
partir des vecteurs de support trouvés précédemment. Ainsi, plusieurs tests sta-
tistiquement indépendants ont été effectués.
Les corpus de P = {200, 500, 1 000, 2 000} courriels ont été générés sur k = 4 classes
{football, jeux de rôles, cinéma, ornithologie}. Les tests ont été effectués à 50 ou 100
tirages aléatoires, dans le cas de n-grammes ou de mots, respectivement. La figure 2.2
présente à gauche une comparaison entre une initialisation aléatoire et une initialisation
semi-supervisée.
La figure 2.3 présente les résultats obtenus sur un corpus de P = 500 courriels. À
gauche, on montre l’erreur d’apprentissage ǫa avec une initialisation semi-supervisée
9
http://www.idiap.ch/
10
http://liama.ia.ac.cn/PersonalPage/lbchen/winsvm.htm
11
http://www.loria.fr/~guermeur/
37
Chapitre 2. Classification de textes et le modèle vectoriel
90 initialisation 90
semi-supervisé à 20%
80 80
erreur de généralisation εg %
% erreurs d'apprentissage εa
70 70
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 20 40 60 80 100 0 10 20 30 40 50 60 70 80 90 100
La figure 2.4 présente les résultats obtenus sur un corpus de P = 500 courriels et
un découpage en n-grammes de lettres, avec et sans lemmatisation. Nous avons effec-
tué des tests avec n = {2, 3, 5} et nous avons trouvé que les bigrammes produisent
les meilleurs résultats. Nous montrons l’erreur de généralisation ǫg pour la méthode
hybride.
Les figures 2.5 comparent les résultats de la méthode hybride et des SVM sur des
corpus de P={200, 500, 1 000, 2 000} courriels. Dans le cas hybride, nous avons combiné
un apprentissage non supervisé par k-means (initialisation semi-supervisée de 0, 05P
ou 0, 20P courriels) et supervisé pour SVM. Nous constatons que la performance ne se
détériore pas en augmentant la taille du corpus. On voit aussi que les performances de
généralisation de la méthode hybride sont très proches de celles des SVM. Notons que
dans toutes les courbes des figures 2.5, l’unité de base est un unigramme de mot.
38
2.2. Routage automatique de courriels
70
εg de gégnéralisation en %
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
Fraction P des exemples appris
F IG . 2.4: Erreur de généralisation pour la méthode hybride avec bi-grammes de lettres (50 tirages
aléatoires) sur un corpus de P = 500 courriels. Le fait de ne pas lemmatiser améliore sensiblement
les résultats. K = 4 classes, N dimension des matrices.
Le premier est trop court et trop vague pour permettre une catégorisation adéquate.
Le second appartient à la catégorie Sport mais il comporte plusieurs termes (mau-
vais_film, mauvais_scénario, action, la_fin) de la catégorie Cinéma. Ceci illustre une
partie des difficultés inhérentes à cette tâche, qui n’est pas évidente même pour les
humains.
39
Chapitre 2. Classification de textes et le modèle vectoriel
εg de généralisation %
70
εg de généralisation %
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
Fraction P des exemples appris Fraction P des exemples appris
60 60
50 50
40 40
30 30
20 20
10 10
0 0
0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100
F IG . 2.5: Méthode hybride vs. SVM. K = 4 classes, N = dimension des matrices, 100 tirages aléa-
toires. P = 200 à gauche et 500 courriels à droite. En bas à gauche P = 1 000, à droite 2 000 courriels.
L’erreur est négligeable au délà de 20 % des exemples appris. Par souci de clarté seulement la courbe
de la méthode hybride est presentée, celle-ci se confondant avec la courbe SVM.
12
http://www.aktor.fr
13
http://www.anrt.fr
40
2.3. E-Gen : traitement automatique des offres d’emploi
41
Chapitre 2. Classification de textes et le modèle vectoriel
base de règles afin de localiser des informations telles que salaire, lieu de travail, nom
d’entreprise, contrat, référence, durée de la mission, etc.
nées d’Aktor a permis d’avoir un corpus de taille importante, sans catégorisation ma-
nuelle. Une première analyse a montré que les offres d’emploi se composent souvent
de blocs d’information semblables qui demeurent, cependant, fortement non structu-
rés. Une offre d’emploi est composée de quatre blocs :
1. T ITRE : titre probable de l’emploi ;
2. D ESCRIPTION : bref résumé de l’entreprise qui recrute ;
3. M ISSION : courte description de l’emploi ;
4. P ROFIL : qualifications et connaissances exigés pour le poste. Les contacts sont
généralement inclus dans cette partie.
L’automate de Markov.
Les résultats préliminaires ont montré que la catégorisation de segments sans
utiliser leur position dans l’offre d’emploi peut être une source d’erreurs. Nous
avons constaté que les SVM produisent globalement une bonne classification des
segments individuels, mais les offres d’emploi sont rarement complètement bien
42
2.3. E-Gen : traitement automatique des offres d’emploi
classées. En raison du grand nombre de cas, les règles ne semblent pas être la mei-
lleure façon de résoudre le problème. Nous avons donc opté pour un automate de
Markov à six états : D ÉBUT (S), T ITRE (1), D ESCRIPTION (2), M ISSION (3), P ROFIL
(4), F IN (E). On représente une offre d’emploi comme une succession d’états dans
cette machine. Le corpus de référence a été analysé pour déterminer les probabi-
lités de transition entre les états. La matrice M (2.2) montre ces probablities.
D ÉBUT T ITRE D ESCRIPTION M ISSION P ROFIL F IN
D ÉBUT
0 0, 01 0, 99 0 0 0
T ITRE 0 0, 05 0, 02 0, 94 0 0
M=
D ESCRIPTION 0 0, 35 0, 64 0, 01 0 0 (2.2)
M ISSION 0 0 0 0, 76 0, 24 0
P ROFIL 0 0 0 0 0, 82 0, 18
F IN 0 0 0 0 0 0
L’observation de cette matrice M nous renseigne sur la structure des segments
d’une offre d’emploi. Celle-ci a une probabilité p = 0, 99 de commencer par le seg-
ment D ESCRIPTION mais il est impossible de commencer par M ISSION ou P ROFIL.
De la même manière, un segment M ISSION peut seulement être suivi par d’un
segment M ISSION ou par un segment P ROFIL. Ceci nous a permis d’en déduire
l’automate montré sur la figure 2.6.
F IG . 2.6: Machine de Markov à six états Si , utilisée pour corriger les étiquettes erronées. i :
S=D ÉBUT, 1=T ITRE, 2=D ESCRIPTION, 3=M ISSION, 4=P ROFIL, E=F IN.
43
Chapitre 2. Classification de textes et le modèle vectoriel
Un corpus de D=1 000 offres d’emploi avec P=15 621 segments a été utilisé. Chaque
test a été effectué 20 fois avec une distribution aléatoire entre les corpus de test et d’ap-
prentissage. La figure 2.7 montre une comparaison entre les résultats obtenus par les
Support Vector Machines et le processus correctif. Les courbes présentent le nombre de
segments non reconnus en fonction de la taille du corpus d’apprentissage. À gauche,
on présente les résultats des SVM seules (ligne pointillée) appliquées sur la tâche de
classification des segments. Les résultats sont bons et prouvent que même avec une
petite fraction de patrons d’apprentissage (20% du total), le classifieur SVM obtient
un faible taux de patrons mal classés (< 10% d’erreur). Le processus correctif (ligne
continue) donne toujours de meilleurs résultats que les SVM quelle que soit la fraction
d’exemples d’apprentissage. À titre de comparaison, une classification nommée Base-
line avec la classe la plus probable (étiquette P ROFIL avec ≈ 40% d’apparition sur le
corpus) obtient 60% d’erreur calculée sur tous les segments. La figure 2.7 à droite, est
une comparaison entre les résultats obtenus par chaque méthode mais selon les offres
d’emploi non reconnues. On observe une considérable amélioration du nombre d’offres
d’emploi identifiés avec le processus correctif. SVM obtient un minimum de ≈ 50% des
offres d’emploi non reconnues, et le processus correctif en obtient 20%, donc une amé-
lioration de plus du 50% sur le score de SVM.
Une analyse des offres d’emploi mal classées montre que ≈ 10% d’entre elles contiennent
18
D ÉBUT 7→ D ESCRIPTION 7→ D ESCRIPTION 7→T ITRE 7→M ISSION 7→M ISSION 7→P ROFIL 7→F IN
44
2.4. Conclusion et perspectives
SVM SVM
90 Corrective process
Corrective process
Baseline
90 80
60
70
50
60
40
50
30
40
20
30
10
20
0
0 20 40 60 80 0 20 40 60 80
Fraction of job offers in learning Fraction of job offers in learning
F IG . 2.7: Resultats des SVM et de l’algorithme correctif par rapport aux segments à gauche, et aux
offres d’emploi, à droite.
une ou deux erreurs. Ces segments mal classés, correspondent généralement au bloc
frontière entre deux catégories différentes (El-Bèze et al., 2007). Ainsi, la séquence obte-
nue de l’exemple 2.1 (cf. 2.3.2) est S7→27→17→37→3 7→37→47→47→E et la séquence correcte
est S7→27→17→37→37→47→47→47→E. Le segment faux est reproduit ci bas :
45
Chapitre 2. Classification de textes et le modèle vectoriel
supervisé permet de classer plus précisément des nouveaux courriels mais demande
un étiquetage préalable qui n’est pas toujours facile à mettre en œuvre. Par contre, bien
que l’erreur d’apprentissage de fuzzy k-means avec initialisation aléatoire semble im-
portante, nous l’avons diminuée avec une initialisation semi-supervisée (impliquant
un faible nombre d’exemples), afin de nous passer de données étiquetées. La méthode
hybride, qui combine les avantages de l’apprentissage non supervisé de k-means pour
pré-étiqueter les données, et du supervisé avec SVM pour trouver les séparateurs op-
timaux, a donné des résultats très intéressants. Des modèles de découpage en mots
et en n-grammes de lettres ont été développés et testés. Nous avons confirmé que la
non lemmatisation produit des meilleurs résultats. Ceci va dans le même sens que les
conclusions tirées par (Sahami, 1999). Des combinaisons de n-grammes avec un lis-
sage approprié, pourraient être envisagées. Nous nous sommes principalement inté-
ressés à l’amélioration de l’apprentissage non supervisé, celui-ci ayant les résultats les
plus bas au départ. Nos résultats montrent que la performance du système hybride est
proche de celle des SVM à noyau linéaire. Une optimisation des SVM pourrait amé-
liorer les performances du système. Ainsi, une implantation selon l’algorithme DDAG
(Kijsirikul et Ussivakul, 2002) permettrait d’éliminer les régions erronées et d’obtenir
une meilleure classification des nouvelles données.
Le traitement des offres d’emploi est une tâche aussi difficile car l’information y est
toujours fortement non structurée. J’ai décrit le module de catégorisation, premier com-
posant d’E-Gen, système pour le traitement automatiquement des offres d’emploi. Les
premiers résultats obtenus par les SVM étaient très intéressants (≈ 10% d’erreur pour
un corpus d’apprentissage de 80%), mais le processus correctif améliore ces résultats
par ≈ 50% et diminue considérablement les erreurs du type segments isolés incorrec-
tement classés, tout en restant dans des temps de calcul très raisonnables. Ce module
d’E-Gen est actuellement en test sur le serveur d’Aktor et permet un gain de temps
considérable dans le traitement quotidien des offres d’emploi. D’autres approches (ré-
cupération de l’information et résumé automatique) seront considérées pour résoudre
le problème de correspondance des candidatures à une offre d’emploi, avec un coût
minimal en termes d’intervention humaine. De même, une combinaison de plusieurs
classifieurs (SVM, arbres, modèles probabilistes...) (Grilheres et al., 2004) pourrait amé-
liorer les résultats des deux tâchées abordées. J’y reviendrai dans le chapitre 3 où il sera
question de la classification d’opinions.
46
Chapitre 3
3.1 Contexte
Dans le cadre de la plate-forme AFIA’07, la 3ème édition du défi DEFT (Azé et Roche,
2005; Azé et al., 2006), a eu lieu. Ceci est la deuxième participation dans DEFT de l’équipe
TALNE du LIA2 . DEFT’07 a été motivé par le besoin de mettre en place des techniques
de classification de textes suivant l’opinion qu’ils expriment. Concrètement, il s’agit de
classer les textes de quatre corpus en langue française selon les opinions qui y sont
formulées. La classification d’un corpus en classes pré-déterminées, et son corollaire
1
http://afia.lri.fr
2
Lors de la première compétition, en 2005, notre équipe avait remporté le défi (El-Bèze et al., 2005). A
l’époque, le problème était de classer les segments des allocutions de Jacques Chirac et François Mitterrand
préalablement mélangées. Plus de détails concernant DEFT’05 seront exposés dans le chapitre suivant.
47
Chapitre 3. Détection automatique d’opinions
48
3.1. Contexte
les tests proprement dits. Sous peine de disqualification, aucune donnée, en dehors de
celles fournies par le comité d’organisation ne pouvait être utilisée. Ceci exclut notam-
ment l’accès aux sites Web ou à n’importe quelle autre source d’information. Le tableau
3.1 présente des statistiques brutes (nombre de textes et nombre de mots) des diffé-
rents corpus. Des exemples portant sur la structure et les détails des corpus, peuvent
être consultés dans le site du défi5 . Intuitivement, la tâche de classer les avis d’opinion
des articles scientifiques est la plus difficile des quatre car le corpus afférent contient
beaucoup moins d’informations que les trois autres, mais d’autres caractéristiques par-
ticulières à chaque corpus ont aussi leur importance.
TAB . 3.1: Statistiques brutes sur les quatre corpus d’apprentissage (A) et de test (T).
Évaluation
Les algorithmes ont été évalués sur des corpus de test (T) avec des caractéristiques
semblables à ceux d’apprentissage (A) (cf. tableau 3.1), en calculant le F-score des docu-
ments bien classés, moyenné sur tous les corpus :
( β2 + 1) × h Précisioni × h Rappel i
F − score( β) = (3.1)
β2 × h Précisioni + h Rappel i
49
Chapitre 3. Détection automatique d’opinions
Un même texte peut être représenté par les différents paramètres qu’il est possible
d’en extraire. Les représentations les plus courantes sont les mots, Parts Of Speech
(POS) ou lemmes. En nous inspirant de l’approche typique de l’analyse des opinions
(Hatzivassiloglou et McKeown, 1997), nous utilisons un paramètre de représentation
supplémentaire, une étiquette nommée seed. Un seed est un mot susceptible d’expri-
mer une polarité positive ou négative (Wilson et al., 2005). Notre protocole de construc-
tion du lexique de seeds consiste en deux étapes. Premièrement, une liste de mots po-
larisés est créée manuellement. Exemple : aberrant, compliments, discourtois, embête-
ment,... Afin de généraliser la liste de mots polarisés obtenue, chaque mot est remplacé
par son lemme. Nous obtenons un premier lexique de 565 seeds. Deuxièmement, un
modèle BoosTexter est appris sur les textes représentés en mots. Les mots sélectionnés
par ce modèle sont filtrés manuellement, lemmatisés et ajoutés au lexique. Au final,
nous obtenons un lexique d’environ 2 000 seeds. Une phrase représentée en seeds ne
contient alors que les lemmes faisant partie de ce lexique.
50
3.3. Classifieurs
Agglutination. Les différents exemples donnés ci-dessus font apparaître des regrou-
pements sous la forme d’expressions plus ou moins figées. Celles-ci ont été consti-
tuées par application de règles régulières portant sur des couples de mots. Pour
leur plus grande partie, les 30 000 règles que nous avons utilisées proviennent
d’un simple calcul de collocation effectué selon la méthode du rapport de vrai-
semblance (Mani et Mayburi, 1999). Une autre part non négligeable est issue de
listes d’expressions disponibles sur l’internet7 . Nous y avons ajouté également
des proverbes extraits de listes se trouvant sur des sites web8 .
3.3 Classifieurs
LIA_SCT (Béchet et al., 2000) est un classifieur basé sur les arbres de décisions sé-
mantiques (SCT-Semantic Classification Tree (Kuhn et De Mori, 1995)). Il suit le
principe d’un arbre de décision : à chaque nœud de l’arbre une question est posée
qui subdivise l’ensemble de classification dans les nœuds fils jusqu’à la réparti-
tion finale de tous les éléments dans les feuilles de l’arbre. La nouveauté des SCT
réside dans la construction des questions qui se fait à partir d’un ensemble d’ex-
pressions régulières basées sur une séquence de composants. Leur ordre dans le
vecteur d’entrée a donc une importance. De plus, chaque composant peut se défi-
nir suivant différents niveaux d’abstraction (mots et POS par exemple) et d’autres
paramètres plus globaux peuvent également intégrer le vecteur (nombre de mots
du document par exemple). Lorsque le SCT est construit, il prend des décisions
7
Comme celle qui se trouve à l’adresse http://www.linternaute.com/expression/recherche
8
Par exemple http://www.proverbes.free.fr/rechprov.php
51
Chapitre 3. Détection automatique d’opinions
sur la base de règles de classification statistique apprises sur ces expressions ré-
gulières. Lorsqu’un texte est classé dans une feuille, il est alors associé aux hy-
pothèses conceptuelles de cette feuille selon leur probabilité. LIA_SCT utilise les
textes représentés en lemmes.
BoosTexter (Schapire et Singer, 2000) est un classifieur à large marge basé sur l’al-
gorithme de boosting : Adaboost (Freund et Schapire, 1996). Le but de cet algo-
rithme est d’améliorer la précision des règles de classification en combinant plu-
sieurs hypothèses dites faibles ou peu précises. Une hypothèse faible est obtenue
à chaque itération de l’algorithme de boosting qui travaille en re-pondérant de
façon répétitive les exemples dans le jeu d’entraînement et en ré-exécutant l’algo-
rithme d’apprentissage précisément sur ces données re-pondérées. Cela permet
au système d’apprentissage faible de se concentrer sur les exemples les plus com-
pliqués (ou problématiques). L’algorithme de boosting obtient ainsi un ensemble
d’hypothèses faibles qui sont ensuite combinées en une seule règle de classifica-
tion qui est un vote pondéré des hypothèses faibles et qui permet d’obtenir un
score final pour chaque constituant de la liste des concepts. Les composants du
vecteur d’entrée sont passés selon la technique du sac de mots et les éléments
choisis par les classifieurs simples sont alors des n-grammes sur ces composants.
Quatre de nos systèmes utilisent le classifieur BoosTexter :
– LIA_BOOST_BASELINE : la représentation d’un document se fait en mots.
BoosTexter est appliqué en mode 3-grammes ;
– LIA_BOOST_BASESEED : un document est représenté en seeds, chaque seed
est pondéré par son nombre d’occurrences en mode unigramme ;
– LIA_BOOST_SEED : un document est représenté par les mots et également
par les seeds toujours pondérés par leur nombre d’occurrences en mode uni-
grammes ;
– LIA_BOOST_CHUNK : L’outil LIA_TAGG9 est utilisé pour découper le docu-
ment en un ensemble de syntagmes lemmatisés. Chaque syntagme contenant
un seed ainsi que le syntagme précédent et suivant c’est retenu comme repré-
sentation. Les autres syntagmes sont rejetés de la représentation du document.
BoosTexter est appliqué en mode 3-grammes sur cette représentation.
SVMTorch (Collobert et al., 2002) est un classifieur basé sur les machines à support
vectoriel (SVM ) proposées par Vapnik (Vapnik, 1982, 1995). Dans nos expériences,
la technique la plus simple du sac de mots est utilisée : un document est représenté
comme un vecteur dont chaque composante correspond à une entrée du lexique
de l’application et chaque composante a pour valeur le nombre d’occurrences
de l’entrée lexicale correspondant dans le texte. Le système LIA_NATH_TORCH
est obtenu avec SVMTorch. Le vecteur d’entrée est représenté par le lexique des
seeds.
Timble (Daelemans et al., 2004) est un classifieur implémentant plusieurs techniques
de Memory-Based Learning –MBL–. Ces techniques, descendantes directes de
l’approche classique des k-plus-proches-voisins (K Nearest Neighbor k-NN ) ap-
pliquée à la classification, ont prouvé leur efficacité dans un grand nombre de
9
http://www.lia.univ-avignon.fr/chercheurs/bechet/download_fred.html
52
3.3. Classifieurs
53
Chapitre 3. Détection automatique d’opinions
mots différents pour le plus petit corpus et 50 000 pour le plus grand), il reste que
certaines entrées sont assez peu représentées. Aussi dans la lignée de ce qui se fait
habituellement pour calculer la valeur du second terme de l’équation 3.6, nous
avons opté pour un lissage de modèles n-lemmes (n allant de 0 à 3).
Les entrées w et leurs contextes gauches h qui ne sont apparus qu’avec une éti-
quette donnée t et pas une autre, ont un pouvoir discriminant égal à 1. Ce critère a
été lissé avec un sous-critère G ′ permettant de favoriser (certes dans une moindre
mesure que G) les couples (w, h) qui n’apparaissent que dans 2 étiquettes sur 3.
Notons tout d’abord que l’emploi de tels critères discriminants est une façon de
pallier le fait que l’apprentissage par recherche d’un maximum de vraisemblance
ne correspond pas vraiment aux données du problème. Deuxièmement, il est aisé
de comprendre combien un regroupement massif des entrées lexicales par le biais
des collocations (cf. section 3.2) peut avoir un effet déterminant sur le nombre des
événements à coefficient discriminant élevé. Ces deux remarques visent à souli-
gner que sur ce point particulier le fameux croisement entre méthode symbolique
et numérique a son mot à dire. En dernier lieu, nous avons aussi adapté le cal-
cul du premier terme P(t) de l’équation 3.6 en combinant la fréquence relative de
l’étiquette t avec la probabilité de cette même étiquette sachant la longueur du
texte traité. Pour cela, nous avons eu recours à la loi Normale.
Afin de tester nos méthodes et de régler leurs paramètres, nous avons décidé de
scinder l’ensemble d’apprentissage (A) de chaque corpus en cinq sous-ensembles ap-
proximativement de la même taille (en nombre de textes à traiter). La procédure d’ap-
prentissage a été la suivante : nous avons concaténé quatre des cinq sous-ensembles et
gardé le cinquième pour le test. Les ensembles ainsi concaténés seront appelés doréna-
vant, ensembles de développement (D) et le restant, ensemble de validation (V). Cinq
expériences par corpus ont été ainsi effectuées tour à tour. Nous allons présenter nos
résultats en deux parties : d’abord ceux obtenus sur les ensembles de développement
et validation qui ont servi à paramétrer nos systèmes, et ensuite les résultats sur les
données de test (T) en appliquant les algorithmes. On notera que les résultats diffèrent
quelque peu des résultats officiels, car depuis la clôture du défi notre système a évolué.
54
3.4. Résultats et discussion
F IG . 3.1: F-score obtenu par l’algorithme de fusion sur les cinq ensembles de validation (V). Les
résultats sont regroupés par corpus.
TAB . 3.2: Performances en Précision, Rappel et F-score obtenus par notre méthode de fusion, sur
les quatre corpus de validation (V).
55
Chapitre 3. Détection automatique d’opinions
TAB . 3.3: Performances en Précision, Rappel et F-score obtenus par notre méthode de fusion, sur
les quatre corpus de test (T).
En figure 3.2, nous montrons les performances en F-score de chacun de nos classi-
fieurs, ainsi que leurs moyennes sur les quatre ensembles de test. On constate que les
classifieurs LIA_TIMBLE et LIA_SCT ont les performances les plus basses.
80
Avoiralire
Debats
75 JeuxVideo
Relectures
70 F
65
60
F-score %
55
50
45
40
35
E ED T RC AN TH E K T
IN
SE OS JU NA BL UN SC
EL BO MA TIM CH
AS SE
T _B _ BA
OS O ST
BO BO
Système
F IG . 3.2: F-score de chacune des méthodes sur les quatre corpus de test.
En figure 3.3, nous montrons les performances en F-score d’une fusion « incrémen-
tale » des méthodes ajoutées. Cependant, l’ordre affiché n’a strictement aucun impact
dans la fusion finale : il a été choisi uniquement pour mieux illustrer les résultats. On
peut voir que nos résultats se placent bien au dessus de la moyenne des équipes parti-
cipantes dans le défi DEFT’07, tous corpus confondus.
Sur la figure 3.4 nous montrons une comparaison du F-score de l’ensemble de vali-
dation (V) vs. celui de test (T), sur les quatre corpus. On peut constater la remarquable
coïncidence entre les deux, ce qui signifie que notre stratégie d’apprentissage et de vali-
dation sur cinq sous-ensembles et de fusion de plusieurs classifieurs a bien fonctionné.
56
3.4. Résultats et discussion
80 avoiraLire
debats
75
jeuxvideo
relectures
70
<jeuxvideo>
65
<debats>
F-score
60
55
50 <avoiraLire>
<relectures>
45
40
1 2 3 4 5 6 7 8
Fusion de systèmes
1 BOOST_BASELINE
2 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED
3 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + MARC
4 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + JUAN
5 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + JUAN + NATH_TORCH
6 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + JUAN + NATH_TORCH + TIMBLE
7 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + JUAN + NATH_TORCH + TIMBLE + BOOST_CHUNK
8 BOOST_BASELINE+ BOOST_BASESEED + BOOST_SEED + JUAN + NATH_TORCH + TIMBLE + BOOST_CHUNK + SCT
F IG . 3.3: F-score de la fusion suivant nos 9 méthodes ajoutées. On affiche les moyennes des soumis-
sions des participants : nous sommes au-dessus des moyennes, tous corpus confondus.
3.4.3 Discussion
Nous avons constaté que l’utilisation de collocations et réécriture (cf. section 3.2)
permet d’augmenter les perfomances des méthodes. Par exemple, avec la méthode pro-
babiliste à base d’uni-lemmes sur le corpus de validation nous sommes passés de 1 285 à
1 310 bien classés (F=57,41 → 58,89) dans le corpus aVoiraLire, de 1801 à 1916 (F=70,77
→ 75,15) en jeuxvideo, de 445 à 455 (F=48,36 → 49,53) en relectures et de 10 364 à 11
893 (F=62,21 → 67,12) en debats. Dans le corpus de test, les gains sont aussi non négli-
geables. Nous sommes passés en aVoirAlire de 863 à 860 (F=57,40 → 56.32) ; de 7530 à
7635 (F=65,82 → 66,88) en debats ; de 1169 à 1205 (F=69,51 → 71,48) en jeuxvideo et de
317 à 313 (F=51,81 → 52,04) en relectures. Ceci confirme l’hypothèse que la réécriture
aide à mieux capturer la polarité des avis.
Nous avons réalisé une analyse post-mortem de nos résultats. Je présente quelques
exemples de notices qui ont été mal classées par nos systèmes. J’ai délibérément gardé
les notices dans leur état, même avec les fautes d’orthographe. Je vais montrer, en parti-
culier, des avis venant du corpus de relectures d’articles scientifiques, corpus qui avait
posé plus de difficultés aux algorithmes (F-score plus faible) que les autres. Pour la
notice 3 :2 (relectures), l’article a été accepté mais notre système le rejette. Il comporte
beaucoup d’expressions négatives comme : « parties de l’article me paraissent déséqui-
librées », « Le travail me paraît inachevé », « la nouvelle méthode proposée pose des
problèmes complexes ... qui ne sont pas traités dans ce papier », cependant il a été ac-
cepté.
57
Chapitre 3. Détection automatique d’opinions
F IG . 3.4: F-score de validation et de test pour chacun des corpus, obtenu par notre système de fusion.
Relectures 3 :2
Les différentes parties de l’article me paraissent déséquilibrées. Les auteurs
présentent d’abord un état de l’art dans le domaine de la visualisation des
connaissances dans les systèmes de gestion de connaissances. Ils décrivent
ensuite le serveur <anonyme /> et sa représentation des connaissances sous
forme d’arbre en section 3 et une partie de la section 4. L’approche proposée
par les auteurs (représentation par graphes n’est présentée qu’en 4.2 sur moins
d’une page ). Les problèmes posés par cette méthode sont survolés par les au-
teurs, ils font référence aux différents papiers traitant de ces problèmes et n’ex-
posent pas du tout les heuristiques choisies dans leurs approches. Le travail
me paraît inachevé, et la nouvelle méthode proposée pose des problèmes
complexes au niveau de la construction de ce graphe qui ne sont pas traités
dans ce papier.
Relectures 3 :36
L’idée d’appliquer les méthodes de classification pour définir des classes ho-
mogènes de pages web est assez originale par contre, la méthodologie appli-
quée est classique. Je recommande donc un « weak accept » pour cet article.
Nos systèmes l’ont classé 1 (accepté avec des modifications majeures), et après une
lecture directe, on pourrait en déduire que la classe est 1, alors que la référence est 2
(accepté).
Notice 3 :6 (relectures). L’article a été accepté, alors que notre système le rejette.
L’article arbitré est peut-être trop court, mais la relecture qui le concerne, elle l’est aussi :
Relectures 3.6
Article trop court pour pouvoir être jugé. Je suggère de le mettre en POster si
cela est prévu.
58
3.4. Résultats et discussion
Relectures 3 :9
Question : comment est construit le réseau bayésien ? Un peu bref ici... Re-
marques de forme : page 2, 4ème ligne, « comprend » 5ème ligne : "annotées"
ou "annoté" page 3 : revoir la phrase confuse précédant le tableau dernière
ligne, répétition de "permet" page 5 : 7ème ligne accorder "diagnostiqué" et
"visé" avec "états" ou avec "connaissances"
Pour le texte de la notice 3 :567 (relectures), l’article en question est rejeté alors que
le système l’accepte. Les phrases encourageantes au début finissent par être mitigées.
Beaucoup d’expressions positives (« bien organisé », « facile à suivre », « bibliographie
est plutôt complète », « solution proposée et intéressante et originale », « La soumission
d’une nouvelle version ... sera intéressante ») n’arrivent pas à renverser le rejet.
Relectures 3 :567
Commentaire : L’article est plutôt bien organisé (malgré de trop nombreux
chapitres), le cheminement de la logique est facile à suivre. Cependant il y
a de trop nombreuses fautes de français ainsi que d’anglais dans le résumé.
La bibliographie est plutôt complète. La solution proposée et intéressante et
originale, cependant des notions semblent mal maîtrisées. Ainsi dans la sec-
tion 8, la phrase «Cette convergence ne vient pas des algorithmes génétiques
de manière intrinsèque, mais de l’astuce algorithmique visant à conserver sys-
tématiquement le meilleur individu dans la population » démontre une incom-
préhension du fonctionnement même d’un algorithme génétique. La soumis-
sion d’une nouvelle version modifiée de cet article, présentant également les
premiers résultats obtenus avec le prototype à venir sera intéressante pour la
communauté. Références : Originalité : Importance : Exactitude : Rédaction :
Pour finir cette analyse, une notice du corpus de films, livres et spectacles, le texte
1 :10 du corpus aVoiraLire. Malgré des expressions telles que : « ...est un événement »,
« Agréable surprise » ou encore « l’image d’une cohérence artistique retrouvée », la no-
tice reste difficile à classer. Évidemment, notre système se trompe. Je mets à mon tour
le lecteur au défi de trouver la véritable classe10 .
10
Si vous étiez tenté de le mettre en classe 2 (bien), sachez que la classe véritable est la 1 (moyen).
59
Chapitre 3. Détection automatique d’opinions
aVoiraLire 1 :10
Depuis trente-six ans, chaque nouvelle production de David Bowie est un évé-
nement. Heathen, ne fait pas exception à cette règle. On reconnaît instantané-
ment la patte de son vieux compère Tony Visconti. La voix de Bowie est mise
en avant. Agréable surprise, surtout qu’elle n’a rien perdu depuis ses débuts.
Là, commence le voyage. Ambiance, mélange dosé des instruments. Dès l’ou-
verture de l’album avec Sunday, un sentiment étrange nous envahit. Comme
si Bowie venait de rentrer d’un voyage expérimental au coeur même de la mu-
sique. Retour aux sources. L’ensemble du disque est rythmé par cette pulsation
dont le duo a le secret. Le tout saupoudré de quelques pincées d’électronique.
Le groupe est réduit au minimum. Outre Bowie en chef d’orchestre et Vis-
conti, David Torn ponctue les compositions de ses guitares aventureuses et
Matt Chamberlain apporte de l’âme à la rythmique. Un quatuor à cordes fait
une apparition, comme Pete Townshend (The Who) ou Dave Grohl (ex-batteur
de Nirvana). Avec trois reprises réarrangées et neuf compositions originales,
le 25e album de Bowie est à l’image d’une cohérence artistique retrouvée.
La classification de textes en fonction des opinions qu’ils expriment reste une tâche
très difficile, même pour les personnes. La lecture directe ne suffit pas toujours pour
se forger un avis et privilégier une classification par rapport à une autre. Nous avons
décidé d’utiliser des approches de représentation numériques et probabilistes, afin de
rester aussi indépendant que possible des sujets traités. Nos méthodes ont fait leurs
preuves. Nous avons confirmé l’hypothèse que la réécriture (normalisation graphique)
et les collocations aident à capturer le sens des avis. Ceci se traduit par un gain de
performances. Nous avons présenté une stratégie de fusion assez simple de méthodes.
Celle-ci s’est avérée robuste et performante. Nos F-scores sont au-dessus des moyennes
sur les corpus de test, notamment sur celui de jeuxvideo. La stratégie de fusion a mon-
tré des résultats supérieurs à n’importe laquelle des méthodes individuelles. La dégra-
dation en précision et rappel reste faible, même si nous n’avons pas écarté de la fu-
sion des méthodes peut-être moins adaptées à cette problématique. La fusion est donc
une façon robuste de combiner plusieurs classifieurs. Il faut souligner la remarquable
équivalence entre les résultats obtenus lors de l’apprentissage et la prédiction sur les
ensembles de test : à un point près de différence. Le corpus de relectures des articles
scientifiques reste de loin le plus difficile à traiter. Nous avions déjà avancé l’hypothèse
qu’en raison du faible nombre de notices, il serait difficile à classer. Il y a d’autres fac-
teurs qui interviennent également. Les relectures comportent souvent des corrections
adressées aux auteurs. Ceci vient bruiter nos classifieurs. Les relectures sont parfois
trop courtes ou bien elles sont rédigées par des arbitres non francophones (encore une
source de bruit) ou contiennent beaucoup d’anglicismes (weak acceptation, boosting,
support vector,...). Un autre facteur, peut-être plus subtil : un article peut être lu par plu-
sieurs arbitres (deux, trois voire plus) qui émettent des avis opposés. Dans une situation
où les arbitres A et B acceptent l’article et un troisième C le refuse, normalement l’ar-
60
3.5. Conclusion et perspectives
ticle doit être accepté. Donc, l’avis de C sera assimilé à la classe acceptée, et cela malgré
son avis négatif. Enfin, le module de fusion n’a pas été optimisé, un même poids étant
attribué au vote de chaque système. Ceci ouvre la voie à une possible amélioration.
61
Chapitre 3. Détection automatique d’opinions
62
Chapitre 4
L’ensemble des résultats de cette étude1, réalisée conjointement avec Marc El-Bèze
et Fréderic Béchet, a été publié dans le congrès TALN’05/DEFT (El-Bèze et al., 2005) et
dans la Revue des Nouvelles Technologies de l’Information, RNTI 2007 (El-Bèze et al.,
2007). Lors de cette compétition, notre équipe a remporté une fois de plus le défi DEFT.
1
On remercie Éric Gaussier du Centre de Recherche Xerox Grenoble d’avoir mis à notre disposition un
lexique de Noms Propres.
63
Chapitre 4. Classification probabiliste de texte
4.1 Introduction
L’atelier DEFT’05 (Azé et Roche, 2005) s’est déroulé dans le cadre des conférences
TALN2 et RECITAL3 tenues en juin 2005 à Dourdan. Il a été motivé par le besoin de
mettre en place des techniques de fouille de textes permettant soit d’identifier des
phrases non pertinentes dans des textes, soit d’identifier des phrases particulièrement
singulières dans des textes apparemment sans réel intérêt. Concrètement, il s’agissait de
supprimer les phrases non pertinentes dans un corpus de discours politiques en fran-
çais. Cette tâche est proche de la piste Novelty de TREC (Soboro, 2004) qui dans sa pre-
mière partie consiste à identifier les phrases pertinentes puis, parmi celles-ci, les phrases
nouvelles d’un corpus d’articles journalistiques. Pour mieux comprendre à quoi cor-
respondait dans DEFT’05 la suppression des phrases non pertinentes d’un corpus de
discours politiques (Alphonse et al., 2005), une brève description du but général4 s’im-
pose. Un corpus de textes, allocutions officielles issues de la Présidence (1995-2005) de
Jacques Chirac a été fourni. Dans ce corpus, des passages issus d’un corpus d’allocu-
tions (1981-1995) du Président François Mitterrand ont été insérés. Les passages d’allo-
cutions de Mitterrand insérés sont composés d’au moins deux phrases successives et ils
sont censés traiter une thématique différente5 . Un corpus des discours de J. Chirac en-
trecoupés d’extraits de ceux de F. Mitterrand est ainsi constitué. Certaines informations
sont supprimées de ce corpus afin de constituer les trois corpus ci-dessous :
– Corpus C1 : Aucune présence d’années ni de noms de personnes : ils ont été rem-
placés par les balises < DATE > et < NOM > ;
– Corpus C2 : Pas d’années : elles ont été remplacées par la balise < DATE > ;
– Corpus C3 : Présence des années et des noms de personnes.
Le but du défi consistait à déterminer les phrases issues du corpus de F. Mitterrand
introduites dans le corpus composé d’allocutions de J. Chirac. Ce but est commun aux
trois tâches T1, T2 et T3 relatives aux trois corpus C1, C2 et C3. Intuitivement, la tâche
T1 est la plus difficile des trois car le corpus afférent C1 contient moins d’informations
que les deux autres. Les résultats (calculés uniquement sur les phrases de F. Mitterrand
extraites) peuvent être évalués sur un corpus de test (T) avec des caractéristiques sem-
blables à celui de développement (D), en calculant le F-score. Dans le cadre de DEFT’05,
le calcul du F-score a été effectué uniquement sur les phrases de Mitterrand, et il a
été modifié (Azé et Roche, 2005) comme suit (cette réécriture suppose évidemment que
β = 1 de façon à ne privilégier ni précision ni rappel) :
2 × Nb_phrases_correctes_extraites
Fscore( β) = (4.1)
Nb_total_extraites + Nb_total_pertinentes
64
4.2. Modélisation
4.2 Modélisation
La chaîne de traitement que nous avons produite est constituée de quatre compo-
sants : un ensemble de modèles bayésiens (cf. 4.2.1), un automate de Markov (cf. 4.2.2),
un modèle d’adaptation (cf. 4.2.3) et un réseau sémantique (cf. 4.2.4). Le seul composant
totalement dédié à la tâche est l’automate. Le réseau sémantique dépend du domaine.
Guidée par une certaine intuition que nous aurions pu avoir des caractéristiques
de la langue et du style de chacun des deux orateurs, une analyse des données d’ap-
prentissage aurait pu nous pousser à retenir certaines de leurs caractéristiques plu-
6
Nous désignons les deux derniers présidents par leur nom de famille, et pour plus de concision, il
nous arrivera de remplacer « Mitterrand » et « Chirac » par les étiquettes M et C.
7
Enfin, avec une méthode baseline vraiment simpliste, où on classerait tout segment comme apparte-
nant à la catégorie M, on obtiendrait un F-score ≈ 0,23 sur l’ensemble de développement et de 0,25 pour
le test.
65
Chapitre 4. Classification probabiliste de texte
tôt que d’autres. En premier lieu, il aurait été naturel de tabler sur une caractérisation
s’appuyant sur les différences de vocabulaire. Des études anciennes comme celles de
(Cotteret et Moreau, 1969) sur le vocabulaire du Général de Gaulle, ou d’autres plus
récentes (Labbé, 1990) partent du même présupposé. Pour plusieurs raisons, cette ap-
proche semble prometteuse mais comme on en rencontre tôt ou tard les limites, on
est amené naturellement à ne pas s’en contenter. En effet, la couverture des théma-
tiques abordées par les différents présidents est très large. Il est inévitable que les tra-
jets politiques de deux présidents consécutifs se soient à maintes reprises recoupés. Par
conséquent, on observe de nombreux points communs dans leurs interventions. On
suppose qu’à ces recouvrements viennent s’ajouter les reproductions conscientes ou
inconscientes (citations ou effets de mimétisme).
Les valeurs des coefficients λi ont été attribuées de façon empirique. L’estimation
de ces valeurs a bien entendu été réalisée sur le corpus d’apprentissage. Le poids
accordé aux lemmes est deux fois plus important que celui accordé aux mots.
Lorsqu’on utilise des chaînes de Markov en TAL, on est toujours confronté au
problème de la couverture des modèles. Le taux de couverture décroît quand
augmente l’ordre du modèle. Le problème est bien connu et des solutions de type
lissage ou Back-off (Manning et Schütze, 1999; Katz, 1987) sont une réponse clas-
sique au fait que le corpus d’apprentissage ne suffit pas à garantir une estimation
fiable des probabilités. Le problème devenant critique lorsqu’il y a un déséquilibre
flagrant entre les deux classes, il nous a semblé inutile, voire contre-productif de
calculer des 3-grammes. En nous inspirant des travaux menés en lexicologie sur
les discours de Mitterrand, nous avons essayé de prendre en compte certains des
traits qualifiés de dominants chez Mitterrand par (Illouz et al., 2000) : adverbe
négatif, pronom personnel à la première personne du singulier, point d’interro-
gation, ou des expressions comme « c’est », « il y a », « on peut », « il faut » (dans
les quatre cas, à l’indicatif présent). Ceux-ci ont été traités de la même façon que
les autres caractères de la modélisation bayésienne. Après vérification de la vali-
dité statistique de ces traits sur le corpus DEFT’05, nous les avons intégrés dans
la modélisation mais dans un second temps, nous les avons retirés car même s’ils
entraînaient une légère amélioration sur les données de développement, rien ne
66
4.2. Modélisation
garantissait qu’il ne s’agissait pas là de tics de langage liés à une période poten-
tiellement différente de celle du corpus de test. Par ailleurs, en cas de portage de
l’application à un autre domaine ou une autre langue, nous ne voulions pas être
dépendants d’études lourdes. En tous les cas, nous avons préféré faire confiance
aux modèles de Markov pour capturer automatiquement une grande partie de
ces tournures.
Modélisation II, sans lemmatisation. Parallèlement et à l’inverse de nos préoccupa-
tions précédentes, nous avons souhaité faire fonctionner nos modèles sur le texte
à l’état brut, sans enrichissement ou annotation. Pour aller dans ce sens, nous
nous sommes demandé à quel point la recherche automatisée des caractéristiques
propres à un auteur pourrait être facilitée ou perturbée par le fait de ne pas fil-
trer ni éliminer quoi que ce soit des discours. Ainsi, nous avons fait l’hypothèse
que l’utilisation répétée, voire exagérée de certains termes ne servant qu’à assu-
rer le bâti de la phrase, pouvait prétendre au statut d’indicateur fiable. Pour ce
deuxième modèle, nous sommes partis du principe que les techniques de n-gra-
mmes appliquées à des tâches de classification, pourraient se passer d’une phase
préalable de lemmatisation ou de stemming, du rejet des mots-outils et de la
ponctuation. Les systèmes n-grammes, (Jalam et Chauchat, 2002; Sahami, 1999)
ont montré que leurs performances ne s’améliorent pas après stemming ou éli-
mination des mots-outils. Dans cet esprit, nous avons laissé les textes dans leur
état originel. Aucun pré-traitement n’a été effectué, même si cette démarche a ses
limites : par exemple, « Gasperi » et « Gaspéri » comptent pour des mots diffé-
rents, qu’il y ait ou non erreur d’accent ; « premier » et « première » sont aussi
comptabilisés séparément en absence de lemmatisation. Malgré cela, nous avons
voulu donner au modèle un maximum de chances de capturer des particulari-
tés de style (manies de ponctuer le texte par l’emploi de telle ou telle personne,
de subjonctifs, gérondifs,. . . ) qui sont gommées après application de certains pré-
traitements comme la lemmatisation. Une classification naïve et un calcul d’entro-
pie ont déjà été rapportés lors de l’atelier DEFT’05 avec un automate légèrement
différent (El-Bèze et al., 2005). Seule variante, l’ajout d’une contrainte : tout mot
de longueur ≤ 5 n’est pas pris en compte afin d’alléger les calculs. Ceci corres-
pond à un « filtrage » relativement indépendant de la langue.
Comme cela était dit en introduction, un discours de Chirac peut avoir fait l’objet de
l’insertion d’au plus une séquence de phrases. La séquence M, si elle existe, est d’une
longueur supérieure ou égale à deux. Pour prendre en compte cette contrainte parti-
culière, nous avions, initialement, pensé écrire des règles, même si une telle façon de
faire s’accorde généralement peu avec les méthodes probabilistes. Dans le cas présent,
que faut-il faire si une phrase détachée de la séquence M a été étiquetée M, avec une
probabilité plus ou moins élevée (certainement au dessus de 0,5, sinon elle aurait reçu
l’étiquette C) ? Renverser la décision, ou la maintenir ? Si l’on opte pour la seconde
solution, il serait logique d’extraire également toutes les phrases qui la séparent de la
67
Chapitre 4. Classification probabiliste de texte
séquence M, bien qu’elles aient été étiquetées C. Mais, dans ce cas, un gain aléatoire
en rappel risque de se faire au prix d’une chute de précision.
Pour pouvoir trouver, parmi les chemins allant du début à la fin du discours, celui
qui optimise la production globale du discours, nous avons utilisé un automate pro-
babiliste à cinq états (dont un initial I et trois terminaux, C1 , C2 , et M2 ). Comme on
peut le voir sur la figure 4.1, vers les états dénommés C1 et C2 (respectivement M1 et
M2 ) n’aboutissent que des transitions étiquetées C (respectivement M). À une transi-
tion étiquetée C (respectivement M), est associée la probabilité d’émission combinant
pour C (respectivement M) les modèles probabilistes définis en section 4.2.1. Avant de
C1
C M M C
I M1 M2 C2
M M C
F IG . 4.1: Machine de Markov exprimant les contraintes générales des trois tâches.
Remarquons par ailleurs que la question aurait pu être gérée autrement, par exemple
en utilisant, pour chaque discours, la partie triangulaire supérieure d’une matrice car-
rée Ψ[d, d] (d étant le nombre de phrases contenues dans le discours en question, voir
les figures 4.2 et 4.3). Dans chaque case Ψ[i, j], on calcule la probabilité que la séquence
soit étiquetée M entre i et j, et C du début jusqu’au i − 1 et de j + 1 à d. Déterminer
les bornes optimales de la séquence Mitterrand revient alors à rechercher un maximum
sur toutes les valeurs Ψ[i, j] telles que i > j. Si cette valeur optimale est inférieure à celle
qu’on aurait obtenue en produisant toute la chaîne avec le modèle associé à Chirac, on
se doit de supprimer la séquence M. Sauf si on factorise les calculs pour remplir les dif-
férentes cases, la complexité de cette seconde méthode est supérieure à celle de l’algo-
rithme de Viterbi (Manning et Schütze, 1999). Il nous a paru néanmoins intéressant d’en
faire état dès à présent, car elle offre la possibilité de combiner aisément des contraintes
globales plus élaborées que celles que nous prenons en compte dans l’adaptation. Elle
peut aussi permettre de mixer des modèles issus de l’apprentissage et d’autres optimi-
sant des variables dédiées à la modélisation de la cohésion interne des séquences qui
se trouvent dans le discours traité, et n’ont fait l’objet d’aucun apprentissage préalable,
comme nous le montrerons en section 4.3.
68
4.2. Modélisation
À partir de la tâche T2, l’ensemble des noms propres était dévoilé aux participants.
Établir un lien entre différents éléments apparaissant dans des phrases même éloignées
d’un discours donné, nous a paru être un bon moyen pour mettre en évidence une sorte
de réseau sémantique permettant aux segments de s’auto-regrouper autour d’un lieu,
de personnes et de façon implicite d’une époque. Afin de mixer les relations entrete-
nues entre les noms de pays, leurs habitants, les capitales, le pouvoir exécutif, nous
avons complété un réseau fourni par le Centre de Recherche de Xerox9 , en y rajoutant
quelques relations issues des Bases de Connaissance que l’équipe TALNE du LIA utilise
pour faire fonctionner son système de Questions/Réponses (Bellot et al., 2003).
8
X pouvant prendre ici les valeurs M ou C.
9
http://www.xrce.xerox.com
69
Chapitre 4. Classification probabiliste de texte
En section 4.2.2, nous avions avancé l’hypothèse qu’étiqueter un bloc est plus fiable
qu’étiqueter chaque phrase de façon indépendante l’une de l’autre. Cela se discute en
fait si on se borne à rechercher la suite de segments qui optimise la cohésion théma-
tique10 de chacun des deux blocs, il est indispensable de conjuguer cette approche thé-
matique avec un étiquetage d’auteur. Dans cette optique, on peut vouloir trouver un
découpage de chaque discours soit en un bloc ( C. . . C), soit en deux blocs (C . . . C-M
. . . M) ou (M. . . M-C. . . C) soit en trois blocs (C. . . C-M. . . M-C. . . C) tels que le bloc des
segments étiquetés M ou les blocs (1 ou 2) étiquetés C présentent tous les deux une co-
hérence thématique interne optimale. Pour cela, nous proposons de formaliser le pro-
blème comme suit : la probabilité de production d’une phrase est évaluée au moyen
d’un modèle appris sur toutes les phrases du bloc auquel elle appartient sauf elle. En
maximisant le produit des probabilités d’émission de toutes les phrases du discours,
on a toutes les chances de bien identifier des ruptures thématiques. Mais rien ne ga-
rantit qu’elles correspondent à des changements d’orateurs. En effet, supposons qu’il
n’y ait pas dans un discours donné, d’insertion de phrases de Mitterrand, et que dans
les discours de Chirac se trouve une longue digression de 20 phrases. Notre approche
risque de reconnaître à tort ces 20 phrases comme attribuables à la classe M. Pour évi-
ter ce travers, nous proposons une optimisation mettant en œuvre conjointement les
modèles de cohérence interne et ceux issus de l’apprentissage. Nous voyons comment
la cohérence interne réussit à renverser presque totalement la situation : ainsi, un gros
bloc étiqueté M par l’adaptation seule, au sein d’un discours dont la classe est C a été
étiqueté correctement par la cohérence interne, à l’exception de deux phrases dont les
probabilités penchaient trop fortement vers la classe M.
10
La cohésion thématique étant un des éléments permettant d’apprécier la cohérence interne d’un dis-
cours, nous emploierons de préférence l’expression « cohérence interne » dans la suite.
70
4.3. Cohésion thématique des discours
Nous savons que P( D |E) prend toujours des valeurs {0, 1} car le découpage est toujours
déterminé par les étiquettes (mais pas vice-versa). La probabilité P′ ( E) ne peut pas être
déduite de l’apprentissage (le choix de D peut être considéré comme aléatoire) et P(S)
et P′ (S) ne dépendent pas de D ou de E. Alors :
n o
e e ∼ d ′ d
( D, E) = Arg max PI (S1 | D, E) × P (S1 |E) (4.7)
D,E
Si→j
…C C C …MMMMM… C C C…
i j
d
et j dont la signification est donnée par la figure 4.2. Ces deux indices correspondent
aux bornes du bloc des segments étiquetés M et à la ligne et la colonne de la matrice Ψ
évoquée en section 4.2.2. Pour un discours donné, on aura donc :
En faisant l’hypothèse11 que les segments sont indépendants, nous introduisons le pro-
duit sur toutes les phrases du discours en distinguant celles qui sont à l’intérieur du
bloc Si→ j (k = i . . . j) de celles qui sont à l’extérieur (k = 1 . . . i − 1, j + 1 . . . d) :
71
Chapitre 4. Classification probabiliste de texte
(adaptation simple). Nous avons exploité la matrice Ψ[i, j] (cf. figure 4.3) en nous limi-
tant à sa partie triangulaire supérieure. Le fait d’exclure la diagonale principale dans les
calculs illustre l’exploitation de la contrainte respectée par les fournisseurs du corpus
DEFT’05. S’il y a des segments de la classe M insérés, il y a en au moins deux. Le cas
des discours étiquetés uniquement C n’est pas représenté dans la figure, mais il a été
pris en considération, même s’il n’est pas intégré dans la matrice.
1 ... i ... d
.. ..
. • .
j • • P ( Si , S j )
..
• • • .
..
. • • • •
..
• • • • • .
d • • • • • •
F IG . 4.3: Matrice Ψ[i, j] pour le calcul de la cohérence interne. Les • représentent les cases ignorées
pour le calcul des probabilités.
4.4 Expériences
Pour la Modélisation I, tous les corpus (apprentissage et test) ont été traités par
l’ensemble d’outils LIA_TAGG12 . Dans la phase de développement, le corpus d’ap-
prentissage a été découpé en cinq sous-corpus de telle sorte que pour chacune des cinq
partitions, un discours appartient dans son intégralité soit au test soit à l’apprentissage.
À tour de rôle, chacun de ces sous-corpus est considéré comme corpus de test tandis
que les quatre autres font office de corpus d’apprentissage. Cette répartition a été pré-
férée à un tirage aléatoire des phrases tolérant le morcellement des discours. En effet,
un tel tirage au sort présente deux inconvénients majeurs. Le premier provient du fait
qu’un tirage aléatoire peut placer dans le corpus de test des segments très proches de
segments voisins qui eux ont été placés dans le corpus d’apprentissage. Le second in-
convénient (le plus gênant des deux), tient du fait qu’une telle découpe ne permet pas
de respecter le schéma d’insertion défini dans les spécificités de DEFT’05.
12
Ces outils contiennent : un module de formatage de texte permettant de découper un texte en unités
en accord avec un lexique de référence ; un module de segmentation insérant des balises de début et
fin de phrase dans un flot de texte (par des d’heuristiques) ; un étiqueteur morphosyntaxique (ECSTA
(Spriet et El-Bèze, 1998)) ; un module de traitement des mots inconnus permettant d’attribuer une étiquette
morphosyntaxique à une forme inconnue du lexique de l’étiqueteur en fonction du suffixe du mot et de
son contexte d’occurrence (basé sur le système DEVIN (Spriet et al., 1996)) et un lemmatiseur.
72
4.4. Expériences
Une partie des résultats de nos modèles, uniquement avec adaptation, ont été pu-
bliés dans les actes du colloque TALN’05. Nous reproduisons ici les observations ma-
jeures qui pouvaient être faites sur ces résultats. Le F-score s’améliore de façon notable
au cours des cinq premières itérations de l’adaptation. Au-delà, il n’y a pas à propre-
ment parler de détérioration mais une stagnation qui peut être vue comme la capta-
tion par un maximum local. L’apport des réseaux bâtis autour des noms propres est
indéniable (El-Bèze et al., 2005). Nous montrons sur la figure 4.4 les meilleurs F-score
officiels soumis pour l’ensemble de participants. Le système du LIA senior est posi-
tionné, dans les trois tâches, en première place. La méthode de (Rigouste et al., 2005)
en deuxième position, utilise quelques méthodes probabilistes semblables aux nôtres,
mais ils partent de l’hypothèse que la segmentation thématique est faite au niveau des
orateurs (pas au niveau du discours), ils ont besoin de pondérer empiriquement les
noms et les dates (tâches T2 et T3), leurs machines de Markov sont plus complexes et
il ne font pas d’adaptation, entre autres. Le dévoilement des dates (tâche T3) permet
d’améliorer très légèrement les résultats du modèle II, mais entraîne une dégradation
sur le modèle I. En ce qui concerne la précision et le rappel au fil des itérations sur
l’ensemble de Test (T) ainsi que sur le Développement (D), c’est le gain en précision qui
explique l’amélioration due aux Noms Propres. Ce gain allant de pair avec un rappel
quasi identique (légèrement inférieur pour le test), il apparaît que le composant Noms
Propres fonctionne comme un filtre prévenant quelques mauvaises extractions (mais
pas toutes).
LIA senior
0.90
tâche1
0.80 tâche2
tâche3
0.70
0.60
Fscore
0.50
0.40
0.30
0.20
0.10
1 2 3 4 5 6 7 8 9 10 11
Equipes
F IG . 4.4: F-score officiels pour les trois tâches (T1 : pas de noms, pas de dates ; T2 : pas de noms et
T3 : avec noms et dates) pour l’ensemble de participants DEFT’05. Les membres des équipes sont
cités dans (El-Bèze et al., 2005).
73
Chapitre 4. Classification probabiliste de texte
Les résultats ont été améliorés grâce à la recherche d’une cohérence interne des
discours. Cette étape intervient après application de l’automate markovien et avant la
phase d’adaptation. Nous montrons, sur les figures 4.5 le F-score obtenu pour les trois
tâches à l’aide d’une adaptation plus la cohérence interne pour les corpus de Dévelop-
pement (D) et de Test (T). Dans tous les cas, l’axe horizontal représente les itérations
de l’adaptation. Sur les graphiques, la ligne pointillée correspond aux valeurs du F-
score obtenues avec l’adaptation seule et les lignes continues à celles de la cohérence
interne (une itération : ligne grosse ; deux itérations : ligne fine). Pour les trois tâches, on
observe une amélioration notable du modèle de cohérence interne par rapport à celui
de l’adaptation seule. Enfin, la valeur la plus élevée de F-score est à présent obtenue
pour la tâche T3 (0,925). Ce score dépasse largement le meilleur résultat (F-score = 0,88)
atteint lors du défi DEFT’05.
Tâche T3 - Développement Tâche T3 - Test
0.93 0,93
0.90 0,90
0.89 0,89
Fscore
Fscore
0.88 0,88
0.87 0,87
0.86 0,86
0.85 0,85
Adaptation
Cohérence interne Itération 1
0.84 0,84
Cohérence interne Itération 2
0.83 0,83
0 1 2 3 4 5 0 1 2 3 4 5
Itérations de l'adaptation Itérations de l'adaptation
Les figures 4.6 montrent, avec la même convention que les figures précédentes, le
F-score pour le modèle II, où n’ont été appliqués ni filtrage ni lemmatisation. Ici encore,
les valeurs les plus élevées sont obtenues pour la tâche T3, avec un F-score = 0,873.
La comparaison avec les performances (F-score = 0,801 pour la tâche T3) de ce même
modèle que nous avons employé lors du défi DEFT’05, est avantageuse : sept points
de plus. Cette amélioration est due essentiellement à la cohérence interne et permet
d’approcher la meilleure valeur (F-score = 0,881 rapporté dans (El-Bèze et al., 2005)) qui
avait été obtenue avec l’adaptation seule et un filtrage et lemmatisation préalables. Bien
que l’utilisation de ce modèle soit un peu moins performante (et de ce fait contestée),
nous pensons qu’il peut être utile d’y recourir, si l’on veut éviter la lourdeur de certains
processus de pré-traitement.
Le dernier test que nous avons réalisé fait appel à une fusion de l’ensemble des
modèles. Nous avons appliqué un algorithme de vote sur presque toutes les hypothèses
issues des modèles I et II. Les hypothèses (qui vont faire office de juges) proviennent
des différentes itérations de l’adaptation, avec ou sans cohérence interne. Nous avons
74
4.4. Expériences
0.89 0,89
0.88 0,88
Fscore
Fscore
0.87 0,87
0.86 0,86
0.85 0,85
0.84 0,84
0.83 0,83
0 1 2 3 4 5 1
0 12 3
2 43 5
4 56
Itérations de l'adaptation Itérations de l'adaptation
tenu compte des avis d’un nombre de juges donné (NJ ), en pondérant l’avis de chaque
juge j par un poids w j de telle sorte que le critère de décision final soit le suivant
N
!
J
75
Chapitre 4. Classification probabiliste de texte
effet, on atteint un F-score = 0,914, avec une précision de 0,892 et un rappel de 0,937. Il
est connu que les perceptrons (et les réseaux de neurones en général) trouvent parfois
des valeurs de poids trop bien adaptées à l’ensemble d’apprentissage (phénomène de
sur-apprentissage). Le fait de ne pas avoir eu de meilleurs résultats sur l’ensemble de
test le confirme. Cependant, nous pensons que si les ~ξ i étaient des probabilités au lieu
d’être des valeurs comprises entre [0,1], on aurait pu observer un meilleur comporte-
ment.
Nous avons analysé les erreurs commises par notre système. Sur un total de 27 163
phrases de l’ensemble de Test de la tâche T3, le Modèle I avec la méthode d’adaptation
et la cohérence interne des discours, a fait un total de 578 erreurs (F-score = 0,925) :
– 233 erreurs de la classe C (faux négatifs assimilés au rappel), dont : 37 phrases C
à la frontière inversée (≈ 16%) ; 113 phrases C en blocs (≈ 49%) ; 83 phrases C
entre blocs C (≈ 36%) ;
– 345 erreurs de la classe M (faux positifs assimilés à la précision), dont : 35 phrases
M à la frontière inversée (≈ 10%) ; 126 phrases M en blocs (≈ 37%) ; 184 phrases
M insérées dans 21 discours de classe C exclusive (≈ 53%).
Le problème le plus grave concerne la précision (59% du total des erreurs), et ici, la
plus grande majorité (53% de faux positifs) est due aux insertions des phrases M dans
des discours de classe C14 . L’autre problème se présente dans les 126 phrases en blocs
inversés (37%). Ces problèmes sont peut-être dus à l’utilisation de la cohérence interne :
en adaptation seule , la précision est toujours plus élevée que le rappel (en D comme en
T). Pour la cohérence interne, la situation est inversée : le rappel est bien meilleur que la
précision. Le même comportement a été retrouvé dans le Modèle II. Un autre pourcen-
tage important d’erreurs (49% de faux positifs) a lieu dans l’inversion d’un nombre im-
portant de blocs (113 phrases). Enfin, une autre partie non négligeable (10% de faux po-
sitifs, 16% de faux négatifs) correspond à l’inversion de catégorie d’une phrase unique
à la frontière des découpages (soit i ou j, voir figure 4.2). La détection de cette frontière,
reste un sujet très délicat avec nos approches.
76
4.5. Conclusions et perspectives
une thématique différente, peuvent faire basculer tout un bloc vers l’autre étiquette. Ce
type de comportement local entraîne des instabilités globales dont la prévision reste
très difficile, ayant comme conséquence une baisse générale des performances. Ne pas
lemmatiser et ne rien filtrer dégrade un peu les performances mais permet d’éviter l’ap-
plication d’un processus additionnel de pré-traitement qui pour certaines langues est
relativement lourd. La fusion des hypothèses vue comme un vote de plusieurs juges
pondérés par un perceptron optimal a permis de surpasser les résultats précédents en
développement (F-score = 0,914). Cependant nous pensons qu’il reste encore du tra-
vail pour améliorer cette stratégie afin d’obtenir de meilleures performances en test.
Des études comme celle de (Rigouste et al., 2005) sur le même corpus confirment que
l’utilisation de méthodes probabilistes est la mieux adaptée à ce type de segmentation
thématique. Le recours à un réseau de Noms Propres est utile et nous encourage par
la suite à employer une ressource lexicale comme (Vossen, 1998) pour tirer parti de ré-
seaux sur les noms communs. Pour s’affranchir des contraintes liées à la constitution
d’une ressource sémantique, il serait judicieux de recourir à des approches telles que
LSA (Deerwester et al., 1990) ou PLSA (Hofmann, 1999). D’autres perspectives d’appli-
cation, comme celle de la séparation de thèmes sont aussi envisageables. Il faut recon-
naître, cependant, que s’il avait été question de traiter un texte moins artificiel que celui
proposé par DEFT, par exemple un dialogue, la difficulté aurait été accrue. Des fron-
tières thématiques ne coïncident pas forcément avec des débuts de phrase. Les thèmes
peuvent s’entremêler et composer un tissu discursif où les fils sont enchevêtrés de façon
subtile. Beaucoup reste à faire pour pouvoir différencier plusieurs orateurs ou plusieurs
thèmes comme envisagé dans le cadre du Projet Carmel (Chen et al., 2005).
77
Chapitre 4. Classification probabiliste de texte
78
Chapitre 5
Lors du rigoureux hiver canadien de 2001, sans la moindre intention d’aller à l’exté-
rieur à une température de -40°C et surchargé de cours à préparer dans l’Université du
Québec à Chicoutimi, je me demandais s’il n’y avait pas un moyen simple de synthéti-
ser les textes de mes cours pour épargner du temps. Face à moi, j’avais toujours une pile
de livres et d’articles de systèmes digitaux et systèmes d’exploitation dont la lecture ne
m’inspirai pas beaucoup. Si seulement la machine était capable de les lire à ma place
puis de me présenter une synthèse plus courte, donc plus humaine... (tout un livre dans
une page) Mais comment faire... ? Je l’ignorais, mais je commençais à me poser le pro-
blème du résumé automatique de textes. J’arrivais donc dans ce domaine d’une façon
hasardeuse et très naïve. Je n’étais pas au courant de l’état de l’art sur les condensés de
textes, mais j’ai commencé a définir, avec Patricia Velázquez, les premières briques d’un
système très naïf de résumé par extraction de phrases. J’avais déjà une certaine expé-
rience avec le modèle vectoriel de textes et j’ai décidé donc de l’appliquer aux résumés
automatiques. De ces journées sombres et enneigées du nord du Canada est sortie l’idée
de COrtex, un autre Résumeur de TEXtes. Je montrerai en plus de Cortex, basé sur une
approche numérique, une méthode hybride linguistique-numérique pour générer des
résumés d’un domaine spécialisé.
Mes travaux sur Cortex ont commencé à l’UQAC, puis à l’École Polytechnique de
Montréal et continué au LIA d’Avignon. Les idées originales ont été publiées dans
les conférences ARCo’01 (Torres-Moreno et al., 2001) et JADT’02 (Torres-Moreno et al.,
2002). Les travaux sur un résumeur hybride utilisant Cortex et des méthodes linguis-
tiques ont été publiés dans le congrès MICAI’07, (da Cunha Iria et al., 2007).
79
Chapitre 5. Cortex es Otro Resumidor de TEXtos
5.1 Introduction
La forme la plus connue et la plus visible des condensés de textes est le résumé,
représentation abrégée et exacte du contenu d’un document (ANSI, 1979). Produire un
résumé pertinent demande au résumeur (humain ou système) l’effort de sélectionner,
d’évaluer, d’organiser et d’assembler des segments d’information selon leur pertinence.
Cette pertinence (Mani et Mayburi, 1999; Morris et al., 1999; Mani, 2001) peut être gui-
dée par un sujet ou une thématique en particulier, comme on verra lors du prochain
chapitre.
Dans son étude sur les résumeurs humains professionnels, (Cremmins, 1996) relève
une analyse locale (contenu dans une phrase) et une autre Globale (contenu à travers
les phrases). Cremmins recommande entre 8-12 min pour résumer un article scienti-
fique type : ce qui est beaucoup moins du temps nécessaire pour véritablement le com-
prendre ! De nos jours, le résumé automatique est un sujet de recherche très important.
Introduit par Luhn (Luhn, 1958) à la fin des années 50, avec un système de résumé
par extraction de phrases, le résumé automatique est un processus qui transforme un
texte source en texte cible, de taille plus réduite et dans lequel l’information pertinente
est conservée. Des techniques qui utilisent la position textuelle (Edmundson, 1969;
Brandow et al., 1995; Lin et Hovy, 1997), les modèles Bayésiens (Kupiec et al., 1995), la
pertinence marginale maximale (Goldstein et al., 1999) ou la structure de discours ont
été utilisées. La plupart des travaux sur le résumé par extraction des phrases appliquent
les techniques statistiques (analyse de fréquence, recouvrement de mots, etc.) aux uni-
tés telles que les termes, les phrases, etc. D’autres approches sont basées sur la structure
du document (mots repère, indicateurs structuraux) (Edmundson, 1969; Paice, 1990a),
la combinaison de l’extraction de l’information et de la génération de texte, l’utilisation
des SVM (Mani et Bloedorn, 1998; Kupiec et al., 1995) pour trouver des patrons dans
le texte, les chaînes lexicales (Barzilay et Elhadad, 1997; Stairmand, 1996) ou encore la
théorie de la structure rhétorique (Mann et Thompson, 1987).
Mes recherches ont porté sur l’obtention des résumés informatifs par extraction de
phrases pertinentes. Je présenterai Cortex, un système basé sur la représentation vecto-
rielle des textes (Salton et McGill, 1983; Salton, 1989), sous forme d’une chaîne de traite-
ment numérique qui combine plusieurs traitements statistiques et informationnels (tels
que les calculs d’entropie, le poids fréquentiel des segments et des mots, et plusieurs
mesures de Hamming parmi d’autres) avec un algorithme optimal de décision. Cortex
génère des condensés de textes par extraction des phrases pertinentes.
80
5.2. Cortex
5.2 Cortex
Segmentation
Texte
Texte
Filtrage Métriques
Vectorisation Position
Pré-traitement Hamming
...
Concaténation de
Interaction
phrases selon la
compression volue
Résumé
Dans l’approche vectorielle, on traite de textes dans leur ensemble, en passant par
une représentation numérique très différente d’une analyse structurale linguistique
mais qui permet des traitements performants (Manning et Schütze, 1999). L’idée consiste
à représenter les textes dans un espace approprié et à leur appliquer des traitements
vectoriels. Cortex comporte un ensemble des processus de filtrage, segmentation et
lemmatisation. Par opposition à l’analyse symbolique classique, ces processus sont très
performants et peuvent être appliqués sur des gros corpus. Le texte original comporte
NM mots (mots fonctionnels, noms, verbes fléchis...). J’emploie la notion de terme pour
désigner un mot plus abstrait (Manning et Schütze, 1999). Pour réduire la complexité
des processus de réduction du lexique sont amorcés1 . La lemmatisation de verbes dans
les langues à morphologie variable (langues romanes) s’avère très importante pour la
réduction du lexique, et consiste à trouver la racine des verbes fléchis et à ramener les
1
La suppression des mots fonctionnels, des mots à haute et très basse fréquence d’apparition, suivi par
la suppression (facultative) du texte entre parenthèses, de chiffres et des symboles.
81
Chapitre 5. Cortex es Otro Resumidor de TEXtos
s11 s21 · · · s1NL
s1
2 s22 · · · s2NL
i TF i si le terme i existe dansµ
S=. .. .. .. ; sµ = (5.1)
.. . . . 0 autrement
s1P s2P · · · sPNL
1 si le terme i existe
ξ µi = (5.2)
0 autrement
µ
Dans cette matrice, chaque composante montre la présence (ξ i = 1) ou l’absence
µ
(ξ i = 0) du mot i dans un segment µ. Les algorithmes de Cortex vont agir sur ces deux
matrices, qui constituent l’espace des entrées du système. Les segments possèdent évi-
dement une quantité hétérogène d’information : la tâche consiste alors en repérer les
segments les plus importants pour obtenir un extract du document.
2
Ainsi on pourra ramener à la même forme chanter les mots chantaient, chanté, chanteront et éventuelle-
ment chante et chanteur.
3
J’ai exploré aussi d’autres voies pour la réduction du lexique en utilisant des processus de synonimi-
sation à l’aide de dictionnaires, mais il y a un compromis sensible concernant l’introduction de bruit, qui
n’est pas facile à trouver. Les résultats ne sont donc pas concluants.
4
Le critère de segments à taille fixée a été écarté, car on cherchait l’extraction des phrases complètes.
82
5.3. Algorithmes
5.3 Algorithmes
5.3.1 Métriques
NL
Fµ = ∑ siµ (5.3)
i =1
µ
si est la fréquence du mot i dans le segment µ. L’expression :
P NL
T= ∑ ∑ siµ (5.4)
µ =1 i =1
1 P i
pi = sµ (5.7)
T µ∑
=1
NL
∆= ∑ pi siµ ; si ξ µi 6= 0 (5.8)
i =1
83
Chapitre 5. Cortex es Otro Resumidor de TEXtos
84
5.3. Algorithmes
Ensuite, on calcule la somme des poids de Hamming des mots par segments :
NL
Θµ = ∑ ψi ; si ξ µi 6= 0 (5.16)
i =1
– Mesures mixtes. Des mesures de distances combinées avec des mesures fréquen-
tielles ont été aussi considérées.
– Le poids de Hamming lourd. Il est obtenu de la multiplication du poids de
Hamming du segment φ par le poids de Hamming des mots S HM :
µ
Πµ = φµ S HM (5.17)
NL
µ
Ωµ = ∑ φµ siµ ; si si 6= 0 (5.18)
i =1
Nous avons développé un algorithme pour récupérer l’information codée par les
métriques. L’idée est simple : étant donné les votes pour un événement particulier qui
provient d’un ensemble de k votants indépendants, chacun avec une certaine proba-
bilité d’avoir raison, trouver la décision optimale. La méthode que nous avons déve-
loppée s’appelle Algorithme de décision (AD). Une première version a été publiée en
(Torres-Moreno et al., 2001)5 . L’AD a par la suite été modifié par une autre version plus
adaptée.
5
Il utilise deux probabilités mutuellement exclusives : p0 et p1 . On présente les k votants en modifiant
p0 et p1 en fonction des sorties π j ; j = 1, · · · , k (les valeurs des métriques normalisées préalablement).
– Pour chaque segment ~ξ µ ; µ = 1, 2, · · · , P
( 0) ( 0) 1
– p0 ← p1 ←
2
– Pour j = 1, · · · , k ; votants ν
– Le votant νj calcule une valeur π j normalisée entre (0,1) qui reflète l’importance du segment µ.
1
– Si la valeur π j est significative (6= ) on modifie les probabilités p0 et p1 à l’itération t + 1 en
2
85
Chapitre 5. Cortex es Otro Resumidor de TEXtos
s Γ
∑ α = ∑ (||λvs || − 0.5); ||λvs || > 0, 5 (5.22)
v =1
s Γ
∑ β = ∑ (0.5 − ||λvs ||); ||λvs || < 0, 5 (5.23)
v =1
Γ
v est l’indice de la métrique, ∑ est la somme des différences absolues entre kλk et 0,5,
s
s s
∑ α sont les métriques positives normalisées, ∑ β les métriques négatives normalisées
et Γ le nombre de métriques utilisées. La valeur attribuée à chaque phrase est calculée
au moyen de : Λs est la valeur utilisée pour la décision de retenir ou non la phrase s.
Il possède deux propriétés intéressantes : convergence et amplification. Les probabilités p0 et p1 sont modi-
fiées en tout temps de façon mutuellement exclusive, et leur écart est changé toujours avec une probabilité
≥ 0, 5 de l’améliorer. Il amplifie car la probabilité de choisir un segment pertinent est ≥ π j (meilleur votant
branché à ce moment).
6
La moyenne simple peut être ambiguë si la valeur est proche de 0,5, ainsi l’algorithme de décision
élimine les phrases dont le score vaut 0,5.
86
5.4. Évaluation des résumés
Avant que l’algorithme de décision ne soit utilisé, chacune des métriques de Cor-
tex, µ doit être normalisée afin d’éviter les différentes plages de valeurs. La métrique
résultante est notée par µ̂ et définie par :
µ( d) − m
µ̂(d) = (5.24)
M−m
L’évaluation des résumés reste une tâche très difficile et subjective. Malgré les ef-
forts de la communauté TAL, on n’a pas réussi à l’automatiser. Elle peut être réali-
sée en évaluant indépendamment le résumé (façon intrinsèque) ou en évaluant le ré-
sumé de forme indirecte dans une tâche précise, comme par exemple, couplé avec un
système de Questions-Réponses (façon extrinsèque) (Mani et Mayburi, 1999). Les ré-
sumés sont aussi évalués soit manuellement soit semi-automatiquement. La première
méthode consomme un coût de temps humain élevé (chaque résumé doit être lu, évalué
et validé) et reste très subjective, car la divergence entre les juges peut être considérable.
La deuxième méthode est plus standard et a la capacité d’être reproductible, mais elle
exige un nombre de résumés de référence produits par des humains.
Différentes approches existent pour l’évaluation semi-automatique des résumés,
telles que R OUGE (Lin, 2004), Pyramids (Passonneau et al., 2005) ou Basic Elements
(BE) (Hovy et al., 2005). Les mesures R OUGE se sont imposées actuellement7 comme
évaluation des résumés.
SU4 est également un rappel de bigrammes de mots mais étendu, ce qui per-
met de considérer les bigrammes et les trous arbitraires dans une longueur maxi-
male de 4. Par exemple, la phrase « pourquoi utilise-t-on le résumé » possède
Count(4, 2) = 6 bigrammes à trou : « pourquoi utilise-t-on », « pourquoi le »,
7
Les trois approches ont été retenues lors de Document Understanding Conferences (DUC), qui
concernent les résumés guidés par une thématique (voir chapitre 6).
87
Chapitre 5. Cortex es Otro Resumidor de TEXtos
Ces mesures, combinées avec la méthode Pyramids et la lecture directe des résumés
seront beaucoup utilisées dans le chapitre suivant pour évaluer les systèmes de résumé
multi-document guidés par une thématique.
Avant l’année 2002 les évaluations R OUGE, Basic Elements ou Pyramids n’existaient
pas.
graveA l’époque, j’ai donc procédé à une évaluation indirecte, en comparant les ré-
sumés générés par nos systèmes avec les extraits produits par un certain nombre de
juges humains. Une sorte de mesure de rappel et précision. Je reproduis dans la figure
5.2 cette évaluation empirique, qui a été rapportée dans (Torres-Moreno et al., 2001,
2002) concernant des textes en français et en espagnol. J’ai décidé d’inclure des me-
sures R OUGE, afin d’être moins empirique dans l’évaluation de Cortex. Des textes en
français et en anglais ont été choisis, tel que rapporté dans (Fernandez et al., 2007a).
Récemment, des tests en langue somalienne ont été réalisés. Pour cela un stemming
élémentaire a été utilisé. Le lecteur intéressé peut consulter (Abdillahi et al., 2006).
Nous avons testé notre algorithme sur des articles de vulgarisation scientifique. Les
textes extraits de la presse sur Internet sont de petite taille. L’objectif a été d’obtenir un
extrait représentant 25% du nombre de segments total. Nous avons comparé les per-
formances de Cortex avec celles du système Minds8 , du logiciel Copernic Summarizer9
8
http://messene.nmsu.edu/minds/SummarizerDemoMain.html
9
http://www.copernic.com
88
5.5. Expériences et discussion
– Textes en français. Nous avions déjà étudié le texte « Puces » 11 , mélange hétéro-
clite de sujets puces biologiques et informatiques, donc artificiellement ambigu,
dans le cadre de la classification de texte par leur contenu (Torres-Moreno et al.,
2000). Il contient 29 phrases et 653 mots. Les segments les plus importants sélec-
tionnés par les humains sont le 2, 5, 15 et 17 (figure 5.2b). Une partie de nos résul-
tats est montrée sur la figure (5.2a), où on voit que les segments importants ont été
bien repérés. Cortex et Minds obtiennent un résumé équilibré (même si ce dernier
ne trouve ni le segment 5 ni le 15). Par contre, les résultats de Word sont biaisés et
peu pertinents comme on le voit sur la même figure. Pour le texte « Fêtes »12 , les
1,0 1,0
0,8 0,8
0,6 0,6
Décision
Décision
0,4 0,4
0,2 0,2
0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Segment Segment
(a) (b)
1,0 1,0
0,8 0,8
0,6
Décision
0,6
Décision
0,4 0,4
0,2 0,2
0,0 0,0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30
Segment Segment
(a) (b)
F IG . 5.2: Choix de segments pertinents pour le texte « Puces » par en haut a) Cortex : les segments
2 et 17 ont été bien choisis et b) Par les 14 sujets humains. En bas, a) Minds et b) synthétiseur
Word.
résultats montrent que Cortex trouve des résumés acceptables. Nous avons effec-
tué des comparaisons avec Copernic Summarizer (Huot, 2000), et nos condensés
sont comparables voire de meilleure qualité. Dans d’autres tests, les condensés
trouvés par Cortex semblent être assez cohérents (Torres-Moreno et al., 2001).
10
Tous les sujets avaient un niveau d’études universitaire, habitués à rédiger des résumés.
11
http://www.lia.univ-avignon.fr/chercheurs/torres/recherche/cortex
12
http://www.quebecmicro.com/6-12/6-12-28.html
89
Chapitre 5. Cortex es Otro Resumidor de TEXtos
– Textes en espagnol. Nous avons étudié deux textes techniques en espagnol : « No-
pal » et « Tabaco » 13 . On constate la bonne qualité du condensé, même dans des
textes avec un lexique redondant.
Nous avons toujours constaté que les condensés des humains dépendent de l’ex-
pertise des personnes et des leurs capacités d’abstraction. Ceci produit souvent des
résultats très différents entre les juges. Mais malgré cela, les choix des humains nous a
toujours semblé être une référence. Les mesures R OUGE l’ont confirmé plus tard.
90
5.5. Expériences et discussion
TAB . 5.1: Rappel R OUGE -2 (R2) et SU4 des résumés genériques. Résumés au 25% : 3-mélanges,
puces, Québec et Nazca ; résumé au 20% : Lewinsky et résumé au 12% : J’accuse.
0,64
0,60
Cortex
0,56
0,52
0,48 MEAD
Copernic
0,44
<SU4>
0,40
0,36
0,32 Pertinence
Baseline Word
0,28
0,24
0,20
0,24 0,28 0,32 0,36 0,40 0,44 0,48 0,52 0,56
<ROUGE-2>
F IG . 5.3: Moyenne des scores moyens de rappel pour tous les textes.
5.5.3 Discussion
NL
ρL = (5.27)
NM
91
Chapitre 5. Cortex es Otro Resumidor de TEXtos
Alors :
N̂ f T̂ N̂
ρ̂ f = ; ρ̂s = ; ρ̂L = L
N̂M N̂M N̂M
Nous avons calculé : ρ̂ f = 0, 414 ± 0, 032 ; ρ̂L = 0, 068 ± 0, 015 et ρ̂s = 0, 224 ±
0, 058. La réduction de la taille du lexique filtré/lemmatisé ρ̂L suit un comporte-
ment linéaire (Torres-Moreno et al., 2002) par rapport au nombre de mots du texte
original, donc pour obtenir un condensé d’un texte avec nos méthodes on utilise
seulement un seizième du volume de termes totaux du document.
Pouvoir discriminant des métriques. Il est mesuré en fonction de leurs écarts-types
par rapport au choix des segments. En effet, il y a des métriques qui sont plus
discriminantes que d’autres. La somme des distances de Hamming entre mots à
l’intérieur d’un segment est très discriminante. Par contre, les métriques qui im-
pliquent des calculs d’entropie ou de valeurs fréquentielles semblent l’être moins.
La figure 5.4 montre les moyennes du pouvoir discriminant des métriques.
0,50
0,45
0,40
Moyenne des écart-type
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Ψ Π φ ∆ I θ F E Ω
Métrique
F IG . 5.4: Moyenne du pouvoir discriminant des métriques. 1. Les distances de Hamming Ψ, 2. Les
poids de Hamming lourd Π, 3. Le poids de Hamming des segments φ, 4. La somme des probabilités
par fréquence ∆, 5. Les interactions I, 6. La somme des poids de Hamming Θ, 7. La fréquence F, 8.
L’entropie E et 9. La somme fréquentielle des poids de Hamming Ω.
92
5.6. Et si la linguistique pouvait... ? une approche hybride
Ordre de présentation des segments. Nos expériences ont montré que l’ordre de pré-
sentation des segments n’a aucune influence sur le choix final de l’algorithme de
décision. Nous avons découpé les textes en segments et nous les avons mélangés
au hasard pour obtenir un nouveau texte. Ce texte a été présenté à nouveau à
Cortex (sans la métrique X) et la même pondération des phrases a été retrouvée.
Mais bien évidemment, le résume produit par ce mélange est incohérent, ce qui
est assez logique.
Cortex. Il a été utilisé avec toutes les métriques, sans réglage particulier des para-
21
Institut de Linguistique Appliquée http://www.iula.upf.edu, Université Pompeu Fabra (Barce-
lone).
93
Chapitre 5. Cortex es Otro Resumidor de TEXtos
mètres.
Enertex. (Fernandez et al., 2007a) approche inspirée par la physique statistique adap-
tée aux problèmes du TAL. L’algorithme modélise les documents comme un ré-
seau de neurones dont l’énergie textuelle est étudiée. L’idée principale est qu’un
document peut être traité comme un ensemble d’unités (les mots) qui interagissent
les unes avec les autres. Je détaillerai cette méthode au chapitre 8.
Yate. Les termes extraits représentent des « concepts » appartenant au domaine mé-
dical et leur termicité modifiera leurs poids dans la matrice terme-segment de
Cortex. Yate (Vivaldi, 2001; Vivaldi et Rodríguez, 2002) est un outil d’extraction
de termes candidats dont les caractéristiques principales sont l’utilisation d’une
combinaison de plusieurs techniques d’extraction de termes et l’utilisation de
EWN22 , une ontologie lexico-sémantique.
Disicosum. L’hypothèse de base est que les professionnels des domaines spécialisés
(spécifiquement, le domaine médical) utilisent des techniques concrètes pour ré-
sumer leurs textes (da Cunha et Wanner, 2005). (da Cunha et Wanner, 2005, 2006)
ont étudié un corpus contenant des articles médicaux et leurs résumés afin de
trouver quelle information devrait être choisie pour obtenir un résumé spécialisé.
Un autre point de départ est l’idée que différents types de critères linguistiques
devraient être utilisés pour avoir une bonne représentation des textes, et exploi-
ter ainsi leurs avantages. Les systèmes de résumé automatique basés sur la lin-
guistique utilisent, en général, un seul type de critère (les termes (Luhn, 1958) ;
la position textuelle (Brandow et al., 1995; Lin et Hovy, 1997) ; la structure dis-
cursive (Marcu, 1998; Teufel et Moens, 2002), etc.), mais pas leurs combinaisons.
Disicosum est constitué de règles à l’égard des structures textuelles, lexicales, dis-
cursives, syntaxiques et communicatives :
– Règles textuelles : i) Le résumé doit contenir l’information de chaque section
de l’article23 . ii) Les phrases de certaines positions doivent être bonifiées d’un
poids supplémentaire24 .
– Règles lexicales : a) Augmenter le score des phrases contenant : i/ Mots du titre
principal (sauf les mots fonctionnels), ii/ Formes verbales à la 1ère personne
du pluriel, iii/ Mots d’une liste contenant les verbes (analyser, observer, etc.) et
les substantifs (but, objectif, résumé, conclusion, etc.) qui pourraient être per-
tinents, iv/ Toute information numérique des sections Patients et méthodes et
Résultats. b) Éliminer les phrases contenant : i/ Références à des tables/figures
(les modèles linguistiques montrent que seulement une partie de la phrase
pourrait être éliminée : comme montré dans le Tableau..., sur la figure 4 nous
pouvons observer...), ii/ Références à des aspects statistiques/informatiques :
22
EWN (www.illc.uva.nl/EuroWordNet) est une prolongation multilingue de WordNet (word-
net.princeton.edu), une ontologie lexico-sémantique. L’unité sémantique de base dans les deux ressources
est le « synset » qui groupera ensemble plusieurs mots simples/multi termes qui peuvent être considérés
des synonymes dans quelques contextes. Les synsets sont liés à l’aide d’étiquettes sémantiques. En raison
de la polysémie, une simple entrée lexicale peut être attachée à plusieurs « synsets ».
23
Les articles considérés ont les sections : Introduction, Patients et méthodes, Résultats et Conclusions.
24
Les 3 premières phrases de la section d’Introduction, les 2 premières phrases de Patients et méthodes
et de Résultats, et les 3 premières et les 3 dernières de la section Conclusions.
94
5.6. Et si la linguistique pouvait... ? une approche hybride
Pour l’implantation des règles textuelles et lexicales, nous avons utilisé un seg-
menteur pour l’espagnol26 et TreeTagger (Schmid, 1994). Cependant, nous avons
eu des problèmes pour l’exécution complète du modèle. D’abord, aucun analy-
seur syntaxique n’est capable d’obtenir la structure discursive de textes en es-
pagnol27 . Ensuite, il n’existe aucun analyseur syntaxique pour obtenir la struc-
ture communicative. Il y a seulement quelques publications à ce sujet, comme
par exemple (Hajicova et al., 1995). Enfin, bien qu’il y ait quelques analyseurs
syntaxiques de dépendances pour l’espagnol (Attardi, 2006; Asterias et al., 2005),
leurs résultats ne sont pas fiables. Ainsi, une solution intermédiaire consiste à
simuler la sortie de ces analyseurs. Un taggeur XML syntaxique-communicatif
et discursif semi-automatique a été conçu afin d’étiqueter les textes. Une inter-
face d’annotation, où l’utilisateur choisit la relation entre les différents éléments
25
N=noyau, S=satellite. On éliminera le texte souligné.
26
Développé à l’IULA.
27
Il y a pour l’anglais (Marcu, 1998, 2000) et un projet en cours pour le portugais (Pardo et al., 2004).
95
Chapitre 5. Cortex es Otro Resumidor de TEXtos
(noyau et satellites) des textes, a été développée. Il est fait en deux étapes. D’abord,
l’utilisateur détecte les relations entre les phrases, puis il trouve des relations à
l’intérieur des phrases (si elles existent). Le résultat est une représentation du texte
sous la forme d’un arbre de relations.
Liste de termes
ENERGIE
ENERGY DISICO
DISICOSUM
CORTEX
SUM
Algorithme
Decision
de décision
algorithm
Résumé
96
5.6. Et si la linguistique pouvait... ? une approche hybride
Pour évaluer les résumés, nous les avons comparés aux résumés écrits par les auteurs,
en utilisant R OUGE (Lin, 2004). Pour l’application de R OUGE, nous avons utilisé une
lemmatisation en espagnol et une stoplist. Pour calculer la longueur des résumés, nous
avons obtenu le nombre de phrases moyen de chaque section présente dans les résumés
de l’auteur. Puis, nous avons décidé d’inclure dans nos résumés une phrase addition-
nelle par section. Cette décision a été prise parce que nous nous sommes aperçus que
généralement les auteurs fusionnent les phrases du texte dans les résumés.
L’évaluation des résultats est montrée au tableau 5.6. Nous avons utilisé les mesures
R OUGE-2 SU4
Médiane 1 Médiane 2 Médiane 1 Médiane 2
Système Hybride 0.3638 0.3808 0.3613 0.3732
Disicosum 0.3572 0.3956 0.3359 0.3423
Cortex 0.3324 0.3324 0.3307 0.3255
Enertex 0.3105 0.3258 0.3155 0.3225
Cortex texte intégral 0.3218 0.3329 0.3169 0.3241
Enertex texte intégral 0.3598 0.3598 0.3457 0.3302
Baseline1 0.2539 0.2688 0.2489 0.2489
Baseline2 0.2813 0.3246 0.2718 0.3034
R OUGE malgré le fait que seulement un résumé de référence a été fourni. Néanmoins,
ces mesures fournissent une forme standard de comparaison et garantissent la repro-
ductibilité de nos expériences. Pour évaluer l’impact de la qualité du taggeur semi-
automatique sur la performance de Disicosum, 20% des documents ont été étiquetés
dans un temps restreint (30 minutes par texte) et les autres sans restrictions de temps.
Par conséquent, on s’attend à ce que la concordance du taggeur linguistique sur les 80%
des textes soit meilleure que pour les 20% étiquetés dans un temps restreint.
Le tableau montre les médianes de chaque système sur le corpus (Médiane 1) et sur
l’ensemble des documents réduits étiquetés sans restrictions de temps (Médiane 2). Les
polices de caractères dépendent du quartile (grandes polices pour les grands quartiles,
plus petits pour les autres). D’après la médiane des documents pour lesquels l’étique-
tage a été fait dans un temps sans restriction, les résumés de Disicosum semblent être
les plus proches du résumé de l’auteur selon R OUGE-2. Selon la mesure SU-4, Disico-
sum est le meilleur parmi les systèmes individuels, mais le système hybride est le plus
performant de tous. En ce qui concerne l’ensemble de tous les textes, les médianes de
Disicosum sont inférieures aux précédentes. Cependant, ces médianes restent parmi les
plus hautes par rapport aux systèmes individuels. Ceci montre que la qualité de l’éti-
quetage du modèle linguistique a un impact direct sur la qualité du résumé même si
l’étiquetage a été effectué indépendamment du but du résumé. Les systèmes Cortex et
Enertex ont été testés directement sur les textes complets et sur les textes segmentés
par sections indépendantes. Le deuxième meilleur système individuel selon ces résul-
tats semble être Enertex sur le texte intégral. Il s’avère qu’Enertex fonctionne mieux sans
l’indication de considérer que le résumé devrait contenir les éléments venant de chaque
97
Chapitre 5. Cortex es Otro Resumidor de TEXtos
section du texte. Une explication pourrait être qu’Enertex compare toutes les phrases
deux à deux. Plus le texte contient de phrases, mieux sera la représentation vectorielle.
Cortex utilise des critères locaux puisqu’il a été construit pour résumer efficacement les
corpus volumineux. Sur des textes courts, le manque de mots fréquents réduit la perfor-
mance du système. Cependant, il s’avère ici qu’il peut prendre en compte les propriétés
structurales des textes. En ce qui concerne le système hybride, les expériences montrent
qu’il améliore la proximité par rapport au résumé de l’auteur dans tous les cas à l’ex-
ception de R OUGE-2 si l’on considère l’étiquetage linguistique humain sans restriction
de temps.
Finalement, nous avons effectué une autre expérience : un même texte étiqueté par 5
personnes différentes et les résumés produits par Disicosum utilisés comme modèles de
référence ont été utilisés pour calculer les mesures R OUGE des autres systèmes. L’idée
était de trouver quel système est le plus proche du modèle linguistique. Cortex et Ener-
tex se sont révélés comme les plus proches de ce modèle. En d’autres termes, les perfor-
mances de Disicosum et celles des deux résumeurs numériques sont équivalentes. En
outre, nous montrons comment l’utilisation d’un système d’extraction de termes peut
coopérer avec les méthodes numériques pour la tâche de résumés. D’une part, nous
avons montré que la combinaison de méthodes statistiques et linguistiques afin de dé-
velopper un système hybride pour le résumé automatique donne de bons résultats,
encore meilleurs que ceux obtenus par chaque méthode séparément. Finalement, nous
avons trouvé que le système Disicosum obtient des résumés très semblables, bien que
différents annotateurs étiquettent le texte (c’est-à-dire, les annotateurs produisent diffé-
rents arbres de discours). D’autres tests, comparant plusieurs résumés produits par des
médecins et le système hybride, doivent être réalisés. Des applications dans d’autres
domaines et langues sont également considérées.
98
5.7. Bilan et perspectives
production de résumés (c’est à dire les étudiants universitaires du Master). Une publi-
cation conjointe entre le LIA et le LSE est en cours de soumission à JADT’08. En plus,
de nombreuses expériences montrent que les résumeurs professionnels n’ont même
pas besoin de comprendre le texte. D’après cette hypothèse, une machine peut tou-
jours tenter de s’approcher de cette tâche. C’est justement cela que j’ai essayé de faire
avec Cortex : pousser au maximum la démarche vers le tout numérique. Cortex est un
résumeur de textes très performant. Cet algorithme permet de traiter de vastes cor-
pus, relativement indépendamment de la langue, sans préparation, avec une certaine
quantité de bruit, de manière dynamique et en un temps court. Plusieurs tests faits en
comparaison avec des sujets humains ou d’autres méthodes de résumé automatique,
ont montré que Cortex retrouve les segments de texte les plus pertinents (indépendam-
ment de la taille du texte et des thématiques abordées). On obtient ainsi un résumé
balancé car la plupart des thèmes sont abordés dans le condensé final. Copernic Sum-
marizer communique avec l’utilisateur en lui demandant des concepts à retenir dans
le résumé. Ceci est une approche intéressante qui sera explorée au chapitre suivant.
L’algorithme de décision basé sur le vote de métriques est robuste, convergent, amplifi-
cateur et indépendant de l’ordre de présentation des phrases. Nous pensons que l’ajout
d’autres métriques (comme l’entropie résiduelle, la détection des changements d’entro-
pie, maximum d’entropie) pourraient améliorer la qualité des condensés. En particulier,
une nouvelle métrique de similarité, dérivée de l’énergie textuelle qui sera présentée
au chapitre 8, s’avère déjà très intéressante. Un identificateur automatique de langues,
à base d’uni-grammes de lettres a été incorporé au système. Il permet la détection de
l’anglais, l’espagnol, le français, l’allemand (et même le somali).
Maintenant, parlons du rôle des poids des termes, ce qui a servi au modèle hybride
linguistique-numérique. Les termes peuvent être pondérés par des mécanismes clas-
siques de Tf.Idf, ou d’autres plus complexes, comme ceux d’un extracteur de termes.
Un test exploratoire a été réalisé dans le cadre de résumés en espagnol dans le domaine
spécialisé (médecine), en utilisant un extracteur de termes comme Yate. Il semblerait
que cela aide à mieux repérer les phrases pertinentes, mais des tests supplémentaires
devraient le confirmer (ou l’infirmer). La fusion de méthodes numériques avec une ap-
proche linguistique a montré que cette voie est très intéressante car elle produit des
résumés plus proches de ceux attendus par un utilisateur.
La réponse alors à la question Et si la linguistique pouvait ... ? est oui. La linguistique
ajoute une valeur de finesse aux méthodes numériques, et, on obtient comme sous-
produit évident, des performances améliorées. Je montrerai l’utilisation d’autres mo-
dules linguistiques en post-traitement au chapitre suivant et une combinaison symbo-
lique-numérique pour le raffinement de requêtes au chapitre 7. La production de ré-
sumés génériques est une tâche très importante en TAL, mais qui peut être plus in-
téressante si les résumés sont personnalisés par les besoins de l’utilisateur. Je me suis
intéressé à ce type de résumés, qui sont guidés par une thématique qui peut être précise
ou floue. L’adaptation de Cortex à ces tâches fera l’objet des deux chapitres suivants.
99
Chapitre 5. Cortex es Otro Resumidor de TEXtos
100
Chapitre 6
L’ensemble des travaux sur le résumé personnalisé a été réalisé, d’abord dans le
cadre du Master recherche de Florian Boudin et puis dans sa thèse de doctorat, qui
a été partiellement financée grâce aux FUNDP1 (Belgique). Les résultats ont été pu-
bliés dans les conférences DUC’06 (Favre et al., 2006) et ’07 (Boudin et al., 2007) aux
USA, CICling’07 à Mexico (Boudin et Torres-Moreno, 2007a) et RANLP’07 en Bulgarie
(Boudin et Torres-Moreno, 2007b).
1
http://www.fundp.ac.be
101
Chapitre 6. Résumé guidé par une thématique
J’ai présenté les systèmes de résumé automatique par extraction de phrases au cha-
pitre précédent. Les systèmes de résumé peuvent aussi être divisés dans deux catégo-
ries : systèmes de résumé mono-document et multi-documents. Ces derniers peuvent
être vus comme une fusion de sorties des systèmes mono-document. Les systèmes
multi-documents agissant sur plusieurs textes ont une probabilité plus grande de pré-
senter une information redondante et/ou contradictoire. Des travaux comparant les
techniques d’anti-redondance (Newman et al., 2004) montrent qu’une mesure de simi-
larité de type cosinus entre phrases (Van Rijsbergen, 1979) a des performances sem-
blables à d’autres méthodes plus complexes telles que LSI (Deerwester et al., 1990).
Pour l’élimination de la redondance, les recherches se sont focalisées sur la tempo-
ralité des documents. Une méthode générale pour aborder les résumés basés sur la
nouveauté, consiste à extraire les étiquettes temporelles (Mani et Wilson, 2000) (dates,
périodes écoulées, expressions temporelles,...) ou de construire automatiquement une
chronologie à partir des documents (Swan et Allan, 2000). Une dernière technique qui
utilise la mesure bien connue de χ2 (Manning et Schütze, 1999) est employée pour ex-
traire des mots et des phrases peu communes à partir des documents.
102
6.2. Neo-Cortex
6.2 Neo-Cortex
Similarité. Les scores des phrases sont calculés par Cortex sur un seul document. Ils
doivent donc être normalisés afin de mettre en évidence le degré de pertinence
des documents par rapport à la thématique. En effet, la phrase pertinente d’un
document peut avoir un score inférieur à la phrase non pertinente d’un autre do-
cument. Ceci est dû à l’indépendance inter-document des scores calculés par Cor-
tex. Le paramètre de similarité (6.1) calculé par un cosinus (Salton, 1989) permet
de mesurer la proximité entre deux vecteurs.
L’ensemble des documents est représenté par des vecteurs ν~d = (ν1 , ν2 , · · · , ν N ),
d = 1 · · · Nbdoc ; Nbdoc étant le nombre total de documents, et la thématique est
représentée par le vecteur ω ~ t = (ω 1 , ω 2 , · · · , ω n ), t = 1 · · · τ ; où τ est le nombre
total thématiques. N correspond à la taille du vocabulaire (documents et théma-
tique). La similarité est alors calculée par :
∑ ν~d .ω
~t
νd , ω
Sim(~ ~ t) = q (6.1)
2 2
∑ ν~d + ∑ ω
~t
Le poids t f .id f d’un terme (Salton et McGill, 1983) est une mesure statistique uti-
lisée pour évaluer l’importance d’un terme dans un document. Cette importance
augmente proportionnellement par rapport au nombre de fois où le terme appa-
raît dans le document, mais elle est compensée par l’apparition du terme dans
les documents de la collection. Les poids id f ont été calculés sur l’ensemble de
documents de la collection DUC :
Nbdoc
t f .id f ν~d ,j = t f ν~d ,j × log (6.2)
nj
103
Chapitre 6. Résumé guidé par une thématique
t f ν~d ,j est la fréquence du terme j dans le document ν~d , n j est le nombre de do-
cuments dans lesquels le terme j est présent. La similarité est normalisée entre
[0, 1].
Recouvrement. L’idée est de supposer que les phrases sélectionnées pour constituer
un résumé doivent partager une certaine quantité de l’information avec la théma-
tique. Pour estimer cette quantité, nous avons calculé le nombre de mots com-
muns entre la thématique et les phrases Sµ . Le recouvrement R, calculé pour
chaque phrase, est la cardinalité normalisée entre [0, 1] de l’intersection entre l’en-
semble de mots de la phrase µ et l’ensemble de mots de la thématique T
T
µ card{Sµ T }
R(S , ω
~ t) = (6.3)
card{T }
Les valeurs des paramètres αi sont des poids empiriques. Nous avons appelé
Cortex(•) les scores obtenus avec l’équation de l’algorithme de décision, le score
Sim(•) calculés avec (6.1) et le score R(•) calculé avec (6.3). Le résumé est généré
avec les Λ phrases de plus haut score. Λ, fixé par l’utilisateur, peut être un rap-
port avec la taille initiale de documents ou un nombre fixe de phrases. Neo-Cortex
combine les paramètres similarité et recouvrement avec la sortie du système Cor-
tex (voir figure 6.1).
Documents
pertinents
Thématique
et questions
Paramètres:
- Similarité
- Recouvrement
Sous-thématiques
concatenées Résumé
CORTEX final
104
6.2. Neo-Cortex
Thématiques. Nous avons fait une analyse simple de chaque thématique pour créer
ζ sous-thématiques (voir un exemple sur la figure 6.2), générées à partir de la
concaténation du titre et les questions de la partie narrative.
F IG . 6.2: Exemples des thématiques et sous-thématiques pour DUC’06 (D0603C, D0606F) (les
sous-thématiques ont été filtrées et lemmatisées).
Réglage des paramètres. R OUGE (Lin, 2004) a été utilisée pour régler les paramètres
de Neo-Cortex (R OUGE -2 et SU4). Nous avons utilisé l’ensemble des données
DUC’05 afin d’optimiser les paramètres αi . La répartition optimale du recouvre-
ment dans le score final de la phrase a été évaluée de la façon suivante : nous
avons fixé la similarité à 0 et nous avons réalisé un balayage précis (pas des itéra-
tions de 0,05) en augmentant le recouvrement jusqu’à ce que nous ayons obtenu
la valeur qui optimise les scores R OUGE. Ainsi le meilleur score R OUGE-2 est ob-
tenu avec α1 ≈ 0, 4 (voir la figure 6.3 à gauche). Les résumés finaux sont obtenus
avec un léger post-traitement.
Le paramètre optimal de similarité α2 est obtenu d’une façon semblable. Le poids
α0 de Cortex et le recouvrement α1 sont fixés aux valeurs optimales précédentes
(α0 = 0, 6 et α1 = 0, 4). La figure 6.3 à droite, montre deux pics (valeurs maxi-
males pour α2 ). Étant donné que la collection de documents DUC’05 n’est pas
assez grande et afin d’éviter des erreurs dues à la particularité d’un corpus, nous
avons empiriquement choisi le premier pic, α2 = 0, 11 (voir la figure 6.3 à droite)
donnant le meilleur score. Plusieurs tests ont montré que le recouvrement est un
paramètre plus important que la similarité. C’est pourquoi nous avons en pre-
mier réglé le paramètre de recouvrement. Les valeurs αi ont été normalisées afin
de fixer les valeurs optimales des paramètres pour DUC’05 : α0 (Cortex) = 0, 54
(0, 6 → 0, 54), α1 (recouvrement) = 0, 36 (0, 4 → 0, 36) et α2 (Similarité) = 0, 10
(0, 11 → 0, 10). D’autres tests ont confirmé que les paramètres trouvés sont opti-
maux.
105
Chapitre 6. Résumé guidé par une thématique
α1 = 40% α2 = 11
0,077
0,075
0,076
0,074
0,075
ROUGE-2 Rappel moyen
0,072 0,074
0,071
0,073
0,070
0,072
0,069
0,068 0,071
0,067 0,070
0 10 20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40
Poids du recouvrement dans le résumé final Poids de la similarité dans le résumé final
Étude des métriques. Le système Cortex peut utiliser plusieurs métriques pour éva-
luer la pertinence des phrases (Torres-Moreno et al., 2001, 2002). Nous avons exa-
miné empiriquement un éventail de combinaisons (figure 6.4) et choisi finalement
trois métriques qui maximisent les mesures R OUGE :
L’angle entre un titre et une phrase (A) : cosinus du produit scalaire normalisé
entre la phrase et le vecteur de la thématique.
Deux métriques de Cortex utilisent la matrice de Hamming H, une matrice car-
rée de NL × NL où chaque case H [i, j] représente le nombre de phrases uti-
lisant exclusivement un des termes i ou j (c.f. section 5.3) : i/ Le poids de
Hamming lourd (L) et ii/ la somme de poids de Hamming de mots par la
fréquence (O).
F IG . 6.4: Scores R OUGE de Neo-Cortex pour la tâche de DUC’05 selon la combinaison de métriques
utilisées. La combinaison ALL signifie toutes les métriques de Cortex.
106
6.2. Neo-Cortex
Longueur des phrases. Le système Cortex est incapable de choisir entre deux
phrases de même score mais avec des longueurs différentes. Est-ce que les
phrases de 10n mots sont plus importantes que celles de n mots pour géné-
rer un résumé court ? Nous avons réalisé un lissage gaussien des scores de
Cortex selon la longueur de la phrase. Des tests complémentaires ont montré
qu’un lissage sigmoïdal à la place du gaussien améliore de manière signifi-
cative les scores R OUGE.
NeoCortex
0,08 0,14
17
15
17
8
4
10
10
8
ROUGE-2 Score moyen
11
0,13
19
5
5
16
25
11
14
24
7
6
14
16
19
0,07
9
28
3
29
7
9
0,12
29
25
Score moyen
21
12
6
24
28
18
27
3
21
12
13
32
18
26
0,11
27
26
32
Baseline (NIST)
0,06
30
Baseline
20
22
31
2
13
30
20
31
0,10
2
22
0,05 0,09
0,08
0,04
0,07
23
23
0,03 0,06
Système Système
F IG . 6.5: DUC’05 : scores de rappel R OUGE-2 (à gauche) et SU4 (à droite) de Neo-Cortex vs tous
les systèmes participants.
Nous avons décidé de participer à la conférence DUC’06. Ceci a été possible grâce
à une collaboration entre Thales (Laboratoire MMP), le laboratoire RALI5 de l’Univer-
sité de Montréal et le LIA. L’idée principale du résumeur LIA-Thales a été de combiner
plusieurs systèmes de résumé. Ce dernier assemble les sorties des systèmes en respec-
tant les contraintes imposées par DUC. Le système LIA-Thales est montré sur la figure
6.6. Les détails des différents modules peuvent être trouvés dans l’article (Favre et al.,
2006).
5
http://rali.iro.umontreal.ca
107
Chapitre 6. Résumé guidé par une thématique
- Élimination de la redondance
systèmes - Tri des phrases
Normalisation de
- Traitement linguistique
phrases
phrases
fusion résumé
documents
contraintes
Requête
Si
F IG . 6.6: Architecture principale de la fusion des multiples systèmes pour la sélection des phrases.
DUC’06. Nous avons utilisé quatre systèmes basés sur divers modèles :
(S1) MMR-LSA : Maximal Marginal Relevance (Carbonell et Goldstein, 1998) uti-
lise la similarité entre les phrases dans un espace du type LSA (matrice de co-
occurrences réduite).
(S2) Neo-Cortex : nous avons réglé les paramètres de similarité et couverture
comme décrit dans la section 6.2.
(S3) Modèle de n-termes de longueur variable. Il utilise les mots de la théma-
tique, les lemmes, les stems et l’alignement des phrases pour calculer un taux
de couverture.
(S7) Score par compacité. Il a été développé pour le module d’extraction des ré-
ponses du système de Questions-Réponses de LIA (Gillard et al., 2006). L’idée
principale est que la densité et la proximité des mots importants trouvés dans
une question aident à extraire la meilleure réponse candidate. Ceci permet de
pondérer les phrases en utilisant la densité (« compacité ») et proximité des
mots importants de la thématique à l’intérieur de la phrase.
Pour la fusion, un graphe de phrases a été construit. Les phrases sont pondérées
selon les scores calculés par chaque système de résumé. Des heuristiques simples
ont été intégrées pour résoudre les anaphores simples (pronoms et temps). En
post-traitement, une réécriture de noms de personnes et des acronymes est effec-
tuée. La première occurrence des acronymes et des noms de personnes utilise les
formes complètes, mais les occurrences suivantes sont remplacées par des formes
raccourcies. Le post-traitement inclut l’élimination de la redondance en utilisant
une technique simple : les phrases qui n’apportent pas suffisamment de mots
nouveaux sont éliminées. Les phrases qui contiennent de longues formes d’acro-
nymes ou de noms de personnes sont également éliminées.
108
6.2. Neo-Cortex
S24
0,16
S24
DUC 2006 DUC 2006
Neo-Cortex
S12
ROUGE-2
S12
ROUGE-SU4
Neo-Cortex
S23
0,15
S23
S33
0,09
S15
S31
S8
S31
S15
S33
S8
S2
S5
S2
S10
S5
S32
S27
S27
S6
S32
S13
0,14
S13
S6
S3
S10
S3
S22
S4
S19
0,08
S19
S4
S14
S22
S9
S9
S29
0,13
S25
S14
S20
S16
S18
S30
S29
S7
S21
S25
S34
S16
0,07
S30
S21
0,12
S17
Baseline (NIST)
S18
S34
S20
Score moyen
Score moyen
S17
Baseline (NIST)
S7
S35
0,11
S26
0,06
S35
0,10
S26
0,05
0,09
0,04 0,08
0,07
S11
S11
0,03
0,06
0,02 0,05
Système Système
F IG . 6.7: DUC’06 : scores R OUGE-2 (à gauche) et SU4 (à droite) de Neo-Cortex vs tous les systèmes
participants. Neo-Cortex est classé 13eme pour R OUGE-2 et 10eme pour SU4 sur 35 systèmes.
DUC’07. Nous avons gardé la même approche que pour DUC’06 en ajoutant d’autres
systèmes de résumé :
(S4) Vector Space Model (Buckley et al., 1995) : la similarité entre une phrase et la
thématique est calculée en utilisant la métrique LNU*LTC.
(S5) Similarité d’Okapi (Robertson et al., 1996).
(S6) Similarité de Prosit (Amati et Van Rijsbergen, 2002).
Les systèmes S1, S2, S3 et S7 sont très semblables à ceux utilisés en 2006. S4, S5 et
S6 sont des implémentations rapides des modèles de récupération (Savoy et Abdou,
2006) pour assurer la diversité dans le processus de fusion.
F IG . 6.8: Rappel R OUGE-2 et SU4 des 7 systèmes et la fusion sur les corpus de DUC’06 et ’07
Résultats. La figure 6.8 montre les scores R OUGE obtenus pour nos 7 systèmes sur
les corpus de DUC’06 et ’07. La fusion des systèmes est également montrée. Ces
109
Chapitre 6. Résumé guidé par une thématique
F IG . 6.9: R OUGE-2 et SU4 pour le 32 systèmes à DUC’07 à gauche. Notre système identifié par
le numéro 3 (marqué dans la figure par un carré noir), les systèmes 1 et 2 correspondent à deux
baselines. Score moyen de contenu sensible des 32 systèmes à droite. Notre système est identifié avec
le numéro 3 (marqué dans la figure par la barre foncée).
110
6.3. Faire simple et beau : la tâche pilote DUC’07
TAB . 6.1: Scores de qualité linguistique de notre soumission en 2006 et 2007. Il n’y a aucune
différence évidente entre les deux évaluations : le module de post-traitement linguistique est le même.
111
Chapitre 6. Résumé guidé par une thématique
Élimination de la redondance.
Les phrases issues de multiples documents sont assemblées pour produire un
résumé, mais cela engendre des problèmes de redondance. Dans la pratique les
phrases d’un regroupement sont scorées en calculant leur angle par rapport à la
thématique ; en conséquence, les phrases avec un score élevé sont syntaxiquement
proches. Il faut traiter deux problèmes différents de redondance dans un système
de détection de nouveauté : la redondance à l’intérieur de chaque résumé et la
redondance entre les différents résumés. La première concerne la détection de
doublons dans le résumé. Nous avons mesuré la similarité entre les phrases fai-
sant déjà partie du résumé et les candidates. Nous avons éliminé ces dernières si
leur similarité est supérieure à un seuil To , fixé empiriquement. Le deuxième type
de redondance est plus spécifique à la tâche : les résumés sont générés en sup-
posant que d’autres résumés ont été précédemment produits. Par conséquent, ils
doivent contenir une information additionnelle à celle de la thématique pour in-
former le lecteur des nouveaux faits. Formellement, les n p premiers résumés sont
représentés comme un ensemble de vecteurs Π = {~p1 , ~p2 , . . . , ~pn p } dans l’espace
de termes Ξ. Notre méthode pour scorer les phrases calcule le rapport entre les
deux angles : la phrase ~s avec la thématique ~t et la phrase avec tous les résumés
précédents n p . La valeur la plus petite η (~s,~t ) et la valeur la plus élevée φ(~s, Π)
produit le score le plus grand R(•) :
η (~s,~t )
R(~s,~t, Π) = (6.5)
φ(~s, Π) + 1
où
v
u np
u
η (s,~t ) = cos(~s,~t ); φ(~s, Π) = t ∑ cos(~s, ~pi )2 ; 0 ≤ η (•) ; φ(•) ≤ 1 (6.6)
i =1
max η (•)
Par conséquent max R(s) =⇒ La phrase avec le score le plus élevé
min φ(•)
~s est la plus pertinente selon la thématique (soit η → 1) et simultanément, la plus
différente en vue des résumés précédents Π (c’est-à-dire φ → 0).
112
6.3. Faire simple et beau : la tâche pilote DUC’07
Phrase
Θt
Thématique
Θ1
Θ2
Résumé 1
Résumé 2
D’autres travaux (Newman et al., 2004) ont confirmé que la similarité cosine clas-
sique est la mesure la plus performante pour éliminer la redondance. Le seuil
d’acceptation de la phrase a été réglé empiriquement en utilisant les valeurs de
R OUGE comme une mesure de référence. Les scores ROUGE augmentent jusqu’à
ce que le seuil atteigne 0, 4 (voir figure 6.11). Une phrase est considérée comme
génératrice de redondance si au moins un de ses scores cosinus avec les autres
phrases est > 0, 4.
113
Chapitre 6. Résumé guidé par une thématique
6.3.2 Expériences
Une des difficultés majeures est d’évaluer et d’optimiser la quantité de termes re-
présentant la « nouveauté » extraits à partir des regroupement. Si trop de termes sont
extraits, les résumés produits seront éloignés de la thématique. Inversement, si trop peu
de termes sont extraits, la lisibilité des résumés diminuera en raison d’une forte redon-
dance. Nos expériences ont également montré que l’ajout de la nouveauté améliore la
114
6.3. Faire simple et beau : la tâche pilote DUC’07
lisibilité et la qualité intrinsèque des résumés produits. L’information contenue dans les
résumés est plus hétérogènement répartie, la redondance syntaxique diminue et ainsi
la lisibilité et la qualité générale augmentent.
On montre les performances de notre système avec des paramètres optimisés, com-
parées à celles des 24 participants, dans la tâche DUC’07 (dans laquelle nous avons
participé avec une version non-optimale du système, le numéro d’identification du sys-
tème est 47). On observe sur la figure 6.13 à gauche, que notre système est le deuxième
meilleur système dans l’évaluation R OUGE. Ceci est une très bonne performance consi-
dérant que les post-traitements appliqués sont plutôt génériques. Il y a donc une marge
d’amélioration possible dans le post-traitement. Nous étudions actuellement des tech-
niques de réduction des phrases (Master Recherche de Thierry Wasack). Aucun corpus
F IG . 6.13: À gauche : scores R OUGE-2 vs. SU4 des 24 participants de DUC’07 dans la tâche pilote
(notre système est le cercle gras). À drote : R OUGE vs. responsiveness scores. Notre système est le
cercle gras pour R OUGE-2 et le triangle gras pour SU4.
115
Chapitre 6. Résumé guidé par une thématique
F IG . 6.14: A gauche : Basic Element (BE) scores des 24 participants de la tâche pilote DUC’07.
Notre système est le 47 (marqué par le cercle gras). A droite : scores R OUGE de rappel (déviations
moyennes maximum-minimum) pour chaque regroupement de documents (articles A∼10, B∼8 et
C∼7.
figure 6.14 à droite, que la moyenne des scores est meilleure pour le dernier résumé
(regroupement C) et en plus, les écarts-type diminuent. La stabilité de notre système
augmente avec la quantité de documents précédemment traités, la petite perte de per-
formance avec les résumés du regroupement B peut être due à un enrichissement sous-
optimal sans un nombre suffisant de termes extraits auparavant.
116
6.4. Conclusion et travaux futurs
de post-traitement basé sur des règles linguistiques simples a amélioré les résultats. Les
travaux futurs incluent le paradigme de fusion et l’implémentation de la compression
de phrases à la tâche de détection de la nouveauté. D’une manière plus générale, la dé-
tection de la nouveauté a besoin d’une évaluation spécifique de la redondance à partir
de l’information déjà vue. À long terme, cela ouvre la voie sur l’évaluation du résumé
oral (thèse de Benoît Favre), qui est d’un grand intérêt pour le LIA.
Nous avons également participé à la tâche pilote de DUC’07, avec une approche
simple qui évite la redondance. Elle sélectionne les phrases proches de la thématique,
en négligeant l’information déjà connue. Puis, la nouvelle information est augmentée
en ajoutant à la thématique les mots apparaissant seulement dans les nouveaux do-
cuments. Ce système est très performant par rapport aux 24 participants. Les résul-
tats de nos expériences précisent plusieurs questions et directions de recherche pour
les travaux futurs. La détection de la nouveauté d’information dans les groupes de
documents introduit trop de bruit dans les résumés. Si l’on considère seulement les
phrases les plus pertinentes pour l’extraction de termes, on devrait augmenter les per-
formances. Des applications dans un domaine spécialisé, la chimie organique (thèse de
Florian Boudin), sont actuellement à l’étude. Ce système permettra aux utilisateurs de
gagner du temps en ne proposant à lire que les nouveaux faits, en évitant les informa-
tions déjà connues.
117
Chapitre 6. Résumé guidé par une thématique
118
Chapitre 7
Applications au raffinement de
requêtes
En 2006, Éric SanJuan et moi discutions des autres applications possibles, mis à part
le résumé, de l’algorithme Cortex et sur sa possible combinaison avec un système sym-
bolique ou linguistique. Cortex, censé être un extracteur de phrases, pouvait-il jouer
un rôle dans cette tâche si éloignée de son domaine ? Soit un corpus de résumés (abs-
tracts d’un journal, par exemple). Chaque abstract peut être vu comme la phrase d’un
pseudo-document qui est le corpus en entier. Cortex pourrait être donc appliqué à ex-
traire des phrases (donc des résumés) du corpus afin d’en trouver les plus pertinentes...
les plus pertinentes par rapport à quoi ? à la requête d’un utilisateur évidemment. Dans
ce chapitre, nous visons le classement de documents venant d’un domaine fortement
technique dans un but précis : rapprocher ce classement de celui obtenu par une onto-
logie existante (structure de connaissances). Nous avons testé et combiné des modèles
symboliques et vectoriels. L’approche symbolique s’appuie sur une analyse peu pro-
fonde et des relations linguistiques internes entre termes à plusieurs mots. L’approche
vectorielle consiste à classer les documents avec différentes fonctions de classement
s’étendant du tf.idf classique jusqu’aux fonctions de similarité plus élaborées du ré-
sumé automatique Cortex (c.f. chapitre 5). Les résultats montrent que le classement
obtenu par l’approche symbolique est plus performant que le modèle vectoriel sur
la plupart des requêtes. Cependant, le classement obtenu en combinant les deux ap-
proches surpasse largement les résultats obtenus séparément par les deux approches.
L’ensemble des résultats de cette étude, réalisée conjointement avec Fidelia Ibekewe,
Éric SanJuan et Patricia Velázquez a été publié dans le congrès Applications of Natural
Language to Data Bases, NLDB’07 (SanJuan et al., 2007).
119
Chapitre 7. Applications au raffinement de requêtes
7.1 Introduction
120
7.2. Corpus de test
Afin d’avoir un classement de référence, nous avons besoin d’un corpus avec une
structure de connaissance associée (taxonomie ou ontologie) où chaque terme pourra
être dépisté facilement. Nos systèmes de raffinement de requêtes extraient les termes
automatiquement à partir du corpus et la structure de connaissance associée sera uti-
lisée pour construire le classement de référence. Le corpus GENIA1 satisfait nos exi-
gences car il comporte une ontologie construite à la main et les termes obtenus des
résumés ont été manuellement annotés et assignés aux catégories par des spécialistes
du domaine. Ce corpus est composé de 2 000 références bibliographiques extraites de
la base MEDLINE2, en utilisant les mots-clés : Human, Blood Cells et Transcription
Factors. Dorénavant, nous nous référerons aux titres et les résumés de ces références
comme de documents. Il y a 36 catégories et un total de 31 398 termes. La plus grande
catégorie, appelée « other name » a 10 505 termes suivie de « protein molecule » avec
3 899 termes et « dna domain or region » avec 3 677 termes. La distribution des termes
dans les catégories obéit à une loi de Zipf. Dans ce contexte, chaque terme annoté peut
être vu comme une requête potentielle qui sera extraite de tous les documents du cor-
pus contenant ce terme ou des termes sémantiquement proches dans la même catégorie
GENIA. Les documents extraits peuvent donc être classés selon le nombre de termes
annotés dans la même catégorie GENIA comme la requête de terme. Le classement
obtenu pour chaque requête en utilisant les termes manuellement annotés et les caté-
gories GENIA constitue le classement de référence. L’expérience de raffinement de la
requête consiste à tester la capacité des différentes méthodes pour produire un classe-
ment aussi semblable que possible au classement de référence. Naturellement, aucune
des méthodes de raffinement de requête examinées n’a utilisé les termes manuellement
annotés ni a eu connaissance préalable de leur catégorie sémantique dans l’ontologie
GENIA. Les termes des requêtes utilisées dans nos expériences sont des termes manuel-
lement annotés, qui se trouvent dans au moins 50 documents et qui ont été associés à
une catégorie autre que « other name » dans le corpus GENIA. Nous avons exclu les
termes d’un seul mot comme « cell » car, dans le corpus, ce terme existe pratiquement
dans tous les documents. Seize requêtes avec des termes multi-mots remplissent ces cri-
tères. Le tableau 7.1 montre les termes des requêtes et leur catégorie GENIA, le nombre
d’éléments dans cette catégorie et le nombre de documents contenant ce terme.
1
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA
2
http://medline.cos.com
121
Chapitre 7. Applications au raffinement de requêtes
7.3 Méthodologie
– Classement par occurrences des mots d’entête (Head). Il consiste à classer les
documents en s’appuyant sur un calcul d’occurrences des mot d’entête de la re-
quête dans les documents qui contiennent ce mot sans se soucier de leur position
grammaticale. La justification d’une utilisation assez commune est le rôle bien
connu des noms d’entête dans les phrases nominales : ils évoquent le sujet de la
phrase, donc de la requête. De cette manière, les documents dans lesquels le mot
122
7.3. Méthodologie
d’entête avec une haute fréquence pouvaient correspondre aux documents avec
le plus haut nombre de termes dans la même catégorie GENIA.
Le classement de documents avec cette relation est exécutée en dehors de Term-
Watch puisqu’il s’appuie simplement sur un calcul de l’occurrence d’un mot d’en-
tête dans les documents.
– Classement par regroupement de base de TermWatch (TW). La plupart des re-
lations de regroupement à grande échelle dans TermWatch consistent à fusionner
tous les termes qui partagent le même mot du titre dans le même regroupement.
Cette relation génère des regroupements avec des entêtes identiques. Etant donné
un terme de la requête, les documents sont classés selon le nombre de leurs termes
qui ont le mot d’entête du terme de la requête également en position de head.
Par exemple, étant donné la requête T cell où cell est le mot d’entête, le docu-
ment classé le plus haut par cette relation a eu le plus grand nombre de termes
avec « cell » en sa position d’entête : B cell, cell, blood cell, differentiated cell,
hematopoietic cell, HL60 cell, L cell, lympoid cell, macrophage cell, monocyte-
macrophage cell, nucleated cell, peripheral blood cell, S cell, T cell.
– Classement par regroupement sémantique sévère (Comp). Il consiste à classer en
utilisant les termes dans les composants connectés constitués par les variantes or-
thographiques, par des substitutions de variantes synonymes acquises au moyen
de WordNet3 et par les relations d’expansions (où seulement un mot a été ajouté
au terme). L’idée est de limiter les S -NN d’un terme de requête seulement aux
termes qui ne comportent pas un éloignement thématique et qui sont les plus
proches S -NN de toutes les relations possibles utilisées dans TermWatch.
– Classement par regroupement sémantique laxiste (Var). Les relations sont ajou-
tées à celles de Comp afin de former les plus grands regroupements qui im-
pliquent les plus faibles variantes d’expansion (addition de plus d’un mot modifi-
cateur) et la substitution des mots modificateurs. L’idée est d’augmenter le S -NN
d’un terme de requête aux voisins sémantiquement plus lointains où le lien avec
le sujet original du terme de requête peut être plus faible.
123
Chapitre 7. Applications au raffinement de requêtes
A est l’angle entre T et d. Tous les mots dans T n’ont pas la même valeur informative,
puisque les mots les plus proches du terme head ont une probabilité plus élevée
d’avoir une corrélation avec la catégorie des termes. Ainsi, nous avons représenté
le terme de la requête T = t1 ...tn h par un vecteur ~T = ( xw )w∈Ω( T ) où :
15 si w = h
xw = j si w = ti pour i ∈ [1..n]
0 autrement
D est la somme des fréquences de mots dans le résumé d multiplié par sa probabilité
f .,w
d’occurrence en ∆( T ) comme suit : D (d) = ∑ × f d,w
w∈Ω( T )
f.,.
d
O Se réfère aux documents impliquant les termes qui occurrent dans presque tous les
documents : O(d) = ∑ (|∆( T )w | × f d,w )
w∈Ω( T )d
L indique les documents qui recouvrent avec les mots de la requête mais avec un plus
grand vocabulaire : L(d) = |Ω( T )d | × ∑ (|∆( T )w |)
w∈Ω( T )d
F est la somme des fréquences des termes F = f (., w) Elle favorise les documents avec
un petit vocabulaire, à l’opposé des métriques D, O, L.
124
7.3. Méthodologie
Nous avons testé les métriques décrites ci-dessus aussi bien que leurs combinai-
sons : l’angle (A), trois mesures différentes de recouvrement de la requête (D, L, O) et la
fréquence de mots informatifs (F). Nous avons également considéré les combinaisons
suivantes de l’ensemble de métriques { A, D, O}, { A, L, O}, { A, D, L, O}, { F, L, A, D, O}
basé sur l’algorithme de décision Cortex.
Corpus Requête
Recherche booléenne
MySQL
Cortex
A
D
F AD
L
O
TermWatch
Extracteur de termes
Regroupement de
variantes des termes Raffinement du
Classement classement
125
Chapitre 7. Applications au raffinement de requêtes
Nous avons testé si des combinaisons particulières des méthodes à partir des deux ap-
proches amélioraient la performance des classements obtenus séparément par chaque
méthode. Les résultats obtenus par chaque méthode sont décrits ci-après (voir la sec-
tion 7.4), nous avons raffiné le classement de TermWatch en utilisant les métriques de
Cortex mais nous avons également testé la combinaison des métriques de Cortex avec
les regroupements H EAD. Les classements basés sur regroupements de TW et raffinés
en utilisant n’importe quelle combinaison X1 ...Xn des métriques de Cortex sont dénotés
par X1 ...Xn -tw (respectivement X1 ...Xn -H EAD).
7.4 Résultats
Nous avons analysé les résultats à partir des approches vectorielle, symbolique et
hybride. Étant donné un terme de la requête, nous évaluons les méthodes décrites dans
les sections 7.3.1 et 7.3.2 selon leur capacité de classement de documents en respectant
une ontologie existante, c’est-à-dire, les documents classés en tête devraient contenir
les termes de la catégorie sémantique dans l’ontologie GENIA comme le terme de la
requête. Pour chaque requête, on a comparé les classement de documents produits par
les différentes méthodes au classement de référence, avec le coefficient de concordance
W4 de Kendall (Siegel et Castellan, 1988). Nous avons calculé le coefficient W de Ken-
dall et leur « p-value » en utilisant le logiciel R pour le calcul statistique avec le paquet
Concord5 . Nous n’avons utilisé ni la précision ni le rappel comme évaluations car toutes
les méthodes de classement utilisent la même liste de documents, elles sont donc toutes
basées sur la sélection de documents qui contiennent les termes de la requête. La seule
différence a été la manière selon laquelle les méthodes ont classé les documents. C’est
pourquoi les calculs de rappel et de précision n’ont aucun sens ici.
126
7.4. Résultats
Friedman, les deux disponibles dans le paquet du logiciel R. Ces deux tests sont utili-
sés pour comparer les scores moyens de W de Kendall obtenus pour chaque méthode.
0.9
0.8
0.7
Kendall.s.W
0.6
0.5
0.4
A
A−head
A−tw
AD
AD−head
AD−tw
ADF
ADF−head
ADF−tw
ADLO
ADLO−head
ADLO−tw
ADO
ADO−head
ADO−tw
AF
AF−head
AF−tw
ALO
ALO−head
ALO−tw
Comp
D
D−head
D−tw
DF
DF−head
DF−tw
F
F−head
F−tw
FLADO
FLADO−head
FLADO−tw
Full
Head
L
L−head
L−tw
O
O−head
O−tw
QE
TW
Var
f
F IG . 7.2: Les boxplots montrent les scores moyens du W de Kendall et les valeurs extrêmes pour
chaque méthode. Les symboles A, D, F, L, O et leurs combinaisons dans la caisse au dessus se
réfèrent aux métriques de Cortex (par exemple FLADO) ; « Head », « TW » et « Var » se réfèrent
aux classements basés sur les regroupements de TermWatch respectifs. Les symboles représentent
les métriques de Cortex suivis par la caisse au dessous de « tw » ou « head » référé aux approches
hybrides. « QE » représente tf.idf avec QE. Reproduit de (SanJuan et al., 2007), page 259.
Premièrement nous avons analysé les combinaisons des métriques de Cortex pour
trouver lesquelles donnaient les meilleures performances. Le test de Friedman a mon-
tré, avec une confiance de 99%, qu’il existe des différences significatives. Cependant,
réalisant le même test mais seulement avec la combinaison d’au moins deux mesures
de Cortex parmi {A, D, O, L} nous n’avons pas trouvé des différences significatives
parmi les membres de ce regroupement (p -value > 0.8). Ceci montre que la combi-
naison des métriques de Cortex basée sur l’algorithme de décision 7.3.2 améliore de
manière significative les résultats.
127
Chapitre 7. Applications au raffinement de requêtes
Les résultats globaux peuvent masquer des différences importantes comme suggéré
sur la figure 7.2 en regardant la longueur des boîtes et les valeurs extrêmes. La vue des
détails des performances pour les méthodes principales est montrée dans le tableau 7.2.
Ce tableau montre les scores du W de Kendall de chaque méthode par requête. Pour
chaque requête, seulement la position relative des scores entre les méthodes peut être
128
7.4. Résultats
directement interprétée. Ainsi, le tableau 7.2 peut seulement être lu verticalement, co-
lonne par colonne. En effet, les scores de Kendall dépendent du nombre de documents
classés et du nombre de tails. La valeur absolue du W de Kendall ne peut pas être inter-
prétée sans considérer la probabilité de trouver cette valeur dans les classements non
corrélés. Le niveau de confiance est le complément de cette probabilité.
Le tableau seulement montre les valeurs avec un niveau de confiance d’au moins
90%. Il évalue la probabilité de la corrélation entre le classement produit par les mé-
thodes et le classement de référence. Le tableau montre que FLADO-tw est la seule
méthode qui a produit 14 classements sur 16 avec une probabilité > 90% d’avoir une
corrélation avec le classement de référence. Les deux classements non corrélés ont été
produits pour les plus longues requêtes « nuclear factor of activated T cells » impliquant
une préposition et « human immunodeficiency virus type 1 ». Je reviendrai sur ce phe-
nomène plus tard. Il est très clair que FLADO-tw améliore TW sur toutes les requêtes.
De cette manière nous montrons que Cortex est adapté pour résoudre les liens dans
les classements de TW. Réciproquement, une combinaison similaire des métriques dé-
grade les classements de Heads, tandis que les deux méthodes TW et Head considérées
séparément obtiennent des scores du W de Kendall similaires sur plusieurs requêtes où
la catégorie est principalement déterminée par le mot de l’entête.
Si l’on regarde les métriques de Cortex séparément, on voit que leurs résultats sont
plus faibles que ceux des méthodes Head et TW. Toutefois, il est intéressant d’obser-
ver que les metriques A, D et O sont nécessaires pour couvrir l’ensemble complet de
requêtes où la combinaison de FLADO est significative. Il est également intéréssant de
noter que la méthode Comp, basée sur des relations sémantiques strictes, est principa-
lement performante sur les requêtes où les métriques de Cortex n’obtiennent pas des
bons scores, comme par exemple « nuclear factor, T lymphocyte, activated T cell ». Cela
indique qu’une approche hybride est en effet souhaitable pour l’amélioration du raffi-
nement de requêtes et les systèmes TermWatch et Cortex sont en effet complémentaires
pour cette tâche. On regarde maintenant les requêtes où l’approche hybride n’a pas été
aussi performante que prévu, c’est-à-dire, où les méthodes indépendantes ont obtenu
de meilleurs classements.
La méthode Head surpasse de manière significative toutes les autres méthodes sur
la requête « Epstein-Barr virus » étant donné que le mot d’en-tête « virus » caractérise les
termes de cette catégorie GENIA, c’est-à-dire, presque tous les termes de cette catégorie
incluent le mot « virus ». Ainsi, compter les occurrences des mots de cette entête dans
les documents est équivalent à compter les occurrences des termes de cette catégorie. Il
y a cependant une différence entre le classement produit par Head et celui de référence
car le dernier enregistre la présence simple d’un terme dans un document même si le
terme a des occurrences multiples. La fonction Tf.idf est la seule qui a obtenu un classe-
ment significativement corrélé sur la requête « human immunodeficiency virus type 1 »
malgré l’ambiguïté du sujet de cette requête : 1 et virus type 1. Le classement par Term-
Watch de base (W=0, 60) et Head (W=0, 51) a suivi sur cette requête. TermWatch est plus
performant que Head parce qu’il utilise l’information de fonction grammaticale pour
l’extraction des termes. Par conséquent, il peut identifier l’entête correcte des termes de
la requête. Étonnamment, les autres relations de TermWatch (Comp, Var ) sont égale-
129
Chapitre 7. Applications au raffinement de requêtes
ment basées sur une telle extraction de termes mais utilisent une liste de raffinage des
relations moins performantes que tf.idf sur cette requête. Ceci peut être expliqué par
le fait que plus les termes sont longs, moins il y a de relations pour regrouper dans
TermWatch. En effet, avec des termes de requêtes plus courtes, comme « Jurkat Cell »
ou « activated Cell » où le mot d’entête est plus commun, les relations de TermWatch
sont plus performantes. Une requête n’a pas été incluse au tableau (« nuclear factor of
activated T cells ») parce qu’aucune méthode n’a atteint le niveau de confiance de 90%.
Cette requête a la particularité de contenir une préposition. Il est intéressant d’obser-
ver que la méthode la plus performante sur cette requête est la variante tf.idf avec QE
(W=0, 51), sans pour autant atteindre une probabilité convaincante d’être corrélée avec
le classement de référence.
immunodeficiency
human monocyte
protein kinase C
glucocorticoid
nuclear extract
transcription
T lymphocyte
Epstein-Barr
nuclear factor
virus type 1
NF-kappa B
Jurkat T cell
activated
Jurkat cell
receptor
human
factor
T cell
virus
B cell
T cell
Queries :
Head 0.61 0.69 0.58 0.68 0.60 0.86 0.65 0.59 0.58 0.62
FLADO-head 0.58 0.62 0.60 0.69 0.58 0.77 0.61 0.63
A 0.63 0.67 0.65 0.59
D 0.58 0.63 0.57 0.62 0.69
F 0.63 0.67 0.65 0.59
L 0.62 0.67 0.65 0.56
O 0.56 0.63 0.55 0.65 0.67 0.55
FLADO 0.57 0.61 0.57 0.63 0.70 0.57
Comp 0.57 0.61 0.65 0.77
Var 0.60 0.78 0.63 0.64
TW 0.74 0.72 0.58 0.77 0.60 0.65 0.75 0.63 0.60 0.75 0.67 0.75
FLADO-tw 0.88 0.67 0.88 0.61 0.88 0.73 0.80 0.73 0.84 0.73 0.68 0.75 0.80 0.77
QE 0.65 0.64 0.70 0.54 0.61
tf.idf 0.68 0.70 0.70
TAB . 7.2: Scores du W de Kendall par requête. Seulement les scores avec un niveau de confiance
≥ 90% apparaissent. Les valeurs avec un niveau de confiance entre 90% et 95% sont en italique.
Les valeurs en gras ont un niveau de confiance > 99%. Reproduit de (SanJuan et al., 2007), p. 261.
130
7.5. Conclusion
7.5 Conclusion
La tâche présentée, que nous avons nommée Semantic Query Expansion oriented
Document Ranking (SQEDR) est tout à fait nouvelle et n’a pas été traitée dans les cam-
pagnes TREC6 (Buckley, 2005). Les résultats obtenus sur le corpus GENIA montrent
que de tels classements peuvent être rapprochés combinant l’extraction de termes MWT
et la représentation des textes par sac-de-mots. Dans la récente évaluation TREC’05,
(Liu et Yu, 2005) ont utilisé la désambiguïsation de mots et l’expansion sémantique de
termes des requêtes dans la tâche de recherche documentaire. La désambiguïsation a
été d’abord appliquée aux termes multi-mots de la requête afin de déterminer le sens
exact des mots constituants dans le contexte de la requête. Ceci est fait en utilisant l’in-
formation disponible dans WordNet. Quand cette procédure échoue, les auteurs font
appel à une recherche dans le Web pour désambiguïser. Après que la désambiguïsation
a été exécutée, les termes sémantiquement associés au sens choisi (synsets) à partir de
WordNet sont utilisés pour augmenter les termes de la requête. Ceci dit, l’expansion de
la requête par cette technique est fortement dépendante de la couverture de mots de
WordNet sur le corpus.
Nous pensons que l’approche SQEDR pourrait être utile dans la tâche TREC stan-
dard. Nous travaillons également dans les graphes du corpus général MEDLINE. Un
raffinement de requêtes peut être effectué sur ce corpus en utilisant le thesaurus MeSH7
et l’UMLS 8 . Cependant, les termes contenus dans ces deux thesaurus sont restreints à
un vocabulaire contrôlé (termes fabriqués manuellement), et ne sont pas forcement pré-
sents dans les résumés MEDLINE. Notre approche SQR pourrait combler le vide entre
les termes réels des textes et un vocabulaire contrôlé.
6
http://trec.nist.gov
7
Medical Subject Headings : associé aux descripteurs MEDLINE, http://www.nlm.nih.gov/mesh
8
Unified Medical Language System.
131
Chapitre 7. Applications au raffinement de requêtes
132
Chapitre 8
Après avoir passé en revue toute une palette de méthodes issues de la physique
statistique, des perceptrons, du modèle vectoriel de textes, des méthodes probabilistes
et des algorithmes de résumé automatique, je finirai cette dissertation par un chapitre
qui revient à la source de mes recherches, c’est-à-dire... à la physique statistique. Si
surprenant que cela puisse paraître, entre le Traitement Automatique de la Langue Na-
turelle et la physique statistique il y a des ponts à traverser. Il suffit tout simplement
de les trouver ou au défaut, de les imaginer. Dans cette dernière partie, je présenterai
une approche de réseaux de neurones inspirée de la physique statistique pour étudier
des problèmes fondamentaux du TAL. L’algorithme modélise un document comme un
système de neurones où l’on déduit l’énergie textuelle. Nous avons appliqué cette ap-
proche aux problèmes de résumé automatique (générique ou guidé par une théma-
tique) et à la détection de frontières thématiques. Les résultats sont très encourageants,
et les perspectives assez séduisantes.
133
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
Ces travaux font partie de la thèse de Silvia Fernández, financée par le Conacyt1
(Mexique) et en collaboration avec le Laboratoire de Physique de Matériaux2 Univer-
sité Henri Poincaré, Nancy. L’ensemble des résultats de cette étude a été publié dans
les mémoires des congrès TALN’07 (Fernandez et al., 2007a) à Toulouse et MICAI’07
(Fernandez et al., 2007b) à Aguascalientes (Mexique).
si et s j sont les états des neurones i et j. Les autocorrélations ne sont pas calculées
(i 6= j). La sommation porte sur les P patrons à stocker. Cette règle d’interaction est
locale, car J i,j dépend seulement des états des unités connectées. Ce modèle est connu
aussi comme mémoire associative. Il possède la capacité de stocker et de récupérer un
certain nombre de configurations du système, car la règle de Hebb transforme ces confi-
gurations en attracteurs (minimaux locaux) de la fonction d’énergie (Hopfield, 1982) :
1 N N i i,j j
E=− ∑s J s (8.2)
2 i∑
=1 j =1
Les spins s’aligneront selon hi pour restituer le patron stocké qui est le plus proche
au patron présenté ν. Hopfield a démontré que l’énergie de ce système, définie par (8.2),
diminue toujours pendant le processus de récupération. Je ne développerai pas ici la
1
http://www.conacyt.mx
2
http://www.lpm.u-nancy.fr
3
Hebb (Hertz et al., 1991) a suggéré que les connexions synaptiques changent proportionnellement à la
corrélation entre les états des neurones, comme a été dit dans la Section 1.2.
134
8.2. L’énergie textuelle : une nouvelle mesure de similarité
F IG . 8.1: Champ hi subi par le spin s j , ∈ la chaîne (patron) ν produit par les autres N spins ∈ µ.
méthode de récupération de patrons4 , car notre intérêt va porter sur la distribution et les
propriétés de l’énergie du système (8.2). Cette fonction monotone et décroissante avait
été utilisée uniquement pour montrer que l’apprentissage est borné. D’un autre côté,
le modèle vectoriel de textes (Salton et McGill, 1983) transforme un document dans un
espace adéquat où une matrice S contient l’information du texte sous forme de sacs de
mots. On peut considérer S comme l’ensemble des configurations d’un système dont
on peut calculer l’énergie.
Les documents sont pré-traités avec des algorithmes classiques de filtrage de mots
fonctionnels5 , de normalisation et de lemmatisation (Porter, 1980; Manning et Schütze,
1999) afin de réduire la dimensionnalité. Une représentation en sac de mots produit
une matrice S[ P× N ] de fréquences/absences composée de µ = 1, · · · , P phrases (lignes) ;
~σµ = {s1µ , · · · , siµ , · · · , sµN } et un vocabulaire de i = 1, · · · , N termes (colonnes).
s11 s21 · · · s1N
s1
2 s22 · · · s2N
i TF i si le terme i existe
S=. .. .. . ; s = (8.3)
.. . . ..
µ
0 autrement
s1P s2P · · · sPN
La présence du mot i représente un spin si ↑ avec une magnitude donnée par sa fré-
quence TF i (son absence par ↓ respectivement), et une phrase ~σµ est donc une chaîne
de N spins. Nous allons nous différencier de (Hopfield, 1982) sur deux points : S est
une matrice entière (ses éléments prennent des valeurs fréquentielles absolues) et nous
utilisons les éléments J i,i car cette auto-corrélation permet d’établir l’interaction du mot
i parmi les P phrases, ce qui est important en TAL. Pour calculer les interactions entre
les N termes du vocabulaire, on applique la règle de Hebb, qui en forme matricielle est
égale à :
J = ST × S (8.4)
4
Cependant le lecteur intéressé peut consulter, par exemple (Hopfield, 1982; Kosko, 1988; Hertz et al.,
1991).
5
Nous avons effectué le filtrage de chiffres et l’utilisation d’anti-dictionnaires.
135
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
Chaque élément J i,j ∈ J[ N × N ] est équivalent au calcul de (8.1). L’énergie textuelle d’in-
teraction (8.2) peut alors s’exprimer comme :
1
E = − S × J × ST (8.5)
2
Un élément Eµ,ν ∈ E[ P× P] représente l’énergie d’interaction entre les patrons µ et ν
(figure 8.1).
Je vais maintenant expliquer théoriquement la nature des liens entre phrases que la
mesure d’énergie textuelle induit. Pour cela, j’utiliserai quelques notions élémentaires
de la théorie des graphes. L’interprétation que je ferai repose sur le fait que la matrice
(8.5) peut s’écrire :
1 1
E = − S × ( S T × S ) × S T = − ( S × S T )2 (8.6)
2 2
Considérons les phrases comme des ensembles σ de mots. Ces ensembles constituent
les sommets du graphe. On trace une arête entre deux de ces sommets σµ , σν chaque
fois qu’ils partagent au moins un mot en commun σµ ∩ σν 6= ∅. On obtient ainsi le
graphe I (S) d’intersection des phrases (voir un exemple à quatre phrases en figure
8.2). On value ces paires {σ1 , σ2 } que l’on appelle arêtes par le nombre exact |σ1 ∩ σ2 |
de mots que partagent les deux sommets reliés. Enfin, on ajoute à chaque sommet σ
une arête de réflexivité {σ} valuée par le cardinal |σ| de σ. Ce graphe d’intersection
valué est isomorphe au graphe G (S × S T ) d’adjacence de la matrice carrée S × S T . En
effet, G (S × S T ) contient P sommets. Il existe une arête entre deux sommets µ, ν si et
seulement si [S × S T ]µ,ν > 0. Si c’est le cas, cette arête est valuée par [S × S T ]µ,ν , valeur
qui correspond au nombre de mots en commun entre les phrases µ et ν. Chaque sommet
µ est pondéré par [S × S T ]µ,µ ce qui correspond à l’ajout d’une arête de réflexivité. Il
2 4 12 30
2 18
σ1 σ2 σ3 σ4
σ1 2 2 2 σ1 σ2 σ1 σ2
6
σ2 2 4 1 3 3
2 1 18 12
σ3 1 2 2
σ4 2 3 2 4 30
σ4 σ3 σ4 σ3
2 15
4 2 33 9
S×S T
I(S) G( S × S )T 2
136
8.3. Enertex : expériences en TAL
– boucle sur un sommet σ est la somme des carrés des valeurs des arêtes adja-
centes au sommet
– entre deux sommets distincts σµ et σν adjacents est la somme des produits des
valeurs des arêtes sur tout chemin de longueur 2 entre les deux sommets. Ces
chemins pouvant comprendre des boucles.
De cette représentation, on déduit que la matrice d’énergie textuelle relie à la fois des
phrases ayant des mots communs puisque elle englobe le graphe d’intersection, ainsi
que des phrases qui partagent un même voisinage sans pour autant partager nécessai-
rement un même vocabulaire. C’est à dire que deux phrases σ1 , σ3 ne partageant aucun
mot en commun mais pour lesquelles il existe au moins une troisième phrase σ2 telle
que σ1 ∩ σ2 6= ∅ et σ3 ∩ σ2 6= ∅ seront tout de même reliées. La force de ce lien dé-
pend premièrement du nombre de phrases σ2 dans leur voisinage commun, et donc du
vocabulaire apparaissant dans un contexte commun.
L’énergie textuelle peut être utilisée comme mesure de similarité dans les applica-
tions du TAL. Nous avons développé un algorithme basé sur cette mesure de similarité
appelé Enertex. De façon intuitive, cette similarité peut servir à scorer les phrases d’un
document et séparer ainsi celles qui sont pertinentes de celles qui ne le sont pas. Ceci
conduit immédiatement à une stratégie de résumé automatique générique par extrac-
tion de phrases. Une modification en introduisant une thématique, permet de générer
des résumés guidés par les besoins de l’utilisateur. Une autre approche, moins évidente,
consiste à utiliser l’information de cette énergie (vue comme un spectre ou signal numé-
rique de la phrase) et de la comparer au spectre de toutes les autres. Un test statistique
peut alors indiquer si ce signal est semblable à celui d’autres phrases regroupées en
segments ou pas. Ceci permet notamment la détection de frontières thématiques dans
un document.
Sous l’hypothèse que l’énergie d’une phrase µ reflète son poids dans le document,
nous avons appliqué la méthode d’énergie textuelle (8.6) au résumé générique mono-
document par extraction de phrases (Mani et Mayburi, 1999; Radev et al., 2002). Une
modification élémentaire, permettant d’obtenir des résumés guidés par une requête
ou un sujet défini par l’utilisateur6 sera développée dans la section suivante. L’algo-
rithme de résumé comprend trois modules. Le premier réalise la transformation vec-
torielle du texte avec des processus de filtrage, de lemmatisation/stemming et de nor-
malisation (c.f. chapitre 2 ). Le second module applique le modèle de spins et réalise
le calcul de la matrice d’énergie textuelle (8.6). Nous obtenons la pondération de la
phrase ν en utilisant ses valeurs absolues d’énergie, c’est-à-dire, en triant selon ∑ |Eµ,ν |.
µ
6
Qui correspond au protocole des conférences DUC (Document Understandig Conferences).
137
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
Ainsi, les phrases pertinentes seront sélectionnées comme ayant la plus grande énergie
absolue. Finalement, le troisième module génère les résumés par affichage et conca-
ténation des phrases sélectionnées. Le premier module repose sur le système Cortex
(Torres-Moreno et al., 2002, 2000).
Nous avons opté pour l’évaluation semi-automatique avec R OUGE (Lin, 2004), qui
mesure la similarité, suivant plusieurs stratégies, entre un résumé candidat (produit
automatiquement) et des résumés de référence (créés par des humains). Compte tenu
des difficultés de trouver un nombre suffisant de juges qui devraient générer des résu-
més idéaux (références), nous avons fixé un cadre expérimental de textes de petite taille
et une évaluation du rappel de R OUGE -2 et SU-4. Pour les tests en français, nous avons
choisi les textes7 :
– « 3-mélanges », « puces » et « J’accuse » ;
Trois textes de l’encyclopédie Wikipedia en anglais ont été analysés :
– « Lewinsky », « Québec » et « Nazca ».
Nous avons évalué les résumés produits avec R OUGE-1.5.5. Le tableau 8.1 montre les
performances sur des textes en français et en anglais des systèmes MEAD, Copernic
Summarizer, Enertex, Cortex et d’une baseline où les phrases ont été choisies au ha-
sard8 . Le ratio de compression a été variable (selon la taille des textes) et exprimé
comme pourcentage du nombre de phrases du texte original. En gras, sont affichées
les performances les plus élevées, en italique celles en deuxième position (tous scores
confondus). On constate que Cortex est un système résumé automatique très perfor-
mant (8 premières places et 4 deuxièmes), mais Enertex n’est pas du tout mauvais (3
premières places et 6 deuxièmes). Plus encore, si on réfléchit au fait que Cortex est un
algorithme qui a été pensé depuis le début pour être un résumeur : un bon nombre de
métriques assez complexes, un algorithme de décision les combinant... Ce qui n’est pas
le cas d’Enertex.
Corpus MEAD Copernic Enertex Cortex Baseline
R2 SU4 R2 SU4 R2 SU4 R2 SU4 R2 SU4
3-mélanges ⊘ ⊘ 0,4231 0,4348 0,4958 0,5064 0,4967 0,5064 0,3074 0,3294
Puces ⊘ ⊘ 0,5775 0.5896 0,5204 0,5335 0,5356 0,5588 0,3053 0,3272
J’accuse ⊘ ⊘ 0,2235 0,2707 0,6146 0,6419 0,6316 0,6599 0,2177 0,2615
Lewinsky 0,4756 0,4744 0,5580 0,5610 0,5611 0,5789 0,6183 0,6271 0,2767 0,2925
Québec 0,4820 0,5169 0,4492 0,4859 0,5095 0,5377 0,5636 0,5872 0,2999 0,3524
Nazca 0,4446 0,4671 0,4270 0,4495 0,6158 0,6257 0,5894 0,5966 0,2999 0,3524
TAB . 8.1: Rappel R OUGE -2 (R2) et SU4 des résumés genériques. Résumés au 25% : 3-mélanges,
puces, Québec et Nazca ; résumé au 20% : Lewinsky ; résumé au 12% : J’accuse.
Sur le graphique 8.3, on montre la moyenne des moyennes pour chaque méthode.
Par souci de clarté, j’ai montré uniquement l’écart-type correspondant à SU4 (axe ver-
tical). On constate qu’Enertex et Cortex sont très proches en performances, et se dé-
marquent des autres systèmes.
7
Ces textes avaient déjà été utilisés dans le chapitre 5 sur Cortex.
8
Faute d’espace, ni les résumés Word ni de Pertinence, tellement proches de la baseline, ne seront
affichés. Ils sont pourtant dans la figure 8.3.
138
8.3. Enertex : expériences en TAL
0,64
0,60
Cortex
Enertex
0,56
0,52
0,48 MEAD
Copernic
0,44
SU4 0,40
0,36
Pertinence
0,32 Baseline Word
0,28
0,24
0,20
0,24 0,28 0,32 0,36 0,40 0,44 0,48 0,52 0,56 0,60
ROUGE-2
F IG . 8.3: Moyenne des scores moyens de rappel pour tous les textes.
La tâche principale des conférences DUC’05, ’06 et ’079 , organisées par NIST, sont
identiques : étant donné 45 thèmes et leurs 25 groupes de documents, il faut produire
des résumés fluides de 250 mots qui répondent aux questions des thématiques. Nous
avons utilisé l’énergie textuelle pour cette tâche. Nous décrivons maintenant le proces-
sus d’obtention du résumé de chaque communiqué et sa thématique. L’ensemble de
25 documents sont concaténés dans un seul long document trié chronologiquement.
La thématique est ajoutée à ce document comme la dernière phrase. Un prétraitement
standard (un filtrage et stemming (Porter, 1980)) lui est appliqué afin d’obtenir la ma-
trice S (8.3). L’énergie textuelle entre la dernière phrase (la thématique) et chacune des
autres phrases dans le document est calculée. Finalement, le résumé est formé avec les
phrases d’une valeur absolue maximum de l’énergie.
Élimination de la redondance.
Le résumé est construit en alignant les phrases les plus pertinentes dans le do-
cument. De ce fait, dans un résumé multi-document il y a une probabilité signi-
ficative de re-inclure l’information déjà présente. Pour diminuer ce problème, il
faut implémenter une stratégie d’élimination de la redondance. Notre système
n’inclut pas le traitement linguistique, puis notre stratégie de non-redondance
consiste d’un coté, en comparer les valeurs d’énergie entre les phrases avant de
les inclure, et d’un autre en utiliser l’information de la longueur des phrases.
Nous supposons que (dans de grands corpus) la probabilité que deux phrases
aient les mêmes valeurs d’énergie est très faible. Alors, nous avons détecté la pré-
sence de doublons (avec exactement la même valeur d’énergie). On a observé
9
Voir le chapitre 6 pour plus de détails concernant les conférences DUC.
139
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
Le cas contraire signifie que les énergies sont très proches avec une haute probabi-
lité de redondance. On présente sur la figure 8.4 les valeurs du rappel du produit
R OUGE-2 × SU4 pour différentes valeurs de ∆E. Le meilleur résultat sur le corpus
DUC (05, 06 et 07) est obtenu avec ∆E ≈ 0, 003. On a constaté que cela correspond
aux phrases avec un ou deux mots différents.
0,017
DUC 2007
0,016
0,015
ROUGE-2*SU4 (Rappel)
0,014
0,013
Moyenne
0,012
0,011
DUC 2006
0,010
0,009
DUC 2005
0,008
0,000 0,003 0,006 0,009 0,012 0,015 0,018 0,021 0,024
∆E (Ecandidate-Ereference)
140
8.3. Enertex : expériences en TAL
0,016
0,012
ROUGE-2*SU4 (rappel)
Moyenne
0,010
DUC 2006
0,008
DUC 2005
0,006
0,004
0,002
0,000
0 1 2 3 4 5 6 7 8 9 10
k
17
15
17
0,13
8
4
10
10
0,07
8
11
4
19
5
16
25
0,12
14
7
6
24
11
9
14
16
19
3
28
29
7
9
ROUGE-2 Score moyen
29
25
21
12
6
24
18
28
27
0,06
3
0,11
SU4 Score moyen
21
12
13
32
18
26
Baseline (NIST)
26
27
32
30
0,10
20
22
31
2
Baseline (NIST)
13
30
20
0,05
31
2
22
0,09
0,04 0,08
0,07
0,03
23
0,06
23
0,02 0,05
Système Système
Dans le cas de DUC’07 (figure 8.8) le comité a inclus deux évaluations du type ba-
seline (identifieurs NIST 1 et NIST 2). La première reste la même qu’en 2006 : une
baseline générée au hasard. La deuxième est une baseline dite intelligente, où un
système de résumé générique a pris la place du système aléatoire. Cela explique
pourquoi cette méthode a battu presque la moitié des systèmes participants.
La figure 8.9 montre la position du système Enertex (triangle) dans l’évaluation
SU4 vs R OUGE -2, comparé aux autres participants de DUC’05 à ’07. J’ai affiché
141
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
0,10
LIA (Neo-Cortex)
24
DUC 2006
LIA (Neo-Cortex)
0,16 DUC 2006
24
Enertex
12
Enertex
0,09
12
23
0,15
15
23
33
8
31
31
33
15
2
8
5
5
10
27
0,14
32
32
13
27
6
13
3
0,08
10
3
22
ROUGE-2 Score moyen
4
19
19
4
14
22
9
9
0,13
14
29
SU4 Score moyen
25
20
16
18
30
29
25
7
21
0,07
34
16
0,12
Baseline (NIST)
30
21
18
17
34
20
17
Baseline (NIST)
7
35
0,11
0,06
26
35
0,10
26
0,05
0,09
0,04 0,08
0,07
11
11
0,03
0,06
Système Système
0,13
15
15
DUC 2007
29
29
24
0,12
4
Enertex
4
0,17
13
Enertex
13
23
8
20
23
0,11
20
3
7
30
7
30
0,16
9
17
3
22
14
22
NIST 2
14
8
17
9
28
32
NIST 2
28
ROUGE-2 Score moyen
18
31
0,10
32
0,15
26
21
19
SU4 Score moyen
18
31
26
21
12
0,09 0,14
10
25
11
5
11
12
19
25
0,13
10
0,08
6
27
0,12
6
0,07
NIST 1
NIST 1
27
0,11
0,06
0,10
0,05
0,09
16
0,04 0,08 16
0,03 0,07
Système Système
F IG . 8.8: DUC’07 : Rappel R OUGE-2 et SU4 des participants et les deux baselines.
142
8.3. Enertex : expériences en TAL
0,18
Enertex SU4 0,155 Enertex
0,130
ROUGE-2
0,150 0,17
0,125
ROUGE-2
0,145
Enertex
Enertex SU4 0,16 Enertex SU4
0,120 0,140
0,15
SU4 Rappel
0,115 0,135
ROUGE-2
Enertex
SU4
SU4
0,130
0,14
0,110
0,125
0,105 0,13
0,120
F IG . 8.9: Aperçu du rappel SU4 vs R OUGE-2 des participants au-dessus des baselines.
pondérer le voisinage d’une phrase, on peut constater une similarité entre les courbes
de l’une (gras) et de l’autre thématique (pointillé).
1 2 3 4 5 7
9 10 12 13 14 15
16 18 19 22 23 24
F IG . 8.10: Énergie textuelle de « 2-mélanges ». En trait continu l’énergie des phrases de la 1ère
thématique, en pointillé celle de la 2ème . Le changement d’allure des courbes entre les phrases 14-15
correspond à un changement thématique. L’axe horizontal indique le numéro de phrase dans l’ordre
du document. L’axe vertical, l’énergie textuelle de la phrase affichée vs. les autres.
Test du W de Kendall.
Pour pouvoir comparer les énergies entre elles nous introduisons le coefficient de
concordance W de Kendall (Siegel et Castellan, 1988) et le calcul de sa p−valeur.
Ils permettent de définir un test statistique de concordance entre k juges qui cla-
ssent un ensemble de P objets. Nous avons utilisé ce test pour trouver les fron-
tières thématiques entre segments. Voici le premier protocole du test que nous
avons adopté.
1. Selon la nature du texte (homogène ou hétéroclite) on émet a priori l’une des
deux hypothèses initiales H0 qui suivent : i) la phrase µ + 1 appartient à la
même thématique que la phrase précédente µ ou au contraire ii) la phrase
µ + 1 marque une rupture avec µ.
143
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
144
8.3. Enertex : expériences en TAL
sont 2 variables statistiquement indépendantes. Ici, les juges sont deux phrases
qui classifient toutes les autres phrases basées sur l’énergie d’interaction. Nous
dirons qu’il est presque sûr que deux phrases µ et ν sont dans la même théma-
tique si P[µ 6= ν] > 0, 05. Nous avons utilisé ce test pour trouver les frontières
thématiques entre segments.
Comme illustré à la figure 8.11, une phrase est considérée comme la frontière d’un
segment s’il est presque sûr que :
1. Elle est dans la même thématique qu’au moins 2/3 des phrases précédentes ;
2. Elle n’est pas dans la même thématique qu’au moins 2/3 des phrases sui-
vantes.
12 13 14 16 17 18
15
Nous avons implanté cette approche de segmentation thématique comme une fe-
nêtre glissante de sept phrases. Pendant que la fenêtre se déplace, la phrase centrale est
comparée à toutes les autres phrases dans la fenêtre (basée sur le coefficient de Ken-
dall τ). Si une frontière est trouvée alors la fenêtre saute par-dessus les trois suivantes
phrases. Nos programmes ont été optimisés avec les bibliothèques standard de Perl 5.
Les figures 8.12 et 8.13 montrent la détection des frontières pour les textes avec 2 et 3
thématiques. Les vraies frontières sont indiquées en ligne pointillée. Pour le texte 3-
mélanges, le test a trouvé deux frontières entre les segments 8-9 et 16-18. Dans les deux
cas, cela correspond en effet aux frontières thématiques. Une troisième frontière (fausse)
a été indiquée entre les phrases 22-23 du texte 2-mélanges. Elle mérite d’être commenté.
Si nous regardons la figure 8.10 nous pouvons noter que l’énergie de la phrase 23 est
très différent de cela des phrases 22 ou 24. La phrase 23 présente une courbe recouvrant
les deux thématiques. C’est la raison pour laquelle le test ne peut pas l’identifier comme
appartenant à la même classe. Ce raisonnement peut être prolongé à toutes autres fron-
tières fausses.
On montre dans la figure 8.13 la détection des frontières pour textes avec 3 et 2 thé-
matiques. Pour le texte « physique-climat-chanel » le test du W de Kendall a détecté
trois frontières entre les phrases 5-6 et 12-15, qui correspondent aux frontières effec-
tives. Pour le texte en anglais à deux thématiques le test a trouvé une frontière entre les
segments 44-45 qui correspond à la vraie frontière.
145
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
0,50 0,50
0,45 0,45
0,40 0,40
0,35 0,35
p (Test de Kendall)
p (Test de Kendall)
0,30 0,30
0,25 0,25
0,20 0,20
0,15 0,15
0,10 0,10
0,05 0,05
0,00 0,00
01-02
02-03
03-04
04-05
05-06
06-07
07-09
09-10
10-11
11-12
12-13
13-14
14-15
15-16
16-18
18-19
19-22
22-23
23-24
00-1
01-2
02-3
03-4
04-5
05-6
06-7
07-8
08-9
09-10
10-11
11-13
13-14
14-15
15-16
16-18
18-19
19-20
20-23
23-25
25-26
Phrase (i, j) Phrase (i, j)
0,50 0,50
0,45 0,45
0,40 0,40
0,35 0,35
p (Test de Kendall)
p (Test de Kendall)
0,30 0,30
0,25 0,25
0,20 0,20
0,15 0,15
0,10 0,10
0,05 0,05
0,00 0,00
00-02
02-05
05-06
06-07
07-08
08-10
10-11
11-12
12-15
15-16
16-17
17-18
18-19
19-22
01-2
03-4
05-6
08-9
11-12
13-14
15-16
17-18
20-21
23-24
25-26
27-29
30-31
32-33
34-35
36-37
38-39
40-41
42-44
45-46
47-48
51-52
53-54
55-56
57-58
59-60
61-62
63-64
65-66
67-68
69-70
71-72
73-74
Phrase (i, j) Phrase (i, j)
Dans une autre expérience, nous avons comparé notre système à deux autres : LC-
seg (Galley et al., 2003) et LIA_seg (Sitbon et Bellot, 2005), qui utilisent tous les deux
des chaînes lexicales10 . Le corpus de référence a été construit à partir d’articles du jour-
nal L E M ONDE. Il est composé d’ensembles de 100 documents où chacun correspond à
la taille moyenne des segments pré-définie. Un document est composé de 10 segments
extraits d’articles thématiquement différents tirés au hasard. Compte tenu des particu-
larités de ce corpus nous avons adopté i comme hypothèse initiale H0 . Les scores sont
calculés avec W INDIFF (Pevzner et Hearst, 2002), utilisée dans la segmentation théma-
tique. Cette fonction mesure la différence entre les frontières véritables et celles trou-
vées automatiquement dans une fenêtre glissante : plus la valeur est petite, plus le
système est performant. LIA_seg dépend d’un paramètre qui donne lieu à différentes
performances (d’où la plage de valeurs affichée). Notre méthode obtient des perfor-
10
Une chaîne lexicale relie les termes suffisamment proches dans le texte, éloignés d’une distance in-
férieure à une valeur fixe appelée hiatus. Classiquement, une chaîne est rompue quand elle dépasse la
valeur du hiatus.
146
8.4. Conclusion et perspectives
mances comparables aux systèmes dans l’état de l’art mais en utilisant bien moins de
paramètres, en particulier nous ne faisons aucune supposition sur le nombre de théma-
tiques à détecter. Le tableau 8.2 montre ces résultats et la dernière colonne le nombre
moyen de véritables frontières trouvées par Enertex.
Taille du segment
LCseg LIA_seg Enertex (Frontières trouvées)
(en phrases)
9-11 0.3272 (0.3187-0.4635) 0.4134 7.10/9
3-11 0.3837 (0.3685-0.5105) 0.4264 7.15/9
3-5 0.4344 (0.4204-0.5856) 0.4140 5.08/9
TAB . 8.2: Mesure Windiff pour LCseg, LIA_seg et Énertex (segments de différentes tailles).
Nous avons introduit le concept d’énergie textuelle basé sur des approches des ré-
seaux de neurones. Cela nous a permis de développer un nouvel algorithme de résumé
automatique que nous avons publié (Fernandez et al., 2007a). Des tests effectués ont
montré que notre algorithme est adapté à la recherche de segments pertinents. On ob-
tient des résumés équilibrés où la plupart des thèmes sont abordés dans le condensé
final. Les avantages supplémentaires consistent à ce que les résumés sont obtenus de
façon indépendante de la taille du texte, des sujets abordés, d’une certaine quantité de
bruit et de la langue (sauf pour la partie pré-traitement). L’algorithme d’énergie pour-
rait même être incorporé au système Cortex, où il jouerait le rôle d’une des métriques
pilotées par un algorithme de décision. Des résumés personnalisés en fonction d’une re-
quête de l’utilisateur ont été générés en introduisant la thématique comme la dernière
phrase. Des tests sur les corpus DUC’05, ’06 et ’07 ont été réalisés montrant de très
bonnes performances. Une autre voie intéressante est le calcul des propriétés comme
la « magnétisation » d’un document. (Shukla, 1997) a étudié des phénomènes magné-
tiques dans les réseaux de neurones type Hopfield dont on pense se servir. On étudiera
la réponse du système face à l’application d’un champ externe. Ce champ, représenté
par le vecteur des termes d’un texte décrivant une thématique (thématique) sera mis
en relation avec un document. Ainsi, les phrases du document pourraient ou non, s’ali-
gner selon leur degré de pertinence par rapport à la thématique. Ceci permettrait peut
être de générer des résumés avec détection de la nouveauté, tel que définit dans la tâche
pilote DUC’07. Nous avons également abordé le problème de la détection des frontières
thématiques des documents. La méthode, basée sur la matrice d’énergie du système de
spins, est couplée à un test statistique non-paramétrique robuste (le τ de Kendall). Les
résultats sont très encourageants. Une critique de la méthode d’énergie pourrait être
qu’elle nécessite la manipulation (produits, transposée) d’une matrice de taille [ P × P].
Cependant la représentation sous forme de graphe nous permet d’exécuter ces calculs
en temps P log( P) et en espace P2 .
147
Chapitre 8. Retour à la physique statistique : l’énergie textuelle
148
Chapitre 9
J’ai présenté un aperçu global de mon parcours après la thèse. En partant des per-
ceptrons et de la classification d’objets, je me suis dirigé vers le Traitement Automatique
de la Langue Naturelle. La catégorisation de textes et le résumé automatique ont tou-
jours été au cœur de mes recherches. Au cours de ce mémoire, j’ai présenté mes diffé-
rentes approches et leurs résultats. Ainsi, j’ai décidé d’étudier en profondeur les capaci-
tés de la règle d’apprentissage Minimerror et de l’algorithme Monoplan, qui grandit en
apprenant. J’ai étudié théoriquement le problème de la parité N-dimensionnelle, tâche
de classification très difficile pour les réseaux de neurones. Une expression pour obtenir
le nombre minimum d’erreurs comme fonction du nombre des entrées a été déduite. La
combinaison hybride de Minimerror et de Fuzzy K-means semble être prometteuse du
point de vue d’un apprentissage hybride. Cette stratégie a été appliquée pour prévoir,
d’une manière plutôt satisfaisante, si un site pouvait être identifié comme un dépôt
de minerai ou pas. J’ai également suggéré une variation de Minimerror pour la classi-
fication non supervisée avec des séparateurs hypersphériques. Cependant, il faudrait
encore approfondir les recherches dans cette voie.
149
Chapitre 9. Bilan général et perspectives
cation d’un auteur ont aussi été abordées avec des méthodes numériques. Un modèle
probabiliste de cohérence interne des discours a beaucoup amélioré les résultats avec
des modèles d’apprentissage préalablement développés (modélisation bayésienne, au-
tomates de Markov et processus d’adaptation). Les résultats ont été très encourageants.
La fusion des hypothèses vue comme un vote de plusieurs juges pondérés par un per-
ceptron optimal a permis de surpasser les résultats en apprentissage. Cependant, nous
pensons qu’il reste encore du travail pour améliorer cette stratégie afin d’obtenir de
meilleures performances en généralisation.
Une bonne partie de mes recherches a été consacrée à l’étude des systèmes de ré-
sumé automatique. Les méthodes de résumé automatique de textes ont fait un long
chemin. Mais tant qu’on sera incapable de résoudre le problème de la compréhension
du texte, le résumé automatique restera une approximation du résumé humain. Cepen-
dant, nos méthodes numériques (Cortex, Enertex) ont montré de bonnes performances
dans des tâches de résumé mono ainsi que de résumés multi-documents guidés par une
thématique. Les résultats dans les conférences DUC d’une fusion de plusieurs systèmes
de résumé et d’une approche pour la détection de la nouveauté ont été au rendez-vous.
Une combinaison de méthodes numériques avec une approche linguistique a été tes-
tée et cette démarche a montré des résultats intéressants : elle produit des résumés
plus proches de ceux attendus par un utilisateur. La linguistique ajoute une valeur de
finesse aux méthodes numériques, on obtient alors des performances améliorées. La
même amélioration a été constatée lors du raffinement de requêtes.
Finalement, nous avons introduit le concept d’énergie textuelle basé sur les ap-
proches des réseaux de neurones et de la physique statistique. Le document est vu
comme un système de spins où l’on peut calculer des propriétés intéressantes. Cela
nous a permis de développer un nouvel algorithme de résumé automatique où les
phrases du document s’alignent selon leur degré de pertinence par rapport à la théma-
tique. L’énergie textuelle permet d’aborder également le problème de la détection des
frontières thématiques des documents. Une méthode de similarité des spectres énergé-
tiques a été développée. La représentation sous forme de graphe nous permet d’exé-
cuter les calculs nécessaires en temps rapides de P log( P) et en espace P2 , étant P le
nombre de phrases d’un texte.
J’ai également abordé d’autres domaines du TAL que, pour des raisons d’espace, je
ne développerai pas dans ce mémoire mais j’en dirai quelques mots. J’ai étudié la détec-
tion de spams (Master Recherche de Yann Romero en 2005), la génération automatique
de texte (thèse de Éric Charton qui démarre fin 2007), la compression statistique de
phrases guidée par un perceptron (Master Recherche de Thierry Wazack en 2007), le
traitement de petites annonces (avec des problématiques de maximiser l’information
dans un minimum de mots), la génération et l’enrichissement automatique des patrons
(thèse de Cédric Vidrequin)1 , l’identification des entités chimiques (thèse de Florian
Boudin) par des méthodes probabilistes. Finalement, un projet ANR concernant le ré-
sumé et la détection d’opinion multimédias (texte, audio, vidéo) démarre fin 2007, avec
la collaboration de Georges Linares.
1
Recherches financées par Semantia, http://www.semantia.fr et l’ANRT (contrat Cifre).
150
J’ai essayé, pendant cette période d’environ dix ans, d’être cohérent dans ma dé-
marche et d’approfondir autant que possible les méthodes d’apprentissage et de clas-
sification appliquées au traitement automatique de textes. D’après les résultats de mes
recherches, j’ai constaté le fait que pour traiter le texte une analyse très fine n’est pas
nécessaire. Les méthodes numériques agissent à grande échelle. Elles balaient des mots
comme des billes à probabilités colorées, elles sont grossières certes, mais elles ont fait
leurs preuves. Même si les mots ne sont pas des billes colorées, un des mots les plus
probables (sur l’Internet) après bille, est colorée. On peut calculer cela. L’hypothèse de
base de mes travaux en TAL est qu’il n’y a rien de plus concret que les textes. C’est le
contenu des corpora dont on dispose avant tout. Il faut en profiter.
On ne sait pas encore écrire des programmes qui comprennent le texte (Ibekwe-SanJuan,
2007). L’enjeu est difficile. La compréhension du sens d’un texte par un être humain
reste encore très mal expliquée. Cependant j’ai la conviction que derrière les processus
cognitifs, les motivations, l’expérience, il y a une grande dose d’apprentissage. Cette
conviction n’est pas qu’une impression, elle est étayée par l’expérience. Un individu
maîtrise la production correcte de phrases dès le plus jeune âge : aucune représentation
formelle de la langue n’est nécessaire à ce moment là. On peut avoir de longues discus-
sions théoriques sur la superiorité de tel type de méthode. Mais au fond, une manière
rationnelle de trancher consiste à les confronter sur des données réelles. Tout au long
de cette dissertation, j’ai essayé de montrer que les méthodes numériques sont perfor-
mantes en utilisant une approche pragmatique : les campagnes d’évaluation nationales
et internationales. Elles peuvent avoir des défauts certes, mais restent cependant un
moyen assez objectif de mesurer les performances des algorithmes. Et au moins, dans
les campagnes à portée de ma connaissance (DUC en résumé automatique, DEFT en ca-
tégorisation, TREC en questions-réponse), les performances des méthodes numériques
surpassent (parfois de beaucoup) celles des méthodes linguistiques. Au moment de
traiter de grandes masses de documents, l’analyse linguistique fine est vite dépassée
par la quantité de textes à traiter. Elle perd à ce moment-là (semble-t-il), une bonne par-
tie de ses atouts. On voit des articles et des études portant sur Jean aime Marie et autant
sur Marie aime Jean ou encore Marie est aimée par Jean. J’admets que leur analyse n’est
pas simple. Le modèle vectoriel, par exemple, peut difficilement les différencier. Lais-
sons donc la linguistique expliquer les détails et au numérique le soin de traiter une
masse faite de centaines de milliers de documents hétérogènes.
Ceci est la conclusion évidente qu’on pourrait tirer de façon prématurée. Mais elle
n’est pas juste.
J’ai découvert tout au long de mes travaux, en particulier ceux consacrés au résumé
automatique (c.f. chapitres 5 et 6) et au raffinement de requêtes (c.f. chapitre 7), qu’un
système hybride combinant des approches numériques à la base et une analyse linguis-
tique au sommet, donne de meilleures performances que les systèmes pris de façon
isolée. Il produit un certain modèle explicatif de la démarche empruntée, ce qui n’est
pas du tout négligeable.
151
Chapitre 9. Bilan général et perspectives
si les méthodes numériques étaient suffisantes pour ces mêmes tâches. Je vais répondre
d’abord la deuxième question et par conséquent la première car elles sont liées.
J’ai soutenu dans ces pages la thèse que la linguistique n’était pas un cadre appro-
prié pour faire face à l’incertitude des langues naturelles. C’est pour cela que j’ai utilisé
de façon intensive des méthodes numériques, car elles semblaient, à mes yeux, adé-
quates pour le TAL.
Mais cette approche a aussi ses limites.
Au-delà des promesses théoriques d’indépendance, elle est fortement dépendante
des corpora annotés (souvent à la main). Les corpora sont parfois insuffisants face aux
tâches complexes (c.f. campagnes DUC). Alors les unités, telles que les n-grammes, de-
viennent des évènements très rares. On peut, certes, pallier leur manque par des algo-
rithmes de lissage (Good-Turing, Backoff, Katz) mais ces derniers induisent parfois des
biais non évidents. Enfin, le modèle du sac de mots est une simplification exagérée qui
néglige la structure de la phrase, ce qui implique une perte importante d’information.
Je reformule alors les deux questions précédentes comme ceci : Les approches lin-
guistiques et les méthodes numériques peuvent-elles jouer un partenariat dans les tâches
du TAL ?
La réponse est oui.
Les deux méthodes combinées peuvent combler efficacement leurs faiblesses. Elles
deviennent ainsi des approches complémentaires. Cela ouvre une voie intéressante aux
recherches que je compte entreprendre : la conception de systèmes TAL hybrides, no-
tamment pour la génération automatique de texte et pour la compression de phrases.
On peut difficilement envisager de dépasser le plafond auquel les méthodes numé-
riques se heurtent sans faire appel à la finesse des approches linguistiques, mais sans
négliger pour autant de les valider et de les tester sur des corpora. Car, en fin de compte,
dans les tâches du TAL, seul le texte —comme celui que vous avez en face de vos yeux—
est réel. Le reste est anecdotique.
152
Bibliographie
(Abdillahi et al., 2006) N. Abdillahi, P. Nocera, et J.-M. Torres-Moreno, 2006. Boîtes à outils tal
pour les langues peu informatisées : le cas du somali. Actes de JADT’06, 697 – 705.
(Alonso et Fuentes, 2003) L. Alonso et M. Fuentes, 2003. Integrating cohesion and coherence
for Automatic Summarization. Actes de EACL’03, 1–8. ACL, Budapest.
(Alpaydin, 1990) E. Alpaydin, 1990. Neural Models of Incremental Supervised and Unsupervised
Learning. Thèse, Département d’Informatique, EPFL Lausanne.
(Alphonse et al., 2005) E. Alphonse, A. Amrani, J. Azé, T. Heitz, A.-D. Mezaour, et M. Roche,
2005. Préparation des données et analyse des résultats de DEFT’05. Actes de TALN
2005/DEFT’05, Volume 2, 95–97.
(Amati et Van Rijsbergen, 2002) G. Amati et C. Van Rijsbergen, 2002. Probabilistic models of in-
formation retrieval based on measuring the divergence from randomness. ACM Transactions
on Information Systems 20(4), 357–389.
(Amini et al., 2000) M.-R. Amini, H. Zaragoza, et P. Gallinari, 2000. Learning for sequence
extraction tasks. Actes de RIAO 2000, 476–489.
(ANSI, 1979) ANSI, 1979. American National Standard for Writing Abstracts Z39-14. New York,
NY : ANSI, Inc.
(Aretoulaki, 1994) M. Aretoulaki, 1994. Towards a Hybrid Abstract Generation System. Actes
de Int. Conf. on New Methods in Language Processing, 220–227. Manchester.
(Asterias et al., 2005) J. Asterias, E. Comelles, et A. Mayor, 2005. TXALA un analizador libre
de dependencias para el castellano. Procesamiento del Lenguaje Natural 35, 455–456.
(Azé et al., 2006) J. Azé, T. Heitz, A. Mela, A.-D. Mezaour, P. Peinl, et M. Roche, 2006. Prépara-
tion de DEFT’06 (DÉfi Fouille de Textes). Actes de SDN/DEFT’06, Volume 2.
(Azé et Roche, 2005) J. Azé et M. Roche, 2005. Présentation de l’atelier DEFT’05. Actes de
TALN 2005/DEFT’05, Volume 2, 99–111.
153
Bibliographie
(Barzilay et Elhadad, 1997) R. Barzilay et M. Elhadad, 1997. Using lexical chains for Text Sum-
marization. Actes de ACL Intelligent Scalable Text Summarization, 10–17.
(Béchet et al., 2000) F. Béchet, A. Nasr, et F. Genet, 2000. Tagging unknown proper names using
decision trees. Actes de 38th Meeting ACL, Hong-Kong, China, 77–84.
(Beauregard, 2001) S. Beauregard, 2001. Génération de texte dans le cadre d’un système de réponse
automatique à des courriels. Thèse de Doctorat, U. de Montréal, Québec, Canada.
(Bellot et al., 2003) P. Bellot, E. Crestan, M. El-Bèze, L. Gillard, et C. D. Loupy, 2003. Coupling
named entity recognition, vector-space model and knowledge bases for TREC-11, question-
answering track. Actes de TREC’02, Volume NIST 500 251, Gaithersburg.
(Berthold, 1996) M. Berthold, 1996. A probabilistic extension for the DDA algorithm. IEEE
International Conference on Neural Networks 1, 341–346.
(Berthold et al., 1995) M. Berthold, J. Diamond, et al., 1995. Boosting the performance of RBF
networks with dynamic decay adjustment. Actes de NIPS, Volume 7, 521–528. MIT Press.
(Bezdek, 1981) J. Bezdek, 1981. Pattern Recognition with Fuzzy Objective Function Algorithms.
Plenum Press, New York.
(Biehl et Opper, 1991) M. Biehl et M. Opper, 1991. Tilinglike learning in the parity machine.
Physical Review A 44(10), 6888–6894.
(Boudin et al., 2007) F. Boudin, B. Favre, F. Béchet, M. El-Bèze, L. Gillard, et J.-M. Torres-
Moreno, 2007. The LIA-Thales summarization system at DUC-2007. Actes de DUC’07,
Rochester, USA.
(Bourse et al., 2004) M. Bourse, M. Leclère, E. Morin, et F. Trichet, 2004. Human resource
management and semantic web technologies. Actes de ICTTA’04, 641–642.
(Brandow et al., 1995) R. Brandow, K. Mitze, et L. Rau, 1995. Automatic condensation of elec-
tronic publications by sentence selection. Inf. Proc. and Management 31, 675–685.
(Brants et al., 2002) T. Brants, F. Chen, et I. Tsochantaridis, 2002. Topic-based document seg-
mentation with probabilistic latent semantic anaysis. Actes de CIKM’02, McLean, Virginia,
USA, 211–218.
(Bruske et Sommer, 1995) J. Bruske et G. Sommer, 1995. Dynamic cell structure learns perfectly
topology preserving map. Neural Computation 7(4), 845–865.
154
Bibliographie
(Buckley, 2005) C. Buckley, 2005. Looking at limits and tradeoffs : Sabir research at trec 2005.
Actes de TREC 2005, Gaithersburg, Maryland, USA, 13.
(Buckley et al., 1995) C. Buckley, A. Singhal, M. Mitra, et G. Salton, 1995. New retrieval ap-
proaches using SMART : TREC 4. Actes de TREC-4, 25–48.
(Caillet et al., 2004) M. Caillet, J.-F. Pessiot, M. Amini, et P. Gallinari, 2004. Unsupervised
learning with term clustering for thematic segmentation of texts. Actes de RIAO’04, France,
648–657.
(Carbonell et Goldstein, 1998) J. Carbonell et J. Goldstein, 1998. The use of MMR, diversity-
based reranking for reordering documents and producing summaries. Actes de 21st ACM
SIGIR, 335–336. ACM Press, NY, USA.
(Carpenter et al., 1991b) G. A. Carpenter, S. Grossberg, et D. B. Rosen, 1991b. Art 2-a : An adap-
tive resonance algorithm for rapid category learning and recognition. Neural Networks 4(4),
493–504.
(Carpenter et al., 1991c) G. A. Carpenter, S. Grossberg, et D. B. Rosen, 1991c. Fuzzy art : Fast
stable learning and categorization of analog patterns by an adaptive resonance system. Neu-
ral Networks 4(6), 759–771.
(Chuang et Chien, 2004) S.-L. Chuang et L.-F. Chien, 2004. A practical web-based approach to
generating Topic hierarchy for Text segments. Actes de ACM-IKM, Washington, 127–136.
(Cohen, 1996a) W. W. Cohen, 1996a. Learning rules that classify email. Actes de AAAI Spring
Simposium on Machine Learning in Information Access, Minneapolis, 18–25.
(Cohen, 1996b) W. W. Cohen, 1996b. Learning to classify English text with ILP methods. Dans
L. De Raedt (Ed.), Advances in Inductive Logic Programming, 124–143. IOS Press.
(Collobert et Bengio, 2001) R. Collobert et S. Bengio, 2001. Support vector machines for large-
scale regression problems. Journal of Machine Learning Research 1, 143–160.
155
Bibliographie
(Collobert et al., 2002) R. Collobert, S. Bengio, et J. Mariéthoz, 2002. Torch : a modular machine
learning software library. Rapport technique, IDIAP, Martigny, Switzerland.
(Cotteret et Moreau, 1969) J.-M. Cotteret et R. Moreau, 1969. Le vocabulaire du Général de Gaulle.
Paris : Armand Colin, Presses de la Fondation nationale des sciences politiques.
(Cover, 1965) T. Cover, 1965. Geometrical and statistical properties of systems of linear inequa-
lities with applications in pattern recognition. IEEE Transactions on Electronic Computers 14(3),
326–334.
(Cremmins, 1996) E. Cremmins, 1996. Art of Abstracting, 2nd Edition. Arlington, Va. : Informa-
tion Resources Press.
(da Cunha et Wanner, 2005) I. da Cunha et L. Wanner, 2005. Towards the Automatic Summari-
zation of Medical Articles in Spanish : Integration of textual, lexical, discursive and syntactic
criteria. Actes de Crossing Barriers in Text Summarization Research. RANLP, Borovets.
(da Cunha et Wanner, 2006) I. da Cunha et L. Wanner, 2006. Resumen automático de artí-
culos médicos en castellano : integración de técnicas de análisis textual, léxico, discursivo y
sintáctico-comunicativo. Actes de VII CLG. Barcelona.
(da Cunha Iria et al., 2007) da Cunha Iria, S. Fernandez, P. Velázquez-Morales, J. Vivaldi, E. San-
Juan, et J. M. Torres-Moreno, 2007. A new hybrid summarizer based on Vector Space model,
Statistical Physics and Linguistics. Actes de MICAI’07, 11 pages.
(Daelemans et al., 2004) W. Daelemans, J. Zavrel, K. van der Sloot, et A. van den Bosch, 2004.
Timbl : Tilburg memory based learner, version 5.1, reference guide. Rapport technique, ILK
Research Group Technical Report Series.
(El-Bèze et al., 2005) M. El-Bèze, J.-M. Torres-Moreno, et F. Béchet, 2005. Peut-on rendre auto-
matiquement à César ce qui lui appartient ? Application au jeu du Chirand-Mitterrac. Actes
de TALN 2005/DEFT’05, Volume 2, 125–134.
(El-Bèze et al., 2007) M. El-Bèze, J. Torres-Moreno, et F. Béchet, 2007. Un duel probabiliste pour
départager deux Présidents. RNTI Défi fouille de textes : reconnaissance automatique des auteurs
de discours - Campagne DEFT’05 (TALN’05) E10, 148 pages.
156
Bibliographie
(Fan et al., 2005) R.-E. Fan, P.-H. Chen, et C.-J. Lin, 2005. Towards a Hybrid Abstract Generation
System. Actes de Working set selection using the second order information for training SVM, 1889–
1918.
(Favre et al., 2006) B. Favre, F. Béchet, P. Bellot, F. Boudin, M. El-Bèze, L. Gillard, G. Lapalme,
et J.-M. Torres-Moreno, 2006. The LIA-Thales summarization system at DUC-2006. Actes de
DUC’06 Workshop. http ://duc.nist.gov.
(Fred et Jain, 2003) A. Fred et A. Jain, 2003. Robust data clustering. Actes de IEEE Conference
on Computer Vision and Pattern Recognition, Volume II, 128–133.
(Freund et Schapire, 1996) Y. Freund et R. E. Schapire, 1996. Experiments with a new boosting
algorithm. Actes de Thirteenth International Conference on Machine Learning, 148–156.
(Gardner, 1987) E. Gardner, 1987. Maximum Storage Capacity in Neural Networks. Europhy-
sics Letters 4(4), 481–485.
(Gillard et al., 2006) L. Gillard, L. Sitbon, E. Blaudez, P. Bellot, et M. El-Bèze, 2006. The LIA at
QA@CLEF-2006. Actes de CLEF’06 Workshop, Alicante, 9 pages.
(Gordon, 1996) M. Gordon, 1996. A convergence theorem for incremental learning with real-
valuedinputs. IEEE ICNN’96 1, 381–386.
(Gordon et Grempel, 1995) M. Gordon et D. Grempel, 1995. Optimal learning with a tempera-
ture dependent algorithm. Europhysics Letters 29(3), 257–262.
(Gorman et al., 1988) P. Gorman et al., 1988. Analysis of hidden units in a layered network
trained to classify sonar targets. Neural Networks 1(1), 75–89.
157
Bibliographie
(Grilheres et al., 2004) B. Grilheres, S. Brunessaux, et P. Leray, 2004. Combining Classifiers for
Harmful Document Filtering. Actes de RIAO’04, Avignon, 173–185.
(Hertz et al., 1991) J. Hertz, A. Krogh, et G. Palmer, 1991. Introduction to the theorie of Neural
Computation. Redwood City, CA : Addison Wesley.
(Hofmann, 1999) T. Hofmann, 1999. Probabilistic latent semantic analysis. Actes de 2nd ACM
Conference on Research and Development in Information Retrieval, 50–57.
(Hopfield, 1982) J. Hopfield, 1982. Neural networks and physical systems with emergent col-
lective computational abilities. National Academy of Sciences of the USA 9, 2554–2558.
(Hovy et al., 2005) E. Hovy, C. Lin, et L. Zhou, 2005. Evaluating DUC 2005 using Basic Ele-
ments. Actes de DUC’05 (HLT/EMNLP).
(Hovy et al., 2006) E. Hovy, C. Lin, L. Zhou, et J. Fukumoto, 2006. Automated Summarization
Evaluation with Basic Elements. Actes de 5th Conference LREC.
(Illouz et al., 2000) G. Illouz, B. Habert, S. Fleury, H. Folch, S. Heiden, P. Lafon, et S. Prévost,
2000. Profilage de textes : cadre de travail et expérience. Actes de JADT 2000, Lausanne,
163–170.
(Jake D. Brutlag, 2000) C. M. Jake D. Brutlag, 2000. Challenges of the email domain for text
classification. Actes de 17th International Conference on Machine Learning, San Francisco, CA,
USA, 103–110.
(Jalam et Chauchat, 2002) R. Jalam et J.-H. Chauchat, 2002. Pourquoi les N-grammes per-
mettent de classer des textes ? Recherche de mots-clefs pertinents à l’aide des N-grammes
caractéristiques. Actes de JADT 2002, St-Malo, France, 13–15.
(Joachims, 1998) T. Joachims, 1998. Text categorization with support vector machines : Lear-
ning with many relevant features. Actes de 10th ECML, Chemnitz, 137–142.
158
Bibliographie
(Joachims, 1999) T. Joachims, 1999. Transductive inference for text classification using support
vector machines. Actes de 16th ICML, San Francisco, 200–209.
(Katz, 1987) S. M. Katz, 1987. Estimation of probabilities from sparse data for the language
model component of a speech recognizer. IEEE Transactions on Acoustics, Speech and Signal
Processing 35, 400–401.
(Kessler et al., 2007) R. Kessler, J.-M. Torres-Moreno, et M. El-Bèze, 2007. E-gen : Automatic job
offer processing system for human ressources. Actes de MICAI, 11 pages.
(Kim et Park, 1995) J. Kim et S. Park, 1995. The geometrical learning of binary neural networks.
Neural Networks, IEEE Transactions on 6(1), 237–247.
(Kosko, 1988) B. Kosko, 1988. Bidirectional associative memories. IEEE Transactions Systems
Man, Cybernetics 18, 49–60.
(Kosseim et al., 2001) L. Kosseim, S. Beauregard, et G. Lapalme, 2001. Using information ex-
traction and natural language generation to answer E-mail. LNCS 1959, 152–163.
(Kosseim et Lapalme, 2001) L. Kosseim et G. Lapalme, 2001. Critères de sélection d’une ap-
proche pour le suivi automatique du courriel. Actes de 8e TALN, 357–371.
(Kuhn et De Mori, 1995) R. Kuhn et R. De Mori, 1995. The application of semantic classification
trees to natural language understanding. IEEE Transactions on Pattern Analysis and Machine
Intelligence 17(5), 449–460.
(Kupiec et al., 1995) J. Kupiec, J. Pedersen, et F. Chen, 1995. A trainable document summarizer.
Actes de 18th ACM SIGIR, 68–73. ACM Press, New York.
159
Bibliographie
(Labbé, 1990) D. Labbé, 1990. Le vocabulaire de François Mitterrand. Paris : Presses de la Fonda-
tion Nationale des Sciences Politiques.
(Land et Doig, 1960) A. Land et A. Doig, 1960. An Automatic Method of Solving Discrete
Programming Problems. Econometrica 28, 497–520.
(Lebart, 2004) L. Lebart, 2004. Validité des visualisations de données textuelles. Actes de
JADT’04, France, 708–715.
(Lin et Hovy, 1997) C. Lin et E. Hovy, 1997. Identifying Topics by Position. Actes de ACL
Applied Natural Language Processing Conference, 283–290. Washington.
(Lin, 2004) C.-Y. Lin, 2004. ROUGE : A Package for Automatic Evaluation of Summaries. Dans
S. S. Marie-Francine Moens (Ed.), Text Summarization Branches Out : Proceedings of the ACL-04
Workshop, Barcelona, Spain, 74–81.
(Liu et Yu, 2005) S. Liu et C. Yu, 2005. University of Illinois Chicago at TREC 2005. Actes de
Text Retrieval Conference (TREC 2005), Gaithersburg, Maryland, USA, 7 pages.
(Luhn, 1958) H. Luhn, 1958. The Automatic Creation of Literature Abstracts. IBM Journal of
Research and Development 2(2), 159–165.
(Mani, 2001) I. Mani, 2001. Automatic Summarization. John Benjamins Publishing Co.
(Mani et Bloedorn, 1998) I. Mani et E. Bloedorn, 1998. Machine learning of generic and user-
focused summarization. Actes de AAAI’98/IAAI’98, Menlo Park, 820–826.
(Mani et Mayburi, 1999) I. Mani et M. Mayburi, 1999. Advances in automatic text summarization.
The MIT Press, U.S.A.
(Mani et Wilson, 2000) I. Mani et G. Wilson, 2000. Robust temporal processing of news. Actes
de 38th Association for Computational Linguistics, Morristown, NJ, USA, 69–76.
(Marcu, 1998) D. Marcu, 1998. The rhetorical parsing, summarization, and generation of natural
language texts. Thèse de Doctorat, Computer Science, U. of Toronto.
(Marcu, 2000) D. Marcu, 2000. The Theory and Practice of Discourse Parsing Summarization.
Institute of Technology, Massachusetts.
(Martin et al., 1987) W. Martin, K. Churh, et R. Patil, 1987. Preliminary analysis of a Breadth-First
Parsing Algorithm : Theoretial and Experimental Results. Springer Verlag.
160
Bibliographie
(Martinez et Estève, 1992) D. Martinez et D. Estève, 1992. The Offset algorithm : building and
learning method for multilayer neural networks. Europhysics Letters 18(2), 95–100.
(Mel’cuk, 1988) I. Mel’cuk, 1988. Dependency Syntax : Theory and Practice. Albany : State Uni-
versity Press of New York.
(Mel’cuk, 2001) I. Mel’cuk, 2001. Communicative Organization in Natural Language. The semantic-
communicative structure of sentences. John Benjamins, Amsterdam.
(Meunier et al., 1999) J.-G. Meunier, L. Remaki, et D. Forest, 1999. Use of classifiers in computer
assisted reading and analysis of text (carat). Actes de CISST’99, Las Vegas.
(Miller et al., 2000) E. Miller, D. Shen, J. Liu, et C. Nicholas, 2000. Performance and Scalability of
a Large-Scale N-gram Based Information Retrieval System. Journal of Digital Information 1(5),
http ://jodi.tamu.edu/Articles/v01/i05/Miller/.
(Morin et al., 2004) E. Morin, M. Leclère, et F. Trichet, 2004. The semantic web in e-recruitment
(2004). Actes de ESWS’2004, Greece.
(Morris et al., 1999) A. Morris, G. Kasper, et D. Adams, 1999. The effects and limitations of
automated text condensing on reading comprehension performance. Actes de Advances in
automatic text summarization, 305–323. The MIT Press, USA.
(Namer, 2000) F. Namer, 2000. Un analyseur flexionnel du français à base de règles. TAL 41(2),
247–523.
(Newman et al., 2004) E. Newman, W. Doran, N. Stokes, J. Carthy, et J. Dunnion, 2004. Compa-
ring redundancy removal techniques for multi-document summarisation. Actes de STAIRS,
223–228.
(Ono et al., 1994) K. Ono, K. Sumita, et S. Miike, 1994. Abstract generation based on rhetorical
structure extraction. Actes de 15th ICCL, 344–348. Kyoto.
(Paice, 1990a) C. Paice, 1990a. Constructing literature abstracts by computer : techniques and
prospects. Information Processing and Management 26(1), 171–186.
(Paice, 1990b) C.-D. Paice, 1990b. Another stemmer. ACM SIGIR Forum 24(3), 56–61.
(Pardo et al., 2004) T. Pardo, M. Nunes, et M. Rino, 2004. DiZer : An Automatic Discourse
Analyzer for Brazilian Portuguese. Actes de SBIA2004, 224–234. São Luís.
161
Bibliographie
(Perantonis et Virvilis, 1999) S. Perantonis et V. Virvilis, 1999. Input Feature Extraction for
Multilayered Perceptrons Using Supervised Principal Component Analysis. Neural Proces-
sing Letters 10(3), 243–252.
(Peretto, 1992) P. Peretto, 1992. An Introduction to the Modeling of Neural Networks. Cambridge
University Press.
(Porter, 1980) M. Porter, 1980. An algorithm for suffix stripping. Program 14(3), 130–137.
(Quinlan, 1986) J. Quinlan, 1986. Induction of decision trees. Machine Learning 1(1), 81–106.
(Quinlan, 1993) J. Quinlan, 1993. C4. 5 : Programs for Machine Learning. Morgan Kaufmann.
(Radev et al., 2002) D. Radev, A. Winkel, et M. Topper, 2002. Multi Document Centroid-based
Text Summarization. Actes de ACL 2002.
(Raffin et Gordon, 1995) B. Raffin et M. Gordon, 1995. Learning and generalization with Mini-
merror, a temperature-dependent learning algorithm. Neural Computation 7(6), 1206–24.
(Rafter et al., 2000a) R. Rafter, K. Bradley, et B. Smyt, 2000a. Automated Collaborative Filtering
Applications for Online Recruitment Services. Actes de LNCS, 363–368.
(Rafter et Smyth, 2001) R. Rafter et B. Smyth, 2001. Passive Profiling from Server Logs in an
Online Recruitment Environment. Actes de IJCAI-ITWP’01), USA, 35–41.
(Rafter et al., 2000b) R. Rafter, B. Smyth, et K. Bradley, 2000b. Inferring Relevance Feedback
from Server Logs : A Case Study in Online Recruitment.
(Ray et al., 1997) E. J. Ray, R. Seltzer, et D. S. Ray, 1997. The AltaVista Search Revolution. Osborne-
McGraw Hill.
(Rigouste et al., 2005) L. Rigouste, C. Olivier, et Y. François, 2005. Modèle de mélange multi-
thématique pour la fouille de textes. Actes de TALN’05/DEFT’05, Volume 2, 193–202.
(Sahami, 1999) M. Sahami, 1999. Using Machine Learning to Improve Information Access. Thèse
de Doctorat, Computer Science Department, Stanford University.
(Salton, 1971) G. Salton, 1971. The SMART Retrieval System - Experiments un Automatic Document
Processing. Englewood Cliffs.
(Salton, 1989) G. Salton, 1989. Automatic text processing : the transformation, analysis, and retrieval
of information by computer. Addison-Wesley Pub (Sd), Boston, MA, USA.
(Salton et McGill, 1983) G. Salton et M. McGill, 1983. Introduction to modern information retrieval.
Computer Science Series, McGraw Hill Publishing Company.
162
Bibliographie
(Savoy et Abdou, 2006) J. Savoy et S. Abdou, 2006. UniNE at CLEF 2006 : Experiments with
Monolingual, Bilingual, Domain-Specific and Robust Retrieval. Actes de CLEF’06.
(Schmid, 1994) H. Schmid, 1994. Probabilistic Part-of-speech Tagging Using Decision Trees.
Actes de International Conference on New Methods in Language Processing.
(Seffah et Meunier, 1995) A. Seffah et J.-G. Meunier, 1995. ALADIN : Un atelier génie logiciel
orienté objets pour l’analyse cognitive de textes. Actes de JADT’95, Volume 2, 105–112.
(Shukla, 1997) P. Shukla, 1997. Response of the Hopfield-Little model in an applied field.
Physical Review E 56(2), 2265–2268.
(Siegel et Castellan, 1988) S. Siegel et N. Castellan, 1988. Nonparametric statistics for the behavio-
ral sciences. McGraw Hill.
(Silber et McCoy, 2000) H. G. Silber et K. F. McCoy, 2000. Efficient text summarization using
lexical chains. Actes de Intelligent User Interfaces, 252–255.
(Sima’an, 2003) K. Sima’an, 2003. Empirical validity and technological viability : Probabilistic
models of natural language processing. Actes de Linguistic Corpora and Logic Based Grammar
Formalisms, CoLogNET Area 6. R. Bernardi and M. Moortgat.
(Sitbon et Bellot, 2005) L. Sitbon et P. Bellot, 2005. Segmentation thématique par chaînes lexi-
cales pondérées. Actes de TALN 2005, Volume 1, 505–510.
(Soboro, 2004) I. Soboro, 2004. Overview of the TREC 2004 Novelty Track. Dans E. M. Voorhees
et L. P. Buckland (Eds.), TREC’04, USA. NIST Special Publication : SP.
(Spriet et al., 1996) T. Spriet, F. Béchet, M. El-Bèze, C. D. Loupy, et L. Khouri, 22-24 mai, 1996.
Traitement automatique des mots inconnus. Actes de TALN 96, Marseille, France, 170–179.
(Spriet et El-Bèze, 1998) T. Spriet et M. El-Bèze, 1998. Introduction of Rules into a Stochastic
Approach for Language Modelling. Computational Models of Speech Pattern Processing 169,
350–355.
(Stairmand, 1996) M. Stairmand, 1996. A Computational Analysis of Lexical Cohesion with Ap-
plications in Information Retrieval. Thèse de Doctorat, Department of Language Engineering,
UMIST Computational Linguistics Laboratory.
(Swan et Allan, 2000) R. Swan et J. Allan, 2000. Automatic generation of overview timelines.
Actes de 23rd ACM SIGIR conference, 49–56. ACM Press New York, NY, USA.
(Teufel et Moens, 2002) S. Teufel et M. Moens, 2002. Summarizing Scientific Articles - Experi-
ments with Relevance and Rhetorical Status. Computational Linguistics 28(4), 409–445.
163
Bibliographie
(Torres Moreno et Gordon, 1998a) J. Torres Moreno et M. Gordon, 1998a. Efficient adaptive
learning for classification tasks with binary units. Neural Computation 10(4), 1007–1030.
(Torres-Moreno et al., 2002) J.-M. Torres-Moreno, J. Aguilar, et M. Gordon, 2002. Finding the
number minimum of errors in N-dimensional parity problem with a linear perceptron. Neu-
ral Processing Letters 1, 201–210.
(Torres Moreno et Gordon, 1995) J.-M. Torres Moreno et M. Gordon, 1995. An evolutive ar-
chitecture coupled with optimal perceptron learning. Dans M. Verleysen (Ed.), ESANN,
Brussels, 365–370.
(Torres Moreno, Juan-Manuel, 1998) Torres Moreno, Juan-Manuel, 1998. Apprentissage et gé-
néralisation par des réseaux de neurones : étude de nouveaux algorithmes constructifs. Thèse de
Doctorat, INPG, Grenoble, France.
(Vapnik, 1982) V. N. Vapnik, 1982. Estimation of Dependences Based on Empirical Data. New
York, USA : Springer-Verlag Inc.
(Vapnik, 1995) V. N. Vapnik, 1995. The Nature of Statistical Learning Theory. New York, USA :
Springer-Verlag Inc.
(Vinot et al., 2003) R. Vinot, N. Grabar, et M. Valette, 2003. Application d’algorithmes de clas-
sification automatique pour la détection des contenus racistes sur l’internet. Actes de TALN,
France, 275–284.
(Viterbi, 1967) A. J. Viterbi, 1967. Error bounds for convolutional codes and an asymptotically
optimal decoding algorithm. IEEE Trans. on Information Proc. 2(13), 260–269.
(Vivaldi, 2001) J. Vivaldi, 2001. Extracción de candidatos a término mediante combinación de estra-
tegias heterogéneas. Thèse de Doctorat, UPC, Barcelona.
164
Bibliographie
(Vivaldi et Rodríguez, 2002) J. Vivaldi et H. Rodríguez, 2002. Medical term extraction using
the EWN ontology. Actes de Terminology and Knowledge Eng., 137–142. Nancy.
(Vossen, 1998) P. Vossen, 1998. EuroWordNet : A Multilingual Database with Lexical Semantic
Networks. Kluwer Academic publishers.
(Wilson et al., 2005) T. Wilson, J. Wiebe, et P. Hoffmann, 2005. Recognizing contextual polarity
in phrase-level sentiment analysis. Actes de EMNLP, Vancouver, 347–354.
165