30/12/2010
Fouille de Données
Textuelles
Dr. Rim Faiz
[Link]@[Link]
Contexte
z Quantité de documents électroniques en
croissance permanente
permanente.
z Exploration et récupération des connaissances
manuellement extrêmement ardues ou presque
impossibles.
z Utilisation de la puissance de l’outil informatique
pour en extraire les connaissances.
1
30/12/2010
«Data Mining» et «Text Mining»
z «Data Mining» est en général utilisée quand on travaille sur
d ddonnées
des é structurées
é dans
d des
d bases
b relationnelles.
l i ll
z «Text Mining» lorsqu’il s’agit de données textuelles
(textual data).
z «Text Mining» est ll’extraction
extraction dd’information
information utile à partir
des formes non manifestés (hidden patterns) dans des
grands corpus de textes.
(Feldman et al. 1998)
3
Fouille de données textuelles (1)
z «Text Mining» : domaine de recherche qui essaye de résoudre le
pproblème de la surabondance d’information textuelle
z Utilisant des techniques de :
«data mining», «machine learning», «information retrieval»,
«natural-language understanding», «case-based reasoning»,
«statistics» and «knowledge management»
«statistics»,
z But : aider les personnes à gagner de la connaissance à partir
de grandes quantités de textes semi-structurés ou non-structurés
4
2
30/12/2010
Fouille de données textuelles (2)
La ffouille
L ill de
d données
d é textuelles
ll consiste
i en
l'analyse d'un volume important de documents
textuels pour fournir à l'utilisateur une vision
synthétique et interprétable de leur contenu.
Objectifs initiaux de la fouille de textes
z Objectifs
z Traduction automatique de textes.
z Dialogue homme machine.
z Inaccessibles a court terme
z Implique de comprendre les textes en profondeur.
z Nécessiterait d'avoir
d avoir une bonne connaissance du
monde extérieur.
z Même les humains ne sont souvent pas
d'accord sur l'interprétation d'un texte.
6
3
30/12/2010
Objectifs actuels de la fouille de textes
z Objectifs
z Requêtes sur de grandes masses de textes.
z Catégorisation automatique de textes.
z Accessibles et effectifs
z Des objectifs beaucoup plus raisonnables et liés
aux besoins des entreprises et de leurs clients.
Langage naturel : définition et exemple
z Définition
z Les langages naturels sont utilisés par les
humains par opposition aux langages artificiels
compris par les machines.
z Exemple
z Langages naturels : français, anglais, espagnol,
etc.
z Langages artificiels : langages de programmation,
de modélisation, mathématique, etc.
4
30/12/2010
Complexité du langage naturel
z Cause
z Principale difficulté : l'ambiguïté du langage naturel
naturel.
z La cause de cette ambiguïté vient de l'économie du
langage qui est faite lors de son utilisation.
z Exemple
Les fils tapissent la pièce. Trop de PCs s'y trouvent.
z Polysémie : fils,
fils tapissent,
tapissent pièce.
pièce Pièce de monnaie ou de
maison ?
z Abréviation PCs signifie Personal Computer.
z Référence : «y» réfère à la pièce.
Principe de la fouille de textes
z Les textes sont traités à l'aide de ressources
par des modules inclus dans des chaînes de
traitement pour une tâche ou application
donnée.
10
5
30/12/2010
1. Eléments des textes traités
z Présentation
z Les textes traités sont composés d’éléments que
l'on extrait.
z Les éléments sont présentés par niveau
d'imbrication.
z Un élément de niveau supérieur utilise les
élé
élémentst dde niveaux
i iinférieurs.
fé i
z Reprend la structure du langage naturel.
11
Mot
z Définitions
1. Suite de symboles différents d'une ponctuation séparés
par des ponctuations.
2. Unité minimale de signification appartenant au lexique
appelé lexème.
z Exemple
z Le mot porte dans la phrase : Ceci est une «porte».
z Utilisation
z Le découpage en mot est une première étape nécessaire
a tout traitement ultérieur.
12
6
30/12/2010
Etiquette
z Définition
z Annotation d'un mot qui peut être grammaticale ou
sémantique.
z Exemple
z Nom, Verbe pour un étiquetage grammatical ou Lieu, Date
pour une extraction d'entités nommées.
z Utilisation
z Permet d’étiqueter les mots d'un texte pour trouver des
relations entre eux, extraire des entités nommées, des
termes,
z etc.
13
Relation
z Définition
z Annotation d'une relation entre deux ou plusieurs
mots qui peut être grammaticale ou sémantique.
z Exemple
z sujet-verbe pour une relation grammaticale ou
partie-de, part-of, pour un étiquetage sémantique
utilisable dans une ontologie.
g
z Utilisation
z A partir des étiquettes des mots trouve des
relations entre eux.
14
7
30/12/2010
Entité Nommée
z Définition
z Entité nommée impliquée dans un événement
ou un processus, qui n'est pas commune par
opposition aux noms communs.
z Exemple
z Personne, groupe, lieu, événement, marque.
z Utilisation
z Utilisé dans la plupart des systèmes de fouille
de textes, notamment question réponse.
15
Terme
z Définition
z Expression possédant un sens unique pour un
domaine particulier.
z Exemple
z Pièce dans le domaine monétaire.
z Utilisation
z Peut être utilisé pour catégoriser des textes ou
effectuer une indexation.
16
8
30/12/2010
2. Ressources de traitement
z Présentation
z Les textes sont traités à l'aide de ressources.
z Elaboration manuelle ou automatique à l'aide de
techniques d'apprentissage.
z Application des ressources : locale (mot courant)
ou contextuelle (mots courants et adjacents).
17
Corpus de textes
z Définition
z Ensemble de textes homogènes.
z Exemple
z Ensemble de textes de lois composées d'articles.
z Constitution
z Numérisation regroupement,
Numérisation, regroupement tri
tri, normalisation.
normalisation
18
9
30/12/2010
Lexique de mots
z Définition
z Liste de mots associés à une ou plusieurs
catégories.
z Exemple
z Liste de mots avec leurs étiquettes grammaticales :
Nom, Adjectif, Verbe, etc.
z Constitution
z Utilisation de dictionnaires et de corpus étiquetés.
19
Ensemble de règles
z Définition
z P
Pour l’é
l’étiquetage,
i lles relations
l i syntaxiques
i entre mots.
z Exemple
z Non contextuelle : mot terminé par un s ⇒ étiquette
pluriel.
z Contextuelle : nom suivant un nombre autre que «un»
⇒ étiquette pluriel
pluriel.
z Constitution
z Apprentissage à partir de corpus étiquetés
manuellement.
20
10
30/12/2010
Ontologie de concepts
z Définition
z Ensemble de mots et/ou concepts et de relations
entre eux.
z Exemple
z Salon partie-de Maison.
z Constitution
z Semi-automatique à l'aide d'une terminologie,
d'un classement manuel et d'induction.
21
3. Chaîne de traitement
22
11
30/12/2010
Processus de la Fouille de textes
z Pré-traitements de la collection de documents
z (
(exp. catégorisation
é i i des d textes ou extraction
i ded termes))
z Stockage et Indexation des documents
z Analyse des représentations intermédiaires
z (via exp. analyse de distribution, classification automatique
(clustering), analyse de tendances, découverte de règles
d’association)
z Visualisation des résultats.
23
Pré-traitements du corpus : nettoyage
z Le nettoyage consiste à identifier et nettoyer le bruit.
z L'exploitation des corpus spécialisés au format HTML
et/ou XML, demande une phase de nettoyage importante
afin d'enlever les informations non pertinentes du corpus
(exemple: les balises).
z Cependant les balises XML contiennent des informations
sémantiques lesquelles, si elles sont exploitées, peuvent
aider à la construction d'ontologies spécialisées.
24
12
30/12/2010
Exemples de règles de nettoyage
z Carboxy terminal C-terminal,
Carboxy-terminal, C terminal
COOH-terminal, C02H-terminal Æ C-term
z nombreux noms pour 1e même gène Æ nom
générique
Exemple : ISE1, LIS1, SED6 Î ERG6
25
Pré-traitement du corpus : étiquetage
Etiquetage
grammatical
Corpus nettoyé Corpus nettoyé
et étiqueté
The modulation The/DT modulation/NN
of the of/IN the/DT
biological Biological/JJ
activities of activities/NNS of/IN
mitochondrial/JJ
mitochondrial Etiqueteur de Brill histone/NNP
histone
Abf2-protein … Abf2-protein/NNP …
26
13
30/12/2010
Démarches suivies par le Text Mining
Outils d’ingénierie du document
Collecte de documents
- Formalisation des données textuelles
Documents du domaine
- Etiquetage des textes (date, auteur, ...)
Outils de fouille Traitement linguistique
- Extraction de
connaissances (des règles Outils d’ingénierie du langage
d’association, calcul
statistique) Extraction de - Extraction des termes
connaissances- Filtrage
g des termes
- Indexation des documents
- Création d’une taxonomie
- Regroupement des documents par
les termes qui leur sont associés
Outil de visualisation
et navigation Interprétation
Explorer et analyser les
27
résultats
Etapes de la Fouille de textes
1. Sélection du corpus (data selection)
2 Extraction
2. E t ti terminologique
t i l i
z extraction des termes
z filtrage des termes extraits
3. Classification
z automatique
q ((clustering)
g)
z taxonomie (classement)
4. Visualisation des données : cartographie (graphes, ...)
5. Interprétation des résultats
28
14
30/12/2010
Extraction terminologique
z Extraction des termes
z Filtrage des termes extraits
Extraction de termes
z Fonction : extraction et tri automatiques de
candidats termes
termes.
z Méthodes d’extraction
z statistiques
z segments répétés
z morpho-syntaxiques
z repérage de patrons
z analyse syntaxique partielle
z Critères de tris numériques
z fréquence d’occurrences dans le corpus
30
15
30/12/2010
Lexter, un extracteur de candidats termes
z Explore un corpus étiqueté syntaxiquement
z Analyse robuste de textes techniques ou scientifiques
z Extrait des syntagmes nominaux complexes
z Recherche à l’aide de patrons en négatif (recherche et
rejette les séparateurs de candidats termes)
z Points forts :
z résolution des associations ambiguës d’adjectifs et de
prépositions (ou syntagmes prépositionnels) au sein
des groupes nominaux complexes.
31
Texte brut Lexter, un extracteur
de candidats termes
Etiquettage
syntaxique
Lexter, étape 1 : Découpage : Analyse de surface pour extraire
les Syntagmes Nominaux de Longueur Maximale (SNLM)
Texte étiqueté
système à mémoire de cas en anatomie pathologique
traits de signification pertinents des concepts sémantiques
Découpage
Lexter, étape 2, Parsing : analyse en profondeur pour
décomposer récursivement les SNLM
Syntagmes Nominaux
de Longueur Maximale
(SNLM) [ [ système à [ mémoire de cas ] ] en [ anatomie pathologique ] ]
[ [ [ traits de signification ] pertinents ] des [ concepts
Parsing
sémantiques ] ]
Réseau de
candidats termes
32
16
30/12/2010
Liste des candidats termes dont
«modèle conceptuel » est en
expansion
33
Classification
z Automatique (clustering)
z Taxonomie (classement)
17
30/12/2010
Classification conceptuelle
Moyens de
M d
classification transports
conceptuelle
bateaux voitures
Ensemble
de connaissances
Classification conceptuelle 35
Définitions 1
z Classification
z Action
A ti ded di
distribuer
t ib par classes,
l par catégories
té i
z Résultat de cette action
z Classe
z ensemble d’individus ou d’objets qui ont des caractères
communs
z Classer
z Di i
Diviser ett répartir
é ti en classes
l
z Classifier
z Répartir selon une classification
36
18
30/12/2010
Définitions 2
z Le terme classification est ambigu ; ne sépare pas
z l’action de création de classes ~= classer
z l’action d’affectation à une classe = classifier
z En anglais : un terme non ambigu
z A clustering = a cluster = un regroupement
z « A grouping of a number of similar things »
z To cluster
37
Classification / Clustering
Classification: Apprentissage supervisé :
Apprendre une méthode pour prédire la classe
d'un élément à partir d'éléments déjà classés
38
19
30/12/2010
Clustering
Apprentissage non supervisé
Trouver les classes naturelles
(implicites) pour rassembler des
données non étiquetées
39
Définitions 3
z Taxinomie, taxonomie
z Étude théorique des bases,
bases lois,
lois règle
règle, principes d’une
classification
z Classification des plantes, animaux, microbes, science
fondatrice de la biologie
z Livre : « L’analyse des données, La taxinomie »,
J.B. Benzécri, 1973, Dunod
z Taxinomie des syntagmes !!!
z Catégorisation (plus spécifique que classe)
z Classement par catégories, notamment en linguistique, en
psychologie sociale
40
20
30/12/2010
Classification supervisée :
classes des documents
z articles scientifiques à regrouper en paquets
homogènes
z thème général (mathématique, physique,
littérature …)
z date de publication, nom des auteurs
z Ceux qui traitent à la fois d’informatique et de
biologie
z Ceux qui se ressemblent
selon un certain critère
z Des critères précis aux critères vagues
41
Qui classe?
z Du travail de documentaliste, supervisée, qui
crée des classes de documents, avec des
critères humains, classes avec des étiquettes.
z Au travail automatique réalisé par une
machine, qui répartit des documents en
classes selon des critères logiques et/ou
mathématiques, à partir d'un classement initial.
42
21
30/12/2010
Création de classes de documents
z De manière supervisée :
z classes étiquetées préalablement (sports et
loisirs, art et culture…)
z classement par des humains (coûteux)
z Google : 20 000 évaluateurs volontaires ODP
(Open Directory Project)
43
Visualisation
des données
z Carthographie (graphes, ...)
22
30/12/2010
Visualisation des résultats de l’analyse Lexter
45
Au niveau inter-document
z Les opérations de «Text mining» ont pour objet la
distribution de concepts au niveau inter-document.
z But : découvrir les concepts et leurs rapports tels
qu’ils se trouvent dans la collection considérée comme
un tout.
46
23
30/12/2010
Relations conceptuelles
z Un instrument central de la fouille de données
textuelles est l’analyse des relations conceptuelles
(concept relationships)
z Une collection d’éléments séparés (documents)
z Chaque document représente un ensemble de concepts
(termes)
47
Analyse des relations conceptuelles
z L’analyse des relations conceptuelles cherche à découvrir
les rapports entre concepts, tels qu’ils peuvent être dégagés
de la totalité du corpus disponible
48
24
30/12/2010
Exemple
z Un nombre croissant de documents (articles
(articles, brevets) à
propos de la société Y et le produit Z peut indiquer un
changement d’orientation concernant les intérêts de la
firme
¾ L’information n’est pas fournie par un seul document isolé,
mais par l’ensemble de la collection
49
Veille Technologique assistée par la FT
z Le domaine de la veille technologique vise à :
z récolter, traiter, et analyser des informations
scientifiques et techniques utiles aux acteurs
économiques.
z L’idée est :
z d utiliser des techniques de fouille de textes pour
d’utiliser
automatiser le processus de traitement des données
issues de bases de textes scientifiques.
50
Fouille de Données Textuelles (Text Mining)
25
30/12/2010
Veille Technologique assistée par la FT
z Toutefois, la veille introduit une difficulté inhabituelle par
rapport aaux domaines d’application classiq
classiqueses des
techniques de FT:
z au lieu de rechercher de la connaissance fréquente cachée dans les
données, il faut rechercher de la connaissance inattendue.
z Exp. Système UnexpectedMiner dans lequel de nouvelles
mesures permettent d’estimer le caractère inattendu d’un
document. Le système est évalué sur une base de résumés
d’articles dans le domaine de l’apprentissage automatique.
51
Fouille de Données Textuelles (Text Mining)
Catégorisation de textes
Objectif : prédire la catégorie d'un document
( ti
(pertinent/
t/ non pertinent)
ti t)
z documents considérés comme des «sacs de mots»
z sélection des descripteurs (mots) pertinents pour la
prédiction
z apprentissage supervisé d'un modèle de prédiction
z n-grammes
n grammes [Jalam et Chauchat,
Cha chat 2002] [Damashek
[Damashek, 1995]
z Latent Semantic Analysis (LSA) [Landauer et al., 98]
[Dumais, 92]
z Support Vector Machines (SVM)
52
26
30/12/2010
Catégorisation de textes (exemple)
z Définition d'un filtre de Spam
z Classer en Spam ou non le courriel.
z Analyse des en-têtes et du corps des messages
z Règles établies manuellement avec pondération
par un réseau de neurone : SpamAssassin
z Utilisation
z Filtrage des courriels indésirables.
z Classement par auteur, par thèmes de textes.
53
Text Mining Solutions
54
27
30/12/2010
Normalisation
z Objectif : diminuer le bruit et améliorer la qualité du
processus global
l b l
z Unification des formats (ISO, : : :)
z Détection et correction des fautes d'orthographe
z Utilisation massive de patrons et de lexiques
Patrons de normalisation de dates :
mm/jj/aa ! jj/mm/aa
jj[-/ ]mm[-/ ]aa ! jj mois(mm) aa
z Suppression d'éléments tels que date, références
bibliographiques, …
55
Normalisation (suite)
z Application d'un «Tokenizer» pour découper le
textes en tokens
k ((mots et ponctuation)
i )
z Découpage en phrases du texte
z Application d'un lemmatiseur (masculin
singulier)
z Application d'un radicaliseur ((stemming)
g)
(suppression des préfixes et suffixes)
56
28