0% ont trouvé ce document utile (0 vote)
41 vues8 pages

Introduction au Text et Web Mining

resumé_al

Transféré par

damergi45
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
41 vues8 pages

Introduction au Text et Web Mining

resumé_al

Transféré par

damergi45
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1 : Text mining

- Data mining : processus d’extraction de connaissances, valides et potentiellement


exploitables dans les bases de données, à travers la mise en œuvre des techniques
statistiques et de Machine Learning
- Text mining : processus d’extraction connaissances inconnues, valides et potentiellement
exploitables dans les documents textuels, à travers la mise en œuvre de techniques
statistiques ou de Machine Learning
o Document = individu statistique
o Collections de documents = Corpus = Base d’apprentissage
- Documents non structurés : documents textes, sont sous forme brut
- Documents structurés : données sous forme de tableaux
o Attribut – valeurs
o Ligne = individus
o Colonne = attribut (descripteur)
- ORC : Optical Recognition Caracter ( reconnaissance de caractères à partir d’une image)
- CRISP : Méthodologie de travail la plus utilisée
- ACP : Réduire la dimensionnalité
- TALN : Traitement Automatique du Langage Naturel, en anglais NLP (Natural Langage
processing) : est un domaine multidisciplinaire impliquant la linguistique, l'informatique et
l'intelligence artificielle, qui vise à créer des outils de traitement de la langue naturelle pour
diverses applications
- Application du TM :
o Catégorisation de texte :
▪ apprentissage supervisé : exploiter une collection de documents
préalablement étiquetés
▪ construction d’un modèle prédictif
o Clustering de textes :
▪ Apprentissage non supervisé : partitionner les documents en groupes
homogènes
o Recherche d’informations ( information retrieval) :
▪ Utilisation des moteurs de recherche
o Extraction d’information :
▪ Chercher des champs préfinis dans un texte plus au moins rédigé en
langage naturel en s’appuyant sur l’analyse lexicale et morphosyntaxique
pour identifier les zones d’intérêts
o Résumé automatique
o Identification des tendances
o Analyse des liens
- BOW Bag Of Words :
o Transformation d’une collection de texte en un tableau de données
o Découpe du corpus (texte initial) en token
o Token : groupe de phrase, de mot de symboles
1. Repérer les mots (tokens) présents dans les documents
2. Constituer le dictionnaire
3. les mots deviennent des descripteurs (features, termes)
4. Associer l’absence ou la présence des mots à chaque document

1
- Inconvénient du BOW: ne tient pas compte de la répétition
- Solution :
o Fréquence des mots :

Loi de zipf Word cloud

o Transformer le BOW pour éliminer les mots les moins fréquents et les mots qui n’ont
- Construction de la matrice :
o Réduction de la dimensionnalité :
▪ Définir le dictionnaire de manière adhoc
▪ Nettoyage du texte
▪ Utilisation d’un correcteur orthographique
• Distance de Levenshtein : cout minimal pour aller de M à P
▪ Retrait des stop word : mots qui n’ont pas de sens
▪ Parsing : décomposition de la phrase
▪ Lemmatisation : réduire les différents formes (pluriel, feminin, conjugaison)
en une seule
▪ Stemming : réduire la longueur des mots
o Pondération :
▪ Pondération binaire : comptabiliser la présence de chaque terme dans le
document, sans se préoccuper du nombre d’occurrences
▪ Fréquences des termes : comptabiliser le nombre d’occurrence des termes
𝑵
• différentes normalisations : Tfidf(t,d,D)=𝒇t,d x log10
𝒏𝒕
• normalisation logarithmique : t𝒇(t,d)={0 si 𝒇t,d=0, sinon 1+log10𝒇t,d
𝒇𝒕,𝒅
• double normalisation 0.5 : t𝒇(t,d)=0.5+0.5
𝐦𝐚𝐱{𝒕′ €𝒅}𝒇𝒕′ ,𝒅
𝒇𝒕,𝒅
• normalisation simple : t𝒇(t,d)=
∑𝒕′ 𝒇𝒕′ ,𝒅
▪ Inverse document frequency IDF : mesure l’importance d’un terme dans un
𝑵
corpus : id𝒇(t,D)=log10
𝒏𝒕

2
o Mesurer les similarités :
▪ Les mesures de similarités sont sous-jacentes à de nombreuses méthodes :
visualisation, classification supervisée et non supervisée
▪ Caractérise des ressemblances entre les objets
▪ Les documents doivent être traduis en vecteurs de pondération ( feature
vector)
▪ Propriétés :
• Non négativité
• Symétrie
• Maximalité
• Normalisation
o N-Grammes :
▪ Sur les mots : une séquence de n termes adjacents que l’on extrait en tant
que descripteur d’un corpus.
▪ Sur les lettres : une séquence de n caractères consécutifs (contigus) que l’on
extrait en tant que descripteur d’un corpus.
▪ Entité nommé Named entity : des mots correspondant à des noms de
personnes, des noms d'organisations ou d'entreprises, des noms de lieux, des
quantités,des distances, des valeurs, ou des dates.
▪ Détection et reconnaissance :
• Sentence segmentation
• Entity detection
• Tokenization
• Tagging
• Relation detection

- Topic modeling: modèle probabiliste permettant de déterminer des sujets ou thèmes


abstraits dans un document.
o Latent Semantic Indexing (LSI) : une technique factorielle équivalente à l’ACP où les
variables ne sont ni réduites, ni centrées.
o Analyse factorielle de correspondance (AFC) : analyser et hiérarchiser les
informations contenues dans un tableau rectangulaire de données
o Latent Dirichlet allocation (LDA) : expliquer des ensembles d’observations, par le
moyen de groupes non observés, eux-mêmes définis par des similarités de
données.

3
Chapitre 2 : Web mining
- Web mining: c’est l’application des techniques du data mining pour l’extraction
d’informations pertinentes à partir des ressources disponibles dans le Web, une ressource
web peut être un document ou un service web

- User behaviour : Utiliser un ensemble de techniques du web mining pour la recherche de


motifs comportementaux des utilisateurs à partir d'un serveur Web
- Types d’analyses comportementales :
o E-commerce
o Jeux en ligne
o Comment les utilisateurs utilisent une application
o Grouper les utilisateurs
o Sécurité
- Process du web mining : 3 étapes
o Collecte des données sur l’utilisateur
o Utilisation de ces données à des fins de personnalisation
o Présentation à l’utilisateur d’un contenu ciblé
- Extraction de contenu web :
o Processus :
▪ Préparer le contenu
▪ Générer le vecteur de création
o Technique d’exploration :
▪ Classification
▪ Clustering
▪ Associations
- Web Content mining WCM :
o Numériser et exploiter des textes, des images et des graphiques d’une page web afin
de déterminer la pertinence du contenu de la requête de recherche
o Etude des liens hypertextes et la structure sémantique des pages web
- Web Content mining WCM – Image mining :
o Indexation : extraire une information synthétique des images afin de faciliter l'accès
à leur contenu
▪ Par le texte
▪ Par le contenu
• Extraction des caractéristiques : couleur / texture / forme
• Clustering : sélection des caractéristiques les plus pertinentes
• Segmentation : étiquetage des pixels de l’image

4
o Recherche des images :
▪ Schémas de requêtes pour la recherche d’images : 3 schémas
• Requête par attributs associées : les images son ajoutée en tant que
champs supplémentaires
• Requête par description : Stocker les descriptions des images
• Recherches basées sur le contenu : extraction de caractéristique +
indexation + récupération
▪ Classement des images en 3 niveaux :
• Niveau 1 : caractéristiques primitives ( couleur, texture, forme)
• Niveau 2 : caractéristiques dérivées
• Niveau 3 : attributs abstraits
o Application :
▪ Imagerie médicale
▪ Reconnaissance faciale
▪ Enquête criminelle
- Web structure mining WSM :
o Découverte de la connaissance à partir des hyperliens
o Utilisation du balayage de la toile des sites web
o Déterminer le nombre moyen de pages consultées par les internautes
- Web structure mining WSM : Hyperlink
o Objectif 1 : purement navigation
o Objectif 2 : pointer sur des pages en relation avec le même sujet que le lien initial
- Web structure mining WSM : Autres utilités
o Les pages susceptibles d’être attaquées
o Trouver les pages connexes
o Détecter les pages doubles
- Web structure mining WSM : Google’s PageRank
La valeur finale du PageRank représente la probabilité qu’un internaute aléatoire atteigne la
page.
- Web usage mining :
o Analyse comportementale à travers la navigation
o Mesurer l’audience et la performance d’un site web
- Data Vizualtisation :
o Transformation des données en diagrammes beaux et simples
o Mise en valeur de la tache analytique en misant sur la comparaison ou la causalité
o Outils :
▪ Tableau
▪ ZingChart
▪ GoogleChart
▪ [Link]

5
Chapitre 3 : Sentiment mining and sentiment analysis
- La fouille d’opinion :
o Savoir ce que pensent les gens est fondamental pour la prise de décision
o Les enquêtes d’opinion est une manière de collecter les opinions
o La fouille à partir des réseaux sociaux :
▪ Evaluation des produits
▪ Analyse de la popularité et des tendances
▪ Analyse du positionnement
▪ Identifier des leaders d’opinions
▪ Détecter des communautés
▪ Analyse des opinions
- Définition d’une opinion :

- Etapes pour identifier le quintuplé :

- Typologie des opinions :

6
- Analyse de sentiment :
o S’intéresse à l’orientation d’une opinion à une entité ou un aspect d’une entité
o On parle d’une polarité qui peut être positive, neutre, mixte ou négative
- Analyse de sentiment : Approche
o Utilisation d’un thésaurus de sentiments
▪ Des polarités sont associées à des phrases ou termes complètes
▪ La polarité d’un document peut être calculé à partir de la somme des
polarités des termes ou des phrases qui le compose
o Apprentissage statistique :
▪ Documents étiquetés (-1,0,1)
▪ BOW+ stemming peuvent servir à la catégorisation
▪ Utilisation souvent de la méthode de Naive Bayes ( modèle d’indépendance
conditionnelle)
- Analyse de sentiment : Variante de Naive Bayes:

- Analyse de sentiment : s’appuyer sur un lexique de sentiments :

- Objectivité Vs subjectivité :

7
- Une graduation plutôt qu’une polarité :

- Opinion spam détection :

Vous aimerez peut-être aussi