0% ont trouvé ce document utile (0 vote)

530 vues36 pages

Data Mining

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

530 vues36 pages

Data Mining

Transféré par

Sorelle Kana

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

INF 4097 : Fouille de données II

(DATAMINING)
Par N. TSOPZE
• Constat :
• De plus en plus de données
• L’accroissement des expertises et de la technicité :
• … font perdre l’approche globale
• … obligent à stocker de plus en plus de données pour les
besoins opérationnels de la gestion quotidienne
• Mais : « trop de données tue la donnée »
• De moins en moins de connaissance de nos clients
• Explosion du nombre de rapports et tableaux de bord
• Mais : perte du contact avec le client
Question??

«La nécessité est la mère de l’invention» Platon.

Analyser le passé pour prédire l’avenir

Demain commence aujourd’hui!!

Motivations

«La nécessité est la mère de l’invention» Platon.

• Extraction de la connaissance (utile et
inconnue) de gros volumes de données
stockées dans des bases ou des entrepôts de
données; « riche en données et pauvre en
connaissance »
• Aide à la décision;
• diverses applications : analyse du panier de la
ménagère, détection des fraudes, contrôle du
Programme
1. Introduction

2. Prétraitement

3. Règles d’association
4. Techniques de classification
1. Naive Bayes
2. K-NN
3. réseau de neurones
4. Arbres de décision
5. Random Forest
5. Clustering
1. K-mean,
2. DBSCAN
3. Clustering hiérarchique
4. Bi clustering
Travaux Pratiques avec R
Bibliographie
1. Jiawei Han, Micheline Kamber and Jian Pei.
Data Mining: Concepts and Techniques, A
volume in The Morgan Kaufmann Series in Data
Management Systems 3rd Edition 2012

2. Ian H. Witten,Eibe Frank. Data Mining: Practical

Machine Learning Tools and Techniques,
Second Edition, 2005
Motivations des entreprises
• Besoin des entreprises
 accéder à toutes les données de l’entreprise
 regrouper les informations disséminées dans les
bases
 analyser et prendre des décisions rapidement
(OLAP)

• Exemples d'applications concernées

 Bancaire : suivi des clients, gestion de portefeuilles
 mailing ciblés pour le marketing
• Le data mining est l’ensemble des algorithmes et méthodes
automatiques ou sémi-automatiques
• … destinés à l’exploration et l’analyse de grandes bases de données
informatiques
• … sans a priori
• … en vue de détecter des règles, des tendances inconnues ou
cachées, des structures particulières restituant de façon concise
l’essentiel de l’information utile
• … pour l’aide à la décision

• Fouille de données ---- « Forage » de données

• Selon le MIT, le DM est l’une des 10 technologies émergentes qui
changeront le monde au 21ème siècle
fouille de données – résultats
attendus
• Fouille descriptive:
 Résumé des données, cas extrême,
 Évolution des données
 Motifs fréquents, associations et corrélations
 Partition des données

• Fouille prédictive
 Classification : Concept ou description de classe –
caractérisation ou discrimination
Généralités

• Stockage des données dans différentes BD et

autres support
• Intégration des données provenant des
diverses sources en Dataware house.
• Observation du dataware house suivant
différents points (« angles ») pour la prise de
décision.
• Exemples: web, application bancaire,
supermarché, restaurant,…
Généralités

Besoins décisionnels

contrôle d’info. analyse ad-hoc, info. découverte de

détaillées et récentes, globalisées, prise de connaissance
rapports standardisés décisions « Data Mining »
« interrogation et « OLAP - EIS»
rapports »

données Data Warehouse fichiers du

opérationnelles logiciel DM
Datawarehouse

Ensemble de données historisées variant dans

le temps, organisé par sujets, consolidé dans
une base de données unique, géré dans un
environnement de stockage particulier,
aidant à la prise de décision dans l’entreprise.

Trois fonctions essentielles :

• collecte de données de bases existantes et
chargement
• Ce que l’on veut savoir :
• Avant :
• « combien de clients ont acheté tel produit pendant
telle période ? »

• Maintenant :
• « quel est leur profil ? »
• « quels autres produits les intéresseront ? »
• « quand seront-ils intéressés ? »
Interrogation OLAP
et rapports (EIS) Data Mining
Requête sur des Analyse, détection
données de détail de problèmes et
et peu consolidées opportunités

“Visualisation” “Analyse” “Connaissance et

prévision”

Combien de Quelle est l’évolution Quels clients

mouvements sur 5 ans du nombre clôtureront leur
chaque client a-t-il mensuel de mouve- compte au cours
effectué au cours ments pour chaque des 6 prochains
du dernier mois ? catégorie de clients ? mois ?
• Data mining ≠ Statistiques descriptives
• Profils clientèle = profils complexes
• Pas seulement oppositions « jeunes/séniors », «
citadins/ruraux », … (tâtonner sur stats)
• Mais des combinaisons plus complexes (difficiles à
découvrir par hazard)

• Le DM fait passer :
• d’analyses confirmatoires
• …. à des analyses exploratoires
• Data mining ≠ Statistiques descriptives
• Techniques de DM sont plus complexes que de simples
statistiques descriptives

• outils d’intelligence artificielle (réseaux de neurones, arbres de

décision, …)

• algorithmes sophistiqués (algorithmes génétiques, …)

• théorie de l’information (gain d’information, …)

• beaucoup d’analyse de données « traditionnelle »

• Analyse factorielle

• Classification
Modélisation multidimensionnelle
• Dimensions:
 Temps
 Géographie
 Produits
 Clients
 Canaux de ventes.....
• Indicateurs:
 Nombre d’unités vendues
 CA
Granularité

Exprimer le degré de finesse de l’analyse

Age

profession

Revenu

adresse
Prise en compte

• Un ensemble de données pertinentes : totalité

des données ou sélection d’une partie
• Le type de connaissance à extraire :
discrimination, caractérisation, association,…
• Les connaissances du domaine : guide la
recherche
• Les mesures d’intérêts et les seuils de ces
mesures
Eléments de statistique
Mesure de description des données
 Mesure de la tendance centrale
1. La moyenne : centre de la distribution
2. La médiane
3. Le mode

 Mesure de dispersion
1. Le rang
2. Le kième pourcent d’un ensemble de données
Etapes de la fouille

• Nettoyage de données (suppression de bruits

et des données inconsistantes)
• Intégration des données (combinaison de
plusieurs sources)
• Sélection des données (données pertinentes)
• Transformation des données
Etapes de la fouille

- Fouille proprement dite (application des

algorithmes de fouille)
- Evaluation (mesurer l’intérêt des
connaissances extraites)
- Représentation des connaissances
(visualisation et représentation)
Prétraitement

• Les données réelles tendent à être

incomplètes, bruitées ou inconsistantes. Le
nettoyage propose des méthodes pour
corriger ces erreurs.
• Opérations:
 Nettoyage de données
 Intégration des données
 Sélection des données
Nettoyage des données

• But: traiter les données manquantes et

supprimer les bruits.
• Données manquantes: absence de valeur
(donnée) pour un attribut décrivant un objet.
• Bruit: erreur aléatoire introduite dans la
mesure d’une donnée.
Traitement des données
manquantes
• Ignorer l’enregistrement : utilisé quand la
classe de l’enregistrement n’est pas connue et
le pourcentage des données manquantes est
négligeable.
• Ignorer les attributs présentant des valeurs
manquantes
Traitement des données
manquantes
Manuellement
Utiliser une constante globale pour remplacer (unknow
dans SQL)
Utiliser la moyenne générale
Utiliser la moyenne de l’attribut en ne considérant rien
que les enregistrements de sa classe.
Utiliser la valeur la plus fréquente.
Utiliser un modèle de régression pour estimer la valeur.
Traitement des données bruitées

• Le voisinage (Binning) : attribuer la valeur

correcte la plus proche. Par exemple
rapprocher à la moyenne, à un centile, à la
médiane, à la borne,…
• La régression : les valeurs suivent une certaine
fonction. Par exemple en régression linéaire,
on projette sur la droite de régression.
• Partitionnement : les valeurs sont dans un
espace, puis on affecte la donnée bruitée à
Intégration des données
Intégration : combiner des données de sources
multiples en un ensemble cohérent de données.
Sources : Bases de Données, les fichiers.
Problème : identification de l’entité.
1. comment savoir que deux attributs sont
équivalents?
2. comment savoir que deux valeurs sont
équivalentes?
Solution: utiliser une ontologie, ou faire appel à
Transformation des données

mettre les données dans une forme appropriée

pour la fouille.
• Suppression de bruit
• Agrégation / généralisation : mettre les
données à une granularité supérieure;
remplacer les concepts de bas niveau par les
concepts de niveau supérieur.
Transformation des données

Normalisation : ranger les données dans

l’intervalle -1 à 1 ou 0 à 1. Les techniques
sont :
 normalisation min-max(v)=(v-min) / (max-min).
 normalisation z-score(v)=(v-moyenne(xi))/écart-
type(xi).

La discrétisation : elle consiste à transformer les

données continues en données discrètes.
Binarisation : passer aux bianaires
Réduction du nombre de variables

• Présence de variables superflues

• Coût algorithmique de traitement

Sélection des variables (ou réduction

de dimension) pertinentes.
• Attributs fortement corrélés
• Attributs non pertinents
La réduction des données

• Avoir une représentation des données dans un

espace de dimension réduite sans perte
l’intégrité des données, la taille de données
réduites doit être plus faible que la taille des
données originale
• Permet de visualiser facilement les données.
Vocabulaire

• Attribut: propriété ou caractéristique utilisée

pour décrire un objet, un phénomène,…
• Exemple ou enregistrement ou instance:
description d’un objet, ensemble d’attributs
(chacun ayant pris une valeur) d’un objet
(pattern ou vecteur).
Vocabulaire

Domaine d’attribut: ensemble de valeurs

possibles que cet attribut peut prendre
Données: étiquetées si un attribut particulier a
des valeurs à prédire, non-étiquetées sinon.
Classe: étiquette d’un exemple.
Types de données

• Nominal ou symbolique ou catégorique

 Binaire
 Énuméré (nombre ou chaine de caractères) ou
ordonné

• Continue
 Entier
 Réel
 Chaines de caractères (nombre de valeurs infini)
Opérations de datamining

• Classification supervisée : problème de

décision (statistique), classification (en
anglais) Apprentissage + classement
• Classification non supervisée: classification
(statistique), clustering (en anglais)
Partitionnement
• Régression: prédiction d’une valeur continue
• Règle d’association, motifs fréquents,…

Vous aimerez peut-être aussi

Introduction au Data Mining et Data Warehousing
100% (2)
Introduction au Data Mining et Data Warehousing
28 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Data Mining Projet-M
Pas encore d'évaluation
Data Mining Projet-M
12 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Examen - DM - DRC - SP - 2021-2022 Corrigé
Pas encore d'évaluation
Examen - DM - DRC - SP - 2021-2022 Corrigé
5 pages
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
Pas encore d'évaluation
Chapitre2 Exploration, Nettoyage Et Préparation Des Données
56 pages
Exam Fouille Extraction Datamining Donnees 2017 2018
100% (1)
Exam Fouille Extraction Datamining Donnees 2017 2018
2 pages
DataMining Part3 Classification PDF
Pas encore d'évaluation
DataMining Part3 Classification PDF
64 pages
Cours Machine Learning
Pas encore d'évaluation
Cours Machine Learning
204 pages
Classification par arbres de décision
Pas encore d'évaluation
Classification par arbres de décision
30 pages
CoursWB CRISPDM
100% (1)
CoursWB CRISPDM
13 pages
Introduction au Machine Learning
Pas encore d'évaluation
Introduction au Machine Learning
7 pages
Travaux Dirigés N°1: Découverte Des Règles D'association
Pas encore d'évaluation
Travaux Dirigés N°1: Découverte Des Règles D'association
2 pages
Correction Examen DataMining 2014 II Commentaire
Pas encore d'évaluation
Correction Examen DataMining 2014 II Commentaire
3 pages
Datamining : Théorie et Pratique EFS S1
Pas encore d'évaluation
Datamining : Théorie et Pratique EFS S1
6 pages
Introduction au K Nearest Neighbours (KNN)
Pas encore d'évaluation
Introduction au K Nearest Neighbours (KNN)
9 pages
Corrige Exercices Machine Learning
Pas encore d'évaluation
Corrige Exercices Machine Learning
2 pages
Introduction à l'algorithme k-NN
Pas encore d'évaluation
Introduction à l'algorithme k-NN
22 pages
TP Regression
Pas encore d'évaluation
TP Regression
5 pages
Cours Data Mining - Seance 1
Pas encore d'évaluation
Cours Data Mining - Seance 1
38 pages
Règles D'association
Pas encore d'évaluation
Règles D'association
35 pages
Data Mining Chapitre 2 - Méthodes de Prétraitements Et Préparation de Données
50% (2)
Data Mining Chapitre 2 - Méthodes de Prétraitements Et Préparation de Données
10 pages
Chapitre 3-Apprentissage Non Supervisé
Pas encore d'évaluation
Chapitre 3-Apprentissage Non Supervisé
85 pages
tp2 IA ML (ML) VxAli
Pas encore d'évaluation
tp2 IA ML (ML) VxAli
7 pages
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
Pas encore d'évaluation
K Plus Proches Voisions K-Nearest Neighbors KNN: Mme Hiba Lahmer 2020/2021
14 pages
Cours - Datawarehouse
Pas encore d'évaluation
Cours - Datawarehouse
83 pages
TD Apprentissage Supervisée Master
Pas encore d'évaluation
TD Apprentissage Supervisée Master
2 pages
TP 5 Machine Learning
Pas encore d'évaluation
TP 5 Machine Learning
10 pages
03-Apprentissage Automatique
Pas encore d'évaluation
03-Apprentissage Automatique
63 pages
Cours Datamining: Techniques et Processus
100% (1)
Cours Datamining: Techniques et Processus
49 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
TD Machine Regression Python
Pas encore d'évaluation
TD Machine Regression Python
3 pages
Cours Fouille de Données
100% (1)
Cours Fouille de Données
59 pages
Pretraitement Des Donnees
100% (1)
Pretraitement Des Donnees
27 pages
Gestion des données manquantes et binning
Pas encore d'évaluation
Gestion des données manquantes et binning
1 page
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
Pas encore d'évaluation
ALGORITHME DES K PLUS PROCHES VOISINS (KNN)
5 pages
Algorithme Random Forest
Pas encore d'évaluation
Algorithme Random Forest
32 pages
Préparation à la certification Big Data
Pas encore d'évaluation
Préparation à la certification Big Data
42 pages
Introduction à l'apprentissage non supervisé
Pas encore d'évaluation
Introduction à l'apprentissage non supervisé
43 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
TP: Arbres de Décision en ML
Pas encore d'évaluation
TP: Arbres de Décision en ML
6 pages
Le KNN
Pas encore d'évaluation
Le KNN
14 pages
Partie 3-Data Mining - DRC - 2021-2022
Pas encore d'évaluation
Partie 3-Data Mining - DRC - 2021-2022
47 pages
Exam Modeles Pour Le Datamining 2015 2016cor
Pas encore d'évaluation
Exam Modeles Pour Le Datamining 2015 2016cor
4 pages
Optimisation des Hyperparamètres en ML
Pas encore d'évaluation
Optimisation des Hyperparamètres en ML
39 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
254 pages
Kmeans
100% (2)
Kmeans
23 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
35 pages
Data Mining - Règles D'association
Pas encore d'évaluation
Data Mining - Règles D'association
16 pages
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
100% (1)
Epreuve DM Concours de Doctorat Univ Annaba 2019-2020 (Tchi Drive)
3 pages
Examen Datamining : Arbres, SVM, KNN, Apriori
100% (1)
Examen Datamining : Arbres, SVM, KNN, Apriori
5 pages
Business Intelligence - Les Entrepôts de Données - Cours (Version3 - 2017 - 4page)
Pas encore d'évaluation
Business Intelligence - Les Entrepôts de Données - Cours (Version3 - 2017 - 4page)
38 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
16 pages
Méthodes et enjeux du clustering
100% (1)
Méthodes et enjeux du clustering
56 pages
Machine Learning 1-1
100% (1)
Machine Learning 1-1
364 pages
Arbre de Décision ET KNN PDF
Pas encore d'évaluation
Arbre de Décision ET KNN PDF
47 pages
INF3712 Datamining
Pas encore d'évaluation
INF3712 Datamining
7 pages
Data Mining
Pas encore d'évaluation
Data Mining
55 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Litterature Française - 2ndec Cameroun
100% (3)
Litterature Française - 2ndec Cameroun
1 page
Histoire de la montée de la sève dans les arbres
Pas encore d'évaluation
Histoire de la montée de la sève dans les arbres
12 pages
Évaluation Philosophie 2nde CPEG 2021-2022
100% (1)
Évaluation Philosophie 2nde CPEG 2021-2022
2 pages
Cours de Moteur Diesel
Pas encore d'évaluation
Cours de Moteur Diesel
20 pages
Chapitre3 NoSQL Avec Redis
Pas encore d'évaluation
Chapitre3 NoSQL Avec Redis
44 pages
Synthèse sur les phosphates et traitements
Pas encore d'évaluation
Synthèse sur les phosphates et traitements
39 pages
Bambouuu 1
Pas encore d'évaluation
Bambouuu 1
19 pages
Histoire-Pressees-Encore-Une-Histoire-Tragique Alphabet
Pas encore d'évaluation
Histoire-Pressees-Encore-Une-Histoire-Tragique Alphabet
2 pages
Restaurant Scolaire Prestation
Pas encore d'évaluation
Restaurant Scolaire Prestation
6 pages
CABANTOUS
Pas encore d'évaluation
CABANTOUS
849 pages
Rapport Elkamel Elmehdi (Enregistré Automatiquement)
Pas encore d'évaluation
Rapport Elkamel Elmehdi (Enregistré Automatiquement)
25 pages
Credo2 Bible
Pas encore d'évaluation
Credo2 Bible
12 pages
Iduction HSE Ferrovaire
Pas encore d'évaluation
Iduction HSE Ferrovaire
35 pages
Guide Complet sur jQuery et AJAX
Pas encore d'évaluation
Guide Complet sur jQuery et AJAX
36 pages
La Théorie Analytique de La Société Dans L'oeuvre de Talcott Parsons
Pas encore d'évaluation
La Théorie Analytique de La Société Dans L'oeuvre de Talcott Parsons
208 pages
FT Gestion Des Stocks - CFPM Algérie
Pas encore d'évaluation
FT Gestion Des Stocks - CFPM Algérie
2 pages
Analyse Et Conception Des Systèmes D'information - V. Rajaraman
Pas encore d'évaluation
Analyse Et Conception Des Systèmes D'information - V. Rajaraman
20 pages
Ebook Carapaces Helene Laporte
Pas encore d'évaluation
Ebook Carapaces Helene Laporte
38 pages
TP Tests Statistiques 2 Corrige-1
Pas encore d'évaluation
TP Tests Statistiques 2 Corrige-1
9 pages
Bougies NGK : Guide Technique Complet
Pas encore d'évaluation
Bougies NGK : Guide Technique Complet
48 pages
Avenant EXE10 pour Marchés Publics
Pas encore d'évaluation
Avenant EXE10 pour Marchés Publics
5 pages
Les Trois Niveaux de La Culture Organisationnelle D'edgar Schein - Dr. Vidya Hattangadi
Pas encore d'évaluation
Les Trois Niveaux de La Culture Organisationnelle D'edgar Schein - Dr. Vidya Hattangadi
5 pages
DL N°3 MPSI4 Elec
Pas encore d'évaluation
DL N°3 MPSI4 Elec
4 pages
MEISER Sols Industriels de Securite
Pas encore d'évaluation
MEISER Sols Industriels de Securite
76 pages
Conception d'un ERP Médical DigiMED
Pas encore d'évaluation
Conception d'un ERP Médical DigiMED
33 pages
Corrige Technique Principale
Pas encore d'évaluation
Corrige Technique Principale
55 pages
Suivi des Séismes et Volcans en Direct
Pas encore d'évaluation
Suivi des Séismes et Volcans en Direct
1 page
Prepabac
Pas encore d'évaluation
Prepabac
9 pages
Hadith 39 Et 40
Pas encore d'évaluation
Hadith 39 Et 40
8 pages
Criminologie Appliquée
Pas encore d'évaluation
Criminologie Appliquée
7 pages