Département d’Informatique
3ème année Licence
Data warehouse et Data mining
Mme Asma SARI née AMRAOUI
[Link]@[Link]
Année universitaire: 2022 - 2023
Sommaire
Data warehouse
Data mining
INTRODUCTION
Le développement important qu’a connu le
matériel informatique, et la baisse des coûts ont
permis de construire de grandes bases de
données à moindre frais.
Malheureusement, il s’est avéré que la quantité
phénoménale d’informations stockées depuis
qu’elles sont informatisées, est fortement sous-
utilisée, alors qu’on pouvait exploiter ces
données afin d’en extraire des connaissances.
Data warehouse
مستودع البيانات
Entrepôt de données
Data warehouse (DW)
Formalisé pour la première fois en 1990.
Une vision centralisée et universelle de toutes les
informations de l'entreprise. C'est une structure qui
à pour but, contrairement aux bases de données, de
regrouper les données de l'entreprise pour des fins
analytiques et pour aider à la décision stratégique.
C'est un gigantesque tas d'informations épurées,
organisées, historisées et provenant de plusieurs
sources de données, servant aux analyses et à l'aide
à la décision.
Data warehouse (DW)
Un DW est organisé de façon à ce que des non
informaticiens puissent en comprendre la
structure et l'exploiter.
Un DW est en lecture seule : on ne supprime
JAMAIS des données d'un entrepôt puisque sa
raison d'exister est de conserver tout
changement.
Data warehouse (DW)
Data warehouse (DW)
Data warehouse (DW)
Structure hypercube
Data mart
Magasin de données
C'est un sous-ensemble de données dérivées
du Data Warehouse ciblé sur un sujet unique».
On peut donc créer plusieurs datamart
correspondant au différent besoin des
utilisateurs.
Data mining
بيانات التعدين
Fouille de données
Termes équivalents
Exploration de données
Fouille de données
Forage de données
Prospection de données
Extraction de connaissances à partir de données
بيانات التعدين
التنقيب في البيانات
DATA MINING (DM)
C’est l’analyse des données
sauvegardées dans le data warehouse .
DATA MINING (DM)
« Le Datamining peut être comparé
au minage de l’or»
DATA MINING (DM)
Une nouvelle façon de faire de la statistique ?
Le Data Mining est un nouveau champ situé
au croisement de la statistique et des
technologies de l’information (bases de
données, intelligence artificielle,
apprentissage etc.) dont le but est de
découvrir des structures dans de vastes
ensembles de données.
DATA MINING (DM)
Intelligence
artificielle
Bases de
Statistiques
données
DATA MINING (DM)
• Le Data Mining est né de:
L’évolution des SGBD vers l’informatique
décisionnelle avec les DW.
Développement de la Gestion de la Relation Client
(CRM) : Marketing client au lieu de marketing
produit .
Recherches en Intelligence artificielle,
apprentissage, extraction de connaissances.
DATA MINING (DM)
Le terme Data Mining désigne l’analyse de données
depuis différentes perspectives et le fait de transformer
ces données en informations utiles, en établissant des
relations entre les données ou en repérant des patterns.
Ces informations peuvent ensuite être utilisées par les
entreprises pour augmenter un chiffre d’affaires ou pour
réduire des coûts.
Elles peuvent également servir à mieux comprendre une
clientèle afin d’établir de meilleures stratégies
marketing.
DATA MINING (DM)
Intérêt du Data Mining
Trouver des structures originales et des
corrélations informelles entre les données.
Il permet de mieux comprendre les liens entre
des phénomènes en apparence distincts et
d'anticiper des tendances encore peu
discernables.
Intérêt du Data Mining
On ne veut plus seulement savoir :
« Combien de clients ont acheté tel produit pendant telle
période ? »
Mais :
« Quel est leur profil ? »
« Quels autres produits les intéresseront ? »
« Quand seront-ils intéressés ? »
Processus du Data Mining
Etapes du Data Mining
1. Poser les problèmes
2. Rechercher des données
3. Sélectionner les données pertinentes
4. Nettoyer des données
5. Transformer les variables
6. Rechercher le modèle
7. Evaluer le résultat
8. Intégrer la connaissance
Etapes du Data Mining
1. Poser les problèmes :
Exposer le problème et où l’on définit les
objectifs, le résultat attendu ainsi que les
moyens de mesurer le succès de l’étape de
datamining.
– La formulation du problème
– La typologie du problème
– Les résultats attendus
Etapes du Data Mining
2. Rechercher des données :
On détermine la structure générale des données ainsi que les règles utilisées pour
les constituer. Il faut identifier les informations exploitables et vérifier leur qualité
et leur facilité d’accès (documents papier, supports électroniques,…).
3. Sélectionner les données pertinentes :
Le meilleur moyen de créer un modèle est de rechercher des événements
similaires dans le passé.
Cette étape de collecte et de sélection constitue une masse de travail très
importante qui peut représenter jusqu’à 80% de la charge de travail globale du
processus de data mining car la préparation de données en vue d’un traitement
par logiciel de data mining nécessite une attention toute particulière : entrer une
donnée fausse ou peu en rapport avec le sujet d’étude donnerait une information
fausse ou erronée à la sortie.
Etapes du Data Mining
4. Nettoyer les données :
La définition de la taille de la base d’exemples et le choix de son
mode d’élaboration passent par un diagnostic de la qualité
potentielle des données (erreurs de saisie, champs nuls, valeurs
aberrantes) impose généralement une phase de nettoyage des
données. Celle-ci a pour objectif de corriger ou de contourner les
inexactitudes ou les erreurs qui se sont glissés dans les données.
5. Transformer les variables :
Maintenant que les variables sont pertinentes et que les données
sont fiables, il faut les transformer pour préparer le travail d’analyse.
Il s’agit d’intervenir sur les variables pour faciliter leur exploitation
par les outils de modélisation.
Etapes du Data Mining
6. Rechercher le modèle :
La modélisation consiste à extraire la connaissance utile d’un ensemble de données
bruitées et à la présenter sous une forme synthétique. Elle repose sur une recherche
exploratoire, c'est-à-dire dépourvue de préjugés concernant les relations entre les
données.
7. Evaluer le résultat :
L’évaluation du résultat permet d’estimer la qualité du modèle, c’est à dire sa capacité à
déterminer correctement les valeurs qu’il est censé avoir appris à calculer sur des cas
nouveaux. Cette évaluation prend généralement une forme qualitative et une forme
quantitative.
8. Intégrer les connaissances :
La connaissance ne sert à rien tant qu’elle n’est pas convertie en décision puis en action.
Cette étape d’intégration de la connaissance consiste à implanter le modèle ou ses
résultats dans les systèmes informatiques ou dans les processus de l’entreprise. C’est la
transition du domaine des études au domaine opérationnel.
Domaines d’application
Organisme de crédit : pour décider d’accorder ou non
un crédit en fonction du profil du demandeur, de sa
demande, et des expériences passées de prêts ;
Optimisation du nombre de places dans les avions,
hôtels
Organisation des rayonnages dans les supermarchés
en regroupant les produits qui sont généralement
achetés ensemble .
Diagnostic médical
Commerce électronique, recommandation de produits
Dérivés du Data Mining
Web mining:
optimisation des sites
meilleure connaissance des
Text mining:
statistique lexicale pour l’analyse des courriers, courriels,
dépêches, comptes-rendus, brevets (langue naturelle)
Image mining:
reconnaissance automatique d’une forme ou d’un visage
détection d’une échographie anormale, d’une tumeur
Techniques du Data Mining
Classification et segmentation
Clustering
Analyse prédictive
Arbres de décision
Associations et analogies
Apprentissage automatique et réseaux de neurones.
Algorithmes génétiques
Algorithmes Naïve Bayes, séries chronologiques,
régression linéaire...
Outils de Data Mining
1. Commerciaux :
• Simplicité du pilotage
• Techniques variées
2. Universitaires :
• Spécifique à certaines techniques
• Techniques publiées
Récapitulatif
Un DataWarehouse est une base de données dans laquelle on centralise, normalise et
historise toutes les données nécessaires à un système décisionnel.
En clair, une base dans laquelle on range toutes les informations dont on va avoir besoin,
on les nettoie et on les transforme de façon à les rendre plus facilement exploitable et,
quand c'est possible, on construit de l'information à partir d'elle (historique,
agrégations, ...).
Un Datamart est un DataWarehouse en plus petit, souvent dédié à une thématique
(comptabilité, commerce, finances, RH). On remplis un Datamart à partir d'un
DataWarehouse dans lequel on ne prend que les informations dont on a besoin pour
traiter le sujet en question.
Le DatamMining, c'est un grand mot pour décrire toutes les techniques permettant
d'extraire du sens à partir d'une masse brute de données et de faire, dans la mesure du
possible, de la prédiction sur ces données.