0% ont trouvé ce document utile (0 vote)
58 vues25 pages

Intro Data Minig2

Transféré par

Farah Berradhi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
58 vues25 pages

Intro Data Minig2

Transféré par

Farah Berradhi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Introduction au DATA Mining

1
Donnée, information, connaissance
• De la donnée à l’information
– Une donnée est l’enregistrement d’une observation,
objet, fait destiné à être interprété, traité par l’homme.
La donnée est généralement objective
– Exemples : température =35°; âge = 2 mois
• Une information est le signifiant attaché à la
donnée ou à un ensemble de données par
association.
• L’information est généralement subjective, définie
selon un contexte
– Exemples: (température=35°) : temps chaud; (âge=2
mois) : nourrisson 2
• De l’information à la connaissance
• Une connaissance est une information nouvelle,
apprise par association d’informations de base, de
règles, de raisonnement, d’expérience,
d’expertise, etc.
• La donnée est généralement objective, peut être
subjective.
• Exemple : temps chaud et enfant nourrisson alors
risque de déshydratation

3
BD et SGBD

• + 50 années de réflexion sur la gestion des


données
– Phase 1 : modèle hiérarchique & modèle en réseau 1960 – 1969
– Phase 2 : modèle relationnel 1970 – 2000
– Phase 3 : période nouvelle 2000 – …

4
Motivation: Le besoin crée l’invention

• Problème de l’explosion de données

– Les Bases de Données des entreprises contiennent


énormément de données
• Ex: La base de données des transactions d’un super
marché
• Beaucoup de données mais peu de connaissances

• Ces données peuvent servir dans les projets de l’entreprise


(présent & future)
• Limiter les subjectivités des décisions

• Data mining 5
6
Le data mining : rétrospective historique
• Le data mining est apparu au début des années 90.
• Cette émergence est le résultat de la combinaison de
facteurs:
– technologiques,
– économiques,
– sociopolitiques, etc
• 1990s (MO) : les entreprises commencent à stocker de plus
en plus de données concernants leur clients, sans
planification expérimentale.
• On peut voir le data mining comme une nécessité
imposée par le besoin des entreprises de valoriser les
données qu’elles accumulent dans leurs bases.
– le développement des capacités de stockage et les vitesses
de transmission des réseaux ont conduit les utilisateurs à
accumuler de plus en plus de données.
• le développement des capacités de stockage
et les vitesses de transmission des réseaux
ont conduit les utilisateurs à accumuler de
plus en plus de données.
• Certains experts estiment que le volume des
données double tous les ans.
– Que doit-on faire avec des données coûteuses à
collecter et à conserver?
• Les méthodes statistiques classiques sont
massivement utilisées pour extraire de la
connaissance de ces données (CRM, gestion de la
relation client).
• C’est la naissance du data mining.
• Ensemble d’approches statistiques permettant d’extraire de
l’information de grands jeux de données dans une perspectives d’aide
à la décision (Besse, 2001).
• Le terme Data Mining désigne l’analyse de données depuis
différentes perspectives et le fait de transformer ces données en
informations utiles, en établissant des relations entre les données ou
en repérant des patterns.
• Ces informations peuvent être utilisées par les entreprises pour:
– augmenter un chiffre d’affaires, réduire des coûts, servir à mieux
comprendre une clientèle pour établir de meilleures stratégies
marketing, …
• Autres appellations:
– ECD (Extraction de Connaissances à partir de Données)
– KDD (Knowledge Discovery from Databases)
– Analyse de données/patterns,
– business intelligence,
– fouille de données, etc …
9
Exemples
• Les sources de données à analyser ?
– Transactions avec carte de crédit, carte de fidélité, sondages
• Marketing ciblé
– Trouver un « modèle » pour regrouper les clients partageant les
mêmes caractéristiques.
– Cibler les « mailings »
• Analyse croisée
– Associations/co-relations entre ventes de produits
– Prédiction basée sur ces associations
• L’analyse d’une BD de transactions d’un supermarché permet
d’étudier le comportement des clients :
– Réorganiser les rayons, ajuster les promotions
(Besse, 2001)
Les étapes
• 1. Inventaire, sélection et intégration des données
• 2. Exploration, transformation des données
• 3. Analyse statistique : segmentation, régression, classement
• 4. Validation, visualisation et interprétations des résultats

Les données Xij peuvent être de


différent types
quantitatif (mesurables)
catégoriel (nominales, ordinales)
mais également
textes, images, réseaux...
1) Inventaire, sélection et intégration des données
• Définir et identifier
– ce que l’on veut étudier
– ce que je veux faire (prédire, découvrir...)
– quelles observations on va utiliser
• Rassembler les informations sur le phénomène
– quelles sont les variables (descripteurs)
existantes
– sélectionner les variables en lien avec ce
que l’on veut étudier
– intégrer ces variable dans un même jeu
de données
• Le terme entrepôt de données (ou data
warehouse) désigne une base de données
utilisée pour collecter et stocker des
informations volatiles
• Parfois les informations des différentes bases
de données d'une entreprise sont collectées
dans un seul entrepôt de données, ou alors il
existe différents entrepôts de données en
fonction du sujet ou du métier en rapport avec
chaque information (datamart).
Datamining: sur quels types de données
• BD’s relationnelles
• Data warehouses
• BD’s transactionnelles
• BD’s avancées
– BD’s objet et objet-relationnelles
– BD’s spatiales
– Séries temporelles
– BD’s Textes et multimedia
– BD’s Hétérogènes
– WWW

14
Data Warehouse & OLAP
• OLAP, acronyme de Online Analytical Processing, est
une technologie permettant d’effectuer des analyses
de données multidimensionnelles au sein de bases
de données créées à cet effet
• OLAP permet à un utilisateur de consulter
et d’extraire facilement les données pour les
comparer de différentes façons.
• Les données OLAP sont stockées sur une base
multidimensionnelle, aussi appelées Cubes OLAP
• Un serveur OLAP est nécessaire.
15
16
2) Exploration, transformation des données
• Il faut commencer par faire
connaissance avec les données, à l’aide
de statistiques descriptives
– statistiques univariées (tendance centrale,
dispersion)
– graphiques (historgrammes, boxplot, ...)
– statistiques bivariées (corrélation...) pour
identifier des variables corrélées
– méthodes exploratoires (ACP, AFC, ACM...)
pour visualiser les grandes tendances
• Identifier et gérer les données
manquantes
– on les supprime si elles sont peu nombreuses
et si le jeu de données est grand
– on les impute par la moyenne, médiane, le
mode, ou par des méthodes plus élaborées
• Identifier et traiter les observations
atypiques
– demande à l’expert métier si c’est une erreur
de mesure, une observation hors norme...
• Normalisation de variables quantitatives
– lorsque les variables ont des échelles différentes on centre (soustrait la moyenne) et réduit (divise
par l’écart-type) chaque variable
• Transformation de variables qualitatives en quantitatives ou vice-versa
– d’un point de vue général on évitera un maximum de faire cela, et on cherchera à utiliser des méthodes
permettant d’utiliser des données mixtes
– quand on n’a pas le choix, on peut discrétiser les variables quanti. en variables quali.
(mais on perd énormément d’information)
• On peut faire le contraire en utilisant une ACM par exemple, mais on perd en
interprétabilité
3) Analyse statistique : segmentation, régression, classement

• c’est la partie analyse qui va permettre d’extraire de l’information.


• il y a des méthodes :
– exploratoires,
– prédictives, ...
4. Validation, visualisation et interprétations des résultats

• Validation : on cherchera à valider les résultats à l’aide de données indépendantes,


d’avis humain...
• Visualisation : les résultats des analyses seront illustrées graphiquement afin de
faciliter leur interprétation.
• Interprétation : c’est ici que, grâce à l’expert métier, on tire de l’information et de
la connaissance sur le phénomène étudié.
D’autres exemples
• Vente, marketing
– gestion de la relation client (scoring, score d’appétence)
• segmentation de la clientèle
• Banque, finance, assurance
– détection de fraude (comportements atypiques)
– score de risque (attribution ou non d’un crédit)
• Technologie
– reconnaissance faciale dans une image
– reconnaissance de la parole
• Médecine, industrie pharmaceutique
• réponse d’un patient vis-à-vis d’un traitement
• identification des facteurs de risques
• Energie, transport...
• prévision de consommation d’électricité
– prévision de trafic routier
• Le Data Mining peut s’appliquer à tout phénomène dont on peut mesurer des observations
et dont on souhaite appréhender les caractéristiques et / ou prévoir le comportement
Panorama des méthodes

Méthodes Méthodes
descriptives Prédictives

Fouille de
données
Panorama des méthodes

Méthodes Méthodes
descriptives Prédictives

Clustering Regression:
Prédire Y quanti
Analyse factorielle
ACP, AFC, ACM Classification supervisée:
Prédire Y quanli
Détection de liens
Recherche d’associations
Des outils

• ……
ref

• https://eric.univ-lyon2.fr/~jjacques/
Download/Cours/Introduction-DataMining.pdf
• P. Besse et al., Data Mining et Statistique, Journal de la Société Française de
Statistique. 2001.
• http://eric.univ-lyon2.fr/~ricco/data-mining/
• http://www.sthda.com/french/
• http://wikistat.fr
• http://data.mining.free.fr

Vous aimerez peut-être aussi