0% ont trouvé ce document utile (0 vote)
45 vues34 pages

Data Mining

Data mining

Transféré par

Eya Bejaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues34 pages

Data Mining

Data mining

Transféré par

Eya Bejaoui
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Maher JAOUADI

Septembre 2024
 Définition du Data Mining
 Pourquoi le Data Mining ?
 Description du processus KDD (Knowledge
Data Discovery)
 Applications
 Tâches du Data Mining
 Techniques utilisées
 Processus inductif, itératif et interactif de
découverte dans les BD larges de modèles de
données valides, nouveaux, utiles et
compréhensibles.

◦ Itératif : nécessite plusieurs passes


◦ Interactif : l’utilisateur est dans la boucle du processus
◦ Valides : valables dans le futur
◦ Nouveaux : non prévisibles
◦ Utiles : permettent à l’utilisateur de prendre des
décisions
◦ Compréhensibles : présentation simple
 Opération mentale qui consiste à remonter
des faits à la loi, de cas particuliers à une
proposition plus générale (opposé
à déduction).
 Raisonnement par induction.
 Synonymes : généralisation
Induction : Généralisation d’une observation
ou d’un raisonnement établis à partir de cas
singuliers.

Utilisée en Data mining : tirer une conclusion


à partir d ’une série de faits. (pas sûr à 100%)

La clio a 4 roues, La Peugeot 106 a 4 roues,


La BMW M3 a 4 roues, La Mercedes 190 a 4
roues
==> Toutes les voitures ont 4 roues
Déduction : Raisonnement qui conclut à partir
de prémisses et d’hypothèses à la vérité
d’une proposition en usant des règles
d’inférence.

Toutes les voitures ont 4 roues


La Peugeot 206 est une voiture
==> La Peugeot 206 a 4 roues
Explosion des données
 Masse importante de données (millions de milliards
d’instances) : elle double tous les 20 mois.
 BD très larges - Very Large Databases (VLDB)
 Données multi-dimensionnelles (milliers d’attributs)
 BD denses inexploitables par les méthodes d’analyse
classiques
 Collecte de masses importantes de données
(Gbytes/heure)
◦ Données satellitaires, génomiques (micro-arrays, …),
simulations scientifiques, etc.
 Besoin de traitement en temps réel de ces données
 Améliorer la productivité
◦ Forte pression due à la concurrence du marché
◦ Brièveté du cycle de vie des produits
◦ Besoin de prendre des décisions stratégiques
efficaces
 Exploiter le vécu (données historiques) pour prédire le
futur et anticiper le marché
 individualisation d es consommateurs
(démassification).
 Croissance en puissance/coût des machines
capables de supporter de gros volumes de
données d’exécuter le processus intensif
d’exploration hétérogénéité des supports de
stockage
Masses importantes de données – supports hétérogènes
Data Mining : cœur de KDD
(Knowledge Data Discovery)
 Comprendre l’application
- Connaissances a priori, objectifs, etc.
 Sélectionner un échantillon de données
- Choisir une méthode d’échantillonnage
 Nettoyage et transformation des données
- Supprimer le «bruit» : données superflues,
marginales, données manquantes, etc.
- Effectuer une sélection d’attributs, réduire la
dimension du problème, etc.
 Appliquer les techniques de fouille de données
- Choisir le bon algorithme
 Visualiser, évaluer et interpréter les modèles
découverts
- Analyser la connaissance (intérêt)
- Vérifier sa validité (sur le reste de la base de
données)
- Réitérer le processus si nécessaire
 Gérer la connaissance découverte
- La mettre à la disposition des décideurs
- L’échanger avec d’autres applications
(système expert, …) etc.
 Développer des techniques et systèmes
efficaces et extensibles pour l’exploration de
:
- BD larges et multi-dimensionnelles
- Données distribuées
 Faciliter l’utilisation des systèmes de DM
- Limiter l’intervention de l’utilisateur
- Représentation simple de la connaissance
- Visualisation sous forme exploitable
 Intelligence artificielle et apprentissage
 Bases de données
 Analyse de données (statistiques)
 Visualisation
 Recherche opérationnelle et optimisation
 Informatique parallèle et distribuée
 Etc.
 Prise de décision
basée sur de
nouvelles
connaissances
 Ex., impact sur le
marketing
 Le rôle et
l’importance du
KDD et DM est de
plus en plus
important
 Mais le DM n’est
pas seulement dans
le marketing...
 Marketing direct : population à cibler (âge, sexe,
profession, habitation, région, …) pour un
publipostage.
 Gestion et analyse des marchés : Ex. Grande
distribution : profils des consommateurs, modèle
d’achat, effet des périodes de solde ou de
publicité,
« panier de la ménagère »
 Détection de fraudes : Télécommunications, ...
Gestion de stocks : quand commander un
produit, quelle quantité demander, …
 Analyse financière : maximiser l’investissement
de portefeuilles d’actions.
 Gestion et analyse de risque : Assurances,
Banques (crédit accordé ou non)
- Compagnies aériennes
 Bioinformatique et Génome : ADN mining, …
 Médecine et pharmacie :
- Diagnostic : découvrir d ’après les
symptomes du patient sa maladie
- Choix du médicament le plus approprié
pour guérir une maladie donné
 Web mining, text mining, etc.
 Vous êtes gestionnaire marketing d’un
opérateur de télécommunications mobiles :
◦ Les clients reçoivent un téléphone gratuit (valeur
150€) avec un contrat d’un an ; vous payer une
commission de vente de 250€ par contrat
◦ Problème : Taux de renouvellement (à la fin du
contrat) est de 25%
◦ Donner un nouveau téléphone à toute personne
ayant expirer son contrat coûte cher.
◦ Faire revenir un client après avoir quitter est
difficile et coûteux.
 Trois mois avant
l’expiration du
contrat, prédire
les clients qui
vont quitter :
 Si vous voulez les
garder, offrir un
nouveau
téléphone.
 Vous êtes un agent et vous devez définir un paiement
mensuel adapté à un jeune de 18 ans qui a acheté
une Ferrari.
 Qu’est ce qu’il faut faire ?
 Analyser les données de tous les clients de la
compagnie.
 La probabilité d’avoir un accident est basée sur :
- Sexe du client (M/F) et l’
- âge Modèle de la voiture,
- âge du conducteur,
- adresse, .... etc.
 Si la probabilité d’avoir un accident est supérieure à
la moyenne, initialiser la mensualité suivant les
risques .
 Vous êtes à l’étranger et quelqu’un a volé
votre carte de crédir ou votre mobile …

 compagnies bancaires …
◦ Utiliser les données historiques pour construire un
modèle de comportement frauduleux et utiliser le
data mining pour identifier des instances similaires.

 compagnies téléphoniques …
◦ Analyser les “patterns” qui dérivent du
comportement attendu (destinataire, durée, etc.)
 Les logs des accés Web sont analysés pour …
◦ Découvrir les préférences des utilisateurs
◦ Améliorer l’organisation du site Web

 De manière similaire …
◦ L’analyse de tous les types d’informations sur les
logs
◦ Adaptation de l’interface utilisateur/service
 Valeurs des champs des enregistrements des
tables de l’entropot (base de données)
 Types :
- Données discrètes : données binaires (sexe, …),
données énumératives (couleur, …),
énumératives ordonnées (réponses 1:très
satisfait, 2:satisfait, …).
- Données continues : données entières ou
réelles (âge, salaire, …)
- Dates
- Données textuelles
- Pages/liens web, Multimédia, …
 Classification
 Clustering (Segmentation)
 Recherche d’associations
 Recherche de séquences
 Détection de déviation
 Elle permet de prédire si une instance de donnée est
membre d’un groupe ou d’une classe prédéfinie.
 Classes
- Groupes d’instances avec des profils particuliers
- Apprentissage supervisé : classes connues à
l’avance
- Applications : marketing direct (profils des
consommateurs), grande distribution (classement des
clients), médecine (malades/non malades), etc.
- Exemple : les acheteurs de voitures de sport sont
de jeunes citadins ayant un revenu important
 Partitionnement logique de la base de
données en clusters
◦ Clusters : groupes d’instances ayant les mêmes
caractéristiques
◦ Apprentissage non supervisé (classes inconnues)
◦ Pb : interprétation des clusters identifiés
◦ Applications : Economie (segmentation de
marchés), médecine (localisation de tumeurs dans
le cerveau), etc.
 Corrélations (ou relations) entre attributs
(méthode non supervisée)
 Applications : grande distribution, gestion
des stocks, web (pages visitées), etc.
 Exemple
◦ BD commerciale : panier de la ménagère
◦ Articles figurant dans le même ticket de caisse
◦ Ex : achat de lait + café ==> achat de sucre.
 Recherche de séquences
 Liaisons entre événements sur une période de temps
 Extension des règles d’association
◦ Prise en compte du temps (série temporelle)
◦ Achat Télévision ==> Achat Magnétoscope d’ici 5 ans
 Applications : marketing direct (anticipation des
commandes), bioinformatique (séquences d’ADN), bourse
(prédiction des valeurs des actions)
 Exemple
 BD commerciale (ventes par correspondance)
 Commandes de clients
 Ex : 60% des consommateurs qui commandent la bière
«Mort subite» commandent de l’aspro juste après
 Séquences d’ADN : ACGTC est suivie par GTCA après un
gap de 9, avec une probabilité de 30%.
 Instances ayant des caractéristiques les plus
différentes des autres
◦ Basée sur la notion de distance entre instances
◦ Expression du problème
 Temporelle : évolution des instances ?
 Spatiale : caractéristique d’un cluster d’instances ?
 Applications
◦ Détection de fraudes (transactions avec une carte
bancaire inhabituelle en telemarketing)
 Caractéristiques
◦ Problème d’interprétation : bruit ou exception (donc
connaissance intéressante)
 K-moyennes, A-priori, K-NN
 Réseaux de neurones
 Algorithmes génétiques
 Chaînes de Markov cachées
 Arbres de décision
 Réseaux bayesiens
 Soft computing : ensembles flous
 …

Vous aimerez peut-être aussi