Data Mining

Data mining

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

45 vues34 pages

Data Mining

Data mining

Transféré par

Eya Bejaoui

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Maher JAOUADI

Septembre 2024
 Définition du Data Mining
 Pourquoi le Data Mining ?
 Description du processus KDD (Knowledge
Data Discovery)
 Applications
 Tâches du Data Mining
 Techniques utilisées
 Processus inductif, itératif et interactif de
découverte dans les BD larges de modèles de
données valides, nouveaux, utiles et
compréhensibles.

◦ Itératif : nécessite plusieurs passes

◦ Interactif : l’utilisateur est dans la boucle du processus
◦ Valides : valables dans le futur
◦ Nouveaux : non prévisibles
◦ Utiles : permettent à l’utilisateur de prendre des
décisions
◦ Compréhensibles : présentation simple
 Opération mentale qui consiste à remonter
des faits à la loi, de cas particuliers à une
proposition plus générale (opposé
à déduction).
 Raisonnement par induction.
 Synonymes : généralisation
Induction : Généralisation d’une observation
ou d’un raisonnement établis à partir de cas
singuliers.

Utilisée en Data mining : tirer une conclusion

à partir d ’une série de faits. (pas sûr à 100%)

La clio a 4 roues, La Peugeot 106 a 4 roues,

La BMW M3 a 4 roues, La Mercedes 190 a 4
roues
==> Toutes les voitures ont 4 roues
Déduction : Raisonnement qui conclut à partir
de prémisses et d’hypothèses à la vérité
d’une proposition en usant des règles
d’inférence.

Toutes les voitures ont 4 roues

La Peugeot 206 est une voiture
==> La Peugeot 206 a 4 roues
Explosion des données
 Masse importante de données (millions de milliards
d’instances) : elle double tous les 20 mois.
 BD très larges - Very Large Databases (VLDB)
 Données multi-dimensionnelles (milliers d’attributs)
 BD denses inexploitables par les méthodes d’analyse
classiques
 Collecte de masses importantes de données
(Gbytes/heure)
◦ Données satellitaires, génomiques (micro-arrays, …),
simulations scientifiques, etc.
 Besoin de traitement en temps réel de ces données
 Améliorer la productivité
◦ Forte pression due à la concurrence du marché
◦ Brièveté du cycle de vie des produits
◦ Besoin de prendre des décisions stratégiques
efficaces
 Exploiter le vécu (données historiques) pour prédire le
futur et anticiper le marché
 individualisation d es consommateurs
(démassification).
 Croissance en puissance/coût des machines
capables de supporter de gros volumes de
données d’exécuter le processus intensif
d’exploration hétérogénéité des supports de
stockage
Masses importantes de données – supports hétérogènes
Data Mining : cœur de KDD
(Knowledge Data Discovery)
 Comprendre l’application
- Connaissances a priori, objectifs, etc.
 Sélectionner un échantillon de données
- Choisir une méthode d’échantillonnage
 Nettoyage et transformation des données
- Supprimer le «bruit» : données superflues,
marginales, données manquantes, etc.
- Effectuer une sélection d’attributs, réduire la
dimension du problème, etc.
 Appliquer les techniques de fouille de données
- Choisir le bon algorithme
 Visualiser, évaluer et interpréter les modèles
découverts
- Analyser la connaissance (intérêt)
- Vérifier sa validité (sur le reste de la base de
données)
- Réitérer le processus si nécessaire
 Gérer la connaissance découverte
- La mettre à la disposition des décideurs
- L’échanger avec d’autres applications
(système expert, …) etc.
 Développer des techniques et systèmes
efficaces et extensibles pour l’exploration de
:
- BD larges et multi-dimensionnelles
- Données distribuées
 Faciliter l’utilisation des systèmes de DM
- Limiter l’intervention de l’utilisateur
- Représentation simple de la connaissance
- Visualisation sous forme exploitable
 Intelligence artificielle et apprentissage
 Bases de données
 Analyse de données (statistiques)
 Visualisation
 Recherche opérationnelle et optimisation
 Informatique parallèle et distribuée
 Etc.
 Prise de décision
basée sur de
nouvelles
connaissances
 Ex., impact sur le
marketing
 Le rôle et
l’importance du
KDD et DM est de
plus en plus
important
 Mais le DM n’est
pas seulement dans
le marketing...
 Marketing direct : population à cibler (âge, sexe,
profession, habitation, région, …) pour un
publipostage.
 Gestion et analyse des marchés : Ex. Grande
distribution : profils des consommateurs, modèle
d’achat, effet des périodes de solde ou de
publicité,
« panier de la ménagère »
 Détection de fraudes : Télécommunications, ...
Gestion de stocks : quand commander un
produit, quelle quantité demander, …
 Analyse financière : maximiser l’investissement
de portefeuilles d’actions.
 Gestion et analyse de risque : Assurances,
Banques (crédit accordé ou non)
- Compagnies aériennes
 Bioinformatique et Génome : ADN mining, …
 Médecine et pharmacie :
- Diagnostic : découvrir d ’après les
symptomes du patient sa maladie
- Choix du médicament le plus approprié
pour guérir une maladie donné
 Web mining, text mining, etc.
 Vous êtes gestionnaire marketing d’un
opérateur de télécommunications mobiles :
◦ Les clients reçoivent un téléphone gratuit (valeur
150€) avec un contrat d’un an ; vous payer une
commission de vente de 250€ par contrat
◦ Problème : Taux de renouvellement (à la fin du
contrat) est de 25%
◦ Donner un nouveau téléphone à toute personne
ayant expirer son contrat coûte cher.
◦ Faire revenir un client après avoir quitter est
difficile et coûteux.
 Trois mois avant
l’expiration du
contrat, prédire
les clients qui
vont quitter :
 Si vous voulez les
garder, offrir un
nouveau
téléphone.
 Vous êtes un agent et vous devez définir un paiement
mensuel adapté à un jeune de 18 ans qui a acheté
une Ferrari.
 Qu’est ce qu’il faut faire ?
 Analyser les données de tous les clients de la
compagnie.
 La probabilité d’avoir un accident est basée sur :
- Sexe du client (M/F) et l’
- âge Modèle de la voiture,
- âge du conducteur,
- adresse, .... etc.
 Si la probabilité d’avoir un accident est supérieure à
la moyenne, initialiser la mensualité suivant les
risques .
 Vous êtes à l’étranger et quelqu’un a volé
votre carte de crédir ou votre mobile …

 compagnies bancaires …
◦ Utiliser les données historiques pour construire un
modèle de comportement frauduleux et utiliser le
data mining pour identifier des instances similaires.

 compagnies téléphoniques …
◦ Analyser les “patterns” qui dérivent du
comportement attendu (destinataire, durée, etc.)
 Les logs des accés Web sont analysés pour …
◦ Découvrir les préférences des utilisateurs
◦ Améliorer l’organisation du site Web

 De manière similaire …
◦ L’analyse de tous les types d’informations sur les
logs
◦ Adaptation de l’interface utilisateur/service
 Valeurs des champs des enregistrements des
tables de l’entropot (base de données)
 Types :
- Données discrètes : données binaires (sexe, …),
données énumératives (couleur, …),
énumératives ordonnées (réponses 1:très
satisfait, 2:satisfait, …).
- Données continues : données entières ou
réelles (âge, salaire, …)
- Dates
- Données textuelles
- Pages/liens web, Multimédia, …
 Classification
 Clustering (Segmentation)
 Recherche d’associations
 Recherche de séquences
 Détection de déviation
 Elle permet de prédire si une instance de donnée est
membre d’un groupe ou d’une classe prédéfinie.
 Classes
- Groupes d’instances avec des profils particuliers
- Apprentissage supervisé : classes connues à
l’avance
- Applications : marketing direct (profils des
consommateurs), grande distribution (classement des
clients), médecine (malades/non malades), etc.
- Exemple : les acheteurs de voitures de sport sont
de jeunes citadins ayant un revenu important
 Partitionnement logique de la base de
données en clusters
◦ Clusters : groupes d’instances ayant les mêmes
caractéristiques
◦ Apprentissage non supervisé (classes inconnues)
◦ Pb : interprétation des clusters identifiés
◦ Applications : Economie (segmentation de
marchés), médecine (localisation de tumeurs dans
le cerveau), etc.
 Corrélations (ou relations) entre attributs
(méthode non supervisée)
 Applications : grande distribution, gestion
des stocks, web (pages visitées), etc.
 Exemple
◦ BD commerciale : panier de la ménagère
◦ Articles figurant dans le même ticket de caisse
◦ Ex : achat de lait + café ==> achat de sucre.
 Recherche de séquences
 Liaisons entre événements sur une période de temps
 Extension des règles d’association
◦ Prise en compte du temps (série temporelle)
◦ Achat Télévision ==> Achat Magnétoscope d’ici 5 ans
 Applications : marketing direct (anticipation des
commandes), bioinformatique (séquences d’ADN), bourse
(prédiction des valeurs des actions)
 Exemple
 BD commerciale (ventes par correspondance)
 Commandes de clients
 Ex : 60% des consommateurs qui commandent la bière
«Mort subite» commandent de l’aspro juste après
 Séquences d’ADN : ACGTC est suivie par GTCA après un
gap de 9, avec une probabilité de 30%.
 Instances ayant des caractéristiques les plus
différentes des autres
◦ Basée sur la notion de distance entre instances
◦ Expression du problème
 Temporelle : évolution des instances ?
 Spatiale : caractéristique d’un cluster d’instances ?
 Applications
◦ Détection de fraudes (transactions avec une carte
bancaire inhabituelle en telemarketing)
 Caractéristiques
◦ Problème d’interprétation : bruit ou exception (donc
connaissance intéressante)
 K-moyennes, A-priori, K-NN
 Réseaux de neurones
 Algorithmes génétiques
 Chaînes de Markov cachées
 Arbres de décision
 Réseaux bayesiens
 Soft computing : ensembles flous
 …

Vous aimerez peut-être aussi

Cours Datamining P1
Pas encore d'évaluation
Cours Datamining P1
18 pages
Cours de Data Mining - 1
Pas encore d'évaluation
Cours de Data Mining - 1
37 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
DM Cours
100% (5)
DM Cours
325 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Cours
Pas encore d'évaluation
Cours
43 pages
Sid Partie2
Pas encore d'évaluation
Sid Partie2
13 pages
ChI Data Mining - Versionre
Pas encore d'évaluation
ChI Data Mining - Versionre
31 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
44 pages
1 Data Mining
Pas encore d'évaluation
1 Data Mining
74 pages
Introduction au Data Mining
100% (1)
Introduction au Data Mining
29 pages
Chap 1
Pas encore d'évaluation
Chap 1
8 pages
Intro Data Minig2
Pas encore d'évaluation
Intro Data Minig2
25 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Ok Cours-Data-Mining M2 SITW 2022 2023
100% (1)
Ok Cours-Data-Mining M2 SITW 2022 2023
325 pages
Fouille de Données
Pas encore d'évaluation
Fouille de Données
48 pages
Data Mining
Pas encore d'évaluation
Data Mining
44 pages
Fiche IA
Pas encore d'évaluation
Fiche IA
38 pages
Data Mining
Pas encore d'évaluation
Data Mining
36 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
131 pages
Méthode Non Supervisé:: Définition DM
Pas encore d'évaluation
Méthode Non Supervisé:: Définition DM
19 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
17 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Fouilles de Données Part1 Concepts D Base
Pas encore d'évaluation
Fouilles de Données Part1 Concepts D Base
16 pages
Complement DM.2
Pas encore d'évaluation
Complement DM.2
158 pages
Techniques de Data Mining Essentielles
Pas encore d'évaluation
Techniques de Data Mining Essentielles
20 pages
Applications et méthodologie du Data Mining
Pas encore d'évaluation
Applications et méthodologie du Data Mining
81 pages
Résumé
Pas encore d'évaluation
Résumé
25 pages
Azizi Cour FD
Pas encore d'évaluation
Azizi Cour FD
48 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
Découverte de Connaissances en Données
Pas encore d'évaluation
Découverte de Connaissances en Données
131 pages
DATA Mining 2 2 2024
Pas encore d'évaluation
DATA Mining 2 2 2024
16 pages
Cours de Dataming
Pas encore d'évaluation
Cours de Dataming
16 pages
Cours Data Mining et Machine Learning ENSIAS
Pas encore d'évaluation
Cours Data Mining et Machine Learning ENSIAS
89 pages
Chapitre 1-1
Pas encore d'évaluation
Chapitre 1-1
107 pages
Chapitre 1 A
Pas encore d'évaluation
Chapitre 1 A
102 pages
Résumé Courtd DM 1
Pas encore d'évaluation
Résumé Courtd DM 1
17 pages
Partitionnement des données marketing
Pas encore d'évaluation
Partitionnement des données marketing
25 pages
Cours Big Data&Data Scinece - PPSX
Pas encore d'évaluation
Cours Big Data&Data Scinece - PPSX
22 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Cours-Data-Mining Semaine 1
Pas encore d'évaluation
Cours-Data-Mining Semaine 1
12 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
30 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Cours de Data Mining 2024-2025
Pas encore d'évaluation
Cours de Data Mining 2024-2025
115 pages
Data Mining (Partie 1)
Pas encore d'évaluation
Data Mining (Partie 1)
56 pages
Introduction à la Business Intelligence et Data Science
Pas encore d'évaluation
Introduction à la Business Intelligence et Data Science
47 pages
Introduction au Data Mining et ses enjeux
Pas encore d'évaluation
Introduction au Data Mining et ses enjeux
10 pages
Introduction Au Data Mining
Pas encore d'évaluation
Introduction Au Data Mining
102 pages
Cours Fouille de Données Partie2
Pas encore d'évaluation
Cours Fouille de Données Partie2
83 pages
Ch1-Extraction Des Connaissances À Partir Des Données
Pas encore d'évaluation
Ch1-Extraction Des Connaissances À Partir Des Données
53 pages
Idée Du Projet
Pas encore d'évaluation
Idée Du Projet
2 pages
Six Sigma
Pas encore d'évaluation
Six Sigma
12 pages
Rapport Pfe Ben Boubaker Mohamed Amine.1
Pas encore d'évaluation
Rapport Pfe Ben Boubaker Mohamed Amine.1
209 pages
Sujets Stage Ingénieur
Pas encore d'évaluation
Sujets Stage Ingénieur
1 page
S14 Arrivee Urgences Data Analysis - Version Étudiants
Pas encore d'évaluation
S14 Arrivee Urgences Data Analysis - Version Étudiants
23 pages
Industrie Aéronautique en Tunisie
Pas encore d'évaluation
Industrie Aéronautique en Tunisie
6 pages
DS Gi 2021
Pas encore d'évaluation
DS Gi 2021
2 pages
Rapport ACV:: Eco-Conception
Pas encore d'évaluation
Rapport ACV:: Eco-Conception
10 pages
TD2 Electronique GI 24 25
Pas encore d'évaluation
TD2 Electronique GI 24 25
7 pages
Programmation Shell Avec Bash: Objectif Du TP
Pas encore d'évaluation
Programmation Shell Avec Bash: Objectif Du TP
9 pages
Correction Exercice
Pas encore d'évaluation
Correction Exercice
4 pages
Blue and White Clean Modern Company Project Proposal
Pas encore d'évaluation
Blue and White Clean Modern Company Project Proposal
30 pages
TD Data Mining - Seance 8
Pas encore d'évaluation
TD Data Mining - Seance 8
4 pages
1-1-Introduction Cours MO1-2020-2021
Pas encore d'évaluation
1-1-Introduction Cours MO1-2020-2021
26 pages
Classification KNN : Méthode et Applications
Pas encore d'évaluation
Classification KNN : Méthode et Applications
26 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Chapitre 2 Fiabilité Et Maintenance
Pas encore d'évaluation
Chapitre 2 Fiabilité Et Maintenance
54 pages
03-Rapport de Préparation #1 Conference Publique
Pas encore d'évaluation
03-Rapport de Préparation #1 Conference Publique
12 pages
Le Controle Des Depenses Publiques
Pas encore d'évaluation
Le Controle Des Depenses Publiques
22 pages
Fiabilité des Systèmes Électro-Énergétiques
Pas encore d'évaluation
Fiabilité des Systèmes Électro-Énergétiques
115 pages
L'Effet de Halo Dans Les Relations Publiques Imp
Pas encore d'évaluation
L'Effet de Halo Dans Les Relations Publiques Imp
18 pages
ACMT-Examen Blanc 2
100% (1)
ACMT-Examen Blanc 2
31 pages
Stage Modélisation Stress Tests
Pas encore d'évaluation
Stage Modélisation Stress Tests
1 page
Exercice Rég Ds CetP (Tiré Des Examaens Nationaux)
Pas encore d'évaluation
Exercice Rég Ds CetP (Tiré Des Examaens Nationaux)
1 page
Memoire Master EGP ADEKAMBI 21-08
100% (1)
Memoire Master EGP ADEKAMBI 21-08
87 pages
Corrige Session Normale 2005
Pas encore d'évaluation
Corrige Session Normale 2005
12 pages
Présentation d'Algérie Telecom et ses missions
100% (1)
Présentation d'Algérie Telecom et ses missions
3 pages
Toaz - Info Rapport de Stage A D T P Universite Amar Telidji Laghouat PR
Pas encore d'évaluation
Toaz - Info Rapport de Stage A D T P Universite Amar Telidji Laghouat PR
15 pages
Rapport Performance formationGARD DDAEP
Pas encore d'évaluation
Rapport Performance formationGARD DDAEP
12 pages
Farid ARACTINGI
Pas encore d'évaluation
Farid ARACTINGI
18 pages
Les Métiers de La Comptabilité: Ecteur Et Emploi
Pas encore d'évaluation
Les Métiers de La Comptabilité: Ecteur Et Emploi
33 pages
Initiation À La Qualité 1
Pas encore d'évaluation
Initiation À La Qualité 1
10 pages
Facture et Remboursement Louis Vuitton
Pas encore d'évaluation
Facture et Remboursement Louis Vuitton
2 pages
Bon de livraison produits parapharmaceutiques
Pas encore d'évaluation
Bon de livraison produits parapharmaceutiques
1 page
Molenbeek - Riverain - FR - 2024
Pas encore d'évaluation
Molenbeek - Riverain - FR - 2024
2 pages
Mon CV Mamadou SY
Pas encore d'évaluation
Mon CV Mamadou SY
2 pages
Formation Pavage
Pas encore d'évaluation
Formation Pavage
10 pages
Stratégies de communication pour thérapeutes
Pas encore d'évaluation
Stratégies de communication pour thérapeutes
16 pages
Initiation Aux Instruments Et Marchés Financiers
Pas encore d'évaluation
Initiation Aux Instruments Et Marchés Financiers
6 pages
Rapport de Stage DRE Final
Pas encore d'évaluation
Rapport de Stage DRE Final
16 pages
Compta Appro Énoncé
100% (1)
Compta Appro Énoncé
118 pages
Gestion Financiere: Professeur: A.MAIMOUN
Pas encore d'évaluation
Gestion Financiere: Professeur: A.MAIMOUN
144 pages
TDR N°1 Formation Qualité - Iset de Gabes.
Pas encore d'évaluation
TDR N°1 Formation Qualité - Iset de Gabes.
12 pages
Éthique Des Auditeurs Externes
Pas encore d'évaluation
Éthique Des Auditeurs Externes
19 pages
Analyse des risques ADRPT 2023
100% (1)
Analyse des risques ADRPT 2023
125 pages
AMDEC : Anticiper et Prévenir les Défaillances
Pas encore d'évaluation
AMDEC : Anticiper et Prévenir les Défaillances
7 pages