Université Sultan Moulay Slimane
Ecole Supérieure de Technologie - Fkih Ben Salah
Techniques d’exploration de
données (data mining)
Filière: IDS, Semestre 3
Pr. Rachid AIT DAOUD A.U: 2023-2024
Descriptif du module
Intitulé du module: Techniques d’exploration de données (data mining).
Objectifs du module:
1. S’initier à la science des données et nommer les démarches à suivre pour résoudre un problème lié à la
science des données.
2. Acquérir les compétences nécessaires pour collecter, nettoyer et préparer les données pour l'analyse.
3. Comprendre les concepts clés et les différentes tâches de data mining.
4. Implémenter les algorithmes classiques de data mining pour découvrir des modèles et des tendances cachés.
5. Savoir interpréter et communiquer les résultats de l'analyse de données de manière claire et concise.
2
Descriptif du module
Les éléments du module: Un seul élément
Méthodes pédagogiques :
Cours magistraux
Etude de cas et travaux pratiques
Exposés (discussions et débats en classe)
Mini-projets
Évaluations
Mode d’évaluation:
Exposés et participation en classe: 10%
Travaux pratiques: évaluation des TPs + Compte rendu mini-projets: 40%
Examen final: 50 %
3
Plan
Chapitre 1: Introduction aux Sciences de Données
• Définition des Sciences de Données
• Les types de données
• Rôles et responsabilités du Data Scientist
• Les défis et limites des sciences de données
• Les outils et langages de programmation utilisés en sciences de données
Chapitre 2: Processus d’Extraction de Connaissances à partir de données ECD
• Enjeux
• Etapes du processus d’ECD
• Le standard CRISP-DM comme modèle de processus d’ECD
Chapitre 3: Les techniques de data mining (Fouille de données)
• Définition et objectifs du data mining
• Applications
• Les deux catégories de data mining
• Les principales techniques de data mining
Chapitre 4: Évaluation des modèles
• Métriques d'évaluation des modèles
• Validation croisée
• Sur-ajustement et sous-ajustement
Chapitre 5: Utilisation des résultats du data mining
• Techniques de présentation des résultats du data mining
• Interprétation des résultats
4
Chapitre 1: Introduction aux Sciences de Données
5
Chapitre 1: Introduction aux Sciences de données
Définition des Sciences de Données
Les sciences de données, également appelées data science, sont un
domaine interdisciplinaire qui utilise des méthodes scientifiques, des
processus, des algorithmes et des systèmes pour extraire des
connaissances et des informations utiles à partir de données
structurées et non structurées.
Les sciences de données combinent des compétences en
mathématiques, en statistiques, en programmation informatique et en
domaines spécifiques afin de résoudre des problèmes complexes et de
prendre des décisions éclairées basées sur les données.
En résumé, La Data Science permet d’exploiter les données afin de modéliser
des comportements, de prendre des décisions, ou de faire des prédictions en
utilisant des algorithmes.
6
Chapitre 1: Introduction aux Sciences de données
Pourquoi la science de données
Dans un environnement concurrentiel où les données ne cessent de circuler, les décideurs peuvent compter sur la Data
Science pour analyser leurs données afin de faire émerger des informations cachées pouvant les aider à prendre des décisions
plus avisées concernant leur business.
En utilisant la Data Science, les entreprises seront capables de réaliser :
• De meilleures décisions (devrions-nous choisir A ou B)
• Analyse prédictive (que va-t-il se passer ensuite ?)
• Découvertes de modèles (trouver un modèle, ou peut-être des informations cachées dans les données)
Exemples de cas où la science des données est nécessaire :
Pour la planification d'itinéraire : pour découvrir les meilleurs itinéraires d'expédition
Prévision de la demande, prévision des ventes
Recommandations de produits à partir de l’expérience client
Maintenance préventive.
Pour prédire qui gagnera les élections
Pour prédire les étudiants qui vont quitter leurs études
7
Chapitre 1: Introduction aux Sciences de données
Les type de données
a. Les différents types de données utilisées dans l'analyse statistique.
des variables qui peuvent être classées sont des variables numériques qui
en différentes catégories distinctes. peuvent être mesurées et doivent
avoir un sens lorsque l’on y applique
des opérations arithmétiques.
Ex: le genre Ex: Mention (P, AB, Ex: le nombre de Ex: le montant, la
(homme, femme), B, TB) voitures dans un température, note
le type de sang (A, Sondage niveau de parking, le nombre étudiant
B, AB, O) ou la satisfaction des clients de frères et sœurs
couleur des yeux (très insatisfait, ou le nombre de
(bleu, marron, vert) insatisfait, peu points marqués
satisfait, satisfait, très dans un match de
satisfait football 8
Chapitre 1: Introduction aux Sciences de données
Les type de données
b. Types de données dans les contextes de Big data
- Big Data fait référence aux gros volumes de données qui nous entourent.
- Chaque type de données diffère dans la manière dont il est créé, stocké et analysé.
- Sur la base des caractéristiques, les données sont classées dans trois types: structurées, semi-structurées et non structurées.
Données structurées Données non structurées Données semi-structurées
sont essentiellement tout ce qui sont des données qui ne sont pas sont des informations qui ne résident pas dans une
peut être placé dans des bases organisées de manière prédéfinie base de données rationnelle, mais qui possèdent
de données relationnelles et ou qui ne possèdent pas de des propriétés organisationnelles facilitant leur
organisé de manière à être lié à modèle (schéma) de données analyse. Utilisent les balises ou d’autres marqueurs
d'autres données via des prédéfini. pour séparer les données.
tables. Très complexes à stocker dans Ex: Fichier XML, JSON
des bases de données de type
Ex: Données relationnelles
lignes et colonnes.
ID nom note
1000 Ali 14,17
1001 Kamal 17,44
1002 Ahmed 16,73
9
Chapitre 1: Introduction aux Sciences de données
Les type de données
2. Types de données dans les contextes de Big data
Quiz: Déterminer le type de données pour chaque exemple
Exemple Données structurées Données non-structurées Données semi-structurées
Une feuille excel
Un email
Un avis client
Un live tik tok
Fichier texte
Fichier contient des tags (ou
d'autres marqueurs)
10
Chapitre 1: Introduction aux Sciences de données
Les type de données
2. Types de données dans les contextes de Big data
Quiz: Déterminer le type de données pour chaque exemple
Exemple Données structurées Données non-structurées Données semi-structurées
Une feuille excel X
Un email X
Un avis client X
Un live tik tok X
Fichier texte X
Fichier contient des tags (ou X
d'autres marqueurs)
11
Chapitre 1: Introduction aux Sciences de données
Rôles et responsabilités du Data Scientist
Un Data Scientist nécessite des compétences solides dans plusieurs domaines :
1. Programmation (Python ou R)
2. Base de données
3. Mathématiques et Statistiques
4. Machine learning
12
Chapitre 1: Introduction aux Sciences de données
Rôles et responsabilités du Data Scientist
Les rôles et responsabilités d'un Data Scientist peuvent varier en fonction de l'entreprise et du
domaine d'application spécifique.
Les tâches les plus courantes d’un data scientist:
1. Posez les bonnes questions: Pour comprendre la problématique business.
2. Collecte et nettoyage des données : Le Data Scientist est responsable de la collecte de données pertinentes pour résoudre
un problème spécifique. Cela peut impliquer de travailler avec des bases de données, des API ou des sources de données
externes. Le Data Scientist doit également nettoyer et préparer les données pour les rendre utilisables dans les modèles
d'analyse.
3. Analyse exploratoire des données : Le Data Scientist effectue une analyse approfondie des données pour comprendre les
tendances, les modèles et les relations entre les variables. Cela peut impliquer l'utilisation de techniques statistiques et de
visualisation des données pour identifier des informations clés.
4. Développement de modèles prédictifs : Le Data Scientist utilise des techniques d'apprentissage automatique et de statistiques
pour développer des modèles prédictifs qui peuvent être utilisés pour résoudre des problèmes spécifiques. Cela peut inclure des
modèles de régression, de classification, de clustering ou d'autres techniques avancées.
5. Evaluation des modèles, mise en oeuvre des ces derniers et communication des résultats.
6. Veille technologique : Le Data Scientist doit rester à jour sur les dernières avancées en matière d'apprentissage automatique,
de statistiques et de technologies connexes.
13
Chapitre 1: Introduction aux Sciences de données
Les défis et limites des sciences de données
Les sciences des données sont un domaine en pleine évolution et elles peuvent être confrontées à plusieurs
défis et limites.
1. Qualité des données : Les données utilisées dans les sciences des données peuvent être incomplètes, bruitées ou de
mauvaise qualité. Il peut être difficile de nettoyer et de préparer ces données pour l'analyse, ce qui peut affecter la qualité des
résultats obtenus.
2. Confidentialité et éthique : Les données utilisées dans les sciences des données peuvent contenir des informations sensibles
sur les individus, ce qui soulève des questions de confidentialité et d'éthique. Il est important de prendre des mesures pour
protéger la vie privée des individus.
3. Volume et vitesse des données : Les données sont générées à un rythme exponentiel, ce qui peut rendre difficile leur
collecte, leur stockage et leur analyse.
4. Complexité des modèles : La création, l'optimisation et l'interprétation des modèles complexes peuvent être difficiles et
nécessitent des compétences avancées en mathématiques, en statistiques et en informatique (ressources humaines
polyvalentes).
14
Chapitre 1: Introduction aux Sciences de données
Les défis et limites des sciences de données
5. Interprétation des résultats : Les résultats obtenus à partir de l'analyse des données peuvent être difficiles à interpréter et à
expliquer responsables non techniques. Il est important pour les scientifiques des données de pouvoir communiquer
efficacement les résultats de manière compréhensible et pertinente pour les décideurs.
6. Disponibilité des compétences : Les compétences nécessaires pour être un bon scientifique des données sont en forte
demande, ce qui peut rendre difficile le recrutement de professionnels qualifiés.
7. Évolution rapide des technologies : Les technologies et les outils utilisés dans les sciences des données évoluent rapidement,
ce qui nécessite une mise à jour constante des compétences et une adaptation aux nouvelles méthodes et techniques.
15
Chapitre 1: Introduction aux Sciences de données
Les outils et langages de programmation utilisés en sciences de données
La boîte à outils d’un Data Scientist
• SGBD : Oracle, MySQL, PostGreSQL, MongoDB
• Outils ETL: Talend, Pentaho
• Framework de traitement distribué de gros volumes de données
big data: Hadoop, Apache Spark
• Plateforme d’analyse de données et Machine learning: Knime,
weka, tanagra
• Langage de programmation dédié aux sciences de données:
Python, R
• Langage de communication avec les BD relationnelles: SQL,
PL/SQL
• Outils de BI et dataviz: PowerBI, Tableau, Looker
N.B: Ces outils et langages ne sont qu'une petite sélection parmi de nombreux autres disponibles. Le choix
des outils et langages dépendra des besoins spécifiques du projet et des préférences de l'équipe de
sciences des données.
16