FASCICULE DE COURS
FOUILLE DE DONNÉES
2ème année Génie Informatique
Semestre 1
PRÉSENTÉ PAR
M. Taoufik BEN ABDALLAH M. Tarak BEN SAID
[Link]@[Link] [Link]@[Link]
2024-2025
Objectifs du cours
Sensibiliser les étudiants à l’importance du Data Mining en tant que
nouveau domaine technologique
Positionner le Data Mining dans le processus d’Extraction des
Connaissances à partir des Données (ECD)
Maîtriser les principes théoriques et pratiques de quelques
techniques du Data Mining
IIT-Sfax
T. Ben Abdallah & T. Ben Said 2
Organisation du cours
RÉPARTITION APPROXIMATIVE DU CHARGE HORAIRE=42H
COURS+TD TRAVAUX PRATIQUES
26H 16H
EVALUATION 20% DS 25% Projet 55% Examen
IIT-Sfax
T. Ben Abdallah & T. Ben Said 3
PLAN
DU COURS
Plan du cours
1 Aperçu général sur le processus ECD
2 Prétraitement de données
3 DM descriptif : Découverte des règles d’association
4 DM prédictif : Classification & Régression
IIT-Sfax
T. Ben Abdallah & T. Ben Said 5
Plan du cours (4- Classification & Régression)
A- Echantillonnage & Estimation
des performances
B- Arbres de décision
C- Techniques ensemblistes
D- Régression linéaire & logistique
IIT-Sfax
T. Ben Abdallah & T. Ben Said 6
VOLET PRATIQUE
Calcul Scientifique avec
Exploration des données avec
Visualisation graphique avec &
Prétraitement de Données, Échantillonnage, Apprentissage
Automatique et Évaluation des Performances avec
IIT-Sfax
T. Ben Abdallah & T. Ben Said 7
INTRODUCTION GÉNÉRALE
ﺗﻘﺪﻳﻢ ﻋﺎﻡ
Génie Indus 3
8
L’ère des données!
Masse de données souvent non-exploitée
Beaucoup de données mais peu de connaissances
Comment exploiter les données
Solution: Extraction des Connaissances
à partir des Données (ECD)
IIT-Sfax
T. Ben Abdallah & T. Ben Said 9
Extraction des Connaissances à partir des Données
Informations
significatives Connaissances
Data Mining
Sens
Produire des
connaissances en faisant
Informations Données parler les données !
extraites préparées
Contexte
Données
IIT-Sfax
T. Ben Abdallah & T. Ben Said 10
Domaines d’application en DM
Vision par ordinateur Traitement du Langage Recommandation Industrie
Naturel (NLP) de contenu
Agriculture Éducation Finance Santé Transport
IIT-Sfax
T. Ben Abdallah & T. Ben Said 11
Quelques applications en DM
Système de recommandations Détection des maladies Détection Fraude bancaires
Analyse des avis des internautes Détection objets en mouvements
IIT-Sfax
T. Ben Abdallah & T. Ben Said 12
Data Mining vs Machine Learning
Machine Learning=
Data Science
La façon d’écrire des
programmes qui peuvent Statistics
apprendre
Data Mining= Data Machine
Découverte de connaissances DL IA
Mining Learning
à partir de données
ECD
Data Mining implique
l’utilisation de ML IA : Intelligence Artificielle
DL : Deep Learning
IIT-Sfax
T. Ben Abdallah & T. Ben Said 13
Données!
Données structurées Données semi-structurées Données non-structurées
Données Tabulaire!
Data Mining /
Machine Learning
IIT-Sfax
T. Ben Abdallah & T. Ben Said 14
CHAPITRE 1
APERÇU GÉNÉRAL SUR
LE PROCESSUS ECD
Génie Indus 3
15
Processus ECD Trois phases majeurs!
Préparation des données
Data Mining : étape centrale de l’ECD
Interprétation & Validation des modèles
IIT-Sfax
T. Ben Abdallah & T. Ben Said 16
Processus ECD Trois phases majeurs!
Données Données
I-Préparation des
données
Informations Espace de descripteurs
II-Data Mining
Connaissances Modèles
III-Validation
Modèle retenu
IIT-Sfax
T. Ben Abdallah & T. Ben Said 17
PhaseI: Préparation des données
1. Détection des descripteurs
Construction de l’espace des données qui va être exploré
Espace des données= Jeu de donnée= Espace de descripteurs (Feature space)
Collection d’observations ou objets + leurs attributs
Une collection d’attributs décrit un objet
Un objet est également appelé échantillon=entité = instance
Client Salaire S. Familiale Ville
1 Moyen Divorcé Tunis Descripteurs = Attributs =
2 Elevé Célibataire Tunis
3
variables =caractéristiques
Faible Célibataire Sfax
⋮ ⋮ ⋮ ⋮ = Information
Observations
IIT-Sfax
T. Ben Abdallah & T. Ben Said 18
PhaseI: Préparation des données
1. Détection des descripteurs
Type de valeurs des descripteurs
A. Discret : chaine de caractères (nominal & ordinal)
Nominal Ordinal
Aucune relation existe entre les valeurs Les valeurs ont un ordre significatif
N’est pas possible de calculer des distances
ex. Noir/ Rouge/ Blanc ex. Chaud>Moyen>Froid
IIT-Sfax
T. Ben Abdallah & T. Ben Said 19
PhaseI: Préparation des données
1. Détection des descripteurs
Type de valeurs des descripteurs
B. Binaire : Seulement deux valeurs (vrai, faux / 0,1)
Symétrique Asymétrique
Les deux résultats sont d’importance égale Les résultats n’ont pas la même importance
ex. sexe H/F ex. Test médical P/N
C. Continue : Nombres entier ou réels =valeurs quantitatives
IIT-Sfax
T. Ben Abdallah & T. Ben Said 20
PhaseI: Préparation des données
2. Prétraitement Data preprocessing
Nettoyage de données
Remplacer les valeurs manquantes
Transformation des données
Supprimer les valeurs aberrantes
Normaliser les données
Discrétisation des données
Réduction des données
Convertir les attributs continus en
attributs discrets Réduire des données ou des descripteurs
IIT-Sfax
T. Ben Abdallah & T. Ben Said 21
PhaseII : Data Mining Tâches
Appliquer de méthodes intelligentes
pour extraire des modèles de données
Data Mining descriptif
Mettre en évidence des informations présentes
mais cachées par le volume de données
Data Mining prédictif
Extrapoler de nouvelles informations à partir
des informations présentes
IIT-Sfax
T. Ben Abdallah & T. Ben Said 22
PhaseII : Data Mining DM descriptif
Statistique descriptive: Résumé des données qui soit le plus
intelligible → Représentation graphique
Découverte des règles d’association : Découvrir des relations
entre des produits (secteur de Marketing)
IIT-Sfax
T. Ben Abdallah & T. Ben Said 23
PhaseII : Data Mining DM descriptif
Apprentissage non-supervisé Clustering
→ Organisation des données en groupes
→ Les données similaires soient dans le même groupe
Client Salaire S. Familiale Ville Classe Pas de cible
1
(pas de label)
Moyen Divorcé Tunis
2 Elevé Célibataire Tunis ? non
3 Faible Célibataire Sfax ? non
⋮ ⋮ ⋮ ⋮ ?⋮
IIT-Sfax
T. Ben Abdallah & T. Ben Said 24
PhaseII : Data Mining DM prédictif
Apprentissage supervisé classification/ Régression
→ Extrapoler des nouvelles informations à partir de données existantes
→ Prédire la classe de nouvelles données observées
Rembourse Classe
Client Salaire S. Familiale Ville
son crédit
1 Moyen Divorcé Tunis ? oui Très
2 Elevé Célibataire Tunis ? non
3 Faible Célibataire Sfax ? non couteux
⋮ ⋮ ⋮ ⋮ ?⋮ à avoir !!!
IIT-Sfax
T. Ben Abdallah & T. Ben Said 25
PhaseII : Data Mining DM prédictif
Classification : Prédire des valeurs discrètes
Sera-t-il froid ou chaud demain? Froid (A)/ chaud (B)
Régression : Prédire des valeurs continues
Quelle est la température demain?
IIT-Sfax
T. Ben Abdallah & T. Ben Said 26
PhaseII : Data Mining DM prédictif
Techniques souvent utilisées
Arbres de décision
Réseau de neurones
Régression logistique/ linéaire
Support Vector Machine (SVM)
Gradient Boosting/ XGBoost/CatBoost
Random Forest
IIT-Sfax
T. Ben Abdallah & T. Ben Said 27
PhaseIII: Validation
Les modèles extraits ne peuvent être utilisés
directement en toute fiabilité!
Validation= évaluer les performances d’un modèle
DM descriptif= Visualisation + Interprétation
DM prédictif= Échantillonnage+Calcul d’erreur
IIT-Sfax
T. Ben Abdallah & T. Ben Said 28
Quelques outils de Data Mining
Open Source
Licensed
IIT-Sfax
T. Ben Abdallah & T. Ben Said 29
Librairies & Framework
IIT-Sfax
T. Ben Abdallah & T. Ben Said 30
Quiz
1. L’étape de préparation de données consiste principalement à (seule réponse)
Donner un contexte aux données
Donner un sens aux informations
Évaluer et interpréter la fiabilité des données
Répartir les données
2. L’espace de descripteurs est une représentation matricielle (plusieurs réponses)
De connaissances
D’informations
Où les colonnes sont les descripteurs et les lignes sont les échantillons
Où les colonnes sont les échantillons et les lignes sont les descripteurs
3. L’apprentissage supervisé (seule réponse)
Est appliqué pour constituer des groupes d’objets homogènes et différenciés
Consiste à utiliser des données pour dégager des informations
Est appliqué principalement pour le regroupement
Nécessite des échantillons étiquetés par une ou plusieurs classes
IIT-Sfax
T. Ben Abdallah & T. Ben Said 31