0% ont trouvé ce document utile (0 vote)
145 vues16 pages

Cours-DM Chap1

Transféré par

Rayen BEN AOUN
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
145 vues16 pages

Cours-DM Chap1

Transféré par

Rayen BEN AOUN
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

FASCICULE DE COURS

FOUILLE DE DONNÉES
2ème année Génie Informatique
Semestre 1

PRÉSENTÉ PAR

M. Taoufik BEN ABDALLAH M. Tarak BEN SAID


 [Link]@[Link]  [Link]@[Link]

2024-2025 

Objectifs du cours

Sensibiliser les étudiants à l’importance du Data Mining en tant que


nouveau domaine technologique

Positionner le Data Mining dans le processus d’Extraction des


Connaissances à partir des Données (ECD)

Maîtriser les principes théoriques et pratiques de quelques


techniques du Data Mining

IIT-Sfax
T. Ben Abdallah & T. Ben Said 2
Organisation du cours 

RÉPARTITION APPROXIMATIVE DU CHARGE HORAIRE=42H


COURS+TD TRAVAUX PRATIQUES
26H 16H

EVALUATION 20% DS 25% Projet 55% Examen

IIT-Sfax
T. Ben Abdallah & T. Ben Said 3

PLAN
DU COURS
Plan du cours

1 Aperçu général sur le processus ECD

2 Prétraitement de données

3 DM descriptif : Découverte des règles d’association

4 DM prédictif : Classification & Régression

IIT-Sfax
T. Ben Abdallah & T. Ben Said 5

Plan du cours (4- Classification & Régression)

A- Echantillonnage & Estimation


des performances

B- Arbres de décision

C- Techniques ensemblistes

D- Régression linéaire & logistique

IIT-Sfax
T. Ben Abdallah & T. Ben Said 6
VOLET PRATIQUE

Calcul Scientifique avec

Exploration des données avec

Visualisation graphique avec &

Prétraitement de Données, Échantillonnage, Apprentissage


Automatique et Évaluation des Performances avec

IIT-Sfax
T. Ben Abdallah & T. Ben Said 7

INTRODUCTION GÉNÉRALE
‫ﺗﻘﺪﻳﻢ ﻋﺎﻡ‬

Génie Indus 3
8
L’ère des données!

 Masse de données souvent non-exploitée

 Beaucoup de données mais peu de connaissances

Comment exploiter les données

Solution: Extraction des Connaissances


à partir des Données (ECD)

IIT-Sfax
T. Ben Abdallah & T. Ben Said 9

Extraction des Connaissances à partir des Données

Informations
significatives Connaissances
Data Mining
Sens
Produire des
connaissances en faisant
Informations Données parler les données !
extraites préparées

Contexte

Données

IIT-Sfax
T. Ben Abdallah & T. Ben Said 10
Domaines d’application en DM

Vision par ordinateur Traitement du Langage Recommandation Industrie


Naturel (NLP) de contenu

Agriculture Éducation Finance Santé Transport

IIT-Sfax
T. Ben Abdallah & T. Ben Said 11

Quelques applications en DM

Système de recommandations Détection des maladies Détection Fraude bancaires

Analyse des avis des internautes Détection objets en mouvements

IIT-Sfax
T. Ben Abdallah & T. Ben Said 12
Data Mining vs Machine Learning

Machine Learning=
Data Science
La façon d’écrire des
programmes qui peuvent Statistics
apprendre
Data Mining= Data Machine
Découverte de connaissances DL IA
Mining Learning
à partir de données
ECD
Data Mining implique
l’utilisation de ML IA : Intelligence Artificielle
DL : Deep Learning

IIT-Sfax
T. Ben Abdallah & T. Ben Said 13

Données!

Données structurées Données semi-structurées Données non-structurées

Données Tabulaire!

Data Mining /
Machine Learning

IIT-Sfax
T. Ben Abdallah & T. Ben Said 14
CHAPITRE 1
APERÇU GÉNÉRAL SUR
LE PROCESSUS ECD

Génie Indus 3
15

Processus ECD Trois phases majeurs!

Préparation des données

Data Mining : étape centrale de l’ECD

Interprétation & Validation des modèles

IIT-Sfax
T. Ben Abdallah & T. Ben Said 16
Processus ECD Trois phases majeurs!

Données Données

I-Préparation des
données

Informations Espace de descripteurs

II-Data Mining

Connaissances Modèles

III-Validation

Modèle retenu
IIT-Sfax
T. Ben Abdallah & T. Ben Said 17

PhaseI: Préparation des données

1. Détection des descripteurs


 Construction de l’espace des données qui va être exploré
 Espace des données= Jeu de donnée= Espace de descripteurs (Feature space)
 Collection d’observations ou objets + leurs attributs
 Une collection d’attributs décrit un objet
 Un objet est également appelé échantillon=entité = instance

Client Salaire S. Familiale Ville


1 Moyen Divorcé Tunis Descripteurs = Attributs =
2 Elevé Célibataire Tunis
3
variables =caractéristiques
Faible Célibataire Sfax
⋮ ⋮ ⋮ ⋮ = Information

Observations
IIT-Sfax
T. Ben Abdallah & T. Ben Said 18
PhaseI: Préparation des données

1. Détection des descripteurs


 Type de valeurs des descripteurs

A. Discret : chaine de caractères (nominal & ordinal)


Nominal Ordinal

Aucune relation existe entre les valeurs  Les valeurs ont un ordre significatif
 N’est pas possible de calculer des distances

ex. Noir/ Rouge/ Blanc ex. Chaud>Moyen>Froid

IIT-Sfax
T. Ben Abdallah & T. Ben Said 19

PhaseI: Préparation des données

1. Détection des descripteurs


 Type de valeurs des descripteurs

B. Binaire : Seulement deux valeurs (vrai, faux / 0,1)


Symétrique Asymétrique

 Les deux résultats sont d’importance égale  Les résultats n’ont pas la même importance
ex. sexe H/F ex. Test médical P/N

C. Continue : Nombres entier ou réels =valeurs quantitatives

IIT-Sfax
T. Ben Abdallah & T. Ben Said 20
PhaseI: Préparation des données

2. Prétraitement Data preprocessing

Nettoyage de données
Remplacer les valeurs manquantes
Transformation des données
Supprimer les valeurs aberrantes
Normaliser les données

Discrétisation des données


Réduction des données
Convertir les attributs continus en
attributs discrets Réduire des données ou des descripteurs

IIT-Sfax
T. Ben Abdallah & T. Ben Said 21

PhaseII : Data Mining Tâches

Appliquer de méthodes intelligentes


pour extraire des modèles de données

 Data Mining descriptif


Mettre en évidence des informations présentes
mais cachées par le volume de données

 Data Mining prédictif


Extrapoler de nouvelles informations à partir
des informations présentes

IIT-Sfax
T. Ben Abdallah & T. Ben Said 22
PhaseII : Data Mining DM descriptif

Statistique descriptive: Résumé des données qui soit le plus


intelligible → Représentation graphique

Découverte des règles d’association : Découvrir des relations


entre des produits (secteur de Marketing)

IIT-Sfax
T. Ben Abdallah & T. Ben Said 23

PhaseII : Data Mining DM descriptif

Apprentissage non-supervisé Clustering


→ Organisation des données en groupes
→ Les données similaires soient dans le même groupe

Client Salaire S. Familiale Ville Classe Pas de cible


1
(pas de label)
Moyen Divorcé Tunis
2 Elevé Célibataire Tunis ? non
3 Faible Célibataire Sfax ? non
⋮ ⋮ ⋮ ⋮ ?⋮

IIT-Sfax
T. Ben Abdallah & T. Ben Said 24
PhaseII : Data Mining DM prédictif

Apprentissage supervisé classification/ Régression


→ Extrapoler des nouvelles informations à partir de données existantes
→ Prédire la classe de nouvelles données observées
Rembourse Classe
Client Salaire S. Familiale Ville
son crédit
1 Moyen Divorcé Tunis ? oui Très
2 Elevé Célibataire Tunis ? non
3 Faible Célibataire Sfax ? non couteux
⋮ ⋮ ⋮ ⋮ ?⋮ à avoir !!!

IIT-Sfax
T. Ben Abdallah & T. Ben Said 25

PhaseII : Data Mining DM prédictif

Classification : Prédire des valeurs discrètes

 Sera-t-il froid ou chaud demain? Froid (A)/ chaud (B)

Régression : Prédire des valeurs continues

 Quelle est la température demain?

IIT-Sfax
T. Ben Abdallah & T. Ben Said 26
PhaseII : Data Mining DM prédictif

 Techniques souvent utilisées

Arbres de décision 
Réseau de neurones 
Régression logistique/ linéaire 
Support Vector Machine (SVM) 
Gradient Boosting/ XGBoost/CatBoost

Random Forest 
IIT-Sfax
T. Ben Abdallah & T. Ben Said 27

PhaseIII: Validation

Les modèles extraits ne peuvent être utilisés


directement en toute fiabilité!

Validation= évaluer les performances d’un modèle

DM descriptif= Visualisation + Interprétation

DM prédictif= Échantillonnage+Calcul d’erreur

IIT-Sfax
T. Ben Abdallah & T. Ben Said 28
Quelques outils de Data Mining

Open Source
Licensed

IIT-Sfax
T. Ben Abdallah & T. Ben Said 29

Librairies & Framework

IIT-Sfax
T. Ben Abdallah & T. Ben Said 30
Quiz
1. L’étape de préparation de données consiste principalement à (seule réponse)
 Donner un contexte aux données
 Donner un sens aux informations
 Évaluer et interpréter la fiabilité des données
 Répartir les données

2. L’espace de descripteurs est une représentation matricielle (plusieurs réponses)


 De connaissances
 D’informations
 Où les colonnes sont les descripteurs et les lignes sont les échantillons
 Où les colonnes sont les échantillons et les lignes sont les descripteurs
3. L’apprentissage supervisé (seule réponse)
 Est appliqué pour constituer des groupes d’objets homogènes et différenciés
 Consiste à utiliser des données pour dégager des informations
 Est appliqué principalement pour le regroupement
 Nécessite des échantillons étiquetés par une ou plusieurs classes

IIT-Sfax
T. Ben Abdallah & T. Ben Said 31

Vous aimerez peut-être aussi