0% ont trouvé ce document utile (0 vote)

45 vues61 pages

Ch2 Data Mining

Le document présente une introduction à la fouille de données, définie comme un processus d'extraction de connaissances à partir de grandes quantités de données. Il retrace l'historique de cette discipline, ses applications variées dans des domaines tels que la détection de fraudes et la segmentation de la clientèle, ainsi que les étapes essentielles du processus de data mining. Enfin, il aborde les types de données utilisés dans ce domaine et les méthodes de collecte appropriées.

Transféré par

Chaima Mestiri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

45 vues61 pages

Ch2 Data Mining

Transféré par

Chaima Mestiri

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Tunisienne

Traitement de données
Ministère de l’Enseignement Supérieur
et de la Recherche Scientifique
Université de Sousse
Niveau: 1DNI
A.U. 2023/2024
CH2: Data mining/ La
fouille des données

Dr. Amina BEN HAJ KHALED

U. R. Sciences Et Technologies de l’Image et

des Télécommunications (SETIT)

amina1benhajkhaled@[Link]
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

1. Introduction
❑ Data mining= KDD (Knowledge Discovery in Databases)= Fouille des données.

❑ La notion de découvrir des faits à partir des données remonte aussi loin que l'histoire de la
statistique.

❑ John Kettenring, un statisticien renommé qui a été président de l'American Statistical

Association (ASA) en 1997, décrit les statistiques comme la science de l'apprentissage à partir
des données. Elles sont essentielles au bon fonctionnement des gouvernements, au processus
de prise de décision dans l'industrie, et sont un élément central des programmes éducatifs
modernes à tous les niveaux.

2
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

2. Historique du Data mining

✓ Les origines de l’exploration de données remontent aux années 1950, lorsque les premiers
ordinateurs ont été développés et utilisés pour la recherche scientifique et mathématique.

✓ Dans les années 1950 et 1960 , Dr Herbert Simon ,le père de l’intelligence artificielle, et ses
collègues ont développé un certain nombre d'algorithmes et de techniques pour l’extraction des
informations et des idées utiles à partir de données, notamment le clustering, la classification
et les arbres de décision.

✓ Dans les années 1980 et 1990, le domaine de l'exploration de données a continué d'évoluer et
de nouveaux algorithmes et techniques (SAS, SPSS et RapidMiner) ont été développés pour
relever les défis liés au travail avec des ensembles de données volumineux et complexes.

✓ Ces dernières années, la disponibilité d’ensembles de données volumineux et la croissance des

technologies de cloud computing et de big data ont rendu l’exploration de données encore
plus puissante et largement utilisée. 3
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data mining: définition

Définition

❑ Le Data mining est une démarche qui est située dans intersection entre la statistique et des
technologies de l’information dont le but de découvrir des relations, des règles et des
corrélations/dépendances, afin d’analyser des volumes massifs de données et d’en tirer des
informations exploitables.

❑ En français, le Data mining porte différents noms :

✓ Exploration de données
✓ Fouille de données
✓ Forage de données
✓ Ou encore extraction de connaissances à partir de données

❑ Le Data mining est étroitement lié à l'analyse du Big Data, à l'intelligence prédictive et à
l'exploitation des données, formant ainsi un processus essentiel dans ces domaines.

4
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Les raisons du développement

Big data Puissance de calcul Création de

• Loi de Moore
valeur ajoutée
• Twitter :
50M de tweets /jour Il prédit que le nombre de
(=7 téraoctets) transistors dans un circuit
intégré (et par extension la • Une approche
• Facebook : puissance de calcul des davantage orientée vers
10 téraoctets /jour ordinateurs) double les besoins et les désirs
environ tous les deux ans. des clients.
• Youtube : • Calcul massivement
50h de vidéos uploadées distribué. • Extraction des
/minute connaissances et des
informations utiles.

5
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Exemples d’application

L’exploration de données a un large éventail d’applications et de cas d’utilisation dans de
nombreux secteurs et domaines.

1. Analyse du panier de consommation : Il s’agit d’analyser les données sur les achats des
clients afin d’identifier les articles qui sont fréquemment achetés ensemble, et d’utiliser ces
informations pour faire des recommandations ou des suggestions aux clients.

2. Détection des fraudes : Elle est largement utilisée dans le secteur financier pour détecter et
prévenir la fraude. Il s’agit d’analyser les données sur les transactions et le comportement des
clients afin d’identifier les modèles ou les anomalies qui peuvent indiquer une activité
frauduleuse.

6
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

3. Le Data-Mining : Exemples d’application

3. Segmentation de la clientèle : Elle est couramment utilisée dans les secteurs du marketing
et de la publicité pour segmenter les clients en différents groupes en fonction de leurs
caractéristiques et de leur comportement. Ces informations peuvent ensuite être utilisées
pour adapter les campagnes de marketing et de publicité à des segments spécifiques de
clients.

4. Maintenance prédictive : Il s’agit d’analyser les données sur les performances et

l’utilisation de l’équipement afin d’identifier les modèles qui peuvent indiquer des
défaillances potentielles, et d’utiliser ces informations pour planifier la maintenance et
prévenir les temps d’arrêt.

5. Détection d’intrusion sur le réseau : Il s’agit d’analyser les données sur le trafic et le
comportement du réseau afin d’identifier les modèles susceptibles d’indiquer une tentative
d’intrusion, et d’utiliser ces informations pour alerter les équipes de sécurité et prévenir les
attaques.
7
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

4. Le Processus du Data mining

1. Comprendre et analyser les objectifs de l’application.
2. Créer une base de données pour la mise au point de l’application.
3. Prétraitement et nettoyage des données.
4. Identifier le type de problème et choisir un algorithme.
5. Evaluer les performances de l’algorithme.
6. Réitérer les étapes précédentes si nécessaire.
7. Déployer l’application.

8
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

4. Le Processus du Data mining

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining

9
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

Exercice 1:
Effectuer un prétraitement de base sur l'ensemble de données "tips" pour mieux comprendre sa
structure et ses caractéristiques, et préparer les données pour une analyse ultérieure.
1. Charger l'ensemble de données "tips" à partir de Seaborn.
2. Afficher les premières lignes du DataFrame pour comprendre sa structure.
3. Vérifier s'il y a des valeurs manquantes dans l'ensemble de données et décider comment les
gérer.
4. Examiner les types de données de chaque colonne et convertir si nécessaire.
5. Explorer les statistiques descriptives pour comprendre la distribution des variables
numériques.
6. Effectuer un encodage des variables catégorielles si nécessaire.
7. Enregistrer le DataFrame prétraité dans un nouveau fichier si nécessaire.

10
Niveau: 1DNI
Ch2: Data mining/Fouille des données A.U. 2023/2024

Exercice 1: Correction
import seaborn as sns

# Charger l'ensemble de données Tips

tips_data = sns.load_dataset("tips")

# Afficher les premières lignes du DataFrame

print(tips_data.head())

# Vérifier les valeurs manquantes

print(tips_data.isnull().sum())

# Examiner les types de données

print(tips_data.dtypes)

# Statistiques descriptives
print(tips_data.describe())

# Encodage des variables catégorielles (si nécessaire)

import pandas as pd

# Encoder les variables catégorielles

encoded_tips_data = pd.get_dummies(tips_data, columns=['sex', 'smoker', 'day'], drop_first=True)

# Afficher les premières lignes du DataFrame encodé

print(encoded_tips_data.head())

encoded_tips_data.to_csv("tips_preprocessed.csv", index=False)

11
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus

L’étape de définir et comprendre le problème dans le processus de data mining est cruciale
pour orienter efficacement toute l'analyse. Les étapes les plus importantes pour établir des
objectifs clairs sont: Définir et comprendre le problème
✓ Identification des besoins métier (Comprendre les objectifs stratégiques de l'entreprise,
identifier les questions commerciales clés,
Collecte desévaluer
données les opportunités).

✓ Formulation d'objectifs spécifiquesPrétraitement

et mesurables: Les objectifs doivent être clairs,
précis et mesurables. Par exemple, au lieu de dire "améliorer la satisfaction des clients",
Choisir
l'objectif pourrait être formulé comme le modèle le temps de réponse du service client de
"réduire
30% d'ici la fin de l'année".
Evaluer les performances

✓ Compréhension des contraintes et des limites: Il est important de prendre en compte

Interpréter le modèle
les contraintes et les limites du projet dès le début. Cela peut inclure des contraintes
budgétaires, des limitations technologiques, des restrictions légales ou réglementaires, ou
des problèmes de confidentialité des données.
Processus Une fois ces facteurs pris en compte, les
du Data mining
objectifs peuvent être ajustés en conséquence pour être réalistes et réalisables. 12
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus

✓ Validation des hypothèses: Souvent, avant de commencer à explorer les données, il peut
y avoir des hypothèses sur ce que les données pourraient révéler. Ces hypothèses doivent
être examinées et validées pour s'assurer qu'elles sont fondées sur des faits plutôt que sur
des suppositions.

✓ Décomposition des objectifs en tâches plus petites : Les objectifs globaux peuvent
souvent être décomposés en plusieurs sous-objectifs ou tâches plus petites. Cela facilite la
gestion du projet et permet de mesurer les progrès de manière plus granulaire.

13
Etape1: Définir et comrendre le problème Niveau: 1DNI
A.U. 2023/2024

4.1. Première étape du processus

Définir et comprendre le problème Définir et comprendre le problème

Collecte des données 1 5

Identification Décomposition
Prétraitement des besoins en petites
taches

Choisir le modèle
2 4
Evaluer les performances Objectifs Validation
spécifiques et des
mesurables hypothèses
3
Interpréter le modèle
Compréhension
des limites
Processus du Data mining
14
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Définition

❑ La collecte de données en Data mining est le processus de rassemblement et d'acquisition

de données brutes à partir de différentes sourcesle pour
Définir et comprendre les utiliser dans l'analyse et l'extraction
problème
de connaissances.
Collecte des données
❑ Dans cette étape, il est nécessaire de définir les méthodes de collecte de données les plus
Prétraitement
adéquates pour chaque source de données.

✓ La collecte de données en ligne: Google

Choisir Forms, SurveyMonkey, Qualtrics.
le modèle

✓ La collecte de données sur le terrain:

Evaluer ODK Collect, KoboToolbox, FormHub.
les performances

✓ Les données de transaction: Excel,

Interpréter le modèle QuickBooks
MySQL,

✓ Les données des médias sociaux: Hootsuite Insights, Brandwatch, Sprout Social.
Processus du Data mining
15
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ En data mining, les données peuvent être classées en différents types en fonction de leur
structure et de leur format.

❑ Les principaux types de données utilisés en Data mining sont les suivants :

✓ Les données structurées.

✓ Les données semi-structurées.

✓ Les données non structurées.

✓ Les données temporelles.

✓ Les données géospatiales.

16
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ Les données structurées sont des données organisées dans un format tabulaire avec des
lignes et des colonnes.
❑ Elles sont généralement stockées dans des bases de données relationnelles et sont faciles à
interroger à l'aide de requêtes SQL.
❑ Les exemples de données structurées comprennent les données transactionnelles, les
données démographiques, les données financières, etc.
Données structurées

17
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ Les données semi-structurées sont des données qui ne sont pas strictement organisées
dans un format tabulaire, mais qui ont une certaine structure qui peut être exploitée pour
l'analyse.
❑ Par exemple, les fichiers XML, les fichiers JSON et les documents HTML sont des
exemples de données semi-structurées.
❑ Bien qu'elles ne soient pas aussi facilement interrogeables que les données structurées,
elles peuvent souvent être transformées en données structurées pour l'analyse.

18
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ Les données non structurées sont des données qui n'ont pas de structure prédéfinie et qui
ne sont pas organisées dans un format tabulaire.
❑ Elles représentent souvent du texte, des images, des vidéos, des fichiers audio, des e-mails,
etc.
❑ Les données non structurées présentent un défi particulier en matière d'analyse en raison de
leur complexité et de leur manque de structure.
❑ Cependant, de nombreuses techniques sont capables de traiter et d'analyser efficacement
ces types de données.

19
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ Les données temporelles sont des données qui sont collectées ou enregistrées dans le
temps.
❑ Elles peuvent inclure des séries temporelles telles que des données météorologiques, des
données de trafic, des données de ventes sur une période donnée, etc.
❑ L'analyse des données temporelles est souvent utilisée pour détecter des tendances, des
cycles et des anomalies dans les données au fil du temps.

20
Etape2: Collecte de données Niveau: 1DNI
A.U. 2023/2024

4.2. Deuxième étape du processus

Types de données

❑ Les données géospatiales sont des données qui sont associées à des emplacements
géographiques spécifiques.
❑ Elles peuvent inclure des données cartographiques, des données GPS, des données de
localisation de téléphones portables, etc.
❑ L'analyse des données géospatiales est utilisée pour étudier des phénomènes qui varient
dans l'espace, tels que la répartition de la population, les modèles de déplacement, etc.

21
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

❑ Le prétraitement des données en Data mining est une étape essentielle qui vise à préparer
les données brutes pour l'analyse.
❑ Les techniques de prétraitement lesDéfinir
pluset couramment
comprendre le problème
utilisées sont :
✓ Nettoyage des données Collecte des données

✓ Transformation des données

Prétraitement
✓ Réduction de dimensionnalité
Choisir le modèle
✓ Sélection des caractéristiques
✓ Gestion des valeurs manquantes
Evaluer les performances

✓ Équilibrage des classes Interpréter le modèle

✓ Gestion des données bruitées

Processus du Data mining
22
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Prétraitement

Définir et comprendre le problème

1 6 5

Collecte des données Nettoyage des Équilibrage des Gestion des valeurs
données classes manquantes
Prétraitement

7
Choisir le modèle 2 4
Gestion des
Transformation
données bruitées Sélection des
Evaluer les performances des données
caractéristiques

Interpréter le modèle 3

Réduction de
dimensionnalité
Processus du Data mining
23
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

1. Nettoyage des données :

✓ Le nettoyage des données implique l'élimination des données bruitées, incohérentes,
redondantes ou manquantes.
✓ Cela peut inclure la suppression des valeurs aberrantes, la correction des erreurs, le
remplissage des valeurs manquantes, etc.
Exemple:
Supposons qu’on d'un ensemble de données contenant des informations sur les clients, y compris leur nom, leur âge, leur adresse, leur
adresse e-mail et leur historique d'achat. Les problèmes courants lors du nettoyage sont:
[Link] manquantes : Certaines entrées peuvent manquer d'informations, par exemple l'adresse e-mail ou l'âge du client. Pour gérer
cela, vous pourriez choisir de remplir les valeurs manquantes en utilisant des techniques d'imputation comme la moyenne, la médiane…
[Link] : Il peut y avoir des entrées en double dans l'ensemble de données, par exemple si un client a été enregistré plusieurs fois
avec des informations légèrement différentes. Pour traiter les doublons, vous pouvez identifier les enregistrements en double en
comparant les valeurs des colonnes clés telles que le nom et l'adresse, puis supprimer les doublons pour ne conserver qu'une seule
entrée pour chaque client.
[Link] aberrantes : Les valeurs aberrantes sont des valeurs qui sont très différentes du reste de l'ensemble de données et peuvent
fausser les résultats de l'analyse., Il est possible de les supprimer ou de les remplacer par des valeurs plus appropriées.
[Link]érences : Il peut y avoir des incohérences dans les données, par exemple si l'adresse d'un client contient des erreurs de saisie.
Pour détecter et corriger les incohérences, vous pouvez utiliser des techniques de validation des données telles que la vérification de la
syntaxe, la validation de domaine et la vérification de la logique des données.
24
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

2. Transformation des données:

✓ La transformation des données vise à rendre les données plus appropriées pour l'analyse en
appliquant diverses transformations telles que la normalisation, la standardisation, la
discrétisation, la réduction de dimensionnalité, etc..

Exemple:
Supposons qu’on dispose d'un ensemble de données contenant des informations sur les ventes, y compris le montant de chaque vente, la
date et l'heure de la transaction, le produit vendu, la catégorie du produit, etc. Les transformations à effectuer sur cet ensemble de
données sont :
1. Normalisation des montants de vente : Les montants de vente peuvent varier considérablement en fonction du type de produits
vendus. Pour faciliter la comparaison entre les ventes de différents produits, Il est possible de normaliser les montants de vente en les
divisant par le montant total des ventes sur une période donnée.
2. Discrétisation des dates et heures : Au lieu d'utiliser la date et l'heure exactes de chaque transaction, il est possible de discrétiser ces
variables en les regroupant par périodes de temps plus larges, par exemple en créant des catégories pour les heures de la journée (matin,
après-midi, soirée) ou pour les jours de la semaine (jour ouvrable, week-end).

25
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

3. Réduction de dimensionnalité:

✓ La réduction de dimensionnalité consiste à réduire le nombre de variables ou de

caractéristiques dans les données. Cela peut être nécessaire pour réduire la complexité des

données et éviter le surajustement dans les modèles d'analyse.

26
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

4. Sélection des caractéristiques :

La sélection des caractéristiques vise à identifier les variables les plus pertinentes ou les plus
prédictives pour l'analyse. Cela peut améliorer les performances des modèles en éliminant les
caractéristiques non informatives ou redondantes.
Exemple:
Supposons qu’on dispose d’un ensemble de données contenant des milliers de courriels avec différentes caractéristiques telles que la
longueur du texte, le nombre de mots en majuscules, le nombre de liens, etc. Pour construire un modèle de classification efficace, il est
crucial de sélectionner les caractéristiques les plus pertinentes qui contribuent le plus à la distinction entre les courriels spam et non-
spam.
1. Attributs des courriels : Vous pouvez collecter divers attributs ou caractéristiques des courriels, tels que la longueur du texte, la
présence de certains mots-clés, la fréquence d'utilisation de majuscules, la présence de liens hypertextes, etc.
2. Codage des attributs : Vous devez représenter ces attributs sous forme de variables catégorielles ou binaires. Par exemple, vous
pourriez avoir une variable binaire indiquant la présence ou l'absence d'un mot-clé spécifique dans le courriel.
3. Création de la table de contingence : Pour chaque attribut, vous créez une table de contingence croisant cet attribut avec la variable
cible (spam ou non-spam). Cette table compte le nombre de courriels spam et non-spam qui présentent ou non l'attribut en question.
4. Application du test du chi-deux : Vous appliquez ensuite le test du chi-deux à chaque attribut individuellement. Cela vous permet
de déterminer si la présence ou l'absence de cet attribut est significativement associée à la variable cible (spam ou non-spam).
5. Sélection des attributs : Vous sélectionnez les attributs pour lesquels le test du chi-deux indique une association significative avec la
variable cible. Ces attributs sont susceptibles d'être les plus informatifs pour la classification des courriels.
27
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

5. Gestion des valeurs manquantes :

✓ Les valeurs manquantes sont courantes dans les ensembles de données réels et doivent être
gérées de manière appropriée.
✓ Cela peut impliquer le remplissage des valeurs manquantes par imputation, l'élimination
des enregistrements contenant des valeurs manquantes, ou l'utilisation de techniques
spécifiques pour traiter les valeurs manquantes dans les modèles d'analyse.
Exemple:
Supposons qu’on dispose d’un ensemble de données sur les clients d'une entreprise, comprenant des informations telles que l'âge, le
revenu, le sexe et le statut matrimonial. Parfois, les données peuvent être incomplètes comme l'information sur le revenu.
1. Suppression des lignes contenant des valeurs manquantes : Si le nombre de lignes avec des valeurs manquantes est négligeable
par rapport à la taille de votre ensemble de données et que leur suppression ne biaiserait pas l'analyse, il est possible de supprimer ces
lignes. Par exemple, si seuls quelques clients ont des données manquantes sur le revenu, il est possible dechoisir de les supprimer de
l’analyse.
2. Imputation par la moyenne ou la médiane : Une autre approche consiste à remplacer les valeurs manquantes par la moyenne ou la
médiane des valeurs non manquantes de la même variable. Par exemple, si les données manquantes sont sur le revenu, il est possible de
les remplacer par la moyenne ou la médiane du revenu des autres clients.
3. Imputation par la valeur la plus fréquente : Pour les variables catégorielles, il est possible de remplacer les valeurs manquantes
par la valeur la plus fréquente (le mode) de la même variable.
28
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

Techniques de
prétraitement

6. Équilibrage des classes :

✓ Lorsque les classes dans les données sont déséquilibrées, c'est-à-dire qu'il y a un nombre
disproportionné d'observations dans chaque classe, il peut être nécessaire d'équilibrer les
classes en suréchantillonnant les classes minoritaires ou en sous-échantillonnant les classes
majoritaires.

7. Gestion des données bruitées : :

✓ Les données bruitées peuvent entraîner des résultats peu fiables dans l'analyse.
✓ Il est important de détecter et de filtrer le bruit dans les données en utilisant des techniques
telles que le lissage, ou l'utilisation de modèles robustes..

29
Etape3: Prétraitement Niveau: 1DNI
A.U. 2023/2024

4.3. Troisième étape du processus

prétraitement
Méthodes de

Il existe plusieurs méthodes pour identifier et corriger les erreurs de données, que ce
soit dans le cloud ou pas dans le cloud. Voici quelques-unes des méthodes
couramment utilisées :

✓ Vérification manuelle
✓ Statistiques descriptives
✓ Méthodes de machine learning
✓ Nettoyage de données automatique
✓ Recodage des données

Ces méthodes peuvent être utilisées individuellement ou combinées pour identifier et

corriger les erreurs de données. Il est important de choisir les méthodes les plus
appropriées en fonction des besoins de l’étude et des caractéristiques de l’ensemble de
données.
30
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

❑ Le Choix du modèle en Data mining regroupe un ensemble de techniques capables d’explorer et d’analyser une grande
quantité de données afin d’extraire des informations .
❑ Les principaux techniques sont: Définir et comprendre le problème

1. Apprentissage supervisé et non supervisé Collecte des données

2. Extraction de règles d'association
Prétraitement
3. Regroupement (Clustering)
4. Classification
Choisir le modèle
5. Régression
6. Détection d'anomalies Evaluer les performances
7. Réseaux de neuronaux artificielles
Interpréter le modèle

Processus du Data mining

31
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Choix du modèle

Définir et comprendre le problème

1 6 5

Collecte des données Apprentissage Régression Classification

supervisé et non
supervisé
Prétraitement
Prétraitement

7
Choisir le modèle 2 4
Détection
Réseaux de
d’anomalie
Evaluer les performances neuronaux Regroupement
artificielles

Interpréter le modèle 3

Extraction de règles

Processus du Data mining

32
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Apprentissage supervisé

❑ L'apprentissage supervisé est une technique d'analyse de données où un modèle est

entraîné sur un ensemble de données étiqueté, c'est-à-dire un ensemble de données pour
lequel les valeurs de sortie désirées sont connues.

❑ Le modèle utilise ces exemples étiquetés pour apprendre à prédire correctement les
valeurs de sortie pour de nouvelles données non étiquetées.

❑ En d'autres termes, le modèle apprend à partir de données déjà existantes pour pouvoir
généraliser et faire des prédictions sur de nouvelles données.

L’apprentissage fait appel à des couples de {Entrée(s) / Sortie(s)}: Observations étiquetées

33
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Apprentissage supervisé

➢ La machine peut apprendre une relation f:x→ y qui relie x à y en ayant analysé des millions
d’exemples d’associations x→ y.

Fleur

Utilisation finale
Apprentissage supervisé

34
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Apprentissage non supervisé

❑ L'apprentissage non supervisé est une technique d'analyse de données où un modèle est
entraîné sur un ensemble de données non étiquetées.

❑ Contrairement à l'apprentissage supervisé, il n'y a pas de valeurs cibles prédéfinies à

prédire.

❑ L'objectif principal de l'apprentissage non supervisé est d'explorer la structure intrinsèque

des données, de détecter des motifs et des relations cachées, et de regrouper les données
similaires ensemble.

On dispose des observations non étiquetées (des données non classées).

➔ On essaye de trouver une relation (un critère) entre les données pour les repartir en classes

35
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Apprentissage non supervisé
Données non étiquetées

Si deux Photos ont la même forme, alors elles appartiennent à la même classe.
36
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Extraction de règles d'association

❑ L'extraction de règles d'association est une technique de data mining qui vise à découvrir
des relations intéressantes entre les variables dans de grandes bases de données
transactionnelles ou de données transactionnelles.

❑ Cette technique est souvent utilisée dans le domaine du marketing pour analyser les
habitudes d'achat des clients et pour identifier des règles implicites qui décrivent les
comportements des consommateurs.

L’extraction de règles d'association consiste à générer des règles d'association:

➔ en calculant le support et la confiance pour chaque règle potentielle

37
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Extraction de règles d'association

➢ Support : Le support d'un ensemble d'éléments (ou d'une règle) dans une base de données
transactionnelle est la fréquence relative à laquelle cet ensemble apparaît dans les
transactions. Formellement, le support est défini comme le nombre de transactions contenant
l'ensemble divisé par le nombre total de transactions dans la base de données.

𝑵𝒐𝒎𝒃𝒓𝒆 𝒅𝒆 𝒕𝒓𝒂𝒏𝒔𝒂𝒄𝒕𝒊𝒐𝒏 𝒄𝒐𝒏𝒕𝒆𝒏𝒂𝒏𝒕(𝑿)

Support(X)= 𝑵𝒐𝒎𝒃𝒓𝒆 𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒕𝒓𝒂𝒏𝒔𝒂𝒄𝒕𝒊𝒐𝒏

➢ Confiance : La confiance d'une règle d'association X→Y mesure la probabilité

conditionnelle que Y apparaisse dans une transaction, étant donné que X apparaît dans cette
transaction. Formellement, la confiance est définie comme le nombre de transactions
contenant à la fois

𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿∪𝒀)
Confidence(X→Y)= 𝑺𝒖𝒑𝒑𝒐𝒓𝒕(𝑿) 38
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Extraction de règles d'association

Exemple :
Considérons une base de données transactionnelle d'un supermarché contenant des
informations sur les achats des clients. Chaque transaction est enregistrée sous la forme d'une
liste d'articles achetés par un client à un moment donné. Voici un exemple simplifié :

Transaction 1: {Pain, Lait, Œufs} {Pain} => {Lait} (support = 2/4, confiance =
2/3) :
Transaction 2 : {Pain, Lait, Bière} ✓ Cela signifie que si un client achète du pain,
il est probable qu'il achète également du lait.
Transaction 3: {Pain, Œufs} La règle a un support de 50 %, ce qui signifie
que la moitié des transactions contiennent à la
Transaction 4: {Lait, Bière} fois du pain et du lait,
✓ Une confiance de 66,67 %, ce qui signifie que
2/3 des transactions contenant du pain
contiennent également du lait.

39
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Regroupement (Clustering)

❑ Le regroupement, également connu sous le nom de clustering en anglais, est une technique
d'apprentissage non supervisé utilisée pour organiser un ensemble de données en groupes
homogènes appelés clusters.

❑ L'objectif est de regrouper les données similaires ensemble, tout en maximisant la

similarité intra-cluster et en minimisant la similarité inter-cluster.

1. Déterminer le nombre de groupes à créer dans les données.

2. Utiliser un algorithme de clustering pour diviser les données en clusters.
3. Mesurer la similarité entre les données.

40
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Regroupement (Clustering)

K=3
K=2

Longueur
Longueur en
Longueur en m
m
en m

Poidsen
Poids
Poids enkg
en kg
kg

41
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Classification

❑ La classification est une technique d'apprentissage supervisé qui consiste à prédire la

classe ou l'étiquette d'une donnée en se basant sur ses caractéristiques, à partir d'un
ensemble de données d'entraînement étiquetées.
Classification Clustering
Type Supervisé Non supervisé
d'apprentissage
Objectif Prédire la classe en utilisant un ensemble de Regrouper des observations similaires ensemble en
données d'entraînement étiquetées fonction de leurs caractéristique.

Méthode Un modèle est entraîné sur un ensemble de Les données sont regroupées en clusters homogènes
données étiquetées pour apprendre la relation où les observations à l'intérieur d'un même cluster sont
entre les caractéristiques des observations et similaires les unes aux autres et différentes des
leurs classes associées. observations des autres clusters.

Exemple Classification des e-mails en spam ou non spam. Regroupement des clients en fonction de leurs
habitudes d'achat.
42
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Régression

❑ La régression est une méthode statistique utilisée pour modéliser la relation entre une
variable dépendante et une ou plusieurs variables indépendantes, afin de comprendre et de
prédire la valeur de la variable dépendante en fonction des valeurs des variables
indépendantes.

❑ Un exemple classique de régression est la prédiction du prix des maisons en fonction de

différentes caractéristiques.

43
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Détection d'anomalies

❑ La détection d'anomalies, également connue sous le nom de détection d'outliers, est une
technique utilisée pour identifier des observations qui sont significativement différentes de
la majorité des autres observations dans un ensemble de données.
❑ L'objectif est de repérer des comportements, des événements ou des points de données
inhabituels ou suspects qui pourraient indiquer des situations anormales, des fraudes, des
erreurs ou des opportunités intéressantes.

44
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Réseaux neuronaux

❑ Les réseaux de neurones, également appelés réseaux neuronaux, sont des modèles
informatiques inspirés par le fonctionnement du cerveau humain.
❑ Ils sont composés de nombreuses unités de traitement élémentaires appelées neurones,
organisées en couches interconnectées.
❑ Chaque neurone est connecté à d'autres neurones par des poids qui déterminent l'importance
de l'entrée de chaque neurone pour la sortie du neurone suivant.

45
Etape4: Choisir le modèle Niveau: 1DNI
A.U. 2023/2024

4.4. Quatrième étape du processus

Le choix de l’algorithme repose sur les données disponibles et celle désirées en sortie :
❑Données d’entrée :
➢ Données étiquetées (Apprentissage supervisé), non étiquetées (Apprentissage non
supervisé)
❑Données de sortie :
➢ Quantitative : Régression
➢ Qualitative : Classification
➢ Groupement d’entrées : Clustring

46
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Exercice 2:
Soit la base de données suivante:
1. Donner les informations nécessaires sur
Country Age Salaire Purchased cette base de données.
France 44 72000 No 2. Combien de types de variables contient-
Spain 27 48000 Yes elle.
Germany 30 54000 No 3. Quel est le type de ces données
Spain 38 61000 No 4. Quelles sont les étapes nécessaires pour
Germany 102 52000 Yes l’analyse de cette base de données.
France Nan Nan Nan 5. Expliquer brièvement ces étapes.
Spain Nan 58000 Yes 6. Effectuer les prétraitements nécessaires.
Germany 50 83000 Yes 7. Effectuer un encodage des variables
Germany 50 83000 Yes catégorielles si nécessaire.
France 37 Nan No 8. Quel est le type d’apprentissage qu’on
peut effectuer pour prédire l’achat ou non
selon la région, l'âge et le salaire .
47
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Correction 2:
1. Il s’agit d’une base de données sur les salaires et les comportements d'achat dans différents pays, comportant 11
lignes et 4 colonnes, cette base de données contient des données manquantes, des données aberrantes, des valeurs
inutiles et des doublons.
2. Cette base contient deux types de variable, des variables numériques et des variables catégorielles.
3. Ce sont des données structurées sont des données organisées dans un format tabulaire avec des lignes et des
colonnes.
4. Les étapes sont:
✓ Nettoyage de données avec la suppression des doublons, gestion des valeurs aberrantes
✓ Gestion des valeurs manquantes avec la suppression des lignes contenant des valeurs manquantes,
imputation de la moyenne ou de la médiane pour remplacer les valeurs manquantes

48
Niveau: 1DNI
Exercice 2 A.U. 2023/2024

Correction 2:
6. Country Age Salaire Purchased
France 44 72000 0
No
Spain 27 48000 1
Yes
Germany 30 54000 0
No
Spain 38 61000 0
No
Germany 44 52000 1
Yes
Spain 44 58000 1
Yes
Germany 50 83000 1
Yes
Germany 50 83000 1
Yes
France 37 63875 0
No

7. Il s’agit d’un problème de classification (apprentissage supervisé)

49
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining

50
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Métriques d’évaluation
Evaluation de la régression

𝑦𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑟é𝑒𝑙𝑙𝑒, observation 𝑦ෝ𝑖 𝑣𝑎𝑙𝑒𝑢𝑟 𝑝𝑟é𝑑𝑖𝑡𝑒 𝑒𝑡 𝑦ത 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑟é𝑒𝑙𝑙𝑒

❑ La moyenne de l’erreur absolue : Mean Absolute Error(MAE)

❑ L’erreur quadratique moyenne: Mean Square Error(MSE)

❑ Coefficient de détermination : determination coefficient (R² : R square) Qualité de prédiction

2 𝑛−1 n : taille de la base : Nbr d’exemples

𝐴𝑑𝑗 𝑅2 = 𝑅ത 2 = 𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅2 ) p : nombre de régresseurs : Nbr de Vbles
𝑛−𝑝−1
Adjusted R² 51
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Base de données : « Dataset »
➢ C’est l’ensemble de données utilisé pendant la phase d'apprentissage et Bases de données
de test.
➔ Il est divisé en 2 sous-ensembles :
Ensemble d’apprentissage + Ensemble de Test
➢ Chaque élément de données est appelé un échantillon.
➢ Un échantillon est composé de caractéristiques « feature » qui décrivent
l’échantillon.
➢ Le choix des caractéristiques influe sur les performances du modèle
Ensemble de formation (d’apprentissage) Ensemble de test

Base de données
Ensemble d'apprentissage : « Training set »
➢ C’est l’ensemble de données utilisé dans le processus de formation (apprentissage) du modèle.
➢ Chaque échantillon de cet ensemble est appelé échantillon d’apprentissage. 52
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Bases de données
Ensemble de test : « Test set »
➢ La phase de test est la phase d’utilisation du modèle formé
➔ La phase de prédiction
➢ L’ensemble de test est l’ensemble de données (échantillons de test) sur lequel on va appliquer le modèle
formé dans la phase d’apprentissage
Ensemble de validation : « Validation set »
Dans certains cas la base de données est divisée en trois ensembles : Ensemble d’apprentissage (pour la
formation du modèle), ensemble de validation et ensemble de test (utilisation).
Ensemble de formation Ens. Validation Ens. de test

Base de données
Les données de cet ensemble sont utilisées pour évaluer les performances du modèle entrainé. Si l’erreur
augmente on arrête prématurément l’apprentissage. Dans le cas contraire, on continue l’apprentissage en
utilisant l’ensemble de formation. Cet ensemble est utilisé pour la régularisation et pour éviter le surajustement.
53
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Métriques d’évaluation
Evaluation de la régression

❑ La moyenne de l’erreur absolue : Mean Absolute Error(MAE)

❑ L’erreur quadratique moyenne: Mean Square Error(MSE)

❑ Coefficient de détermination : determination coefficient (R² : R square) Qualité de prédiction

2 𝑛−1 n : taille de la base : Nbr d’exemples

𝐴𝑑𝑗 𝑅2 = 𝑅ത 2 = 𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅2 ) p : nombre de régresseurs : Nbr de Vbles
𝑛−𝑝−1
Adjusted R² 54
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Métriques d’évaluation
Evaluation de la classification
❑ Les Vrais Positifs (VP): Les cas pertinent s(vérité terrain) prédits positifs par l’algorithme.
❑ Les Vrais Négatifs (VN): Les cas non pertinents (vérité terrain) prédits négatifs par l’algorithme.
❑ Les Faux Positifs (FP): Les cas non pertinents (vérité terrain) prédits positifs par l’algorithme
Vérité terrain et
❑ Les Faux Négatifs (FN): Les cas pertinents (vérité terrain) prédits négatifs par l’algorithme prédiction différentes
❑ La matrice de confusion : Elle permet d’afficher comment repartie la prédiction les données de la
vérité terrain :
❑ Chaque ligne correspond à classe réelle
❑ Chaque colonne correspond à une classe estimé
❑ (Li, Cj) : nombre des éléments réellement appartenant à classe i et sont estimés par l’algorithme appartenant
à la classe j
Classe estimée : prédite par le classifieur
Classe 1 Classe 2 ……….. Classe n
Classe 1
Classe réelle Classe 2
(vérité terrain) …..
Classe n 55
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Métriques d’évaluation
Evaluation de la classification
❑ Accuracy (Acc): Justesse ou exactitude
𝑉𝑃 + 𝑉𝑁 ➔ Une classe
𝐴𝑐𝑐 =
C’est le taux de prédiction correcte 𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁 majoritaire de plus 80%
❑ Taux d’erreur(Er): Error Rate 𝐹𝑃 + 𝐹𝑁
𝐸𝑟 =
C’est le taux des fausses classifications 𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁
❑ Précision (Precision), Rappel (Recall) et F-mesure (F-mesure)
➢ La Précision (Pr) est le taux des éléments pertinents dans les éléments positifs.
➢ Le Rappel (Rap) le taux des éléments positifs dans les éléments pertinents.
➢ F-mesure ou F-score (Fβ) : une combinaison du rappel et de la précision.
➔La précision est pondérée par un coefficient β qui est généralement égal à 1.
➔F1 ou F1 Score est la plus utilisée.
▪ F1 si les Faux Positifs et les Faux négatifs sont de même importance
▪ F2 si les faux négatifs sont plus importants que les faux positifs
▪ F0,5 si les faux positifs sont plus importants que les faux négatifs

𝑉𝑃 𝑉𝑃 2 × 𝑃𝑟 × 𝑅𝑎𝑝 (1 + 𝛽 2 ) × 𝑃𝑟 × 𝑅𝑎𝑝
𝑃𝑟 = 𝑅𝑎𝑝 = 𝐹1 = 𝐹𝛽 =
𝑉𝑃 + 𝐹𝑃 𝑉𝑃 + 𝐹𝑁 𝑃𝑟 + 𝑅𝑎𝑝 𝛽² × 𝑃𝑟 + 𝑅𝑎𝑝
56
Etape5:Evaluer les performances Niveau: 1DNI
A.U. 2023/2024

4.5. Cinquième étape du processus

Métriques d’évaluation

Evaluation de la classification
❑ Sensitivité (Sensitivity), Spécificité (Specifity) et Moyenne géométrique (Geometric Mean)
➢ La Sensitivité (Se) n’est autre que le Rappel.
➢ La Spécificité (Sp) est le taux des éléments négatifs correctement identifiés
➢ Moyenne géométrique ou G-Mean : Combinaison de la sensibilité et la spécificité.
➔Un seul score qui équilibre les deux préoccupations.
➔ Contrairement à la justesse, G-Mean est utilisée si les données sont reparties presque
équitablement sur 2 classes
𝑉𝑃 𝑉𝑁
𝑆𝑒 =
𝑉𝑃 + 𝐹𝑁
𝑆𝑝 =
𝑉𝑁 + 𝐹𝑃 𝐺 − 𝑀𝑒𝑎𝑛 = 𝑆𝑒 × 𝑆𝑝
57
Niveau: 1DNI
Exercice 3 A.U. 2023/2024

Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
30
Virginica 30+2=32 68 68-4=64 4 2
32
Versicolore 32+4=36 64 64-2=62 2 4

Acc Err Pr Rap Sp F-mes G-Mean

Setosa 100% 0% 1 1 1
Virginica 94% 6% 0.88 0.93 0.94
6%
Versicolore 94% 0.94 0.88 0.96

GLOBAL
58
Niveau: 1DNI
Exercice 3 A.U. 2023/2024

Exercice 3:
Soit un modèle entrainé pour reconnaitre les différents types de fleurs d’Iris. Les résultats
du test de validation sur une base d’images de test a donné la matrice de confusion
suivante : Setosa Virginica Versicolore
Setosa 32 0 0
Virginica 0 30 2
Versicolore 0 4 32
Compléter les tableaux suivants :
V F VP VN FP FN
Setosa 32 68 32 68 0 0
Virginica 30+2=32 68 30 64 4 2
Versicolore 32+4=36 100-36=64 32 62 2 4

Acc Err Pr Rap Sp F-mes G-Mean

Setosa 100% 0% 1 1 1 1 1
Virginica 94% 6% 0,88 0,94 0,94 0,91 0,94
Versicolore 94% 6% 0,94 0,88 0,97 0,91 0,92
GLOBAL 94% 6% 0,94 0,94 0,97 0,94 0,95
59
Etape6:Interpréter le modèle Niveau: 1DNI
A.U. 2023/2024

4.6. Sixième étape du processus

Définir et comprendre le problème

Collecte des données

Prétraitement

Choisir le modèle

Evaluer les performances

Interpréter le modèle

Processus du Data mining

60
Etape6:Interpréter le modèle Niveau: 1DNI
A.U. 2023/2024

4.6. Sixième étape du processus

❑ Interpréter un modèle en data mining implique de comprendre comment les caractéristiques
des données influent sur les prédictions ou les résultats du modèle.
❑ Voici quelques étapes pour interpréter un modèle de data mining :
✓ Visualiser les relations
✓ Analyser les erreurs
✓ Comparer avec des modèles simples
✓ Valider l'interprétation

Vous aimerez peut-être aussi

Chapitre 1 DM
Pas encore d'évaluation
Chapitre 1 DM
73 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
6 pages
Chap.01 Intro 18-19 1
Pas encore d'évaluation
Chap.01 Intro 18-19 1
17 pages
Cours de Fouille de Données Avancée
Pas encore d'évaluation
Cours de Fouille de Données Avancée
96 pages
DM Chapitre1
Pas encore d'évaluation
DM Chapitre1
20 pages
Cours
Pas encore d'évaluation
Cours
58 pages
Chap1Regles Association
Pas encore d'évaluation
Chap1Regles Association
88 pages
Cours-Data-Mining Master BIBDA 2017 2018
Pas encore d'évaluation
Cours-Data-Mining Master BIBDA 2017 2018
164 pages
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
Pas encore d'évaluation
Cours - Fouille de Données Avancée - Abdelhamid DJEFFAL (Université de Biskra, 2015)
13 pages
Data Mining Final
100% (1)
Data Mining Final
192 pages
Cours1 Intro À La Fouille de Données
Pas encore d'évaluation
Cours1 Intro À La Fouille de Données
29 pages
Cours de Data Mining 2024-2025
Pas encore d'évaluation
Cours de Data Mining 2024-2025
115 pages
Data Mining et Machine Learning en 2023
Pas encore d'évaluation
Data Mining et Machine Learning en 2023
6 pages
01 Introduction DM
Pas encore d'évaluation
01 Introduction DM
26 pages
Cours de Data Mining
Pas encore d'évaluation
Cours de Data Mining
17 pages
Cours sur l'Analyse des Données
Pas encore d'évaluation
Cours sur l'Analyse des Données
46 pages
Introduction au Data Mining
100% (1)
Introduction au Data Mining
29 pages
Cours Big Data&Data Scinece - PPSX
Pas encore d'évaluation
Cours Big Data&Data Scinece - PPSX
22 pages
Cours de Dataming
Pas encore d'évaluation
Cours de Dataming
16 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
31 pages
Applications et méthodologie du Data Mining
Pas encore d'évaluation
Applications et méthodologie du Data Mining
81 pages
Rapport Tic
Pas encore d'évaluation
Rapport Tic
10 pages
Rapport Tic
Pas encore d'évaluation
Rapport Tic
10 pages
DataMining CIPMA SAV2 SupportDeCours
Pas encore d'évaluation
DataMining CIPMA SAV2 SupportDeCours
73 pages
FDMS DM
Pas encore d'évaluation
FDMS DM
64 pages
Concepts de Base
Pas encore d'évaluation
Concepts de Base
30 pages
Cours DM Afef Kacem 1 427
Pas encore d'évaluation
Cours DM Afef Kacem 1 427
214 pages
Sid Partie2
Pas encore d'évaluation
Sid Partie2
13 pages
Cours de Fouille de Données: Concepts et Applications
Pas encore d'évaluation
Cours de Fouille de Données: Concepts et Applications
27 pages
Complement DM.2
Pas encore d'évaluation
Complement DM.2
158 pages
Chapitre1 DM Rebbah
Pas encore d'évaluation
Chapitre1 DM Rebbah
19 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Data Mining
Pas encore d'évaluation
Data Mining
25 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
33 pages
Data Mining
Pas encore d'évaluation
Data Mining
34 pages
RChapitre 1 Intro DM
Pas encore d'évaluation
RChapitre 1 Intro DM
6 pages
Introduction au Data Mining
Pas encore d'évaluation
Introduction au Data Mining
30 pages
Cours Data
Pas encore d'évaluation
Cours Data
35 pages
Chapitre 1 Introduction Au Data Mining
Pas encore d'évaluation
Chapitre 1 Introduction Au Data Mining
8 pages
Chapitre 1 Fouille de Données
Pas encore d'évaluation
Chapitre 1 Fouille de Données
36 pages
Data Mining (Partie 1)
Pas encore d'évaluation
Data Mining (Partie 1)
56 pages
Cours
Pas encore d'évaluation
Cours
43 pages
DM 2016 Chapitre 1
Pas encore d'évaluation
DM 2016 Chapitre 1
21 pages
Chap 4
Pas encore d'évaluation
Chap 4
46 pages
BI-cours 5
Pas encore d'évaluation
BI-cours 5
15 pages
Chapitre6 Intelligence Artificielle
Pas encore d'évaluation
Chapitre6 Intelligence Artificielle
32 pages
Data Mining
Pas encore d'évaluation
Data Mining
11 pages
Fouilles de Données Part1 Concepts D Base
Pas encore d'évaluation
Fouilles de Données Part1 Concepts D Base
16 pages
Cours Data Mining et Machine Learning ENSIAS
Pas encore d'évaluation
Cours Data Mining et Machine Learning ENSIAS
89 pages
Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
Pas encore d'évaluation
Data Mining II. Modélisation Statistique & Apprentissage (Philppe Besse)
115 pages
Cours LEDMI Makhlouf
Pas encore d'évaluation
Cours LEDMI Makhlouf
75 pages
1 Data Mining
Pas encore d'évaluation
1 Data Mining
74 pages
Chapitre 6 IA
Pas encore d'évaluation
Chapitre 6 IA
32 pages
Compréhension Et Préparation Des Données (Partie 1)
Pas encore d'évaluation
Compréhension Et Préparation Des Données (Partie 1)
36 pages
Cours Datamining 3ING 22-23
Pas encore d'évaluation
Cours Datamining 3ING 22-23
185 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
17 pages
Découverte de Connaissances en Données
Pas encore d'évaluation
Découverte de Connaissances en Données
131 pages
Chapitre1 Communications
Pas encore d'évaluation
Chapitre1 Communications
18 pages
1-Intro Lex Yacc
Pas encore d'évaluation
1-Intro Lex Yacc
19 pages
ch3 TRT
Pas encore d'évaluation
ch3 TRT
41 pages
TD2 Communications SF
Pas encore d'évaluation
TD2 Communications SF
3 pages
Examen ML 2023 Correction
Pas encore d'évaluation
Examen ML 2023 Correction
5 pages
Interface & Énumérations
Pas encore d'évaluation
Interface & Énumérations
31 pages
Produit de Convolution
Pas encore d'évaluation
Produit de Convolution
3 pages
Lec 5 8 DLC FR
Pas encore d'évaluation
Lec 5 8 DLC FR
83 pages
Initiation Mat Lab
Pas encore d'évaluation
Initiation Mat Lab
36 pages
TP3: Numérisation D'un Signal Analogique
Pas encore d'évaluation
TP3: Numérisation D'un Signal Analogique
8 pages
TP2 Prepa Cisco Vlan
Pas encore d'évaluation
TP2 Prepa Cisco Vlan
4 pages
Chapter 1
Pas encore d'évaluation
Chapter 1
14 pages
Série 3 2025
Pas encore d'évaluation
Série 3 2025
1 page
Transformation de Fourier
100% (2)
Transformation de Fourier
9 pages
Structures de données en programmation C
Pas encore d'évaluation
Structures de données en programmation C
3 pages
CV Adolphe
Pas encore d'évaluation
CV Adolphe
2 pages
Dissertation Criminologie Examen
Pas encore d'évaluation
Dissertation Criminologie Examen
7 pages
Skali Jamal
Pas encore d'évaluation
Skali Jamal
20 pages
Audit ISO 19011 : Guide Complet
100% (2)
Audit ISO 19011 : Guide Complet
82 pages
La Contribution Du Comité D'audit À La Qualité de L'information PDF
100% (1)
La Contribution Du Comité D'audit À La Qualité de L'information PDF
319 pages
Econometrie Appliquee Avec Stata PDF
Pas encore d'évaluation
Econometrie Appliquee Avec Stata PDF
22 pages
Swot Chetoui FZ
Pas encore d'évaluation
Swot Chetoui FZ
6 pages
Les Outils Et Les Techniques de L'audit Interne
Pas encore d'évaluation
Les Outils Et Les Techniques de L'audit Interne
2 pages
LPSG1 Cours Stat Descriptive Doucoure 2023 2024
Pas encore d'évaluation
LPSG1 Cours Stat Descriptive Doucoure 2023 2024
105 pages
Didactique Des Disciplines
Pas encore d'évaluation
Didactique Des Disciplines
54 pages
Correction de L'examen de Probabilités 2022-2023 EG Groupes A Et B
Pas encore d'évaluation
Correction de L'examen de Probabilités 2022-2023 EG Groupes A Et B
4 pages
Memoire Final
Pas encore d'évaluation
Memoire Final
113 pages
Prévisions Économiques avec Stata
Pas encore d'évaluation
Prévisions Économiques avec Stata
93 pages
Une Analyse Critique Innovation Ouverte
Pas encore d'évaluation
Une Analyse Critique Innovation Ouverte
13 pages
La Gestion Des Connaissances Au PNUD
Pas encore d'évaluation
La Gestion Des Connaissances Au PNUD
28 pages
Examen de Statistiques Et Probabilités Master 2017-2018
Pas encore d'évaluation
Examen de Statistiques Et Probabilités Master 2017-2018
6 pages
Analyse D'erreurs en Production Écrite
Pas encore d'évaluation
Analyse D'erreurs en Production Écrite
15 pages
4MA31TEWB0223U05 CoursMathematiques-U05
Pas encore d'évaluation
4MA31TEWB0223U05 CoursMathematiques-U05
50 pages
1281 Annonce de Recrutementrlast
Pas encore d'évaluation
1281 Annonce de Recrutementrlast
5 pages
TD Statistiques I
Pas encore d'évaluation
TD Statistiques I
4 pages
Cours D'audit Qualite 182
Pas encore d'évaluation
Cours D'audit Qualite 182
205 pages
Méthode Du Réseau Neuronal 1. Définition 2. Car...
Pas encore d'évaluation
Méthode Du Réseau Neuronal 1. Définition 2. Car...
2 pages
La Dissertation - L1
Pas encore d'évaluation
La Dissertation - L1
4 pages
Épidémiologie et Risques Sanitaires
Pas encore d'évaluation
Épidémiologie et Risques Sanitaires
69 pages
Amitié
Pas encore d'évaluation
Amitié
10 pages
L'Impact Du Recrutement Des Enseignants Non Formés Sur Le Niveau Réel Des Apprenants
Pas encore d'évaluation
L'Impact Du Recrutement Des Enseignants Non Formés Sur Le Niveau Réel Des Apprenants
114 pages
Presentation 2025 de Capgemini en France Mars 2025
Pas encore d'évaluation
Presentation 2025 de Capgemini en France Mars 2025
74 pages
Rédaction d'Articles Scientifiques Efficace
Pas encore d'évaluation
Rédaction d'Articles Scientifiques Efficace
66 pages
Analyse du Risque en Assurance Auto
Pas encore d'évaluation
Analyse du Risque en Assurance Auto
221 pages