Données - Info - connaissance
Données : Chiffres, faits bruts sans signification.
Information : Données mises en contexte pour leur donner une signification.
Connaissance : Information interprétée dans un contexte pour comprendre
What Motivated DataMining ?
L'évolution naturelle des technologies de l'information a conduit à la création et à l'utilisation massive de
bases de données relationnelles qui a touché tous les secteurs : commerce, finance, santé, etc. ce qui a généré
un besoin urgent de transformer les données brutes en informations exploitables.
Le data mining permet d'extraire des connaissances cachées pour améliorer la prise de décision et
l'efficacité des organisations.
What is Data Mining ?
Le Data Mining est défini comme l'action d'extraire ou de miner des connaissances à partir de grandes
quantités de données. Le terme plus approprié serait donc plutôt "Knowledge Mining".
Data mining = Knowledge Discovery from Data (KDD)
Data (Données) Preprocessing Transformation avancées ( PCA) Data Mining (Exploration de
données découvrer des motif) evaluation knowledje
Objectifs de datamining
• prediction
• identification
• classification
• optimisation
Qualité de données
Validité : vérifie si les données respectent les règles définies (format, plage de valeurs, contraintes)
Consistance : garantir que les données ne se contredisent pas dans le même jeu de données ou entre plusieurs
jeux de données
Complétude : S'assurer que toutes les données obligatoires sont disponibles et complete pour une analyse
Précision : Vérifie que les données représentent fidèlement les valeurs réelles sans erreur ou approximation.
Uniformité : vérifie que les données sont exprimées de manière uniforme (même unité de mesure, même
format)
Data preprocessing
Data Cleaning involves identifying and correcting errors or inconsistencies in the data, such as missing
values, outliers, and duplicates.
1. Gestion des Valeurs Manquantes
Ne rien faire : Laisser l'algorithme gérer les données manquantes.
Imputation Manuelle
Imputation avec Moyenne/Médiane (non dans des données categorielle)
Imputation avec Valeur la Plus Probable (des données categorielle et numeriques)
o Peut introduire des biais dans les données.
o Ne prend pas toujours en compte les corrélations entre les différentes caractéristiques.
Imputation avec KNN (K-Nearest Neighbors) : Utiliser l'algorithme KNN pour estimer les valeurs
manquantes en trouvant les voisins les plus proches.
Imputation avec Deep Learning (Datawig) : Utiliser des bibliothèques de deep learning pour
imputer les valeurs manquantes.
Imputation par valeur précédente = forward fill (ffill)
Imputation par valeur suivante = backward fill (bfill)
DATA CLEANING
Pourquoi c'est important pour le Data Cleaning ?
• Avant d'appliquer des modèles, il faut savoir si la série temporelle contient :
o du bruit,
o une tendance,
o une saisonnalité
Seasonality - Increasing Trend : Les données montent sur le long terme + il y a des cycles
réguliers. (ex: ventes augmentent chaque année, mais chutent chaque hiver)
Seasonality - Decreasing Trend : Les données baissent avec le temps + cycles réguliers. (ex:
popularité d'un produit qui baisse, mais avec pics pendant les fêtes)
No Seasonality - No Trend : C’est du pur bruit, pas d'augmentation, pas de cycle.
Only Seasonality - No Trend : Il y a des cycles réguliers, mais pas de montée ni descente générale.
(ex: températures qui montent et descendent tous les ans)
No Seasonality - Only Trend : Les données montent ou descendent régulièrement, sans cycle. (ex:
nombre d'abonnés qui augmentent sans saisonnalité)
Missing values handling :
2) noisy : Cela désigne les erreurs ou les variations aléatoires dans une donnée mesurée.
Outliers identiifcations
• Erreurs humaines (erreurs de saisie de données)
• Erreurs de mesure (erreur d'outil) : Ces erreurs surviennent lors de la collecte des données,
notamment à cause d'instruments de mesure défectueux ou mal calibrés. Par exemple, un
thermomètre défectueux peut enregistrer une température erronée, créant ainsi une valeur
aberrante.
• Erreur de manipulation des données (erreur dans le prétraitement des données)
• Erreurs d'échantillonnage (création d'échantillons provenant de sources hétérogènes) : si on
mélange des échantillons provenant de populations très différentes (par exemple, des
personnes jeunes et des personnes âgées dans une étude de santé), certaines valeurs peuvent
sembler inhabituelles par rapport au reste du groupe.
Ces sources d'outliers peuvent perturber l’analyse des données et doivent être traitées afin de garantir
que les modèles et les analyses soient précis.
1) Z-score :
2) Le LOF (Local Outlier Factor) :
C’est une méthode non supervisée de détection d'anomalies. Elle mesure comment la densité autour d'un
point est différente de celle de ses voisins proches. Le but du LOF est de trouver automatiquement les
données qui "ne ressemblent pas" aux autres.
• On choisit un nombre de voisins (par exemple, 20 voisins).
• On calcule le degré d'anomalie de chaque point.
Interprétation du score LOF :
• LOF ≈ 1 : le point a une densité semblable à celle de ses voisins → normal.
• LOF < 1 : le point a une densité plus élevée que ses voisins → point interne (inlier).
• LOF > 1 : le point a une densité plus faible que ses voisins → anomalie (outlier)
La transformation des données consiste à modifier ou regrouper les données pour qu'elles soient prêtes
pour l'analyse ou l'exploration de données (data mining).
Les principales étapes de la transformation sont :
• Lissage (Smoothing) :
➔ Réduire le bruit dans les données
• Réduction des données (Data Reduction) :
➔ Simplifier les données sans perdre trop d'information
• Construction d'attributs (Attribute Construction) :
➔ Créer de nouvelles variables à partir des anciennes
• Mise à l'échelle ou normalisation (Scaling/Normalisation) :
➔ Adapter les valeurs des données pour qu'elles soient sur la même échelle
Réduction des données (Data Reduction)
Avantages :
• Efficacité améliorée :
➔ Réduit la taille des jeux de données, ce qui rend les algorithmes de machine learning plus
rapides et plus faciles à utiliser.
• Performance améliorée :
➔ Supprime les données inutiles ou redondantes, rendant les modèles plus précis et plus robustes.
• Coûts de stockage réduits :
➔ Diminue le nombre de points de données, ce qui réduit les coûts liés au stockage des données.
• Interprétabilité améliorée :
➔ Enlevant les informations inutiles, les résultats deviennent plus clairs et plus faciles à
comprendre.
Inconvénients :
• Perte d'information :
➔ Il y a un risque de perdre des informations importantes
• Impact sur la précision :
➔ En supprimant certains points de données, on peut diminuer la précision du modèle, car des
éléments essentiels pour de bonnes prédictions peuvent disparaître.
• Impact sur l'interprétabilité :
➔ Cela peut parfois rendre les résultats plus difficiles à interpréter, car en supprimant certaines
données, on peut aussi perdre le contexte nécessaire pour bien comprendre les résultats.
• Coûts informatiques supplémentaires :
➔ Le processus de réduction demande un traitement supplémentaire, ce qui peut augmenter les
coûts en temps et en ressources lors de l'exploration des données.
1- Data cube aggregation
• La discrétisation consiste à regrouper des données continues (comme des âges) en intervalles
(child,young…)
• Cela réduit la quantité de données tout en minimisant la perte d'information.
4-Sélection de sous-ensembles d'attributs (Attribute Subset Selection)
• Les ensembles de données pour l'analyse peuvent contenir des centaines d'attributs, dont certains
sont inutiles ou redondants.
Exemple : Si l'objectif est de prédire si un client achètera un CD, des attributs comme le numéro de
téléphone sont inutiles, tandis que des attributs comme l'âge ou les goûts musicaux sont plus
pertinents.
Avantages :
• Accélère les processus d'exploration des données en éliminant les attributs inutiles ou
redondants.
• Réduit le nombre d'attributs présents dans les modèles découverts.
• Rend les modèles plus compréhensibles.
• Le test du chi carré est une méthode statistique utilisée pour tester l'hypothèse nulle qu'il n'y a pas
de relation entre deux variables catégorielles.
• Il permet aussi d'évaluer l'indépendance entre ces variables.
Mise à l'échelle ou normalisation (Scaling/Normalisation) :
Min-Max Scaling
Le Min-Max Scaling consiste à redimensionner les données pour qu'elles se situent dans une plage
spécifique, par exemple de 0 à 1 ou de -1 à 1.
Z-Score Normalization (Standardisation)
La normalisation par Z-Score transforme les données pour qu'elles aient une moyenne de 0 et un écart-
type de 1.
Z=1,225
Cela signifie que 73 600 $ est 1,225 écarts-types au-dessus de la moyenne.
Scaling et normalisation
Scaling
• Effet : Le scaling change simplement la plage des données sans altérer la forme de leur
distribution.
• Exemple : Si on a des données de revenus qui varient de 10 000 à 100 000, le scaling peut ajuster
ces données pour qu'elles soient dans l'intervalle 0 à 1.
Normalization
• Effet : Le normalization modifie la répartition des données (pas seulement la plage), pour les
rendre plus adaptées à certains algorithmes.
• Exemple : Dans la normalisation Z-score, on transforme les données en scores qui mesurent leur
écart par rapport à la moyenne.
La construction d'attributs (Attribute Construction) :
Ca consiste à créer de nouveaux attributs à partir des attributs existants afin d'améliorer le processus
d'exploration de données. Cela permet de rendre les données plus pertinentes pour l'analyse, en ajoutant
des informations qui n'étaient pas directement disponibles dans les attributs initiaux.
Avantages :
1. Amélioration des performances : De nouveaux attributs peuvent mieux capturer des relations
cachées dans les données.
2. Découverte de valeurs manquantes : En combinant certains attributs, on peut découvrir des
valeurs manquantes ou calculer des valeurs dérivées à partir d'autres informations.
3. Réduction de la complexité : Parfois, la création d'un nouvel attribut peut simplifier un problème,
en réduisant le nombre d'attributs nécessaires tout en fournissant des informations plus
pertinentes.
Apprentissage Supervisé (Supervised Learning)
Principe :
• Apprentissage avec un enseignant. Cela signifie que le modèle apprend à partir de données qui
sont déjà étiquetées avec des classes ou des valeurs cibles pré-définies.
• L'objectif est de prédire la classe ou la valeur d'un nouveau point de données en fonction de ce
qu'il a appris à partir des données étiquetées.
Exemples d'algorithmes supervisés :
• Régression linéaire
• Régression logistique
• Arbres de décision
• Support Vector Machines (SVM)
• Réseaux de neurones
Apprentissage Non Supervisé (Unsupervised Learning)
Principe :
• Apprentissage par observation, sans utiliser de données étiquetées.
• L'objectif est de découvrir des relations, des regroupements, ou des motifs intéressants dans les
données.
Exemples d'algorithmes non supervisés :
• K-means
• Algorithmes hiérarchiques de clustering
• Analyse en composantes principales (PCA)
• Mapes auto-organisants (SOM)
Data MiningTechniques
Predictive Modeling (Modélisation Prédictive)
Principe :
• Les modèles prédictifs permettent aux data miners de prédire la valeur inconnue d'une variable
cible (ou variable à prédire). Ces modèles sont utilisés pour effectuer des prédictions basées sur
les données historiques ou actuelles.
• Ce type de modèle est très utilisé pour des applications comme la prédiction des ventes, la
prédiction des comportements futurs, ou encore la prévision des tendances économiques.
Types de Modèles Prédictifs :
• Régression linéaire
• Régression logistique
• Réseaux de neurones
Modèles Descriptifs et Association
Les modèles descriptifs et les règles d'association font partie des techniques de data mining utilisées pour
extraire des informations significatives des données sans nécessairement prévoir des résultats futurs ou
classer des objets.
1. Modèles Descriptifs
Principe :
• Les modèles descriptifs visent à résumer les caractéristiques principales des données de manière
concise. Ils ne cherchent pas à prédire des valeurs futures, mais plutôt à comprendre et à décrire
les données telles qu'elles sont.
• Ces modèles sont souvent utilisés pour donner un aperçu des données et identifier des patterns
ou des groupes.
Exemples de Modèles Descriptifs :
• Statistiques descriptives : Moyenne, médiane, écart type, etc.
• Analyse en composantes principales (PCA) : Réduction de la dimensionnalité pour identifier les
axes principaux des données.
• Regroupement de données (Clustering) : Identifier des groupes ou clusters dans les données,
comme les segments de clients.
2. Règles d'Association
Principe :
• Les règles d'association sont utilisées pour découvrir des patterns ou des relations dans les
données. Elles sont souvent associées à des domaines comme l'analyse des paniers d'achats
(market basket analysis), où l'on cherche à comprendre quels produits sont souvent achetés
ensemble.
• L'idée est de trouver des relations entre des items qui apparaissent fréquemment dans les mêmes
transactions.
Exemple d'Association :
• "Les personnes qui achètent des nouilles achètent aussi du pain à l'ail ou du ketchup."
• "Les personnes qui achètent des couches pour bébé achètent aussi du lait pour bébé."
Application des Règles d'Association
Pour appliquer les règles d'association, trois principaux indicateurs sont utilisés :
1. Support :
o Le support mesure la fréquence à laquelle un ensemble d'items apparaît dans l'ensemble
des transactions. Cela permet de savoir à quelle fréquence les items sont achetés
ensemble.
o Exemple : Le support de la règle {nouilles} → {pain à l'ail} est la proportion des
transactions contenant à la fois des nouilles et du pain à l'ail par rapport au nombre total
de transactions.
2. Confiance (Confidence) :
o La confiance mesure la probabilité qu'un item apparaisse dans une transaction donnée,
sachant qu'un autre item y est déjà présent.
o Exemple : Si 80 % des personnes qui achètent des nouilles achètent aussi du pain à l'ail, la
confiance de la règle {nouilles} → {pain à l'ail} est de 0,8.
3. Valeur (Lift) :
o La valeur (lift) mesure l'importance de l'association, c'est-à-dire si la probabilité que les
items apparaissent ensemble est plus élevée que ce que l'on attendrait si les items étaient
indépendants.
o Exemple : Si les nouilles et le pain à l'ail apparaissent ensemble plus souvent qu'on ne
pourrait le prédire à partir de leurs fréquences individuelles, cela indique une association
forte.
Exemples d'Utilisation des Règles d'Association :
1. Analyse des paniers d'achats :
o Les détaillants utilisent les règles d'association pour identifier des comportements
d'achat. Par exemple, si un client achète un ordinateur, il peut aussi être intéressé par
l'achat d'une souris ou d'un clavier.
2. Recommandation de produits :
o Les sites de e-commerce utilisent des règles d'association pour recommander des
produits supplémentaires en fonction de ce qu'un client a déjà acheté (ex. "Les clients qui
ont acheté ce produit ont aussi acheté...").
3. Analyse de la fréquentation de sites web :
o Dans le domaine du marketing numérique, les règles d'association peuvent être utilisées
pour découvrir quelles pages web sont souvent visitées ensemble par les utilisateurs,
aidant à la mise en place de stratégies de marketing ciblées.
Clustering est une technique utilisée en exploration de données descriptives. Un cluster est défini comme
un regroupement d'objets similaires entre eux et différents des objets d'autres clusters.