0% ont trouvé ce document utile (0 vote)
47 vues2 pages

Introduction au traitement des données ECD

Le module d'analyse et de fouille de données, dirigé par Bouaziz Souhir, se concentre sur le processus d'extraction des connaissances à partir de données ECD, essentiel dans divers domaines. Le TP1 aborde les phases de prétraitement et de transformation des données, incluant la manipulation de fichiers CSV, la vérification des dates, et le calcul de matrices centrées et réduites. Les exercices pratiques impliquent l'analyse d'un DataFrame d'employés, le traitement des valeurs manquantes et aberrantes, ainsi que le codage des variables catégorielles.

Transféré par

balkisb231
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
47 vues2 pages

Introduction au traitement des données ECD

Le module d'analyse et de fouille de données, dirigé par Bouaziz Souhir, se concentre sur le processus d'extraction des connaissances à partir de données ECD, essentiel dans divers domaines. Le TP1 aborde les phases de prétraitement et de transformation des données, incluant la manipulation de fichiers CSV, la vérification des dates, et le calcul de matrices centrées et réduites. Les exercices pratiques impliquent l'analyse d'un DataFrame d'employés, le traitement des valeurs manquantes et aberrantes, ainsi que le codage des variables catégorielles.

Transféré par

balkisb231
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module : Analyse et fouille de données

Responsable du Cours : Bouaziz Souhir Auditoire : D-LSI-


ADBD
Enseignants TP : Bedoui Abir \ Zammel Zina A-U: 2024-2025

TP1 : Introduction au processus ECD


Phases de prétraitement et de transformation

Introduction : Face à l'explosion continue du volume des données, le processus d'extraction


des connaissances à partir des données ECD est devenu de plus en plus une nécessité dans
divers domaines d’application. Ainsi, cette démarche s'avère cruciale dans des secteurs aussi
variés que la recherche scientifique, la prise de décision en entreprise, la médecine, et bien
d'autres. Ce processus se déclenche par une phase de prétraitement des données pour avoir des
informations, ces données sont ensuite analysées et traitées pour extraire des nouveaux
représentations appelée connaissances.
Objectifs :
Après avoir maitriser les outils de manipulation des dataframe dans le TP0, l’objective de ce
TP est de :
Lire un fichier CSV "Comma-Separated Values" et le charger dans un
DataFrame : (valeurs séparer var des virgules)
Data= pd.read_csv('chemin/vers/[Link]')

Vérifier la validité des dates :


• Vérifiez le type de données de la colonne « date »
• Convertissez la colonne en datetime si nécessaire.
• Identifiez et traitez les dates invalides ou manquantes (NaT).
• Vérifiez les dates dupliquées pour éviter des incohérences.

Calcule de la matrice centrée (Y) : Y= X−μ où : X est la matrice de données d'origine,


μ est le vecteur des moyennes des colonnes de 𝑋.
Calcule de la matrice centrée et réduite (Z) : Z= (X−μ)/σ : σ est le vecteur des écarts-types
des colonnes.
de X.

Page 1/2
Donner les statistiques descriptives de base : la fonction .describe() : donne les
statistiques descriptives de base d'un DataFrame.

Exercice1 :
Soit le DataFrame suivant qui représente des informations sur des employés au sein d'une
entreprise :

1) Télécharger dans votre notebook la base de données ‘[Link]’


2) Interpréter le jeu de données en donnant le nombre des NaN et en décrivant les
statistiques de base
3) Vérifier l’intégrité du domaine des valeurs de la variable ‘Date_emb’
pd.to_datetime(df['date'], errors='coerce') : convertit le format de la date en datetime
et si une valeur n'est pas une date valide (par exemple, un texte aléatoire ou un format
incorrect), elle est remplacée par NaT (Not a Time)
.notna() → Élimine les valeurs NaT.
4) Vérifier s’il existe des doublons dans votre base, si c’est le cas procédé à leur
suppression : . duplicated() / .drop_duplicates()
5) Remplacer toutes les valeurs NaN par Zéro
6) Déduire si le traitement de la question précédente a conduit à l'apparition de valeurs
aberrantes dans la base de données, si c’est le cas remplacer ces valeurs par la valeur
max de la variable.
7) Appliquer le codage nécessaire pour transformer les valeurs de la variable Poste en des
valeurs numériques. (Exemple ; manger :0, Ingénieur :1, Développeur : 2)
8) Calculer la matrice Y des données centrées et la matrice Z de données centrées et
réduites.
9) Calculer la matrice RX des corrélations de notre matrice de données et la matrice VZ des
variances et covariances de Z. Commenter.

Page 2/2

Vous aimerez peut-être aussi