Module : Analyse et fouille de données
Responsable du Cours : Bouaziz Souhir Auditoire : D-LSI-
ADBD
Enseignants TP : Bedoui Abir \ Zammel Zina A-U: 2024-2025
TP1 : Introduction au processus ECD
Phases de prétraitement et de transformation
Introduction : Face à l'explosion continue du volume des données, le processus d'extraction
des connaissances à partir des données ECD est devenu de plus en plus une nécessité dans
divers domaines d’application. Ainsi, cette démarche s'avère cruciale dans des secteurs aussi
variés que la recherche scientifique, la prise de décision en entreprise, la médecine, et bien
d'autres. Ce processus se déclenche par une phase de prétraitement des données pour avoir des
informations, ces données sont ensuite analysées et traitées pour extraire des nouveaux
représentations appelée connaissances.
Objectifs :
Après avoir maitriser les outils de manipulation des dataframe dans le TP0, l’objective de ce
TP est de :
Lire un fichier CSV "Comma-Separated Values" et le charger dans un
DataFrame : (valeurs séparer var des virgules)
Data= pd.read_csv('chemin/vers/[Link]')
Vérifier la validité des dates :
• Vérifiez le type de données de la colonne « date »
• Convertissez la colonne en datetime si nécessaire.
• Identifiez et traitez les dates invalides ou manquantes (NaT).
• Vérifiez les dates dupliquées pour éviter des incohérences.
Calcule de la matrice centrée (Y) : Y= X−μ où : X est la matrice de données d'origine,
μ est le vecteur des moyennes des colonnes de 𝑋.
Calcule de la matrice centrée et réduite (Z) : Z= (X−μ)/σ : σ est le vecteur des écarts-types
des colonnes.
de X.
Page 1/2
Donner les statistiques descriptives de base : la fonction .describe() : donne les
statistiques descriptives de base d'un DataFrame.
Exercice1 :
Soit le DataFrame suivant qui représente des informations sur des employés au sein d'une
entreprise :
1) Télécharger dans votre notebook la base de données ‘[Link]’
2) Interpréter le jeu de données en donnant le nombre des NaN et en décrivant les
statistiques de base
3) Vérifier l’intégrité du domaine des valeurs de la variable ‘Date_emb’
pd.to_datetime(df['date'], errors='coerce') : convertit le format de la date en datetime
et si une valeur n'est pas une date valide (par exemple, un texte aléatoire ou un format
incorrect), elle est remplacée par NaT (Not a Time)
.notna() → Élimine les valeurs NaT.
4) Vérifier s’il existe des doublons dans votre base, si c’est le cas procédé à leur
suppression : . duplicated() / .drop_duplicates()
5) Remplacer toutes les valeurs NaN par Zéro
6) Déduire si le traitement de la question précédente a conduit à l'apparition de valeurs
aberrantes dans la base de données, si c’est le cas remplacer ces valeurs par la valeur
max de la variable.
7) Appliquer le codage nécessaire pour transformer les valeurs de la variable Poste en des
valeurs numériques. (Exemple ; manger :0, Ingénieur :1, Développeur : 2)
8) Calculer la matrice Y des données centrées et la matrice Z de données centrées et
réduites.
9) Calculer la matrice RX des corrélations de notre matrice de données et la matrice VZ des
variances et covariances de Z. Commenter.
Page 2/2