Introduction au traitement des données ECD

Le module d'analyse et de fouille de données, dirigé par Bouaziz Souhir, se concentre sur le processus d'extraction des connaissances à partir de données ECD, essentiel dans divers domaines. Le TP1 aborde les phases de prétraitement et de transformation des données, incluant la manipulation de fichiers CSV, la vérification des dates, et le calcul de matrices centrées et réduites. Les exercices pratiques impliquent l'analyse d'un DataFrame d'employés, le traitement des valeurs manquantes et aberrantes, ainsi que le codage des variables catégorielles.

Transféré par

balkisb231

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

47 vues2 pages

Introduction au traitement des données ECD

Transféré par

balkisb231

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Module : Analyse et fouille de données

Responsable du Cours : Bouaziz Souhir Auditoire : D-LSI-

ADBD
Enseignants TP : Bedoui Abir \ Zammel Zina A-U: 2024-2025

TP1 : Introduction au processus ECD

Phases de prétraitement et de transformation

Introduction : Face à l'explosion continue du volume des données, le processus d'extraction

des connaissances à partir des données ECD est devenu de plus en plus une nécessité dans
divers domaines d’application. Ainsi, cette démarche s'avère cruciale dans des secteurs aussi
variés que la recherche scientifique, la prise de décision en entreprise, la médecine, et bien
d'autres. Ce processus se déclenche par une phase de prétraitement des données pour avoir des
informations, ces données sont ensuite analysées et traitées pour extraire des nouveaux
représentations appelée connaissances.
Objectifs :
Après avoir maitriser les outils de manipulation des dataframe dans le TP0, l’objective de ce
TP est de :
Lire un fichier CSV "Comma-Separated Values" et le charger dans un
DataFrame : (valeurs séparer var des virgules)
Data= pd.read_csv('chemin/vers/[Link]')

Vérifier la validité des dates :

• Vérifiez le type de données de la colonne « date »
• Convertissez la colonne en datetime si nécessaire.
• Identifiez et traitez les dates invalides ou manquantes (NaT).
• Vérifiez les dates dupliquées pour éviter des incohérences.

Calcule de la matrice centrée (Y) : Y= X−μ où : X est la matrice de données d'origine,

μ est le vecteur des moyennes des colonnes de 𝑋.
Calcule de la matrice centrée et réduite (Z) : Z= (X−μ)/σ : σ est le vecteur des écarts-types
des colonnes.
de X.

Page 1/2
Donner les statistiques descriptives de base : la fonction .describe() : donne les
statistiques descriptives de base d'un DataFrame.

Exercice1 :
Soit le DataFrame suivant qui représente des informations sur des employés au sein d'une
entreprise :

1) Télécharger dans votre notebook la base de données ‘[Link]’

2) Interpréter le jeu de données en donnant le nombre des NaN et en décrivant les
statistiques de base
3) Vérifier l’intégrité du domaine des valeurs de la variable ‘Date_emb’
pd.to_datetime(df['date'], errors='coerce') : convertit le format de la date en datetime
et si une valeur n'est pas une date valide (par exemple, un texte aléatoire ou un format
incorrect), elle est remplacée par NaT (Not a Time)
.notna() → Élimine les valeurs NaT.
4) Vérifier s’il existe des doublons dans votre base, si c’est le cas procédé à leur
suppression : . duplicated() / .drop_duplicates()
5) Remplacer toutes les valeurs NaN par Zéro
6) Déduire si le traitement de la question précédente a conduit à l'apparition de valeurs
aberrantes dans la base de données, si c’est le cas remplacer ces valeurs par la valeur
max de la variable.
7) Appliquer le codage nécessaire pour transformer les valeurs de la variable Poste en des
valeurs numériques. (Exemple ; manger :0, Ingénieur :1, Développeur : 2)
8) Calculer la matrice Y des données centrées et la matrice Z de données centrées et
réduites.
9) Calculer la matrice RX des corrélations de notre matrice de données et la matrice VZ des
variances et covariances de Z. Commenter.

Page 2/2

Vous aimerez peut-être aussi

Analyse et Prétraitement de Données Python
Pas encore d'évaluation
Analyse et Prétraitement de Données Python
4 pages
TP2 DM
Pas encore d'évaluation
TP2 DM
2 pages
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
Pas encore d'évaluation
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
6 pages
Préparation de données avec scikit-learn
Pas encore d'évaluation
Préparation de données avec scikit-learn
3 pages
Compte Rendu Examen TP
Pas encore d'évaluation
Compte Rendu Examen TP
5 pages
Analyse et Préparation de Données en TP
Pas encore d'évaluation
Analyse et Préparation de Données en TP
5 pages
Cours ANAD 2022-2023
Pas encore d'évaluation
Cours ANAD 2022-2023
21 pages
Science des Données avec Python
Pas encore d'évaluation
Science des Données avec Python
39 pages
Prétraitement des Données Avancé
100% (2)
Prétraitement des Données Avancé
153 pages
TP Pretraitement
Pas encore d'évaluation
TP Pretraitement
17 pages
Analyse Statistique des Données Pokémon
Pas encore d'évaluation
Analyse Statistique des Données Pokémon
29 pages
ADD Intro 2016-2017
Pas encore d'évaluation
ADD Intro 2016-2017
14 pages
Traitement Des Données Avec Python
Pas encore d'évaluation
Traitement Des Données Avec Python
24 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
2 pages
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
ACP Excel Xnumbers
Pas encore d'évaluation
ACP Excel Xnumbers
15 pages
Cours1 ECD
Pas encore d'évaluation
Cours1 ECD
17 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
17 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
85 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
72 pages
Atelier ETL avec Talend : Données Étudiants
Pas encore d'évaluation
Atelier ETL avec Talend : Données Étudiants
8 pages
Prétraitement des Données: Étapes Clés
Pas encore d'évaluation
Prétraitement des Données: Étapes Clés
12 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
IoT Et Big Data
Pas encore d'évaluation
IoT Et Big Data
11 pages
Guide sur la Collecte et Gestion des Données
Pas encore d'évaluation
Guide sur la Collecte et Gestion des Données
139 pages
Cours - Data Science Intro+ACP
100% (2)
Cours - Data Science Intro+ACP
63 pages
Nettoyage et Transformation des Données
100% (1)
Nettoyage et Transformation des Données
14 pages
Support+du+cours+Mr +Ibourk+Jrs+1
Pas encore d'évaluation
Support+du+cours+Mr +Ibourk+Jrs+1
75 pages
2011-12 Cours Add
Pas encore d'évaluation
2011-12 Cours Add
12 pages
Exercice Évaluatif 2 - Révision de La Tentative
Pas encore d'évaluation
Exercice Évaluatif 2 - Révision de La Tentative
5 pages
TP 01 Data Preprosessing
Pas encore d'évaluation
TP 01 Data Preprosessing
19 pages
Cours de Data Mining en Master 2
Pas encore d'évaluation
Cours de Data Mining en Master 2
20 pages
Importance du prétraitement des données
Pas encore d'évaluation
Importance du prétraitement des données
12 pages
Prétraitement des données en Datamining
Pas encore d'évaluation
Prétraitement des données en Datamining
2 pages
Ai TP1 2024
Pas encore d'évaluation
Ai TP1 2024
5 pages
TP4 Ok
Pas encore d'évaluation
TP4 Ok
2 pages
Rapport DataMining
Pas encore d'évaluation
Rapport DataMining
17 pages
Analyse des données en ingénierie
Pas encore d'évaluation
Analyse des données en ingénierie
26 pages
Analyse Descriptive en Business Intelligence
Pas encore d'évaluation
Analyse Descriptive en Business Intelligence
53 pages
Cours LEDMI Makhlouf
Pas encore d'évaluation
Cours LEDMI Makhlouf
75 pages
Pretratiement
Pas encore d'évaluation
Pretratiement
4 pages
Correction SN Inf371
Pas encore d'évaluation
Correction SN Inf371
2 pages
Python Chapt8
Pas encore d'évaluation
Python Chapt8
57 pages
Machine Learning - 2 Analyse en Composantes Principale
Pas encore d'évaluation
Machine Learning - 2 Analyse en Composantes Principale
37 pages
TP 1: Analyse Exploratoire Et Prétraitement Des Données
Pas encore d'évaluation
TP 1: Analyse Exploratoire Et Prétraitement Des Données
4 pages
Examen TP Data Science 2024
Pas encore d'évaluation
Examen TP Data Science 2024
4 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Polycopié TP: Fouille de Données en R
Pas encore d'évaluation
Polycopié TP: Fouille de Données en R
86 pages
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
Pas encore d'évaluation
Nettoyage des Données: Traiter les Valeurs Manquantes avec Python
14 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
18 pages
Chap1-Introduction Au DataMining Sahbi
Pas encore d'évaluation
Chap1-Introduction Au DataMining Sahbi
47 pages
Cours de Data Mining : Métier et Données
Pas encore d'évaluation
Cours de Data Mining : Métier et Données
57 pages
Chap 1
Pas encore d'évaluation
Chap 1
19 pages
Introduction à Numpy pour Data Science
Pas encore d'évaluation
Introduction à Numpy pour Data Science
9 pages
Diapo Cours 1
Pas encore d'évaluation
Diapo Cours 1
17 pages
Analyse de données avec R et ACP
Pas encore d'évaluation
Analyse de données avec R et ACP
2 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
TP1 DM
Pas encore d'évaluation
TP1 DM
2 pages
Syntaxe Blade
Pas encore d'évaluation
Syntaxe Blade
10 pages
Exception Java
Pas encore d'évaluation
Exception Java
1 page
TP Cloud 2
Pas encore d'évaluation
TP Cloud 2
11 pages
Gestion des disques durs virtuels avec VMware
Pas encore d'évaluation
Gestion des disques durs virtuels avec VMware
12 pages
TP sur l'Analyse en Composantes Principales
Pas encore d'évaluation
TP sur l'Analyse en Composantes Principales
3 pages
Suppression d'un cookie en PHP
Pas encore d'évaluation
Suppression d'un cookie en PHP
3 pages
TP Cloud
Pas encore d'évaluation
TP Cloud
4 pages
APznzaYE4sV0q0WPcUWlthxnKLXuq6eOGNCLXKOa84hlY-8MbnL4jZCqXjhCEF2Mea6hjV7ix KnszVbuOhWduVhZMgXu7QXUk0x3zpjt9i4RBqzhxzJHQT JNZmzkOaZLQ42hv8rZ MFw4qcvXrRjuhXhSD2g2KQH9GXRl40GVhMscrl3H a6QE4N8EJrjBvyhjPzV0mAE7szs0cA03
Pas encore d'évaluation
APznzaYE4sV0q0WPcUWlthxnKLXuq6eOGNCLXKOa84hlY-8MbnL4jZCqXjhCEF2Mea6hjV7ix KnszVbuOhWduVhZMgXu7QXUk0x3zpjt9i4RBqzhxzJHQT JNZmzkOaZLQ42hv8rZ MFw4qcvXrRjuhXhSD2g2KQH9GXRl40GVhMscrl3H a6QE4N8EJrjBvyhjPzV0mAE7szs0cA03
49 pages
Analyse ACP : Calculs et Interprétations
Pas encore d'évaluation
Analyse ACP : Calculs et Interprétations
1 page
Cours de Programmation Web en PHP et Laravel
Pas encore d'évaluation
Cours de Programmation Web en PHP et Laravel
86 pages
Chapitre: Routage Statique
Pas encore d'évaluation
Chapitre: Routage Statique
27 pages
Probabilités et Statistiques : TD ADBD Sfax
Pas encore d'évaluation
Probabilités et Statistiques : TD ADBD Sfax
2 pages
Fiches de Sons 3 La Classe de Lollie
Pas encore d'évaluation
Fiches de Sons 3 La Classe de Lollie
10 pages
Guide Sécurité Espaces Confinés
100% (1)
Guide Sécurité Espaces Confinés
7 pages
Correction Sujet 1 S Maths
Pas encore d'évaluation
Correction Sujet 1 S Maths
6 pages
Supporterisme Et Engagement Politique Su
Pas encore d'évaluation
Supporterisme Et Engagement Politique Su
399 pages
Annales Akashique
80% (5)
Annales Akashique
9 pages
Évaluation Du Livre Le Tunnel
Pas encore d'évaluation
Évaluation Du Livre Le Tunnel
6 pages
Exercices de Trigonométrie Avancée
Pas encore d'évaluation
Exercices de Trigonométrie Avancée
2 pages
Conception de Matériaux Didactiques
Pas encore d'évaluation
Conception de Matériaux Didactiques
48 pages
Cours Electronique de Puissance
Pas encore d'évaluation
Cours Electronique de Puissance
77 pages
Quiz Culture Generale (Divers) : Réponse: William Shakespeare
100% (1)
Quiz Culture Generale (Divers) : Réponse: William Shakespeare
6 pages
Récap-Bol Alimentaire Chyme Chyle
Pas encore d'évaluation
Récap-Bol Alimentaire Chyme Chyle
3 pages
Devoir Charbon de Bois 5 Ieme
Pas encore d'évaluation
Devoir Charbon de Bois 5 Ieme
2 pages
Exercice K
Pas encore d'évaluation
Exercice K
4 pages
Travail Lisette Albert
Pas encore d'évaluation
Travail Lisette Albert
26 pages
Vendredi 1
Pas encore d'évaluation
Vendredi 1
66 pages
Langages 2 Cours 2024
Pas encore d'évaluation
Langages 2 Cours 2024
4 pages
PRP Audit
Pas encore d'évaluation
PRP Audit
6 pages
Chapitre 2 - Champ Et Potentiel Électriques
Pas encore d'évaluation
Chapitre 2 - Champ Et Potentiel Électriques
20 pages
Guide Pratique Pour L'enregistrement Des Rapports Inter-Arcades
86% (7)
Guide Pratique Pour L'enregistrement Des Rapports Inter-Arcades
178 pages
Analyser des Graphiques en Géographie
Pas encore d'évaluation
Analyser des Graphiques en Géographie
1 page
Simulation d'une MAS en régime U/F
Pas encore d'évaluation
Simulation d'une MAS en régime U/F
9 pages
Exercices D'applications en Construction Métalliques
Pas encore d'évaluation
Exercices D'applications en Construction Métalliques
11 pages
Erdesc Formateur Linux Certifie Lpic 3
Pas encore d'évaluation
Erdesc Formateur Linux Certifie Lpic 3
2 pages
Géosynthétiques et Fondations Renforcées
Pas encore d'évaluation
Géosynthétiques et Fondations Renforcées
111 pages
1 Corrigé
Pas encore d'évaluation
1 Corrigé
4 pages
Business Plan Garage
Pas encore d'évaluation
Business Plan Garage
17 pages
Examen Final de Géologie
Pas encore d'évaluation
Examen Final de Géologie
9 pages
Présent et brièveté en narration
Pas encore d'évaluation
Présent et brièveté en narration
12 pages
Lecons D'arcane Mystique
93% (15)
Lecons D'arcane Mystique
2 pages