Travaux Pratiques : Introduction à l’Analyse de
Données Sequence 1
Dr. Oumy NIASS
Objectifs du TP
Ce TP vise à :
• Comprendre le processus de collecte et de nettoyage des données,
• Explorer des techniques de visualisation pour analyser les données,
• Utiliser des commandes basiques de R pour la manipulation et l’analyse.
Étape 1 : Création et Collecte de Données
1.1 Conception d’un questionnaire en ligne
1. Utilisez Google Forms ou Kobo Toolbox pour créer un questionnaire
destiné à recueillir des informations démographiques et académiques.
2. Questions suggérées pour le questionnaire :
• Quel est votre sexe ?
• Quel est votre âge ?
1
• Quel est votre niveau d’études actuel ?
• Combien d’années vous reste-t-il avant la fin de vos études ?
• Avez-vous un emploi en parallèle de vos études ? Si oui, combien d’heures
y consacrez-vous par semaine ?
3. Partagez le lien du questionnaire avec vos camarades et recueillez au moins
30 réponses.
1.2 Exportation des données
1. Exportez les réponses collectées au format CSV. 2. Ouvrez le fichier pour
vérifier que les réponses sont bien enregistrées.
Étape 2 : Prétraitement et Nettoyage des Données
2.1 Importation dans R
1. Importez le fichier CSV dans R avec la commande :
data <- read.csv("votre\_fichier.csv")
2.2 Nettoyage des données
1. Inspectez les données en utilisant :
head(data)
summary(data)
2. Vérifiez les valeurs manquantes et les incohérences :
• Supprimez ou remplacez les valeurs manquantes avec la fonction na.omit()
ou en remplaçant par la moyenne/médiane.
Étape 3 : Analyse Exploratoire des Données
3.1 Analyse unidimensionnelle
1. Calculez des statistiques de base (moyenne, médiane, mode) pour les variables
numériques (ex. âge, nombre d’heures de travail) :
mean(data$age)
median(data$hours\_worked)
2
2. Créez un tableau de fréquences pour les variables catégorielles (ex. sexe,
niveau d’études) :
table(data$sexe)
3.2 Visualisation des données
1. Réalisez un diagramme en secteurs pour représenter la répartition des
sexes :
pie(table(data$sexe), main="Répartition des sexes")
2. Réalisez un histogramme pour visualiser la distribution des âges :
ages", xlab="^
hist(data$age, main="Distribution des ^ Age", col="lightblue")
Étape 4 : Analyse Bivariée
1. Utilisez un tableau de contingence pour examiner la relation entre le sexe et
le niveau d’études :
table(data$sexe, data$niveau_etudes)
2. Calculez et interprétez le Khi-deux de Pearson pour tester l’association
entre ces deux variables :
chisq.test(table(data$sexe, data$niveau_etudes))
Étape 5 : Interprétation et Rapport
5.1 Interprétation des résultats
1. Rédigez une interprétation des résultats obtenus dans les étapes précédentes.
Par exemple :
• Analysez la répartition des âges et des sexes.
• Interprétez les relations entre les variables.
5.2 Suggestions d’améliorations
1. Proposez des pistes pour améliorer la collecte et la qualité des données.
3
Livrables
• Le fichier CSV des données collectées,
• Un rapport résumant les résultats des analyses et vos interprétations.