Mini-projet en R
Master en Finance, Actuariat & Data Science
Préparé par : Pr. Smail Ait El Asri
1. Description de mini projet
Ce mini projet vise à analyser les résultats académiques de plusieurs étudiants dans diverses matières.
Chaque étudiant possède deux notes par matière et le nombre total d'étudiants est de 400. L'objectif est
d'examiner la performance moyenne et la variabilité des résultats, d'identifier les points forts ainsi que les
axes d'amélioration. Ce projet a également pour but de maîtriser l'utilisation de R pour la manipulation des
données, la réalisation d'analyses statistiques et la création de visualisations graphiques.
Chargement et exploration des donnees
a. Charger le fichier CSV etudiants.csv dans un dataframe nommé etudiants en utilisant la fonction
read.csv() (attention au séparateur).
b. Afficher les 10 premières lignes du dataframe avec head(etudiants, 10).
c. Utiliser la fonction str(etudiants) pour examiner la structure des données.
d. Utiliser la fonction summary(etudiants) pour obtenir un résumé statistique (min, max, médiane,
moyenne, etc.) de chaque variable.
e. Quelles observations faites-vous sur les résultats des fonctions str() et summary()
Nettoyage eventuel
a. Vérifier s'il existe des valeurs manquantes ou aberrantes.
b. Y a-t-il des données manquantes ou des incohérences dans les notes ? justifier.
Statistiques descriptives par etudiant
a. Calculer la moyenne des notes de chaque étudiant sur l’ensemble des matières.
b. Ajouter cette moyenne dans une nouvelle colonne du dataframe etudiants appelée
Moyenne.
c. Calculer l’écart-type des notes pour chaque étudiant et ajouter ce résultat dans une nouvelle
colonne, par exemple Std.
d. Quels étudiants présentent la plus grande variabilité dans leurs notes ? justifier.
Statistiques descriptives par matiere
a. Créer un nouveau DataFrame nommé stats_par_matiere dont les lignes correspondent
aux matières (Math, Physique, etc.) et les colonnes aux statistiques suivantes :
i. Moyenne
ii. Écart-type (Std)
iii. Variance
iv. Médiane
v. Minimum
vi. Maximum
Calcul des statistiques par matiere
a. Pour chaque matière, calculer ces statistiques à partir du dataframe etudiants.
b. Quelle matière a la moyenne la plus élevée ? Et la plus faible ?
c. Quelle matière présente la plus grande dispersion ?
d. Analyser si certaines matières semblent avoir des distributions de notes plus resserrées ou
plus dispersées.
Question ouverte
Réfléchissez aux aspects de vos données qui mériteraient une visualisation approfondie. Parmi les
différentes informations disponibles, quelles visualisations vous semblent les plus pertinentes
pour mettre en évidence les tendances, les relations ou les anomalies présentes dans les résultats
académiques ? Justifiez vos choix et décrivez comment vous les réaliseriez en utilisant ggplot2.
2. Instructions pour la realisation
• Le rapport doit comporter une page de garde contenant les informations nécessaires.
• Une introduction.
• Les réponses aux questions.
• Une conclusion.