0% ont trouvé ce document utile (0 vote)
31 vues2 pages

Mini

Ce mini-projet en R vise à analyser les résultats académiques de 400 étudiants à travers diverses matières en se concentrant sur la performance moyenne et la variabilité des notes. Les étapes incluent le chargement et l'exploration des données, le nettoyage, le calcul de statistiques descriptives par étudiant et par matière, ainsi que des réflexions sur les visualisations pertinentes. Le rapport final doit comprendre une page de garde, une introduction, les réponses aux questions et une conclusion.

Transféré par

Nesrine ZARROUK
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
31 vues2 pages

Mini

Ce mini-projet en R vise à analyser les résultats académiques de 400 étudiants à travers diverses matières en se concentrant sur la performance moyenne et la variabilité des notes. Les étapes incluent le chargement et l'exploration des données, le nettoyage, le calcul de statistiques descriptives par étudiant et par matière, ainsi que des réflexions sur les visualisations pertinentes. Le rapport final doit comprendre une page de garde, une introduction, les réponses aux questions et une conclusion.

Transféré par

Nesrine ZARROUK
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Mini-projet en R

Master en Finance, Actuariat & Data Science


Préparé par : Pr. Smail Ait El Asri

1. Description de mini projet


Ce mini projet vise à analyser les résultats académiques de plusieurs étudiants dans diverses matières.
Chaque étudiant possède deux notes par matière et le nombre total d'étudiants est de 400. L'objectif est
d'examiner la performance moyenne et la variabilité des résultats, d'identifier les points forts ainsi que les
axes d'amélioration. Ce projet a également pour but de maîtriser l'utilisation de R pour la manipulation des
données, la réalisation d'analyses statistiques et la création de visualisations graphiques.

Chargement et exploration des donnees


a. Charger le fichier CSV etudiants.csv dans un dataframe nommé etudiants en utilisant la fonction
read.csv() (attention au séparateur).
b. Afficher les 10 premières lignes du dataframe avec head(etudiants, 10).
c. Utiliser la fonction str(etudiants) pour examiner la structure des données.
d. Utiliser la fonction summary(etudiants) pour obtenir un résumé statistique (min, max, médiane,
moyenne, etc.) de chaque variable.
e. Quelles observations faites-vous sur les résultats des fonctions str() et summary()

Nettoyage eventuel
a. Vérifier s'il existe des valeurs manquantes ou aberrantes.
b. Y a-t-il des données manquantes ou des incohérences dans les notes ? justifier.

Statistiques descriptives par etudiant


a. Calculer la moyenne des notes de chaque étudiant sur l’ensemble des matières.
b. Ajouter cette moyenne dans une nouvelle colonne du dataframe etudiants appelée
Moyenne.
c. Calculer l’écart-type des notes pour chaque étudiant et ajouter ce résultat dans une nouvelle
colonne, par exemple Std.
d. Quels étudiants présentent la plus grande variabilité dans leurs notes ? justifier.
Statistiques descriptives par matiere
a. Créer un nouveau DataFrame nommé stats_par_matiere dont les lignes correspondent
aux matières (Math, Physique, etc.) et les colonnes aux statistiques suivantes :

i. Moyenne
ii. Écart-type (Std)
iii. Variance
iv. Médiane
v. Minimum
vi. Maximum

Calcul des statistiques par matiere


a. Pour chaque matière, calculer ces statistiques à partir du dataframe etudiants.
b. Quelle matière a la moyenne la plus élevée ? Et la plus faible ?
c. Quelle matière présente la plus grande dispersion ?
d. Analyser si certaines matières semblent avoir des distributions de notes plus resserrées ou
plus dispersées.

Question ouverte
Réfléchissez aux aspects de vos données qui mériteraient une visualisation approfondie. Parmi les
différentes informations disponibles, quelles visualisations vous semblent les plus pertinentes
pour mettre en évidence les tendances, les relations ou les anomalies présentes dans les résultats
académiques ? Justifiez vos choix et décrivez comment vous les réaliseriez en utilisant ggplot2.

2. Instructions pour la realisation


• Le rapport doit comporter une page de garde contenant les informations nécessaires.
• Une introduction.
• Les réponses aux questions.
• Une conclusion.

Vous aimerez peut-être aussi