0% ont trouvé ce document utile (0 vote)
99 vues5 pages

Analyse Statistique de Divers Datasets

Le document présente une série d'exercices d'analyse de données utilisant divers jeux de données, tels que iris, mtcars, Wage, airquality, ToothGrowth, diamonds, ChickWeight, Credit, swiss et flights. Chaque exercice comprend des questions sur l'exploration des données, les probabilités, la régression linéaire, la classification et la représentation graphique. L'objectif est d'appliquer des techniques statistiques pour analyser et interpréter les données de manière approfondie.

Transféré par

nzokosalih
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
99 vues5 pages

Analyse Statistique de Divers Datasets

Le document présente une série d'exercices d'analyse de données utilisant divers jeux de données, tels que iris, mtcars, Wage, airquality, ToothGrowth, diamonds, ChickWeight, Credit, swiss et flights. Chaque exercice comprend des questions sur l'exploration des données, les probabilités, la régression linéaire, la classification et la représentation graphique. L'objectif est d'appliquer des techniques statistiques pour analyser et interpréter les données de manière approfondie.

Transféré par

nzokosalih
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exercice 1 : Analyse des Fleurs d’Iris (iris dataset)

Le jeu de données iris contient des informations sur la longueur et la largeur des sépales et
pétales de différentes espèces de fleurs.

Questions :

1. Analyse descriptive
a) Afficher les premières lignes de iris et résumer ses statistiques.
b) Calculer la moyenne, la médiane et l’écart-type de la longueur des pétales
(Petal.Length).
2. Probabilités et distributions
a) Estimer la probabilité qu’une fleur ait une largeur de sépale (Sepal.Width)
supérieure à 3 cm.
b) Tester si Sepal.Length suit une distribution normale avec le test de Shapiro-Wilk.
3. Régression Linéaire
a) Modéliser la longueur des pétales (Petal.Length) en fonction de la largeur des
sépales (Sepal.Width).
b) Prédire la longueur des pétales d’une fleur ayant une largeur de sépale de 3.2 cm.
4. Classification avec la régression logistique
a) Construire un modèle de régression logistique pour prédire l’espèce (Species) en
fonction des caractéristiques des fleurs.
b) Évaluer la précision du modèle avec une matrice de confusion.

Exercice 2 : Étude de la Consommation d’Essence (mtcars dataset)

Le jeu mtcars contient des informations sur 32 modèles de voitures, avec des variables
comme mpg (consommation en miles par gallon), hp (puissance), et wt (poids).

Questions :

1. Exploration des données


a) Afficher un résumé statistique du dataset mtcars.
b) Calculer la moyenne, la médiane et l’écart-type de la consommation (mpg).
2. Probabilités et intervalles de confiance
a) Estimer la probabilité qu’une voiture consomme plus de 25 mpg.
b) Construire un intervalle de confiance à 95% pour la consommation moyenne.
3. Régression Linéaire
a) Modéliser la consommation mpg en fonction du poids wt et de la puissance hp.
b) Interpréter les coefficients et prédire la consommation pour une voiture de 2.5
tonnes et 150 chevaux.
4. Comparaison entre groupes
a) Comparer la consommation entre les voitures automatiques (am=0) et manuelles
(am=1) avec un test de Student.
b) Interpréter les résultats.

Exercice 3 : Étude des Revenus avec le package ISLR (dataset Wage)

P. 1/5
Le dataset Wage du package ISLR contient des informations sur les salaires (wage), l'âge (age),
le niveau d’éducation (education) et d’autres caractéristiques.

Questions :

1. Exploration des données


a) Charger le package ISLR et afficher un résumé du dataset Wage.
b) Visualiser la distribution des salaires avec un histogramme.
2. Probabilités et estimation
a) Calculer la probabilité qu’un individu gagne plus de 150 000 € par an.
b) Construire un intervalle de confiance à 95% pour le salaire moyen.
3. Régression Linéaire
a) Modéliser wage en fonction de age et education.
b) Prédire le salaire d’une personne de 45 ans avec un niveau d’éducation Bac+5.
4. Test du Khi-Deux
a) Tester l’indépendance entre education et le fait d’avoir un salaire supérieur à 100
000 €.
b) Interpréter les résultats.

Exercice 4 : Analyse de la Pollution de l’Air (airquality dataset)

Le dataset airquality contient des mesures de pollution et de conditions météorologiques


relevées à New York en 1973.

Questions :

1. Exploration des données


a) Afficher les 6 premières lignes du dataset et son résumé statistique.
b) Calculer la moyenne, la médiane et l’écart-type de la concentration en ozone
(Ozone).
2. Probabilités et estimation
a) Estimer la probabilité qu’un jour ait un niveau d’ozone supérieur à 80 ppm.
b) Construire un intervalle de confiance à 95% pour la concentration moyenne
d’ozone.
3. Régression Linéaire
a) Modéliser Ozone en fonction de la température (Temp).
b) Prédire le niveau d’ozone pour une température de 30°C.
4. Représentation Graphique
a) Construire un nuage de points Ozone vs Temp et ajouter la droite de régression.
b) Réaliser un boxplot du niveau d’ozone selon les mois (Month).

Exercice 5 : Étude de la Croissance Dentaire (ToothGrowth dataset)

Le dataset ToothGrowth contient des mesures de la croissance dentaire chez des cochons
d’Inde selon la vitamine C consommée.

Questions :

P. 2/5
1. Exploration des données
a) Afficher un aperçu du dataset et résumer ses variables.
b) Calculer la moyenne et l’écart-type de la longueur des dents (len).
2. Comparaison entre groupes
a) Comparer la longueur des dents entre les deux types de supplément (supp) avec un
test de Student.
b) Construire un intervalle de confiance à 95% pour la différence moyenne.
3. Représentation Graphique
a) Réaliser un boxplot comparant la longueur des dents selon supp.
b) Construire un histogramme de len avec des couleurs différentes selon dose.
4. Probabilités et estimation
a) Quelle est la probabilité qu’un cochon d’Inde ait une longueur de dent supérieure à
20 mm ?
b) Estimer un intervalle de confiance à 95% pour la longueur moyenne des dents.
c) Comparer la distribution de len avec une loi normale et tester l’ajustement avec
un test de Kolmogorov-Smirnov.
d) Si on sélectionne au hasard un individu dans le dataset, quelle est la probabilité
qu’il ait reçu une dose de vitamine de 1 mg ?

Exercice 6 : Analyse des Prix des Diamants (diamonds dataset - ggplot2)

Le dataset diamonds contient des informations sur plus de 50 000 diamants (prix, taille,
couleur, clarté, etc.).

Questions :

1. Exploration des données


a) Afficher les 6 premières lignes et résumer les variables principales.
b) Calculer la moyenne et la médiane du prix (price).
2. Probabilités et estimation
a) Estimer la probabilité qu’un diamant coûte plus de 5000$.
b) Construire un intervalle de confiance à 99% pour le prix moyen.
3. Régression Linéaire
a) Modéliser price en fonction de carat.
b) Prédire le prix d’un diamant de 1.2 carat.
4. Représentation Graphique
a) Construire un nuage de points price vs carat avec une couleur par cut.
b) Réaliser un boxplot des prix selon la qualité (cut).

Exercice 7 : Suivi de Poids des Poussins (ChickWeight dataset)

Le dataset ChickWeight mesure le poids de poussins selon leur alimentation.

Questions :

1. Exploration des données


a) Afficher le résumé des données.
b) Calculer la moyenne et l’écart-type du poids (weight).

P. 3/5
2. Probabilités et estimation
a) Estimer la probabilité qu’un poussin pèse plus de 200 g.
b) Construire un intervalle de confiance à 95% pour la moyenne.
3. Régression Linéaire
a) Modéliser weight en fonction de Time.
b) Prédire le poids d’un poussin après 30 jours.
4. Représentation Graphique
a) Tracer l’évolution du poids selon le temps pour chaque régime (Diet).
b) Réaliser un histogramme du poids avec des couleurs différentes par régime.

Exercice 8 : Étude des Dépenses Ménagères (ISLR - dataset Credit)

Le dataset Credit contient des informations sur les dépenses de clients en fonction de leur
revenu et d’autres caractéristiques.

Questions :

1. Exploration des données


a) Charger le dataset et afficher un résumé des variables.
b) Calculer la moyenne et la médiane du crédit utilisé (Balance).
2. Probabilités et estimation
a) Estimer la probabilité qu’un client ait un crédit supérieur à 1500$.
b) Tester si Balance suit une loi normale.
3. Régression Linéaire
a) Modéliser Balance en fonction de Income et Age.
b) Prédire le crédit d’un client de 40 ans avec un revenu de 60 000$.
4. Représentation Graphique
a) Construire un nuage de points Balance vs Income avec une couleur par Student
(Yes/No).
b) Réaliser un boxplot de Balance selon Student.

Exercice 9 : Analyse des Crédits Bancaires (datasets package - dataset


swiss)

Le dataset swiss contient des données socio-économiques de cantons suisses.

Questions :

1. Exploration des données


a) Afficher un résumé des variables et les corrélations entre elles.
b) Calculer la moyenne et l’écart-type du taux d’urbanisation (Examination).
2. Régression Linéaire Multiple
a) Modéliser Fertility en fonction de Education et Agriculture.
b) Interpréter les coefficients et faire une prédiction.
3. Représentation Graphique
a) Réaliser un nuage de points Fertility vs Education avec une couleur selon
Catholic.
b) Construire une carte thermique des corrélations entre les variables.
4. Probabilités et estimation

P. 4/5
a) Calculer la probabilité qu’un canton ait un taux d’urbanisation (Examination)
supérieur à 15%.
b) Construire un intervalle de confiance à 90% pour la moyenne de Education.
c) Vérifier si Fertility suit une distribution normale et interpréter les résultats.
d) Estimer la probabilité qu’un canton soit fortement catholique (Catholic > 50%).

Exercice 10 : Analyse des Vols Aériens (nycflights13 - dataset flights)

Le package nycflights13 contient des informations sur les vols au départ de New York en
2013.

Questions :

1. Exploration des données


a) Charger le package et afficher un aperçu du dataset flights.
b) Filtrer les vols retardés de plus de 1 heure et estimer leur proportion.
2. Régression Logistique
a) Construire un modèle pour prédire si un vol aura un retard supérieur à 30
minutes en fonction de dep_delay et distance.
b) Interpréter les coefficients du modèle.
3. Représentation Graphique
a) Tracer un histogramme des retards de départ (dep_delay).
b) Réaliser un boxplot des retards en fonction de la compagnie aérienne (carrier).
4. Probabilités et estimation
a) Calculer la probabilité qu’un vol ait un retard au départ (dep_delay) supérieur à
15 minutes.
b) Construire un intervalle de confiance à 95% pour la durée moyenne des vols
(air_time).
c) Tester si la variable arr_delay suit une distribution normale et interpréter.
d) Quelle est la probabilité qu’un vol de la compagnie Delta (carrier == "DL") soit
retardé de plus de 30 minutes ?

P. 5/5

Vous aimerez peut-être aussi