0% ont trouvé ce document utile (0 vote)

99 vues5 pages

Analyse Statistique de Divers Datasets

Le document présente une série d'exercices d'analyse de données utilisant divers jeux de données, tels que iris, mtcars, Wage, airquality, ToothGrowth, diamonds, ChickWeight, Credit, swiss et flights. Chaque exercice comprend des questions sur l'exploration des données, les probabilités, la régression linéaire, la classification et la représentation graphique. L'objectif est d'appliquer des techniques statistiques pour analyser et interpréter les données de manière approfondie.

Transféré par

nzokosalih

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

99 vues5 pages

Analyse Statistique de Divers Datasets

Transféré par

nzokosalih

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exercice 1 : Analyse des Fleurs d’Iris (iris dataset)

Le jeu de données iris contient des informations sur la longueur et la largeur des sépales et
pétales de différentes espèces de fleurs.

Questions :

1. Analyse descriptive
a) Afficher les premières lignes de iris et résumer ses statistiques.
b) Calculer la moyenne, la médiane et l’écart-type de la longueur des pétales
(Petal.Length).
2. Probabilités et distributions
a) Estimer la probabilité qu’une fleur ait une largeur de sépale (Sepal.Width)
supérieure à 3 cm.
b) Tester si Sepal.Length suit une distribution normale avec le test de Shapiro-Wilk.
3. Régression Linéaire
a) Modéliser la longueur des pétales (Petal.Length) en fonction de la largeur des
sépales (Sepal.Width).
b) Prédire la longueur des pétales d’une fleur ayant une largeur de sépale de 3.2 cm.
4. Classification avec la régression logistique
a) Construire un modèle de régression logistique pour prédire l’espèce (Species) en
fonction des caractéristiques des fleurs.
b) Évaluer la précision du modèle avec une matrice de confusion.

Exercice 2 : Étude de la Consommation d’Essence (mtcars dataset)

Le jeu mtcars contient des informations sur 32 modèles de voitures, avec des variables
comme mpg (consommation en miles par gallon), hp (puissance), et wt (poids).

Questions :

1. Exploration des données

a) Afficher un résumé statistique du dataset mtcars.
b) Calculer la moyenne, la médiane et l’écart-type de la consommation (mpg).
2. Probabilités et intervalles de confiance
a) Estimer la probabilité qu’une voiture consomme plus de 25 mpg.
b) Construire un intervalle de confiance à 95% pour la consommation moyenne.
3. Régression Linéaire
a) Modéliser la consommation mpg en fonction du poids wt et de la puissance hp.
b) Interpréter les coefficients et prédire la consommation pour une voiture de 2.5
tonnes et 150 chevaux.
4. Comparaison entre groupes
a) Comparer la consommation entre les voitures automatiques (am=0) et manuelles
(am=1) avec un test de Student.
b) Interpréter les résultats.

Exercice 3 : Étude des Revenus avec le package ISLR (dataset Wage)

P. 1/5
Le dataset Wage du package ISLR contient des informations sur les salaires (wage), l'âge (age),
le niveau d’éducation (education) et d’autres caractéristiques.

Questions :

1. Exploration des données

a) Charger le package ISLR et afficher un résumé du dataset Wage.
b) Visualiser la distribution des salaires avec un histogramme.
2. Probabilités et estimation
a) Calculer la probabilité qu’un individu gagne plus de 150 000 € par an.
b) Construire un intervalle de confiance à 95% pour le salaire moyen.
3. Régression Linéaire
a) Modéliser wage en fonction de age et education.
b) Prédire le salaire d’une personne de 45 ans avec un niveau d’éducation Bac+5.
4. Test du Khi-Deux
a) Tester l’indépendance entre education et le fait d’avoir un salaire supérieur à 100
000 €.
b) Interpréter les résultats.

Exercice 4 : Analyse de la Pollution de l’Air (airquality dataset)

Le dataset airquality contient des mesures de pollution et de conditions météorologiques

relevées à New York en 1973.

Questions :

1. Exploration des données

a) Afficher les 6 premières lignes du dataset et son résumé statistique.
b) Calculer la moyenne, la médiane et l’écart-type de la concentration en ozone
(Ozone).
2. Probabilités et estimation
a) Estimer la probabilité qu’un jour ait un niveau d’ozone supérieur à 80 ppm.
b) Construire un intervalle de confiance à 95% pour la concentration moyenne
d’ozone.
3. Régression Linéaire
a) Modéliser Ozone en fonction de la température (Temp).
b) Prédire le niveau d’ozone pour une température de 30°C.
4. Représentation Graphique
a) Construire un nuage de points Ozone vs Temp et ajouter la droite de régression.
b) Réaliser un boxplot du niveau d’ozone selon les mois (Month).

Exercice 5 : Étude de la Croissance Dentaire (ToothGrowth dataset)

Le dataset ToothGrowth contient des mesures de la croissance dentaire chez des cochons
d’Inde selon la vitamine C consommée.

Questions :

P. 2/5
1. Exploration des données
a) Afficher un aperçu du dataset et résumer ses variables.
b) Calculer la moyenne et l’écart-type de la longueur des dents (len).
2. Comparaison entre groupes
a) Comparer la longueur des dents entre les deux types de supplément (supp) avec un
test de Student.
b) Construire un intervalle de confiance à 95% pour la différence moyenne.
3. Représentation Graphique
a) Réaliser un boxplot comparant la longueur des dents selon supp.
b) Construire un histogramme de len avec des couleurs différentes selon dose.
4. Probabilités et estimation
a) Quelle est la probabilité qu’un cochon d’Inde ait une longueur de dent supérieure à
20 mm ?
b) Estimer un intervalle de confiance à 95% pour la longueur moyenne des dents.
c) Comparer la distribution de len avec une loi normale et tester l’ajustement avec
un test de Kolmogorov-Smirnov.
d) Si on sélectionne au hasard un individu dans le dataset, quelle est la probabilité
qu’il ait reçu une dose de vitamine de 1 mg ?

Exercice 6 : Analyse des Prix des Diamants (diamonds dataset - ggplot2)

Le dataset diamonds contient des informations sur plus de 50 000 diamants (prix, taille,
couleur, clarté, etc.).

Questions :

1. Exploration des données

a) Afficher les 6 premières lignes et résumer les variables principales.
b) Calculer la moyenne et la médiane du prix (price).
2. Probabilités et estimation
a) Estimer la probabilité qu’un diamant coûte plus de 5000$.
b) Construire un intervalle de confiance à 99% pour le prix moyen.
3. Régression Linéaire
a) Modéliser price en fonction de carat.
b) Prédire le prix d’un diamant de 1.2 carat.
4. Représentation Graphique
a) Construire un nuage de points price vs carat avec une couleur par cut.
b) Réaliser un boxplot des prix selon la qualité (cut).

Exercice 7 : Suivi de Poids des Poussins (ChickWeight dataset)

Le dataset ChickWeight mesure le poids de poussins selon leur alimentation.

Questions :

1. Exploration des données

a) Afficher le résumé des données.
b) Calculer la moyenne et l’écart-type du poids (weight).

P. 3/5
2. Probabilités et estimation
a) Estimer la probabilité qu’un poussin pèse plus de 200 g.
b) Construire un intervalle de confiance à 95% pour la moyenne.
3. Régression Linéaire
a) Modéliser weight en fonction de Time.
b) Prédire le poids d’un poussin après 30 jours.
4. Représentation Graphique
a) Tracer l’évolution du poids selon le temps pour chaque régime (Diet).
b) Réaliser un histogramme du poids avec des couleurs différentes par régime.

Exercice 8 : Étude des Dépenses Ménagères (ISLR - dataset Credit)

Le dataset Credit contient des informations sur les dépenses de clients en fonction de leur
revenu et d’autres caractéristiques.

Questions :

1. Exploration des données

a) Charger le dataset et afficher un résumé des variables.
b) Calculer la moyenne et la médiane du crédit utilisé (Balance).
2. Probabilités et estimation
a) Estimer la probabilité qu’un client ait un crédit supérieur à 1500$.
b) Tester si Balance suit une loi normale.
3. Régression Linéaire
a) Modéliser Balance en fonction de Income et Age.
b) Prédire le crédit d’un client de 40 ans avec un revenu de 60 000$.
4. Représentation Graphique
a) Construire un nuage de points Balance vs Income avec une couleur par Student
(Yes/No).
b) Réaliser un boxplot de Balance selon Student.

Exercice 9 : Analyse des Crédits Bancaires (datasets package - dataset

swiss)

Le dataset swiss contient des données socio-économiques de cantons suisses.

Questions :

1. Exploration des données

a) Afficher un résumé des variables et les corrélations entre elles.
b) Calculer la moyenne et l’écart-type du taux d’urbanisation (Examination).
2. Régression Linéaire Multiple
a) Modéliser Fertility en fonction de Education et Agriculture.
b) Interpréter les coefficients et faire une prédiction.
3. Représentation Graphique
a) Réaliser un nuage de points Fertility vs Education avec une couleur selon
Catholic.
b) Construire une carte thermique des corrélations entre les variables.
4. Probabilités et estimation

P. 4/5
a) Calculer la probabilité qu’un canton ait un taux d’urbanisation (Examination)
supérieur à 15%.
b) Construire un intervalle de confiance à 90% pour la moyenne de Education.
c) Vérifier si Fertility suit une distribution normale et interpréter les résultats.
d) Estimer la probabilité qu’un canton soit fortement catholique (Catholic > 50%).

Exercice 10 : Analyse des Vols Aériens (nycflights13 - dataset flights)

Le package nycflights13 contient des informations sur les vols au départ de New York en
2013.

Questions :

1. Exploration des données

a) Charger le package et afficher un aperçu du dataset flights.
b) Filtrer les vols retardés de plus de 1 heure et estimer leur proportion.
2. Régression Logistique
a) Construire un modèle pour prédire si un vol aura un retard supérieur à 30
minutes en fonction de dep_delay et distance.
b) Interpréter les coefficients du modèle.
3. Représentation Graphique
a) Tracer un histogramme des retards de départ (dep_delay).
b) Réaliser un boxplot des retards en fonction de la compagnie aérienne (carrier).
4. Probabilités et estimation
a) Calculer la probabilité qu’un vol ait un retard au départ (dep_delay) supérieur à
15 minutes.
b) Construire un intervalle de confiance à 95% pour la durée moyenne des vols
(air_time).
c) Tester si la variable arr_delay suit une distribution normale et interpréter.
d) Quelle est la probabilité qu’un vol de la compagnie Delta (carrier == "DL") soit
retardé de plus de 30 minutes ?

P. 5/5

Vous aimerez peut-être aussi

Mémoire Saw Lass Finale
Pas encore d'évaluation
Mémoire Saw Lass Finale
65 pages
CC 2011
Pas encore d'évaluation
CC 2011
2 pages
Statbayesiennes v4
Pas encore d'évaluation
Statbayesiennes v4
29 pages
Tps-Unikal. 2022
Pas encore d'évaluation
Tps-Unikal. 2022
34 pages
Stat Inférentielle
100% (1)
Stat Inférentielle
64 pages
Statistiques inférentielles et estimation
Pas encore d'évaluation
Statistiques inférentielles et estimation
5 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
147 pages
Estimation de Variance et Paramètres Statistiques
Pas encore d'évaluation
Estimation de Variance et Paramètres Statistiques
3 pages
Théorie Bayesienne pour Étudiants Avancés
Pas encore d'évaluation
Théorie Bayesienne pour Étudiants Avancés
2 pages
Devoir 1 Estimation ISE 2
Pas encore d'évaluation
Devoir 1 Estimation ISE 2
2 pages
Échantillonnage et Estimations Statistiques
Pas encore d'évaluation
Échantillonnage et Estimations Statistiques
1 page
Classification Acp
Pas encore d'évaluation
Classification Acp
5 pages
Durée de vie des écrans : test d'hypothèse
Pas encore d'évaluation
Durée de vie des écrans : test d'hypothèse
1 page
Corrigé Lois Discrètes
Pas encore d'évaluation
Corrigé Lois Discrètes
24 pages
Afc001final 201215191556
Pas encore d'évaluation
Afc001final 201215191556
63 pages
Estimation et Risque en Statistique
Pas encore d'évaluation
Estimation et Risque en Statistique
104 pages
Cours Statistisques Et Probabilités L2 ISSGEA 2022-2023 DRAFT00
Pas encore d'évaluation
Cours Statistisques Et Probabilités L2 ISSGEA 2022-2023 DRAFT00
45 pages
Programme L1 MI
Pas encore d'évaluation
Programme L1 MI
22 pages
Simulation de Variables Aléatoires
100% (1)
Simulation de Variables Aléatoires
45 pages
Modèles de régression linéaire 2024/2025
Pas encore d'évaluation
Modèles de régression linéaire 2024/2025
4 pages
Capture D'écran . 2024-12-03 À 22.12.31
Pas encore d'évaluation
Capture D'écran . 2024-12-03 À 22.12.31
9 pages
Exmaster2011 Monique Jeanblanc
Pas encore d'évaluation
Exmaster2011 Monique Jeanblanc
173 pages
Analyse de données ozone avec R
100% (2)
Analyse de données ozone avec R
4 pages
Estimation et Probabilités en Ingénierie
Pas encore d'évaluation
Estimation et Probabilités en Ingénierie
2 pages
Statistiques en grande dimension : Régressions
Pas encore d'évaluation
Statistiques en grande dimension : Régressions
29 pages
TD Tve
Pas encore d'évaluation
TD Tve
6 pages
Exercices de Probabilités Agrégation 2013-2014
Pas encore d'évaluation
Exercices de Probabilités Agrégation 2013-2014
5 pages
Cours - Apprentissage Statistique
100% (1)
Cours - Apprentissage Statistique
24 pages
Probabilités et Statistiques : TD Semestre 1
Pas encore d'évaluation
Probabilités et Statistiques : TD Semestre 1
2 pages
Mat2720 H16
Pas encore d'évaluation
Mat2720 H16
6 pages
Corrigé Examen Analyse Numérique 2018
Pas encore d'évaluation
Corrigé Examen Analyse Numérique 2018
4 pages
Correction DS5 Maths approfondies ECG2
Pas encore d'évaluation
Correction DS5 Maths approfondies ECG2
3 pages
Analyse Factorielle des Correspondances (AFC)
Pas encore d'évaluation
Analyse Factorielle des Correspondances (AFC)
9 pages
Estimations et Intervalles de Confiance en Statistiques
Pas encore d'évaluation
Estimations et Intervalles de Confiance en Statistiques
10 pages
Cours de Fiabilite
Pas encore d'évaluation
Cours de Fiabilite
14 pages
Modèle Linéaire Général en Économétrie
Pas encore d'évaluation
Modèle Linéaire Général en Économétrie
30 pages
Modèles de Régression à l'Université de Caen
Pas encore d'évaluation
Modèles de Régression à l'Université de Caen
191 pages
Tests Racine Unitaire
Pas encore d'évaluation
Tests Racine Unitaire
13 pages
2024-2025 TD Analyse 1
Pas encore d'évaluation
2024-2025 TD Analyse 1
4 pages
Seance - 6 - Distributions D'échantillonnage
Pas encore d'évaluation
Seance - 6 - Distributions D'échantillonnage
15 pages
Regression Logistique
Pas encore d'évaluation
Regression Logistique
14 pages
Mathématiques Pratiques pour Gestionnaires
Pas encore d'évaluation
Mathématiques Pratiques pour Gestionnaires
39 pages
Statistiques des processus stochastiques
Pas encore d'évaluation
Statistiques des processus stochastiques
80 pages
Introduction à la Probabilité MA105
Pas encore d'évaluation
Introduction à la Probabilité MA105
57 pages
Fonctions de Plusieurs Variables
100% (1)
Fonctions de Plusieurs Variables
14 pages
Estimation de la durée de vie des oscilloscopes
Pas encore d'évaluation
Estimation de la durée de vie des oscilloscopes
7 pages
Inégalités et Estimation en Probabilités
100% (1)
Inégalités et Estimation en Probabilités
4 pages
Processus de Poisson et Modèles Démographiques
Pas encore d'évaluation
Processus de Poisson et Modèles Démographiques
44 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
49 pages
Analyse Numérique Chap3
Pas encore d'évaluation
Analyse Numérique Chap3
16 pages
Correction TD°1 Échantillonnage
Pas encore d'évaluation
Correction TD°1 Échantillonnage
5 pages
Corrigé 1
Pas encore d'évaluation
Corrigé 1
3 pages
Analyse des eaux minérales par ACP
Pas encore d'évaluation
Analyse des eaux minérales par ACP
16 pages
Cours-Stat DMPA1 N
Pas encore d'évaluation
Cours-Stat DMPA1 N
51 pages
Variables aléatoires et lois de probabilité
Pas encore d'évaluation
Variables aléatoires et lois de probabilité
19 pages
Exercices de Statistique et Probabilités
Pas encore d'évaluation
Exercices de Statistique et Probabilités
3 pages
Probabilités et Hachage en Informatique
Pas encore d'évaluation
Probabilités et Hachage en Informatique
3 pages
Famille de distributions Odd Lindley-G
Pas encore d'évaluation
Famille de distributions Odd Lindley-G
51 pages
Analyse de données avec R : TP01
Pas encore d'évaluation
Analyse de données avec R : TP01
2 pages
TD2 - Readr+ Ggplot
Pas encore d'évaluation
TD2 - Readr+ Ggplot
3 pages
TD TP 1 C++ In1 Dut2
Pas encore d'évaluation
TD TP 1 C++ In1 Dut2
6 pages
ENSP Licence Infomatique 2013
Pas encore d'évaluation
ENSP Licence Infomatique 2013
20 pages
Gestion de la mémoire en systèmes d'exploitation
Pas encore d'évaluation
Gestion de la mémoire en systèmes d'exploitation
91 pages
Interruptions et appels systèmes en S.E.
Pas encore d'évaluation
Interruptions et appels systèmes en S.E.
45 pages
Introduction aux Systèmes d'Exploitation
Pas encore d'évaluation
Introduction aux Systèmes d'Exploitation
37 pages
Résumé des lois de probabilité
Pas encore d'évaluation
Résumé des lois de probabilité
25 pages
Corrigé Examen Physique Statistique 2018
Pas encore d'évaluation
Corrigé Examen Physique Statistique 2018
3 pages
ChapN°7 - Les Algorithmes D'approximation
100% (10)
ChapN°7 - Les Algorithmes D'approximation
10 pages
Comprendre les polynômes de degré 2 et 3
Pas encore d'évaluation
Comprendre les polynômes de degré 2 et 3
4 pages
Méthodes numériques pour valeurs propres
Pas encore d'évaluation
Méthodes numériques pour valeurs propres
58 pages
C C Code Convolution PDF
Pas encore d'évaluation
C C Code Convolution PDF
19 pages
TD - L3 - EMETheorie de La Décision 2022
Pas encore d'évaluation
TD - L3 - EMETheorie de La Décision 2022
3 pages
Optimisation Et Modele
Pas encore d'évaluation
Optimisation Et Modele
30 pages
Factorisations Avec La Forme Canonique Corriges D Exercices
Pas encore d'évaluation
Factorisations Avec La Forme Canonique Corriges D Exercices
2 pages
Introduction à la représentation d'état
Pas encore d'évaluation
Introduction à la représentation d'état
32 pages
Cours Algorithm
Pas encore d'évaluation
Cours Algorithm
7 pages
Pseudo Code
Pas encore d'évaluation
Pseudo Code
16 pages
Calcul de La Complexité D'un Algorithme
Pas encore d'évaluation
Calcul de La Complexité D'un Algorithme
35 pages
Rapport FIGARCH
Pas encore d'évaluation
Rapport FIGARCH
28 pages
TD3 Signal
Pas encore d'évaluation
TD3 Signal
2 pages
Génération et Analyse de Signaux MATLAB
Pas encore d'évaluation
Génération et Analyse de Signaux MATLAB
5 pages
Prepa CN Interro N°1
Pas encore d'évaluation
Prepa CN Interro N°1
12 pages
Serie N 2 Algèbre II
Pas encore d'évaluation
Serie N 2 Algèbre II
3 pages
Modélisation Et Stabilisation D'un Pendule Inversé
Pas encore d'évaluation
Modélisation Et Stabilisation D'un Pendule Inversé
18 pages
Traitement Avancé des Signaux Aléatoires
Pas encore d'évaluation
Traitement Avancé des Signaux Aléatoires
47 pages
Differences Finies (TD Corrigé)
Pas encore d'évaluation
Differences Finies (TD Corrigé)
5 pages
Convergence des polynômes de Bernstein
Pas encore d'évaluation
Convergence des polynômes de Bernstein
3 pages
6 - Correction Des Systèmes Asservis
100% (2)
6 - Correction Des Systèmes Asservis
32 pages
Sol Ex 4 5 6 7 8 TD 3
Pas encore d'évaluation
Sol Ex 4 5 6 7 8 TD 3
5 pages
Optimisation et Algorithmes de Transvasement
Pas encore d'évaluation
Optimisation et Algorithmes de Transvasement
4 pages
Algorithmes d'Approximation en Python
0% (1)
Algorithmes d'Approximation en Python
1 page
Modélisation et Fonction de Transfert
Pas encore d'évaluation
Modélisation et Fonction de Transfert
6 pages
Euleur Modélisation
Pas encore d'évaluation
Euleur Modélisation
18 pages
Quantiﬁcation Scalaire et Prédictive
Pas encore d'évaluation
Quantiﬁcation Scalaire et Prédictive
75 pages
Transformée de Laplace en Automatique
Pas encore d'évaluation
Transformée de Laplace en Automatique
1 page