TD Anado M2

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

42 vues5 pages

TD Anado M2

Transféré par

pesdjock

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Exercices en analyse de données

Cours de M2 - F. Husson - Agrocampus

Exercice 1 : Significativité des pourcentages d'inertie en ACP

1. Construire un tableau de données avec 5 individus et 200 variables. Pour ce faire, simuler 200 variables
indépendantes avec la fonction rnorm. Faire l'ACP sur ce jeu de données. Comment interpréteriez-vous le graphe
des variables ?
2. On propose de prendre le jeu de données decathlon disponible dans FactoMineR, mais de ne conserver que
les 7 premières lignes et 10 colonnes quantitatives.
library(FactoMineR)
data(decathlon)
don <- decathlon[1:7,1:10]

Faire l'ACP sur ce jeu de données. Le pourcentage d'inertie expliqué par le plan est-il susant pour interpréter
les résultats ?
3. Proposer une fonction qui permet de simuler nbsimul jeux de données avec un nombre d'individus nind et
un nombre de variable nvar puis qui calcule le pourcentage d'inertie expliqué par le plan principal de chacune
des nbsimul ACP. La fonction doit retourner le quantile à 95 % des pourcentages d'inertie.
4. Proposer une seconde fonction qui permute les valeurs de chacune des variables, mais en conservant les
valeurs présentes dans le tableau de données. Vous pourrez utiliser les lignes de code suivantes :
permuteLigne <- function(v) {return(v[sample(1:length(v),replace=FALSE)])}
Xnew <- apply(X,2,permuteLigne)

Quel est l'intérêt d'une telle méthode par rapport à la précédente ? Est-elle généralisable ?

Exercice 2 : Introduction aux tableaux multiples

On considère un jeu de données où 6 jus d'orange sont décrits par 8 variables de chimie et 7 variables sensorielles.
1. Importer les données avec la ligne de commande suivante :
orange <- [Link]("[Link]
header=TRUE,sep=";",[Link]=1)

2. Comment caractériseriez-vous les jus d'oranges du point de vue des variables de chimie seules ? Même question
avec les variables sensorielles seules.
3. On aimerait relier ces deux analyses pour pouvoir comparer la perception sensorielle des jus d'orange et la
caractérisation chimique. Proposez plusieurs façon de faire. Indiquer les diérences d'objectif pour chacune de
ces méthodes.
4. Comment feriez-vous si les variables sensorielles étaient qualitatives et non quantitatives ?

1
Exercices en analyse de données
Cours de M2 - F. Husson - Agrocampus

Exercice 1 : Analyse des cancers

Quarante-cinq patients atteints d'une tumeur au cerveau sont classés selon le type de tumeur dont ils sont
atteints : oligodendrogliome (O), astrocytome (A), mixed oligo-astrocytome (OA) et glioblastome (GBM), ce
dernier étant le cancer de grade le plus élevé. Chaque tumeur a été analysée à deux niveaux diérents : au niveau
du transcriptome (CGH) et au niveau du génome (génome). Nous ne détaillons pas ici comment sont réalisées
ces deux analyses du point de vue biologique car cela est assez complexe et ce n'est pas utile pour répondre
aux questions de l'exercice. Le tableau correspondant aux mesures de CGH contient 68 variables tandis que le
tableau le génome en contient 356. La variable qualitative correspondant au type de tumeur est également notée.
Les données sont disponibles à l'adresse suivante suivante.
1. Importer les données avec la ligne de commande suivante :
comp <- [Link]("[Link]
[Link]=1, stringsAsFactors=TRUE)

Puis analyser ces données pour mettre en évidence les diérences entre patient du point de vue génome et CGH
simultanément.
2. Quel groupe de variables est le plus multidimensionnel ? Quel groupe de variables est le plus lié à la repré-
sentation globale de l'AFM ? Analyser la représentation des groupes.
3. Analyser la représentation des individus (prendre en compte le type de tumeur).
4. Construire le graphe des types de tumeur et de ses points partiels. Et analyser ce graphe.
5. Que pouvez-vous dire à partir du graphe des variables ? Puis du graphe des axes partiels ?
6. Interprétez.
7. Une information supplémentaire peut être apportée ici : elle concerne les fonctions biologiques dans lesquelles
les gènes sont impliqués. Une fonction biologique peut être vue comme un groupe de gènes (i.e. un groupe de
variables). Un même gène peut appartenir à diérentes fonctions biologiques. On considère chaque fonction
biologique comme un groupe de variables supplémentaire. On reprend donc le tableau précédent auquel on ajoute
les gènes impliqués dans chaque fonction biologique (voir le tableau ci-dessous).

Chaque fonction biologique est un groupe de variables qui sera pris comme élément supplémentaire dans l'AFM
(ceci évite qu'un gène impliqué dans une fonction contribue plusieurs fois à la construction des dimensions de
l'AFM).
Interpréter le graphe des fonctions biologiques :

1
2
Exercices en analyse de données
Cours de M2 - F. Husson - Agrocampus

Exercice 1 : Analyse de données de paléoclimatologie

On s'intéresse ici à des données de paléoclimatologie, i.e. la science qui étudie les climats passés et leurs variations.
Le jeu de données (voir la structure du jeu de données Fig 1) croise 700 prélevés qui mesurent le pourcentage
de pollens de 31 espèces d'arbres. Ces relevés ont été eectués récemment (lors de ce siècle). A l'endroit où
les prélèvements ont été eectués (latitude, longitude et altitude du lieu sont connus), nous disposons des
relevés de variables climatiques : MTCO, température moyenne du mois le plus froid (mean temperature of
the coldest month) ; MTWA, température moyenne du mois le plus chaud (mean temperature of the warmest
month) ; GDD5, the growing degree-days (i.e. the sum of daily temperatures) above 5o C ; E_PE, the ratio of
actual evapotranspiration to potential evapotranspiration ; PANN, précipitation annuelle ; TANN, température
moyenne annuelle.

Figure 1 Organisation du jeu de données de paléoclimatologie.

Les 700 relevés proviennent de 9 macroécosystèmes (on parle aussi de biomes) diérents : COCO (cool conifer
forest), COMX (cool mixed forest), COST (cool steppes), HODE (hot desert), TEDE (temperate deciduous
forest), TUND (tundra), WAMX (warm mixed broad-leaved forest), WAST (warm steppes), XERO (xerophytic
scrubs).
Le jeu de données comporte également les relevés d'une même carotte située au Lac de Rotsee (en Suisse,
latitude 47.07 et longitude 8.3147 et à 419m d'altitude). Sur cette carotte, on peut diérencier, siècle par siècle,
le pourcentage de chacun des 31 pollens. Ces échantillons remontent à 128 siècles et sont notés BPxx pour Before
Present xx siècles : BP15 il y a 15 siècles (ceci est approximatif, la datation avant le présent est donnée dans la
colonne age). Pour ces données, on ne dispose pas du macroécosystème, ni bien entendu du climat. L'objectif est
justement d'essayer de prédire le climat au cours des siècles passés à partir de la composition en les diérents
pollens.
Les données sont disponibles à l'adresse suivante. Vous pouvez les importer via les lignes suivantes, ainsi que
visualiser la carte des températures moyennes annuelles.

paleo <- [Link]("[Link] header=TRUE,

sep=";", [Link]=1)
paleo <- [Link](paleo,present=[Link](c(rep("Present",700),rep("Passe",128))))

library(leaflet)
pal <- colorNumeric(palette=c(low="blue",high="red"),domain=paleo[1:700,"tann"])
m <- leaflet() %>% addTiles() %>%
addCircles(paleo[1:700,"long"],paleo[1:700,"lati"],
color=pal(paleo[1:700,"tann"]),fillOpacity=1,opacity=1) %>%
addCircles(8.3147,47.07028,color="black",fillOpacity=1,opacity=1) %>%

1
addPopups(8.3147,47.07028,"Lac Rotsee")
m

1. En vous focalisant dans un premier temps sur les données du présent, explorer les relations entre la composition
des pollens et les variables climatiques. Construire des graphes lisibles en utilisant les informations sur les
macroécosystèmes, et projeter les données du passé.
2. Pour les données du passé, on ne dispose pas des variables climatiques. Est-ce que considérer les données
du passé comme individus supplémentaires et interpréter la position de ces points a du sens dans l'analyse ?
(indice : pour vous aider à répondre à la question, représenter les points partiels des individus supplémentaires
uniquement).
3. Refaire l'analyse en sélectionnant uniquement les pollens qui étaient présents dans le passé.
4. Posez-vous des questions et répondez-y !

Vous aimerez peut-être aussi

CO Dans L'atmosphère
Pas encore d'évaluation
CO Dans L'atmosphère
65 pages
Introduction au langage R et statistiques
Pas encore d'évaluation
Introduction au langage R et statistiques
36 pages
Analyse de données avec Python en 2025
Pas encore d'évaluation
Analyse de données avec Python en 2025
5 pages
Bio TP
Pas encore d'évaluation
Bio TP
15 pages
Exercice 1
Pas encore d'évaluation
Exercice 1
4 pages
Analyse statistique des concentrations au Lake d’Everglades
Pas encore d'évaluation
Analyse statistique des concentrations au Lake d’Everglades
22 pages
Analyse des parasites dans les viandes R
Pas encore d'évaluation
Analyse des parasites dans les viandes R
22 pages
Analyse statistique des données de TP
Pas encore d'évaluation
Analyse statistique des données de TP
9 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
8 pages
Projte ML - DM - IDE - HALIDOU - Mouhamadoul-Kairou
Pas encore d'évaluation
Projte ML - DM - IDE - HALIDOU - Mouhamadoul-Kairou
9 pages
Analyse des données Airquality en R
Pas encore d'évaluation
Analyse des données Airquality en R
5 pages
Analyse du dataset Airquality en R
Pas encore d'évaluation
Analyse du dataset Airquality en R
5 pages
Histogramme Pie Partie III Cours
Pas encore d'évaluation
Histogramme Pie Partie III Cours
11 pages
Histogramme et densité de Kernel en R
Pas encore d'évaluation
Histogramme et densité de Kernel en R
9 pages
Analyse des données discrètes avec R
Pas encore d'évaluation
Analyse des données discrètes avec R
6 pages
TD1 Analyse Des Données
Pas encore d'évaluation
TD1 Analyse Des Données
4 pages
Stat Desc
Pas encore d'évaluation
Stat Desc
19 pages
Statistiques Descriptives et Analyse R
Pas encore d'évaluation
Statistiques Descriptives et Analyse R
19 pages
Statistiques descriptives unidimensionnelles
Pas encore d'évaluation
Statistiques descriptives unidimensionnelles
3 pages
TP-simulation Aléatoire
Pas encore d'évaluation
TP-simulation Aléatoire
10 pages
Analyse des Données et Méthodes Statistiques
67% (3)
Analyse des Données et Méthodes Statistiques
144 pages
Analyse Factorielle et ACP en STID 2A
Pas encore d'évaluation
Analyse Factorielle et ACP en STID 2A
6 pages
Analyse des données énergétiques et climatiques
Pas encore d'évaluation
Analyse des données énergétiques et climatiques
9 pages
Group T1
Pas encore d'évaluation
Group T1
15 pages
ACP Matlab
100% (2)
ACP Matlab
2 pages
Statistiques descriptives avec R
Pas encore d'évaluation
Statistiques descriptives avec R
10 pages
Godiawala M3 Project3
Pas encore d'évaluation
Godiawala M3 Project3
25 pages
Fiche 2
Pas encore d'évaluation
Fiche 2
11 pages
Analyse de données en géomatique
Pas encore d'évaluation
Analyse de données en géomatique
10 pages
Histogrammes et communication microbienne
Pas encore d'évaluation
Histogrammes et communication microbienne
29 pages
Script ACP
Pas encore d'évaluation
Script ACP
1 page
Technologies pour l'ITK numérique
Pas encore d'évaluation
Technologies pour l'ITK numérique
12 pages
Analyse Statistique et Graphique des Données
Pas encore d'évaluation
Analyse Statistique et Graphique des Données
2 pages
Classification ascendante hiérarchique TP1
Pas encore d'évaluation
Classification ascendante hiérarchique TP1
10 pages
Introduction à R : Importation et Analyse
Pas encore d'évaluation
Introduction à R : Importation et Analyse
3 pages
Statistique descriptive avec R sur haricots
Pas encore d'évaluation
Statistique descriptive avec R sur haricots
4 pages
Analyse Des Données - Application Sur Stata
Pas encore d'évaluation
Analyse Des Données - Application Sur Stata
117 pages
ACP avec R : Guide Pratique
Pas encore d'évaluation
ACP avec R : Guide Pratique
41 pages
Analyse des Données Multivariées 2021
Pas encore d'évaluation
Analyse des Données Multivariées 2021
66 pages
ACP Budget Temps Correction
Pas encore d'évaluation
ACP Budget Temps Correction
9 pages
Analyse de données démographiques IPSA
Pas encore d'évaluation
Analyse de données démographiques IPSA
29 pages
AFC Et ACP
Pas encore d'évaluation
AFC Et ACP
18 pages
Art 465
Pas encore d'évaluation
Art 465
25 pages
Cours d'Analyse de Données avec R
Pas encore d'évaluation
Cours d'Analyse de Données avec R
62 pages
Analyse en Composantes Principales avec Python
Pas encore d'évaluation
Analyse en Composantes Principales avec Python
2 pages
Analyse de données avec R et ACP
Pas encore d'évaluation
Analyse de données avec R et ACP
2 pages
ExamenSTA203 P1 2018 2019
Pas encore d'évaluation
ExamenSTA203 P1 2018 2019
6 pages
TP 3 PDF
Pas encore d'évaluation
TP 3 PDF
9 pages
Analyse Facteur en AFC et R
100% (1)
Analyse Facteur en AFC et R
9 pages
Exoo
Pas encore d'évaluation
Exoo
12 pages
Classification et Analyse de Données en R
Pas encore d'évaluation
Classification et Analyse de Données en R
9 pages
AFD Sous Python
Pas encore d'évaluation
AFD Sous Python
18 pages
TP Pretraitement
Pas encore d'évaluation
TP Pretraitement
17 pages
Analyse en Composante Principale (ACP)
Pas encore d'évaluation
Analyse en Composante Principale (ACP)
2 pages
Deep Learning
Pas encore d'évaluation
Deep Learning
41 pages
Rapport de stage au Lycée Technique d'Ebolowa
100% (1)
Rapport de stage au Lycée Technique d'Ebolowa
20 pages
Démarrage Direct Moteur à Deux Sens
Pas encore d'évaluation
Démarrage Direct Moteur à Deux Sens
12 pages
Rapport de Stage d'Imprégnation 2020
Pas encore d'évaluation
Rapport de Stage d'Imprégnation 2020
24 pages
RAPPORT de Stage Pedago
100% (1)
RAPPORT de Stage Pedago
32 pages
Rapport de Stage Pédagogique
Pas encore d'évaluation
Rapport de Stage Pédagogique
29 pages
Hacheur Série: Théorie et Analyse
Pas encore d'évaluation
Hacheur Série: Théorie et Analyse
26 pages
Partie 6 Caracteristiques Antennes
Pas encore d'évaluation
Partie 6 Caracteristiques Antennes
43 pages
Maths Prob Blanc D Centre 2025
Pas encore d'évaluation
Maths Prob Blanc D Centre 2025
2 pages
Mesure de puissance en triphasé et monophasé
Pas encore d'évaluation
Mesure de puissance en triphasé et monophasé
5 pages
Approche Six Sigma Cours
Pas encore d'évaluation
Approche Six Sigma Cours
5 pages
Eval5 20-21 2ndC
Pas encore d'évaluation
Eval5 20-21 2ndC
4 pages
Lazaadina Physiologie Du Milieu Interieur
100% (1)
Lazaadina Physiologie Du Milieu Interieur
10 pages
EFM M14 Variante 2
Pas encore d'évaluation
EFM M14 Variante 2
4 pages
Calcul de la Masse Volumique Absolue des Sols
100% (1)
Calcul de la Masse Volumique Absolue des Sols
3 pages
Évaluation mathématique et projet touristique
Pas encore d'évaluation
Évaluation mathématique et projet touristique
2 pages
Synthèse Correcteur PI Système Ordre 1
Pas encore d'évaluation
Synthèse Correcteur PI Système Ordre 1
2 pages
Conversion Nombres : Virgule Fixe et Flottante
Pas encore d'évaluation
Conversion Nombres : Virgule Fixe et Flottante
12 pages
Emploi Du Temps S1 1GM 2025-2026
Pas encore d'évaluation
Emploi Du Temps S1 1GM 2025-2026
3 pages
Serie D'exercice de Matériaux 22-03-2024-1
100% (5)
Serie D'exercice de Matériaux 22-03-2024-1
6 pages
Étude du générateur asynchrone éolien
100% (1)
Étude du générateur asynchrone éolien
94 pages
Calculs thermiques pour capteurs solaires et murs
Pas encore d'évaluation
Calculs thermiques pour capteurs solaires et murs
4 pages
ScaN instructorPPT Chapter2 Finalfr
Pas encore d'évaluation
ScaN instructorPPT Chapter2 Finalfr
61 pages
Onduleur Out
Pas encore d'évaluation
Onduleur Out
4 pages
A.B.C de L ELECTRICITE
Pas encore d'évaluation
A.B.C de L ELECTRICITE
51 pages
fmb50-fmb80 Qs FR v1
Pas encore d'évaluation
fmb50-fmb80 Qs FR v1
4 pages
TP4
Pas encore d'évaluation
TP4
3 pages
Maths Serie D
Pas encore d'évaluation
Maths Serie D
3 pages
Réalisation D'une Maquette Pour L'asservissement Numérique de Vitesse D'une BLDC Par ARDUINO
Pas encore d'évaluation
Réalisation D'une Maquette Pour L'asservissement Numérique de Vitesse D'une BLDC Par ARDUINO
10 pages
Célérité des ondes périodiques mesurée
Pas encore d'évaluation
Célérité des ondes périodiques mesurée
2 pages
Code First: Conventions et Relations
Pas encore d'évaluation
Code First: Conventions et Relations
43 pages
Rapport de stage sur les essais géotechniques
Pas encore d'évaluation
Rapport de stage sur les essais géotechniques
78 pages
03 - CND - Contrôle Par Thermographie
100% (1)
03 - CND - Contrôle Par Thermographie
53 pages
Devoir 1 Modele 10 Informatique Tronc Commun Semestre 1 PDF
100% (3)
Devoir 1 Modele 10 Informatique Tronc Commun Semestre 1 PDF
2 pages
1 - Syst-Me Automatique
Pas encore d'évaluation
1 - Syst-Me Automatique
14 pages
Lic2 S3 TD PDF
100% (1)
Lic2 S3 TD PDF
15 pages
04 Microprocesseur 8086
Pas encore d'évaluation
04 Microprocesseur 8086
21 pages

TD Anado M2

Transféré par

TD Anado M2

Transféré par

Exercices en analyse de données

Cours de M2 - F. Husson - Agrocampus

Exercice 1 : Significativité des pourcentages d'inertie en ACP

Exercice 2 : Introduction aux tableaux multiples

Exercice 1 : Analyse des cancers

Exercice 1 : Analyse de données de paléoclimatologie

Figure 1  Organisation du jeu de données de paléoclimatologie.

paleo <- [Link]("[Link] header=TRUE,

Vous aimerez peut-être aussi

Figure 1 Organisation du jeu de données de paléoclimatologie.