ECUE UE54_Option_Géostatistique et Probabilités
appliquées
Responsable(s) : Emilie Chautru et Thomas Romary
Nombre d'ECTS : 12
PRESENTATION
L’option Géostatistique et Probabilités appliquées s’adresse aux étudiants désireux de
compléter leurs compétences en sciences des données acquises dans les différents
enseignements de l’école.
La Géostatistique a pour objet l’étude quantitative de tout phénomène, naturel ou humain,
qui présente une organisation dans l’espace et/ou le temps : c’est donc une indispensable
extension des méthodes statistiques “classiques” lorsque les variables d’intérêt présentent
une structuration spatiale et/ou temporelle. La connaissance de ses modèles et méthodes
est essentielle en particulier pour appréhender les phénomènes environnementaux liés à la
transition écologique.
Dans des domaines d’application variés (environnement ; climatologie ; ressources
énergétiques, agricoles ou minérales ; santé ; épidémiologie ; marketing ; finance etc…),
l’option choisit de donner la priorité aux méthodes et de mettre ainsi en évidence ce qui est
commun au traitement de toutes les données spatialisées (géoréférencées), au-delà des
disparités de langage inhérentes à la variété des champs d’applications. L’option est ainsi en
priorité un lieu de rencontre et de dialogue privilégié entre étudiants aux goûts et aux
domaines d’intérêt multiples ; c’est aussi fondamentalement l’occasion de passer à la
pratique sur des jeux de données réelles, et de mesurer la distance qui sépare parfois une
théorie bien maîtrisée d’une mise en application efficace.
Quel que soit le domaine étudié et le problème posé, un travail d’option sur des données
réelles comporte toujours trois aspects :
une phase d’analyse, c’est-à-dire une approche critique des données disponibles et
une évaluation de leur adéquation au problème posé. Il s’agit donc tout simplement
de définir avec rigueur ce dont on parle, d’exprimer si nécessaire en termes
scientifiques ce qui est attendu de l’étude, et de s’assurer que le travail a quelque
chance d’aboutir ;
1
une phase de modélisation, parce qu’une donnée n’est jamais manipulable à l’état
brut. Il faut donc convertir les mesures physiques en êtres mathématiques auxquels
pourront s’appliquer les constructions théoriques vues dans les différents
enseignements proposés à l’École ;
une phase de synthèse, car l’élaboration d’un modèle ne constitue pas une fin en soi.
Il faut donc après traitement mathématique se donner les moyens d’interpréter ce
que l’on a mis en évidence, quitte éventuellement à reprendre l’une ou l’autre des
étapes précédentes...
En quelque sorte, cette première expérience en Géostatistique appliquée est l’occasion
d’une initiation à une certaine déontologie du traitement des informations numériques. Dans
cet exercice, l’effort de pédagogie envers les interlocuteurs extérieurs qui proposent des
sujets d’étude est évidemment essentiel.
ACQUIS D’APPRENTISSAGE SPÉCIFIQUES
Acquérir une vision globale des approches en statistique et machine learning
pertinentes pour les problématiques posées par la transition écologique.
Appréhender un jeu de données de manière critique : savoir identifier les spécificités
liées au domaine d’application, les données aberrantes, d’éventuels clusters, des
relations de dépendances,…
Appréhender un article de recherche et en extraire les informations pertinentes en
vue de l’utilisation de ses résultats.
Choisir une modélisation adaptée aux données et cohérente avec leur sens physique
et les objectifs du projet.
Sélectionner le meilleur modèle parmi un ensemble de possibles en utilisant des
critères pertinents pour l’application visée.
Maîtriser les outils logiciels (librairies python et R) adaptés au traitement de données
spatiales et spatio-temporelles.
Implémenter des algorithmes de simulations pour la quantification d’incertitudes (e.g.
échantillonneur de Gibbs, Metropolis-Hastings, méthodes de Monte-Carlo
séquentielles,…).
CONTENUS & ACTIVITÉS
L’option se déroule sur deux périodes de 4 et 2 semaines. Elle alterne cours magistraux et
TP d’application. Chaque thématique est approfondie par la lecture et la restitution en
binôme d’un article de recherche associé. Des séminaires réguliers présentent des
2
utilisations pratiques des méthodes enseignées dans des contextes industriels ou
académiques. Une semaine de visites techniques en Provence est également prévue à la
rencontre de différents acteurs des transitions écologique, énergétique et numérique (INRAe,
LSBB, CEA Cadarache, laboratoire OIE de Mines Paris, Institut 3IA Côte d’Azur).
L’enseignement est essentiellement divisé en quatre blocs détaillés ci-dessous :
Le premier bloc vise à consolider le socle de compétences des élèves en sciences
des données en abordant en premier lieu les problématiques d’analyse exploratoire.
Un cours d’introduction à l’apprentissage statistique, c’est-à-dire l’analyse
mathématique des méthodes de machine learning, est également dispensé. Les
résultats théoriques qui y sont abordés permettent une prise de recul éclairante vis-à-
vis des algorithmes bien connus. Des cours venant compléter les différents
enseignements en sciences des données sont également proposés (deep learning
appliqué aux géosciences, analyse de données de graphes, méthodes statistiques
appliquées aux sciences du climat,…).
Le second bloc permet aux élèves de se familiariser avec les outils et techniques
géostatistiques de base (fonctions aléatoires, analyse structurale, estimation de
paramètres par méthode des moments et maximum de vraisemblance, krigeage, en
contexte uni et multi-varié, approche bayésienne). Ces approches sont mises en
œuvre lors de séances de travaux pratiques sur un cas d’application concret.
Le troisième bloc est dédié à l’étude de techniques de simulations (conditionnelles)
de modèles géostatistiques, qui permettent de caractériser les incertitudes dans de
nombreux problèmes pratiques. En complément des fonctions aléatoires
« classiques », certains modèles de géométrie stochastique sont également
abordés (processus ponctuels, droites poissonniennes, modèle booléen).
Le quatrième bloc porte sur des méthodes plus avancées qui sont actuellement au
cœur des problématiques de recherche de l’équipe de géostatistique du centre de
Géosciences et de ses partenaires académiques, à savoir la modélisation spatio-
temporelle, l’assimilation de données et la construction de modèles de fonctions
aléatoires par équation aux dérivées partielles stochastiques, dont la
discrétisation permet en particulier le traitement de grandes quantités de données.
MODALITES D’EVALUATION
L’évaluation de la période d’option (S5) porte sur :
une évaluation de la participation aux séances de cours et de TP,
3
une présentation par binôme d’un article de recherche (appliquée ou théorique) lié à
l’un des différents cours,
un rapport sur un mini-projet réalisé en binôme,
une restitution des visites techniques à l’issue de la semaine de voyage.
L’évaluation porte également sur le mémoire du travail d’option et la soutenance publique
(travail individuel, S6).