0% ont trouvé ce document utile (0 vote)
52 vues17 pages

Cours3 4

Le document présente un plan de cours sur les outils numériques et informatiques appliqués à la chimie, avec un accent sur la modélisation numérique, y compris les modèles statistiques et déterministes. Il explique l'importance de la modélisation numérique pour obtenir des informations sur des variables non observables et pour faire des prévisions. Enfin, il aborde la construction de modèles et leur évaluation par rapport aux observations.

Transféré par

Ouar Dia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
52 vues17 pages

Cours3 4

Le document présente un plan de cours sur les outils numériques et informatiques appliqués à la chimie, avec un accent sur la modélisation numérique, y compris les modèles statistiques et déterministes. Il explique l'importance de la modélisation numérique pour obtenir des informations sur des variables non observables et pour faire des prévisions. Enfin, il aborde la construction de modèles et leur évaluation par rapport aux observations.

Transféré par

Ouar Dia
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Plan

Outils numériques et
informatiques pour la chimie 1. CM1 : Introduction à la science des données, récolte de données
J. Le Roux

Julien LE ROUX 2. CM2 : Statistiques descriptives et inférentielles


[email protected] J. Le Roux

Marie CAMREDON 3. CM3 et CM4 : Modélisation numérique : modèles statistiques et déterministes


M. Camredon
[email protected]

Université Paris Est Créteil

Partie 3 : Modélisation numérique : Partie 3 : Modélisation numérique :


modèles statistiques et déterministes modèles statistiques et déterministes

1. La modélisation numérique 1. La modélisation numérique


2. Evaluation des modèles 2. Evaluation des modèles
3. Modélisation statistique 3. Modélisation statistique
4. Modélisation déterministe 4. Modélisation déterministe
A quoi sert la modélisation numérique ?
Qu’est ce que la modélisation numérique ?  À obtenir de l’information !
La modélisation numérique consiste à décrire l’évolution de variables Sans avoir eu besoin d’observer : on ne peut pas effectuer des mesures pour des
(concentrations, température, pression…) à l’aide d’un ensemble d’équations conditions infinies (sensibilité d’une variable à un facteur, distribution spatiale et
mathématiques représentant les relations entre les variables du système (espace, temporelle d’une variable…)
temps, concentrations, température…). L’ensemble des équations mathématiques
constitue le modèle.

Le modèle est très souvent traduit dans un langage de programmation, afin


d’utiliser l’ordinateur pour automatiser le déroulement des diverses opérations.

Le modèle est utilisé pour effectuer des simulations numériques. Les simulations
sont menées pour étudier l’évolution du système, généralement en fonction du
temps (mais aussi en fonction de l’espace, de la température…).

A quoi sert la modélisation numérique ? A quoi sert la modélisation numérique ?


 À obtenir de l’information !  À obtenir de l’information !
Sans avoir eu besoin d’observer : on ne peut pas effectuer des mesures pour des Sans avoir eu besoin d’observer : on ne peut pas effectuer des mesures pour des
conditions infinies (sensibilité d’une variable à un facteur, distribution spatiale et conditions infinies (sensibilité d’une variable à un facteur, distribution spatiale et
temporelle d’une variable…) temporelle d’une variable…)
Sur les variables non observables : on ne sait pas tout mesurer (composés très Sur les variables non observables : on ne sait pas tout mesurer (composés très
réactifs, conditions non reproductibles en laboratoire, sites d’observation non réactifs, conditions non reproductibles en laboratoire, sites d’observation non
accessibles...) accessibles...)
Sur le comportement futur : on ne peut pas mesurer ce qui n’est pas arrivé 
prévision
A quoi sert la modélisation numérique ? A quoi sert la modélisation numérique ?
 À obtenir de l’information !  À obtenir de l’information !
Sans avoir eu besoin d’observer : on ne peut pas effectuer des mesures pour des Sans avoir eu besoin d’observer : on ne peut pas effectuer des mesures pour des
conditions infinies (sensibilité d’une variable à un facteur, distribution spatiale et conditions infinies (sensibilité d’une variable à un facteur, distribution spatiale et
temporelle d’une variable…) temporelle d’une variable…)
Sur les variables non observables : on ne sait pas tout mesurer (composés très Sur les variables non observables : on ne sait pas tout mesurer (composés très
réactifs, conditions non reproductibles en laboratoire, sites d’observation non réactifs, conditions non reproductibles en laboratoire, sites d’observation non
accessibles...) accessibles...)
Sur le comportement futur : on ne peut pas mesurer ce qui n’est pas arrivé  Sur le comportement futur : on ne peut pas mesurer ce qui n’est pas arrivé 
prévision prévision
Sur notre compréhension des processus : on ne peut pas savoir si on a compris un Sur notre compréhension des processus : on ne peut pas savoir si on a compris un
processus uniquement avec la mesure  évaluation de modèles par comparaisons à la processus uniquement avec la mesure  évaluation de modèles par comparaisons à la
mesure mesure
Sur l’interprétation des données de mesure : on ne peut pas connaitre les
processus/sensibilités majeures uniquement par la mesure (processus nombreux,
couplés, complexes…)

Deux grands types de modèles numériques

Comment construire un modèle ?

Un modèle est construit sur la base : Modèles statistiques Modèles déterministes


- d’observations ! Les modèles statistiques consistent à relier différentes Les modèles déterministes consistent à relier différentes
- d’hypothèses définissant l’état d’opération du système (système variables par des équations mathématiques qui sont des variables par des équations mathématiques qui
relations statistiques. Les processus qui relient ces représentent des processus (lois fondamentales,
fermé, température constante, idéalité…) empiriques). Les processus qui relient ces variables sont
variables sont donc représentés de façon implicite dans
- de principes fondamentaux (théorie cinétique des gaz, équations de ces équations. donc représentés de façon explicite dans ces équations.
continuité…)
- d’équations empiriques/théorique (loi d’Arrhénius, loi de Beer
Lambert, relations de structure/réactivité…)  Expression directe de l’évolution d’une variable en  Expression des équations différentielles pour
- de relations statistiques entre des variables du modèles fonction des autres variables. chaque variable, et intégration pour obtenir l’évolution
des variables (souvent, pas de solution analytique et
besoin d’utiliser une méthode de résolution numérique
(approximative)).
Evaluation du modèle  Comparaisons avec les observations
Partie 3 : Modélisation numérique : observations simultanées de
modèles statistiques et déterministes Evaluation de la qualité du
X et Y (n données xi et yi,obs)
modèle
modèle sur la base de l’erreur Y
1. La modélisation numérique entre le modèle et l’observation : yi,obs
yi,mod ei
2. Evaluation des modèles ei = yi,mod – yi,obs
3. Modélisation Statistiques
4. Modélisation Numérique ei : résidus (ou erreurs) d’un modèle 0 xi X
= écarts entre la prédiction du modèle
et la donnée observée au point i

yi,obs : donnée observée en xi


yi,mod : donnée modélisée/simulée en xi

Critères de différence
Biais moyen
Partie 3 : Modélisation numérique :
Erreur quadratique moyenne
𝐵𝑀 =
1
(𝑦 , −𝑦, )=
1
𝑒
modèles statistiques et déterministes
𝑛 𝑛 1 1
𝐸𝑄𝑀 = (𝑦 , −𝑦, ) = 𝑒
𝑛 𝑛

1. La modélisation numérique
1 (𝑦 , −𝑦, )
𝐵𝑀𝑟𝑒𝑙𝑎𝑡𝑖𝑓 =
𝑛 𝑦, Remarque : donne un poids important aux grandes
Remarque : compensation des erreurs
différences 2. Evaluation des modèles
Erreur absolue moyenne
3. Modélisation statistique
1 1
Racine de l’erreur quadratique moyenne
4. Modélisation déterministe
𝐸𝐴𝑀 = |𝑦 , −𝑦, |= |𝑒 |
𝑛 𝑛

1 𝑦, −𝑦, 1 1
𝐸𝐴𝑀𝑟𝑒𝑙𝑎𝑡𝑖𝑓 = 𝑅𝐸𝑄𝑀 = 𝐸𝑄𝑀 = (𝑦 , −𝑦, ) = 𝑒
𝑛 𝑂 𝑛 𝑛

Remarque : EAM ≥ BM
16
A. Le modèle de régression linéaire simple Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2
Objectif : déterminer s’il y a un lien entre certaines
caractéristiques du véhicule et ses émissions en CO2
observations simultanées de
Y : variable à expliquer (ou dépendante) - celle que Données : émission de CO2 + caractéristiques des
X et Y (n données xi et yi,obs)
nous cherchons à expliquer, décrire, prédire véhicules commercialisés en France (marque,
modèle linéaire simple puissance, …) https://www.data.gouv.fr/fr/datasets/em
issions-de-co2-et-de-polluants-des-
X : variable explicative (ou indépendante) - celle vehicules-commercialises-en-france/#_
que nous utilisons dans le but d’expliquer, décrire,
prédire la variable à expliquer yi,obsY
yi,mod a1 (pente)
Ymod = a0 + a1 X
a0
a0 et a1 : paramètres du modèle à optimiser/ajuster - (o.o.)
utilisés dans la / les équations reliant la (ou les)
xi X
variable(s) dépendante(s) aux variables explicatives 0

Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2 Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2
Objectif : déterminer s’il y a un lien entre certaines Objectif : déterminer s’il y a un lien entre certaines Histogrammes
caractéristiques du véhicule et ses émissions en CO2 caractéristiques du véhicule et ses émissions en CO2
Données : émission de CO2 + caractéristiques des Données : émission de CO2 + caractéristiques des
véhicules commercialisés en France (marque, véhicules commercialisés en France (marque,
puissance, …) https://www.data.gouv.fr/fr/datasets/em puissance, …) https://www.data.gouv.fr/fr/datasets/em
issions-de-co2-et-de-polluants-des- issions-de-co2-et-de-polluants-des-
vehicules-commercialises-en-france/#_ vehicules-commercialises-en-france/#_
1. Etude des observations 1. Etude des observations
- Réflexion sur les variables d’intérêt X pouvant être liées aux - Réflexion sur les variables d’intérêt X pouvant être liées aux
émissions de CO2 émissions de CO2
- Construction et nettoyage de la base de données - Construction et nettoyage de la base de données
- Etude de la distribution des données

Nombre de données : 19830

Test de normalité de Shapiro-Wilk


H0 : « la variable suit une loi normale »
seuil a posé à 5 % Boites à moustaches
pour chacune des variables, p-valeur < a
 on rejette donc l’hypothèse H0 au seuil a
 les variables ne suivent pas une loi normale
Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2 Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2
Objectif : déterminer s’il y a un lien entre certaines Objectif : déterminer s’il y a un lien entre certaines
caractéristiques du véhicule et ses émissions en CO2 Emissions de CO2 en fonction des caractéristiques du véhicule et ses émissions en CO2
autres variables (nuages de points)
Données : émission de CO2 + caractéristiques des Données : émission de CO2 + caractéristiques des
véhicules commercialisés en France (marque, véhicules commercialisés en France (marque,
puissance, …) https://www.data.gouv.fr/fr/datasets/em puissance, …) https://www.data.gouv.fr/fr/datasets/em
issions-de-co2-et-de-polluants-des- issions-de-co2-et-de-polluants-des-
vehicules-commercialises-en-france/#_ vehicules-commercialises-en-france/#_
1. Etude des observations 1. Etude des observations
- Réflexion sur les variables d’intérêt X pouvant être liées aux - Réflexion sur les variables d’intérêt X pouvant être liées aux
émissions de CO2 émissions de CO2
- Construction et nettoyage de la base de données - Construction et nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données
- Recherche de liens entre les émissions de CO2 et les autres - Recherche de liens entre les émissions de CO2 et les autres
variables variables  Pour un modèle linéaire, l’ajustement
Test de corrélation de Spearman
des paramètres est généralement
2. Développement du modèle
(au moins une des deux variables - Hypothèses sur la structure du modèle statistique effectué par la méthode des moindres
ne suit pas une loi normale)
H0 : « il n’existe pas de lien monotone entre les deux variables »  Hypothèse : les émissions de CO2 suivent une relation carrés ordinaires
seuil a posé à 5 % linéaire avec la puissance administrative du véhicule :
pour ECO2 avec chacune des autres variables, p-valeur < a ECO2(i) = a0 + a1 Padmin(i)
 on rejette donc l’hypothèse H0 au seuil a
 il existe un lien monotone entre ECO2 et chacune des autres variables

La méthode des moindres carrés ordinaires


𝑦, =𝑎 +𝑎 𝑥
observations simultanées de appliquée à un modèle linéaire simple
La méthode des moindres carrés ordinaires X et Y (n données xi et yi,obs)
Minimisation de la fonction : Minimisation de la fonction :
modèle linéaire simple
𝑒 = 𝑦, −𝑦, 𝑒 = 𝑦, −𝑦, = 𝑎 +𝑎 𝑥 −𝑦, = 𝐹(𝑎 , 𝑎 )
yi,obsY
yi,mod ei Pour trouver ce minimum, on dérive la fonction par rapport à a0 et a1, et on recherche les
ei : résidus (ou erreurs) d’un modèle = écarts paramètres a0 et a1 pour que la dérivée s’annule :
entre la prédiction du modèle et la donnée

{ {
𝜕𝐹 𝑎 , 𝑎 𝜕∑ 𝑎 +𝑎 𝑥 −𝑦,
=2 𝑎 +𝑎 𝑥 −𝑦, =0 𝑛𝑎 + 𝑎 𝑥 = 𝑦,
observée au point i 𝜕𝑎
=
𝜕𝑎
𝑒 =𝑦, −𝑦, X
𝜕𝐹 𝑎 , 𝑎 𝜕∑ 𝑎 +𝑎 𝑥 −𝑦,
=2 𝑎 +𝑎 𝑥 −𝑦, 𝑥 =0 𝑎 𝑥 +𝑎 𝑥 = 𝑥 𝑦,
0 xi 𝜕𝑎 =
𝜕𝑎
 Système de 2 équations à 2 inconnues à résoudre

∑ (𝑥 − 𝑥̅ )(𝑦 , − 𝑦 )
𝑎 = 𝑎 =𝑦 − 𝑎 𝑥̅
∑ (𝑥 − 𝑥̅ )
Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2 Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2
Objectif : déterminer s’il y a un lien entre certaines Objectif : déterminer s’il y a un lien entre certaines
caractéristiques du véhicule et ses émissions en CO2 caractéristiques du véhicule et ses émissions en CO2
Données : émission de CO2 + caractéristiques des Données : émission de CO2 + caractéristiques des
véhicules commercialisés en France (marque, véhicules commercialisés en France (marque,
puissance, …) https://www.data.gouv.fr/fr/datasets/em puissance, …) https://www.data.gouv.fr/fr/datasets/em
issions-de-co2-et-de-polluants-des- issions-de-co2-et-de-polluants-des-
vehicules-commercialises-en-france/#_ vehicules-commercialises-en-france/#_
1. Etude des observations 1. Etude des observations
- Réflexion sur les variables d’intérêt X pouvant être liées aux - Réflexion sur les variables d’intérêt X pouvant être liées aux
émissions de CO2 émissions de CO2
- Construction et nettoyage de la base de données - Construction et nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données
- Recherche de liens entre les émissions de CO2 et les autres - Recherche de liens entre les émissions de CO2 et les autres
variables variables

2. Développement du modèle 2. Développement du modèle


- Hypothèses sur la structure du modèle statistique - Hypothèses sur la structure du modèle statistique
ECO2(i) = a0 + a1 Padmin(i) - Optimisation des paramètres ajustables

- Optimisation des paramètres ajustables 3. Qualité statistique de la régression


ordonnée à l’origine : a0 = 116,3
pente : a1 = 3,22

Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2


Qualité statistique de la régression linéaire Objectif : déterminer s’il y a un lien entre certaines
Coefficient de détermination variabilité expliquée par le yi,obsY caractéristiques du véhicule et ses émissions en CO2
modèle (variation de Y yi,mod Données : émission de CO2 + caractéristiques des
∑ expliquée par X)
𝑦
, véhicules commercialisés en France (marque,
𝑅 = ∑ variabilité totale de Y puissance, …) https://www.data.gouv.fr/fr/datasets/em
, issions-de-co2-et-de-polluants-des-
(information disponible dans les
données) vehicules-commercialises-en-france/#_
X
0 xi 1. Etude des observations
Proportion de la variance expliquée par le modèle - Réflexion sur les variables d’intérêt X pouvant être liées aux
R2 = 1 : les variations de Y sont expliquées par X émissions de CO2
- Construction et nettoyage de la base de données
R2 = 0 : X n'apporte pas d'information utile sur Y
- Etude de la distribution des données
- Recherche de liens entre les émissions de CO2 et les autres
variables
Est-ce que la régression est globalement significative ?
- Test global de significativité de la régression (test avec tous les coefficients supposés 2. Développement du modèle
nuls, excepté la constante) - Hypothèses sur la structure du modèle statistique
- Optimisation des paramètres ajustables
- Test de significativité de chaque paramètre (test avec un coefficient supposé nul)
- Etude des résidus (résidus = f(ymod) ne doit pas avoir de forme, les résidus doivent suivre 3. Qualité statistique de la régression
une loi normale centrée sur 0…) - Coefficient de détermination
- … R2 = 0,53  53% de la variabilité observée de ECO2 est
expliquée par le modèle (c’est-à-dire par Padmin)
Exemple : caractéristiques d’un véhicule et émissions atmosphériques de CO2 B. Conception d’un modèle statistique
Objectif : déterminer s’il y a un lien entre certaines - Test global de significativité de la régression :
caractéristiques du véhicule et ses émissions en CO2 Test de Fisher
H0 : « Les coefficients sont nuls, excepté la constante » 1. Etude des observations
Données : émission de CO2 + caractéristiques des seuil a posé à 5 % - Réflexion sur les variables d’intérêt Quelle est la variable que l’on cherche à expliquer ?
véhicules commercialisés en France (marque, p-valeur < a Quelles sont les variables potentiellement
puissance, …) https://www.data.gouv.fr/fr/datasets/em  on rejette donc l’hypothèse H0 au seuil a explicatives ? Sont-elles disponibles ?
issions-de-co2-et-de-polluants-des-  a1 n’est pas nul. La variable Padmin apporte de
vehicules-commercialises-en-france/#_ l’information pour expliquer ECO2

1. Etude des observations - Test de significativité de chaque paramètre (test avec


- Réflexion sur les variables d’intérêt X pouvant être liées aux un coefficient supposé nul)
émissions de CO2
- Construction et nettoyage de la base de données Test de t
- Etude de la distribution des données H0 : « Le coefficient ai est nul »
- Recherche de liens entre les émissions de CO2 et les autres seuil a posé à 5 %
variables pour a0 : p-valeur < a
pour a1 : p-valeur < a
2. Développement du modèle
- Hypothèses sur la structure du modèle statistique  on rejette donc l’hypothèse H0 au seuil a
- Optimisation des paramètres ajustables  a0 et a1 sont différents de 0. La pente et l’ordonnée à
l’origine du modèle linéaire simple sont donc
statistiquement significatifs
3. Qualité statistique de la régression
- Coefficient de détermination
R2 = 0,53  53% de la variabilité observée de ECO2 est 4. Evaluation
expliquée par le modèle (c’est-à-dire par Padmin)

B. Conception d’un modèle statistique B. Conception d’un modèle statistique

1. Etude des observations 1. Etude des observations


- Réflexion sur les variables d’intérêt Recherche des données - Réflexion sur les variables d’intérêt A quoi ressemble mon jeu de données ?
- Construction/nettoyage de la base de données Formatage de la base de données - Construction/nettoyage de la base de données - résumés numériques (nombre de données, min,
Nettoyage des données (pas de valeur, valeurs - Etude de la distribution des données max, quartiles…)
erronées, remplacement de caractères …) - visualisation (histogrammes, boites à moustache)
- tests statistiques (normalité…)
B. Conception d’un modèle statistique B. Conception d’un modèle statistique variable à expliquer
variable explicative
paramètre à optimiser
1. Etude des observations 1. Etude des observations
- Réflexion sur les variables d’intérêt Est-ce-qu’il existe un lien entre la variable à - Réflexion sur les variables d’intérêt
expliquer et les autres variables ? Une Régression linéaire
- Construction/nettoyage de la base de données - Construction/nettoyage de la base de données Y = a0 + a1 X
- Etude de la distribution des données corrélation ? - Etude de la distribution des données
- Recherche de liens entre les variables - visualisation (nuages de points) - Recherche de liens entre les variables
- tests statistiques (corrélations)
- transformer / regrouper des variables Régression linéaire multiple
Y = a0 + a1 X1 + a2 X2 + a3 X3 + … + ap Xp
Remarque : 2. Développement du modèle
- Déterminer la structure de la paramétrisation Régression non linéaire multiple
Si seulement 2 variables (X et Y) : représentation de
l’ensemble des données sur un graphique plan non linéaire en ses variables mais linéaire en ses paramètres
Y = a0 + a1 exp (X1) + a2 sin (X2) + … + ap ln (Xp)
Si variables multiples : analyse exploratoire des données
non linéaire en ses variables et ses paramètres
souvent nécessaire (analyse en composantes principales,
analyse de correspondances multiples…) Y = a0 + exp (a1 X1) + a2 sin (X2) + … + ln (ap + Xp)

B. Conception d’un modèle statistique observations (m données i) B. Conception d’un modèle statistique

1. Etude des observations Y 1. Etude des observations Si la qualité de la régression


- Réflexion sur les variables d’intérêt - Réflexion sur les variables d’intérêt n’est pas acceptable
- Construction/nettoyage de la base de données - Construction/nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données
- Recherche de liens entre les variables - Recherche de liens entre les variables Calcul de coefficients de corrélation :
- corrélation de Pearson (relation linéaire)
X - corrélation de Spearman (relation monotone)
0
- …
2. Développement du modèle 2. Développement du modèle
- Déterminer la structure de la paramétrisation - Déterminer la structure de la paramétrisation Tests pour vérifier la validité de la régression
- Optimiser des paramètres ajustables sur les Ajustement des paramètres par minimisation - Optimiser des paramètres ajustables sur les statistique :
observations d’une fonction d’erreur : observations
- test global de significativité de la régression
- la méthode des moindres carrés ordinaires ou - Vérifier la qualité statistique de la régression
(test avec tous les coefficients supposés nuls,
pondérés (relations linéaires « simples ») excepté la constante),
- méthode itérative (ex : l’algorithme de - test de significativité de chaque paramètre
Levenberg-Marquardt) (test avec un coefficient supposé nul),
- étude des résidus (résidus standard doivent
suivre une loi normale centrée sur 0)…
B. Conception d’un modèle statistique observations (m données i) B. Conception d’un modèle statistique observations (m données i)

1. Etude des observations Y 1. Etude des observations Y


- Réflexion sur les variables d’intérêt - Réflexion sur les variables d’intérêt
- Construction/nettoyage de la base de données - Construction/nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données
- Recherche de liens entre les variables - Recherche de liens entre les variables
- Définir le jeu d’apprentissage et le jeu
X d’évaluation X
0 0 apprentissage (n données i)
2. Développement du modèle 2. Développement du modèle évaluation (p=m-n données i)
- Déterminer la structure de la paramétrisation - Déterminer la structure de la paramétrisation
- Optimiser des paramètres ajustables sur les - Optimiser des paramètres ajustables sur les Subdiviser les observations en 2 jeux :
observations Si toutes les données d’observations ont observations - un jeu d’apprentissage (pour l’optimisation
- Vérifier la qualité statistique de la régression été utilisées pour optimiser le modèle, il - Vérifier la qualité statistique de la régression des paramètres du modèle)
n’est pas possible d’évaluer la capacité - un jeu d’évaluation (pour évaluer le modèle)
du modèle à prévoir !!!
3. Evaluation du modèle 3. Evaluation du modèle Tirage aléatoire sans remise de 1/2 ou 2/3 des données
Comparer les données simulées aux Comparer les données simulées aux pour le jeu d’apprentissage, le reste pour le jeu d’évaluation
observations observations
S’assurer de l’EQUVALENCE des deux jeux de données
(normalité + test d’égalités de variances…)

B. Conception d’un modèle statistique observations (m données i) B. Conception d’un modèle statistique observations (m données i)

1. Etude des observations Y 1. Etude des observations Y


- Réflexion sur les variables d’intérêt - Réflexion sur les variables d’intérêt
- Construction/nettoyage de la base de données - Construction/nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données
- Recherche de liens entre les variables - Recherche de liens entre les variables
- Définir le jeu d’apprentissage et le jeu - Définir le jeu d’apprentissage et le jeu
d’évaluation X d’évaluation X
0 apprentissage (n données i) 0 apprentissage (n données i)
2. Développement du modèle évaluation (p=m-n données i) 2. Développement du modèle évaluation (p=m-n données i)
- Déterminer la structure de la paramétrisation - Déterminer la structure de la paramétrisation
- Optimiser des paramètres ajustables sur les - Optimiser des paramètres ajustables sur les
observations du jeu d’apprentissage observations du jeu d’apprentissage
- Vérifier la qualité statistique de la régression - Vérifier la qualité statistique de la régression

3. Evaluation du modèle 3. Evaluation du modèle


Comparer les données simulées aux Comparer les données simulées aux
observations observations du jeu d’évaluation
B. Conception d’un modèle statistique observations (m données i) B. Conception d’un modèle statistique

1. Etude des observations Y 1. Etude des observations


- Réflexion sur les variables d’intérêt - Réflexion sur les variables d’intérêt Remarque :
- Construction/nettoyage de la base de données - Construction/nettoyage de la base de données
- Etude de la distribution des données - Etude de la distribution des données Variables très souvent multiples,
- Recherche de liens entre les variables - Recherche de liens entre les variables analyse délicate…
- Définir le jeu d’apprentissage et le jeu - Définir le jeu d’apprentissage et le jeu
d’évaluation X d’évaluation  Machine learning : apprentissage
0 apprentissage (n données i) automatique pour l’étude et
2. Développement du modèle évaluation (p=m-n données i) 2. Développement du modèle l’entrainement des algorithmes afin
- Déterminer la structure de la paramétrisation - Déterminer la structure de la paramétrisation que l’outil puisse apprendre et faire
- Optimiser des paramètres ajustables sur les - Optimiser des paramètres ajustables sur les des prédictions sur une large quantité
observations du jeu d’apprentissage observations du jeu d’apprentissage de données.
- Vérifier la qualité statistique de la régression - Vérifier la qualité statistique de la régression

3. Evaluation du modèle 3. Evaluation du modèle


Comparer les données simulées aux Comparer les données simulées aux
observations du jeu d’évaluation Si l’évaluation n’est pas acceptable observations du jeu d’évaluation

Voir 2. Evaluation des modèles Voir 2. Evaluation des modèles

C. Avantages et inconvénients d’un modèle statistique D. Avec Python…


1. Etude des observations
Les modèles statistiques consistent à relier différentes variables par des équations
mathématiques qui sont des relations statistiques. Les processus qui relient ces
variables sont donc représentés de façon implicite dans ces équations.

 Expression directe de l’évolution d’une variable en fonction des autres variables.

Avantages :
- fondés sur des mesures et donc ancrés dans la réalité
- utilisables même quand on ne connait pas la théorie ou les processus mis en jeu
- mise en œuvre relativement simple
Inconvénients :
- lien entre variables non forcement causal
- processus physico-chimiques non traités explicitement
- difficilement extrapolables
2. Développement du modèle

R2

Test de Fisher
H0 : « Les coefficients ai sont nuls,
excepté la constante »

o.o. : a0

pente : a1 Test de t
H0 : « Le coefficient ai est nul »

Partie 3 : Modélisation numérique :


modèles statistiques et déterministes

1. La modélisation numérique
2. Evaluation des modèles
3. Modélisation statistique
4. Modélisation déterministe
A. Le système différentiel d’ordre 1 à n dimensions
Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K
avec une variable indépendante (souvent le temps)
N N
(- H2O)
xi(t) : variables (fonctions dérivables) du système évoluant avec le temps - celles O OH O

pour lesquelles nous recherchons l’évolution temporelle N N


(- H2O)
𝑥 (𝑡 )=𝑥 , A B Raulin et Toupance, Bull.
Soc. Chim. Fr, 1975
𝑥, : condition initiale pour la variable xi 𝑥 (𝑡 )=𝑥 , réaction d’ordre 1 en A avec k = 4,32 10-3 s-1
– valeur de xi à t0 … Objectif : déterminer l’évolution temporelle des
𝑥 (𝑡 )=𝑥 , concentrations de A et de B pour les conditions
initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M
( )
𝑑𝑥 (𝑡) : dérivée de la variable xi par = 𝑓(𝑥 𝑡 , 𝑥 𝑡 , … 𝑥 (𝑡)) 1. Analyse du système étudié :

𝑑𝑡 rapport au temps – relation entre xi ( )


= 𝑓(𝑥 𝑡 , 𝑥 𝑡 , … 𝑥 𝑡 )
et t (vitesse à laquelle varie xi en
fonction de t) …
système d’équations différentielles à ( )
= 𝑓(𝑥 𝑡 , 𝑥 𝑡 … 𝑥 𝑡 )
résoudre dans le temps – ensemble des
équations différentielles

Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K
N N 2. Solution analytique N N 2. Solution analytique
O OH
(- H2O) O OH
(- H2O)
O O
𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒
N N N N
(- H2O) (- H2O) 𝐵 𝑡 = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( ))
A B Raulin et Toupance, Bull. A B Raulin et Toupance, Bull.
Soc. Chim. Fr, 1975 Soc. Chim. Fr, 1975
réaction d’ordre 1 en A avec k = 4,32 10-3 s-1 réaction d’ordre 1 en A avec k = 4,32 10-3 s-1
Objectif : déterminer l’évolution temporelle des Objectif : déterminer l’évolution temporelle des
concentrations de A et de B pour les conditions concentrations de A et de B pour les conditions
initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M
1. Analyse du système étudié : 1. Analyse du système étudié :
Variables/fonctions : [A]t et [B]t Variables/fonctions : [A]t et [B]t
𝑑[𝐴] 𝑑[𝐵]
𝑑[𝐴] 𝑑[𝐴]
= −𝑘 𝐴 𝑑[𝐴] 𝑑[𝐵] = −𝑘 𝐴
Réaction globale : 𝑣 = − = Réaction globale : 𝑣 = − =
𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡
Réaction d’ordre 1 : 𝑣 = 𝑘 𝐴 𝑑[𝐵] Réaction d’ordre 1 : 𝑣 = 𝑘 𝐴 𝑑[𝐵]
=𝑘 𝐴 =𝑘 𝐴
𝑑𝑡 𝑑𝑡
 Généralement, la solution analytique n’existe pas et le
système doit être résolu à l’aide d’une méthode numérique
Les méthodes numériques de résolution par différence finie La méthode d’Euler explicite
Souvent basées sur un développement limité de la fonction xi(t) en t : 𝑑𝑥 (𝑡) calcul de la dérivée
𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 au temps t
𝑑𝑥 (𝑡) ∆𝑡 𝑑 𝑥 (𝑡) 𝑑𝑡 t
𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 + +⋯
𝑑𝑡 2! 𝑑𝑡 𝑑𝑥 (𝑡)

Développement limité d’ordre 1 : xi(t) 𝑑𝑡 t


1 𝑑𝑥 (𝑡) Schéma itératif
𝑑𝑡 t
𝑑𝑥 (𝑡) si Dt petit 𝑑𝑥 (𝑡) xi(t3) 2
𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 + 𝑜(∆𝑡) 𝑥 𝑡 + ∆𝑡 ≈ 𝑥 𝑡 + ∆𝑡 t0 xi(t0) = xi,0
𝑑𝑡 𝑑𝑡 xi(t2)
Dt t1=t0+Dt xi(t1) = xi(t0) + Dt dxi/dt)t0
xi(t1)
Dt t2=t1+Dt xi(t2) = xi(t1) + Dt dxi/dt)t1
solution vraie (inconnue)
conditions initiales t3=t2+Dt xi(t3) = xi(t2) + Dt dxi/dt)t2
 Discrétisation du temps (Dt = pas de temps) xi(t0)
Dt solution numérique …
 Méthode numérique itérative : itération 0,1, 2, … n
temps : t0, t1=t0+Dt, t2=t1+Dt, … tn=tn-1+Dt) tn+1=tn+Dt xi(tn+1) = xi(tn) + Dt dxi/dt)tn
t
 De proche en proche, on va pouvoir déterminer les xi(t) et résoudre le système 𝑑𝑥 (𝑡) t0 t1 t2 t3
𝑑𝑡 t0

Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K
N N 2. Solution analytique N N 2. Solution analytique
O OH
(- H2O) O OH
(- H2O)
O O
𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒 𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒
N N N N
(- H2O) 𝐵 (𝑡) = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( ))
(- H2O) 𝐵 (𝑡) = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( ))
A B Raulin et Toupance, Bull. A B Raulin et Toupance, Bull.
Soc. Chim. Fr, 1975 Soc. Chim. Fr, 1975
3. Solution numérique 3. Solution numérique
réaction d’ordre 1 en A avec k = 4,32 10-3 s-1 réaction d’ordre 1 en A avec k = 4,32 10-3 s-1
Méthode d’Euler explicite Méthode d’Euler explicite
Objectif : déterminer l’évolution temporelle des 𝑑𝑥 (𝑡) Objectif : déterminer l’évolution temporelle des 𝑑𝑥 (𝑡)
concentrations de A et de B pour les conditions 𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 concentrations de A et de B pour les conditions 𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡
𝑑𝑡 t 𝑑𝑡 t
initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M
𝐴 𝑡 + ∆𝑡 = 𝐴 𝑡 + ∆𝑡(−𝑘 𝐴 𝑡 )
1. Analyse du système étudié : 1. Analyse du système étudié : 𝐵 𝑡 + ∆𝑡 = 𝐵 𝑡 + ∆𝑡(𝑘 𝐴 𝑡 )
Variables/fonctions : [A]t et [B]t Variables/fonctions : [A]t et [B]t
𝑑[𝐴] 𝑑[𝐵]
𝑑[𝐴] 𝑑[𝐴]
= −𝑘 𝐴 𝑑[𝐴] 𝑑[𝐵] = −𝑘 𝐴
Réaction globale : 𝑣 = − = Réaction globale : 𝑣 = − =
𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡 𝑑𝑡
Réaction d’ordre 1 : 𝑣 = 𝑘 𝐴 𝑑[𝐵] Réaction d’ordre 1 : 𝑣 = 𝑘 𝐴 𝑑[𝐵]
=𝑘 𝐴 =𝑘 𝐴
𝑑𝑡 𝑑𝑡
La méthode de Runge-Kutta d’ordre 2 Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K
𝑑𝑥 (𝑡) Dérivée calculée au demi pas de temps N N 2. Solution analytique
𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 (à t+Dt/2), avec les xi(t+Dt/2) calculés O OH
(- H2O)
O
𝑑𝑡 t+Dt/2 avec la méthode d’Euler explicite 𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒
N N
(- H2O) 𝐵 (𝑡) = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( ))
A B Raulin et Toupance, Bull.
xi(t) 𝑑𝑥 (𝑡) 𝑑𝑥 (𝑡) Schéma itératif Soc. Chim. Fr, 1975
3. Solution numérique
𝑑𝑡 t +Dt/2 𝑑𝑡 t t0 xi(t0) = xi,0 réaction d’ordre 1 en A avec k = 4,32 10-3 s-1
0 1 Méthode d’Euler explicite
xi(t2) Objectif : déterminer l’évolution temporelle des
t1=t0+Dt xi(t1) = xi(t0) + Dt dxi/dt)t0+Dt/2 Méthode de Runge-Kutta ordre 2
concentrations de A et de B pour les conditions
xi(t1+Dt/2) 𝑑𝑥 (𝑡) 𝑑𝑥 (𝑡)
xi(t0+Dt/2) 𝑑𝑡 t1+Dt/2 xi(t0+Dt/2) = xi(t0) + Dt/2 dxi/dt)t0 initiales suivantes : t0=0, [A](t0)=1 M, [B](t0)=0 M 𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 t+Dt/2
Dt 𝑑𝑡
xi(t1) Dt/2 1. Analyse du système étudié : ∆𝑡 ∆𝑡 𝑑𝑥 (𝑡)
t2=t1+Dt xi(t2) = xi(t1) + Dt dxi/dt)t1+Dt/2 𝑥 𝑡+ =𝑥 𝑡 +
Variables/fonctions : [A]t et [B]t 2 2 𝑑𝑡 t
xi(t0) Dt solution vraie (inconnue) xi(t1+Dt/2) = xi(t1) + Dt/2 dxi/dt)t1 𝑑[𝐴]
conditions initiales 𝑑[𝐴] 𝑑[𝐵] = −𝑘 𝐴
Dt/2 Réaction globale : 𝑣 = − =
… 𝑑𝑡 𝑑𝑡 𝑑𝑡
solution numérique
Réaction d’ordre 1 : 𝑣 = 𝑘 𝐴 𝑑[𝐵]
t tn+1=tn+Dt xi(tn+1) = xi(tn) + Dt dxi/dt)tn+Dt/2 =𝑘 𝐴
t t1 t 𝑑𝑡
2
𝑑𝑥 (𝑡) 0
t xi(tn+Dt/2) = xi(tn) + Dt/2 dxi/dt)tn1
t
𝑑𝑡 t0 0+Dt/2 1+Dt/2

Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K Exemple : transformation d’un aldol en solution aqueuse à pH=2 et T=292,5K
2. Solution analytique 2. Solution analytique
𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒 𝐴 (𝑡) = 𝐴 (𝑡0) 𝑒
𝐵 (𝑡) = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( )) 𝐵 (𝑡) = 𝐵 𝑡0 + 𝐴 (𝑡0) (1 − 𝑒 ( ))

3. Solution numérique 3. Solution numérique


Méthode d’Euler explicite Méthode d’Euler explicite
Méthode de Runge-Kutta ordre 2 Méthode de Runge-Kutta ordre 2
𝑑𝑥 (𝑡) - Comparaisons avec la solution analytique
𝑥 𝑡 + ∆𝑡 = 𝑥 𝑡 + ∆𝑡 t+Dt/2
𝑑𝑡 - Sensibilité au pas de temps :
∆𝑡 ∆𝑡 𝑑𝑥 (𝑡) qd Dt diminue :
𝑥 𝑡+ =𝑥 𝑡 +
2 2 𝑑𝑡 t nombre de calculs augmente
solution numérique s’approche de la solution vraie
𝐴 𝑡 + ∆𝑡/2 = 𝐴 𝑡 + ∆𝑡/2(−𝑘 𝐴 𝑡 ) qd Dt augmente :
nombre de calculs diminue
𝐴 𝑡 + ∆𝑡 = 𝐴 𝑡 + ∆𝑡(−𝑘 𝐴 𝑡 + ∆𝑡/2 ) solution numérique s’éloigne de la solution vraie
𝐵 𝑡 + ∆𝑡 = 𝐵 𝑡 + ∆𝑡(𝑘 𝐴 𝑡 + ∆𝑡/2 )  Compromis nécessaire entre nombre de calculs et
précision de la méthode numérique
4. Evaluation
B. Conception d’un modèle déterministe B. Conception d’un modèle déterministe

1. Etude du système Quels processus influencent les variables du 1. Etude du système


- Identification des processus système ? Comment les représenter ? Par - Identification des processus
- Formulation des hypothèses quelles lois fondamentales, quelles relations - Formulation des hypothèses
- Choix des lois pour représenter les processus empiriques/théoriques ? - Choix des lois pour représenter les processus
- Bases de données - Bases de données
Quels processus négliger et pourquoi ? Equations différentielles à :
- une ou n dimensions (dt, dT, dx, dy, dz…)
2. Développement du modèle - premier ou nième ordre
Quelles données d’entrée nécessaires et
- Mise en équations (système d’équations
comment les renseigner ? Des données sont- - linéaire ou non linéaire…
différentielles)
elles disponibles pour l’évaluation ?
Analyse des temps caractéristiques

B. Conception d’un modèle déterministe B. Conception d’un modèle déterministe

1. Etude du système 1. Etude du système


- Identification des processus - Identification des processus
- Formulation des hypothèses - Formulation des hypothèses
- Choix des lois pour représenter les processus - Choix des lois pour représenter les processus
- Bases de données - Bases de données
Choix du solveur selon:

2. Développement du modèle - sa stabilité/précision : l'erreur ne doit pas 2. Développement du modèle


- Mise en équations (système d’équations croître avec le temps - Mise en équations (système d’équations
différentielles) - sa rapidité : le temps de calcul dépend du pas différentielles)
- Choix du solveur (méthode numérique) de temps et de la nature des calculs effectués - Choix du solveur (méthode numérique)
- Vérifier l’adéquation entre le solveur et le - la conservation de la masse : critère souvent - Vérifier l’adéquation entre le solveur et le
système à résoudre/traiter secondaire pour de nombreuses applications système à résoudre/traiter

3. Evaluation du modèle
Comparer les données simulées à des
observations Si l’évaluation n’est pas acceptable

Voir 2. Evaluation des modèles


C. Avantages et inconvénients d’un modèle déterministe D. Avec Python…

Les modèles déterministes consistent à relier différentes variables par des équations
mathématiques qui représentent des processus (lois fondamentales, empiriques). Les
processus qui relient ces variables sont donc représentés de façon explicite dans ces équations.

 Expression des équations différentielles pour chaque variable, et intégration pour


obtenir l’évolution des variables (souvent, pas de solution analytique et besoin d’utiliser une
méthode de résolution numérique (approximative)).

Avantages :
- processus physico-chimiques traités explicitement
- par nature extrapolables
Inconvénients :
- incertitudes associées à la formulation du modèle
- prend peu en compte des variations aléatoires
- souvent lourds à mettre en œuvre

Les modèles numériques déterministes


intègrent souvent une part de statistiques…
Et les modèles numériques statistiques
intègrent souvent une part de déterminisme…

Un modèle est développé pour un objectif précis.


Tout utilisateur / développeur doit avoir conscience
des limites du modèle utilisé, et si besoin, doit faire
évoluer le modèle en fonction de ses objectifs

Vous aimerez peut-être aussi