0% ont trouvé ce document utile (0 vote)
38 vues34 pages

Data Mining et Machine Learning

Le document traite du Data Mining et du Machine Learning, en expliquant les concepts clés tels que l'exploration de données, le contrôle de la qualité des données, et les différentes méthodes de régression. Il aborde également des techniques avancées comme les forêts aléatoires, l'analyse discriminante et les systèmes neuronaux. Enfin, il souligne l'importance de la validation des modèles et des méthodes statistiques dans l'analyse des données.

Transféré par

Lemaire
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
38 vues34 pages

Data Mining et Machine Learning

Le document traite du Data Mining et du Machine Learning, en expliquant les concepts clés tels que l'exploration de données, le contrôle de la qualité des données, et les différentes méthodes de régression. Il aborde également des techniques avancées comme les forêts aléatoires, l'analyse discriminante et les systèmes neuronaux. Enfin, il souligne l'importance de la validation des modèles et des méthodes statistiques dans l'analyse des données.

Transféré par

Lemaire
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Data mining and Machine learning

1) Introduction 2
1.1) Exploration de données (Knowledge Discovery in Data Base, (KDD)) 2

2) Contrôle des données 4


2.1) Caractérisation 4
2.2) Vérification de la qualité des données 4

3) Régression linéaire 5
3.1) Régression linéaire univariée 5
3.2) Régression linéaire multiple 6
3.3) Sélection de variables : Ridge et Lasso 7
3.3.1) Régression de Ridge 7
3.3.2) Régression de Lasso 7
3.3.3) Régression Elastic Net 7
3.4) Régression polynomiale 8

4) Validation 8
4.1) Le rôle de la validation 8
4.2) Nombre idéal d’observations du set de calibrage : 8
4.3) Nombre idéal de variables du modèle : 8
4.4) Méthodes de validation 8
6.1) Algorithme NIPALS 10
6.2) Pouvoir explicatif et prédictif des variables latentes 11
6.3) Penalized PLS 11

7) Modèle linéaire généralisé 12


7.1) Introduction 12
7.1.2) Exemples d’infractions : les dénombrements et les situations “tout ou rien” 12
7.2) Le modèle linéaire généralisé 12
7.2.1) Critères d’ajustement du modèle 14
7.3) Modélisation de données binomiales 15

Random forests 16
Arbres de décision : rappel 16
Random forests 17
Bagging 17
Sélection de critères aléatoire 17
Avantages et inconvénientsdes random forests 17
Paramètres des Randoms Forests 18
Autres utilités des random forests 18

Analyse discriminante 19
Pre-processing - nettoyage des données 19
Standard Normal Variate (SNV) 19
Dérivées 19
Méthodes d’analyse discriminantes supervisées / clustering 20
Soft, Independant, modelling of Class Analogies (SIMCA) 21
Partial Lean Square Discriminant Analysis (PLS-DA) 22
Support Vector Machines (SVM) 23
Nouvelles stratégies pour les méthodes locales 25
BONUS : Receiver operating characteristic (ROC) (Wikipédia) 25

Systèmes neuronaux 26

Salingros Edouard 2019 - 2020 1


Introduction 26
Architecture d’un perceptron à une couche intermédiaire 26
Radial Basis Function Network 29

1) Introduction
Dans l’ère du Big Data, d’énormes quantités de données sont disponibles pour la création d’outils prédictifs
complexes. La puissance informatique disponible permet d’utiliser ces immenses quantités de données.

Le ​Data Mining est la science qui s’applique à extraire des conclusions et des informations utiles de ces amats de
données.

Tom Mitchell définit le ​Machine Learning « ​A computer program is said to learn from experience E with respect to
some task T and some performance measure P, if its performance on T, as measured by P, improves with experience
E.​”.

Le ​Machine Learning est une approche du ​Data Mining par laquelle un algorithme auto-évolutif est utilisé pour extraire
de l’information.

La chimiométrie est une discipline dans laquelle on conçoit des modèles permettant de prédire les teneurs en
substances chimiques à partir de mesurées indirectes fortement corrélées.

Initialement, le Data Mining et le Machine Learning ont été développés dans les secteurs du marketing, de la finance,
et des assurances ; mais l’outil s’est établi dans d’autres domaines (Smart cities, Smart Health, Smart Farming, Smart
Mobility...).
1.1) Exploration de données (Knowledge Discovery in Data Base, (KDD))
➢ La démarche de Data Mining repose sur une démarche générale :
0. Définition de l’objectif​ de l’étude, de la population cible et de l’unité statistique;

1. Sélection les variables : ​certaines variables peuvent se révéler inutilisables à cause, par exemple, de leur
faible fiabilité ou encore de leur taux trop élevé de données manquantes. La connaissance du domaine de
l’étude ou une discussion avec des experts pour cet étape est cruciale afin d’isoler au mieux les variables
qui seront vraisemblablement les plus pertinentes.

2. Nettoyage et transformation des données​ :


- Suppression de lignes (individus) où trop de données sont manquantes
- Suppression de colonnes (variables) si trop de données manquantes ou si (échelle,
standardisation, transformation visant à obtenir une distribution normale)
- Remplissage de (quelques) données manquantes par la moyenne ou la médiane de la variable ;
- Création de nouvelles variables dérivées (ratios, arrondis...)

3. Transformation des variables​ :


- Redimensionnement​ (scaling) (selon l’amplitude ou l’écart-type (standardisation)) ou conversion
dans des unités communes entre les variables.
- Transformation visant à obtenir une distribution normale (log...)

4. Calibration​ : définir des règles pour la recherche de la relation entre les variables explicatives et la ou les
variables à expliquer.

5. Validation : le modèle est validé à l’aide d’un jeu de données indépendant et complet (variables
explicatives et à expliquer) de celui ayant servi à la conception du modèle.

➢ ​Les méthodes statistiques sont classées en fonction de l’objectif poursuivi :


● supervisées​ : on sait ce qu’on veut obtenir ;
○ régression​ : données entrantes → prédictions ;
○ classification​ : regroupement sur base de critères connus a priori ;
● non supervisées​ : on ne sait pas le résultat à obtenir ;
○ clustering​ : regroupement sur base de similarité statistique, sans critère connu a priori.

Ce cours concerne les méthodes supervisées.

Salingros Edouard 2019 - 2020 2


La figure ci-dessous donne un aperçu des méthodes algorithmiques majeures utilisées en ​Machine Learning​ et
Data Mining​.

Salingros Edouard 2019 - 2020 3


2) Contrôle des données
2.1) Caractérisation
Les variables peuvent être :
● quantitatives​ : dénombrements ou mesures, objectif et tangible ;
● qualitatives​ : attributs ou catégorie auquel un individu appartient ;
- binaires​ : présence ou absence d’un caractère (0 ou 1)
- ordinales​ : il existe une relation hiérarchique entre les modalités (5 > 1) ;
- nominales​ : il n’existe pas de relation entre les modalités (une couleur, une orientation sexuelle...)

○ continues
○ discontinues

Un même caractère peut être considérés de plusieurs façons. Par exemple, on peut considérer une couleur comme
● qualitative nominale​ si la couleur n’est pas un témoin d’intensité (ex : couleurs des voitures) ;
● qualitatif ordinal​ si la couleur est témoin d’intensité (ex : état de mûrissement, échelle entre vert et rouge) ;
● quantitative​ si on peut directement mesurer la longueur d’onde de la lumière émise par l’objet.
2.2) Vérification de la qualité des données
Sur base des statistiques descriptives de chaque variable, il est possible de
détecter des comportements anormaux. Une représentation en boxplot des
statistiques descriptives est aussi une indication visuelle supplémentaire.

Les segments (whisker) ne peuvent dépasser 1,5 fois l’écart interquartile. Les
observations en dehors des segments sont représentées par des astérisques
et sont considérées comme exceptionnelles. La représentation donne des
informations concernant l’ordre de grandeur des données (par la médiane), la
dispersion des données (par l’écart interquartile et par l’amplitude), la
symétrie de la distribution (par la position de la médiane par rapport aux
quartiles q1 et q3 et par les longueurs relatives des deux segments) et la
présence de données exceptionnelles (par les astérisques).

Paramètres descriptifs : moyenne, médiane, mode, minimum, maximum,


amplitude, quartiles, écart-type, coefficient de variation.

➢ ​Valeurs aberrantes :
Une valeur aberrante est une valeur erronée causée par un mauvais encodage, une mauvaise mesure, une
erreur de calcul ou autre. Les valeurs extrêmes (outliers) ne sont pas aberrantes si aucune erreur ou
perturbation n’en est la cause.

Salingros Edouard 2019 - 2020 4


Lors de la conception de modèles, il est communément
admis que les valeurs au delà de 3 écarts-types de part et
d’autre de la moyenne sont des valeurs extrêmes qu’il ne
faut pas inclure dans la conception du modèle.

> En cas de valeur anormale ou manquante :


- supprimer la ligne
- supprimer la variable
- remplacer par la moyenne, le mode ou la médiane.

➢ ​Colinéarité :
Les variables fortement corrélées sont considérées comme colinéaires à l’erreur près. Pour certaine méthode, les
variables colinéaires ne peuvent pas coexister dans un modèle. Il faudra alors décider quelle variable éliminer (voir
plus loin).

➢ ​Redimensionnement :
Certaines méthodes sont sensibles à l’échelle. Il est donc préférable de redimensionner les variables afin qu’elles
soient homogènes et que leur importance dans le modèle ne dépende plus de leur échelle. Il existe deux type de
redimensionnements :

● selon l’amplitude : → données entre 0 et 1, la moyenne n’est pas au centre.

● selon l’écart-type (standardisation ou normalisation) : → la moyenne étant à 0.

3) Régression linéaire
3.1) Régression linéaire univariée
Régression linéaire univariée : 1 variable explicative (x), 1
variable à expliquer (y), un coefficient de régression (b) et une
ordonnée à l’origine (a).

Le modèle est conçu de sorte à minimiser la distance entre les


prédictions (y’) et les observations (y). Cette distance est
quantifiée par la somme des carrés des écarts (SCE), aussi
appelée ​fonction de coût​.

Les valeurs de a et b minimisant la fonction de coût sont


déterminées ​analytiquement par un système d’équations où
les ​dérivées partielles en a et b de la fonction de coût sont
égalées à zéro (​système des équations normales​) (on
cherche des valeurs de a et b pour lesquelles la fonction de
coût est minimale, càd dérivée nulle).

Les solutions analytiques de ce système de deux équations à


deux inconnues sont données ci-contre.

La variance des résidus (mean square error) (MSE) quantifie


la qualité du modèle. On peut la calculer pour chaque écart
résiduel (résidu) ou bien à partir des SCE entre les x​i et leur
moyenne (SCEx), la SCE entre les y​i et leurs moyennes
respectives et de la somme des produits des écarts (SPE)
entre les x​i​ ,y​i​ et leurs moyennes respectives.

En multipliant par SCEy le numérateur et le dénominateur du


deuxième terme entre crochets, puis en mettant SCEy en
évidence, on obtient aussi une expression contenant la
variance marginale de y (s​y​²) et un terme égal à r².

Salingros Edouard 2019 - 2020 5


le coefficient de régression (r²) est le carré du coefficient de
corrélation (r). Ce dernier est un nombre sans dimension
toujours compris entre -1 et 1.

Le coefficient de régression (ou de détermination) (r²) quantifie la part de SCEy expliquée par le modèle.

L’écart-type résiduel (root mean square error, (RMSE)), est la racine carrée de la variance résiduelle (MSE). Il
s’exprime dans les mêmes unités que la variable y. L’écart-type résiduel (RMSE) est égal à l’écart-type marginal
de y (s​y​) si la corrélation (r) de x et y est nulle. Le RMSE est nul si la corrélation est parfaite (r = ±1); tous les
points sont alors situés sur une droite et toute la variabilité de y s’explique par la variable x.

La RMSE est l’erreur qui sera directement affectée à une prédiction. Ex. 300g +- 15g.

3.2) Régression linéaire multiple


Les variables et l’erreur sont remplacées par des vecteurs, les variables explicatives constituent une matrice.
Expression matricielle de l’équation de régression :
où y est le vecteur contenant les observations de la variable à
expliquer, X est la matrice de correspondance, 𝛽 est le vecteur
contenant les coefficients de régression et e étant le vecteur
contenant les résidus.

Comme précédemment, l’estimation du vecteur 𝛽 se fera par la


minimisation de la somme du carré des résidus. Cette méthode
d’estimation des b coefficients est appelé méthode des moindres
carrés (ordinary least squares).

le calcul de MSE va ici tenir compte du nombre de variables


explicatives (p) utilisées dans le modèle.

Comme pour la régression linéaire univariée, la qualité de


l’ajustement du modèle peut être appréciée par l’estimation du r²
et RMSEP. De manière générale, plus on va ajouter de variables à
la régression (à condition qu’elle soit un minimum liée à la variable
à expliquer), plus r² va augmenter et plus RMSE va diminuer.

On appelle ​surajustement (overfitting​) la modélisation trop parfaite d’un jeu de donnée par l’utilisation abusive de
variables. Un modèle surajusté peut être non adaptée pour un autre jeu de donnée car il prédit aussi une erreur
dont la nature réelle est aléatoire (qui ne peut donc pas être prédit avec fiabilité).

Comme indiqué ci-dessus, la résolution analytique permettant de trouver les coefficients 𝛽 fait appel à
l’inversion de matrice. L’inversion requiert un déterminant non nul, ce qui n’est pas le cas s’il y a
colinéarité.

Les paramètres de régression peuvent aussi être trouvés de façon


numérique. La démarche consiste à calculer l’erreur quadratique (​fonction
de coût​) pour des valeurs de 𝛽​i​ de plus en plus proche de l’optimum.
fonction de coût J
Ci-contre se trouve un algorithme pour la détermination de deux paramètres
de régression (𝛽​i​) (un coefficient de régression et un terme indépendant). À
chaque tentative (temp), la valeur de la dérivée partielle de la fonction de
coût par rapport à un paramètre et multipliée par le learning rate ( α ) est
soustrait à la valeur du paramètre 𝛽​i jusqu’à ce que la dérivée partielle soit algorithme :
négative. Alors, l’algorithme s’arrête et garde la valeur précédente.

Un avantage de cet algorithme est que plus on va arriver au minimum local et


plus le saut entre 2 valeurs des coefficients sera plus faible car la dérivée
partielle sera plus petite. Il n’y a donc pas besoin de changer la valeur de 𝛼
pendant les itérations.

La fonction de coût doit décroître de façon monotone.

Il est recommandé de redimensionner / standardiser les données afin


d’améliorer la qualité et la vitesse de l’algorithme.

Salingros Edouard 2019 - 2020 6


​Par cette technique on cherchera à avoir des valeurs explicatives comprises
entre -1 et 1 ou encore -0.5 et 0.5.

3.3) Sélection de variables : Ridge et Lasso


Éviter le surajustement et la colinéarité nécessite de sélectionner des variables et d’en éliminer d’autres.

L’approche la plus simple, pour des variables quantitatives, consiste à conserver les variables au plus haut
coefficient de corrélation. Cependant, il est très probable que ces variables soient aussi corrélées entre-elles, ce
qui pose le problème de la colinéarité entre les variables.

Une seconde approche, plus lourde, pour les variables qualitatives, consiste à effectuer des analyses de la
variance (ANOVA) à un ou plusieurs critères de classification.

Une troisième approche consiste à sélectionner les variables selon une approche plus algorithmique : méthodes de
sélection Forward, Backward et Stepwise. Cependant, leur temps de calcul devient très important lorsque le
nombre de variables augmente.

Une prescription générale est qu’il est préférable de disposer au minimum de dix fois plus d’observations que de
variable.

L’élimination d’une variable modifie parfois fortement les coefficients de régression des variables restantes, ce qui
pose un problème pour leur interprétation et leur signification dans la réalité.

Les méthodes de Ridge et Lasso consistent à ajouter un terme de pénalité dans la fonction de coût. L’introduction
de cette pénalité tend à minimiser les coefficients de régression. Les modèles créés de cette façon sont moins
sujets au surajustement et sont donc souvent mieux adaptés à d’autres jeux de données (meilleure validation).
3.3.1) Régression de Ridge
Le terme de pénalité introduit par la méthode de Ridge contient la somme des paramètres de régressions au
carré, multiplié par un coefficient de régulation ( λ ). Cette pénalité porte le nom de régulation L2.

Pour déterminer la valeur du coefficient de régulation ( λ ), plusieurs valeurs sont testées.

3.3.2) Régression de Lasso


Le terme de pénalité introduit par la méthode de Lasso contient la somme des valeurs absolues des paramètres
de régressions, multiplié par un coefficient de régulation ( λ ). Cette pénalité porte le nom de régulation L1.

L’algorithme de Lasso réduit les coefficients à 0 directement. Cela implique que des variables prédictives seront
complètement mises à l’écart par cet algorithme. C’est donc une forme de sélection de variables automatique.

Cependant, si 2 variables sont corrélées, l’algorithme en choisira qu’une entraînant potentiellement une
mauvaise interprétation. Le risque majeur avec la régression Lasso est de sous-ajuster le modèle finale. Un bon
réglage du paramètre de régulation est donc nécessaire.

➢ ​Ridge ou Lasso ? Si le modèle attendu a de nombreux effets d’impact faible ou modéré, on préfèrera la
régression Ridge. Si on a quelques variables prédictives et des effets modérés à fort, on préfèrera la régression
Lasso.
3.3.3) Régression Elastic Net
La régression Elastic Net est un intermédiaire où l’on peut décider de la proportion de Ridge et de Lasso.

Salingros Edouard 2019 - 2020 7


3.4) Régression polynomiale
La régression polynomiale peut être utilisée pour modéliser des courbes complexes comme par exemple des
courbes quadratiques. La différence avec la régression linéaire classique est que de nouvelles variables
explicatives vont être créées à partir des variables explicatives de départ. Par exemple, si x​1​=l’âge, on peut
facilement créer x​2​=âge² et x​3​=âge³.

La standardisation des données est ici très importante vu les différentes échelles créés par les exposants utilisés.
De nouvelles variables explicatives peuvent aussi être créées en combinant des variables explicatives entre elles.

4) Validation
4.1) Le rôle de la validation
La validation des modèles permet de vérifier :
1. que ceux-ci ne sont pas sur-ajustés (càd qu’ils n’expliquent pas de variabilité spécifique au jeu de données
et non reproduite par d’autres données indépendantes)

2. que ceux-ci sont capables de prédire correctement des données indépendantes.

Les observations utilisées pour la conception du modèle et pour la validation doivent être :

● aussi variables et représentatives que possible, afin que le modèle soit adapté à toutes les situations
auxquelles il doit pouvoir faire face ;

● aussi indépendantes que possible. Le modèle sera plus robuste en mesurant à des moments, des lieux et
sur des individus différents et indépendants. Récolter des échantillons sur le long terme permet donc
souvent d’obtenir un modèle plus robuste.
4.2) Nombre idéal d’observations du set de calibrage :
Un set de calibration petit a plus de chance d’avoir une
faible erreur car il a moins de chance d’être représentatif
de la variabilité réelle de la population. L’erreur de
validation a donc de grande chance d’être élevée.

La taille idéale du set de calibration est celle :

○ en-dessous de laquelle le modèle obtenu s’ajuste


mal aux données de validation.

○ au dessus de laquelle on n’observe plus de


baisse sensible de l’erreur de validation.

4.3) Nombre idéal de variables du modèle :

Afin de déterminer le nombre idéal de variable, il est


judicieux de confronter entre-eux des modèles
incluant un nombre différent de variables.

Le meilleur modèle est celui pour lequel le R² de


validation est maximal (ou le RMSEP, erreur
résiduelle de prédiction du set de validation, est
minimale).

Le R² de calibration n’est pas un signe de


qualité du modèle, seul le R² de validation
informe sur la qualité prédictive du modèle.

4.4) Méthodes de validation


● holdout ​: un set indépendant de données (de taille au choix) est utilisé pour valider le classificateur :
optimal, mais coûteux. Communément : 1/3 validation pour 2/3 pour le modèle

Salingros Edouard 2019 - 2020 8


● resubstitution : les données utilisées pour créer le classificateur sont réutilisées. C’est l’expression du
taux d’erreur fournie par défaut par les logiciels (pour fournir un R², une MSE...).

La resubstitution ​sous-estime systématiquement le taux d’erreur​, le classificateur peut être surajusté


(le modèle explique de la variabilité aléatoire et/ou n'a pas été construit sur base d’une variabilité réelle,
plus importante).

● validation croisée​ : ​leave-n-out ​:

○ K-cross validation : on divise l'échantillon original en k échantillons, puis on sélectionne un des k


échantillons comme ensemble de validation et les k-1 autres échantillons constitueront l'ensemble
d'apprentissage. On calcule comme dans la première méthode le score de performance, puis on
répète l'opération en sélectionnant un autre échantillon de validation parmi les k-1 échantillons qui
n'ont pas encore été utilisés pour la validation du modèle. L'opération se répète ainsi k fois pour
qu'en fin de compte chaque sous-échantillon ait été utilisé exactement une fois comme ensemble
de validation. La moyenne des k erreurs quadratiques moyennes est enfin calculée pour estimer
l'erreur de prédiction

○ jackknife (ou ​leave-one-out ou ​full-cross-validation​) : cas extrême où on laisse seulement 1


donnée pour la vérification. Cette méthode ne fonctionne bien que pour des modèles avec peu
d’observations (car si on a beaucoup d’observations, il y a de grandes chances que l’observation
de vérification soit bien prédite).

● bootstrap : un échantillon de n individus où on tire un sous-échantillon (avec remise) de n individus. On se


sert de l’échantillon complet original comme set de vérification. +- 30% de chance qu’un individu ne se
retrouve pas dans l’échantillon bootstrap. On réitère l’opération plusieurs fois, on calcule la moyenne →
similaire au leave-n-out.

5) Régression utilisant les composantes principales (PCR)


La régression en composantes principales permet de développer une régression à partir d’un jeu de données
présentant moins d’observations que de variables explicatives dont certaines sont fortement corrélées entre elle.

Les variables fortement corrélées entre-elles sont un inconvénient car elles partagent un grande partie de
l’information qu’elles expliquent. L’ajout d’une variable corrélée à une autre n’ajoute donc que peu d’information au
modèle. Il est nécessaire de les écarter afin d’éviter le surajustement et faciliter l’interprétabilité du modèle.

La PCA permet de créer des variables synthétiques (composantes principales, z) qui sont combinaisons linéaires des
variables initiales mais indépendantes entre-elles. Les composantes principales sont utilisées pour la régression, puis
on peut retraduire le modèle créé à partir de la PCA en modèle dont les paramètres sont les variables initiales.

Tout comme pour la PCA, les données doivent être standardisées.

> ​Avantages de la PCR​ :


○ solutionner les problèmes de colinéarité entre variables explicatives,
○ permettre une régression même si le nombre de variables explicatives est plus important que le nombre
d’observations.

> ​Inconvénients de la PCR : l’inconvénient principal réside dans la décomposition effectuée pour diminuer la
dimensionnalité de la matrice X. En effet, celle-ci se base sur la variabilité de X et non celle de y qui est pourtant celle
qui nous intéresse le plus dans le cas d’une régression.

> ​Détection d’outliers​ :

Outre la conception de modèles, la PCA peut servir à


éliminer des outliers : les ​distances de mahalanobis
(D​i​) sont calculées pour chaque observation par rapport
Où 𝑥​𝑃𝐶𝐴 est le vecteur des composantes principales de
au centroïde du nuage de point à n dimensions (n =
l’observation i ; 𝑆​𝑃𝐶𝐴 est la matrice de
nombre de composantes principales telles qu’au moins
variance-covariance des composantes principales
95 ou 99 % de la variabilité).
sélectionnées par décrire la matrice 𝑋​𝑃𝐶𝐴 ; μ​𝑃𝐶𝐴 est le
vecteur contenant la moyenne de chacune.
Cependant la distance de Mahalanobis moyenne s’approche toujours du nombre de variables. C’est pourquoi on
calcule une valeur standardisée : ​GH = D​i​ / nombre de composantes​.

● GH < 3​ : le point n’est pas un outlier, il s’inscrit dans la variabilité des autres observations.

Salingros Edouard 2019 - 2020 9


● 3 < GH < 5 : le point est peut-être un outlier : comparer les R² ​de validation des modèles avec et sans ce
point.

● GH > 5 : le point est très probablement un outlier : mieux vaut l’exclure du modèle dans un premier temps et
l’ajouter après.

ATTENTION 1 : un point outlier peut soit être réellement anormal, soit être tout à fait valide et témoigner d’une
variabilité peu fréquente. La décision d’inclure ou non ce point dans le set de calibration doit être fondée sur
la comparaison de la performance du modèle face à un set de validation (R² de validation et RMSEP).

Un outlier peut révéler une erreur d’échantillonnage ou un échantillonnage lacunaire qui ne tient pas assez en
compte une certaine source de variabilité.

ATTENTION 2 : il se peut que si on procède à des observations supplémentaires, le/les outliers ne soient plus
des outliers.

6) Régression des moindres carrés partiels (PLS)


Contrairement à la PCR qui détermine les variables synthétiques (composantes principales) en maximisant la
variance expliquée par X uniquement (covariance des X) ; la PLS vise à maximiser la variance expliquée par X
(principe de l’ACP) et maximiser la variance expliquée par Y (principe de la régression) en maximisant cov(t,y) où t
sont les ​variables latentes​ (l’équivalent des composantes principales de la PCA).

Cette méthode est largement utilisée en chimiométrie notamment dans le traitement de données spectroscopiques et
chromatographiques utilisées en chimie, cosmétique, biologie... Elle a été créée en 1983 par Wold et al. à partir de
l’algorithme « Non linear Iterative Partial Least Square » (NIPALS).

● PLS1 : régressions destinées à expliquer une seule variable (un seul y)


● PLS2 : régressions expliquant plusieurs variables (plusieurs y)

La suite du cours traitera uniquement de la PLS1.


6.1) Algorithme NIPALS
Tout comme pour la PCA et la PCR, ​les données doivent impérativement être standardisées​ (l’indice s signifie que
la donnée est standardisée).

1. Calcul des corrélations entre y et chaque variable x.

2. Calcul de la contribution de chaque variable x à y comme étant


la corrélation de la variable x​j avec y divisée par la valeur
absolue (racine des carrés) de la somme des corrélation entre
tous les x et y.

3. La première variable latente (t​1​) (score) est définie comme la


somme des variables standardisées multipliées par leur
contribution.

4. La régression de y par rapport à t​1 est calculée de la même


manière qu’une régression habituelle, par la méthode des
moindres carrés (de façon itérative et numérique). On obtient
ainsi le vecteur β contenant les coefficients de régressions.

La notation de l’équation de régression de manière matricielle


peut rassembler les x et y dans une même matrice D.

5. Les résidus sont calculés pour les x et pour y

6. Les résidus sont considérés de la même façon que les variables x et y à l’étape 1 ; la seconde variable
latente est calculée sur base de ces résidus et ainsi de suite.

7. On peut ensuite réexprimer les variables latentes par des variables x non standardisées pour
l’interprétation.

Salingros Edouard 2019 - 2020 10


> ​Nombre de variables latentes​ :

En confrontant les modèles à un même set de validation,


on choisira le modèle pour lequel l’erreur de prédiction par
rapport au set de validation (RMSEP) est minimale.

Une autre façon de déterminer le nombre optimal de


variables latentes est de calculer la statistique Q² où :
● PRESS​h​ est la somme du carré des résidus ;
● RSS​h-1 est la somme des carrés des résidus
calculés à partir du modèle h-1. Pour H=1, le RSS
vaut n-1 car les variables ont été standardisées.

Les variables latentes sont conservées tant que Q² > 0.0975 (= 1 - 0,95²)

> ​Détection d’outliers​ : ​T² de Hotelling


où s² est la variance.
(1) (2)
La seconde expression est une variable suivant une loi de
Fisher à H et n - H ddl, elle peut donc être soumise à un
test de signification (3).
(3)

6.2) Pouvoir explicatif et prédictif des variables latentes


Contrairement, à la régression linéaire classique nécessitant une sélection de variable en cas de colinéarité et donc
une non-prise en considération d’une ou plusieurs variables explicatives, la régression PLS reprend l’entièreté des
variables initiales permettant une interprétation plus poussée. Ainsi, le pouvoir explicatif des composantes peut se
faire en utilisant la part expliquée par chaque composante au niveau de X et y.

En analyse en composantes principales, l’interprétation des composantes principales est simplifiée par le fait que
les corrélations entre variables et les composantes principales sont proportionnelles aux coefficients des variables
dans la construction des composantes principales. Ce n’est pas le cas en PLS. L’interprétation univariée c.-à-d. le
lien entre chacune des variables latentes et les variables initiales conduit à calculer les corrélations entre les
variables x et y et les composantes t.

L’interprétation multivariée tenant compte de la combinaison des variables latentes entre elles est plus complexe
que dans le cadre de la régression sur composantes principales vu que les variables latentes autre que la première
variables sont définies sur les résidus et donc pas sur les variables initiales. C’est pourquoi dans le cadre de la
régression PLS, l’interprétation multivariée est basée sur les coefficients w permettant de construire les
composantes t à partir des variables x et y. Les poids w traduisent l’importance de chaque variable x dans la
construction de t.

Pouvoir prédictif : la valeur du GH peut être utilisée pour estimer si une observation supplémentaire sera bien
prédite par le modèle ou non :

● GH < 3​ : le point sera vraisemblablement bien prédit

● 3 < GH < 5​ : le point sera moyennement bien prédit

● GH > 5​ : le point sera très probablement mal prédit.

Autre paramètre intéressant : ​RPD = SD/RMSEP​ compare l’erreur à la variabilité des données du jeu de données
RPD > 2 : assez bon
6.3) Penalized PLS
Comme vu précédemment dans le cas de la régression linéaire, une augmentation du nombre de
composantes/facteurs/variables peut diminuer la robustesse du modèle. Dans le cadre de la PLS, il est aussi
possible d’introduire un facteur pénalisant le nombre de composantes latentes utilisé dans le modèle. Cette

Salingros Edouard 2019 - 2020 11


procédure est appelée Penalized Partial Least Squares.

7) Modèle linéaire généralisé


7.1) Introduction
Pour rappel un modèle est une approximation de la réalité suffisamment bonne pour l’usage désiré : synthétiser ou
prédire de l’information.

> ​Critères d’un modèle​ :


● Qualité prédictive​ : minimisation de l’écart entre prédiction et réalité.
● Parcimonie​ : le moins de paramètres possibles (coût moindre et moindre risque de sur-ajustement)
● Domaine de validité / robustesse​ : capacité à conserver une qualité prédictive en dehors des conditions
de calibration

Modèle linéaire général​ : hypothèses


● relation de combinaison linéaire entre le(s) descripteur(s) x​i​ et la réponse y​i
● la réponse possède une distribution normale
● la variance est constante.

Jusqu’à présent, on a toujours appliqué le modèle linéaire général en vérifiant


ses hypothèses ou en supposant qu’elles étaient respectées (par exemple
lorsque le nombre d’observation est grand). Cependant, il existe de
nombreuses situations dans lesquelles ces dernières ne sont pas respectées et
aboutissent nécessairement à un modèle dont la dérive est importante.

7.1.2) Exemples d’infractions : les dénombrements et les situations “tout ou rien”


Situation : étude de l’influence du mode de gestion d’une pelouse calcaire sur l’abondance d’une espèce
d’asphodèle (Asphodelus cerasifer Gay). Autre situation : Influence d’une mol´ecule sur le comportement de
coccinelles asiatiques (​Harmonia axiridis Pallas)​

Observations​ :
○ nombre de pieds d’asphodèle par mètre carré
○ nombre de cas favorables ou défavorables ; nombre de morts/survivants ; nombre d’individus dans
chacune des deux branches d’un olfactomètre sur l’effectif initialement introduit.

La distribution des observations (réponses) n’est pas normale car :


● la distribution est bornée en zéro (on observe pas de nombre négatif de pieds) alors qu’une distribution
normale n’est jamais bornée.

● dans le cas binomial, la distribution est bornée au nombre d’individus testés (n) (si on teste la mortalité
sur 10 individus, la valeur maximale observée du nombre de morts ou de survivants est 10).

● les valeurs prises par la réponse est nécessairement entière, tandis qu’une distribution normale est
continue.

Ce type de situation s’ajuste plutôt aux distributions :

● de POISSON (pour les dénombrements) dont la variance est égale à la variance, ce qui constitue une
violation de la troisième hypothèse de variance constante du modèle linéaire général.

● BINOMIALES (pour les situations “tout ou rien”).

Cependant, ces distributions tendent asymptotiquement vers des distributions normales lorsque n augmente.
7.2) Le modèle linéaire généralisé
Nelder et Wedderburn (1972) formalisent une série de théories particulières sortant du modèle linéaire général en
une seule forme commune : le modèle linéaire généralisé.

Modèle linéaire généralisé​ : hypothèses :

● relation de combinaison linéaire non plus entre entre le(s) descripteur(s) x​i et
la réponse y​i​, mais entre les descripteurs et une fonction de la réponse (g(y)).

Cette fonction est choisie de manière à pouvoir transposer η, qui est un réel

Salingros Edouard 2019 - 2020 12


non borné, au domaine de validité de µ défini par la distribution de la réponse.

Les fonctions de lien pour les distributions courantes sont :

● les réponses suivent une distribution théorique de la “famille exponentielle” dont la forme canonique est :

θ est appelé paramètre canonique et traduit la position ;


φ est le paramètre de dispersion qui traduit l’échelle.

Ces paramètres ont des expressions différentes selon la distribution :

> ​Fonction de lien​ et ​transformations de la variables​ ne sont pas équivalents.

La fonction de lien s’applique à la moyenne, tandis que la transformation de variables s’applique à toutes les
valeurs individuelles des observations. Elles ne sont pas toujours égales; en effet, si on considère le logarithme par
exemple, ​la moyenne des log ou le log de la moyenne ne sont pas égaux​.

Fonction de lien​ :
y ′ = log(y)
g (μ) = η = β.x
y = g −1 (β.x) + ε

Transformation de variable​ :
f (y) = β .x + ε
y = f −1 (β.x + ε)

La transformation de variable est biaisée car l’erreur


( ε ) est incluse dans la transformation.

Exemple : modèle y = α.x​β​.exp(γt) où on applique

a. le modèle linéaire général avec une


transformation de variable (log)

b. le modèle linéaire généralisé dont la fonction de


lien est la fonction log.

→ l’erreur du modèle ayant eu recours à la


transformation de variables est plus importante pour les
où E est l’espérance mathématique. valeurs élevées car ces erreurs ont été sujettes au
logarithme : plus la valeur est haute et moins l’erreur a de

Salingros Edouard 2019 - 2020 13


poids dans l’ajustement du modèle (dans l’espace de
réponse).

7.2.1) Critères d’ajustement du modèle


Dans le modèle linéaire général, l’ajustement est fait de sorte à minimiser l’écart entre prédiction et réponse
observée par la ​somme des carrés des écarts​.

Ce critère n’est pas valable pour le modèle linéaire généralisé car pas applicable à d’autres distributions.

Ce critère est remplacé par la ​notion de vraisemblance : la probabilité d’observer une valeur donnée de la
réponse sous des valeurs de paramètres données.

La probabilité que toutes les observations correspondent à la prédiction correspond au produit des probabilités
que chaque observation considérée individuellement corresponde à sa prédiction respective.

Afin de trouver le maximum de vraisemblance, il faut annuler la dérivée de cette expression. Puisque la dérivée
d’un produit est très complexe analytiquement, il est préférable de dériver le logarithme de ce produit (qui peut
se décomposer en somme par propriété des logarithmes).

Formellement : ​Soit une famille de distributions de probabilités dépendant d’un paramètre θ, dont les éléments
sont associés à une fonction de probabilité connue, notée fθ​ .​ On tire un échantillon de n valeurs y1, y2, ..., yn de
la distribution, et l’on calcule la densité de probabilité associée aux données observées.

L’estimateur du maximum de vraisemblance revient à fixer θ de telle façon que L(y1, ..., yi , ..., yn; θ) soit
maximal. En pratique, pour des raisons de facilité de calcul, on utilise plutôt le logarithme de cette fonction.

La ​déviance​ (D) est la ​différence de vraisemblance entre le modèle étudié et le modèle saturé​.
Elle correspond à la ​somme des carrés des écarts​ dans le modèle linéaire général.

Le ​modèle saturé​ est le modèle où chaque observation est parfaitement estimée (sans erreur).

La déviance (réduite) représente donc 2x l'écart de vraisemblance entre le modèle saturé ( ˆµ = y) et le mod`ele
test´e. Dans le cas du mod`ele lin´eaire classique, la déviance est ´égale `à la SCEr (le facteur 2 permet de faire
correspondre le R² du modèle linéaire général)

> ​Second critère plus proche de la carré des écarts résiduels​ : X² de Pearson (pas chi carré)

Sous certaines conditions et pour autant que le modèle soit ”correct”, la déviance réduite et le X² de Pearson
tendent asymptotiquement tous les deux vers une distribution χ ² avec un nombre de degrés de liberté égal à (n
− p) (n observations et p paramètres dans le modèle).

On peut donc réaliser un test de chi carré.

> ​Troisième critère : un substitut de R²​ :

Dans le modèle linéaire général, R² exprime la proportion de variance expliquée. Une expression analogue
reposant sur les déviances peut être formulée (rapport de déviance au lieu de rapport de variance) ; où ​D​null est
la déviance entre le modèle nul​.

Salingros Edouard 2019 - 2020 14


Le ​modèle nul est le modèle le moins ajusté, c’est à direle modèle où toutes les observations sont estimées par
une constante.

Naglekerke (1991) propose une expression alternative (à droite) mieux adaptée aux données non gaussiennes.

> ​Amélioration d’un modèle

Soit un modèle 2 à q paramètres inclus dans un modèle 1 à p paramètres (p > q), la différence de déviance entre
les deux modèles est alors asymptotiquement distribuée selon une χ ² à (p − q) ddl. Pour les modèles pour
lesquels φ est inconnu, on peut alternativement calculer

Modèles imbriqués : un modèle est un sous-ensemble d’un autre (nombre supérieur ou inférieur de
paramètres) ; alors la différence des déviance suit une valeur de chi carré.
7.3) Modélisation de données binomiales
Une distribution est binomiale si :
● les probabilités de succès (π​i​) sont constantes
● les m essais sont indépendants
Soit Y​i le nombre de succès sur un échantillon de m​i essais, i = 1, . . . , n ; π​i la
probabilité de succès d’un essai individuel.

Si π​i est constant et que les m​i essais sont indépendants, les propriétés ci-contre
sont applicables

La déviance s'exprime alors :

Dans le cas d’une réponse binaire, l’approximation n’est pas valide et la déviance ne constitue plus une mesure de
l’ajustement du modèle !

La probabilité de succès π ∈ [0, 1] alors que le pr´edicteur linéaire η ∈ [−∞, +∞], la fonction de lien g(π) = η doit
projeter [0, 1] sur [−∞, +∞]. g(.) peut donc être l’inverse de n’importe quelle fonction de répartition d’une variable
al´eatoire d´efinie sur [−∞, +∞].

En pratique, trois fonctions sont principalement utilisées :


● Logit ● Probit Log-log complémentaire

g −1 (.) est la fonction de r´epartition


g −1 (.) est la fonction de r´epartition de la distribution des valeurs
g −1 (.) est la fonction de répartition de la distribution normale r´eduite extrˆemes (Gumbel)
de la distribution logistique

Salingros Edouard 2019 - 2020 15


Interprétation​ : propre au lien logit, en rapport avec la théorie des
gains :

Les coefficients lin´eaires βi


expriment donc la variation de
log(odds) entraînée par une variation
unitaire des xi .

Prédiction et intervalle de confiance​ :

La réponse estimée π n’est plus distribuée normalement, on applique donc la


méthode de l’erreur standard au prédicteur linéaire η et on transforme les bornes
​ (.).
obtenues par g −1​

Dans les bioessais de toxicité, on expose un certain nombre d’organismes à


des différentes doses d’un produit et on observe la mortalité associée. Plutôt
qu’estimer la probabilité associée à une dose donnée, on s'intéresse à la
dose nécessaire pour atteindre une mortalité donnée, la dose effective.

1) prédiction dans l’espace linéaire continu 2) application de l’inverse de la


fonction de lien ?

Random forests
Arbres de décision : rappel
Les arbres de décision sont des ​algorithme récursifs : les problèmes sont résolus en calculant des solutions
d'instances plus petites du même problème.

> ​Objectif : poser des critères (noeuds) qui subdivisent une population de départ (racine) en groupes de plus en
plus homogènes. Lorsqu’un critère est ajouté au(x) précédent(s) (création de noeuds), l’algorithme passe en revue
l’ensemble des variables prédictives caractérisant les individus (les x) et crée un critère sur base de la variable
permettant d’obtenir le meilleur gain (la séparation réduisant le plus l’hétérogénéité dans les groupes obtenus).

>​ Algorithmes CART​ :


● dichotomiques​ (seulement 2 possibilités)
● questions univariées
● critère d’homogénéité :​ indice de Shannon ou de Gini​. Ces deux indices sont minimums (=1) si toute la
population est concentrée dans une seule classe.

Gain​ = (indice dans la population d’origine) – (moyenne des indices dans les deux groupes après séparation)

> ​Inconvénients des arbres de décision : plus le nombre de critères (questions) est grand, plus les groupes obtenus
sont de petite taille. Moins un groupe contient d’individu, plus la variabilité a d’influence sur les conclusions et sur
les critères suivants (on dit qu’ils deviennent “instables”, variant d’un jeu de données à un autre).

Salingros Edouard 2019 - 2020 16


→ Solution : générer de multiples arbres
en introduisant une variabilité aléatoire
dans leur création afin de considérer les
conclusions moyennes ou majoritaires
de ces arbres et ainsi tirer des
conclusions robustes.

On combine deux méthodes pour


générer de la variabilité dans les arbres
: le ​bagging et la ​sélection aléatoire
de critères​.

Random forests
Bagging
> ​Rappel préliminaire​ :

Cross-validation “classique” : on subdivise le set de données initial en 10 sous-groupes aléatoirement


dont 9 servent à la calibration (conception) du modèle tandis que le dernier sert à le valider. L’opération est
répétée 10 fois en utilisant successivement chacun des 10 groupes comme set de validation.

Boots-trap : plutôt que de subdiviser le jeu de données en 10 sous-groupes, on calibre le modèle sur base
d’un échantillon de ​n individus parmi ​n individus ​AVEC REMISE (chaque individu peut être utilisé plusieurs
fois). Les individus présents plusieurs fois ont plus de poids dans le modèle, les individus absents ont un
poids nul. Le set de données initial (complet) est utilisé pour la validation (+- 30% des individus sont
absents).

Bagging = Boots-trap aggrégating : construction de multiples modèles (multiples arbres) construits sur base d’un
sous-échantillonnage avec remise (boots-trap).

Lorsqu’on souhaite prédire la réponse d’un individu supplémentaire, on le soumet à l’ensemble des arbres et on
conserve la réponse moyenne (si la réponse est une variable continue) ou majoritaire (si la réponse est une
variable discontinue).

> ​Problème : si, lors de la création des critères, on laisse à l’algorithme le choix parmi l’ensemble des variables
prédictives, il y a de fortes chances que les arbres sélectionnent souvent les mêmes variables (celles qui sont le
splus efficaces pour distinguer des groupes homogènes). ​Les arbres obtenus ne sont donc pas indépendants​.
︿
→ La formule d’inférence de la variance de la prédiction σ y = σ x ² / B (B = nombre de modèles) n’est pas
valide.

→ La variance de la prédiction est en fait égale à : où on distingue deux termes :

● un terme dépendant de la variance de la variable prédictive, du nombre de modèles (B) et de la


corrélation entre les modèles ( ρ ).

● un terme dépendant uniquement de la corrélation entre les modèles et de la variance de la variable


prédictive.

Afin d’augmenter la précision de la prédiction, il faut minimiser cette expression en augmentant B (le
nombre de modèles) et en minimisant la corrélation entre les modèles.
Sélection de critères aléatoire
Afin de réduire la corrélation entre les modèles, on modifie la sélection des critères.

Plutôt que de laisser l’algorithme sélectionner la variable permettant le meilleur gain parmi toutes les
variables, on ne laisse à l’algorithme qu’un choix restreint de variables sélectionnées aléatoirement.
Avantages et inconvénientsdes random forests
✓ Meilleures prédictions et robustesse

Salingros Edouard 2019 - 2020 17


✓ Pas d’hypothèses liées aux distributions, aux catégories des variables...
✓ Peu de paramètres à régler
✓ Pas de sur-ajustement
✓ Multiples utilités
✓ La Random Forest continue à augmenter ses performances quand le nombre d’observations augmente,
tandis que les arbres de décision plafonnent rapidement.

✗ La simplicité et interprétabilité des arbres de décisions est perdue


✗ temps de calcul important pour de grands jeux de données
Paramètres des Randoms Forests
● Nombre d’arbres : par défaut 500. Au delà d’un certain nombre, il n’y a plus de gain de qualité de
prédiction ou robustesse.

● Taille minimale de groupe ​: pour des raisons pratiques, on peut empêcher de subdiviser un groupe
lorsque le nombre d’individus dans le groupe tombe sous un certain seuil (1 en classification, 5 en
régression).

● Nombre de variables aléatoirement proposées pour la création de chaque critère​ :


○ par défaut : √p (classification) et p/3 (prédiction) (p = nombre total de variables prédictives)
○ dépend des variables : si peu de prédicteurs sont déterminants, il vaut mieux augmenter le choix
(pour augmenter la probabilité de proposer au moins un prédicteur déterminant) ; et
inversement, si beaucoup de prédicteurs sont déterminants ou ont la même importance, il vaut
mieux réduire le choix pour réduire la corrélation entre les arbres.
Autres utilités des random forests
> ​Rappels​ :
Le taux d’erreur est la proportion de nouvelles observations attribuées à tord à un groupe.
Taux d’erreur optimal : obtenu si toutes les hypothèses /
conditions d’application sont parfaitement respectées.

Ce taux d’erreur correspond à l’aire sous les deux


courbes représentant la densité de probabilité.

Taux d’erreur réel (Actual error rate) : taux d’erreur


observé en assignant un nombre fini de nouveaux
individus dans le modèle fixé préalablement.

Taux d’erreur attendu (Expected actual error rate) : valeur moyenne vers laquelle tend le taux d’erreur lorsque
le nombre d’observations tend vers l’infini.

> ​Taux d’erreur “Out-of-bag” : taux d’erreur réel obtenu sur les individus exclus du set de calibration par le
bootstraping. Chaque arbre présente un taux d’erreur “out-of-bag”, la moyenne de ce taux d’erreur au niveau de
la random forest est un taux d’erreur attendu peu biaisé.

> ​Sélection de variables​ :


Dans un arbre classique, les variables les plus déterminantes sont sélectionnées pour les premiers critères.
Si on brouille successivement chaque variable une à une (c’est à dire qu’on élimine son pouvoir explicatif en
réattribuant au hasard les valeurs aux individus), on observe une perte de performance (augmentation du
taux d’erreur “out-of-bag” de l’arbre (et de la random forest) qui informe sur l’importance de la variable
randomisée.

Autrement dit, cette méthode permet une sélection de variables (applicable préalablement à d’autres
méthodes de régression).

Une autre méthode plus rapide consiste à calculer le gain moyen des critères où chaque variable est utilisée.

Algorithmes plus complexe :

○ VarSelRF : classement les variables par ordre d’importance et élimination des x% les moins
déterminant. On réitère jusqu’à ce qu’il ne reste que trop peu de variables. à chaque itération, le taux
d’erreur “out-of-bag” est calculé, de sort à sélectionner le nombre optimal de variables à conserver.

Salingros Edouard 2019 - 2020 18


○ VSURF​ : 3 étapes :
1. classement les variables par ordre d’importance et élimination des x% les moins déterminant.
2. sélection “forward” de prédicteurs sur base du taux d’erreur “out-of-bag” (interrétation)
3. conservation des variables dont le taux d’erreur “out-of-bag” est au dessus d’un seuil.

> ​Mesure de proximité entre deux individus​:

En soumettant deux individus à une random forest et en observant la proportion d’arbres triant les deux
individus dans le même groupe, on peut obtenir une mesure de similitude (différente de la distance
euclidienne ou de Mahalanobis).

On peut procéder de cette façon pour détecter des outliers ou procéder au clustering.

De même, pour des valeurs manquantes, une matrice de distance peut être obtenue et les valeurs
manquantes remplacées par la médiane, la moyenne...

Analyse discriminante
Pre-processing - nettoyage des données
En spectrométrie infrarouge, des informations “physiques” polluent l’information physique : la lumière peut être
réfléchie/réfractée différemment selon la forme, la texture...

Le prétraitement vise à éliminer ces informations physiques sans altérer l’information chimique.

Overlapping : molécules parasites (eau) ont des bandes qui recouvrent des bandes plus petites.

● Correction de la diffusion / réfraction de lumière : ● Baseline-correction


○ MSC ● normalization
○ EMSC ● detrend
● SNV ● Use of reference values
● Dérivation ○ O-PLS
○ Norris & Williams ○ OSC
○ Savitsky & Golay ○ OS

Standard Normal Variate (SNV)


SNV est utilisé pour corriger les effets d’interférences multiplicatives dues à la dispersion de lumière, à la taille
de sparticules...

La SNV standardise chaque spectre (chaque observation) individuellement, sur bases de sa propre moyenne et
son propre écart-type (pas sur base de la moyenne de tous les spectres)

Dérivées
Les dérivées sont utilisées pour réduire l’effet de l’overlapping ou du bruit de fond. Dans un spectre brut, de fines
différences de pentes sont difficiles à détecter. La dérivation permet de séparer les signaux et les intensifier.

La dérivée seconde est plus facile à interprêter car les pics sont aussi marqués par des pics, tandis qu’en
dérivée première, chaque pic est un passage de la courbeà zéro.

À chaque changement de pente dan sle spectre brut correspond un signal différent (pas forcément visible).
données brutes dérivées première dérivée seconde

Salingros Edouard 2019 - 2020 19


8-9 signaux max 12-13 signaux > 13 signaux étectés

Dériver des spectres augmente aussi le bruit. C’est pourquoi un lissage peut aussi être effectué pour faciliter la
lisibilité.

> ​Méthode de lissage Savitzky-Golay

Une fenêtre glissante passe sur le spectre, à chaque déplacement, un polynôme est ajusté à la courbe par la
méthode des moindres carrés. La dérivée de ce polynôme est calculé en le point central de la fenêtre sur base
de l’expression du polynôme plutôt que par différence avec le point suivant, réduisant l’augmentation du bruit.

Paramètres à régler :
● taille de la fenêtre (taille impaire car dérivée au point central) : plus la fenêtre est grande et plus on perd
de la résolution (de l’information)
● degré du polynôme : 2 généralement
● dérivée calculée : première, seconde... pas plus car sinon on amplifie les erreurs aléatoires

Méthodes d’analyse discriminantes supervisées / clustering


La RMSEP quantifie l’erreur de façon continue, pour des variables quantitatives, elle n’est pas adaptée pour
quantifier l’erreur de prédiction de variables catégorielles.

> ​Ratios calculés à partir de la matrice de confusion​ :


● Justesse (correct classification rate) : nombre d’individus bien classés / nombre d’individus mal classés
(toutes classes)

● Sensibilité (pour une classe A) : nombre d’individus A correctement identifiés comme A / nombre total
d’individus A (= 1 - erreur de première espèce (alpha) ​= taux de vrais positifs = )

● Spécificité : nombre d’individus différents de A correctement identifiés comme étant différents / nombre
total d’individus (= 1- erreur de seconde espèce (beta) = ​taux de vrais négatifs​)

Salingros Edouard 2019 - 2020 20


> ​Modes de classification​ :

● discrimination : l’algorithme sépare l’ensemble de l’espace en zones appartenant à une et une seule
classe. Une nouvelle observation sera attribuée obligatoirement à une et une seule classe.

● modélisation de classes : Sur base de la densité des points, une zone est calculée autour du nuage
d’observations de la classe. Ces zones peuvent se chevaucher et elles ne couvrent pas l’ensemble de
l’espace. Une nouvelle observation peut donc appartenir à plusieurs ou aucune classe.

> ​Types de modèles de prédiction​ :

● Probabiliste​ : modèle basé sur l’estimation des distributions des classes dans l’espace (dist; Mahalanobis)
● basé sur la distance​ ​euclidienne

● basé sur l’expérience

Soft, Independant, modelling of Class Analogies (SIMCA)


● Soft​ : pas d’hypothèses sur la distribution des variables
● Independant​ : chaque classe est modélisée indépendamment des autres
● Modelling of Class Analogies​ : l’algorithme se concentre sur la similitude entre individus de même classe
plutôt qu’entre des différences entre classes.

L’algorithme exécute une PCA sur chaque classe, considérée indépendamment des autres. L’origine du repère
en composante principale coïncide avec le centroïde de la classe.

Les ​limites de chaque classe sont construites autour du


modèle PCA et sont calculées sur base de la distribution des
distances euclidiennes entre les observations et l’origine du
repère PCA de leur classe.

Ensuite, un test F permet de fixer la limite de la zone délimitant la classe .

Lorsqu’un nouvel objet doit être classé, ses coordonnées dans le repère PCA de chaque classe sont calculées et
comparées à la limite. Une observation peut donc être classée dans plusieurs ou aucune classe.

Cette méthode permet de détecter des outliers (n’appartenant à aucune classe).

Salingros Edouard 2019 - 2020 21


Partial Lean Square Discriminant Analysis (PLS-DA)

Rappel : la PLS est utile lorsque

● le nombre de variables est supérieur


au nombre d’observations (typique
en infrarouge)

● la corrélation entre les variables est


importante.

La PLS classique permet d’établir une équation


de régression à partir de prédicteurs continus et
renvoyant une réponse continue.

Afin de rendre la PLS utilisable pour la classification (c’est à dire pour que la variable prédite soit catégorielle), il
suffit d’utiliser un y binaire (0 et 1 ou -1 et 1) pour la calibration. La réponse prédite sera continue, mais plus ou
moins proche de l’une au l’autre des valeurs binaires. Il suffit alors “d’arrondir” la réponse à la valeur la plus
proche.

Une prédiction est assignée à la classe la plus proche ou en


fonction d’un seuil ajustable, dépendant des dispersions des
distributions des classes.

> ​Nombre de variables latentes à conserver : comme pour la PLS classique, on se base sur un graphique de la
RMSE en fonction du nombre de variables latentes pour sélectionner combien il faut en conserver dans le
modèle.

Les graphiques des Loadings,


Weights et des coefficients de
régression peuvent aider à
sélectionner des variables.

Lorsqu’on a plus de deux


classes, la réponse (y)
devient une matrice binaire.

Salingros Edouard 2019 - 2020 22


> ​Types de décisions de classification​ :
● stricte​ : une observation est assignée à une classe seulement si la probabilité est univoque (> 50 %).
● plus probable​ : une observation est assignée à la classe la plus probable, peu importe la probabilité
absolue

Exemples :

probabilité classe 1 probabilité classe 2 probabilité classe 3 décision stricte décision la plus
probable
0,52 0,18 30 % classe 1 classe 1
1% 2% 3% aucune classe class 3

Support Vector Machines (SVM)


Il peut exister une multitude de façons de séparer deux groupes. Le principe de base de l’algorithme SVM est de
déterminer la frontière maximisant la ​marge​, c’est à dire ​la distance entre la frontière et les points les plus
proches (distance euclidienne)​.

> ​Mathématiquement​ :

Le alpha est un terme de pénalité qui permet d’exclure les observations qui ne sont pas utiles pour calculer la
droite séparant les deux groupes. Les ​support vectors sont les points déterminant pour la maximisation de la
marge, c’est à dire les points dont le poids est non nul par l’action de la pénalité alpha.

Afin de pouvoir traiter des cas où les données ne sont pas linéairement séparables, l’algorithme SVM transforme
l'espace de représentation des données d'entrées en un espace de plus grande dimension (possiblement de
dimension infinie), dans lequel il est probable qu'il existe une séparation linéaire (un “​hyperplan​”). Ceci est
réalisé grâce à une ​fonction noyau​, qui doit respecter les conditions du théorème de Mercer, et qui a l'avantage
de ne pas nécessiter la connaissance explicite de la transformation à appliquer pour le changement

Salingros Edouard 2019 - 2020 23


d'espace​. Les fonctions noyau permettent de transformer un produit scalaire dans un espace de grande
dimension, ce qui est coûteux, en une simple évaluation ponctuelle d'une fonction. Cette technique est connue
sous le nom de kernel trick (ou astuce du noyau).

Autrement dit, on fait l’hypothèse


qu’il existe toujours un espace
de dimension supérieure dans
lequel les observations sont
séparables linéairement.
L’algorithme SVM reste donc
bien une méthode de séparation
linéaire (dans une dimension
supérieure).

Le kernel le plus utilisé est le Gaussian Radial Basis, il


est le plus général et résoud le plus de problèmes.

Cependant, il comporte un terme sigma à régler.

> ​Paramètres à déterminer​ : C et sigma

C représente le compromis entre la largeur des marges


et le nombre d’erreurs.

Sigma représente la dispersion (écart-type) de la


fonction gaussienne utilisée. Il est utilisé pour ajuster le
degré de généralisation

Plus sigma est petit, plus les frontières sont précises et


adaptées à chaque observation. Un grand sigma
revient à séparer les observations par une droite.

Exemple de variation des paramètres :

Salingros Edouard 2019 - 2020 24


> ​Classification multi classes​ :

Deux possibilités pour définir les limites :

● chaque classe vs toutes les autres confondues


● chaque classe vs chaque autre classe

Applications : reconnaissance faciale, rétinienne, empreinte digitales, catégorisation de texte...

> ​Avantages des algorithmes SVM​ :


○ Donne des modèles déterministes (reproductibles)
○ Tous les points ne contribuent pas à la solution (seuls ceux dont le multiplicateur de Lagrange est
non-nul) → Calcul plus rapide et insensibilité aux outliers

○ Moins il y a de support vectors, plus la solution obtenue est généralisable


○ Bon compromis entre minimisation de l’erreur et généralisation.
Nouvelles stratégies pour les méthodes locales
De plus en plus de données sont disponibles, on observe que la précision des modèles diminue (surajustement
?). L’industrie construit de plus en plus de modèles, pour chaque produit, chaque analyte...

Les méthodes locales consistent à récupérer les 30 - 40 spectres les plus similaires à celui du produit / de
l’analyte que l’on veut modéliser et de construire un modèle sur ceux là (et pas sur l’ensemble des spectres
disponibles pour c eproduit/cet analyte).

Avantages : réduit le nombre d’observations nécessaires, permet de rassembler des spectres de toutes origines.

Exemple : ​Windows PCA​ : Une PCA est effectuée pour chaque fenêtre glissante de ces spectres similaires.
BONUS : Receiver operating characteristic (ROC) (Wikipédia)
La fonction d’efficacité du récepteur, plus fréquemment désignée sous le terme « courbe ROC1 » (de l’anglais
receiver operating characteristic, pour « caractéristique de fonctionnement du récepteur ») dite aussi
caractéristique de performance (d'un test) ou courbe sensibilité/spécificité, est une mesure de la performance d'un
classificateur binaire, c'est-à-dire d'un système qui a pour objectif de catégoriser des éléments en deux groupes
distincts sur la base d'une ou plusieurs des caractéristiques de chacun de ces éléments. Graphiquement, on
représente souvent la mesure ROC sous la forme d'une courbe qui donne le taux de vrais positifs (fraction des
positifs qui sont effectivement détectés) en fonction du taux de faux positifs (fraction des négatifs qui sont
incorrectement détectés).

Elles sont souvent utilisées en statistiques pour montrer les progrès réalisés grâce à un classificateur binaire
lorsque le seuil de discrimination varie. Si le modèle calcule un score s qui est comparé au seuil S pour prédire la
classe (c.-à-d. (s < S) → positif et (s ≥ S) → négatif), et qu’on compare ensuite avec les classes réelles (Positif et
Négatif), la sensibilité est donnée par la fraction des Positifs classés positifs, et l’antispécificité (1 moins la
spécificité) par la fraction des Négatifs classés positifs. On met l’antispécificité en abscisse et la sensibilité en
ordonnée pour former le diagramme ROC. Chaque valeur de S fournira un point de la courbe ROC, qui ira de (0, 0)
à (1, 1).

Salingros Edouard 2019 - 2020 25


À (0, 0) le classificateur déclare toujours 'négatif' : il n’y a aucun faux positif, mais également aucun vrai positif. Les
proportions de vrais et faux négatifs dépendent de la population sous-jacente.

À (1, 1) le classificateur déclare toujours 'positif' : il n’y a aucun vrai négatif, mais également aucun faux négatif. Les
proportions de vrais et faux positifs dépendent de la population sous-jacente.

Un classificateur aléatoire tracera une droite allant de (0, 0) à (1, 1).

À (0, 1) le classificateur n’a aucun faux positif ni aucun faux négatif, et est par conséquent parfaitement exact, ne
se trompant jamais.

À (1, 0) le classificateur n’a aucun vrai négatif ni aucun vrai positif, et est par conséquent parfaitement inexact, se
trompant toujours. Il suffit d’inverser sa prédiction pour en faire un classificateur parfaitement exact.

Systèmes neuronaux
Introduction
Imite le fonctionnement du cerveau : à chaque noeud, renvoi d’un signal binaire (0 ou 1).
> Inconvénients :
● très consommateur de puissance de calcul
● modèle peu / pas interprétable
● réglage complexe des paramètres

On ne parle plus de calibration mais d’apprentissage. Les réseaux neuronaux sont une méthode supervisée de
classification ou prédiction.
Architecture d’un perceptron à une couche intermédiaire

Salingros Edouard 2019 - 2020 26


Les variables ​quantitatives sont représentées par un ​noeud
unique​.

Les variables ​qualitatives (catégorielles) sont représentées par


plusieurs noeuds (​un noeud par catégorie / niveau de la
variable​).

Input​ : variables fournies au modèle (x)

Hidden layer​ : noeuds intermédiaires

Output layer​ : unique si variable quantitative, multiple si réponse


catégorielle.

Le nombre de couches cachées peut augmenter ; cependant, cela rend l’interprétation plus difficile.

Unité = Noeud​ (synonymes)

À chaque lien entre deux noeuds est attribué un ​poids reflétant l’importance du noeud source pour l’activation du
noeud de destination. Au départ, ces poids sont fixés aléatoirement et sont ajustés par l’algorithme.

Un noeud indépendant des couches précédentes est ajouté à chaque couche pour représenter l’ordonné à
l’origine (de chaque couche).

Les variables doivent impérativement être standardisées​ (sinon, l’échelle affecte l’importance des variables).

> ​Fonctionnement​ :
● fonction de combinaison : détermine l’input d’un noeud ; la plus courante est
la simple combinaison linéaire des poids multipliés par l’output des noeuds
source.

● fonction de transfert (ou d’activation) (g) : détermine l’output, qui prend la


forme d’une probabilité (valeur entre 0 et 1). La plus standard : fonction
logistique (intérieur de g)

La fonction logistique présente l’intérêt d’avoir un comportement quasi-linéaire au voisinage de 0 (lorsque le poids
des noeuds est petit), et non linéaire aux extrémités ce qui permet de modéliser des phénomènes linéaires et non
linéaires. La prise en compte des relations non linéaires entre les variables est un gros atout des réseaux de
neurones. D’autres fonctions de transfert peuvent également être utilisées comme par exemple la fonction tangente
hyperbolique

> ​Notation​ :
- a​ : noeud Exemple chiffré :
- indice​ : index au sein de la couche
- exposant​ : numéro de la couche
- poids​ : theta

> Architecture : l’architecture est à optimiser pour chaque problème :

Salingros Edouard 2019 - 2020 27


● nombre de couches cachées
● nombre de noeuds sur les couches cachées
● fonction de transfert : logit ou autre
● fonction de combinaison : combinaison linéaire ou autre

L’enjeu de l’algorithme est de définir les poids​ (​matrice des poids​) ; il existe plusieurs manières de le faire.

Si le réseau a 𝑠​𝑗 unités dans la couche j et 𝑠​𝑗​+1 ⁡unités dans la couche j+1, alors la matrice 𝜃 a la dimension
𝑠​𝑗​+1⁡.𝑥(𝑠​𝑗​+1).

> ​Back-propagation of error-gradient (gradient descent)​ :

L’algorithme de rétropropagation du gradient de l’erreur [back-propagation] est le plus ancien algorithme. Il est basé
sur la minimisation de l’erreur de prédiction de manière similaire à la méthode des moindres carrés vu
précédemment. L’estimation des poids est basée la méthode itérative du gradient vue précédemment.

Initialement, on attribue des poids aléatoirement. Puis, par itération, l’algorithme ajuste les valeurs des poids par
calcul de dérivée (pente).

Inconvénient : possibilité de minimum locaux ; ​le résultat obtenu dépend fortement des valeurs aléatoires
attribuées au départ​ (seed) et du set d’apprentissage.

Learning rate​ : le pas doit être variable, car si trop grand, on peut ne pas trouver le minimum correct.

Moment : sauvegarde des itérations précédentes pour conserver la meilleure. Le moment doit être étendu lorsque
le pas est réduit.

> Résumé des étapes de développement d’un système neuronal :


1. Identification des variables d’input et output → détermination du nombre de noeuds d’input et output
2. Standardisation des données (inclus dans l’algorithme souvent)
3. Apprentissage / optimisation du nombre de noeuds sur la couche cachée
4. Test sur un jeu de données indépendant (inclus dans les algorithme dans la cross-validation)
5. transformation de l’output pour revenir à l’échelle initiale

→ Très gourmand en observations / set d’apprentissage

Attention, R demande un nombre de noeud sans les intercept (package RSNNS et carret)

Par défaut, le modèle donne la classe avec la probabilité maximale parmi toutes, même si elle est basse !!!!! →
fixer soi même le seuil de probabilité pour l’attribution.

juste en changeant les set seeds; on a de bons et de mauvais modèles (à partir du même jeu de données) :
l’algorithme est sensible aux paramètres de départs fixés aléatoirement → faire de multiples tentatives.

Avantages : s’il y a de nouvelles données, on repart des poids précédents et on les met à jour, on ne doit pas
refaire tourner le modèle de zéro. (​On de doit donc pas conserver les données précédentes​) → l’amélioration
du modèle par de nouvelles observation est plus rapide

> ​Méthodes pour obtenir des modèles robustes


● cross-validation
● fixer la racine (set seed) → toujours démarrer du même point → plus comparable

Moins on a de noeuds, moins il y a de chances d’overfitting → principe de parcimonie

→ on peut introduire une pénalité pour le nombre des poids (donc le nombre de noeuds) (decay)

Salingros Edouard 2019 - 2020 28


→ Mettre une pénalité augmente l’accuracy. Decay de 0,01 augmente la précision pour un nombre de noeuds
inférieur.

R : donne la valeur après 100 itérations pour chaque poids. Le nombre d’itérations doit être suffisant pour que le R²
et sa SD soient stables.

Les réseau de neurones ont l’intérêt de pouvoir utiliser des variables qualitatives et quantitatives dans le
même modèle.
Radial Basis Function Network
Les réseaux peuvent utiliser une ​Radial Basis Function en tant que fonction d’activation. Ils ont pour principe le
placement des noeuds dans l’espace des observations et les calculs de distance entre les observations et les
noeuds.

Ce type de réseau ne comporte qu’une seule couche cachée.

Exemple : soient 4 noeuds placés dans un espace à


deux dimensions (deux variables explicatives) et 2
classes : rouge (0) et vert (1). Il est impossible de
séparer les deux catégories linéairement. La réponse est une probabilité, dans ce cas au dessous
ou au dessous de zéro.
Cette configuration représente le test logique “XOR” qui
renvoie “vrai” (1) seulement si l’une ou l’autre condition
est respectée et “faux” si aucune ou les deux conditions
sont respectées.

Dans cette situation, on tente de catégoriser des observations décrites par des variables continues (x1 et x2) selon
le test logique XOR.

Les modèles Radial Basis Function comportent deux paramètres​ :


● le nombre de noeuds (ou centres) (et leur position)
● les “distances” (ou rayons) de prises en considération des noeuds.

La distanceest utilisée comme fonction d’activation (distance radiale gaussienne) :

Salingros Edouard 2019 - 2020 29


Dans cette situation, les rayons sont trop courts, aucune Dans cette situation, les noeuds sont assez grands
observation n’est incluse dans les rayons pour couvrir toutes les observations, cependant,
certaines observations sont comprises dans deux
rayons à la fois. Ces observations seront attribuées au
noeud le plus proche.
L’intensité de l’activation d’un centre est proportionelle à la proximité avec l’observation.

Objectif : couvrir l’espace et l’ensemble des observations avec le moins d’overlapping possible. Les centres
peuvent soit être placés par l’utilisateur soit aléatoirement de façon mobile.

● random
● centres mobiles : nombre de cercles adaptés à la densité

but : rayon permettat la plus grande différence entre les réponses, en couvrant tous les points

Salingros Edouard 2019 - 2020 30


Converge plus vite, mais complexe à implémenter

comparaison perceptron et radial basis

Salingros Edouard 2019 - 2020 31


Validation croisée permet d’optimiser

● le nombre de couches
● le nombre d’itérations ​nécessaires à l'estimation des poids du réseau neuronal
● le nombre de noeuds du réseau neuronal
● le degré de pénalité L2

La validation ne permet pas d’obtenir un réseau “unique”. En effet, le réseau est fort dépendant des données et de
la manière dont les poids sont initialisés. Par conséquent, plusieurs modèles différents peuvent donner des
performances similaires. Vu que la validation croisée va construire un modèle à chaque tour, beaucoup de modèles
différents seront élaborés.

Colinéarité
Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du
modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut
augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Les
conséquences de coefficients instables peuvent être les suivantes :

Salingros Edouard 2019 - 2020 32


● Les coefficients peuvent sembler non significatifs, même lorsqu'une relation significative existe entre le
prédicteur et la réponse.

● Les coefficients de prédicteurs fortement corrélés varieront considérablement d'un échantillon à un autre.

● Lorsque des termes d'un modèle sont fortement corrélés, la suppression de l'un de ces termes aura une
incidence considérable sur les coefficients estimés des autres. Les coefficients des termes fortement
corrélés peuvent même présenter le mauvais signe.

Some Problems with R-squared
In my last post, I showed how R-squared cannot determine whether the coefficient estimates and predictions are
biased, which is why you must assess the residual plots. However, R-squared has additional problems that the
adjusted R-squared and predicted R-squared are designed to address.

Problem 1: Every time you add a predictor to a model, the R-squared increases, even if due to chance alone. It
never decreases. Consequently, a model with more terms may appear to have a better fit simply because it has
more terms.

Problem 2: If a model has too many predictors and higher order polynomials, it begins to model the random noise in
the data. This condition is known as overfitting the model and it produces misleadingly high R-squared values and a
lessened ability to make predictions.

The adjusted R-squared compares the explanatory power of regression models that contain different numbers of
predictors.

Suppose you compare a five-predictor model with a higher R-squared to a one-predictor model. Does the five
predictor model have a higher R-squared because it’s better? Or is the R-squared higher because it has more
predictors? Simply compare the adjusted R-squared values to find out!

The adjusted R-squared is a modified version of R-squared that has been adjusted for the number of predictors in
the model. The adjusted R-squared increases only if the new term improves the model more than would be
expected by chance. It decreases when a predictor improves the model by less than expected by chance. The
adjusted R-squared can be negative, but it’s usually not. It is always lower than the R-squared.

The predicted R-squared indicates how well a regression model predicts responses for new observations. This
statistic helps you determine when the model fits the original data but is less capable of providing valid predictions
for new observations. (Read an example of using regression to make predictions.)

Minitab calculates predicted R-squared by systematically removing each observation from the data set, estimating
the regression equation, and determining how well the model predicts the removed observation. Like adjusted
R-squared, predicted R-squared can be negative and it is always lower than R-squared.

Even if you don’t plan to use the model for predictions, the predicted R-squared still provides crucial information.

A key benefit of predicted R-squared is that it can prevent you from overfitting a model. As mentioned earlier, an
overfit model contains too many predictors and it starts to model the random noise.

Because it is impossible to predict random noise, the predicted R-squared must drop for an overfit model. If you see
a predicted R-squared that is much lower than the regular R-squared, you almost certainly have too many terms in
the model.

What's the difference between multiple R and R squared?


There are several definitions of R2 that are only sometimes equivalent. One class of such cases includes that of
simple linear regression where r2 is used instead of R2. When an intercept is included, then r2 is simply the square
of the sample correlation coefficient (i.e., r) between the observed outcomes and the observed predictor values.[4]
If additional regressors are included, R2 is the square of the coefficient of multiple correlation. In both such cases,
the coefficient of determination normally ranges from 0 to 1.

Capital R2 (as opposed to r2) should generally be the multiple R2 in a multiple regression model. In bivariate linear
regression, there is no multiple R, and R2=r2. So one difference is applicability: "multiple R" implies multiple
regressors, whereas "R2" doesn't necessarily.

Another simple difference is interpretation. In multiple regression, the multiple R is the coefficient of multiple

Salingros Edouard 2019 - 2020 33


correlation, whereas its square is the coefficient of determination. R can be interpreted somewhat like a bivariate
correlation coefficient, the main difference being that the multiple correlation is between the dependent variable and
a linear combination of the predictors, not just any one of them, and not just the average of those bivariate
correlations. R2 can be interpreted as the percentage of variance in the dependent variable that can be explained
by the predictors; as above, this is also true if there is only one predictor.

Un R² négatif signifie que le modèle estime moins bien la réponse que la moyenne de la variable à
prédire, c’est à dire lorsque la somme des carrés des écarts du modèle (SSE) est supérieure à la somme
des carrés des écarts entre les points et la moyenne des points (TSS)1,2.

1
​[Link]
2
​[Link]
Salingros Edouard 2019 - 2020 34

Vous aimerez peut-être aussi