Data Mining et Machine Learning
Data Mining et Machine Learning
1) Introduction 2
1.1) Exploration de données (Knowledge Discovery in Data Base, (KDD)) 2
3) Régression linéaire 5
3.1) Régression linéaire univariée 5
3.2) Régression linéaire multiple 6
3.3) Sélection de variables : Ridge et Lasso 7
3.3.1) Régression de Ridge 7
3.3.2) Régression de Lasso 7
3.3.3) Régression Elastic Net 7
3.4) Régression polynomiale 8
4) Validation 8
4.1) Le rôle de la validation 8
4.2) Nombre idéal d’observations du set de calibrage : 8
4.3) Nombre idéal de variables du modèle : 8
4.4) Méthodes de validation 8
6.1) Algorithme NIPALS 10
6.2) Pouvoir explicatif et prédictif des variables latentes 11
6.3) Penalized PLS 11
Random forests 16
Arbres de décision : rappel 16
Random forests 17
Bagging 17
Sélection de critères aléatoire 17
Avantages et inconvénientsdes random forests 17
Paramètres des Randoms Forests 18
Autres utilités des random forests 18
Analyse discriminante 19
Pre-processing - nettoyage des données 19
Standard Normal Variate (SNV) 19
Dérivées 19
Méthodes d’analyse discriminantes supervisées / clustering 20
Soft, Independant, modelling of Class Analogies (SIMCA) 21
Partial Lean Square Discriminant Analysis (PLS-DA) 22
Support Vector Machines (SVM) 23
Nouvelles stratégies pour les méthodes locales 25
BONUS : Receiver operating characteristic (ROC) (Wikipédia) 25
Systèmes neuronaux 26
1) Introduction
Dans l’ère du Big Data, d’énormes quantités de données sont disponibles pour la création d’outils prédictifs
complexes. La puissance informatique disponible permet d’utiliser ces immenses quantités de données.
Le Data Mining est la science qui s’applique à extraire des conclusions et des informations utiles de ces amats de
données.
Tom Mitchell définit le Machine Learning « A computer program is said to learn from experience E with respect to
some task T and some performance measure P, if its performance on T, as measured by P, improves with experience
E.”.
Le Machine Learning est une approche du Data Mining par laquelle un algorithme auto-évolutif est utilisé pour extraire
de l’information.
La chimiométrie est une discipline dans laquelle on conçoit des modèles permettant de prédire les teneurs en
substances chimiques à partir de mesurées indirectes fortement corrélées.
Initialement, le Data Mining et le Machine Learning ont été développés dans les secteurs du marketing, de la finance,
et des assurances ; mais l’outil s’est établi dans d’autres domaines (Smart cities, Smart Health, Smart Farming, Smart
Mobility...).
1.1) Exploration de données (Knowledge Discovery in Data Base, (KDD))
➢ La démarche de Data Mining repose sur une démarche générale :
0. Définition de l’objectif de l’étude, de la population cible et de l’unité statistique;
1. Sélection les variables : certaines variables peuvent se révéler inutilisables à cause, par exemple, de leur
faible fiabilité ou encore de leur taux trop élevé de données manquantes. La connaissance du domaine de
l’étude ou une discussion avec des experts pour cet étape est cruciale afin d’isoler au mieux les variables
qui seront vraisemblablement les plus pertinentes.
4. Calibration : définir des règles pour la recherche de la relation entre les variables explicatives et la ou les
variables à expliquer.
5. Validation : le modèle est validé à l’aide d’un jeu de données indépendant et complet (variables
explicatives et à expliquer) de celui ayant servi à la conception du modèle.
○ continues
○ discontinues
Un même caractère peut être considérés de plusieurs façons. Par exemple, on peut considérer une couleur comme
● qualitative nominale si la couleur n’est pas un témoin d’intensité (ex : couleurs des voitures) ;
● qualitatif ordinal si la couleur est témoin d’intensité (ex : état de mûrissement, échelle entre vert et rouge) ;
● quantitative si on peut directement mesurer la longueur d’onde de la lumière émise par l’objet.
2.2) Vérification de la qualité des données
Sur base des statistiques descriptives de chaque variable, il est possible de
détecter des comportements anormaux. Une représentation en boxplot des
statistiques descriptives est aussi une indication visuelle supplémentaire.
Les segments (whisker) ne peuvent dépasser 1,5 fois l’écart interquartile. Les
observations en dehors des segments sont représentées par des astérisques
et sont considérées comme exceptionnelles. La représentation donne des
informations concernant l’ordre de grandeur des données (par la médiane), la
dispersion des données (par l’écart interquartile et par l’amplitude), la
symétrie de la distribution (par la position de la médiane par rapport aux
quartiles q1 et q3 et par les longueurs relatives des deux segments) et la
présence de données exceptionnelles (par les astérisques).
➢ Valeurs aberrantes :
Une valeur aberrante est une valeur erronée causée par un mauvais encodage, une mauvaise mesure, une
erreur de calcul ou autre. Les valeurs extrêmes (outliers) ne sont pas aberrantes si aucune erreur ou
perturbation n’en est la cause.
➢ Colinéarité :
Les variables fortement corrélées sont considérées comme colinéaires à l’erreur près. Pour certaine méthode, les
variables colinéaires ne peuvent pas coexister dans un modèle. Il faudra alors décider quelle variable éliminer (voir
plus loin).
➢ Redimensionnement :
Certaines méthodes sont sensibles à l’échelle. Il est donc préférable de redimensionner les variables afin qu’elles
soient homogènes et que leur importance dans le modèle ne dépende plus de leur échelle. Il existe deux type de
redimensionnements :
3) Régression linéaire
3.1) Régression linéaire univariée
Régression linéaire univariée : 1 variable explicative (x), 1
variable à expliquer (y), un coefficient de régression (b) et une
ordonnée à l’origine (a).
Le coefficient de régression (ou de détermination) (r²) quantifie la part de SCEy expliquée par le modèle.
L’écart-type résiduel (root mean square error, (RMSE)), est la racine carrée de la variance résiduelle (MSE). Il
s’exprime dans les mêmes unités que la variable y. L’écart-type résiduel (RMSE) est égal à l’écart-type marginal
de y (sy) si la corrélation (r) de x et y est nulle. Le RMSE est nul si la corrélation est parfaite (r = ±1); tous les
points sont alors situés sur une droite et toute la variabilité de y s’explique par la variable x.
La RMSE est l’erreur qui sera directement affectée à une prédiction. Ex. 300g +- 15g.
On appelle surajustement (overfitting) la modélisation trop parfaite d’un jeu de donnée par l’utilisation abusive de
variables. Un modèle surajusté peut être non adaptée pour un autre jeu de donnée car il prédit aussi une erreur
dont la nature réelle est aléatoire (qui ne peut donc pas être prédit avec fiabilité).
Comme indiqué ci-dessus, la résolution analytique permettant de trouver les coefficients 𝛽 fait appel à
l’inversion de matrice. L’inversion requiert un déterminant non nul, ce qui n’est pas le cas s’il y a
colinéarité.
L’approche la plus simple, pour des variables quantitatives, consiste à conserver les variables au plus haut
coefficient de corrélation. Cependant, il est très probable que ces variables soient aussi corrélées entre-elles, ce
qui pose le problème de la colinéarité entre les variables.
Une seconde approche, plus lourde, pour les variables qualitatives, consiste à effectuer des analyses de la
variance (ANOVA) à un ou plusieurs critères de classification.
Une troisième approche consiste à sélectionner les variables selon une approche plus algorithmique : méthodes de
sélection Forward, Backward et Stepwise. Cependant, leur temps de calcul devient très important lorsque le
nombre de variables augmente.
Une prescription générale est qu’il est préférable de disposer au minimum de dix fois plus d’observations que de
variable.
L’élimination d’une variable modifie parfois fortement les coefficients de régression des variables restantes, ce qui
pose un problème pour leur interprétation et leur signification dans la réalité.
Les méthodes de Ridge et Lasso consistent à ajouter un terme de pénalité dans la fonction de coût. L’introduction
de cette pénalité tend à minimiser les coefficients de régression. Les modèles créés de cette façon sont moins
sujets au surajustement et sont donc souvent mieux adaptés à d’autres jeux de données (meilleure validation).
3.3.1) Régression de Ridge
Le terme de pénalité introduit par la méthode de Ridge contient la somme des paramètres de régressions au
carré, multiplié par un coefficient de régulation ( λ ). Cette pénalité porte le nom de régulation L2.
L’algorithme de Lasso réduit les coefficients à 0 directement. Cela implique que des variables prédictives seront
complètement mises à l’écart par cet algorithme. C’est donc une forme de sélection de variables automatique.
Cependant, si 2 variables sont corrélées, l’algorithme en choisira qu’une entraînant potentiellement une
mauvaise interprétation. Le risque majeur avec la régression Lasso est de sous-ajuster le modèle finale. Un bon
réglage du paramètre de régulation est donc nécessaire.
➢ Ridge ou Lasso ? Si le modèle attendu a de nombreux effets d’impact faible ou modéré, on préfèrera la
régression Ridge. Si on a quelques variables prédictives et des effets modérés à fort, on préfèrera la régression
Lasso.
3.3.3) Régression Elastic Net
La régression Elastic Net est un intermédiaire où l’on peut décider de la proportion de Ridge et de Lasso.
La standardisation des données est ici très importante vu les différentes échelles créés par les exposants utilisés.
De nouvelles variables explicatives peuvent aussi être créées en combinant des variables explicatives entre elles.
4) Validation
4.1) Le rôle de la validation
La validation des modèles permet de vérifier :
1. que ceux-ci ne sont pas sur-ajustés (càd qu’ils n’expliquent pas de variabilité spécifique au jeu de données
et non reproduite par d’autres données indépendantes)
Les observations utilisées pour la conception du modèle et pour la validation doivent être :
● aussi variables et représentatives que possible, afin que le modèle soit adapté à toutes les situations
auxquelles il doit pouvoir faire face ;
● aussi indépendantes que possible. Le modèle sera plus robuste en mesurant à des moments, des lieux et
sur des individus différents et indépendants. Récolter des échantillons sur le long terme permet donc
souvent d’obtenir un modèle plus robuste.
4.2) Nombre idéal d’observations du set de calibrage :
Un set de calibration petit a plus de chance d’avoir une
faible erreur car il a moins de chance d’être représentatif
de la variabilité réelle de la population. L’erreur de
validation a donc de grande chance d’être élevée.
Les variables fortement corrélées entre-elles sont un inconvénient car elles partagent un grande partie de
l’information qu’elles expliquent. L’ajout d’une variable corrélée à une autre n’ajoute donc que peu d’information au
modèle. Il est nécessaire de les écarter afin d’éviter le surajustement et faciliter l’interprétabilité du modèle.
La PCA permet de créer des variables synthétiques (composantes principales, z) qui sont combinaisons linéaires des
variables initiales mais indépendantes entre-elles. Les composantes principales sont utilisées pour la régression, puis
on peut retraduire le modèle créé à partir de la PCA en modèle dont les paramètres sont les variables initiales.
> Inconvénients de la PCR : l’inconvénient principal réside dans la décomposition effectuée pour diminuer la
dimensionnalité de la matrice X. En effet, celle-ci se base sur la variabilité de X et non celle de y qui est pourtant celle
qui nous intéresse le plus dans le cas d’une régression.
● GH < 3 : le point n’est pas un outlier, il s’inscrit dans la variabilité des autres observations.
● GH > 5 : le point est très probablement un outlier : mieux vaut l’exclure du modèle dans un premier temps et
l’ajouter après.
ATTENTION 1 : un point outlier peut soit être réellement anormal, soit être tout à fait valide et témoigner d’une
variabilité peu fréquente. La décision d’inclure ou non ce point dans le set de calibration doit être fondée sur
la comparaison de la performance du modèle face à un set de validation (R² de validation et RMSEP).
Un outlier peut révéler une erreur d’échantillonnage ou un échantillonnage lacunaire qui ne tient pas assez en
compte une certaine source de variabilité.
ATTENTION 2 : il se peut que si on procède à des observations supplémentaires, le/les outliers ne soient plus
des outliers.
Cette méthode est largement utilisée en chimiométrie notamment dans le traitement de données spectroscopiques et
chromatographiques utilisées en chimie, cosmétique, biologie... Elle a été créée en 1983 par Wold et al. à partir de
l’algorithme « Non linear Iterative Partial Least Square » (NIPALS).
6. Les résidus sont considérés de la même façon que les variables x et y à l’étape 1 ; la seconde variable
latente est calculée sur base de ces résidus et ainsi de suite.
7. On peut ensuite réexprimer les variables latentes par des variables x non standardisées pour
l’interprétation.
Les variables latentes sont conservées tant que Q² > 0.0975 (= 1 - 0,95²)
En analyse en composantes principales, l’interprétation des composantes principales est simplifiée par le fait que
les corrélations entre variables et les composantes principales sont proportionnelles aux coefficients des variables
dans la construction des composantes principales. Ce n’est pas le cas en PLS. L’interprétation univariée c.-à-d. le
lien entre chacune des variables latentes et les variables initiales conduit à calculer les corrélations entre les
variables x et y et les composantes t.
L’interprétation multivariée tenant compte de la combinaison des variables latentes entre elles est plus complexe
que dans le cadre de la régression sur composantes principales vu que les variables latentes autre que la première
variables sont définies sur les résidus et donc pas sur les variables initiales. C’est pourquoi dans le cadre de la
régression PLS, l’interprétation multivariée est basée sur les coefficients w permettant de construire les
composantes t à partir des variables x et y. Les poids w traduisent l’importance de chaque variable x dans la
construction de t.
Pouvoir prédictif : la valeur du GH peut être utilisée pour estimer si une observation supplémentaire sera bien
prédite par le modèle ou non :
Autre paramètre intéressant : RPD = SD/RMSEP compare l’erreur à la variabilité des données du jeu de données
RPD > 2 : assez bon
6.3) Penalized PLS
Comme vu précédemment dans le cas de la régression linéaire, une augmentation du nombre de
composantes/facteurs/variables peut diminuer la robustesse du modèle. Dans le cadre de la PLS, il est aussi
possible d’introduire un facteur pénalisant le nombre de composantes latentes utilisé dans le modèle. Cette
Observations :
○ nombre de pieds d’asphodèle par mètre carré
○ nombre de cas favorables ou défavorables ; nombre de morts/survivants ; nombre d’individus dans
chacune des deux branches d’un olfactomètre sur l’effectif initialement introduit.
● dans le cas binomial, la distribution est bornée au nombre d’individus testés (n) (si on teste la mortalité
sur 10 individus, la valeur maximale observée du nombre de morts ou de survivants est 10).
● les valeurs prises par la réponse est nécessairement entière, tandis qu’une distribution normale est
continue.
● de POISSON (pour les dénombrements) dont la variance est égale à la variance, ce qui constitue une
violation de la troisième hypothèse de variance constante du modèle linéaire général.
Cependant, ces distributions tendent asymptotiquement vers des distributions normales lorsque n augmente.
7.2) Le modèle linéaire généralisé
Nelder et Wedderburn (1972) formalisent une série de théories particulières sortant du modèle linéaire général en
une seule forme commune : le modèle linéaire généralisé.
● relation de combinaison linéaire non plus entre entre le(s) descripteur(s) xi et
la réponse yi, mais entre les descripteurs et une fonction de la réponse (g(y)).
Cette fonction est choisie de manière à pouvoir transposer η, qui est un réel
● les réponses suivent une distribution théorique de la “famille exponentielle” dont la forme canonique est :
La fonction de lien s’applique à la moyenne, tandis que la transformation de variables s’applique à toutes les
valeurs individuelles des observations. Elles ne sont pas toujours égales; en effet, si on considère le logarithme par
exemple, la moyenne des log ou le log de la moyenne ne sont pas égaux.
Fonction de lien :
y ′ = log(y)
g (μ) = η = β.x
y = g −1 (β.x) + ε
Transformation de variable :
f (y) = β .x + ε
y = f −1 (β.x + ε)
Ce critère n’est pas valable pour le modèle linéaire généralisé car pas applicable à d’autres distributions.
Ce critère est remplacé par la notion de vraisemblance : la probabilité d’observer une valeur donnée de la
réponse sous des valeurs de paramètres données.
La probabilité que toutes les observations correspondent à la prédiction correspond au produit des probabilités
que chaque observation considérée individuellement corresponde à sa prédiction respective.
Afin de trouver le maximum de vraisemblance, il faut annuler la dérivée de cette expression. Puisque la dérivée
d’un produit est très complexe analytiquement, il est préférable de dériver le logarithme de ce produit (qui peut
se décomposer en somme par propriété des logarithmes).
Formellement : Soit une famille de distributions de probabilités dépendant d’un paramètre θ, dont les éléments
sont associés à une fonction de probabilité connue, notée fθ . On tire un échantillon de n valeurs y1, y2, ..., yn de
la distribution, et l’on calcule la densité de probabilité associée aux données observées.
L’estimateur du maximum de vraisemblance revient à fixer θ de telle façon que L(y1, ..., yi , ..., yn; θ) soit
maximal. En pratique, pour des raisons de facilité de calcul, on utilise plutôt le logarithme de cette fonction.
La déviance (D) est la différence de vraisemblance entre le modèle étudié et le modèle saturé.
Elle correspond à la somme des carrés des écarts dans le modèle linéaire général.
Le modèle saturé est le modèle où chaque observation est parfaitement estimée (sans erreur).
La déviance (réduite) représente donc 2x l'écart de vraisemblance entre le modèle saturé ( ˆµ = y) et le mod`ele
test´e. Dans le cas du mod`ele lin´eaire classique, la déviance est ´égale `à la SCEr (le facteur 2 permet de faire
correspondre le R² du modèle linéaire général)
> Second critère plus proche de la carré des écarts résiduels : X² de Pearson (pas chi carré)
Sous certaines conditions et pour autant que le modèle soit ”correct”, la déviance réduite et le X² de Pearson
tendent asymptotiquement tous les deux vers une distribution χ ² avec un nombre de degrés de liberté égal à (n
− p) (n observations et p paramètres dans le modèle).
Dans le modèle linéaire général, R² exprime la proportion de variance expliquée. Une expression analogue
reposant sur les déviances peut être formulée (rapport de déviance au lieu de rapport de variance) ; où Dnull est
la déviance entre le modèle nul.
Naglekerke (1991) propose une expression alternative (à droite) mieux adaptée aux données non gaussiennes.
Soit un modèle 2 à q paramètres inclus dans un modèle 1 à p paramètres (p > q), la différence de déviance entre
les deux modèles est alors asymptotiquement distribuée selon une χ ² à (p − q) ddl. Pour les modèles pour
lesquels φ est inconnu, on peut alternativement calculer
Modèles imbriqués : un modèle est un sous-ensemble d’un autre (nombre supérieur ou inférieur de
paramètres) ; alors la différence des déviance suit une valeur de chi carré.
7.3) Modélisation de données binomiales
Une distribution est binomiale si :
● les probabilités de succès (πi) sont constantes
● les m essais sont indépendants
Soit Yi le nombre de succès sur un échantillon de mi essais, i = 1, . . . , n ; πi la
probabilité de succès d’un essai individuel.
Si πi est constant et que les mi essais sont indépendants, les propriétés ci-contre
sont applicables
où
Dans le cas d’une réponse binaire, l’approximation n’est pas valide et la déviance ne constitue plus une mesure de
l’ajustement du modèle !
La probabilité de succès π ∈ [0, 1] alors que le pr´edicteur linéaire η ∈ [−∞, +∞], la fonction de lien g(π) = η doit
projeter [0, 1] sur [−∞, +∞]. g(.) peut donc être l’inverse de n’importe quelle fonction de répartition d’une variable
al´eatoire d´efinie sur [−∞, +∞].
Random forests
Arbres de décision : rappel
Les arbres de décision sont des algorithme récursifs : les problèmes sont résolus en calculant des solutions
d'instances plus petites du même problème.
> Objectif : poser des critères (noeuds) qui subdivisent une population de départ (racine) en groupes de plus en
plus homogènes. Lorsqu’un critère est ajouté au(x) précédent(s) (création de noeuds), l’algorithme passe en revue
l’ensemble des variables prédictives caractérisant les individus (les x) et crée un critère sur base de la variable
permettant d’obtenir le meilleur gain (la séparation réduisant le plus l’hétérogénéité dans les groupes obtenus).
Gain = (indice dans la population d’origine) – (moyenne des indices dans les deux groupes après séparation)
> Inconvénients des arbres de décision : plus le nombre de critères (questions) est grand, plus les groupes obtenus
sont de petite taille. Moins un groupe contient d’individu, plus la variabilité a d’influence sur les conclusions et sur
les critères suivants (on dit qu’ils deviennent “instables”, variant d’un jeu de données à un autre).
Random forests
Bagging
> Rappel préliminaire :
Boots-trap : plutôt que de subdiviser le jeu de données en 10 sous-groupes, on calibre le modèle sur base
d’un échantillon de n individus parmi n individus AVEC REMISE (chaque individu peut être utilisé plusieurs
fois). Les individus présents plusieurs fois ont plus de poids dans le modèle, les individus absents ont un
poids nul. Le set de données initial (complet) est utilisé pour la validation (+- 30% des individus sont
absents).
Bagging = Boots-trap aggrégating : construction de multiples modèles (multiples arbres) construits sur base d’un
sous-échantillonnage avec remise (boots-trap).
Lorsqu’on souhaite prédire la réponse d’un individu supplémentaire, on le soumet à l’ensemble des arbres et on
conserve la réponse moyenne (si la réponse est une variable continue) ou majoritaire (si la réponse est une
variable discontinue).
> Problème : si, lors de la création des critères, on laisse à l’algorithme le choix parmi l’ensemble des variables
prédictives, il y a de fortes chances que les arbres sélectionnent souvent les mêmes variables (celles qui sont le
splus efficaces pour distinguer des groupes homogènes). Les arbres obtenus ne sont donc pas indépendants.
︿
→ La formule d’inférence de la variance de la prédiction σ y = σ x ² / B (B = nombre de modèles) n’est pas
valide.
Afin d’augmenter la précision de la prédiction, il faut minimiser cette expression en augmentant B (le
nombre de modèles) et en minimisant la corrélation entre les modèles.
Sélection de critères aléatoire
Afin de réduire la corrélation entre les modèles, on modifie la sélection des critères.
Plutôt que de laisser l’algorithme sélectionner la variable permettant le meilleur gain parmi toutes les
variables, on ne laisse à l’algorithme qu’un choix restreint de variables sélectionnées aléatoirement.
Avantages et inconvénientsdes random forests
✓ Meilleures prédictions et robustesse
● Taille minimale de groupe : pour des raisons pratiques, on peut empêcher de subdiviser un groupe
lorsque le nombre d’individus dans le groupe tombe sous un certain seuil (1 en classification, 5 en
régression).
Taux d’erreur attendu (Expected actual error rate) : valeur moyenne vers laquelle tend le taux d’erreur lorsque
le nombre d’observations tend vers l’infini.
> Taux d’erreur “Out-of-bag” : taux d’erreur réel obtenu sur les individus exclus du set de calibration par le
bootstraping. Chaque arbre présente un taux d’erreur “out-of-bag”, la moyenne de ce taux d’erreur au niveau de
la random forest est un taux d’erreur attendu peu biaisé.
Autrement dit, cette méthode permet une sélection de variables (applicable préalablement à d’autres
méthodes de régression).
Une autre méthode plus rapide consiste à calculer le gain moyen des critères où chaque variable est utilisée.
○ VarSelRF : classement les variables par ordre d’importance et élimination des x% les moins
déterminant. On réitère jusqu’à ce qu’il ne reste que trop peu de variables. à chaque itération, le taux
d’erreur “out-of-bag” est calculé, de sort à sélectionner le nombre optimal de variables à conserver.
En soumettant deux individus à une random forest et en observant la proportion d’arbres triant les deux
individus dans le même groupe, on peut obtenir une mesure de similitude (différente de la distance
euclidienne ou de Mahalanobis).
On peut procéder de cette façon pour détecter des outliers ou procéder au clustering.
De même, pour des valeurs manquantes, une matrice de distance peut être obtenue et les valeurs
manquantes remplacées par la médiane, la moyenne...
Analyse discriminante
Pre-processing - nettoyage des données
En spectrométrie infrarouge, des informations “physiques” polluent l’information physique : la lumière peut être
réfléchie/réfractée différemment selon la forme, la texture...
Le prétraitement vise à éliminer ces informations physiques sans altérer l’information chimique.
Overlapping : molécules parasites (eau) ont des bandes qui recouvrent des bandes plus petites.
La SNV standardise chaque spectre (chaque observation) individuellement, sur bases de sa propre moyenne et
son propre écart-type (pas sur base de la moyenne de tous les spectres)
Dérivées
Les dérivées sont utilisées pour réduire l’effet de l’overlapping ou du bruit de fond. Dans un spectre brut, de fines
différences de pentes sont difficiles à détecter. La dérivation permet de séparer les signaux et les intensifier.
La dérivée seconde est plus facile à interprêter car les pics sont aussi marqués par des pics, tandis qu’en
dérivée première, chaque pic est un passage de la courbeà zéro.
À chaque changement de pente dan sle spectre brut correspond un signal différent (pas forcément visible).
données brutes dérivées première dérivée seconde
Dériver des spectres augmente aussi le bruit. C’est pourquoi un lissage peut aussi être effectué pour faciliter la
lisibilité.
Une fenêtre glissante passe sur le spectre, à chaque déplacement, un polynôme est ajusté à la courbe par la
méthode des moindres carrés. La dérivée de ce polynôme est calculé en le point central de la fenêtre sur base
de l’expression du polynôme plutôt que par différence avec le point suivant, réduisant l’augmentation du bruit.
Paramètres à régler :
● taille de la fenêtre (taille impaire car dérivée au point central) : plus la fenêtre est grande et plus on perd
de la résolution (de l’information)
● degré du polynôme : 2 généralement
● dérivée calculée : première, seconde... pas plus car sinon on amplifie les erreurs aléatoires
● Sensibilité (pour une classe A) : nombre d’individus A correctement identifiés comme A / nombre total
d’individus A (= 1 - erreur de première espèce (alpha) = taux de vrais positifs = )
● Spécificité : nombre d’individus différents de A correctement identifiés comme étant différents / nombre
total d’individus (= 1- erreur de seconde espèce (beta) = taux de vrais négatifs)
● discrimination : l’algorithme sépare l’ensemble de l’espace en zones appartenant à une et une seule
classe. Une nouvelle observation sera attribuée obligatoirement à une et une seule classe.
● modélisation de classes : Sur base de la densité des points, une zone est calculée autour du nuage
d’observations de la classe. Ces zones peuvent se chevaucher et elles ne couvrent pas l’ensemble de
l’espace. Une nouvelle observation peut donc appartenir à plusieurs ou aucune classe.
● Probabiliste : modèle basé sur l’estimation des distributions des classes dans l’espace (dist; Mahalanobis)
● basé sur la distance euclidienne
L’algorithme exécute une PCA sur chaque classe, considérée indépendamment des autres. L’origine du repère
en composante principale coïncide avec le centroïde de la classe.
Lorsqu’un nouvel objet doit être classé, ses coordonnées dans le repère PCA de chaque classe sont calculées et
comparées à la limite. Une observation peut donc être classée dans plusieurs ou aucune classe.
Afin de rendre la PLS utilisable pour la classification (c’est à dire pour que la variable prédite soit catégorielle), il
suffit d’utiliser un y binaire (0 et 1 ou -1 et 1) pour la calibration. La réponse prédite sera continue, mais plus ou
moins proche de l’une au l’autre des valeurs binaires. Il suffit alors “d’arrondir” la réponse à la valeur la plus
proche.
> Nombre de variables latentes à conserver : comme pour la PLS classique, on se base sur un graphique de la
RMSE en fonction du nombre de variables latentes pour sélectionner combien il faut en conserver dans le
modèle.
Exemples :
probabilité classe 1 probabilité classe 2 probabilité classe 3 décision stricte décision la plus
probable
0,52 0,18 30 % classe 1 classe 1
1% 2% 3% aucune classe class 3
> Mathématiquement :
Le alpha est un terme de pénalité qui permet d’exclure les observations qui ne sont pas utiles pour calculer la
droite séparant les deux groupes. Les support vectors sont les points déterminant pour la maximisation de la
marge, c’est à dire les points dont le poids est non nul par l’action de la pénalité alpha.
Afin de pouvoir traiter des cas où les données ne sont pas linéairement séparables, l’algorithme SVM transforme
l'espace de représentation des données d'entrées en un espace de plus grande dimension (possiblement de
dimension infinie), dans lequel il est probable qu'il existe une séparation linéaire (un “hyperplan”). Ceci est
réalisé grâce à une fonction noyau, qui doit respecter les conditions du théorème de Mercer, et qui a l'avantage
de ne pas nécessiter la connaissance explicite de la transformation à appliquer pour le changement
Les méthodes locales consistent à récupérer les 30 - 40 spectres les plus similaires à celui du produit / de
l’analyte que l’on veut modéliser et de construire un modèle sur ceux là (et pas sur l’ensemble des spectres
disponibles pour c eproduit/cet analyte).
Avantages : réduit le nombre d’observations nécessaires, permet de rassembler des spectres de toutes origines.
Exemple : Windows PCA : Une PCA est effectuée pour chaque fenêtre glissante de ces spectres similaires.
BONUS : Receiver operating characteristic (ROC) (Wikipédia)
La fonction d’efficacité du récepteur, plus fréquemment désignée sous le terme « courbe ROC1 » (de l’anglais
receiver operating characteristic, pour « caractéristique de fonctionnement du récepteur ») dite aussi
caractéristique de performance (d'un test) ou courbe sensibilité/spécificité, est une mesure de la performance d'un
classificateur binaire, c'est-à-dire d'un système qui a pour objectif de catégoriser des éléments en deux groupes
distincts sur la base d'une ou plusieurs des caractéristiques de chacun de ces éléments. Graphiquement, on
représente souvent la mesure ROC sous la forme d'une courbe qui donne le taux de vrais positifs (fraction des
positifs qui sont effectivement détectés) en fonction du taux de faux positifs (fraction des négatifs qui sont
incorrectement détectés).
Elles sont souvent utilisées en statistiques pour montrer les progrès réalisés grâce à un classificateur binaire
lorsque le seuil de discrimination varie. Si le modèle calcule un score s qui est comparé au seuil S pour prédire la
classe (c.-à-d. (s < S) → positif et (s ≥ S) → négatif), et qu’on compare ensuite avec les classes réelles (Positif et
Négatif), la sensibilité est donnée par la fraction des Positifs classés positifs, et l’antispécificité (1 moins la
spécificité) par la fraction des Négatifs classés positifs. On met l’antispécificité en abscisse et la sensibilité en
ordonnée pour former le diagramme ROC. Chaque valeur de S fournira un point de la courbe ROC, qui ira de (0, 0)
à (1, 1).
À (1, 1) le classificateur déclare toujours 'positif' : il n’y a aucun vrai négatif, mais également aucun faux négatif. Les
proportions de vrais et faux positifs dépendent de la population sous-jacente.
À (0, 1) le classificateur n’a aucun faux positif ni aucun faux négatif, et est par conséquent parfaitement exact, ne
se trompant jamais.
À (1, 0) le classificateur n’a aucun vrai négatif ni aucun vrai positif, et est par conséquent parfaitement inexact, se
trompant toujours. Il suffit d’inverser sa prédiction pour en faire un classificateur parfaitement exact.
Systèmes neuronaux
Introduction
Imite le fonctionnement du cerveau : à chaque noeud, renvoi d’un signal binaire (0 ou 1).
> Inconvénients :
● très consommateur de puissance de calcul
● modèle peu / pas interprétable
● réglage complexe des paramètres
On ne parle plus de calibration mais d’apprentissage. Les réseaux neuronaux sont une méthode supervisée de
classification ou prédiction.
Architecture d’un perceptron à une couche intermédiaire
Le nombre de couches cachées peut augmenter ; cependant, cela rend l’interprétation plus difficile.
À chaque lien entre deux noeuds est attribué un poids reflétant l’importance du noeud source pour l’activation du
noeud de destination. Au départ, ces poids sont fixés aléatoirement et sont ajustés par l’algorithme.
Un noeud indépendant des couches précédentes est ajouté à chaque couche pour représenter l’ordonné à
l’origine (de chaque couche).
Les variables doivent impérativement être standardisées (sinon, l’échelle affecte l’importance des variables).
> Fonctionnement :
● fonction de combinaison : détermine l’input d’un noeud ; la plus courante est
la simple combinaison linéaire des poids multipliés par l’output des noeuds
source.
La fonction logistique présente l’intérêt d’avoir un comportement quasi-linéaire au voisinage de 0 (lorsque le poids
des noeuds est petit), et non linéaire aux extrémités ce qui permet de modéliser des phénomènes linéaires et non
linéaires. La prise en compte des relations non linéaires entre les variables est un gros atout des réseaux de
neurones. D’autres fonctions de transfert peuvent également être utilisées comme par exemple la fonction tangente
hyperbolique
> Notation :
- a : noeud Exemple chiffré :
- indice : index au sein de la couche
- exposant : numéro de la couche
- poids : theta
L’enjeu de l’algorithme est de définir les poids (matrice des poids) ; il existe plusieurs manières de le faire.
Si le réseau a 𝑠𝑗 unités dans la couche j et 𝑠𝑗+1 unités dans la couche j+1, alors la matrice 𝜃 a la dimension
𝑠𝑗+1.𝑥(𝑠𝑗+1).
L’algorithme de rétropropagation du gradient de l’erreur [back-propagation] est le plus ancien algorithme. Il est basé
sur la minimisation de l’erreur de prédiction de manière similaire à la méthode des moindres carrés vu
précédemment. L’estimation des poids est basée la méthode itérative du gradient vue précédemment.
Initialement, on attribue des poids aléatoirement. Puis, par itération, l’algorithme ajuste les valeurs des poids par
calcul de dérivée (pente).
Inconvénient : possibilité de minimum locaux ; le résultat obtenu dépend fortement des valeurs aléatoires
attribuées au départ (seed) et du set d’apprentissage.
Learning rate : le pas doit être variable, car si trop grand, on peut ne pas trouver le minimum correct.
Moment : sauvegarde des itérations précédentes pour conserver la meilleure. Le moment doit être étendu lorsque
le pas est réduit.
Attention, R demande un nombre de noeud sans les intercept (package RSNNS et carret)
Par défaut, le modèle donne la classe avec la probabilité maximale parmi toutes, même si elle est basse !!!!! →
fixer soi même le seuil de probabilité pour l’attribution.
juste en changeant les set seeds; on a de bons et de mauvais modèles (à partir du même jeu de données) :
l’algorithme est sensible aux paramètres de départs fixés aléatoirement → faire de multiples tentatives.
Avantages : s’il y a de nouvelles données, on repart des poids précédents et on les met à jour, on ne doit pas
refaire tourner le modèle de zéro. (On de doit donc pas conserver les données précédentes) → l’amélioration
du modèle par de nouvelles observation est plus rapide
→ on peut introduire une pénalité pour le nombre des poids (donc le nombre de noeuds) (decay)
R : donne la valeur après 100 itérations pour chaque poids. Le nombre d’itérations doit être suffisant pour que le R²
et sa SD soient stables.
Les réseau de neurones ont l’intérêt de pouvoir utiliser des variables qualitatives et quantitatives dans le
même modèle.
Radial Basis Function Network
Les réseaux peuvent utiliser une Radial Basis Function en tant que fonction d’activation. Ils ont pour principe le
placement des noeuds dans l’espace des observations et les calculs de distance entre les observations et les
noeuds.
Dans cette situation, on tente de catégoriser des observations décrites par des variables continues (x1 et x2) selon
le test logique XOR.
Objectif : couvrir l’espace et l’ensemble des observations avec le moins d’overlapping possible. Les centres
peuvent soit être placés par l’utilisateur soit aléatoirement de façon mobile.
● random
● centres mobiles : nombre de cercles adaptés à la densité
but : rayon permettat la plus grande différence entre les réponses, en couvrant tous les points
● le nombre de couches
● le nombre d’itérations nécessaires à l'estimation des poids du réseau neuronal
● le nombre de noeuds du réseau neuronal
● le degré de pénalité L2
La validation ne permet pas d’obtenir un réseau “unique”. En effet, le réseau est fort dépendant des données et de
la manière dont les poids sont initialisés. Par conséquent, plusieurs modèles différents peuvent donner des
performances similaires. Vu que la validation croisée va construire un modèle à chaque tour, beaucoup de modèles
différents seront élaborés.
Colinéarité
Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du
modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut
augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Les
conséquences de coefficients instables peuvent être les suivantes :
● Les coefficients de prédicteurs fortement corrélés varieront considérablement d'un échantillon à un autre.
● Lorsque des termes d'un modèle sont fortement corrélés, la suppression de l'un de ces termes aura une
incidence considérable sur les coefficients estimés des autres. Les coefficients des termes fortement
corrélés peuvent même présenter le mauvais signe.
R²
Some Problems with R-squared
In my last post, I showed how R-squared cannot determine whether the coefficient estimates and predictions are
biased, which is why you must assess the residual plots. However, R-squared has additional problems that the
adjusted R-squared and predicted R-squared are designed to address.
Problem 1: Every time you add a predictor to a model, the R-squared increases, even if due to chance alone. It
never decreases. Consequently, a model with more terms may appear to have a better fit simply because it has
more terms.
Problem 2: If a model has too many predictors and higher order polynomials, it begins to model the random noise in
the data. This condition is known as overfitting the model and it produces misleadingly high R-squared values and a
lessened ability to make predictions.
The adjusted R-squared compares the explanatory power of regression models that contain different numbers of
predictors.
Suppose you compare a five-predictor model with a higher R-squared to a one-predictor model. Does the five
predictor model have a higher R-squared because it’s better? Or is the R-squared higher because it has more
predictors? Simply compare the adjusted R-squared values to find out!
The adjusted R-squared is a modified version of R-squared that has been adjusted for the number of predictors in
the model. The adjusted R-squared increases only if the new term improves the model more than would be
expected by chance. It decreases when a predictor improves the model by less than expected by chance. The
adjusted R-squared can be negative, but it’s usually not. It is always lower than the R-squared.
The predicted R-squared indicates how well a regression model predicts responses for new observations. This
statistic helps you determine when the model fits the original data but is less capable of providing valid predictions
for new observations. (Read an example of using regression to make predictions.)
Minitab calculates predicted R-squared by systematically removing each observation from the data set, estimating
the regression equation, and determining how well the model predicts the removed observation. Like adjusted
R-squared, predicted R-squared can be negative and it is always lower than R-squared.
Even if you don’t plan to use the model for predictions, the predicted R-squared still provides crucial information.
A key benefit of predicted R-squared is that it can prevent you from overfitting a model. As mentioned earlier, an
overfit model contains too many predictors and it starts to model the random noise.
Because it is impossible to predict random noise, the predicted R-squared must drop for an overfit model. If you see
a predicted R-squared that is much lower than the regular R-squared, you almost certainly have too many terms in
the model.
Capital R2 (as opposed to r2) should generally be the multiple R2 in a multiple regression model. In bivariate linear
regression, there is no multiple R, and R2=r2. So one difference is applicability: "multiple R" implies multiple
regressors, whereas "R2" doesn't necessarily.
Another simple difference is interpretation. In multiple regression, the multiple R is the coefficient of multiple
Un R² négatif signifie que le modèle estime moins bien la réponse que la moyenne de la variable à
prédire, c’est à dire lorsque la somme des carrés des écarts du modèle (SSE) est supérieure à la somme
des carrés des écarts entre les points et la moyenne des points (TSS)1,2.
1
[Link]
2
[Link]
Salingros Edouard 2019 - 2020 34