Machine Learning: Concepts Clés
Machine Learning: Concepts Clés
3. De prendre des décisions ou de faire des prédictions basées sur ce qu’il a appris.
En résumé : Le ML construit un modèle basé sur des données existantes pour prédire ou automatiser des
décisions.
Le processus d’apprentissage consiste à entraîner un modèle avec des données d’entraînement pour
identifier des motifs ou relations.
Les données doivent contenir des informations pertinentes pour le problème à résoudre.
♦ Prédiction avec le modèle :
Une fois construit, le modèle peut être utilisé pour prédire ou classer de nouvelles données inconnues.
La qualité des prédictions dépend de la pertinence des données utilisées pour l’entraînement et de
l’algorithme choisi.
3. Étapes principales du Machine Learning :
1. Collecte et préparation des données :
Nettoyage des données (suppression des doublons, gestion des valeurs manquantes).
3. Choix de l’algorithme :
Dépend du type de problème (régression, classification, clustering).
4. Entraînement :
Le modèle apprend en ajustant ses paramètres pour minimiser une erreur ou maximiser une précision.
5. Évaluation :
Mesure de la performance à l’aide de métriques comme la précision, le rappel, le F1-score ou l’erreur quadratique moyenne.
6. Prédiction :
Utilisation du modèle pour effectuer des prédictions sur de nouvelles données.
Conclusion :
Variables (colonnes) : Représentent les caractéristiques ou mesures collectées sur chaque échantillon.
Par exemple, dans un spectre, chaque échantillon est mesuré à plusieurs longueurs d’onde, et ces
longueurs d’onde forment les variables du spectre.
Exemple 2 : Dans le cas d’une chromatographie, les données peuvent être représentées soit sous forme de
chromatogrammes (variation du signal au fil du temps), soit sous forme de données intégrées, où l’aire sous
chaque pic est utilisée comme variable.
La structure des données a un impact significatif sur les méthodes de prétraitement et les modèles
d’analyse à utiliser. Voici quelques éléments à considérer :
Normalisation des variables : Les données peuvent avoir des échelles très différentes, et il est souvent
nécessaire de les normaliser pour éviter que certaines variables dominent l’analyse.
Suppression du bruit : Certaines données peuvent contenir un bruit important (par exemple, dans des
mesures spectroscopiques), et des méthodes comme le lissage ou la réduction du bruit sont essentielles
pour améliorer la qualité des données.
2. Modèles d’Analyse :
Modèles multivariés comme l’ACP (Analyse en Composantes Principales) ou la régression PLS (Partial Least
Squares) peuvent être utilisés pour explorer les relations entre les variables et prédire des résultats.
Des modèles comme les réseaux de neurones ou les machines à vecteurs de support (SVM) peuvent être
utilisés selon la complexité des données et les objectifs d’analyse.
• Choisir les bonnes méthodes de prétraitement, par exemple, en ajustant les techniques de normalisation
en fonction de la manière dont les variables sont mesurées et de leur relation.
• Déterminer les modèles appropriés, sachant que différents types de données peuvent nécessiter des
algorithmes différents pour obtenir des résultats fiables.
Les données spectroscopiques peuvent être représentées par des spectres où chaque échantillon possède
une mesure pour chaque longueur d’onde.
Le prétraitement des spectres pourrait inclure la normalisation, l’élimination du bruit de fond, et la gestion
des pics aberrants.
Dans le cas des chromatogrammes, les mesures sont souvent des variations du signal au fil du temps, et
l’aire sous chaque pic peut être utilisée comme une variable.
• Le prétraitement pourrait inclure l’intégration des pics, le lissage des chromatogrammes, et l’alignement
des données temporelles.
Conclusion :
Prétraitement / Normalisation
Dans le cas des données univariées continues, les colonnes sont indépendantes dans le sens où chaque
mesure est considérée comme étant une entité distincte. Le prétraitement se concentrera donc sur chaque
variable individuellement, et des méthodes comme la normalisation ou la standardisation peuvent être
appliquées.
En spectroscopie, les mesures sont prises à différentes longueurs d’onde ou fréquences. Par exemple, dans
la spectroscopie proche infrarouge (NIR), chaque spectre est constitué d’un ensemble de mesures
(intensité) à différentes longueurs d’onde.
✓ Données spectroscopiques :
▫ Un échantillon peut être mesuré à plusieurs longueurs d’onde, créant ainsi une matrice où
chaque colonne représente une longueur d’onde, et chaque ligne représente un
échantillon.
▫ Ces données ont une corrélation forte entre les variables (par exemple, la mesure à la
longueur d’onde 1 est liée à celle de la longueur d’onde 2), car les spectres sont continus et
chaque longueur d’onde mesure une propriété physique qui varie de manière cohérente
avec les autres.
✓ Prétraitement / Normalisation :
En raison de la dépendance entre les colonnes, le prétraitement doit tenir compte de cette corrélation entre
les variables. Des techniques telles que l’alignement des spectres, la normalisation, et l’élimination du
bruit doivent être appliquées pour préserver la continuité des variables.
Chromatographie :
Dans la chromatographie, les données sont souvent présentées sous forme de chromatogrammes qui
mesurent le temps de rétention ou l’intensité du signal à différentes étapes de l’analyse. Ici aussi, les
données sont multivariées, mais les types de problèmes liés aux mesures diffèrent.
✓ Données chromatographiques :
Les chromatogrammes sont souvent organisés avec le temps en abscisse et l’intensité en ordonnée.
Plusieurs échantillons peuvent être mesurés et leurs chromatogrammes comparés pour identifier les
substances présentes.
✓ Problèmes typiques :
• Dérives de la ligne de base : Cela peut affecter les mesures et nécessite un lissage ou un ajustement de la
baseline avant analyse.
• Mésalignement des pics : Cela peut être causé par des variations dans le temps de rétention ou des
différences entre les échantillons, nécessitant une alignement des pics.
• Normalisation par des pics standards : Pour compenser les variations dans les échantillons, des
techniques de normalisation peuvent être nécessaires pour comparer les intensités entre les échantillons.
Comparaison entre Spectroscopie et Chromatographie :
✓ Similarité dans la structure des données :
• Dans les deux cas, les données peuvent être organisées sous forme de matrices
multivariées où chaque échantillon est représenté par plusieurs mesures
(longueurs d’onde en spectroscopie, temps de rétention en chromatographie).
Ici, les données peuvent être obtenues sous forme de matrices où chaque point de la matrice représente
une mesure de spectre d’émission à différentes longueurs d’onde d’excitation. La matrice
résultantepeut etre tridimensionnelle, où une dimension représente les longueurs d’onde d’excitation,
une autre représente les longueurs d’onde d’émission, et la troisième peut représenter différents
échantillons.
2. Images à canal unique :
Les images prises par un capteur à un seul canal (par exemple, une image en noir et blanc) peuvent être vues
comme des matrices de données avec des pixels qui varient en intensité, formant ainsi des matrices de
données multivariées. Dans le cas d’images multicanal, les données peuvent avoir plus de dimensions.
Prétraitement / Normalisation :
1. Dépendance entre les Dimensions :
• Contrairement aux données univariées ou multivariées simples, les données d’ordre supérieur
présentent une dépendance dans toutes les dimensions :
• Lignes et colonnes : Dépendances liées aux mesures analytiques (par exemple, spectre ou
chromatogramme).
• Ordres supérieurs : Dépendances dans la troisième (ou quatrième) dimension, comme les
variations spectrales ou les changements dans les conditions expérimentales.
2. Considérations pour le prétraitement :
• Chaque dimension doit être traitée en tenant compte des corrélations entre les variables pour
éviter de casser les relations fondamentales.
• Des techniques comme la normalisation multivariée, l’alignement spectral, et le lissage des
données doivent être appliquées tout en respectant les dépendances.
La quantité de données joue un rôle essentiel dans la construction d’un modèle fiable et représentatif.
Un nombre suffisant d’échantillons est nécessaire pour capturer la variabilité du système ou de la
population étudiée. Plus le nombre d’échantillons est élevé, plus le modèle devient robuste et capable
de généraliser ses résultats à des scénarios réels. Cependant, si l’échantillon est trop petit ou biaisé,
les conclusions tirées risquent de manquer de pertinence et de fiabilité.
2. La Qualité des Données
La qualité des données est tout aussi importante que leur quantité. Plusieurs facteurs influencent cette
qualité, notamment le bruit instrumental, qui est toujours présent mais doit être inférieur au signal
mesuré pour permettre une analyse fiable. La composition de l’échantillon peut également introduire
des interférences qui affectent le signal d’intérêt, comme des composants chimiques ou physiques non
pertinents dans la matrice d’échantillon. Par ailleurs, les conditions environnementales (température,
humidité, etc.) doivent être maîtrisées ou intégrées dans l’analyse, car elles peuvent avoir un impact
significatif sur les mesures. Enfin, les données doivent être fortement corrélées aux valeurs de
référence ou aux propriétés cibles pour garantir des résultats précis.
Les instruments doivent être surveillés pour minimiser les dérives et la variabilité.
Les méthodes doivent être ajustées pour réduire le bruit, améliorer la clarté du signal et maximiser
la pertinence des variables mesurées.
Dans les modèles de régression ou de classification, les valeurs de référence (Y) jouent
un rôle essentiel pour établir des corrélations fiables avec les données X à travers le
modèle. Avoir des données X de qualité ne suffit pas ; les valeurs de référence doivent
être rigoureusement définies et pertinentes pour l’objectif de l’expérience.
Les valeurs de référence ne sont pas exemptes d’erreurs analytiques. Il est crucial de
s’assurer que ces erreurs ne compromettent pas la fiabilité des résultats du modèle.
Pour ce faire, une procédure standard consiste à effectuer des mesures répétées sur un
même échantillon et à vérifier que la variance (ou l’écart-type de la moyenne) entre les
répétitions reste dans des limites de confiance acceptables. Ces vérifications
s’inspirent des concepts classiques de la chimie analytique.
4. Défis liés aux Valeurs de Référence
Classification
L’objectif du modèle est d’établir une relation mathématique entre les données indépendantes (matrice de dimensions ) et
une propriété mesurée (vecteur de dimension ). Cette relation peut être représentée comme suit :
y= f(X) ou équivalent y = X b + e
•b : Le vecteur de régression, qui contient les coefficients indiquant l’importance de chaque variable dans X pour
prédire y.
• e : Le vecteur des résidus (M x 1), qui représente les écarts entre les valeurs prédites par le modèle et les valeurs observées
dans y.
Ce modèle permet de capturer la corrélation entre les variables indépendantes X et la propriété dépendante y .
Ces modèles visent à analyser et identifier les schémas, points communs, et tendances présents dans
la matrice de données . L’objectif principal est de comprendre les corrélations et les différences entre
les échantillons en fonction des variables ou des groupes de variables mesurées.
Ces modèles exploratoires permettent d’évaluer la variance et les similitudes dans les données, en
mettant en évidence les corrélations entre les variables et les différences entre les échantillons. Ils
sont souvent utilisés pour visualiser et interpréter les structures complexes des données multivariées.
Les méthodes non supervisées (UM - Unsupervised Methods)
sont des techniques utilisées pour extraire des informations exploitables à partir de grands ensembles
de données brutes. Contrairement aux méthodes supervisées, où des références (valeurs cibles) sont
disponibles pour entraîner un modèle, les méthodes non supervisées n’ont pas de supervision
explicite. Cela signifie que l’information fiable est déjà présente dans les données, mais elle peut être
cachée ou noyée dans le bruit.
• Validation croisée : Il s’agit d’une technique de validation où les données d’entraînement sont
divisées en plusieurs sous-ensembles. Le modèle est entraîné sur certains sous-ensembles et testé sur
les autres. Cela permet de vérifier sa capacité à généraliser.
• Surajustement (Overfitting) : Un modèle peut très bien s’ajuster aux données d’entraînement, mais
échouer à faire de bonnes prédictions sur des données nouvelles (problème de surajustement). La
validation aide à détecter ce problème.
Conclusion :
Valider vos modèles est essentiel. Un modèle qui n’a pas été validé peut donner des résultats très
précis lors de l’entraînement, mais ne pas être capable de bien prédire de nouveaux cas. C’est la
validation qui permet de garantir que le modèle est réellement utile dans un contexte pratique, au-delà
des données sur lesquelles il a été formé.
Méth Principe Application Avantage Limites Motivatio
ode s s n:
Problème
Solution : ACP
L’ACP transforme vos variables initiales en un petit ensemble de composantes principales (CP) qui :
2. Matrice de covariance :
• Effectuer une décomposition en valeurs propres pour identifier les directions de la variance maximale
(vecteurs propres) et l’importance de chaque direction (valeurs propres).
• Transformer les données initiales en projetant sur les premières composantes principales.
• Variance expliquée : Sélectionnez les composantes qui expliquent un pourcentage élevé (80-90%) de la
variance totale.
• Scree Plot : Identifiez un “coude” où ajouter plus de composantes n’apporte qu’une amélioration
marginale.
❑ Avantages de l’ACP
2. Détection des motifs : Identifie des structures cachées dans les données.
Variables Latentes
• Ce sont des variables non observables directement dans les données brutes.
• Elles représentent des facteurs sous-jacents responsables des relations entre les variables observées.
• Exemple : En psychologie, un “niveau d’anxiété” (variable latente) pourrait expliquer des réponses similaires à plusieurs
questions d’un questionnaire.
Composantes Principales
• Les composantes principales (CP), issues de l’ACP, sont des combinaisons linéaires des variables
d’origine.
• Elles sont construites pour capturer le maximum de variance dans les données, tout en étant
indépendantes les unes des autres.
• Chaque composante principale représente une variable latente qui regroupe et explique la variabilité
entre plusieurs variables d’origine.
• Les variables observées (données d’origine) peuvent avoir une part de variance commune, souvent due à
des corrélations.
• Les variables latentes (ou CP) regroupent ces corrélations en une ou plusieurs dimensions.
2. Explication de la Variance Totale :
3. Visualisation Simplifiée :
• L’ACP réduit la complexité en vous permettant de visualiser et d’interpréter ces sources principales de
variance sur seulement 2 ou 3 dimensions.
• Elles expliquent ce qui ne peut pas être compris par des relations simples entre les variables observées.
En Résumé
• Latent Variables = Principal Components : Les variables latentes (composantes principales) synthétisent
les relations complexes en regroupant les variances corrélées.
• Variance = Information : La variance capturée par chaque composante principale explique la contribution
des différentes sources de variabilité dans les données.
Cible de l’ACP
• Simplification : Réduire le nombre de variables chimiques d’un jeu de données, en éliminant les
redondances et les corrélations.
• Latent Variables : Transformer les variables discrètes observées en variables latentes (composantes
principales), qui capturent les sources principales de variabilité.
• Détection de motifs : Identifier des patterns ou relations internes qui ne sont pas visibles directement
dans les données initiales.
• Corrélation et redondance :
• Dans de nombreux jeux de données chimiques, les variables sont souvent corrélées.
• Maximiser l’information :
• L’ACP préserve les dimensions les plus informatives en priorisant les sources de variance maximale.
l’Analyse en Composantes Principales (ACP) n’est pas une méthode de classification. Voici pourquoi et
comment cela se distingue des objectifs de l’ACP.
Ce que l’ACP ne fait pas
• L’ACP est une méthode non supervisée. Elle n’a pas d’objectif préalable de regroupement en classes ou
de prédiction basée sur des étiquettes.
• La classification nécessite des limites, des seuils ou des frontières pour assigner des observations à des
groupes spécifiques, ce qui est hors du champ de l’ACP.
• L’ACP ne “décide” pas si une observation appartient à une classe ou une autre. Elle se concentre
uniquement sur la réduction de la dimensionnalité.
• Découverte de patterns :
• L’ACP identifie des relations sous-jacentes et des modèles globaux dans les données, mais sans en
imposer d’interprétation catégorielle.
• Elle permet de détecter des groupes potentiels ou des regroupements naturels en réduisant la
complexité, mais ces groupes ne sont pas des “classes” définies.
Résumé
• L’ACP ne classe pas.
• Son rôle est de réduire la dimensionnalité et de préserver l’information sans imposer de limites, de
frontières ou de seuils.
• La classification, par contre, nécessite une supervision et a pour objectif de catégoriser les observations.
Avant d’effectuer l’ACP, les données doivent être organisées en une matrice bidimensionnelle (X)
• m lignes : Représentent les objets, les échantillons ou les observations (par ex. : des individus, des
expériences).
• n colonnes : Représentent les variables ou les valeurs expérimentales mesurées pour chaque objet.
Chaque ligne correspond à un point dans un espace n -dimensionnel, où n est le nombre de variables.
• Chaque échantillon devient un point dans cet espace, positionné selon ses coordonnées (x{i1},
x{i2}, x{i3}).
2. Chaque échantillon = un point dans l’espace n -dimensionnel
Nuage de points :
3. Normalisation (centrage)
• Cette étape est cruciale pour que l’ACP soit indépendante des valeurs absolues
des variables.
Comment ?
• PC1 : La première composante principale est la direction de la plus grande variabilité dans les
données.
• Elle maximise la variance des projections des points sur cet axe.
• Rôle :
• Capturer la direction principale dans laquelle les points sont les plus dispersés.
• Réduire la redondance des informations initiales en regroupant la variabilité sur un seul axe.
• Pourquoi orthogonale ?
• Pour s’assurer que chaque composante principale capture des aspects uniques
de la variance.
• Projection : On projette les points dans ce nouvel espace formé par PC1 et PC2
.
• Nouvel espace : Cet espace est appelé espace des composantes principales.
• Les relations entre les échantillons et les nouvelles axes ( PC1, PC2, \dots )
deviennent visibles.
1. Chaque point (échantillon) est projeté sur les nouveaux axes ( PC1, PC2 , etc.).
2. Les coordonnées des points dans cet espace représentent leurs valeurs dans les
composantes principales.
1. Les données initiales (nuage dans l’espace des variables) sont centrées.
2. Les directions principales ( PC1, PC2, \dots ) sont déterminées pour maximiser la
variance.
3. Les données sont projetées dans un espace réduit où chaque axe représente une
composante principale.
Loadings
Les loadings (ou “charges” en français) décrivent la relation entre les variables
d’origine et les nouvelles composantes principales (PCs) après l’Analyse en
Composantes Principales (ACP). Ils représentent l’importance ou la contribution de
chaque variable originale dans la formation de chaque composante principale.
Interprétation des Loadings
1. Définition :
• Chaque composante principale PC_k est une combinaison linéaire des variables
d’origine.
• Les loadings sont les coefficients dans cette combinaison. Par exemple, pour
PC_1 , les loadings indiquent comment chaque variable contribue à cette
première composante.
2. Signification géométrique :
• Les loadings peuvent être vus comme les projections des axes des variables
d’origine sur les axes des composantes principales. Ils montrent dans quelle
mesure chaque variable influence chaque composante principale.
• Un high loading pour une variable dans une composante principale signifie que
cette variable a une grande influence sur cette composante et contribue
beaucoup à la variance expliquée par cette composante.
Comment lire les Loadings dans une ACP ?
• Loadings élevés : Une variable avec un loading élevé sur une composante principale
signifie qu’elle influence fortement cette composante. Par exemple, si x_1 a un
loading élevé sur PC_1 , cela signifie que la première composante est fortement
influencée par x_1 .
• Si les loadings des variables sur les premières composantes sont très similaires,
cela suggère que ces variables sont fortement corrélées.
• Scores des échantillons : Les scores sont les coordonnées des échantillons dans le nouvel
espace formé par les composantes principales (PCs).
• Si X est la matrice des données avec M échantillons et N variables, les scores sont calculés
en projetant chaque échantillon sur les axes des composantes principales.
• Soit P la matrice des composantes principales et X_c la matrice des données centrées, les
scores sont donnés par la multiplication :
S = X_c * P
• Où :
1. Position des échantillons : Les scores représentent la position d’un échantillon dans l’espace
des composantes principales. En d’autres termes, ils montrent comment chaque échantillon est
situé par rapport aux nouveaux axes (composantes principales).
2. Distances au centre : Les scores montrent aussi à quelle distance chaque échantillon se trouve
du centre de l’espace des composantes principales (l’origine).
• Si un échantillon a un score proche de 0, cela signifie qu’il est près du centre de l’espace des
composantes principales.
• Si un échantillon a un score éloigné de 0, cela signifie qu’il est loin du centre, indiquant une
grande variabilité par rapport aux autres échantillons.
3. Propriétés géométriques :
• Echantillons proches du centre : Ces échantillons sont similaires entre eux et ont des
caractéristiques proches des autres.
• Echantillons éloignés du centre : Ces échantillons peuvent être des outliers (points aberrants),
car leur score élevé indique qu’ils sont très différents des autres échantillons en termes de
variabilité dans les nouvelles composantes principales.
Visualisation des Scores
• Graphiques de scores : Les scores sont souvent représentés dans des graphiques de projection
appelés biplots ou graphes de scores. Dans ces graphiques :
• Interprétation visuelle :
• Les échantillons proches les uns des autres (points rapprochés) indiquent qu’ils partagent des
caractéristiques similaires.
• Les échantillons éloignés les uns des autres (points écartés) montrent qu’ils sont distincts en
termes de variabilité.
Calcul de la distance par rapport au centre
La distance d’un échantillon à l’origine (barycentre) dans l’espace des composantes principales
peut être calculée comme la norme des scores. Pour un échantillon i , la distance D_i au centre est donnée
par :
Pour résumer
Comparaison entre la Matrice X de départ et la Matrice T réduite
Normalization
Pourquoi la normalisation est-elle nécessaire ?
1. Dépendance à l’échelle :
Les variables avec des valeurs élevées influencent davantage les premières
composantes principales ( PC1 , PC2 ).
2. Égalisation des poids des variables :
• Pour que chaque variable contribue équitablement à l’ACP, il est nécessaire
d’égaliser leurs poids en les ramenant à une échelle commune.
Méthodes courantes de normalisation
1. Centrage :
• Formule :
• Les données sont mises à l’échelle en divisant chaque variable par son écart
type.
• Formule :
L’ACP (Analyse en Composantes Principales) est influencée par l’échelle des données.
Pour éviter que certaines variables dominent l’analyse en raison de leur amplitude ou
de leurs unités, deux approches courantes sont utilisées : Scaling et Auto-Scaling.
Objectif : Mettre toutes les variables sur une échelle comparable sans modifier leurs
distributions relatives.
• Principe : Diviser chaque valeur de la variable par une constante (souvent sa plage ou
son maximum).
• Formule :
• L’amplitude ().
• Caractéristiques :
• Ajuste les données pour qu’elles soient dans un intervalle spécifique (e.g., [0, 1]).
• Quand l’utiliser ?
• Si vous avez des variables avec des unités différentes mais dont les valeurs
doivent garder leurs proportions relatives.
• Formule :
• Caractéristiques :
• Utile pour les variables ayant des unités différentes ou des dispersions très
différentes.
• Quand l’utiliser ?
• Lorsque vous souhaitez éviter qu’une variable domine en raison de son amplitude
ou de ses unités.
• Scaling est utile pour ramener les valeurs dans une plage donnée (par exemple, pour
visualisation ou modélisation simple).
• Auto-Scaling est essentiel pour les analyses statistiques multivariées (comme l’ACP)
car il garantit que toutes les variables contribuent de manière égale à l’analyse.