0% ont trouvé ce document utile (0 vote)
56 vues34 pages

Machine Learning: Concepts Clés

Le document traite des concepts clés du Machine Learning, notamment sa définition, les conditions préalables, et les étapes principales du processus, telles que la collecte et la préparation des données, le choix de l'algorithme, et l'évaluation des performances. Il aborde également la structure des données, en mettant l'accent sur l'importance de la compréhension des données multivariées et de leur prétraitement pour une analyse efficace, en particulier dans les domaines de la spectroscopie et de la chromatographie. Enfin, il souligne la nécessité d'adapter les méthodes de prétraitement et les modèles d'analyse en fonction de la structure et de la nature des données.

Transféré par

eiagpip
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
56 vues34 pages

Machine Learning: Concepts Clés

Le document traite des concepts clés du Machine Learning, notamment sa définition, les conditions préalables, et les étapes principales du processus, telles que la collecte et la préparation des données, le choix de l'algorithme, et l'évaluation des performances. Il aborde également la structure des données, en mettant l'accent sur l'importance de la compréhension des données multivariées et de leur prétraitement pour une analyse efficace, en particulier dans les domaines de la spectroscopie et de la chromatographie. Enfin, il souligne la nécessité d'adapter les méthodes de prétraitement et les modèles d'analyse en fonction de la structure et de la nature des données.

Transféré par

eiagpip
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Machine Learning : Concepts Clés

1. Définition du Machine Learning (ML) :

Le Machine Learning est un ensemble de méthodes qui permettent :

1. D’analyser des données.

2. D’apprendre à partir de ces données.

3. De prendre des décisions ou de faire des prédictions basées sur ce qu’il a appris.

En résumé : Le ML construit un modèle basé sur des données existantes pour prédire ou automatiser des
décisions.

2. Conditions préalables (Premises) :


♦ Apprentissage à partir des données :

Le processus d’apprentissage consiste à entraîner un modèle avec des données d’entraînement pour
identifier des motifs ou relations.

Les données doivent contenir des informations pertinentes pour le problème à résoudre.
♦ Prédiction avec le modèle :

Une fois construit, le modèle peut être utilisé pour prédire ou classer de nouvelles données inconnues.

La qualité des prédictions dépend de la pertinence des données utilisées pour l’entraînement et de
l’algorithme choisi.
3. Étapes principales du Machine Learning :
1. Collecte et préparation des données :

Nettoyage des données (suppression des doublons, gestion des valeurs manquantes).

Prétraitement (normalisation, standardisation).

2. Division des données :


Entraînement (70-80%) : Utilisé pour construire le modèle.

Test (20-30%) : Utilisé pour évaluer les performances du modèle.

3. Choix de l’algorithme :
Dépend du type de problème (régression, classification, clustering).
4. Entraînement :
Le modèle apprend en ajustant ses paramètres pour minimiser une erreur ou maximiser une précision.
5. Évaluation :
Mesure de la performance à l’aide de métriques comme la précision, le rappel, le F1-score ou l’erreur quadratique moyenne.

6. Prédiction :
Utilisation du modèle pour effectuer des prédictions sur de nouvelles données.

Conclusion :

Le Machine Learning repose sur des données pertinentes et un bon processus


d’apprentissage. Le modèle construit devient un outil puissant pour la prédiction et l’analyse,
mais il nécessite une validation rigoureuse pour garantir sa fiabilité.

Nature, Structure, and Quality of Data:

1. Structure of Data (Matrix Representation):


• Les données sont généralement organisées sous forme de matrice, où les lignes correspondent aux
échantillons (exemples ou observations), et les colonnes correspondent aux variables mesurées.

Échantillons (lignes) : Représentent différentes observations ou cas.

Variables (colonnes) : Représentent les caractéristiques ou mesures collectées sur chaque échantillon.
Par exemple, dans un spectre, chaque échantillon est mesuré à plusieurs longueurs d’onde, et ces
longueurs d’onde forment les variables du spectre.

2. Variabilité dans la Construction des Données (X) :


• Même avec des dimensions apparentes similaires, les instruments scientifiques peuvent fournir des données
structurées de manière très différente. La structure des données dépend des instruments utilisés et de la
nature de la mesure.
Exemple 1 : Un spectromètre mesure l’absorbance à plusieurs longueurs d’onde. Dans ce cas, les
échantillons sont représentés par les spectres mesurés (chaque échantillon ayant une série de mesures pour
chaque longueur d’onde).

Exemple 2 : Dans le cas d’une chromatographie, les données peuvent être représentées soit sous forme de
chromatogrammes (variation du signal au fil du temps), soit sous forme de données intégrées, où l’aire sous
chaque pic est utilisée comme variable.

3. L’impact de la Structure des Données sur l’Analyse :

La structure des données a un impact significatif sur les méthodes de prétraitement et les modèles
d’analyse à utiliser. Voici quelques éléments à considérer :

1. Prétraitement des Données :

La structure des données détermine les méthodes de prétraitement appropriées :

Normalisation des variables : Les données peuvent avoir des échelles très différentes, et il est souvent
nécessaire de les normaliser pour éviter que certaines variables dominent l’analyse.

Suppression du bruit : Certaines données peuvent contenir un bruit important (par exemple, dans des
mesures spectroscopiques), et des méthodes comme le lissage ou la réduction du bruit sont essentielles
pour améliorer la qualité des données.

2. Modèles d’Analyse :

Une fois les données préparées, la structure influence le choix du modèle :

Modèles multivariés comme l’ACP (Analyse en Composantes Principales) ou la régression PLS (Partial Least
Squares) peuvent être utilisés pour explorer les relations entre les variables et prédire des résultats.

Des modèles comme les réseaux de neurones ou les machines à vecteurs de support (SVM) peuvent être
utilisés selon la complexité des données et les objectifs d’analyse.

4. L’importance de la Compréhension de la Structure des Données :

La compréhension de la structure des données est cruciale, car elle permet :

• Choisir les bonnes méthodes de prétraitement, par exemple, en ajustant les techniques de normalisation
en fonction de la manière dont les variables sont mesurées et de leur relation.
• Déterminer les modèles appropriés, sachant que différents types de données peuvent nécessiter des
algorithmes différents pour obtenir des résultats fiables.

Exemple Pratique : Spectroscopie vs Chromatographie


1. Spectroscopie (Données à N Variables) :

Les données spectroscopiques peuvent être représentées par des spectres où chaque échantillon possède
une mesure pour chaque longueur d’onde.

Le prétraitement des spectres pourrait inclure la normalisation, l’élimination du bruit de fond, et la gestion
des pics aberrants.

2. Chromatographie (Données de Variation de Pic) :

Dans le cas des chromatogrammes, les mesures sont souvent des variations du signal au fil du temps, et
l’aire sous chaque pic peut être utilisée comme une variable.
• Le prétraitement pourrait inclure l’intégration des pics, le lissage des chromatogrammes, et l’alignement
des données temporelles.

Conclusion :

La structure des données, qu’elles proviennent de spectroscopie, de chromatographie ou d’autres


instruments, joue un rôle clé dans la manière dont elles doivent être préparées et analysées. Comprendre
cette structure permet de choisir les bonnes techniques de prétraitement et les modèles adaptés pour
extraire des informations pertinentes et minimiser le bruit.

Types de données en chimie


I. Données Univariées Continues
Les données univariées continues sont des données où, pour un échantillon donné, on obtient une
seule mesure qui peut prendre une gamme infinie de valeurs possibles. Ces données sont souvent liées à
des propriétés physiques ou chimiques mesurables de manière continue ,Ces données sont dites univariées
car chaque échantillon est associé à une seule variable mesurée. Elles peuvent être organisées sous forme
de matrices multivariées lorsque plusieurs échantillons sont collectés. Dans ce cas, la matrice aura des
lignes représentant les différents échantillons, et colonnes représentant les variables (par exemple,
température, pH, concentration).

Prétraitement / Normalisation
Dans le cas des données univariées continues, les colonnes sont indépendantes dans le sens où chaque
mesure est considérée comme étant une entité distincte. Le prétraitement se concentrera donc sur chaque
variable individuellement, et des méthodes comme la normalisation ou la standardisation peuvent être
appliquées.

Spectroscopie et Chromatographie : Structure de Données Multivariées


Les données issues de la spectroscopie et de la chromatographie ont une structure multivariée en raison
des relations complexes entre les variables. Ces données sont souvent collectées à partir de mesures
multiples sur un échantillon, et chaque mesure peut être fortement corrélée avec les autres.
Spectroscopie :

En spectroscopie, les mesures sont prises à différentes longueurs d’onde ou fréquences. Par exemple, dans
la spectroscopie proche infrarouge (NIR), chaque spectre est constitué d’un ensemble de mesures
(intensité) à différentes longueurs d’onde.
✓ Données spectroscopiques :
▫ Un échantillon peut être mesuré à plusieurs longueurs d’onde, créant ainsi une matrice où
chaque colonne représente une longueur d’onde, et chaque ligne représente un
échantillon.
▫ Ces données ont une corrélation forte entre les variables (par exemple, la mesure à la
longueur d’onde 1 est liée à celle de la longueur d’onde 2), car les spectres sont continus et
chaque longueur d’onde mesure une propriété physique qui varie de manière cohérente
avec les autres.
✓ Prétraitement / Normalisation :
En raison de la dépendance entre les colonnes, le prétraitement doit tenir compte de cette corrélation entre
les variables. Des techniques telles que l’alignement des spectres, la normalisation, et l’élimination du
bruit doivent être appliquées pour préserver la continuité des variables.
Chromatographie :

Dans la chromatographie, les données sont souvent présentées sous forme de chromatogrammes qui
mesurent le temps de rétention ou l’intensité du signal à différentes étapes de l’analyse. Ici aussi, les
données sont multivariées, mais les types de problèmes liés aux mesures diffèrent.
✓ Données chromatographiques :
Les chromatogrammes sont souvent organisés avec le temps en abscisse et l’intensité en ordonnée.
Plusieurs échantillons peuvent être mesurés et leurs chromatogrammes comparés pour identifier les
substances présentes.
✓ Problèmes typiques :
• Dérives de la ligne de base : Cela peut affecter les mesures et nécessite un lissage ou un ajustement de la
baseline avant analyse.
• Mésalignement des pics : Cela peut être causé par des variations dans le temps de rétention ou des
différences entre les échantillons, nécessitant une alignement des pics.
• Normalisation par des pics standards : Pour compenser les variations dans les échantillons, des
techniques de normalisation peuvent être nécessaires pour comparer les intensités entre les échantillons.
Comparaison entre Spectroscopie et Chromatographie :
✓ Similarité dans la structure des données :
• Dans les deux cas, les données peuvent être organisées sous forme de matrices
multivariées où chaque échantillon est représenté par plusieurs mesures
(longueurs d’onde en spectroscopie, temps de rétention en chromatographie).

• Les deux types de données nécessitent des méthodes de prétraitement


adaptées pour gérer les variations entre les échantillons et les instruments de
mesure.

✓ Différences dans les problématiques de mesure :

• Spectroscopie : Les données sont fortement corrélées entre les longueurs


d’onde, et les problèmes de bruit ou de distorsion spectrale peuvent survenir.

• Chromatographie : Les problèmes sont davantage liés au mésalignement des


pics, aux dérives de la ligne de base et aux variations de temps de rétention.
Données Multivariées Continues à Plusieurs Dimensions (Données
Multiway) :
Les données multivariées continues à plusieurs dimensions, également appelées
données multiway, se réfèrent à des ensembles de données où chaque échantillon
donne lieu à une matrice plutôt qu’à un seul point de mesure. Ces matrices
peuvent avoir plus de deux dimensions (par exemple, m (échantillons) x n
(variables) x p (dimensions supplémentaires)).

Exemples de Données Multiway :

1. Spectroscopie d’excitation et d’émission :

Ici, les données peuvent être obtenues sous forme de matrices où chaque point de la matrice représente
une mesure de spectre d’émission à différentes longueurs d’onde d’excitation. La matrice
résultantepeut etre tridimensionnelle, où une dimension représente les longueurs d’onde d’excitation,
une autre représente les longueurs d’onde d’émission, et la troisième peut représenter différents
échantillons.
2. Images à canal unique :

Les images prises par un capteur à un seul canal (par exemple, une image en noir et blanc) peuvent être vues
comme des matrices de données avec des pixels qui varient en intensité, formant ainsi des matrices de
données multivariées. Dans le cas d’images multicanal, les données peuvent avoir plus de dimensions.

3. Chromatographie couplée à la spectrométrie de masse (GC/MS, UPLC/MS/MS) :

Dans la chromatographie en phase gazeuse couplée à la spectrométrie de masse (GC/MS) ou la


chromatographie en phase liquide ultra-haute performance couplée à la spectrométrie de masse en
tandem (UPLC/MS/MS), chaque échantillon peut donner une matrice 3D où une dimension représente le
temps de rétention, une autre le spectre de masse, et la troisième dimension peut représenter différents
échantillons ou différentes conditions expérimentales.
Prétraitement / Normalisation :
1. Dépendance dans les lignes et colonnes :
Les lignes et les colonnes de la matrice (par exemple, dans les spectres d’excitation et
d’émission) sont souvent dépendantes. Cela signifie que les valeurs mesurées pour un
certain échantillon à différentes longueurs d’onde d’excitation ou d’émission sont liées. Par
conséquent, des méthodes de prétraitement comme la normalisation par rapport à une
référence, l’alignement de spectre, ou l’ajustement des variations de fond sont souvent
nécessaires pour maintenir la continuité des relations entre les différentes variables.
2. Indépendance dans la troisième dimension :
La troisième dimension de la matrice (par exemple, les échantillons ou les différents temps de
mesure) peut être indépendante des autres dimensions. Cela signifie que les valeurs dans
cette dimension ne sont pas nécessairement corrélées entre elles et peuvent être traitées
séparément des lignes et des colonnes. Par exemple, les différents échantillons peuvent être
indépendants, et les prétraitements peuvent être appliqués à chaque échantillon
indépendamment.
Données Continues d’Ordre Supérieur :
Les données continues d’ordre supérieur font référence aux ensembles de données qui prennent la
forme de cubes 3D (ou plus), également appelés tenseurs. Ces données sont courantes dans les
analyses où une dimension supplémentaire est ajoutée pour représenter des variables analytiques ou
des conditions de mesure supplémentaires.
Caractéristiques Principales :
1. Structure en Cube 3D (ou plus) :
• Les données d’ordre supérieur introduisent une troisième dimension (ou plus) au-delà des lignes et
colonnes habituelles.
• Cette troisième dimension peut représenter :
• Une variable analytique supplémentaire (par exemple, une mesure spectrale ou
chromatographique additionnelle).
• Une condition expérimentale différente (par exemple, une variation de température, de pression ou
d’une autre condition expérimentale).
2. Exemples :
• Chromatographie avec détecteurs multicanaux :
• Dans des techniques comme la chromatographie où le détecteur est un multicanal (par exemple,
des détecteurs à réseau de diodes ou des détecteurs de fluorescence), les données résultantes
forment des cubes 3D. Chaque point représente une intensité mesurée en fonction du temps de
rétention, de la longueur d’onde ou d’autres variables spectrales.
• Mesures hyperspectrales :
• Une mesure hyperspectrale sur un échantillon produit un cube de données, où chaque pixel de
l’image contient un spectre complet. Cela ajoute une dimension spatiale et spectrale à l’analyse.

Prétraitement / Normalisation :
1. Dépendance entre les Dimensions :
• Contrairement aux données univariées ou multivariées simples, les données d’ordre supérieur
présentent une dépendance dans toutes les dimensions :
• Lignes et colonnes : Dépendances liées aux mesures analytiques (par exemple, spectre ou
chromatogramme).
• Ordres supérieurs : Dépendances dans la troisième (ou quatrième) dimension, comme les
variations spectrales ou les changements dans les conditions expérimentales.
2. Considérations pour le prétraitement :
• Chaque dimension doit être traitée en tenant compte des corrélations entre les variables pour
éviter de casser les relations fondamentales.
• Des techniques comme la normalisation multivariée, l’alignement spectral, et le lissage des
données doivent être appliquées tout en respectant les dépendances.

Données Discrètes Catégorielles :


Les données discrètes catégorielles sont des ensembles de données dans lesquels chaque échantillon
est associé à une valeur fixe choisie parmi un ensemble limité et indépendant de possibilités. Ces
données sont utilisées principalement dans des scénarios de classification et d’assignation de
catégories.
Caractéristiques Principales :
1. Valeurs Limitées et Indépendantes :
Chaque donnée appartient à une catégorie parmi un ensemble prédéfini et fini.
Les catégories sont indépendantes, ce qui signifie qu’elles ne sont pas liées par un ordre ou une
relation hiérarchique.
2. Exemples Typiques :
Groupe sanguin d’une personne : {A, B, AB, O}.

Préférences musicales : {Classique, Rock, Jazz, Pop}.
• Résultat d’un lancer de dé : {1, 2, 3, 4, 5, 6}.
3. Codage des Variables :
• Pour les intégrer dans des modèles statistiques ou d’apprentissage automatique, les catégories
sont souvent transformées en variables numériques.
• Cela se fait via :
• Codage Dummy : Chaque catégorie est transformée en une colonne indépendante avec une valeur
binaire (0 ou 1).
• Codage Numérique Direct : Une valeur numérique est attribuée à chaque catégorie, bien que cela
ne capture pas nécessairement les relations entre elles.

4. Indépendance des Colonnes :


• Chaque catégorie est indépendante, ce qui signifie que les valeurs des colonnes ne sont pas
corrélées entre elles.
Utilisation des Données Catégoriques Discrètes :
1. Prétraitement/Normalisation :
• Indépendance des Colonnes : Lors du codage, il est important de garantir que chaque colonne est
indépendante.
• Par exemple, un groupe sanguin ne peut appartenir qu’à une seule catégorie à la fois (exclusion
mutuelle).
2. Applications :
• Utilisation dans les matrices de données X (pour les variables explicatives).
• Utilisation dans la matrice Y (pour les valeurs de référence ou les classes à prédire).
3. Analyse et Modélisation :
• Ces données peuvent être utilisées dans des analyses de classification ou pour créer des modèles
prédictifs.
• Par exemple, prédire un groupe sanguin en fonction d’autres variables biologiques.
La Quantité et la Qualité des Données
1. La Quantité de Données

La quantité de données joue un rôle essentiel dans la construction d’un modèle fiable et représentatif.
Un nombre suffisant d’échantillons est nécessaire pour capturer la variabilité du système ou de la
population étudiée. Plus le nombre d’échantillons est élevé, plus le modèle devient robuste et capable
de généraliser ses résultats à des scénarios réels. Cependant, si l’échantillon est trop petit ou biaisé,
les conclusions tirées risquent de manquer de pertinence et de fiabilité.
2. La Qualité des Données
La qualité des données est tout aussi importante que leur quantité. Plusieurs facteurs influencent cette
qualité, notamment le bruit instrumental, qui est toujours présent mais doit être inférieur au signal
mesuré pour permettre une analyse fiable. La composition de l’échantillon peut également introduire
des interférences qui affectent le signal d’intérêt, comme des composants chimiques ou physiques non
pertinents dans la matrice d’échantillon. Par ailleurs, les conditions environnementales (température,
humidité, etc.) doivent être maîtrisées ou intégrées dans l’analyse, car elles peuvent avoir un impact
significatif sur les mesures. Enfin, les données doivent être fortement corrélées aux valeurs de
référence ou aux propriétés cibles pour garantir des résultats précis.

3. Stratégies pour Améliorer la Qualité des Données

❑ Calibration et maintenance des instruments :

Une calibration régulière garantit des mesures cohérentes et précises.

Les instruments doivent être surveillés pour minimiser les dérives et la variabilité.

❑ Composés de référence et normalisation :

L’utilisation de composés de référence permet de normaliser les données et de réduire la


variabilité liée aux conditions expérimentales ou aux différences entre échantillons.

❑ Conception expérimentale (Design of Experiment - DoE) :

Une conception expérimentale bien planifiée optimise la collecte de données et permet


d’identifier et de traiter les facteurs de confusion potentiels.

❑ Méthodes analytiques optimisées :

Les méthodes doivent être ajustées pour réduire le bruit, améliorer la clarté du signal et maximiser
la pertinence des variables mesurées.

Les Références (Y)


1. Importance des Valeurs de Référence

Dans les modèles de régression ou de classification, les valeurs de référence (Y) jouent
un rôle essentiel pour établir des corrélations fiables avec les données X à travers le
modèle. Avoir des données X de qualité ne suffit pas ; les valeurs de référence doivent
être rigoureusement définies et pertinentes pour l’objectif de l’expérience.

2. Origine des Valeurs de Référence


Les valeurs de référence Y peuvent être obtenues de différentes manières, en fonction
de l’objectif de l’expérience. Cependant, elles se divisent généralement en deux grandes
catégories :
• Régression : Les valeurs proviennent souvent de procédures analytiques
standardisées et approuvées par les agences réglementaires, ou bien elles sont issues
des méthodes les plus acceptées dans la communauté analytique. Ces valeurs incluent
des informations essentielles comme l’erreur analytique, la plage de calibration, ainsi
que les limites de détection et de quantification, qui sont intimement liées aux données
X.
• Classification : Les références consistent généralement en des catégories ou des
classes attribuées en fonction de critères bien définis ou des seuils appliqués à des
variables continues.
3. Vérification des Erreurs des Valeurs de Référence

Les valeurs de référence ne sont pas exemptes d’erreurs analytiques. Il est crucial de
s’assurer que ces erreurs ne compromettent pas la fiabilité des résultats du modèle.
Pour ce faire, une procédure standard consiste à effectuer des mesures répétées sur un
même échantillon et à vérifier que la variance (ou l’écart-type de la moyenne) entre les
répétitions reste dans des limites de confiance acceptables. Ces vérifications
s’inspirent des concepts classiques de la chimie analytique.
4. Défis liés aux Valeurs de Référence

Cependant, développer des protocoles de vérification rigoureux peut s’avérer coûteux et


chronophage. Dans certains cas, les contraintes budgétaires ou temporelles limitent le
nombre de répétitions nécessaires pour valider pleinement les erreurs des valeurs de
référence. Cela peut poser des défis, car une mauvaise évaluation des erreurs peut
conduire à une interprétation erronée des résultats.

Classification

La classification consiste à attribuer un échantillon à une ou plusieurs classes


spécifiques, ou éventuellement à aucune, en fonction de la stratégie de classification
adoptée. Les valeurs de référence (Y) utilisées pour la classification sont généralement
codées de manière catégorielle, ce qui implique une inter-corrélation entre les
différentes colonnes de la matrice Y, ou du moins, cette corrélation est présumée.
Dans de nombreux cas, les classes (Y) sont définies en appliquant des seuils à des
variables continues. Par exemple :
• Température < 20 : Froid
• 21 ≤ Température ≤ 30 : Modéré
• Température > 30 : Chaud

Ces catégorisations permettent de simplifier les données continues en catégories


distinctes, facilitant ainsi l’analyse et l’interprétation dans des modèles de
classification.
Le Modèle
Le Modèle

L’objectif du modèle est d’établir une relation mathématique entre les données indépendantes (matrice de dimensions ) et
une propriété mesurée (vecteur de dimension ). Cette relation peut être représentée comme suit :

y= f(X) ou équivalent y = X b + e
•b : Le vecteur de régression, qui contient les coefficients indiquant l’importance de chaque variable dans X pour
prédire y.

• e : Le vecteur des résidus (M x 1), qui représente les écarts entre les valeurs prédites par le modèle et les valeurs observées
dans y.

Ce modèle permet de capturer la corrélation entre les variables indépendantes X et la propriété dépendante y .

Modèles de Reconnaissance des Schémas (Pattern Recognition Models)

Ces modèles visent à analyser et identifier les schémas, points communs, et tendances présents dans
la matrice de données . L’objectif principal est de comprendre les corrélations et les différences entre
les échantillons en fonction des variables ou des groupes de variables mesurées.

L’équation fondamentale utilisée est :


X = TP^T + E
•T: La matrice des scores qui représente les échantillons dans un nouvel espace.
•P^T : La matrice des charges (loadings) qui décrit les relations entre les variables mesurées.
•E : Le résidu, qui capture l’information non expliquée par le modèle.

Ces modèles exploratoires permettent d’évaluer la variance et les similitudes dans les données, en
mettant en évidence les corrélations entre les variables et les différences entre les échantillons. Ils
sont souvent utilisés pour visualiser et interpréter les structures complexes des données multivariées.
Les méthodes non supervisées (UM - Unsupervised Methods)
sont des techniques utilisées pour extraire des informations exploitables à partir de grands ensembles
de données brutes. Contrairement aux méthodes supervisées, où des références (valeurs cibles) sont
disponibles pour entraîner un modèle, les méthodes non supervisées n’ont pas de supervision
explicite. Cela signifie que l’information fiable est déjà présente dans les données, mais elle peut être
cachée ou noyée dans le bruit.

➢ Principe des méthodes non supervisées :


•Séparer le grain de l’ivraie : L’objectif est de distinguer les informations pertinentes du bruit. Le
modèle doit donc identifier des patterns ou structures sous-jacentes dans les données.
•Les données (X) = Information + Bruit : En pratique, les données mesurées contiennent à la fois des
informations utiles (les tendances ou structures réelles) et du bruit (variabilité aléatoire ou
irrégularités). Les méthodes non supervisées cherchent à isoler et extraire ces informations utiles,
souvent en réduisant le bruit.
➢ But des méthodes non supervisées :
L’objectif est de découvrir des structures cachées dans les données, souvent avec peu ou pas de
connaissances préalables sur ce qui doit être trouvé. Ces techniques sont particulièrement utiles dans
des domaines où les données sont trop complexes ou volumineuses pour une analyse supervisée
classique.
Les méthodes supervisées (SM - Supervised Methods)
désignent un ensemble de techniques qui apprennent à partir des données pour construire un modèle
capable de prendre des décisions éclairées en fonction de ce qu’il a appris. Ce processus implique
généralement l’utilisation de données étiquetées, c’est-à-dire que chaque échantillon de données
possède une valeur cible associée, qui permet au modèle d’apprendre à prédire ou classer
correctement les nouveaux échantillons.

☺ Points clés des méthodes supervisées :


1. Apprentissage à partir des données étiquetées : Le modèle est formé sur des données où les
réponses (ou les labels) sont déjà connues. Par exemple, dans un problème de classification, les
échantillons de données sont associés à des classes ou catégories précises.
2. Construction du modèle : Une fois que les modèles ont appris les relations entre les variables
d’entrée (X) et les valeurs cibles (Y), ils peuvent faire des prédictions sur de nouvelles données qui n’ont
pas de valeurs cibles. Le modèle utilise les relations qu’il a apprises pendant l’entraînement pour faire
ces prédictions.
3. Modèle de bonne qualité : Un bon modèle n’est pas celui qui ajuste le mieux les données
d’entraînement (calibration), mais celui qui est capable de faire des prédictions précises sur de
nouvelles données. La validation du modèle est donc cruciale pour s’assurer qu’il est fiable et
généralisable à des données non vues.
☺ Validation du modèle :

• Validation croisée : Il s’agit d’une technique de validation où les données d’entraînement sont
divisées en plusieurs sous-ensembles. Le modèle est entraîné sur certains sous-ensembles et testé sur
les autres. Cela permet de vérifier sa capacité à généraliser.
• Surajustement (Overfitting) : Un modèle peut très bien s’ajuster aux données d’entraînement, mais
échouer à faire de bonnes prédictions sur des données nouvelles (problème de surajustement). La
validation aide à détecter ce problème.
Conclusion :

Valider vos modèles est essentiel. Un modèle qui n’a pas été validé peut donner des résultats très
précis lors de l’entraînement, mais ne pas être capable de bien prédire de nouveaux cas. C’est la
validation qui permet de garantir que le modèle est réellement utile dans un contexte pratique, au-delà
des données sur lesquelles il a été formé.
Méth Principe Application Avantage Limites Motivatio
ode s s n:

Analy Réduit la Utilisée pour Simplificat Perte Réduire la


se en dimensionnalité des analyser des ion des d’informa complexit
données tout en spectres, données, tion si é des
Com
préservant la variance chromatogra identificati trop de données
posa principale. mmes, etc., on de dimensio tout en
ntes en tendances ns sont préservant
Princi chimométrie. cachées. réduites l’informati
pales o
(PCA)

Ajuste un modèle Prédiction de Simple à Peut être Prédire de


Régre linéaire en minimisant variables comprend affectée manière
la somme des carrés continues à re et à par la simple et
ssion
des erreurs entre les partir de appliquer. multicoli rapide les
des variables données néarité relations
Moin indépendantes (X) et explicatives des linéaires
dres la variable linéaires. données entre les
Carré dépendante (Y) et les variables
s relations
non
(CLS)
linéaires.

Régre Extension de la Prédiction Permet de Fonction Utiliser


ssion régression linéaire d’une prédire ne mal si plusieurs
simple à plusieurs variable à des les variables
Linéai
variables partir de variables relations indépenda
re indépendantes (X) plusieurs continues entre X et ntes pour
Multi pour prédire une variables à partir de Y sont une
ple variable dépendante influentes (ex multiples non prédiction
(MLR) (Y). : facteurs. linéaires plus
concentratio ou précise.
ns). multicoli
néaires

Régre Combine PCA et Prédiction Gère les Peut Résoudre


ssion régression linéaire : dans des données perdre de les
réduit la systèmes multicolin l’informat problèmes
par
dimensionnalité des multivariés, éaires, ion si trop liés à la
Com données X et utilise par exemple, réduction de multicolin
posa ces composantes la de la composa éarité en
ntes pour la régression concentratio ntes sont réduisant
Princi n à partir de dimension supprimé
la
pales spectres où nalité es. dimension
les variables nalité tout
(PCR)
sont en
corrélées. préservant
. les
informatio
ns
pertinente
s
Régre Maximisation de la Analyse de Prise en Plus Extraire
ssion covariance entre X et spectres ou compte complexe les
Y, réduction de la chromatogra des à relations
par
dimensionnalité tout mmes où il y relations compren sous-
Moin en maintenant la a des complexes dre et à jacentes
dres relation entre les deux relations entre appliquer complexe
Carré ensembles de complexes variables, que les s entre les
s données. entre robuste méthode variables
Partie plusieurs face à la s indépenda
variables. multicolin linéaires ntes et
ls
éarité. simples. dépendan
(PLS) tes pour
une
meilleure
prédiction

Explo Analyse visuelle et Première Permet Ne fournit Comprend


ratory statistique des étape dans d’identifier pas re la
données pour l’analyse des les directem structure
Data
comprendre leur données tendances ent de et les
Analy structure, détection avant , les prédictio relations
sis de patterns et d’appliquer relations ns, mais des
(EDA) anomalies, et des modèles et les sert de données
préparation des statistiques anomalies préparati avant de
données. ou de dans les on pour les utiliser
machine données. les pour des
learning. méthode modèles
s plus
ultérieure complexe
s. s.
Principal Components Analysis (PCA)
Définition
L’Analyse en Composantes Principales (ACP) est une méthode statistique puissante utilisée pour simplifier
un ensemble de variables en identifiant des dimensions sous-jacentes qui capturent l’essentiel de
l’information.

Problème

Lorsque vous travaillez avec un grand nombre de variables :

• Il est difficile d’interpréter et de visualiser les données.

• De nombreuses variables peuvent être corrélées, entraînant de la redondance.

• Vous voulez résumer l’information en utilisant moins de variables.

Solution : ACP

L’ACP transforme vos variables initiales en un petit ensemble de composantes principales (CP) qui :

1. Sont non corrélées (orthogonales).

2. Capturent un maximum de la variance (c’est-à-dire de l’information).

3. Réduisent la dimensionnalité tout en minimisant la perte d’information.

❑ Comment fonctionne l’ACP ?

1. Standardisation des données :

• Centrer (moyenne = 0) et réduire les données (variance unitaire).

• Cela empêche les variables à grande échelle de dominer l’analyse.

2. Matrice de covariance :

• Calculer comment les variables varient entre elles.

3. Valeurs propres et vecteurs propres :

• Effectuer une décomposition en valeurs propres pour identifier les directions de la variance maximale
(vecteurs propres) et l’importance de chaque direction (valeurs propres).

4. Classement des composantes :


• Trier les composantes principales en fonction de leur variance (valeurs propres). Les premières
composantes contiennent le plus d’information.

5. Projection des données :

• Transformer les données initiales en projetant sur les premières composantes principales.

❑ Comment choisir le nombre de composantes ?

• Variance expliquée : Sélectionnez les composantes qui expliquent un pourcentage élevé (80-90%) de la
variance totale.

• Scree Plot : Identifiez un “coude” où ajouter plus de composantes n’apporte qu’une amélioration
marginale.

❑ Avantages de l’ACP

1. Réduction de la dimensionnalité : Simplifie l’analyse en réduisant le nombre de variables.

2. Détection des motifs : Identifie des structures cachées dans les données.

3. Visualisation : Permet de représenter les données en 2D ou 3D pour une meilleure compréhension.

Variables Latentes
• Ce sont des variables non observables directement dans les données brutes.

• Elles représentent des facteurs sous-jacents responsables des relations entre les variables observées.

• Exemple : En psychologie, un “niveau d’anxiété” (variable latente) pourrait expliquer des réponses similaires à plusieurs
questions d’un questionnaire.
Composantes Principales
• Les composantes principales (CP), issues de l’ACP, sont des combinaisons linéaires des variables
d’origine.

• Elles sont construites pour capturer le maximum de variance dans les données, tout en étant
indépendantes les unes des autres.

• Chaque composante principale représente une variable latente qui regroupe et explique la variabilité
entre plusieurs variables d’origine.

Correspondance : Variabilité et Composantes Principales


1. Regroupement des Sources de Variabilité :

• Les variables observées (données d’origine) peuvent avoir une part de variance commune, souvent due à
des corrélations.

• Les variables latentes (ou CP) regroupent ces corrélations en une ou plusieurs dimensions.
2. Explication de la Variance Totale :

• Les premières composantes principales capturent la majorité de la variance totale.

• Chaque composante correspond à une source indépendante de variabilité.

3. Visualisation Simplifiée :

• L’ACP réduit la complexité en vous permettant de visualiser et d’interpréter ces sources principales de
variance sur seulement 2 ou 3 dimensions.

Pourquoi les Variables Latentes sont Importantes


• Elles permettent de résumer des phénomènes complexes (comme des comportements, des réactions ou
des interactions) en variables significatives.

• Elles expliquent ce qui ne peut pas être compris par des relations simples entre les variables observées.

En Résumé

• Latent Variables = Principal Components : Les variables latentes (composantes principales) synthétisent
les relations complexes en regroupant les variances corrélées.

• Variance = Information : La variance capturée par chaque composante principale explique la contribution
des différentes sources de variabilité dans les données.

Cible de l’ACP
• Simplification : Réduire le nombre de variables chimiques d’un jeu de données, en éliminant les
redondances et les corrélations.

• Latent Variables : Transformer les variables discrètes observées en variables latentes (composantes
principales), qui capturent les sources principales de variabilité.

• Détection de motifs : Identifier des patterns ou relations internes qui ne sont pas visibles directement
dans les données initiales.

Pourquoi réduire les variables ?

• Corrélation et redondance :

• Dans de nombreux jeux de données chimiques, les variables sont souvent corrélées.

• Cela crée des informations redondantes qui compliquent l’analyse.

• Maximiser l’information :

• L’ACP préserve les dimensions les plus informatives en priorisant les sources de variance maximale.

l’Analyse en Composantes Principales (ACP) n’est pas une méthode de classification. Voici pourquoi et
comment cela se distingue des objectifs de l’ACP.
Ce que l’ACP ne fait pas

1. Pas de classification supervisée :

• L’ACP est une méthode non supervisée. Elle n’a pas d’objectif préalable de regroupement en classes ou
de prédiction basée sur des étiquettes.

• La classification nécessite des limites, des seuils ou des frontières pour assigner des observations à des
groupes spécifiques, ce qui est hors du champ de l’ACP.

2. Pas de décision ou de catégorisation :

• L’ACP ne “décide” pas si une observation appartient à une classe ou une autre. Elle se concentre
uniquement sur la réduction de la dimensionnalité.

Ce que fait l’ACP

• Découverte de patterns :

• L’ACP identifie des relations sous-jacentes et des modèles globaux dans les données, mais sans en
imposer d’interprétation catégorielle.

• Exploration des données :

• Elle permet de détecter des groupes potentiels ou des regroupements naturels en réduisant la
complexité, mais ces groupes ne sont pas des “classes” définies.

Résumé
• L’ACP ne classe pas.

• Son rôle est de réduire la dimensionnalité et de préserver l’information sans imposer de limites, de
frontières ou de seuils.

• La classification, par contre, nécessite une supervision et a pour objectif de catégoriser les observations.

PCA. Interprétation géométrique


Organisation des données

Avant d’effectuer l’ACP, les données doivent être organisées en une matrice bidimensionnelle (X)

• m lignes : Représentent les objets, les échantillons ou les observations (par ex. : des individus, des
expériences).

• n colonnes : Représentent les variables ou les valeurs expérimentales mesurées pour chaque objet.
Chaque ligne correspond à un point dans un espace n -dimensionnel, où n est le nombre de variables.

Étapes pour comprendre et interpréter l’Analyse en Composantes Principales


(ACP)
1. Représentation dans un nouvel espace ( n -dimensional space)

• Les données initiales : Une matrice X de dimensions M \times N :

• M : Nombre d’échantillons (lignes, observations).

• N : Nombre de variables (colonnes, caractéristiques mesurées).

• Espace des variables ( n -dimensions) :

• Chaque variable est représentée par un axe de l’espace.

• Si N = 3 , nous avons un espace tridimensionnel ( x1, x2, x3 ).

• Chaque échantillon devient un point dans cet espace, positionné selon ses coordonnées (x{i1},
x{i2}, x{i3}).
2. Chaque échantillon = un point dans l’espace n -dimensionnel
Nuage de points :

• Les M échantillons forment un nuage dans l’espace des variables ( n -dimensionnel).

Exemple avec n = 3 : Les points sont dispersés dans un cube tridimensionnel.

3. Normalisation (centrage)

Pourquoi centrer les données ?

• Cela permet de déplacer le barycentre (centre de gravité du nuage de points) vers


l’origine de l’espace ( 0, 0, 0 ).

• Cette étape est cruciale pour que l’ACP soit indépendante des valeurs absolues
des variables.

Comment ?

• On soustrait la moyenne de chaque variable à ses valeurs correspondantes :


Xijcentre =Xij-xj/. xj/ moyenne

• Résultat : Le nuage de points est centré à l’origine.

Note : La plupart des logiciels effectuent ce centrage automatiquement.

4. Première composante principale (PC1)

• PC1 : La première composante principale est la direction de la plus grande variabilité dans les
données.

• Elle maximise la variance des projections des points sur cet axe.

• Condition : Elle passe par l’origine (barycentre).

• Rôle :

• Capturer la direction principale dans laquelle les points sont les plus dispersés.

• Réduire la redondance des informations initiales en regroupant la variabilité sur un seul axe.

5. Deuxième composante principale (PC2)

• PC2 : La deuxième composante principale est la direction de variabilité maximale


non expliquée par PC1.
• Elle doit être orthogonale (perpendiculaire) à PC1.

• Condition 1 : Elle passe par l’origine.

• Condition 2 : Elle est indépendante (orthogonale) de PC1.

• Pourquoi orthogonale ?

• Pour s’assurer que chaque composante principale capture des aspects uniques
de la variance.

6. Plus de composantes principales ?

• On peut continuer à calculer d’autres composantes principales ( PC3, PC4, \dots )


:

• Toujours avec les deux mêmes conditions :

• Condition 1 : Passer par l’origine.

• Condition 2 : Être orthogonale à toutes les composantes précédentes.

Nombre de PC : Le nombre maximum de composantes principales est le minimum


entre M (nombre d’échantillons) et N (nombre de variables).

7. Projection dans l’espace des composantes principales


• Une fois les PC1 et PC2 déterminés :

• Projection : On projette les points dans ce nouvel espace formé par PC1 et PC2
.

• Nouvel espace : Cet espace est appelé espace des composantes principales.

• Avantages de l’espace des PC :

• Les données sont maintenant réduites à un nombre limité de dimensions.

• Les relations entre les échantillons et les nouvelles axes ( PC1, PC2, \dots )
deviennent visibles.

Comment les points sont-ils liés aux nouveaux axes ?

1. Chaque point (échantillon) est projeté sur les nouveaux axes ( PC1, PC2 , etc.).

2. Les coordonnées des points dans cet espace représentent leurs valeurs dans les
composantes principales.

3. Ces nouvelles coordonnées :

• Révèlent les patterns dans les données.

• Montrent comment chaque échantillon est positionné par rapport à la variance


maximale des axes.
Résumé visuel

1. Les données initiales (nuage dans l’espace des variables) sont centrées.

2. Les directions principales ( PC1, PC2, \dots ) sont déterminées pour maximiser la
variance.
3. Les données sont projetées dans un espace réduit où chaque axe représente une
composante principale.
Loadings
Les loadings (ou “charges” en français) décrivent la relation entre les variables
d’origine et les nouvelles composantes principales (PCs) après l’Analyse en
Composantes Principales (ACP). Ils représentent l’importance ou la contribution de
chaque variable originale dans la formation de chaque composante principale.
Interprétation des Loadings

1. Définition :

• Chaque composante principale PC_k est une combinaison linéaire des variables
d’origine.

• Les loadings sont les coefficients dans cette combinaison. Par exemple, pour
PC_1 , les loadings indiquent comment chaque variable contribue à cette
première composante.

2. Signification géométrique :

• Les loadings peuvent être vus comme les projections des axes des variables
d’origine sur les axes des composantes principales. Ils montrent dans quelle
mesure chaque variable influence chaque composante principale.

3. Relation avec la variance :

• Un high loading pour une variable dans une composante principale signifie que
cette variable a une grande influence sur cette composante et contribue
beaucoup à la variance expliquée par cette composante.
Comment lire les Loadings dans une ACP ?

• Loadings élevés : Une variable avec un loading élevé sur une composante principale
signifie qu’elle influence fortement cette composante. Par exemple, si x_1 a un
loading élevé sur PC_1 , cela signifie que la première composante est fortement
influencée par x_1 .

• Signes des Loadings :

• Si le loading est positif, la variable contribue positivement à la composante (c’est-


à-dire que les grandes valeurs de cette variable augmentent la valeur de la
composante).

• Si le loading est négatif, la variable a une contribution négative à la composante


(les grandes valeurs de la variable diminuent la valeur de la composante).

• Interprétation des Loadings sur les deux premières composantes :


• En observant les loadings de PC_1 et PC_2 , on peut comprendre quelles
variables influencent principalement ces composantes et comment elles sont
liées entre elles.

• Si les loadings des variables sur les premières composantes sont très similaires,
cela suggère que ces variables sont fortement corrélées.

SCORES Distance of the PROJECTED samples to the


CENTER OF THE new axes
Définition des Scores

• Scores des échantillons : Les scores sont les coordonnées des échantillons dans le nouvel
espace formé par les composantes principales (PCs).

• Si X est la matrice des données avec M échantillons et N variables, les scores sont calculés
en projetant chaque échantillon sur les axes des composantes principales.

• Formule des scores :

• Soit P la matrice des composantes principales et X_c la matrice des données centrées, les
scores sont donnés par la multiplication :

S = X_c * P

• Où :

• S est la matrice des scores ( M *N ).

• X_c est la matrice des données centrées ( M *N ).


• P est la matrice des loadings ou des composantes principales ( N * N ).
Interprétation des Scores

1. Position des échantillons : Les scores représentent la position d’un échantillon dans l’espace
des composantes principales. En d’autres termes, ils montrent comment chaque échantillon est
situé par rapport aux nouveaux axes (composantes principales).

2. Distances au centre : Les scores montrent aussi à quelle distance chaque échantillon se trouve
du centre de l’espace des composantes principales (l’origine).

• Si un échantillon a un score proche de 0, cela signifie qu’il est près du centre de l’espace des
composantes principales.

• Si un échantillon a un score éloigné de 0, cela signifie qu’il est loin du centre, indiquant une
grande variabilité par rapport aux autres échantillons.

3. Propriétés géométriques :

• Echantillons proches du centre : Ces échantillons sont similaires entre eux et ont des
caractéristiques proches des autres.

• Echantillons éloignés du centre : Ces échantillons peuvent être des outliers (points aberrants),
car leur score élevé indique qu’ils sont très différents des autres échantillons en termes de
variabilité dans les nouvelles composantes principales.
Visualisation des Scores

• Graphiques de scores : Les scores sont souvent représentés dans des graphiques de projection
appelés biplots ou graphes de scores. Dans ces graphiques :

• Les échantillons sont représentés par des points.

• L’axe des x correspond à la première composante principale (PC1).

• L’axe des y correspond à la deuxième composante principale (PC2).

• Interprétation visuelle :

• Les échantillons proches les uns des autres (points rapprochés) indiquent qu’ils partagent des
caractéristiques similaires.

• Les échantillons éloignés les uns des autres (points écartés) montrent qu’ils sont distincts en
termes de variabilité.
Calcul de la distance par rapport au centre

La distance d’un échantillon à l’origine (barycentre) dans l’espace des composantes principales
peut être calculée comme la norme des scores. Pour un échantillon i , la distance D_i au centre est donnée
par :
Pour résumer
Comparaison entre la Matrice X de départ et la Matrice T réduite
Normalization
Pourquoi la normalisation est-elle nécessaire ?
1. Dépendance à l’échelle :
Les variables avec des valeurs élevées influencent davantage les premières
composantes principales ( PC1 , PC2 ).
2. Égalisation des poids des variables :
• Pour que chaque variable contribue équitablement à l’ACP, il est nécessaire
d’égaliser leurs poids en les ramenant à une échelle commune.
Méthodes courantes de normalisation

1. Centrage :

• On soustrait la moyenne de chaque variable pour recentrer les données autour


de zéro.

• Formule :

• Cela déplace le barycentre du nuage de points à l’origine.

2. Mise à l’échelle (standardisation) :

• Les données sont mises à l’échelle en divisant chaque variable par son écart
type.

• Formule :

• Cela rend toutes les variables dimensionnellement comparables avec une


moyenne de 0 et un écart type de 1.
3. Choix de la méthode dépend de la nature des variables :

• Variables dépendantes (e.g., spectres) : Déjà normalisées ou prétraitées (par


exemple, en intensité relative).

• Variables indépendantes (e.g., pH, T ) : Nécessitent typiquement une mise à


l’échelle pour éviter une domination des variables à grande amplitude.

Scaling et Auto-Scaling : Définitions et Différences

L’ACP (Analyse en Composantes Principales) est influencée par l’échelle des données.
Pour éviter que certaines variables dominent l’analyse en raison de leur amplitude ou
de leurs unités, deux approches courantes sont utilisées : Scaling et Auto-Scaling.

1. Scaling (Mise à l’échelle simple)

Objectif : Mettre toutes les variables sur une échelle comparable sans modifier leurs
distributions relatives.

• Principe : Diviser chaque valeur de la variable par une constante (souvent sa plage ou
son maximum).

• Formule :

• La constante peut être :

• Le maximum de la variable ().

• L’amplitude ().

• Caractéristiques :

• Ajuste les données pour qu’elles soient dans un intervalle spécifique (e.g., [0, 1]).

• Conserve la distribution des données.

• Quand l’utiliser ?

• Si vous avez des variables avec des unités différentes mais dont les valeurs
doivent garder leurs proportions relatives.

• Exemple : Température () et concentrations ().

2. Auto-Scaling (Standardisation) ( scailing + centrage)


Objectif : Uniformiser les variables pour qu’elles aient toutes la même moyenne (0) et
le même écart type (1), supprimant ainsi l’effet des différences d’échelle.

• Principe : Centrer les variables (soustraire la moyenne) et les mettre à l’échelle


(diviser par l’écart type).

• Formule :

• Chaque variable devient une variable réduite : moyenne = 0, écart type = 1.

• Caractéristiques :

• Donne à chaque variable une importance égale dans l’analyse.

• Utile pour les variables ayant des unités différentes ou des dispersions très
différentes.

• Modifie la distribution : après auto-scaling, les données suivent une distribution


centrée.

• Quand l’utiliser ?

• Lorsque vous souhaitez éviter qu’une variable domine en raison de son amplitude
ou de ses unités.

• Exemple : Température () et pression ().


Resume

• Scaling est utile pour ramener les valeurs dans une plage donnée (par exemple, pour
visualisation ou modélisation simple).

• Auto-Scaling est essentiel pour les analyses statistiques multivariées (comme l’ACP)
car il garantit que toutes les variables contribuent de manière égale à l’analyse.

Vous aimerez peut-être aussi