VIDEO 22 : DATA PRE-PROCESSING :
Le prétraitement des données, ou data preprocessing en anglais, désigne l'ensemble des
opérations visant à préparer et à nettoyer les données avant leur utilisation dans des tâches d'analyse ou
de modélisation. C'est une étape essentielle dans le processus d'analyse des données, car elle permet
d'assurer la qualité, la cohérence et la pertinence des données utilisées pour des tâches telles que la
modélisation prédictive, l'apprentissage automatique, ou l'analyse statistique.
LabelEncoder : LabelEncoder se trouve couramment dans la bibliothèque sklearn en Python, et elle est
utilisée pour convertir des étiquettes de classes catégorielles en valeurs numériques. Cela permet de
représenter les catégories de manière à ce qu'elles soient compatibles avec les algorithmes
d'apprentissage automatique qui traitent des variables numériques. En d'autres termes, elle transforme
les étiquettes de classes textuelles en valeurs numériques.
Figure 1:LabelEncoder avec la methode fit_Transform
Il existe une méthode inverse_transform qui encode chaque classe de la variable y en une valeur
numérique , elle permet de décoder les données .
Figure 2: Inverse_transform
OrdinalEncoder ; est exactement comme le transformer LabelEncoder mais se charge de traiter
plusieurs variables à la fois.
LabelBinarizer : est une classe disponible dans la bibliothèque scikit-learn en Python. Elle est
couramment utilisée pour la conversion d'étiquettes de classe catégorielles en représentations binaires.
Figure 3:LabelBinarizer compresse
OneHotEncoder : est une classe fournie par la bibliothèque scikit-learn en Python, et elle est
utilisée pour convertir des variables catégorielles en une représentation binaire (« one-hot vector »).
Figure 4:OneHotEncoder
MinMaxScaler : est une classe de la bibliothèque scikit-learn en Python, utilisée pour mettre à
l'échelle les caractéristiques (features) dans une plage spécifique après leur transformation. Cette classe
opère en mettant les caractéristiques à l'échelle de manière à être comprises dans une plage spécifique,
généralement entre 0 et 1
StandardScaler: est une classe fournie par la bibliothèque scikit-learn en Python. Elle est utilisée pour
mettre à l'échelle les caractéristiques (features) de telle sorte qu'elles aient une moyenne nulle et un
écart type égal à un.
Figure 5: StandardScaler