0% ont trouvé ce document utile (0 vote)
10 vues7 pages

Data Pre Processing Fin

Le prétraitement des données est crucial pour garantir la qualité et la pertinence des données avant leur utilisation en analyse ou modélisation. Plusieurs outils de la bibliothèque sklearn en Python, tels que LabelEncoder, OrdinalEncoder, LabelBinarizer, OneHotEncoder, MinMaxScaler et StandardScaler, sont utilisés pour transformer et normaliser les données. Ces techniques permettent de convertir des étiquettes catégorielles en valeurs numériques et de mettre à l'échelle les caractéristiques pour les rendre compatibles avec les algorithmes d'apprentissage automatique.

Transféré par

thereselaetitiantomb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
10 vues7 pages

Data Pre Processing Fin

Le prétraitement des données est crucial pour garantir la qualité et la pertinence des données avant leur utilisation en analyse ou modélisation. Plusieurs outils de la bibliothèque sklearn en Python, tels que LabelEncoder, OrdinalEncoder, LabelBinarizer, OneHotEncoder, MinMaxScaler et StandardScaler, sont utilisés pour transformer et normaliser les données. Ces techniques permettent de convertir des étiquettes catégorielles en valeurs numériques et de mettre à l'échelle les caractéristiques pour les rendre compatibles avec les algorithmes d'apprentissage automatique.

Transféré par

thereselaetitiantomb
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

VIDEO 22 : DATA PRE-PROCESSING :

Le prétraitement des données, ou data preprocessing en anglais, désigne l'ensemble des


opérations visant à préparer et à nettoyer les données avant leur utilisation dans des tâches d'analyse ou
de modélisation. C'est une étape essentielle dans le processus d'analyse des données, car elle permet
d'assurer la qualité, la cohérence et la pertinence des données utilisées pour des tâches telles que la
modélisation prédictive, l'apprentissage automatique, ou l'analyse statistique.

LabelEncoder : LabelEncoder se trouve couramment dans la bibliothèque sklearn en Python, et elle est
utilisée pour convertir des étiquettes de classes catégorielles en valeurs numériques. Cela permet de
représenter les catégories de manière à ce qu'elles soient compatibles avec les algorithmes
d'apprentissage automatique qui traitent des variables numériques. En d'autres termes, elle transforme
les étiquettes de classes textuelles en valeurs numériques.

Figure 1:LabelEncoder avec la methode fit_Transform


Il existe une méthode inverse_transform qui encode chaque classe de la variable y en une valeur
numérique , elle permet de décoder les données .

Figure 2: Inverse_transform
OrdinalEncoder ; est exactement comme le transformer LabelEncoder mais se charge de traiter
plusieurs variables à la fois.
LabelBinarizer : est une classe disponible dans la bibliothèque scikit-learn en Python. Elle est
couramment utilisée pour la conversion d'étiquettes de classe catégorielles en représentations binaires.

Figure 3:LabelBinarizer compresse


OneHotEncoder : est une classe fournie par la bibliothèque scikit-learn en Python, et elle est
utilisée pour convertir des variables catégorielles en une représentation binaire (« one-hot vector »).

Figure 4:OneHotEncoder
MinMaxScaler : est une classe de la bibliothèque scikit-learn en Python, utilisée pour mettre à
l'échelle les caractéristiques (features) dans une plage spécifique après leur transformation. Cette classe
opère en mettant les caractéristiques à l'échelle de manière à être comprises dans une plage spécifique,
généralement entre 0 et 1
StandardScaler: est une classe fournie par la bibliothèque scikit-learn en Python. Elle est utilisée pour
mettre à l'échelle les caractéristiques (features) de telle sorte qu'elles aient une moyenne nulle et un
écart type égal à un.

Figure 5: StandardScaler

Vous aimerez peut-être aussi