0% ont trouvé ce document utile (0 vote)
42 vues12 pages

Feature Engin

Le Feature Engineering consiste à créer, transformer ou sélectionner des caractéristiques à partir de données brutes pour optimiser les performances des modèles d'apprentissage automatique. Il est crucial pour améliorer la précision des prédictions, capturer des relations complexes et réduire les erreurs. Les étapes incluent le prétraitement des données, la transformation des caractéristiques existantes, la création de nouvelles caractéristiques et la sélection des caractéristiques pertinentes.

Transféré par

Med amine Elyakhloufi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
42 vues12 pages

Feature Engin

Le Feature Engineering consiste à créer, transformer ou sélectionner des caractéristiques à partir de données brutes pour optimiser les performances des modèles d'apprentissage automatique. Il est crucial pour améliorer la précision des prédictions, capturer des relations complexes et réduire les erreurs. Les étapes incluent le prétraitement des données, la transformation des caractéristiques existantes, la création de nouvelles caractéristiques et la sélection des caractéristiques pertinentes.

Transféré par

Med amine Elyakhloufi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

4) Feature Engineering

Le Feature Engineering consiste à créer, transformer ou sélectionner des


caractéristiques (features) à partir des données brutes pour améliorer les
performances d’un modèle d’apprentissage automatique.

● Pourquoi est-ce important ?


○ Un bon jeu de features simplifie la tâche du modèle et améliore sa précision.
○ Permet de capturer des relations complexes entre les variables d'entrée (X) et la cible (y).
○ Un jeu de features pertinent réduit les erreurs de prédiction.
○ Les modèles apprennent plus efficacement avec des données bien préparées.

Exemple:

Prédiction des ventes en fonction de la date


Dans un problème de prévision de ventes, la date brute peut être transformée en plusieurs
caractéristiques utiles comme le jour de la semaine, mois, si c’est un jour férié, ou la saison. 1
4) Feature Engineering
1 Prétraitement des données

Avant de travailler sur les features, il faut nettoyer les données :

● Traitement des valeurs manquantes


○ Remplacement par la moyenne/médiane pour les valeurs
numériques.
○ Valeur par défaut (“inconnu”) ou suppression pour les valeurs
catégorielles.

Âge existants :
25, 40, 35
→ Médiane =
35. 2
4) Feature Engineering
1 Prétraitement des données

● Traitement des doublons et valeurs aberrantes (outliers) :


a. Utiliser des méthodes comme l’IQR (intervalle interquartile) ou le
Z-score pour détecter les outliers.
μ est la moyenne et σ est l’écart-type.
Aberrante si : ∣Z∣>3

b. Décider de les supprimer ou de les limiter (capping)

Après Capping : 52 3
4) Feature Engineering
● Transformation des données:

→ Convertir les valeurs pour qu'elles aient une distribution similaire

● Standardisation:
○ La standardisation (mettre à l'échelle autour de la moyenne 0) est
importante pour les modèles sensibles à l’échelle comme les SVM ou
les régressions.

● Normalisation:
○ La normalisation (valeurs entre 0 et 1) est utile pour les algorithmes
comme les réseaux neuronaux.
Xmin et Xmax sont respectivement la valeur
minimale et maximale de la colonne. 4
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Encodage des données catégorielles :
○ One-Hot Encoding : Transforme chaque catégorie en une colonne binaire.

→ Quand il n'y a pas d'ordre dans les catégories (pays, couleur, etc.)

Exemple: Créer une colonne pour chaque catégorie unique de ‘Objet’ (personne, voiture,
chien, chat, etc.). Chaque colonne contient 1 si l’observation appartient à la catégorie,
sinon 0.

○ Ordinal Encoding : Assigne un ordre numérique à chaque catégorie.

→ Quand les catégories ont un ordre naturel (éducation, taille, hiérarchie, etc.)

Exemple : Segmenter les clients


en groupes homogènes selon
leur secteur d'activité, taille de
5
l'entreprise, etc.
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Encodage des données catégorielles :
Attention : la transformation d’un nombre élevé de catégories avec One-Hot
encoding risque de donner lieu à une explosion de dimensionnalité
○ Solutions alternatives:
i. Label encoding (ex. l’ordre)
ii. Binary encodings
iii. Embeddings
iv. ….
Les embeddings sont une technique d'encodage utilisée principalement dans les réseaux neuronaux
pour transformer des données catégorielles (comme des mots ou des labels) en vecteurs de nombres
réels dans un espace à faible dimension. Ces vecteurs sont appris pendant l'entraînement du modèle
et capturent des relations complexes entre les différentes catégories. 6
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Transformation logarithmique :

→ Utilisée pour réduire l’impact des grandes valeurs dans des distributions
asymétriques et rendre la distribution des données plus symétrique.

○ "compresser" les grandes valeurs tout en gardant les petites valeurs relativement
intactes. La fonction logarithme est définie par : log(x)

7
4) Feature Engineering
3 Création de nouvelles caractéristiques

Combiner ou transformer les caractéristiques existantes pour générer des insights


pertinents.

1. Combinaison de caractéristiques
○ Exemple : À partir de la taille et du poids, on peut créer une nouvelle
caractéristique "IMC". ou “longueur" et "largeur" → surface.
2. Extraction de caractéristiques temporelles (variable de type date/heure)
○ Exemple 1: "date_vente" -> jour de la semaine, mois, année, heure, etc.
○ Exemple 2: heure de pointe (0/1) a partir d'un horodatage
3. Binning (Regroupement en intervalles): Transformer une caractéristique numérique
en catégories en la regroupant dans des intervalles.
○ Exemple : Age -> categories (jeune, adulte, senior)
8
4) Feature Engineering
3 Création de nouvelles caractéristiques

Combiner ou transformer les caractéristiques existantes pour générer des insights


pertinents.

4. Caractéristiques basées sur des regroupements : Ajouter une statistique (moyenne,


somme, etc.) basée sur un regroupement.

● Exemple : "client_id" et "montant_achat" → "total_achat_client"

9
4) Feature Engineering
4 Sélection des caractéristiques pertinentes

● Pourquoi réduire la dimensionnalité ?


○ Pour éviter le surapprentissage (overfitting).
○ Pour accélérer le calcul du modèle.
● Techniques :

A. Analyse statistique : Méthodes comme l’ANOVA ou Chi-carré pour évaluer la relation


entre chaque feature X et la cible Y, en attribuant une importance statistique.

Exemple: Prédire si un client achète un produit (oui/non) basé sur une variable
catégorielle.

■ Un score élevé de Chi-carré indique une forte relation entre la variable et la


cible.
10
4) Feature Engineering
B. Importance des caractéristiques : Calculée avec des modèles comme Random Forest.

● Les modèles fournissent un score d'importance pour chaque caractéristique en fonction


de leur impact sur les prédictions.
● Les caractéristiques avec des scores d'importance plus élevés contribuent davantage au
modèle.
● Vous pouvez conserver les caractéristiques avec une importance au-dessus d’un certain
seuil.

C. Méthodes de sélection automatisée :

● Utiliser des algorithmes comme RFE (Recursive Feature Elimination).


● RFE réduit progressivement les caractéristiques en entraînant un modèle et en éliminant
les moins importantes.

11
4) Feature Engineering
Qualités d’un bon Feature Engineering
● Représentativité : Les features doivent capturer les caractéristiques essentielles du
problème.
● Simplicité : Éviter des transformations inutiles ou trop complexes.
● Corrélation avec la cible : Une bonne feature doit avoir une relation significative
avec la variable cible.
● Non-colinéarité : Les features hautement corrélées entre elles peuvent réduire la
performance d’un modèle.

Exemple :
Dans un modèle de prédiction du prix des maisons :

● Ajouter une feature "prix par m²" peut être plus pertinente que les variables
"surface" et "prix" séparément.
12

Vous aimerez peut-être aussi