0% ont trouvé ce document utile (0 vote)

42 vues12 pages

Feature Engin

Le Feature Engineering consiste à créer, transformer ou sélectionner des caractéristiques à partir de données brutes pour optimiser les performances des modèles d'apprentissage automatique. Il est crucial pour améliorer la précision des prédictions, capturer des relations complexes et réduire les erreurs. Les étapes incluent le prétraitement des données, la transformation des caractéristiques existantes, la création de nouvelles caractéristiques et la sélection des caractéristiques pertinentes.

Transféré par

Med amine Elyakhloufi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

42 vues12 pages

Feature Engin

Transféré par

Med amine Elyakhloufi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

4) Feature Engineering

Le Feature Engineering consiste à créer, transformer ou sélectionner des

caractéristiques (features) à partir des données brutes pour améliorer les
performances d’un modèle d’apprentissage automatique.

● Pourquoi est-ce important ?

○ Un bon jeu de features simplifie la tâche du modèle et améliore sa précision.
○ Permet de capturer des relations complexes entre les variables d'entrée (X) et la cible (y).
○ Un jeu de features pertinent réduit les erreurs de prédiction.
○ Les modèles apprennent plus efficacement avec des données bien préparées.

Exemple:

Prédiction des ventes en fonction de la date

Dans un problème de prévision de ventes, la date brute peut être transformée en plusieurs
caractéristiques utiles comme le jour de la semaine, mois, si c’est un jour férié, ou la saison. 1
4) Feature Engineering
1 Prétraitement des données

Avant de travailler sur les features, il faut nettoyer les données :

● Traitement des valeurs manquantes

○ Remplacement par la moyenne/médiane pour les valeurs
numériques.
○ Valeur par défaut (“inconnu”) ou suppression pour les valeurs
catégorielles.

Âge existants :
25, 40, 35
→ Médiane =
35. 2
4) Feature Engineering
1 Prétraitement des données

● Traitement des doublons et valeurs aberrantes (outliers) :

a. Utiliser des méthodes comme l’IQR (intervalle interquartile) ou le
Z-score pour détecter les outliers.
μ est la moyenne et σ est l’écart-type.
Aberrante si : ∣Z∣>3

b. Décider de les supprimer ou de les limiter (capping)

Après Capping : 52 3
4) Feature Engineering
● Transformation des données:

→ Convertir les valeurs pour qu'elles aient une distribution similaire

● Standardisation:
○ La standardisation (mettre à l'échelle autour de la moyenne 0) est
importante pour les modèles sensibles à l’échelle comme les SVM ou
les régressions.

● Normalisation:
○ La normalisation (valeurs entre 0 et 1) est utile pour les algorithmes
comme les réseaux neuronaux.
Xmin et Xmax sont respectivement la valeur
minimale et maximale de la colonne. 4
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Encodage des données catégorielles :
○ One-Hot Encoding : Transforme chaque catégorie en une colonne binaire.

→ Quand il n'y a pas d'ordre dans les catégories (pays, couleur, etc.)

Exemple: Créer une colonne pour chaque catégorie unique de ‘Objet’ (personne, voiture,
chien, chat, etc.). Chaque colonne contient 1 si l’observation appartient à la catégorie,
sinon 0.

○ Ordinal Encoding : Assigne un ordre numérique à chaque catégorie.

→ Quand les catégories ont un ordre naturel (éducation, taille, hiérarchie, etc.)

Exemple : Segmenter les clients

en groupes homogènes selon
leur secteur d'activité, taille de
5
l'entreprise, etc.
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Encodage des données catégorielles :
Attention : la transformation d’un nombre élevé de catégories avec One-Hot
encoding risque de donner lieu à une explosion de dimensionnalité
○ Solutions alternatives:
i. Label encoding (ex. l’ordre)
ii. Binary encodings
iii. Embeddings
iv. ….
Les embeddings sont une technique d'encodage utilisée principalement dans les réseaux neuronaux
pour transformer des données catégorielles (comme des mots ou des labels) en vecteurs de nombres
réels dans un espace à faible dimension. Ces vecteurs sont appris pendant l'entraînement du modèle
et capturent des relations complexes entre les différentes catégories. 6
4) Feature Engineering
2 Transformation des caractéristiques existantes
● Transformation logarithmique :

→ Utilisée pour réduire l’impact des grandes valeurs dans des distributions
asymétriques et rendre la distribution des données plus symétrique.

○ "compresser" les grandes valeurs tout en gardant les petites valeurs relativement
intactes. La fonction logarithme est définie par : log(x)

7
4) Feature Engineering
3 Création de nouvelles caractéristiques

Combiner ou transformer les caractéristiques existantes pour générer des insights

pertinents.

1. Combinaison de caractéristiques
○ Exemple : À partir de la taille et du poids, on peut créer une nouvelle
caractéristique "IMC". ou “longueur" et "largeur" → surface.
2. Extraction de caractéristiques temporelles (variable de type date/heure)
○ Exemple 1: "date_vente" -> jour de la semaine, mois, année, heure, etc.
○ Exemple 2: heure de pointe (0/1) a partir d'un horodatage
3. Binning (Regroupement en intervalles): Transformer une caractéristique numérique
en catégories en la regroupant dans des intervalles.
○ Exemple : Age -> categories (jeune, adulte, senior)
8
4) Feature Engineering
3 Création de nouvelles caractéristiques

Combiner ou transformer les caractéristiques existantes pour générer des insights

pertinents.

4. Caractéristiques basées sur des regroupements : Ajouter une statistique (moyenne,

somme, etc.) basée sur un regroupement.

● Exemple : "client_id" et "montant_achat" → "total_achat_client"

9
4) Feature Engineering
4 Sélection des caractéristiques pertinentes

● Pourquoi réduire la dimensionnalité ?

○ Pour éviter le surapprentissage (overfitting).
○ Pour accélérer le calcul du modèle.
● Techniques :

A. Analyse statistique : Méthodes comme l’ANOVA ou Chi-carré pour évaluer la relation

entre chaque feature X et la cible Y, en attribuant une importance statistique.

Exemple: Prédire si un client achète un produit (oui/non) basé sur une variable
catégorielle.

■ Un score élevé de Chi-carré indique une forte relation entre la variable et la

cible.
10
4) Feature Engineering
B. Importance des caractéristiques : Calculée avec des modèles comme Random Forest.

● Les modèles fournissent un score d'importance pour chaque caractéristique en fonction

de leur impact sur les prédictions.
● Les caractéristiques avec des scores d'importance plus élevés contribuent davantage au
modèle.
● Vous pouvez conserver les caractéristiques avec une importance au-dessus d’un certain
seuil.

C. Méthodes de sélection automatisée :

● Utiliser des algorithmes comme RFE (Recursive Feature Elimination).

● RFE réduit progressivement les caractéristiques en entraînant un modèle et en éliminant
les moins importantes.

11
4) Feature Engineering
Qualités d’un bon Feature Engineering
● Représentativité : Les features doivent capturer les caractéristiques essentielles du
problème.
● Simplicité : Éviter des transformations inutiles ou trop complexes.
● Corrélation avec la cible : Une bonne feature doit avoir une relation significative
avec la variable cible.
● Non-colinéarité : Les features hautement corrélées entre elles peuvent réduire la
performance d’un modèle.

Exemple :
Dans un modèle de prédiction du prix des maisons :

● Ajouter une feature "prix par m²" peut être plus pertinente que les variables
"surface" et "prix" séparément.
12

Vous aimerez peut-être aussi

Feature Engineering en Machine Learning
Pas encore d'évaluation
Feature Engineering en Machine Learning
37 pages
Ingénierie des Caractéristiques en ML
Pas encore d'évaluation
Ingénierie des Caractéristiques en ML
26 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
88 pages
Feature Engineering - IA-Z
Pas encore d'évaluation
Feature Engineering - IA-Z
5 pages
Projet Seattle : Bâtiments et CO2 2050
Pas encore d'évaluation
Projet Seattle : Bâtiments et CO2 2050
32 pages
Rapport Projet
Pas encore d'évaluation
Rapport Projet
22 pages
Processus de la Data Science en Finance
Pas encore d'évaluation
Processus de la Data Science en Finance
62 pages
Ingénierie et Sélection de Caractéristiques
Pas encore d'évaluation
Ingénierie et Sélection de Caractéristiques
74 pages
Projet de Data Mining : RUL et Musique
Pas encore d'évaluation
Projet de Data Mining : RUL et Musique
3 pages
Steps To Complete A Machine Learning
Pas encore d'évaluation
Steps To Complete A Machine Learning
11 pages
Exam ML Blanc
Pas encore d'évaluation
Exam ML Blanc
4 pages
Classification d'Images par CNN avec Keras
Pas encore d'évaluation
Classification d'Images par CNN avec Keras
17 pages
Ai TP1 2024
Pas encore d'évaluation
Ai TP1 2024
5 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Notes de Cours de Fouille de Donnees
Pas encore d'évaluation
Notes de Cours de Fouille de Donnees
256 pages
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
Pas encore d'évaluation
00 Intro Machine Learning 15 05 2025 OLYMPIADE 2025
9 pages
Machine Learning Francais
Pas encore d'évaluation
Machine Learning Francais
133 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Cours avancé en fouille de données
Pas encore d'évaluation
Cours avancé en fouille de données
96 pages
Cours ML Mounira
100% (1)
Cours ML Mounira
131 pages
Détection Pneumonie par IA
Pas encore d'évaluation
Détection Pneumonie par IA
10 pages
Cours Sur Les Généralités Du Machine Learning
Pas encore d'évaluation
Cours Sur Les Généralités Du Machine Learning
12 pages
Rapport PFE Data Science de La Maintenance Predictive CHAMI Soufiane
100% (1)
Rapport PFE Data Science de La Maintenance Predictive CHAMI Soufiane
88 pages
tp1 Remarquesv2
Pas encore d'évaluation
tp1 Remarquesv2
13 pages
Introduction à la fouille de données
Pas encore d'évaluation
Introduction à la fouille de données
237 pages
Cours IA3 - 5A GE
Pas encore d'évaluation
Cours IA3 - 5A GE
40 pages
CH IV Applications 24
Pas encore d'évaluation
CH IV Applications 24
45 pages
Introduction au Machine Learning et NLP
Pas encore d'évaluation
Introduction au Machine Learning et NLP
4 pages
Génération d'algorithmes d'optimisation
Pas encore d'évaluation
Génération d'algorithmes d'optimisation
171 pages
Rapport Machine Learning
100% (1)
Rapport Machine Learning
61 pages
Cours NN
Pas encore d'évaluation
Cours NN
79 pages
Feature Engineering pour ML Texte et Image
Pas encore d'évaluation
Feature Engineering pour ML Texte et Image
1 page
Comp Bio 6
Pas encore d'évaluation
Comp Bio 6
37 pages
Pré-traitement des données d'attaques de requins
Pas encore d'évaluation
Pré-traitement des données d'attaques de requins
29 pages
Techniques de Vision par Ordinateur 2D/3D
Pas encore d'évaluation
Techniques de Vision par Ordinateur 2D/3D
51 pages
Intitule Projets Version 2
Pas encore d'évaluation
Intitule Projets Version 2
4 pages
Intro Au Machine Learning
Pas encore d'évaluation
Intro Au Machine Learning
12 pages
eMBI Generation Des Donnees 26 06 2021
Pas encore d'évaluation
eMBI Generation Des Donnees 26 06 2021
86 pages
Feature Engineering.: Importation Des Bibliothèques
Pas encore d'évaluation
Feature Engineering.: Importation Des Bibliothèques
5 pages
Cours - Systemes Intelligents - C6
Pas encore d'évaluation
Cours - Systemes Intelligents - C6
11 pages
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
Pas encore d'évaluation
Ames Housing Price Prediction Et Réalisation Du Projet ML Avec Python
12 pages
Analyse Avis Client
Pas encore d'évaluation
Analyse Avis Client
30 pages
Cours Fouille de Données Partie2
Pas encore d'évaluation
Cours Fouille de Données Partie2
83 pages
Introduction au Machine Learning et IA
Pas encore d'évaluation
Introduction au Machine Learning et IA
63 pages
Report Template
Pas encore d'évaluation
Report Template
40 pages
Chapitre 1m2r
Pas encore d'évaluation
Chapitre 1m2r
7 pages
Data Mining et Machine Learning : Guide Complet
Pas encore d'évaluation
Data Mining et Machine Learning : Guide Complet
34 pages
Classification des données ouvertes Yelp
Pas encore d'évaluation
Classification des données ouvertes Yelp
57 pages
TP Mnist Ia M1
Pas encore d'évaluation
TP Mnist Ia M1
75 pages
Travail Pratique D Intelligence Artificielle
Pas encore d'évaluation
Travail Pratique D Intelligence Artificielle
7 pages
SVM pour l'imagerie hyperspectrale
Pas encore d'évaluation
SVM pour l'imagerie hyperspectrale
38 pages
Analyse PCA des produits cosmétiques
Pas encore d'évaluation
Analyse PCA des produits cosmétiques
8 pages
Classification supervisée et réduction de dimension
Pas encore d'évaluation
Classification supervisée et réduction de dimension
163 pages
Cours DM - Classification
Pas encore d'évaluation
Cours DM - Classification
23 pages
Analyse des données pour l'attribution de crédit
Pas encore d'évaluation
Analyse des données pour l'attribution de crédit
17 pages
Introduction à la Data Science
Pas encore d'évaluation
Introduction à la Data Science
23 pages
Ingénierie des Données à l'Université de Maroua
Pas encore d'évaluation
Ingénierie des Données à l'Université de Maroua
12 pages
Weather Prediction Presentation
Pas encore d'évaluation
Weather Prediction Presentation
22 pages
Exercices de mathématiques avancées
Pas encore d'évaluation
Exercices de mathématiques avancées
22 pages
Projet M1: Étude d'un Algorithme
Pas encore d'évaluation
Projet M1: Étude d'un Algorithme
2 pages
Exposants de Lyapunov Francais
Pas encore d'évaluation
Exposants de Lyapunov Francais
7 pages
Examen Méthodes Numériques S2 2023/24
Pas encore d'évaluation
Examen Méthodes Numériques S2 2023/24
5 pages
Huffman
Pas encore d'évaluation
Huffman
23 pages
Problèmes d'Optimisation Combinatoire
Pas encore d'évaluation
Problèmes d'Optimisation Combinatoire
12 pages
Exercices sur les algorithmes récurrents
Pas encore d'évaluation
Exercices sur les algorithmes récurrents
2 pages
Projet MEF UIC 25
Pas encore d'évaluation
Projet MEF UIC 25
2 pages
Eco - 24 1 2
Pas encore d'évaluation
Eco - 24 1 2
2 pages
Report-0.67088400 1741974635
Pas encore d'évaluation
Report-0.67088400 1741974635
2 pages
Algo Fond - Exam 08-09 - Q1 & 2.3 - Sujet + Corrigé
Pas encore d'évaluation
Algo Fond - Exam 08-09 - Q1 & 2.3 - Sujet + Corrigé
3 pages
Plus Court Chemin dans un Graphe C++
Pas encore d'évaluation
Plus Court Chemin dans un Graphe C++
24 pages
Quelles Sont Les Étapes de La Numérisation
Pas encore d'évaluation
Quelles Sont Les Étapes de La Numérisation
1 page
Extrema locaux et globaux: Définition et Conditions
Pas encore d'évaluation
Extrema locaux et globaux: Définition et Conditions
31 pages
Méthode de Galerkin pour EDP 2024-2025
Pas encore d'évaluation
Méthode de Galerkin pour EDP 2024-2025
1 page
Signaux Deterministes Temps Continu
Pas encore d'évaluation
Signaux Deterministes Temps Continu
14 pages
Vibrations des structures en 1D
Pas encore d'évaluation
Vibrations des structures en 1D
18 pages
Exercice Algo
Pas encore d'évaluation
Exercice Algo
9 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
10 pages
Examen Informatique Matlab 1ère Année
Pas encore d'évaluation
Examen Informatique Matlab 1ère Année
1 page
Stratégies de Recherche en IA et Graphes
Pas encore d'évaluation
Stratégies de Recherche en IA et Graphes
2 pages
DM Chapitre 02 Partie 02
Pas encore d'évaluation
DM Chapitre 02 Partie 02
70 pages
TD1 Aa2024
Pas encore d'évaluation
TD1 Aa2024
4 pages
Manuel de Solutions Schaum Sur La Transformée de Laplace
Pas encore d'évaluation
Manuel de Solutions Schaum Sur La Transformée de Laplace
3 pages
TD3 - Processus - Aleatoires ROP 3
Pas encore d'évaluation
TD3 - Processus - Aleatoires ROP 3
3 pages
Initiation à la Recherche Opérationnelle
Pas encore d'évaluation
Initiation à la Recherche Opérationnelle
244 pages
TD 03
Pas encore d'évaluation
TD 03
8 pages
Commande Électrique : Exercices S5
Pas encore d'évaluation
Commande Électrique : Exercices S5
3 pages
Algorithmes de tri : sélection et bulles
Pas encore d'évaluation
Algorithmes de tri : sélection et bulles
3 pages
Calcul de La Complexité D'un Algorithme
Pas encore d'évaluation
Calcul de La Complexité D'un Algorithme
35 pages