0% ont trouvé ce document utile (0 vote)

71 vues19 pages

TP 01 Data Preprosessing

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

71 vues19 pages

TP 01 Data Preprosessing

Transféré par

Marwan Housni

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Travaux pratiques N 1 : Data Preprosessing

Module: Data Mining (LSDM- S5)

College of Computing – Université Mohammed VI Polytechnique
Année universitaire 2024-2025
[email protected]
—————————————————————–

Le prétraitement des données est essentiel en machine learning pour garantir la qualité des données avant de
les utiliser dans des modèles. Dans ces travaux pratiques, nous allons étudier:

1- Traitement des Valeurs Aberrantes: Les valeurs aberrantes peuvent fausser les analyses. Elles peuvent
être supprimées ou ajustées après identification, souvent à l'aide de méthodes graphiques ou statistiques.

2- Traitement des Données Manquantes: Les données manquantes peuvent être imputées (remplacées par
des estimations) ou supprimées, selon la proportion et l’importance des données absentes.

3- Encodage des Variables Catégoriques: Les variables non numériques doivent être converties en
numériques via des méthodes comme le label encoding ou le one-hot encoding.

4- Normalisation et Standardisation: Ces techniques ajustent l’échelle des données pour qu’elles soient
comparables, cruciales pour certains algorithmes sensibles aux écarts d’échelle.

5- Transformation des Features Quantitatifs: Des transformations comme logarithmiques ou polynomiales

peuvent être appliquées pour rendre les relations entre variables plus exploitables par les modèles.

1 / 19
1- Identi cation_Et_Traitement_Valeurs_Aberrantes

fi
keyboard_arrow_down
Imporation des packages

1 # Import des librairies nécessaires

2 import numpy as np
3 import pandas as pd
4 import matplotlib.pyplot as plt
5 import seaborn as sns
6 from scipy.stats import zscore
7 from sklearn.ensemble import IsolationForest

1 # Charger la base de données Boston Housing

2 from sklearn.datasets import load_boston
3 boston = load_boston()
4 data = pd.DataFrame(boston.data, columns=boston.feature_names)
5 data['PRICE'] = boston.target
6 print(data.head())
7

1 # Desciption de la base de données

2 data.describe()
3

Identi cation graphique des outliers

fi
keyboard_arrow_down
1 # Visualiser les outliers en utilisant un boxplot avec Seaborn
2 plt.figure(figsize=(12, 6))
3 sns.boxplot(data=data, x='PRICE')
4 plt.xlabel('Prix des maisons')
5 plt.title("Boxplot des prix des maisons à Boston")
6 plt.show()

Identi cation des outliers univariées

fi
keyboard_arrow_down
Identi cation des outliers IQR
fi
keyboard_arrow_down
La méthode de l'IQR est une approche courante pour identi er les valeurs aberrantes dans des données univariées. Elle utilise l'écart
fi
interquartile pour dé nir une plage de valeurs plausibles et identi e les observations qui sont en dehors de cette plage.
fi
fi
Dé nition
fi
keyboard_arrow_down
L'IQR est dé ni comme la différence entre le troisième quartile (Q3) et le premier quartile (Q1) de la distribution des données. Les bornes
fi
inférieure et supérieure de la plage plausible sont dé nies comme suit :
fi
Limite inférieure : Q1 - 1,5 x IQR
Limite supérieure : Q3 + 1,5 x IQR

Les observations en dehors de ces bornes sont considérées comme des valeurs aberrantes.

Avantages
La méthode de l'IQR est relativement simple à comprendre et à implémenter. Elle est également assez robuste aux valeurs aberrantes, car elle
utilise la médiane et l'écart interquartile pour calculer les bornes plausibles.

Inconvénients
La méthode de l'IQR peut ne pas fonctionner correctement dans certaines distributions non symétriques, car elle suppose une distribution
normale ou presque normale des données. Elle peut également ne pas fonctionner correctement si les données contiennent de nombreux
points de données aberrants. 2 / 19
1 # Identification des données aberrantes - IQR
2 # Fonction pour détecter les outliers en utilisant l'IQR
3 def detect_outliers_iqr(data, column):
4 Q1 = data[column].quantile(0.25)
5 Q3 = data[column].quantile(0.75)
6 IQR = Q3 - Q1
7 lower_bound = Q1 - 1.5 * IQR
8 upper_bound = Q3 + 1.5 * IQR
9 return data[(data[column] < lower_bound) | (data[column] > upper_bound)]
10
11 # Trouver les outliers pour la colonne 'PRICE'
12 outliers = detect_outliers_iqr(data, 'PRICE')
13
14 # Afficher les outliers
15 print("Outliers détectés:")
16 print(outliers)

Identi cation des outliers avec Z-score

fi
Méthode du z-score
keyboard_arrow_down
La méthode du z-score est une autre approche courante pour identi er les valeurs aberrantes dans des données univariées. Elle utilise l'écart à
fi
la moyenne pour dé nir une plage de valeurs plausibles et identi e les observations qui sont en dehors de cette plage.
fi
fi
Dé nition
fi
Le z-score est dé ni comme la différence entre une observation et la moyenne de la distribution des données, divisée par l'écart-type de la
fi
distribution :

z = (x - μ) / σ

Les bornes inférieure et supérieure de la plage plausible sont dé nies comme suit :
fi
Limite inférieure : μ - 3 x σ
Limite supérieure : μ + 3 x σ

Les observations en dehors de ces bornes sont considérées comme des valeurs aberrantes.

Avantages
La méthode du z-score est également relativement simple à comprendre et à implémenter. Elle est également assez robuste aux valeurs
aberrantes, car elle utilise la moyenne et l'écart-type pour calculer les bornes plausibles.

Inconvénients
Comme pour la méthode de l'IQR, la méthode du z-score peut ne pas fonctionner correctement dans certaines distributions non symétriques.
Elle peut également ne pas fonctionner correctement si les données contiennent de nombreux points de données aberrants.

1
2 # Identification des données aberrantes - Z-score
3 # Fonction pour détecter les outliers en utilisant le z-score
4 def detect_outliers_zscore(data, column, threshold=2):
5 z_scores = (data[column] - data[column].mean()) / data[column].std()
6 return data[np.abs(z_scores) > threshold]
7
8 # Trouver les outliers pour la colonne 'PRICE'
9 outliers = detect_outliers_zscore(data, 'PRICE')
10
11 # Afficher les outliers
12 print("Outliers détectés:")
13 print(outliers)
14

Identi cation des outliers avec des approches multivariées

fi
keyboard_arrow_down
3 / 19
keyboard_arrow_down
Analyse graphique

1
2 # Détecter les outliers pour les colonnes 'RM' et 'PRICE'
3 outliers_rm = detect_outliers_iqr(data, 'RM')
4 outliers_price = detect_outliers_iqr(data, 'PRICE')
5
6 # Ajouter une colonne pour indiquer si la valeur est extrême
7 data['Outlier'] = False
8 data.loc[outliers_rm.index, 'Outlier'] = True
9 data.loc[outliers_price.index, 'Outlier'] = True
10
11 # Créer un nuage de points (scatter plot) avec Seaborn en mettant en évidence les valeurs ext
12 plt.figure(figsize=(12, 6))
13 sns.scatterplot(data=data, x='RM', y='PRICE', hue='Outlier', palette='viridis')
14 plt.xlabel('Nombre moyen de pièces par logement')
15 plt.ylabel('Prix des maisons')
16 plt.title("Nuage de points entre le nombre de pièces et le prix des maisons à Boston (valeurs
17 plt.show()

Isolation Forest
keyboard_arrow_down
L'Isolation Forest est une méthode d'apprentissage automatique non supervisée pour identi er les valeurs aberrantes dans des données

fi
univariées et multivariées. Elle fonctionne en construisant plusieurs arbres de décision aléatoires et en calculant un score d'anomalie pour
chaque observation en fonction de la profondeur moyenne à laquelle elle est isolée des autres observations.

Dé nition
fi
keyboard_arrow_down
L'Isolation Forest est basée sur l'idée que les valeurs aberrantes sont plus faciles à isoler que les valeurs normales. Elle construit plusieurs
arbres de décision aléatoires et divise les données en sous-ensembles aléatoires à chaque nœud. L'algorithme isole les observations en
fonction de la profondeur moyenne à laquelle elles sont isolées par rapport aux autres observations. Les observations qui sont isolées plus
rapidement que la moyenne sont considérées comme des valeurs aberrantes.

Avantages
L'Isolation Forest est capable de détecter les valeurs aberrantes dans des données univariées et multivariées. Elle fonctionne également bien
avec des distributions non symétriques et est assez robuste aux valeurs aberrantes.

Inconvénients
L'Isolation Forest peut être sensible aux paramètres tels que le nombre d'arbres et la taille des sous-échantillons. De plus, elle peut parfois être
di cile à interpréter, en particulier pour les données multivariées.
ffi
1 from sklearn.ensemble import IsolationForest
2
3 # Appliquer l'Isolation Forest
4 iso_forest = IsolationForest(contamination=0.1, random_state=42)
5 outlier_labels = iso_forest.fit_predict(data)
6
7 # Ajouter les labels d'anomalie au DataFrame
8 data['Outlier'] = outlier_labels
9
10 # Afficher les outliers
11 outliers = data[data['Outlier'] == -1]
12 print("Outliers détectés:")
13 print(outliers)

Solutions pour traiter les valeurs extrêmes

keyboard_arrow_down
Type de valeur aberrante Solutions pour les traiter

Erreur 1. Correction de l'erreur si possible (ex. erreurs de saisie)

2. Suppression de l'observation si la correction n'est pas possible et si l'erreur est clairement une anomalie

4 / 19
3. Remplacer par une valeur manquante et imputer avec les techniques d'imputation
Type de valeur aberrante Solutions pour les traiter

Extrême 1. Transformation des données (ex. logarithmique, racine carrée) pour réduire l'impact des valeurs extrêmes

2. Winsorisation : remplacer les valeurs extrêmes par des percentiles spéci ques (ex. 1er et 99e percentiles)

fi
3. Utiliser des modèles d'apprentissage automatique robustes aux valeurs extrêmes (ex. modèles basés sur les rangs)

4. Discrétiser la variable

5. Faire le modèle avec et sans les valeurs extrêmes et analyser l'impact

1 Commencez à coder ou à générer avec l'IA.

5 / 19
2- Missing Data Treatment
keyboard_arrow_down
Chargement des données

1 import pandas as pd
2 import numpy as np
3 import missingno as msno
4 import matplotlib.pyplot as plt
5 from sklearn.experimental import enable_iterative_imputer
6 from sklearn.impute import MissingIndicator, KNNImputer,SimpleImputer
7 from sklearn.impute import IterativeImputer
8
9 import seaborn as sns

1
2 # Charger l'ensemble de données Pima Indians Diabetes
3 df = pd.read_csv("horse.csv")
4 df.head(10)

1 print(df.info())

1 # Visualiser les valeurs manquantes avec missingno

2 msno.matrix(df)
3 plt.show()

1 msno.bar(df)
2 plt.show()

1 msno.heatmap(df)
2 plt.show()
3

1 # Tableau des valeurs manquantes par colonne

2 missing_values = df.isnull().sum()
3 missing_percent = (missing_values / len(df)) * 100
4 missing_table = pd.DataFrame({'Missing Values': missing_values, 'Percentage': missing_percent
5 print(missing_table)
6

1 # Analyser la corrélation entre les valeurs manquantes

2 msno.dendrogram(df)
3 plt.show()

Imputation par la médiane, la moyenne et le mode

keyboard_arrow_down
L'imputation par la moyenne, la médiane et le mode sont des méthodes simples pour remplacer les valeurs manquantes dans une variable.

L'imputation par la moyenne consiste à remplacer les valeurs manquantes par la moyenne des valeurs non manquantes dans la variable. Cette
méthode est utile pour les variables continues et symétriques.

L'imputation par la médiane consiste à remplacer les valeurs manquantes par la médiane des valeurs non manquantes dans la variable. Cette
méthode est utile pour les variables continues qui ont une distribution asymétrique ou pour les variables ordinales.

L'imputation par le mode consiste à remplacer les valeurs manquantes par le mode, c'est-à-dire la valeur la plus fréquente, dans la variable.
Cette méthode est utile pour les variables catégorielles ou nominales.

Ces méthodes sont simples à mettre en œuvre et peuvent être e caces lorsque les données manquantes sont MCAR (Missing Completely At
ffi
Random), c'est-à-dire que les valeurs manquantes sont indépendantes des autres variables. Toutefois, elles peuvent introduire un biais dans les
données si les valeurs manquantes sont liées à d'autres variables dans les données.

6 / 19
keyboard_arrow_down
Imputation par la médiane

1 imputer_median = SimpleImputer(strategy='median')
2 df['total_protein_impute'] = imputer_median.fit_transform(df[['total_protein']])
3
4 df.isnull().mean()

1 # Autre méthode
2
3 # Imputation par la médiane pour la colonne 'total_protein'
4 median = df['packed_cell_volume'].median()
5 df['packed_cell_volume_impute']=df['packed_cell_volume'].fillna(median)
6
7 # Vérifier les valeurs manquantes après imputation
8 missing_values_after = df.isnull().mean()
9 print("\nMissing Values After Treatment:\n", missing_values_after)

Imputation par la moyenne

keyboard_arrow_down
1 imputer_mean = SimpleImputer(strategy='mean')
2 df['pulse_imp'] = imputer_mean.fit_transform(df[['pulse']])
3
4 df.isnull().mean()

1 # Autre méthode
2
3 # Imputation par la moyenne pour la colonne 'total_protein'
4 mean = df['total_protein'].mean()
5 df['total_protein_imp']=df['total_protein'].fillna(mean)
6
7 # Vérifier les valeurs manquantes après imputation
8 missing_values_after = df.isnull().mean()
9 print("\nMissing Values After Treatment:\n", missing_values_after)

Imputation par le mode

keyboard_arrow_down
1 # Imputation par le mode
2 imputer_mode = SimpleImputer(strategy='most_frequent')
3 df['peripheral_pulse_imputed'] = imputer_mode.fit_transform(df[['peripheral_pulse']])
4

1 # Vérifier les valeurs manquantes après traitement

2 missing_values = df.isnull().sum()
3 print("\nMissing Values After Treatment:\n", missing_values)

1 # Autre approche
2
3 # imputation par le mode
4 mode = df.surgery.mode()
5 df['surgery_imputed'] = df['surgery'].fillna(mode)
6 df.isnull().mean()
7

KNN imputer
keyboard_arrow_down
L'algorithme KNNImputer de scikit-learn est une méthode d'imputation des valeurs manquantes basée sur les k plus proches voisins. Il s'agit
d'une approche non-paramétrique qui utilise les valeurs des k plus proches voisins pour imputer les valeurs manquantes.

L'algorithme fonctionne en plusieurs étapes :

7 /proches
1. Définir la valeur de k, qui représente le nombre de voisins les plus 19 à considérer pour l'imputation.
2. Pour chaque valeur manquante, trouver les k plus proches voisins parmi les autres observations qui ont des valeurs non manquantes pour
la variable en question. La distance entre les observations peut être mesurée de différentes manières, telles que la distance euclidienne
ou la distance de Manhattan.

3. Imputer la valeur manquante par la valeur moyenne ou médiane des k voisins les plus proches.

L'algorithme KNNImputer est utile lorsque les données manquantes sont MCAR (Missing Completely At Random) ou MAR (Missing At
Random), c'est-à-dire que les valeurs manquantes ne sont pas liées à la valeur de la variable elle-même. Il peut être utilisé pour imputer des
variables continues ou catégorielles. Toutefois, il peut être plus lent que d'autres méthodes d'imputation telles que la simple imputation ou
l'imputation par la régression.

1 # Imputation par KNN Imputer

2 # KNN imputer avec 3 voisins pour plusieurs colonnes
3 imputer = KNNImputer(n_neighbors=3)
4
5 df[['total_protein_impute_knn', 'rectal_temp_impute_knn', 'pulse_impute_knn']] = imputer.fit_t
6
7 df.isnull().mean()

IterativeImputer
keyboard_arrow_down
L'algorithme IterativeImputer de scikit-learn est une méthode d'imputation des valeurs manquantes basée sur la régression. Il s'agit d'une
approche itérative qui utilise un modèle de régression pour imputer les valeurs manquantes à chaque itération, en utilisant les autres variables
pour prédire la variable manquante.

L'algorithme fonctionne en plusieurs étapes :

1. Imputer les valeurs manquantes initiales par une stratégie simple comme la moyenne, la médiane ou le mode.

2. Ensuite, le modèle de régression est ajusté pour prédire les valeurs manquantes à partir des autres variables. Cette régression peut être
linéaire, non linéaire ou de tout autre type en fonction des données.

3. Les valeurs manquantes sont alors imputées à l'aide du modèle de régression.

4. Les étapes 2 et 3 sont répétées plusieurs fois jusqu'à ce que la convergence soit atteinte. La convergence est déterminée par un critère
d'arrêt défini, tel que le nombre maximal d'itérations ou la convergence de la moyenne des différences entre les imputations consécutives.

L'algorithme IterativeImputer est utile lorsque les données manquantes sont MNAR (Missing Not At Random), c'est-à-dire que les valeurs
manquantes sont liées à la valeur de la variable elle-même. Il peut être utilisé pour imputer des variables continues ou catégorielles. Toutefois,
il peut être plus lent que d'autres méthodes d'imputation telles que la simple imputation.

1 # Créer un imputer IterativeImputer avec une stratégie de 'mean'

2 imputer = IterativeImputer(max_iter=10, random_state=0, sample_posterior=True)
3
4 # Imputer les colonnes 'total_protein', 'rectal_temp' et 'pulse' de la DataFrame df
5 df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']])
6
7 # Concaténer la DataFrame imputée avec la DataFrame originale
8 df = pd.concat([df, df_imputed], axis=1)
9 df.isnull().mean()

8 / 19
3- Encoding
keyboard_arrow_down
1 import pandas as pd
2 from sklearn.preprocessing import (LabelEncoder, OrdinalEncoder, OneHotEncoder,
3 LabelBinarizer, MultiLabelBinarizer)

Encoding des variables catégorielles

keyboard_arrow_down
Forme d'encodage Dé nition Avantages
fi
Label Encoding Transformation des valeurs catégorielles en entiers Facile à implémenter, adapté aux algorithmes de machine learning Création d'u

One-Hot Encoding Transformation des valeurs catégorielles en vecteurs binaires Ne crée pas de relation d'ordre arti cielle, adapté à de nombreux algorithmes de machine learning Peut créer d

fi
1
2 # Charger un exemple de dataset
3 df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data",
4 df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
5 print("Dataset original : ")
6 print(df.head())

Label Encoding
keyboard_arrow_down
Le Label Encoding est une technique de transformation de variables catégorielles en valeurs numériques ordinales. Chaque catégorie possible
de la variable est remplacée par un entier unique, en fonction de l'ordre dans lequel les catégories apparaissent dans la variable.

Avantages
Le Label Encoding présente plusieurs avantages :

Il est simple à mettre en œuvre et ne nécessite pas beaucoup de ressources.

Il préserve l'ordre des catégories si elle est importante pour l'analyse.

Inconvénients
Le Label Encoding présente également quelques inconvénients :

Il crée une relation d'ordre arti cielle entre les catégories.

fi
Il n'est pas adapté à certains algorithmes de machine learning, tels que les réseaux de neurones et les machines à vecteurs de support,
qui peuvent interpréter les valeurs numériques comme des valeurs continues plutôt que des catégories.

Conditions d'utilisation
Le Label Encoding est adapté aux variables catégorielles qui ont une relation d'ordre naturelle et pour lesquelles l'interprétation en termes de
valeurs numériques est pertinente. Cependant, il est important de prendre en compte les avantages, les inconvénients et les conditions
d'utilisation de cette technique pour éviter des erreurs d'interprétation ou des problèmes d'analyse.

En général, le Label Encoding est une technique simple et rapide pour encoder des variables catégorielles en valeurs numériques ordinales,
mais il est important de bien comprendre ses limites et d'utiliser d'autres techniques d'encodage pour des analyses plus avancées ou pour des
algorithmes de machine learning plus complexes.

1 # Label encoding
2 le = LabelEncoder()
3 df['class_le'] = le.fit_transform(df['class'])
4 print("Label encoding : ")
5 print(df[['class', 'class_le']].head())
6 print("Valeurs Unique")
7 print(df.class_le.unique())
8 # Réalisation de la table de contingence
9 table = pd.crosstab(df['class_le'], df['class'])
10 print(table)

One-Hot Encoding
keyboard_arrow_down
9 / 19
Le One-Hot Encoding est une technique de transformation de variables catégorielles en vecteurs binaires. Chaque catégorie possible de la
variable est représentée par une colonne binaire, et chaque observation est représentée par un vecteur binaire de la même dimension que le
nombre de catégories possibles.

Avantages
Le One-Hot Encoding présente plusieurs avantages :

Il ne crée pas de relation d'ordre arti cielle entre les catégories.

fi
Il est adapté à de nombreux algorithmes de machine learning, tels que les réseaux de neurones, les arbres de décision et les machines à
vecteurs de support.
Il permet de prendre en compte des variables catégorielles avec un grand nombre de catégories.

Inconvénients
Le One-Hot Encoding présente également quelques inconvénients :

Il peut créer des colonnes redondantes si une variable catégorielle a un grand nombre de catégories.
Il peut augmenter considérablement la taille des données si plusieurs variables catégorielles sont encodées de cette manière.

Conditions d'utilisation
Le One-Hot Encoding est adapté aux variables catégorielles qui ne sont pas ordonnées et qui ont un nombre raisonnable de catégories
possibles. Si une variable catégorielle a un grand nombre de catégories, il peut être préférable d'utiliser d'autres techniques d'encodage, telles
que le Target Encoding ou le Binary Encoding.

En général, le One-Hot Encoding est une technique e cace pour encoder des variables catégorielles et les utiliser dans des algorithmes de
ffi
machine learning. Cependant, il est important de prendre en compte les avantages, les inconvénients et les conditions d'utilisation de cette
technique pour éviter des problèmes de dimensionnalité ou des erreurs d'interprétation.

1
2 # One-hot encoding
3 ohe = OneHotEncoder(sparse=False)
4 ohe_result = ohe.fit_transform(df[['class']])
5 df_ohe = pd.DataFrame(ohe_result, columns=ohe.get_feature_names(['class']))
6 print("One-hot encoding : ")
7 print(df_ohe)
8
9
10

Target Encoding
keyboard_arrow_down
Le Target Encoding est une technique de transformation de variables catégorielles en valeurs numériques en fonction de la variable cible.
Chaque catégorie possible de la variable est remplacée par la moyenne, la médiane ou tout autre agrégat de la variable cible pour cette
catégorie.

Avantages
Le Target Encoding présente plusieurs avantages :

Il peut capturer des informations importantes sur la relation entre la variable catégorielle et la variable cible.
Il peut être adapté à des variables catégorielles avec un grand nombre de catégories ou des catégories rares.

Inconvénients
Le Target Encoding présente également quelques inconvénients :

Il peut être sensible aux valeurs aberrantes et aux échantillons de petite taille.
Il peut surajuster les données d'entraînement s'il n'est pas utilisé avec prudence.

Conditions d'utilisation
Le Target Encoding est adapté aux variables catégorielles pour lesquelles la relation avec la variable cible est importante pour l'analyse ou la
prédiction. Il est important de prendre en compte les avantages et les inconvénients de cette technique pour éviter des erreurs d'interprétation
ou des problèmes d'analyse.

En général, le Target Encoding est une technique utile pour encoder des variables catégorielles en valeurs numériques en fonction de la variable
cible, mais il est important de bien comprendre ses limites et d'utiliser d'autres techniques d'encodage pour des analyses plus avancées ou
10 / 19
pour des algorithmes de machine learning plus complexes.

1 Commencez à coder ou à générer avec l'IA.

11 / 19
4- Normalisation et Standardisation
keyboard_arrow_down
En machine learning, il est souvent nécessaire de normaliser ou de standardiser les données pour améliorer les performances des modèles.
Ces deux techniques permettent de mettre les données à une échelle commune et de faciliter l'apprentissage des algorithmes.

Normalisation

# Ce texte est au format code

MinMax scaler
La normalisation min max consiste à mettre les données à l'échelle entre 0 et 1. Cela se fait en soustrayant la valeur minimale de chaque point
de données et en divisant par la différence entre la valeur maximale et la valeur minimale. La formule mathématique de la normalisation est la
suivante :
𝑥 − 𝑥𝑚𝑖𝑛
𝑥𝑛𝑜𝑟𝑚 =
𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
La normalisation est particulièrement utile lorsque les données ont des écarts importants entre les valeurs, par exemple dans les images ou les
sons.

MaxAbsScaler
Le MaxAbsScaler est une technique de mise à l'échelle qui divise chaque valeur par la valeur absolue maximale de la colonne. La formule
mathématique pour le MaxAbsScaler est la suivante :
𝑥
𝑥𝑠𝑐𝑎𝑙𝑒𝑑 =
|𝑥𝑚𝑎𝑥 |
Le MaxAbsScaler est utile lorsque vous voulez mettre à l'échelle les données sans déformer la distribution des données, en particulier lorsque
les valeurs sont centrées autour de zéro. Par exemple, si vous avez des données qui ont une moyenne de zéro et une plage de valeurs qui va de
-100 à 100, le MaxAbsScaler peut être une bonne option.

Standardisation

Standard Scaler
La standardisation consiste à mettre les données à l'échelle de telle sorte que la moyenne soit égale à zéro et l'écart type égal à 1. Cela se fait
en soustrayant la moyenne de chaque point de données et en divisant par l'écart type. La formule mathématique de la standardisation est la
suivante :
𝑥−𝜇
𝑥𝑠𝑡𝑑 =
𝜎
La standardisation est particulièrement utile lorsque les données sont normalement distribuées.

Robust Scaler
Le RobustScaler est un outil de standardisation qui permet de centrer les données autour de la médiane et de réduire l'effet des valeurs
aberrantes en les ramenant à un certain point. Cela se fait en soustrayant la médiane de chaque point de données et en divisant par l'écart
interquartile (IQR). La formule mathématique de la normalisation est la suivante :
𝑥 − médiane(𝑥)
𝑥𝑟𝑜𝑏𝑢𝑠𝑡 =
IQR(𝑥)
Le RobustScaler est particulièrement utile lorsque les données contiennent des valeurs aberrantes qui pourraient in uencer la moyenne et
fl
l'écart-type dans le cas d'une StandardScaler classique. Il est également résistant aux valeurs aberrantes et peut être utilisé dans les données
qui ne suivent pas une distribution normale.

Comment choisir entre la normalisation et la standardisation

Le choix entre la normalisation et la standardisation dépend des données et du modèle utilisé. En général, la normalisation est utilisée pour les
données qui ont des écarts importants entre les valeurs, tandis que la standardisation est utilisée pour les données qui sont normalement
distribuées.

Il est recommandé de tester les deux méthodes pour voir laquelle fonctionne le mieux pour un modèle donné.
Critère Normalisation

Objectif Mettre les valeurs dans un intervalle borné

Formule (x - min) / (max - min)

Plage de sortie [0, 1]

Sensibilité aux valeurs aberrantes Sensible : les valeurs extrêmes ont un impact sur la plage de sortie

Interprétation
12 / 19
Les valeurs normalisées sont plus facilement interprétables, car elles sont mises à l'échelle d'une plage spéci que
fi
Critère Normalisation

Utilisation Pour les algorithmes qui requièrent des données sur une plage bornée, tels que les réseaux de neurones et les algorithmes de clustering basés sur la distance

Exemples d'algorithmes MinMaxScaler, MaxAbsScaler

1 import pandas as pd
2 import numpy as np
3 import matplotlib.pyplot as plt
4 from sklearn.datasets import load_iris
5 from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, MaxAbsScaler

1 # Charger les données Iris

2 iris = load_iris()
3 X = iris.data
4 y = iris.target

1 # Normalisation
2 scaler = MinMaxScaler()
3 X_norm = scaler.fit_transform(X)
4
5
6 # Comparer les distributions avant et après la normalisation et la standardisation
7 fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 8))
8 axs[0, 0].hist(X[:, 0], bins=20)
9 axs[0, 0].set_title('Distribution de la longueur des sépales')
10 axs[0, 1].hist(X_norm[:, 0], bins=20)
11 axs[0, 1].set_title('Distribution normalisée de la longueur des sépales')
12 axs[1, 0].hist(X[:, 1], bins=20)
13 axs[1, 0].set_title('Distribution de la largeur des sépales')
14 axs[1, 1].hist(X_norm[:, 1], bins=20)
15 axs[1, 1].set_title('Distribution normalisée de la largeur des sépales')
16 fig.tight_layout()
17 plt.show()
18
19

1 # Standardisation
2 scaler = StandardScaler()
3 X_std = scaler.fit_transform(X)

1 fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 8))

2 axs[0, 0].hist(X[:, 0], bins=20)
3 axs[0, 0].set_title('Distribution de la longueur des sépales')
4 axs[0, 1].hist(X_std[:, 0], bins=20)
5 axs[0, 1].set_title('Distribution standardisée de la longueur des sépales')
6 axs[1, 0].hist(X[:, 1], bins=20)
7 axs[1, 0].set_title('Distribution de la largeur des sépales')
8 axs[1, 1].hist(X_std[:, 1], bins=20)
9 axs[1, 1].set_title('Distribution standardisée de la largeur des sépales')
10 fig.tight_layout()
11 plt.show()

1 # RobustScaler
2 scaler = RobustScaler()
3 X_robust = scaler.fit_transform(X)
4
5
6 fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 8))
7 axs[0, 0].hist(X[:, 0], bins=20)
8 axs[0, 0].set_title('Distribution de la longueur des sépales')
9 axs[0, 1].hist(X_robust[:, 0], bins=20)
10 axs[0, 1].set_title('Distribution avec RobustScaler de la longueur des sépales')
11 axs[1, 0].hist(X[:, 1], bins=20)
12 axs[1, 0].set_title('Distribution de la largeur des sépales')
13 axs[1, 1].hist(X_robust[:, 1], bins=20)
14 axs[1, 1].set_title('Distribution avec RobustScaler de la largeur des sépales')
15 fig 13 / 19
16

1 # MaxAbsScaler
2 scaler = MaxAbsScaler()
3 X_maxabs = scaler.fit_transform(X)

1 # Comparer les distributions avant et après la normalisation

2 fig, axs = plt.subplots(nrows=2, ncols=2, figsize=(12, 8))
3 axs[0, 0].hist(X[:, 0], bins=20)
4 axs[0, 0].set_title('Distribution de la longueur des sépales')
5 axs[0, 1].hist(X_maxabs[:, 0], bins=20)
6 axs[0, 1].set_title('Distribution MaxAbs normalisée de la longueur des sépales')
7 axs[1, 0].hist(X[:, 1], bins=20)
8 axs[1, 0].set_title('Distribution de la largeur des sépales')
9 axs[1, 1].hist(X_maxabs[:, 1], bins=20)
10 axs[1, 1].set_title('Distribution MaxAbs normalisée de la largeur des sépales')
11 fig.tight_layout()
12 plt.show()

1 Commencez à coder ou à générer avec l'IA.

14 / 19
5-Transformation des features quantitatifs en machine
learning
keyboard_arrow_down
Dans les modèles de machine learning, on peut souvent être amené à transformer les variables
pour avoir des distributions normales. Dans ce notebook, nous allons explorer trois techniques
différentes de transformation des features:

- La Transformartion puissance de Box-Cox

- La transformation de Yeo-Johnson

- Les transformations logarithmiques

- Les transformations puissances

Importation des packages

keyboard_arrow_down
1 import numpy as np
2 import pandas as pd
3 import seaborn as sns
4 import matplotlib.pyplot as plt
5 from scipy.stats import boxcox, yeojohnson

La transformation de Box-Cox
keyboard_arrow_down
La puissance de Box-Cox est une technique qui est utile lorsque les données ont une distribution
non normale. Box-Cox utilise une transformation de puissance pour créer une distribution plus
normale en ajustant la valeur de lambda.

La formule de la transformation de Box-Cox est la suivante :

{ log(𝑦)
𝑦𝜆 −1
𝑦(𝜆) = 𝜆
si 𝜆 ≠ 0
si 𝜆 = 0
où y est la variable à transformer et lambda est la valeur qui maximise la vraisemblance.

15 / 19
Avantages de la transformation de Box-Cox
keyboard_arrow_down
Crée une distribution plus normale des données
La valeur optimale de lambda est choisie automatiquement pour maximiser la
vraisemblance.

Inconvénients de la transformation de Box-Cox

Ne peut être appliquée qu'aux données positives.
Si lambda est proche de zéro, la transformation est similaire à une transformation
logarithmique, ce qui peut avoir des effets indésirables sur les données.
Si lambda est très grand, la transformation peut être instable.

1
2 # Créer des données simulées avec une distribution asymétriq
3 np.random.seed(123)
4 x = np.random.exponential(5, 1000)
5
6 # Afficher un histogramme des données d'origine
7 sns.histplot(x, kde=True)
8 plt.show()
9

1
2 # Appliquer la transformation de Box-Cox à la variable x
3 x_boxcox, lambda_boxcox = boxcox(x)
4
5 # Afficher un histogramme de la variable transformée
6 sns.histplot(x_boxcox, kde=True)
7 plt.show()

La transformation de Yeo-Johnson
keyboard_arrow_down
La transformation de Yeo-Johnson
keyboard_arrow_down
La transformation de Yeo-Johnson est une technique similaire à la transformation de Box-Cox,
mais elle peut être utilisée pour des distributions non normales et avec des valeurs négatives.
Yeo-Johnson applique une transformation qui est une combinaison de la transformation de
puissance et de la transformation logarithmique. Comme pour Box-Cox, l'algorithme choisit
automatiquement la transformation optimale pour maximiser la vraisemblance.
16 / 19
La formule de la transformation de Yeo-Johnson est la suivante :
⎧ (𝑦+1)𝜆 −1
⎪ 𝜆 si 𝑦 ≥ 0, 𝜆 ≠ 0
⎪ log(𝑦 + 1) si 𝑦 ≥ 0, 𝜆 = 0
𝑦(𝜆) = ⎨ (−𝑦+1)2−𝜆−1
⎪− si 𝑦 < 0, 𝜆 ≠ 2
⎪ 2−𝜆
⎩ − log(−𝑦 + 1) si 𝑦 < 0, 𝜆 = 2
où y est la variable à transformer et lambda est la valeur qui maximise la vraisemblance.

Avantages de la transformation de Yeo-Johnson

Peut être utilisée pour des distributions non normales et avec des valeurs négatives.
Comme pour Box-Cox, la valeur optimale de lambda est choisie automatiquement pour
maximiser la vraisemblance.

Inconvénients de la transformation de Yeo-Johnson

Peut être plus lente à calculer que la transformation de Box-Cox.
La transformation peut être instable pour certaines valeurs de lambda.

1 # Créer des données simulées avec une distribution asymétriq

2 np.random.seed(123)
3 x = np.random.normal(-2, 1, 1000)
4 x[:100] = x[:100] - 5
5
6 # Afficher un histogramme des données d'origine
7 sns.histplot(x, kde=True)
8 plt.show()
9

1 # Appliquer la transformation de Yeo-Johnson à la variable x

2 x_yeojohnson, lambda_yeojohnson = yeojohnson(x + 5)
3
4 # Afficher un histogramme de la variable transformée
5 sns.histplot(x_yeojohnson, kde=True)
6 plt.show()

Transformation logarithmique
keyboard_arrow_down
Les logarithmes sont une technique courante pour transformer des variables qui ont des
distributions très asymétriques. La transformation logarithmique est particulièrement utile pour
les variables qui ont des valeurs très grandes ou très petites.

La formule de la transformation logarithmique

17 /est
19la suivante :
𝑦′ = log(𝑦)
où y est la variable à transformer.

Avantages de la transformation logarithmique

keyboard_arrow_down
Utile pour les variables qui ont des valeurs très grandes ou très petites.
Facile à calculer.

Inconvénients de la transformation logarithmique

Ne peut être appliquée qu'aux données positives.
Si les données ont des valeurs nulles ou négatives, une transformation différente doit être
utilisée.
La transformation peut être affectée par les valeurs extrêmes (outliers) dans les données.

1 # Créer des données simulées avec une distribution exponenti

2 np.random.seed(123)
3 x = np.random.exponential(2, 1000)
4
5 # Afficher un histogramme des données d'origine
6 sns.histplot(x, kde=True)
7 plt.show()
8

1 # Appliquer la transformation logarithmique à la variable x

2 x_log = np.log(x)
3
4 # Afficher un histogramme de la variable transformée
5 sns.histplot(x_log, kde=True)
6 plt.show()

Transformation puissance
keyboard_arrow_down
Les transformations puissances sont une technique qui permet d'appliquer une transformation
de puissance à une variable.

La formule de la transformation de puissance est la suivante :

𝑦′ = 𝑦𝜆
où y est la variable à transformer et 𝜆 est la valeur de la puissance. Il est important de noter que
la valeur de 𝜆 peut être positive, négative ou même fractionnaire.
18 / 19
keyboard_arrow_down
Avantages des transformations puissances

Peuvent être utilisées pour créer une distribution plus normale des données lorsque la
transformation logarithmique ne fonctionne pas.
Peuvent être utilisées pour ajuster la distribution des données à un modèle spéci que.

fi
Inconvénients des transformations puissances
La valeur de 𝜆 doit être choisie manuellement, ce qui peut être di cile et peut affecter les

ffi
performances du modèle si elle est mal choisie.
Les transformations puissances ne fonctionnent pas pour toutes les distributions de
données, et peuvent même aggraver les asymétries de certaines distributions.

1 # Créer des données simulées avec une distribution asymétriq

2 np.random.seed(123)
3 x = np.random.gamma(3, 1, 1000)
4
5 # Afficher un histogramme des données d'origine
6 sns.histplot(x, kde=True)
7 plt.show()

1 # Appliquer la transformation de puissance à la variable x

2 x_power = np.power(x, 0.4)
3
4 # Afficher un histogramme de la variable transformée
5 sns.histplot(x_power, kde=True)
6 plt.show()

19 / 19

Vous aimerez peut-être aussi

Viz 3libs Outliers
Pas encore d'évaluation
Viz 3libs Outliers
4 pages
Traitement Des Valeurs Aberrantes
Pas encore d'évaluation
Traitement Des Valeurs Aberrantes
17 pages
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
Pas encore d'évaluation
Traitement Des Valeurs Manquantes Et Aberrantes Avec Python
19 pages
TP3 Et 4 Fouille de Données 2025
Pas encore d'évaluation
TP3 Et 4 Fouille de Données 2025
4 pages
4) Nettoyage Des Données
100% (1)
4) Nettoyage Des Données
54 pages
Data Mining 5
Pas encore d'évaluation
Data Mining 5
5 pages
Projet Personnalisé
Pas encore d'évaluation
Projet Personnalisé
27 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
85 pages
Etapes de Cleaning
Pas encore d'évaluation
Etapes de Cleaning
38 pages
CH2 - Préparation Des Données
Pas encore d'évaluation
CH2 - Préparation Des Données
27 pages
TP4 Fouille de Données 2025
Pas encore d'évaluation
TP4 Fouille de Données 2025
1 page
Prétraitement des données sur R
Pas encore d'évaluation
Prétraitement des données sur R
12 pages
Traitement et Nettoyage des Données
Pas encore d'évaluation
Traitement et Nettoyage des Données
41 pages
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
Pas encore d'évaluation
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
6 pages
Exemple IQ MOYENNE Ecarttype
Pas encore d'évaluation
Exemple IQ MOYENNE Ecarttype
18 pages
CH2 - Préparation Des Données
100% (1)
CH2 - Préparation Des Données
27 pages
Préparation Des Données-Chapitre2
Pas encore d'évaluation
Préparation Des Données-Chapitre2
27 pages
Analyse ARIMA des taux d'inflation US
Pas encore d'évaluation
Analyse ARIMA des taux d'inflation US
22 pages
Pretraitement Des Donnees
Pas encore d'évaluation
Pretraitement Des Donnees
6 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
11 pages
Absolument ! Je-WPS Office
Pas encore d'évaluation
Absolument ! Je-WPS Office
2 pages
Chapitre 2 Préparation Des Données
Pas encore d'évaluation
Chapitre 2 Préparation Des Données
39 pages
Le Prétraitement Des Données Expliqué Simplement
Pas encore d'évaluation
Le Prétraitement Des Données Expliqué Simplement
7 pages
Méthodes de Détection d'Anomalies ML
Pas encore d'évaluation
Méthodes de Détection d'Anomalies ML
10 pages
Erreur Fréquente - Abdoulaye - Wakhab - DIOP - Utile
Pas encore d'évaluation
Erreur Fréquente - Abdoulaye - Wakhab - DIOP - Utile
9 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Guide Complet sur l'Apprentissage Machine
Pas encore d'évaluation
Guide Complet sur l'Apprentissage Machine
26 pages
Traitement des données manquantes et aberrantes
Pas encore d'évaluation
Traitement des données manquantes et aberrantes
4 pages
TP3 Fouille de Données 2025
100% (1)
TP3 Fouille de Données 2025
3 pages
Analyse de l'ACP : Méthodes et Outliers
Pas encore d'évaluation
Analyse de l'ACP : Méthodes et Outliers
14 pages
Correction CC Inf371
Pas encore d'évaluation
Correction CC Inf371
3 pages
Analyse et Prétraitement de Données Python
Pas encore d'évaluation
Analyse et Prétraitement de Données Python
4 pages
M1-DATA Mining - Exam M1-DATA Mining - Exam
Pas encore d'évaluation
M1-DATA Mining - Exam M1-DATA Mining - Exam
3 pages
M1 RO - COURS 2 Pretraitement Des Données
Pas encore d'évaluation
M1 RO - COURS 2 Pretraitement Des Données
27 pages
Cours de Data Mining - 3
Pas encore d'évaluation
Cours de Data Mining - 3
19 pages
Analyse des données de logement
Pas encore d'évaluation
Analyse des données de logement
10 pages
TP 1
Pas encore d'évaluation
TP 1
29 pages
Guide sur la Collecte et Gestion des Données
Pas encore d'évaluation
Guide sur la Collecte et Gestion des Données
139 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
Detection DAnomalies Avec Isolation Forest en Python
Pas encore d'évaluation
Detection DAnomalies Avec Isolation Forest en Python
8 pages
Rapport sur le Data Mining et Évaluation des Algorithmes
Pas encore d'évaluation
Rapport sur le Data Mining et Évaluation des Algorithmes
47 pages
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
Pas encore d'évaluation
Analyse Exploratoire Des Donnéesfeuille de Route Complète Pour Les Données de Nettoyage
9 pages
Detection DAnomalies Avec Isolation Forest en Python Video
Pas encore d'évaluation
Detection DAnomalies Avec Isolation Forest en Python Video
9 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Corrigé D'un Examen de Machine Learning S4 Génie MIS
100% (1)
Corrigé D'un Examen de Machine Learning S4 Génie MIS
25 pages
Importation et analyse de données avec Pandas
Pas encore d'évaluation
Importation et analyse de données avec Pandas
18 pages
Introduction à Numpy pour Data Science
Pas encore d'évaluation
Introduction à Numpy pour Data Science
9 pages
Analyse Prédictive avec Python et Pandas
Pas encore d'évaluation
Analyse Prédictive avec Python et Pandas
5 pages
Apprentissage supervisé : Perceptron et TP
Pas encore d'évaluation
Apprentissage supervisé : Perceptron et TP
3 pages
Techniques de Nettoyage des Données
Pas encore d'évaluation
Techniques de Nettoyage des Données
16 pages
Détection d'anomalies par forêts d'isolation
Pas encore d'évaluation
Détection d'anomalies par forêts d'isolation
75 pages
Chapitre 2 Préparation Des Données
Pas encore d'évaluation
Chapitre 2 Préparation Des Données
49 pages
Data Mining et Machine Learning : Guide Complet
Pas encore d'évaluation
Data Mining et Machine Learning : Guide Complet
34 pages
Pretratiement
Pas encore d'évaluation
Pretratiement
4 pages
Nettoyage de données avec Python et Pandas
Pas encore d'évaluation
Nettoyage de données avec Python et Pandas
5 pages
Feature Engineering - IA-Z
Pas encore d'évaluation
Feature Engineering - IA-Z
5 pages
Cours Python Complet
90% (10)
Cours Python Complet
150 pages
Eni Apprendre La Programmation Orientee Objet Avec Le Langage Python
100% (4)
Eni Apprendre La Programmation Orientee Objet Avec Le Langage Python
261 pages
Deep Learning Avec Keras Et TensorFlow - 3e Édition - Aurélien Géron (2024)
100% (10)
Deep Learning Avec Keras Et TensorFlow - 3e Édition - Aurélien Géron (2024)
626 pages
Eni Reseaux Informatiques 6ed
100% (3)
Eni Reseaux Informatiques 6ed
603 pages
Guide Pratique: Débuter avec Python
100% (9)
Guide Pratique: Débuter avec Python
212 pages
Wiley Python Pour La Data Science
100% (4)
Wiley Python Pour La Data Science
387 pages
Architecture Des Reseaux
100% (5)
Architecture Des Reseaux
294 pages
Hacking - Guide Pratique Des Te - Peter KIM
100% (10)
Hacking - Guide Pratique Des Te - Peter KIM
409 pages
Eni Algorithmique Technique de Programmation en Python 2ed... Wawacity - Tokyo
100% (6)
Eni Algorithmique Technique de Programmation en Python 2ed... Wawacity - Tokyo
304 pages
Git GitHub - Les Premiers Pas (David Hockley)
Pas encore d'évaluation
Git GitHub - Les Premiers Pas (David Hockley)
66 pages
Hacking, Securite Et Tests D'intrusion Avec Metasploit
94% (17)
Hacking, Securite Et Tests D'intrusion Avec Metasploit
716 pages
Exercices Corrigés Python
90% (10)
Exercices Corrigés Python
65 pages
Comprendre les réseaux TCP/IP facilement
100% (5)
Comprendre les réseaux TCP/IP facilement
322 pages
Eni Python Developper Projets Ludiques
100% (3)
Eni Python Developper Projets Ludiques
622 pages
Programmation Avec Node Js Express Js Et Mongodb
100% (1)
Programmation Avec Node Js Express Js Et Mongodb
608 pages
Intelligence Artificielle Vulgarisée Le Machine Learning Et Le Deep Learning Par La Pratique (Aurélien Vannieuwenhuyze)
100% (10)
Intelligence Artificielle Vulgarisée Le Machine Learning Et Le Deep Learning Par La Pratique (Aurélien Vannieuwenhuyze)
423 pages
La Securite Informatique PourLesNuls
100% (10)
La Securite Informatique PourLesNuls
78 pages
Programmer en Samusant Avec Python Pour Les Nuls, Mégapoche, 3e
100% (10)
Programmer en Samusant Avec Python Pour Les Nuls, Mégapoche, 3e
548 pages
SQL - Les Fondamentaux Du Langage (Avec Exercices Et Corrigés)
100% (4)
SQL - Les Fondamentaux Du Langage (Avec Exercices Et Corrigés)
303 pages
Formation Excel PDF (70 Pages Pour Compredndre Et Maitriser Excel) PDF
91% (33)
Formation Excel PDF (70 Pages Pour Compredndre Et Maitriser Excel) PDF
80 pages
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
100% (5)
(PDF) Intelligence Artificielle en Pratique Avec Python - Hugues Bersini, Eyrolles, 2nd Ed., 2022-2023 - Wawacity - Foo
174 pages
Emmanuel Jakobowicz - Python Pour Le Data Scientist
100% (13)
Emmanuel Jakobowicz - Python Pour Le Data Scientist
300 pages
Python Machine Learning Projects DARSO
100% (1)
Python Machine Learning Projects DARSO
231 pages
Apprendre Le ML en Une Semaine PDF
94% (17)
Apprendre Le ML en Une Semaine PDF
100 pages
Cours Exercices Python
100% (2)
Cours Exercices Python
170 pages
Intelligence Artificielle: Pour Les Développeurs
100% (3)
Intelligence Artificielle: Pour Les Développeurs
512 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
Maitriser Kali Linux
100% (10)
Maitriser Kali Linux
420 pages
VBA (Visual Basic Application) MS Excel
80% (15)
VBA (Visual Basic Application) MS Excel
267 pages
Activités Python pour SNT Seconde
100% (5)
Activités Python pour SNT Seconde
52 pages
Optimisation des ventes via K-means Python
Pas encore d'évaluation
Optimisation des ventes via K-means Python
2 pages
TP5 Descente Gradient
Pas encore d'évaluation
TP5 Descente Gradient
3 pages
Modèles ARMA et Séries Temporelles
Pas encore d'évaluation
Modèles ARMA et Séries Temporelles
82 pages
Projets ML pour étudiants en S5
Pas encore d'évaluation
Projets ML pour étudiants en S5
3 pages
Apprentissage supervisé : Régression et AFD
Pas encore d'évaluation
Apprentissage supervisé : Régression et AFD
6 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
173 pages
Analyses multivariées en machine learning
Pas encore d'évaluation
Analyses multivariées en machine learning
25 pages
Comparaison AFD et SVM pour Détection de Fraude
Pas encore d'évaluation
Comparaison AFD et SVM pour Détection de Fraude
2 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
522 pages
Classification du cancer avec Random Forest
Pas encore d'évaluation
Classification du cancer avec Random Forest
4 pages
TP 02 Feature Selection
Pas encore d'évaluation
TP 02 Feature Selection
24 pages
Segmentation Client avec DBSCAN en Data Mining
Pas encore d'évaluation
Segmentation Client avec DBSCAN en Data Mining
2 pages
02-Chap2 Supervised-Learn Reg Lin Simp-2024
Pas encore d'évaluation
02-Chap2 Supervised-Learn Reg Lin Simp-2024
343 pages
UML Diagramme de Séquence: Ahmed ZELLOU
Pas encore d'évaluation
UML Diagramme de Séquence: Ahmed ZELLOU
61 pages
Templette - Sup Algorithm 2025
Pas encore d'évaluation
Templette - Sup Algorithm 2025
5 pages
TD Supervised L Reg Lin
Pas encore d'évaluation
TD Supervised L Reg Lin
3 pages
TP Poly Regres 24 25
Pas encore d'évaluation
TP Poly Regres 24 25
3 pages
Tests Logiciels
Pas encore d'évaluation
Tests Logiciels
77 pages
Programmation C++
Pas encore d'évaluation
Programmation C++
92 pages
Guide UML : Diagramme de Classes
Pas encore d'évaluation
Guide UML : Diagramme de Classes
72 pages
Slides Mécanique-Quantique CH3 4
Pas encore d'évaluation
Slides Mécanique-Quantique CH3 4
72 pages
Ondes électroniques et équation de Schrödinger
Pas encore d'évaluation
Ondes électroniques et équation de Schrödinger
49 pages
Introduction à la Mécanique Quantique
Pas encore d'évaluation
Introduction à la Mécanique Quantique
20 pages
FELOULI - Zineb OUBRAHAM - Abdelhakim
Pas encore d'évaluation
FELOULI - Zineb OUBRAHAM - Abdelhakim
89 pages
Effet photoélectrique et théorie quantique
Pas encore d'évaluation
Effet photoélectrique et théorie quantique
25 pages
Veille stratégique sur appels d'offres
Pas encore d'évaluation
Veille stratégique sur appels d'offres
150 pages
Analyse Automatisée des Appels d'Offres
Pas encore d'évaluation
Analyse Automatisée des Appels d'Offres
2 pages
TD3 Um6p2024
Pas encore d'évaluation
TD3 Um6p2024
2 pages
Eveil Afrique Noire
Pas encore d'évaluation
Eveil Afrique Noire
126 pages
Conférence Verte: Jeunesse et Emplois
Pas encore d'évaluation
Conférence Verte: Jeunesse et Emplois
1 page
Filtrage Analogique du Signal en Électronique
Pas encore d'évaluation
Filtrage Analogique du Signal en Électronique
36 pages
Épices Exotiques de Madagascar
Pas encore d'évaluation
Épices Exotiques de Madagascar
15 pages
05-7-25 Neet
Pas encore d'évaluation
05-7-25 Neet
2 pages
06 Triangle Et Droites Paralleles Steinmaths
Pas encore d'évaluation
06 Triangle Et Droites Paralleles Steinmaths
8 pages
Adagio For Oboe - B. Marcello - Arr. D. Semeraro
Pas encore d'évaluation
Adagio For Oboe - B. Marcello - Arr. D. Semeraro
42 pages
Électrolyse et Orbites de Jupiter
Pas encore d'évaluation
Électrolyse et Orbites de Jupiter
2 pages
Esa 9162
Pas encore d'évaluation
Esa 9162
6 pages
RCP
Pas encore d'évaluation
RCP
8 pages
PDF N 99 Capron PDF
Pas encore d'évaluation
PDF N 99 Capron PDF
5 pages
Bulletin D'Inscription (Version Finale)
Pas encore d'évaluation
Bulletin D'Inscription (Version Finale)
9 pages
TDR Étude Hydrologique Et Hydraulique
Pas encore d'évaluation
TDR Étude Hydrologique Et Hydraulique
6 pages
Controle-Histoire Croissant Fertile
Pas encore d'évaluation
Controle-Histoire Croissant Fertile
2 pages
Endomorphismes et Propriétés Positives
Pas encore d'évaluation
Endomorphismes et Propriétés Positives
8 pages
Ma Bible de La Médecine Chinoise (Marie Borrel Dr. Philippe Maslo)
90% (10)
Ma Bible de La Médecine Chinoise (Marie Borrel Dr. Philippe Maslo)
925 pages
Schéma de câblage AUMA MATIC 01.1/02.1
Pas encore d'évaluation
Schéma de câblage AUMA MATIC 01.1/02.1
2 pages
TP2 IHM Prise en Main Figma
100% (2)
TP2 IHM Prise en Main Figma
20 pages
Amortissements et Journal Comptable 2020
Pas encore d'évaluation
Amortissements et Journal Comptable 2020
15 pages
61293cb5c0892corrige TP 12 Fonction Logarithme Neperien Niveau
Pas encore d'évaluation
61293cb5c0892corrige TP 12 Fonction Logarithme Neperien Niveau
5 pages
Cours Méthodesagiles
Pas encore d'évaluation
Cours Méthodesagiles
10 pages
Émotions et Musique dans Intouchables
Pas encore d'évaluation
Émotions et Musique dans Intouchables
2 pages
POSTER Développement de L'oasis de Todgha
Pas encore d'évaluation
POSTER Développement de L'oasis de Todgha
1 page
Cours - Math - Généralités Sur Les Fonctions - 2ème Sciences (2020-2021) MR Ayadi Mondher
100% (1)
Cours - Math - Généralités Sur Les Fonctions - 2ème Sciences (2020-2021) MR Ayadi Mondher
3 pages
Entrepreneuriat et chômage des diplômés au Maroc
Pas encore d'évaluation
Entrepreneuriat et chômage des diplômés au Maroc
14 pages
Isoprothallie chez les Bryophytes
Pas encore d'évaluation
Isoprothallie chez les Bryophytes
8 pages
HORAIRE DU RATT-WPS Office
Pas encore d'évaluation
HORAIRE DU RATT-WPS Office
1 page
Exercices d'algorithmique SMI S2
Pas encore d'évaluation
Exercices d'algorithmique SMI S2
6 pages
Relevemensuel 2024 12 31
Pas encore d'évaluation
Relevemensuel 2024 12 31
1 page
Guide complet sur la métrologie industrielle
Pas encore d'évaluation
Guide complet sur la métrologie industrielle
38 pages