INITIATION A
L’INTELLIGENCE
ARTIFICIELLE
MODULE: ANALYSE DE DONNEES AVEC PYTHON
(Data Science)
Présenté par : Mr. Kalilou KONE, Département GIT, ENI-ABT
Objectifs:
• Initiation à l’analyse des données.
• Découverte du Modèle de regression linéaire pour la prédiction et
l’aide à la prise de décision.
• Initiation aux techniques d’évaluation et d’ajustement de modèles
pour une prédiction plus précise.
Table des matières
• Importation des données
• Transformation/Normalisation des données
• Exploration des données
• Conception et déploiement de Modèle pour la prediction
• Evaluation de Modèle
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Pre-traitement des données avec python
• C’est un processus de conversion ou de mappage (correspondance) des
données «brut» initial vers un autre format, afin de les préparer pour une
analyse plus approfondie.
• Ce processus est aussi appelé Data cleaning ou Data wrangling.
• Le but du pre-traitement des données est aussi de bien les préparer pour la
modélisation.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• En python, mais surtout en analyse des
données, l’essentiel du travail se portera
sur les colonnes des dataframes.
• Nous allons nous intéresser aux
techniques suivantes:
• Le formatage, la standardization ou
l’uniformisation des données
• La normalisation des données
• Le regroupement par catégorie ou data binning
• Et le changement des données de type
catégorie en type numérique.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• En python, mais surtout en analyse des
données, l’essentiel du travail se portera
sur les colonnes des dataframes.
• Nous allons nous intéresser aux
techniques suivantes:
• Le formatage, la standardization ou
l’uniformisation des données
• La normalisation des données
• Le regroupement par catégorie ou data binning
• Et le changement des données de type
catégorie en type numérique.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem)
• On parle de donnée manquante lorsqu’aucune valeur n’est affectée à une variable ou
une colonne dans le dataframe. Ce problème est généralement du à des erreurs
humaine depuis leur acquisition.
• Une donnée manquante (missing value) peut avoir les formes suivante “?”, “N/A”, 0 ou
une cellule vide.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Quelques techniques pour résoudre les problèmes de missing value:
• Vérifier la source de collection des données;
• Supprimer les valeurs manquantes:
• Supprimer la variable qui n’a pas de valeur affectée
• Supprimer toute la ligne
• Remplacer les valeurs manquantes
• Remplacer les données manquantes par la Moyenne des données
• Remplacer les données manquantes par les données les plus fréquentes
• Remplacer les données manquantes en utilisant une autre technique ou fonction spéciale
• Laisser les données tel quel.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Supprimer les missing values
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Supprimer les missing values
En mettant
inplace=True, les
modifications seront
enregistrer dans le
dataset.
Documentations et
Tuto sur pandas
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Remplacer les missing values, par exemple, par la Moyenne des valeurs d’une variable ou
colonne:
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Formatage ou standardization des données
• C’est le fait de donner le même format à toutes les données d’une variable afin de faciliter
leur analyse.
• Pourquoi? Parceque les données sont collecter depuis des sources très variées.
Si c’est non-formaté: Si c’est formaté:
- c’est confus
- c’est plus clair.
- C’est difficile à regrouper.
- C’est facile de faire des
Par ex: les quartiers de groupby.
New York - C’est facile de comparer
- C’est difficile de comparer
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Formatage ou standardization des données
• Par exemple, un type mal définit peut être reconverti à un autre via la méthode
dataframe.astype():
Dans ce cas-ci, ça
devrait être entier
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation ou uniformisation des données (Data Normalization)
• Donner la même plage de valeur aux données d’une variable, dans le cas où il y a d’énorme
écarts entre les valeurs. La raison est de rendre le résultat final du modèle de prediction plus
precise.
• Voici un exemple de données normalisées : pas trop d’écart entre les valeur.
• Ceci rend leur exploitation plus facile, et toutes les valeurs auront un impact sur le résultat.
Colonnes Non-Normalisées: Colonnes Normalisées:
- Il y a trop d’écart entre la - Les deux colonnes ont la même
colonne âge et le revenue plage de valeur.
- La colonne du revenue aura - Les deux colonnes auront des
plus d’impact sur le résultat par impacts similaires sur le
rapport à l’age résultat final.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• Feature scaling ou la mise à l’echelle des fonctionnalités des données
µ = la Moyenne (mean)
= Ecart type (Standard deviation)
• La méthode “Min-Max”
• La méthode “Z-score”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• Feature scaling ou la mise à l’echelle des fonctionnalités des données
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• La méthode “Min-Max”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• La méthode “Z-score”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Binning ou regroupement des valeurs en categories
• Exemple: classifier les prix en catégories faible, moyen et élévé
• Bins = Bacs = catégories
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Binning ou regroupement des valeurs en categories
• Exemple: classifier les prix en faible, moyen et élévé à l’aide des méthodes linspace et cut.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Transformation des variables catégorielles en variables quantitatives
• Parceque la plupart des modèle de prediction n’accepte pas, en entrée, les données de
type catégorie (objet ou string).
• Solution:
• On ajoute une variable muette (dummy variable) pour chaque catégorie
• Et On Assigne 0 ou 1 pour chaque catégorie.
• Cette technique est appelé le “One-hot encoding”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• TD 2