0% ont trouvé ce document utile (0 vote)
233 vues22 pages

Analyse de Données IA avec Python

Ce document présente une initiation à l'analyse de données avec Python. Il introduit des concepts clés comme l'importation, le pré-traitement et la normalisation des données ainsi que la conception de modèles de prédiction.

Transféré par

DIALLO
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
233 vues22 pages

Analyse de Données IA avec Python

Ce document présente une initiation à l'analyse de données avec Python. Il introduit des concepts clés comme l'importation, le pré-traitement et la normalisation des données ainsi que la conception de modèles de prédiction.

Transféré par

DIALLO
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

INITIATION A

L’INTELLIGENCE
ARTIFICIELLE
MODULE: ANALYSE DE DONNEES AVEC PYTHON
(Data Science)

Présenté par : Mr. Kalilou KONE, Département GIT, ENI-ABT


Objectifs:
• Initiation à l’analyse des données.
• Découverte du Modèle de regression linéaire pour la prédiction et
l’aide à la prise de décision.
• Initiation aux techniques d’évaluation et d’ajustement de modèles
pour une prédiction plus précise.
Table des matières
• Importation des données
• Transformation/Normalisation des données
• Exploration des données
• Conception et déploiement de Modèle pour la prediction
• Evaluation de Modèle
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Pre-traitement des données avec python

• C’est un processus de conversion ou de mappage (correspondance) des


données «brut» initial vers un autre format, afin de les préparer pour une
analyse plus approfondie.

• Ce processus est aussi appelé Data cleaning ou Data wrangling.

• Le but du pre-traitement des données est aussi de bien les préparer pour la
modélisation.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• En python, mais surtout en analyse des
données, l’essentiel du travail se portera
sur les colonnes des dataframes.

• Nous allons nous intéresser aux


techniques suivantes:
• Le formatage, la standardization ou
l’uniformisation des données
• La normalisation des données
• Le regroupement par catégorie ou data binning
• Et le changement des données de type
catégorie en type numérique.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• En python, mais surtout en analyse des
données, l’essentiel du travail se portera
sur les colonnes des dataframes.

• Nous allons nous intéresser aux


techniques suivantes:
• Le formatage, la standardization ou
l’uniformisation des données
• La normalisation des données
• Le regroupement par catégorie ou data binning
• Et le changement des données de type
catégorie en type numérique.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem)
• On parle de donnée manquante lorsqu’aucune valeur n’est affectée à une variable ou
une colonne dans le dataframe. Ce problème est généralement du à des erreurs
humaine depuis leur acquisition.
• Une donnée manquante (missing value) peut avoir les formes suivante “?”, “N/A”, 0 ou
une cellule vide.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Quelques techniques pour résoudre les problèmes de missing value:
• Vérifier la source de collection des données;
• Supprimer les valeurs manquantes:
• Supprimer la variable qui n’a pas de valeur affectée
• Supprimer toute la ligne
• Remplacer les valeurs manquantes
• Remplacer les données manquantes par la Moyenne des données
• Remplacer les données manquantes par les données les plus fréquentes
• Remplacer les données manquantes en utilisant une autre technique ou fonction spéciale
• Laisser les données tel quel.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Supprimer les missing values
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Supprimer les missing values
En mettant
inplace=True, les
modifications seront
enregistrer dans le
dataset.

Documentations et
Tuto sur pandas
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Gestion des données manquantes (Missing Values problem/Missing data)
• Remplacer les missing values, par exemple, par la Moyenne des valeurs d’une variable ou
colonne:
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Formatage ou standardization des données
• C’est le fait de donner le même format à toutes les données d’une variable afin de faciliter
leur analyse.
• Pourquoi? Parceque les données sont collecter depuis des sources très variées.

Si c’est non-formaté: Si c’est formaté:


- c’est confus
- c’est plus clair.
- C’est difficile à regrouper.
- C’est facile de faire des
Par ex: les quartiers de groupby.
New York - C’est facile de comparer
- C’est difficile de comparer
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Formatage ou standardization des données
• Par exemple, un type mal définit peut être reconverti à un autre via la méthode
dataframe.astype():

Dans ce cas-ci, ça
devrait être entier
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation ou uniformisation des données (Data Normalization)
• Donner la même plage de valeur aux données d’une variable, dans le cas où il y a d’énorme
écarts entre les valeurs. La raison est de rendre le résultat final du modèle de prediction plus
precise.
• Voici un exemple de données normalisées : pas trop d’écart entre les valeur.
• Ceci rend leur exploitation plus facile, et toutes les valeurs auront un impact sur le résultat.

Colonnes Non-Normalisées: Colonnes Normalisées:


- Il y a trop d’écart entre la - Les deux colonnes ont la même
colonne âge et le revenue plage de valeur.
- La colonne du revenue aura - Les deux colonnes auront des
plus d’impact sur le résultat par impacts similaires sur le
rapport à l’age résultat final.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• Feature scaling ou la mise à l’echelle des fonctionnalités des données

µ = la Moyenne (mean)
= Ecart type (Standard deviation)

• La méthode “Min-Max”

• La méthode “Z-score”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• Feature scaling ou la mise à l’echelle des fonctionnalités des données
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• La méthode “Min-Max”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Normalisation des données (Data Normalization)
• Quelques techniques de normalisation:
• La méthode “Z-score”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Binning ou regroupement des valeurs en categories
• Exemple: classifier les prix en catégories faible, moyen et élévé
• Bins = Bacs = catégories
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Binning ou regroupement des valeurs en categories
• Exemple: classifier les prix en faible, moyen et élévé à l’aide des méthodes linspace et cut.
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing
• Transformation des variables catégorielles en variables quantitatives
• Parceque la plupart des modèle de prediction n’accepte pas, en entrée, les données de
type catégorie (objet ou string).
• Solution:
• On ajoute une variable muette (dummy variable) pour chaque catégorie
• Et On Assigne 0 ou 1 pour chaque catégorie.
• Cette technique est appelé le “One-hot encoding”
IA: ANALYSE DE DONNEES AVEC
PYTHON
• Data processing

• TD 2

Vous aimerez peut-être aussi