0% ont trouvé ce document utile (0 vote)

29 vues16 pages

Datavisualisation: Une Image Vaut Mille Mots

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

29 vues16 pages

Datavisualisation: Une Image Vaut Mille Mots

Transféré par

Varnel Rick

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1.

Définition

« Une image vaut mille mots » Confucius

La datavisualisation est un ensemble de techniques utilisées pour représenter

visuellement des informations clés sur un gros volume de données, afin d’en
permettre la compréhension et l’analyse.

2. Rappel
a. Les types de variable

Qualitative nominale
ordinale
Quantitative discrète
continue

b. Les types d’erreurs dans un datastet

 Lorsqu'une valeur au sein d'un jeu de données n'est pas renseignée,

on parle de valeur manquante : / pour un jeu mydata ;
print(mydata.isnull().sum())
 Une valeur peut également être incohérente par rapport au format ou
par rapport à la façon dont la variable a été construite. On parle alors
d'erreur lexicale, d'erreur de formatage ou encore d'erreur
d'irrégularité.
 Certaines valeurs peuvent apparaître en double dans notre jeu de
données : ce sont des doublons ;
mydata.loc[mydata['email'].duplicated(keep=False),:].
 Une valeur extrême, ou outlier, est une valeur bien trop importante ou
bien trop faible par rapport à l'ensemble des valeurs d'une variable.
o Elle peut être atypique
o Elle peut être aberrante
mydata.describe()

3. Formes de représentation
a. Les courbes
b. Les diagrammes à barre (diagramme en bâton ; diagramme en tuyaux d’orgue)
c. Les diagrammes circulaires (ou camembert ou en secteur – pie chart
en anglais)

Attention :

Ces deux diagrammes matérialisent les mêmes informations : mais le diagramme à

barre présente de manière plus palpable les différences.

d. Les histogrammes

e. Nuage de point
f. Les diagrammes boîtes à moustaches

g. Carte

h. Le choix d’une représentation

Courbes Diagrammes à Circulaire ou Histogramme Nuage Diagramme boite à Carte
barre camemberts ou (une variante est de point moustache
secteur l’histogramme à
densité)

Présentez une
évolution
x x
(numérique)
dans le temps :

(bivarié)

*Comparez
différents
x x x
groupes d’une
variable
quantitative par
rapport à une
variable
qualitative

*Comparaison
qualitative et
quantitative

(bivarié)

Représentez
une distribution
X (variables X (variables x(variables x (pour les
qualitatives) qualitatives) quantitatives) distributions
(univarié)
quantitatives)

Représentez la
relation entre
x
2 variables
numériques

(bivarié)

Représenter
des données
x x x
géographiques

(bivarié)

Représentation d’une distribution empirique (univarié)

Diagrammes Circulaire Histogramme Diagramme

à barre ou (une variante boite à
camemberts est moustache
l’histogramme
à densité)
Variable x(diagramme x
qualitative en tuyaux
d’orgue)

Variable X
quantitative (diagramme
discrète en bâton)

Variable x x
quantitative
continue
Nombre
optimal de
classe
k=[1+log2(n)]
NB : On peut passer : d’une relation univariée à une relation bivariée, d’une
relation bivariée à une relation multivariée, et ainsi de suite. Mais le
diagramme ne doit pas être complexe à exploité. Parfois gardé la limite au tri-
varié. Ce principe n’est pas encouragé pour les distributions.

4. Tracer des Courbes avec Python

Importer au préalable la librairie avec par exemple l’instruction :

import matplotlib.pyplot as plt

a) Le tracer des courbes :

Pour tracer la courbe, il faut saisir l’instruction suivante :
plt.plot(donnéesX, donnéesY)
On peut ajouter à plt : un titre, un label pour l’axe X, un label pour l’axe Y, des
couleurs. On peut également augmenter la taille du graphique.

Cela demande en général agréger les données (grâce à groupeby) avec

l’instruction plot de matplotlib. Mais avec la librairie seaborn qui est une libraire
surcouche à matplotlib, l’agrégation est automatique.

Parfois sur jupyter notebook, il faut commencer par installer seaborn avec
l’instruction : %pip install seaborn

Instruction d’importation exemple :

import seaborn as sns

Instruction pour tracer la courbe avec seaborn

sns.lineplot(data=LeDataSet, x=dataX, y=dataY, hue=dataZ,
estimator=sum/np.mean/…)
hue=dataZ pour une analyse trivarié
estimator pour le type d’agrégation de donné

b) Tracez des diagrammes à barre

Après avoir agréger les données avec matplotlib
plt.bar(donnéesX, donnéesY)
Avec Seaborn :
sns.barplot(data=LeDataSet, x=dataX, y=dataY, hue=dataZ,
estimator=sum/np.mean/…)

Seaborn permet de faire facilement les agrégations et ajouter une troisième

variable pour une analyse tri-variée. Pour la même chose avec matplotlib, on
peut se servir de la méthode pivot_table pour obtenir un tableau qui est par
exemple comme ci-dessous :

Catégorie Monsieur Madame

Portail  Montant du paiement  Montant du paiement
Portillon  Montant du paiement  Montant du paiement
…

Cette table est une table pivot et avec une fonction plot des dataframes sur
python, on peut afficher le diagramme à barre qui affiche les Montants en
fonction des catégories de façon tri varié. Si le dataframe correspondant au
tableau ci-dessous est « data ». L’affichage à les instructions :
data.plot(kind=’bar’, color=[‘blue’, ‘red’], stacked=True)
plt.xlabel(‘Categorie’)
plt.ylabel(‘Montant du paiement’)

L’instruction stacked=True spécifie si on veut empiler les barres. Ce tableau

produit de cette façon avec juste deux colonne, peut permettre d’avoir une
distribution. En utilisant ce pivot sur des valeurs quantitatives on obtient une
analyse tri varié qui peut nous permettre d’afficher une figure intégrant une
analyse tri varié. La disposition du tableau de cette manière sur excel permet
aussi d’avoir une analyse tri varié.

Pour représenter une distribution :

data[donnéesX].value_counts(normalize=True).plot(kind='bar')

plt.show()

normalize=True permet d’avoir en fréquences

Notons que la distribution avec les diagrammes à barre est pour les variable
qualitative ou les variables quantitatives discrète.

c) Les diagrammes circulaires (généralement pas très intéressant en tri varié)

Cela nécessite forcément agréger les données.

plt.pie(x= donnéesX, labels= donnéesY)

- Les données X sont numériques

- Les données Y sont non numériques

On ne doit pas avoir plusieurs labels pour réaliser un diagramme circulaire. Car,
le camembert sera touffu. Un diagramme circulaire peut représenter tout ce que
représente un diagramme à barre. Mais les labels doivent être réduit pour que le
cercle ne soit pas touffu et illisible.

d) Les Histogrammes

L’histogramme est particulièrement utile lorsqu’on souhaite avoir une idée de la

distribution d’une variable quantitative continue.

plt.hist(ColonneDataSet)

hist(density=True,bins=20)

- Density est un paramètre pour indiquer si on veut un histogramme à densité

- bins est pour spécifié le nombre de classe k. en appliquant la règle de Sturges (1926) :
k =[1+log2(n)]

- Utiliser kdeplot pour un graphique à densité

Le Skewness
Pour calcule le skewness sous python : data[ColonneDataSet].skew()
Pour calcule le Kurtosis sous python : data[ColonneDataSet].kurtosis()

e) Nuage de point

Pour représenter un nuage de points, il faut saisir l’instruction suivante :

plt.scatter(donnéesX, donnéesY)
Avec seaborn on peut avoir une analyse trivariée :
sns.scatterplot(data=LeDataSet, x=dataX, y=dataY, hue=dataZ)

Pour faire une analyse tri variée en utilisant matplotlib ; il suffit de faire
plusieurs groupements de data. Puis, les afficher sur un même graphique avec
différente couleur comme dans l’exemple suivant :

Changer la couleur des points

Pour modifier la couleur il y a l'option c dans la fonction scatter,
exemple

import matplotlib.pyplot as plt

x = [1,2,3,4]

y = [4,1,3,6]

size = [100,500,100,500]

plt.scatter(x, y, s=size, c='coral')

x = [5,6,7,8]

y = [1,3,5,2]

size = [100,500,100,500]

plt.scatter(x, y, s=size, c='lightblue')

plt.title('Nuage de points avec Matplotlib')

plt.xlabel('x')

plt.ylabel('y')

plt.savefig('ScatterPlot_03.png')

plt.show()

Comme vous le voyez on peut aussi changer la taille des points. Cela est fait
dans le code ci-précédent.
f) Boite à moustache

Pour afficher une boite à moustache avec matplotlib python :

plt.boxplot(data). Data étant une donnée quantitative.

On peut mener une analyse bi variée sur les boites à moustache en scindant les
données conformément aux groupes puis utiliser des codes python comme dans
l’exemple ci-dessous :

- Analyse bi variée des boites à moustaches avec MatPlotLib

# import the required library

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

% matplotlib inline

# load the dataset

df = pd.read_csv("tips.csv")

# display 5 rows of dataset

df.head()
Boxplot of days with respect total_bill.

df.boxplot(by ='day', column =['total_bill'], grid = False)

Boxplot of size with respect tip.

df.boxplot(by ='size', column =['tip'], grid = False)

- Analyse bi variée sur une boite à moustache en utilisant seaborn :
ci-dessous un exemple

# load the dataset

tips = sns.load_dataset('tips')

tips.head()

Boxplot of days with respect total_bill.

# Draw a vertical boxplot grouped

# by a categorical variable:

sns.set_style("whitegrid")

sns.boxplot(x = 'day', y = 'total_bill', data = tips)

Devoir :

A partir des données de votre choix produisez un Dashboard sous python :

Dans la figure ci-dessus :

plt.subplots permet de structurer le Dashboard en une matrice 3 lignes et 3
colonnes soit 9 cases.
L’instruction fig.set_size_inches permet d’agrandir le Dashboard
De ce fait, si on veut afficher un graphique dans une case, on peut se servir par
exemple de la commande suivante :
Cette instruction crée un histogramme pour le dataframe data1 à la case ayant
pour coordonnées x=0 et y=0 ; soit la toute première case de la gauche vers la
droite.

Créer autant de case pour les graphiques correspondant aux besoins suivants :

 Présenter une évolution (numérique) dans le temps :

 Comparer une variable qualitative et une variable quantitative
 Représentez une distribution d’une donnée qualitative
 Représentez une distribution d’une donnée quantitative
 Représentez la relation entre 2 variables numériques
 Représenter des données géographiques

Notons que plusieurs graphiques peuvent être associées à chaque point ci-
dessus. Pour chaque graphique, lorsqu’il y a possibilité ajouté une variable en
plus pour faire soit du bi varié ou du tri varié, mais, en restant professionnel.

Vous aimerez peut-être aussi

Viz 3libs 1
Pas encore d'évaluation
Viz 3libs 1
10 pages
EDA et Visualisation des Données en Python
Pas encore d'évaluation
EDA et Visualisation des Données en Python
46 pages
Guide de Visualisation de Données
Pas encore d'évaluation
Guide de Visualisation de Données
8 pages
Rappel3 Matplotlib
Pas encore d'évaluation
Rappel3 Matplotlib
30 pages
Analyse exploratoire des données avec Python
100% (1)
Analyse exploratoire des données avec Python
41 pages
Cours Visualisation Avec Python Copy
Pas encore d'évaluation
Cours Visualisation Avec Python Copy
49 pages
Atelier Graphiques pour Étudiants RT
Pas encore d'évaluation
Atelier Graphiques pour Étudiants RT
6 pages
TP Data Mining Avec NumPy, Pandas Et Matplotlib
Pas encore d'évaluation
TP Data Mining Avec NumPy, Pandas Et Matplotlib
3 pages
IFRI LangagePython TP3
Pas encore d'évaluation
IFRI LangagePython TP3
4 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
36 pages
TP3 Statistique Univariee Et Bivariee - Partie 1
Pas encore d'évaluation
TP3 Statistique Univariee Et Bivariee - Partie 1
11 pages
Visualisation de données Python: Matplotlib et Seaborn
Pas encore d'évaluation
Visualisation de données Python: Matplotlib et Seaborn
16 pages
MLenPython - PPT Compatibility Mode
Pas encore d'évaluation
MLenPython - PPT Compatibility Mode
20 pages
TD Semaine5
Pas encore d'évaluation
TD Semaine5
9 pages
Atelier Pandas
Pas encore d'évaluation
Atelier Pandas
3 pages
Graphiques Python pour Proba/Stats
Pas encore d'évaluation
Graphiques Python pour Proba/Stats
11 pages
1 Liste Des Fonctions Associées À Matplotlib
Pas encore d'évaluation
1 Liste Des Fonctions Associées À Matplotlib
7 pages
Loba L1
Pas encore d'évaluation
Loba L1
7 pages
$RTBN8O0
Pas encore d'évaluation
$RTBN8O0
14 pages
Visualisation Des Données Avec Python Seaborn - Acervo Lima
Pas encore d'évaluation
Visualisation Des Données Avec Python Seaborn - Acervo Lima
27 pages
Padas Exos
Pas encore d'évaluation
Padas Exos
6 pages
TP Python SEABORN
Pas encore d'évaluation
TP Python SEABORN
3 pages
Phy382 Cours Data Visualisation 114403
Pas encore d'évaluation
Phy382 Cours Data Visualisation 114403
11 pages
Recettes d'Analyse Big Data
Pas encore d'évaluation
Recettes d'Analyse Big Data
16 pages
Tuto 1-3 - Visualisation Des Donnees Avec Matplotlib Seaborn
Pas encore d'évaluation
Tuto 1-3 - Visualisation Des Donnees Avec Matplotlib Seaborn
23 pages
Variance graphique et représentation 2D
Pas encore d'évaluation
Variance graphique et représentation 2D
11 pages
Python Avancé pour Data Science
Pas encore d'évaluation
Python Avancé pour Data Science
13 pages
Compte Rendu Du TP
Pas encore d'évaluation
Compte Rendu Du TP
20 pages
Visualisation de données avec Python
Pas encore d'évaluation
Visualisation de données avec Python
43 pages
Exemple Matplotlib
Pas encore d'évaluation
Exemple Matplotlib
5 pages
TP 5 Py Av
Pas encore d'évaluation
TP 5 Py Av
9 pages
Aar Seaborn
Pas encore d'évaluation
Aar Seaborn
4 pages
TP1 Data Mining
Pas encore d'évaluation
TP1 Data Mining
3 pages
Autres Exemples Matplotlib
Pas encore d'évaluation
Autres Exemples Matplotlib
5 pages
Analyse
Pas encore d'évaluation
Analyse
12 pages
Python Avancé-Séance 3
Pas encore d'évaluation
Python Avancé-Séance 3
80 pages
Data Manipulation&Exploration - Removed
Pas encore d'évaluation
Data Manipulation&Exploration - Removed
18 pages
Analyse Exploratoire de Donn - Es
Pas encore d'évaluation
Analyse Exploratoire de Donn - Es
22 pages
tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
D1 Lady
Pas encore d'évaluation
D1 Lady
7 pages
Fonctions Principales de NumPy, Pandas, Plotly - Test
Pas encore d'évaluation
Fonctions Principales de NumPy, Pandas, Plotly - Test
5 pages
Résumé CS KacemLachkar
Pas encore d'évaluation
Résumé CS KacemLachkar
14 pages
Py Data Analysis
Pas encore d'évaluation
Py Data Analysis
44 pages
02
Pas encore d'évaluation
02
2 pages
Chapitre3 MatplotLib
Pas encore d'évaluation
Chapitre3 MatplotLib
40 pages
5
Pas encore d'évaluation
5
10 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Exercices Et Implémentation Proba Chapitre1
Pas encore d'évaluation
Exercices Et Implémentation Proba Chapitre1
10 pages
TP5 Methodes Inductives - ALD
Pas encore d'évaluation
TP5 Methodes Inductives - ALD
6 pages
Atelier 04 Synthese Visualisation
Pas encore d'évaluation
Atelier 04 Synthese Visualisation
5 pages
TD/TP Machine Learning en Python
Pas encore d'évaluation
TD/TP Machine Learning en Python
1 page
Préparer des Données avec Python
Pas encore d'évaluation
Préparer des Données avec Python
44 pages
Module 5 Python-Utilisation Pour La Data Science - Week4
Pas encore d'évaluation
Module 5 Python-Utilisation Pour La Data Science - Week4
13 pages
Statistiques au lycée avec pandas Python
Pas encore d'évaluation
Statistiques au lycée avec pandas Python
53 pages
Python Pour Les Economistes-Pandas
Pas encore d'évaluation
Python Pour Les Economistes-Pandas
43 pages
Créer un Tableau Statistique Efficace
Pas encore d'évaluation
Créer un Tableau Statistique Efficace
14 pages
Data Mining 2
Pas encore d'évaluation
Data Mining 2
5 pages
Guide Python pour Débutants
Pas encore d'évaluation
Guide Python pour Débutants
39 pages
Resume Principes Conception Interface Utilisateur Jeff Johnson
Pas encore d'évaluation
Resume Principes Conception Interface Utilisateur Jeff Johnson
2 pages
Exposé Complet BearerExpo
Pas encore d'évaluation
Exposé Complet BearerExpo
23 pages
Comparaison Des Architectures de CNN
Pas encore d'évaluation
Comparaison Des Architectures de CNN
4 pages
Deploiment Docker
Pas encore d'évaluation
Deploiment Docker
4 pages
Exercices de Compilation et Grammaires
Pas encore d'évaluation
Exercices de Compilation et Grammaires
1 page
Chap 3
Pas encore d'évaluation
Chap 3
6 pages
Conception de compilateurs : théorie et outils
Pas encore d'évaluation
Conception de compilateurs : théorie et outils
74 pages
Poo 8 Stream
Pas encore d'évaluation
Poo 8 Stream
41 pages
Examen2 Probabilités Et Statistiques 2024
Pas encore d'évaluation
Examen2 Probabilités Et Statistiques 2024
8 pages
Corrige Examen
Pas encore d'évaluation
Corrige Examen
5 pages
Indice
Pas encore d'évaluation
Indice
58 pages
TD Gestion de Production
Pas encore d'évaluation
TD Gestion de Production
4 pages
Chap2 Annexe
Pas encore d'évaluation
Chap2 Annexe
18 pages
Ajustement Exponentiel et Affine
Pas encore d'évaluation
Ajustement Exponentiel et Affine
62 pages
Stats2 2021-1s1
Pas encore d'évaluation
Stats2 2021-1s1
4 pages
02 - Statistique Descriptive Univariée 2
Pas encore d'évaluation
02 - Statistique Descriptive Univariée 2
73 pages
Corrigé Exercice 2 Statistique Descriptive
Pas encore d'évaluation
Corrigé Exercice 2 Statistique Descriptive
2 pages
Cours PCA
Pas encore d'évaluation
Cours PCA
17 pages
7-Didacticiel Reg Logistique Polytomique Ordinale
Pas encore d'évaluation
7-Didacticiel Reg Logistique Polytomique Ordinale
19 pages
Statistique Inférentielle L3
Pas encore d'évaluation
Statistique Inférentielle L3
30 pages
Statistiques IDSD
Pas encore d'évaluation
Statistiques IDSD
14 pages
Biométrie P3
Pas encore d'évaluation
Biométrie P3
43 pages
Corrigé Série
Pas encore d'évaluation
Corrigé Série
4 pages
Écart-type et dispersion des notes
Pas encore d'évaluation
Écart-type et dispersion des notes
2 pages
Classe de 3ème Exercice de Préparation Au Sujet de Type Brevet La PDF
Pas encore d'évaluation
Classe de 3ème Exercice de Préparation Au Sujet de Type Brevet La PDF
1 page
50 Questions de Statistique I Réponses
Pas encore d'évaluation
50 Questions de Statistique I Réponses
5 pages
Mesures de Tendance Centrale en Statistique
Pas encore d'évaluation
Mesures de Tendance Centrale en Statistique
90 pages
TD de Statistique: Master Des Sciences Physiques Et Chiniques
Pas encore d'évaluation
TD de Statistique: Master Des Sciences Physiques Et Chiniques
6 pages
Statistiques L3 DR BAKA
Pas encore d'évaluation
Statistiques L3 DR BAKA
104 pages
Regression de Poisson 2014 Cle46af8d
Pas encore d'évaluation
Regression de Poisson 2014 Cle46af8d
8 pages
Modèle Linéaire Simple et MCO
Pas encore d'évaluation
Modèle Linéaire Simple et MCO
4 pages
Corrélation et régression linéaire
Pas encore d'évaluation
Corrélation et régression linéaire
26 pages
Serie1ENCG (Beamer)
Pas encore d'évaluation
Serie1ENCG (Beamer)
5 pages
Statistiques Descriptives S3
Pas encore d'évaluation
Statistiques Descriptives S3
5 pages
Probastat 2
Pas encore d'évaluation
Probastat 2
6 pages
Estimation des Modèles ARMA
Pas encore d'évaluation
Estimation des Modèles ARMA
10 pages
Cours Complet de Biostatistique
Pas encore d'évaluation
Cours Complet de Biostatistique
26 pages
Analyse des données de panel en économétrie
Pas encore d'évaluation
Analyse des données de panel en économétrie
67 pages