0% ont trouvé ce document utile (0 vote)
108 vues61 pages

3-Data Analyst Note

Ce document présente un programme de formation sur l'analyse de données, couvrant des sujets allant de la collecte et du nettoyage des données à la visualisation et à l'analyse statistique, ainsi qu'une introduction au Machine Learning. Les participants apprendront à utiliser des outils comme Excel, Python, Pandas, Matplotlib, Seaborn et Tableau à travers des exercices pratiques. Le contenu est structuré sur quatre semaines, avec des séances dédiées à chaque aspect de l'analyse de données.

Transféré par

Paulo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
108 vues61 pages

3-Data Analyst Note

Ce document présente un programme de formation sur l'analyse de données, couvrant des sujets allant de la collecte et du nettoyage des données à la visualisation et à l'analyse statistique, ainsi qu'une introduction au Machine Learning. Les participants apprendront à utiliser des outils comme Excel, Python, Pandas, Matplotlib, Seaborn et Tableau à travers des exercices pratiques. Le contenu est structuré sur quatre semaines, avec des séances dédiées à chaque aspect de l'analyse de données.

Transféré par

Paulo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

« les DONNEES parlent, nous analysons pour

agir »

Written and presented by Manda Tabi P a g e 1 | 61


Data Analyst
CONTENU DE FORMATION
Semaine 1 : Introduction aux Données et Outils de Base

Séance 1 : Introduction aux Données


 Qu'est-ce que les données ?
 Types de données : qualitatives et quantitatives
 Sources de données : primaires et secondaires
 Exercice pratique : Collecte de données simples

Séance 2 : Introduction à Excel


 Fonctions de base d'Excel : SOMME, MOYENNE, SI
 Introduction aux tableaux croisés dynamiques
 Exercice pratique : Utilisation des fonctions de base et
création de tableaux croisés dynamiques

Séance 3 : Introduction à Python et Pandas


 Introduction à Python et installation de Jupyter Notebooks
 Introduction à Pandas pour la manipulation de données
 Exercice pratique : Chargement et inspection de données
avec Pandas

Semaine 2 : Nettoyage et Visualisation des Données

Séance 4 : Nettoyage des Données avec Excel et Python


 Techniques de nettoyage des données dans Excel
 Utilisation de Pandas pour le nettoyage des données
 Exercice pratique : Nettoyage d'un ensemble de données

Séance 5 : Visualisation des Données avec Matplotlib et Seaborn


 Introduction à Matplotlib et Seaborn
 Création de graphiques en barres, d'histogrammes et de
nuages de points
 Exercice pratique : Création de visualisations à partir d'un
ensemble de données nettoyé

Written and presented by Manda Tabi P a g e 2 | 61


Séance 6 : Visualisation des Données avec Tableau
 Introduction à Tableau
 Création de tableaux de bord interactifs
 Exercice pratique : Création de visualisations interactives
avec Tableau

Semaine 3 : Analyse Statistique

Séance 7 : Statistiques Descriptives


 Concepts de base : moyenne, médiane, mode, écart-type,
variance
 Utilisation de Pandas pour calculer des statistiques
descriptives
 Exercice pratique : Calcul de statistiques descriptives sur un
ensemble de données

Séance 8 : Tests Statistiques


 Introduction aux tests statistiques : Test t, ANOVA, Test de
chi-carré
 Utilisation de Scipy pour effectuer des tests statistiques
 Exercice pratique : Réalisation de tests statistiques sur un
ensemble de données

Séance 9 : Analyse Statistique Avancée


 Régression linéaire et logique
 Utilisation de Statsmodels pour l'analyse de régression
 Exercice pratique : Réalisation d'une analyse de régression
sur un ensemble de données

Semaine 4 : Introduction au Machine Learning

Séance 10 : Introduction au Machine Learning


 Définition et types de Machine Learning : supervisé, non
supervisé, par renforcement
 Introduction à Scikit-Learn
 Discussion sur les applications du Machine Learning

Séance 11 : Modèles de Régression


Written and presented by Manda Tabi P a g e 3 | 61
 Création et entraînement d'un modèle de régression linéaire
 Évaluation des modèles de régression
 Exercice pratique : Création et évaluation d'un modèle de
régression linéaire

Séance 12 : Modèles de Classification


 Création et entraînement d'un modèle de classification
 Évaluation des modèles de classification
 Exercice pratique : Création et évaluation d'un modèle de
classification

Ce programme est conçu pour fournir une introduction complète à l'analyse de données, de la collecte et du
nettoyage à la visualisation et à l'analyse statistique, avec une introduction au Machine Learning. Les participants
auront l'occasion de pratiquer chaque concept à travers des exercices pratiques.

Module 1: Introduction aux Données

Contenu détaillé

Qu'est-ce que les données ?

Définition
Les données sont des faits ou des informations brutes que nous collectons.
Elles peuvent être organisées de différentes manières :
 Structurées : Comme dans une base de données où tout est bien
organisé, comme un tableau avec des lignes et des colonnes.
 Non structurées : Comme des textes, des images ou des vidéos qui ne
sont pas organisés de manière uniforme.

Types de données
1. Qualitatives :
 Ce sont des données qui décrivent des qualités ou des caractéristiques.
Elles ne sont pas numériques.
 Exemples : Les couleurs, les noms, les étiquettes, les opinions.
2. Quantitatives :
 Ce sont des données numériques qui peuvent être mesurées ou
comptées.

Written and presented by Manda Tabi P a g e 4 | 61


 Discrètes : Des valeurs que l'on peut compter, comme le nombre
d'étudiants dans une classe.
 Continues : Des valeurs que l'on peut mesurer, comme la température
ou le poids.

Sources de données
1. Primaires :
 Ce sont des données collectées directement par vous ou votre
organisation.
 Exemples : Les résultats d'une enquête que vous avez menée, les
mesures d'une expérience scientifique.
2. Secondaires :
 Ce sont des données qui ont déjà été collectées par d'autres personnes
ou organisations.
 Exemples : Les données gouvernementales, les rapports d'entreprise,
les articles de recherche.

Importance des données


Les données sont très importantes car elles nous aident à :
 Prendre des décisions : En analysant les données, nous pouvons
prendre des décisions plus éclairées.
 Identifier des tendances : Les données nous aident à voir des modèles
ou des tendances qui ne sont pas immédiatement évidents.
 Résoudre des problèmes : En comprenant les données, nous pouvons
trouver des solutions à des problèmes complexes.
 Innover : Les données peuvent inspirer de nouvelles idées et
innovations en révélant des informations inattendues.

En résumé, les données sont partout autour de nous et sont essentielles pour
comprendre et interagir avec le monde de manière efficace.

Exercice Pratique
1. Collecte de données simples :
 Activité : Demandez aux participants de collecter des données sur un
sujet de leur choix, comme les habitudes de lecture dans leur entourage.
 Outil : Utilisez des formulaires en ligne (Google Forms) pour collecter les
données.
2. Nettoyage et préparation des données :

Written and presented by Manda Tabi P a g e 5 | 61


 Activité : Montrez comment identifier et corriger les erreurs dans les
données, comme les valeurs manquantes ou les doublons.
 Outil : Utilisez Excel pour des opérations de nettoyage de base et Python
(Pandas) pour des opérations plus avancées.

Étape 1 : Collecte de données avec Google Forms


Création du formulaire
1. Accéder à Google Forms :
 Ouvrez votre navigateur web et allez sur Google Forms.
 Connectez-vous avec votre compte Google si ce n'est pas déjà
fait.
 Cliquez sur le bouton "+" ou "Blank form" pour créer un nouveau
formulaire.
2. Configurer le formulaire :
 Titre et description :
 Cliquez sur "Untitled form" et entrez un titre pour votre
formulaire, par exemple, "'habitudes_lecture ".
 Ajoutez une description pour expliquer l'objectif de
l'enquête, par exemple, "Ce formulaire vise à recueillir des
informations sur vos habitudes de lecture."

 Ajouter des questions :


 Cliquez sur le bouton "+" dans la barre latérale droite pour
ajouter une nouvelle question.
 Type de question : Choisissez le type de question
approprié dans le menu déroulant à côté de la question.
Par exemple, pour une question à choix multiples,
sélectionnez "Multiple choice".
 Texte de la question : Entrez le texte de votre question,
par exemple, "Combien de livres lisez-vous par mois ?".
 Options de réponse : Entrez les options de réponse
possibles. Par exemple, pour la question sur le nombre de
livres lus par mois, vous pourriez avoir les options
suivantes : "0-1", "2-3", "4-5", "Plus de 5".
 Ajouter d'autres questions : Répétez le processus pour
ajouter d'autres questions. Par exemple, vous pourriez
ajouter une question sur le genre littéraire préféré avec
des options comme "Roman", "Science-Fiction",
"Biographie", etc.
 Personnalisation :
 Cliquez sur l'icône de palette de couleurs en haut pour
personnaliser le thème du formulaire. Vous pouvez choisir
Written and presented by Manda Tabi P a g e 6 | 61
des couleurs et des images de fond pour rendre votre
formulaire plus attrayant.
3. Partager le formulaire :
 Envoyer par email :
 Cliquez sur le bouton "Send" en haut à droite.
 Entrez les adresses email des destinataires dans le champ
"To".
 Ajoutez un sujet et un message si nécessaire, puis cliquez
sur "Send".
 Partager le lien :
 Dans la fenêtre "Send", cliquez sur l'icône de lien (chaîne).
 Copiez le lien fourni et partagez-le via des messages, des
réseaux sociaux, ou tout autre moyen de communication.
 Intégrer dans un site web :
 Dans la fenêtre "Send", cliquez sur l'icône "< >".
 Copiez le code HTML fourni et collez-le dans le code source
de votre site web.
4. Collecter les réponses :
 Accéder aux réponses :
 Cliquez sur l'onglet "Responses" en haut du formulaire
pour voir les réponses en temps réel.
 Vous pouvez voir un résumé des réponses ainsi que des
graphiques pour les questions à choix multiples.
 Exporter les réponses :
 Dans l'onglet "Responses", cliquez sur l'icône de feuille de
calcul (Google Sheets).
 Une nouvelle feuille de calcul Google Sheets sera créée
avec les réponses. Vous pouvez ensuite télécharger cette
feuille de calcul au format Excel (.xlsx) en allant dans "File"
> "Download" > "Microsoft Excel (.xlsx)".

Étape 2 : Nettoyage et préparation des données avec Excel

Contenu des fichiers Excel

Les fichiers Excel, souvent appelés classeurs, sont composés de plusieurs


feuilles de calcul. Chaque feuille de calcul est une grille de cellules
organisées en lignes et colonnes. Voici quelques éléments clés que vous
pouvez trouver dans un fichier Excel :
1. Cellules :

Written and presented by Manda Tabi P a g e 7 | 61


 Chaque cellule peut contenir des données, comme du texte, des nombres,
des dates, ou des formules.
 Les cellules sont référencées par leur adresse, par exemple, A1, B2, etc., où
la lettre représente la colonne et le nombre représente la ligne.
2. Feuilles de calcul :
 Un fichier Excel peut contenir plusieurs feuilles de calcul, accessibles via des
onglets en bas de la fenêtre.
 Chaque feuille peut être utilisée pour organiser différents ensembles de
données ou analyses.
3. Plages de cellules :
 Une plage est un groupe de cellules, par exemple, A1:A10 représente toutes
les cellules de la colonne A de la ligne 1 à la ligne 10.
4. Formules et fonctions :
 Excel permet d'utiliser des formules pour effectuer des calculs sur les
données. Les formules commencent toujours par le signe égal (=).
 Les fonctions sont des formules prédéfinies pour effectuer des calculs
spécifiques, comme SOMME, MOYENNE, etc.

Importer les données dans Excel

1. Télécharger les données :


 Si vous avez exporté les réponses vers Google Sheets, ouvrez la feuille de
calcul Google Sheets.
 Allez dans "File" > "Download" > "Microsoft Excel (.xlsx)" pour télécharger la
feuille de calcul au format Excel.
2. Ouvrir le fichier dans Excel :
 Ouvrez Microsoft Excel sur votre ordinateur.
 Allez dans "File" > "Open" et sélectionnez le fichier téléchargé pour l'ouvrir.

Nettoyer les données

1. Identifier les erreurs :


 Valeurs manquantes :

 Parcourez les colonnes et les lignes pour identifier les cellules vides. Utilisez
la fonctionnalité "Go To Special" pour trouver rapidement les cellules vides.

Written and presented by Manda Tabi P a g e 8 | 61


 Sélectionnez les données, appuyez sur Ctrl + G, cliquez sur "Special",
sélectionnez "Blanks", puis cliquez sur "OK".
 Doublons :
 Utilisez la fonctionnalité de tri pour identifier les entrées en double.
 Sélectionnez les données, allez dans l'onglet "Data" et cliquez sur "Sort".
Choisissez les colonnes par lesquelles trier les données pour repérer les
doublons.
 Incohérences :
 Vérifiez les réponses pour vous assurer qu'elles sont cohérentes et logiques.
Par exemple, assurez-vous que les réponses numériques sont valides.
2. Corriger les erreurs :
 Remplacer les valeurs manquantes :
 Utilisez la fonction SI pour remplacer les valeurs manquantes par une valeur
par défaut.
 Exemple : =SI(A1="", "Non spécifié", A1). Copiez cette formule pour
toutes les cellules de la colonne.
 Supprimer les doublons :

 Sélectionnez les données, allez dans l'onglet "Data" et cliquez sur "Remove
Duplicates". Sélectionnez les colonnes appropriées et cliquez sur "OK".
 Corriger les incohérences :
 Utilisez des formules pour identifier et corriger les incohérences. Par
exemple, utilisez la fonction RECHERCHEV pour vérifier et corriger les
données en fonction d'une table de référence.
3. Utiliser des fonctions de nettoyage :
 Fonction NETTOYER :

 Supprime les caractères non imprimables des données.


 Exemple : =NETTOYER(A1).
 Fonction SUBSTITUE :
 Remplace des caractères spécifiques dans les données.
 Exemple : =SUBSTITUE(A1, " ", "").
 Fonctions MAJUSCULE, MINUSCULE, NOMPROPRE :
 Standardisent le format du texte.
 Exemples : =MAJUSCULE(A1), =MINUSCULE(A1), =NOMPROPRE(A1).

Exemple Pratique

1. Création du formulaire :

Written and presented by Manda Tabi P a g e 9 | 61


 Un participant crée un formulaire Google sur les habitudes de lecture avec
des questions sur le nombre de livres lus par mois, le genre littéraire préféré,
et la préférence pour les livres papier ou électroniques.
 Le formulaire est partagé avec des amis via un lien.
2. Collecte des réponses :
 Après une semaine, les réponses sont exportées vers Google Sheets et
téléchargées au format Excel.
3. Nettoyage des données :
 Le fichier Excel est ouvert et les doublons sont éliminés avec la fonction
"Remove Duplicates".
 Les valeurs manquantes sont remplacées par "Non spécifié" en utilisant la
fonction SI.
 Les erreurs typographiques sont corrigées avec la fonction SUBSTITUE.
 Les caractères non imprimables sont supprimés avec la fonction NETTOYER.
 Le format du texte est standardisé avec la fonction NOMPROPRE.

Exemple de tableau de données dans Excel

Supposons que vous avez un tableau de données simple avec des


informations sur les ventes mensuelles de différents produits.

Application des fonctions dans Excel

1. SOMME :
 Description : Calcule la somme des valeurs dans une plage de cellules.
 Exemple : Pour calculer le total des ventes pour le mois de janvier, utilisez :
=SOMME(B2:B4)

2. MOYENNE :
 Description : Calcule la moyenne des valeurs dans une plage de cellules.
 Exemple : Pour calculer la moyenne des ventes pour le produit A sur les trois mois,
utilisez :
=MOYENNE(B2:D2)

3. ECARTYPE :
Written and presented by Manda Tabi P a g e 10 | 61
 Description : Calcule l'écart type des valeurs dans une plage de cellules.
 Exemple : Pour calculer l'écart type des ventes pour le produit B sur les trois mois,
utilisez :
=ECARTYPE(B3:D3)

4. RECHERCHEV :
 Description : Recherche une valeur dans la première colonne d'un tableau et
renvoie une valeur dans la même ligne à partir d'une colonne spécifiée.
 Exemple : Si vous avez une table de référence pour les produits et leurs prix
unitaires, utilisez RECHERCHEV pour trouver le prix d'un produit spécifique.

Syntaxe : =RECHERCHEV(valeur_recherchée, tableau,


numéro_index_col, [valeur_proche])

Pour trouver le prix unitaire du produit B, utilisez :


=RECHERCHEV("B", F2:G4, 2, FAUX)

Les autres Fonctions et commandes avancées d'Excel

Excel est un outil puissant pour l’analyse de données, offrant une gamme de
fonctions pour manipuler et analyser les données.
 Fonctions mathématiques et statistiques : Utilisez des fonctions
comme SOMME, MOYENNE, ECARTYPE pour effectuer des calculs de base.
 Tableaux croisés dynamiques : Un outil puissant pour résumer, analyser,
explorer et présenter des données de tableau.

Rôle d'un tableau croisé dynamique

Un tableau croisé dynamique est utilisé pour :


 Résumer de grandes quantités de données.
 Analyser et explorer des tendances et des modèles dans les données.
 Présenter des résultats de manière claire et concise.
 Faciliter la comparaison de différents ensembles de données.

Written and presented by Manda Tabi P a g e 11 | 61


Exemple pratique

1. Créer un tableau croisé dynamique :


Description : Les tableaux croisés dynamiques sont utilisés pour
résumer, analyser, explorer et présenter de grandes quantités de
données.
Création :
Pour créer une feuille de calcul avec des données de ventes, vous pouvez
suivre ces étapes. Je vais vous fournir un exemple de contenu détaillé pour
une feuille de calcul, ainsi que les commandes de base pour créer un tableau
dynamique dans Excel.

Contenu de la feuille de calcul

Voici un exemple de données que vous pouvez utiliser :

Commandes pour créer un tableau dynamique dans Excel

1. Sélectionnez vos données :


 Ouvrez votre fichier Excel.
 Sélectionnez toutes les cellules contenant vos données (y compris les en-
têtes).
2. Insérer un tableau dynamique :
Written and presented by Manda Tabi P a g e 12 | 61
 Allez dans le menu Insertion.
 Cliquez sur Tableau croisé dynamique.
 Une boîte de dialogue apparaîtra. Choisissez où placer le tableau
dynamique (nouvelle feuille de calcul ou feuille de calcul existante).
3. Configurer le tableau dynamique :
 Dans le volet Champs de tableau croisé dynamique, faites
glisser Catégorie dans la zone Lignes.
 Faites glisser Prix dans la zone Valeurs. Par défaut, Excel calcule la
somme des prix.
 Pour ajouter d'autres calculs, faites glisser Prix à nouveau
dans Valeurs et choisissez un autre type de calcul, comme la moyenne.
4. Filtrer et trier :
 Pour filtrer, cliquez sur la flèche à côté des Étiquettes de ligne dans le
tableau dynamique et sélectionnez les catégories que vous souhaitez
afficher.
 Pour trier, cliquez sur l'en-tête de colonne dans le tableau dynamique et
choisissez l'option de tri souhaitée.
5. Ajouter des segments :
 Allez dans le menu Insertion et choisissez Segment.
 Sélectionnez les champs pour lesquels vous souhaitez ajouter des
segments (par exemple, Catégorie et Date).
 Utilisez ces segments pour filtrer dynamiquement votre tableau.

Ces étapes vous permettront de créer et de manipuler un tableau


dynamique dans Excel. Vous pouvez adapter ces instructions en fonction de
vos besoins spécifiques et des données que vous utilisez.

2. Exemple de fichier Excel


5. Voici un exemple de ce à quoi pourrait ressembler un fichier Excel
contenant des données de ventes :

Avec ces données, vous pouvez utiliser des fonctions comme SI


Written and presented by Manda Tabi P a g e 13 | 61
1. SI :
 Description : Effectue une vérification logique et renvoie une valeur si la
condition est vraie et une autre si elle est fausse.
 Syntaxe : =SI(condition, valeur_si_vrai, valeur_si_faux)
 Exemple : =SI(A1>10, "Oui", "Non") renvoie "Oui" si la valeur dans
A1 est supérieure à 10, sinon "Non".

Commandes avancées

1. RECHERCHEV :
 Description : Recherche une valeur dans la première colonne d'un
tableau et renvoie une valeur dans la même ligne d'une colonne
spécifiée.
 Syntaxe : =RECHERCHEV(valeur_recherchée, tableau,
numéro_index_col, [valeur_proche])
 Exemple : =RECHERCHEV("Livre", A1:B10, 2, FAUX) recherche
"Livre" dans la première colonne de la plage A1:B10 et renvoie la valeur
correspondante de la deuxième colonne.
2. INDEX :
 Description : Renvoie la valeur d'une cellule dans un tableau ou une
plage.
 Syntaxe : =INDEX(tableau, numéro_ligne, [numéro_colonne])
 Exemple : =INDEX(A1:B10, 2, 2) renvoie la valeur de la cellule à la
deuxième ligne et deuxième colonne de la plage A1:B10.
3. EQUIV :
 Description : Renvoie la position relative d'une valeur dans une plage.
 Syntaxe : =EQUIV(valeur_recherchée, plage,
[type_correspondance])
 Exemple : =EQUIV("Livre", A1:A10, 0) renvoie la position de "Livre"
dans la plage A1:A10.

Written and presented by Manda Tabi P a g e 14 | 61


Requêtes de base SQL
SQL (Structured Query Language) est un langage de programmation conçu
pour gérer et manipuler des bases de données relationnelles.

Structure de la base de données

Pour illustrer les exemples SQL, considérons une base de données simple
avec deux tables :
 Table clients :
 Table commandes :

Exemple pratique

Commandes SQL de base

Création de la base de données SQL

Written and presented by Manda Tabi P a g e 15 | 61


Pour créer une base de données SQL avec des tables et des relations, nous
allons utiliser des commandes SQL pour définir les tables, les clés
étrangères, et insérer des données.

Code SQL pour créer la base de données et les tables

CREATE DATABASE vente ;


USE vente ;

-- Création de la table 'clients'


CREATE TABLE clients (
id INT PRIMARY KEY,
nom VARCHAR(50) NOT NULL,
email VARCHAR(100) NOT NULL,
ville VARCHAR(50)
)ENGINE = INNODB DEFAULT CHARSET= UTF8 AUTO_INCREMENT ;

-- Création de la table 'commandes' avec une clé étrangère référençant


'clients'
CREATE TABLE commandes (
id INT PRIMARY KEY,
client_id INT,
montant DECIMAL(10, 2) NOT NULL,
date DATE,
CONSTRAINT FK_PASSER FOREIGN KEY (client_id) REFERENCES clients(id)
)ENGINE = INNODB DEFAULT CHARSET= UTF8 AUTO_INCREMENT ;

Insertion des données dans les tables

-- Insertion des données dans la table 'clients'


INSERT INTO clients (id, nom, email, ville) VALUES
(1, 'Dupont', 'dupont@[Link]', 'Paris'),
(2, 'Martin', 'martin@[Link]', 'Lyon');

-- Insertion des données dans la table 'commandes'


INSERT INTO commandes (id, client_id, montant, date) VALUES
(101, 1, 150.00, '2023-10-01'),
(102, 2, 200.00, '2023-10-02');

Written and presented by Manda Tabi P a g e 16 | 61


Module 2: Outils Avancés d’Analyse de
Données
Contenu détaillé

Introduction aux outils

 Python (Pandas, NumPy) :


 Pandas : Pour la manipulation et l'analyse de données.
 NumPy : Pour les calculs numériques.
 R:
 Utilisation de R : Pour l'analyse statistique et la visualisation de
données.
 Power BI

1. Utilisation de Python pour l’analyse de données :


 Installation : Montrez comment installer Python et Jupyter
Notebooks.
 Exemple de code : Lire un fichier CSV, nettoyer les données et
effectuer des analyses de base.

En suivant ces étapes détaillées, vous devriez être en mesure d'installer


Python et Jupyter Notebooks, et d'exécuter un exemple de code pour
l'analyse de données. Assurez-vous d'avoir les fichiers CSV nommés
habitudes_lecture.csv et [Link] avec le contenu approprié dans le
même répertoire que votre notebook pour que le code fonctionne
correctement.

Installation de Python et Jupyter Notebooks

Installation de Python

1. Télécharger Python :
 Allez sur le site officiel de Python.
 Téléchargez la dernière version de Python pour votre système
d'exploitation (Windows, macOS, Linux).
2. Installer Python :
 Windows :
Written and presented by Manda Tabi P a g e 17 | 61
 Exécutez le fichier d'installation téléchargé (par exemple, python-3.9.7-
[Link]).
 Cochez l'option "Add Python to PATH" pendant l'installation.
 Suivez les instructions à l'écran pour compléter l'installation.

 macOS :
 Ouvrez le fichier d'installation téléchargé (par exemple, python-3.9.7-
[Link]).
 Suivez les instructions à l'écran pour compléter l'installation.

 Linux (Ubuntu) :
 Ouvrez un terminal et tapez les commandes suivantes :
3. sudo apt update
4. sudo apt install python3
5. Vérifier l'installation :
 Ouvrez un terminal ou une invite de commande et tapez la commande
suivante pour vérifier que Python est installé correctement :
python --version
 Vous devriez voir la version de Python installée, par exemple :
Python 3.9.7

Written and presented by Manda Tabi P a g e 18 | 61


Vérifier la variable d’environnement :

Installation de Jupyter Notebooks(Evironnement de developpement


interactif)

Permettant de créer et partager des documents contenant du


code,equations, visualizations et texte narratif.

1. Installer pip :

Written and presented by Manda Tabi P a g e 19 | 61


 Pip est généralement installé avec Python. Pour vérifier son installation,
tapez la commande suivante dans le terminal :
pip --version
 Vous devriez voir la version de pip installée, par exemple :
pip 21.2.4 from /usr/local/lib/python3.9/site-packages/pip (python 3.9)

2. Installer Jupyter Notebooks :


 Utilisez pip pour installer Jupyter Notebooks en tapant la commande suivante
dans le terminal :
pip install notebook

3. Lancer Jupyter Notebooks :


 Verifier la version en cours :

Written and presented by Manda Tabi P a g e 20 | 61


Créer un dossier ‘DataAnalyst’ qui sera utiliser pour le jupyter notebook :

Written and presented by Manda Tabi P a g e 21 | 61


 Pour lancer Jupyter Notebooks, tapez la commande suivante dans le terminal
afin d’ecrire le code dans different languages de prgrammation(python, R),
visualiser les DONNEES interactives pour explorer et comprendre et partager
les résultants’ sous forme de notebook :
jupyter notebook

Written and presented by Manda Tabi P a g e 22 | 61


 Cela ouvrira Jupyter Notebooks dans votre navigateur web par défaut. Vous
devriez voir une interface avec une liste des fichiers et dossiers dans le
répertoire courant.

Written and presented by Manda Tabi P a g e 23 | 61


 Exécuter votre premier code

Written and presented by Manda Tabi P a g e 24 | 61


Exemple de code pour l'analyse de données

Installation de pandas

Avant de commencer, assurez-vous d'avoir installé la bibliothèque pandas,


car utile pour manipuler les DONNEES sous forme de daraframe, les analyzer
en utilisant les functions statisticques et fusioner des DONNEES provenant de
differences sources.

Vous pouvez l'installer en utilisant pip :

pip install pandas

Written and presented by Manda Tabi P a g e 25 | 61


Python
Python est un langage de programmation de haut niveau, interprété et
orienté objet. Il est connu pour sa syntaxe claire et lisible, ce qui le rend
accessible aux débutants tout en étant puissant pour les développeurs
expérimentés. Voici quelques caractéristiques et concepts clés de Python :

Caractéristiques de Python

1. Facilité d'utilisation : Python a une syntaxe simple et intuitive qui


ressemble souvent à l'anglais, ce qui le rend facile à lire et à écrire.
2. Interprété : Python est un langage interprété, ce qui signifie que le code est
exécuté ligne par ligne, facilitant le débogage et le développement interactif.
3. Multi-paradigme : Python prend en charge plusieurs paradigmes de
programmation, y compris la programmation procédurale, orientée objet et
fonctionnelle.
4. Bibliothèque standard étendue : Python dispose d'une vaste bibliothèque
standard qui inclut des modules pour le traitement des fichiers, les
expressions régulières, les protocoles Internet, et bien plus encore.
5. Communauté active : Python bénéficie d'une grande communauté de
développeurs, ce qui signifie qu'il existe de nombreuses ressources,
bibliothèques tierces et cadres disponibles.

Concepts de base de Python

1. Variables et types de données : Python prend en charge divers types de


données, notamment les entiers, les flottants, les chaînes de caractères, les
booléens, les listes, les tuples, les dictionnaires et les ensembles.
entier = 10
flottant = 10.5
chaine = "Bonjour"
booleen = True
liste = [1, 2, 3]
tuple = (1, 2, 3)
dictionnaire = {"clé": "valeur"}
ensemble = {1, 2, 3}
2. Structures de contrôle : Python utilise des structures de contrôle comme
les boucles for et while, et les instructions conditionnelles if, elif, et else.
# Exemple de boucle for
for i in range(5):
print(i)

# Exemple de conditionnelle
age = 18
if age >= 18:
Written and presented by Manda Tabi P a g e 26 | 61
print("Majeur")
else:
print("Mineur")

3. Fonctions : Les fonctions en Python sont définies avec le mot-clé def. Elles
permettent de regrouper du code réutilisable.
def additionner(a, b):
return a + b

resultat = additionner(3, 5)
print(resultat) # Affiche 8
4. Programmation orientée objet : Python prend en charge la
programmation orientée objet, ce qui permet de définir des classes et des
objets.
class Personne:
def __init__(self, nom, age):
[Link] = nom
[Link] = age

def se_presenter(self):
print(f"Je m'appelle {[Link]} et j'ai {[Link]} ans.")

personne = Personne("Alice", 30)


personne.se_presenter()

5. Modules et bibliothèques : Python permet d'importer des modules et des


bibliothèques pour étendre ses fonctionnalités.
import math
print([Link](16)) # Affiche 4.0

Exemple de programme simple


Voici un exemple de programme simple qui utilise plusieurs des concepts
mentionnés ci-dessus :
# Définition d'une fonction
def calculer_carre(nombre):
return nombre ** 2

# Utilisation d'une boucle


for i in range(1, 6):
carre = calculer_carre(i)
print(f"Le carré de {i} est {carre}")

Ce programme définit une fonction pour calculer le carré d'un nombre, puis
utilise une boucle pour calculer et afficher le carré des nombres de 1 à 5.

Written and presented by Manda Tabi P a g e 27 | 61


Écrire votre premier programme Python

1. Ouvrir un éditeur de texte :


 Vous pouvez utiliser n'importe quel éditeur de texte pour écrire du code
Python. Des éditeurs populaires incluent Visual Studio Code, Sublime Text, et
PyCharm.
2. Écrire un programme simple :
 Créez un nouveau fichier et nommez-le hello_world.py.
 Écrivez le code suivant dans le fichier :
print("Hello, World!")
3. Exécuter le programme :
 Ouvrez un terminal ou une invite de commande.
 Naviguez jusqu'au répertoire où se trouve votre fichier hello_world.py.
 Tapez la commande suivante pour exécuter le programme :
python hello_world.py
 Vous devriez voir la sortie suivante :
Hello, World!

Concepts de base de Python

1. Variables et types de données :


 En Python, vous pouvez créer des variables pour stocker des données. Par
exemple :
nombre = 10
texte = "Bonjour"
2. Structures de contrôle :
 Conditionnelles : Utilisez if, elif, et else pour prendre des décisions dans
votre code.
age = 18
if age >= 18:
print("Vous êtes majeur.")
else:
print("Vous êtes mineur.")
Written and presented by Manda Tabi P a g e 28 | 61
 Boucles : Utilisez for et while pour répéter des actions.
for i in range(5):
print(i)
3. Fonctions :
 Les fonctions vous permettent de regrouper du code réutilisable. Par
exemple :
def dire_bonjour(nom):
print(f"Bonjour, {nom}!")
dire_bonjour("Alice")
4. Listes et dictionnaires :
 Les listes et les dictionnaires sont des structures de données courantes en
Python.
liste = [1, 2, 3, 4, 5]
dictionnaire = {"nom": "Alice", "âge": 25}

Démonstration de l’utilisation de la bibliothèque pandas

Exemple1 de fichier CSV

Python (Pandas) pour des opérations plus avancées.

import pandas as pd

# Remplacez 'url' par le chemin vers votre fichier CSV


url = 'C:\Users\TABIPAUL\Desktop\habitudes_lecture.csv'

# Charger les données


data = pd.read_csv(url)

# Afficher les premières lignes pour inspection


print([Link]())

# Identifier les valeurs manquantes


print([Link]().sum())

# Remplacer les valeurs manquantes par la moyenne (pour les données


numériques)
[Link]([Link](), inplace=True)

# Supprimer les doublons


data.drop_duplicates(inplace=True)

# Sauvegarder les données nettoyées


Written and presented by Manda Tabi P a g e 29 | 61
data.to_csv('habitudes_lecture_nettoyees.csv', index=False)

Exemple2 de fichier CSV

Pour cet exemple, nous allons utiliser un fichier CSV nommé [Link]. #
Assurez-vous que le fichier '[Link]' est dans le même répertoire que
votre notebook
Voici un exemple de contenu pour ce fichier :
ID,Ville,Produit,Prix,Quantite,Annee
1,Paris,Livre,20,5,2022
2,Lyon,Stylo,5,10,2022
3,Marseille,Cahier,10,8,2023
4,Paris,Livre,20,3,2023
5,Lyon,Stylo,5,15,2023
6,Marseille,Cahier,10,6,2022
7,Paris,Livre,20,7,2023
8,Lyon,Stylo,5,20,2022
9,Marseille,Cahier,10,9,2023
10,Paris,Livre,20,4,2022

Ce fichier CSV contient des informations sur les ventes de produits dans
différentes villes, avec les colonnes suivantes : ID, Ville, Produit, Prix,
Quantite, et Annee.

Exemple de code

Voici un exemple détaillé de code Python pour lire le fichier CSV, nettoyer les
données et effectuer des analyses de base :
# Importer la bibliothèque pandas
import pandas as pd

# Charger un fichier CSV


# Assurez-vous que le fichier '[Link]' est dans le même répertoire que
votre notebook
data = pd.read_csv('[Link]')

# Afficher les premières lignes du DataFrame


print("Premières lignes du DataFrame :")
Written and presented by Manda Tabi P a g e 30 | 61
print([Link]())

# Nettoyer les données en supprimant les lignes avec des valeurs manquantes
data_clean = [Link]()

# Afficher les premières lignes du DataFrame nettoyé


print("\nPremières lignes du DataFrame nettoyé :")
print(data_clean.head())

# Calculer des statistiques descriptives


print("\nStatistiques descriptives :")
print(data_clean.describe())

# Filtrer les données pour l'année 2023


ventes_2023 = data_clean[data_clean['Annee'] == 2023]

# Afficher les premières lignes du DataFrame filtré


print("\nPremières lignes du DataFrame filtré pour l'année 2023 :")
print(ventes_2023.head())

# Calculer le total des ventes pour chaque produit en 2023


total_ventes_2023 = ventes_2023.groupby('Produit')['Quantite'].sum()

# Afficher le total des ventes pour chaque produit en 2023


print("\nTotal des ventes pour chaque produit en 2023 :")
print(total_ventes_2023)

Explications du code

1. Importer la bibliothèque pandas :


 La bibliothèque pandas est importée pour manipuler et analyser les
données.
2. Charger un fichier CSV :
 La fonction pd.read_csv() est utilisée pour charger le fichier CSV dans un
DataFrame pandas.
3. Afficher les premières lignes :
 La méthode head() est utilisée pour afficher les cinq premières lignes du
DataFrame.
4. Nettoyer les données :
 La méthode dropna() est utilisée pour supprimer les lignes avec des valeurs
manquantes.
5. Calculer des statistiques descriptives :
 La méthode describe() est utilisée pour calculer des statistiques
descriptives, telles que la moyenne, l'écart type, les valeurs minimales et
maximales, etc.
6. Filtrer les données :
 Les données sont filtrées pour l'année 2023 en utilisant une condition
booléenne sur la colonne 'Annee'.
7. Calculer le total des ventes pour chaque produit en 2023 :
Written and presented by Manda Tabi P a g e 31 | 61
 La méthode groupby() est utilisée pour regrouper les données par produit
et calculer la somme des quantités vendues pour chaque produit en 2023.

Exécution du code

1. Créer un nouveau notebook :


 Dans Jupyter Notebooks, cliquez sur "New" et sélectionnez "Python 3" pour
créer un nouveau notebook.
2. Coller le code :
 Copiez et collez le code ci-dessus dans une cellule du notebook.
3. Exécuter le code :
 Appuyez sur Shift + Enter pour exécuter la cellule et voir les résultats.

Exercice Pratique

1. Exercices pratiques avec Python :


 Activité : Donnez un ensemble de données sales et demandez aux
participants de le nettoyer et d'effectuer des analyses de base.
Guide : Utilisez des exercices guidés pour calculer des statistiques
descriptives et créer des visualisations simples. En suivant ces étapes, vous
devriez être en mesure de nettoyer un ensemble de données "sales" et
d'effectuer des analyses de base avec Python. Assurez-vous d'avoir un fichier
CSV nommé ventes_sales.csv avec le contenu approprié dans le même
répertoire que votre notebook pour que le code fonctionne correctement.

 Ensemble de données

Voici un exemple de données "sales" que nous allons utiliser. Ces données
sont au format CSV et contiennent des informations sur les ventes de
produits. Nous allons d'abord créer ce fichier CSV, puis le charger dans un
DataFrame pandas pour le nettoyer et effectuer des analyses.

Contenu du fichier CSV

Créons un fichier CSV nommé ventes_sales.csv avec le contenu suivant :


ID,Ville,Produit,Prix,Quantite,Annee,Ventes
1,Paris,Livre,20,5,2022,100
2,Lyon,Stylo,5,10,2022,50
3,Marseille,Cahier,10,8,2023,80
4,Paris,Livre,20,3,2023,60
5,Lyon,Stylo,5,15,2023,75
6,Marseille,Cahier,10,6,2022,60

Written and presented by Manda Tabi P a g e 32 | 61


7,Paris,Livre,20,,2023,40
8,Lyon,Stylo,5,20,2022,100
9,Marseille,Cahier,10,9,2023,90
10,Paris,Livre,20,4,2022,80
11,,Stylo,5,12,2023,60
12,Toulouse,Cahier,10,7,2022,70

Dans cet ensemble de données, nous avons des valeurs manquantes et des
incohérences que nous allons nettoyer.

Exercice pratique

Étape 1 : Charger et nettoyer les données

1. Charger le fichier CSV :


import pandas as pd

# Charger le fichier CSV


data = pd.read_csv('ventes_sales.csv')

# Afficher les premières lignes du DataFrame


print("Premières lignes du DataFrame :")
print([Link]())
2. Nettoyer les données :

Nous allons supprimer les lignes avec des valeurs manquantes et corriger les
incohérences.
# Supprimer les lignes avec des valeurs manquantes
data_clean = [Link]()

# Afficher les premières lignes du DataFrame nettoyé


print("\nPremières lignes du DataFrame nettoyé :")
print(data_clean.head())

Étape 2 : Calculer des statistiques descriptives

1. Calculer la somme des ventes par produit :


# Calculer la somme des ventes par produit
ventes_par_produit = data_clean.groupby('Produit')['Ventes'].sum()
Written and presented by Manda Tabi P a g e 33 | 61
print("\nSomme des ventes par produit :")
print(ventes_par_produit)
2. Trouver le produit le plus vendu :
# Trouver le produit le plus vendu
produit_plus_vendu = ventes_par_produit.idxmax()
print(f"\nLe produit le plus vendu est : {produit_plus_vendu}")

Étape 3 : Créer des visualisations simples

Nous allons utiliser la bibliothèque matplotlib pour créer des visualisations


simples.
1. Installer matplotlib :
Assurez-vous d'avoir installé la bibliothèque matplotlib. Vous pouvez
l'installer en utilisant pip :
pip install matplotlib
2. Créer un graphique à barres pour les ventes par produit :
import [Link] as plt

# Créer un graphique à barres pour les ventes par produit


ventes_par_produit.plot(kind='bar')
[Link]('Somme des ventes par produit')
[Link]('Produit')
[Link]('Ventes')
[Link]()

Explications du code

1. Charger le fichier CSV :


 La fonction pd.read_csv() est utilisée pour charger le fichier CSV dans un
DataFrame pandas.
2. Nettoyer les données :
 La méthode dropna() est utilisée pour supprimer les lignes avec des valeurs
manquantes.
3. Calculer des statistiques descriptives :
 La méthode groupby() est utilisée pour regrouper les données par produit
et calculer la somme des ventes pour chaque produit.
 La méthode idxmax() est utilisée pour trouver l'index du produit le plus
vendu.
4. Créer des visualisations simples :
 La bibliothèque matplotlib est utilisée pour créer un graphique à barres des
ventes par produit.

Exécution du code

1. Créer un nouveau notebook :

Written and presented by Manda Tabi P a g e 34 | 61


 Dans Jupyter Notebooks, cliquez sur "New" et sélectionnez "Python 3" pour
créer un nouveau notebook.
2. Coller le code :
 Copiez et collez le code ci-dessus dans une cellule du notebook.
3. Exécuter le code :
 Appuyez sur Shift + Enter pour exécuter la cellule et voir les résultats.

Module 3: Visualisation des Données

Contenu détaillé

Importance de la visualisation

Pourquoi visualiser les données ?


La visualisation des données est cruciale pour plusieurs raisons :
 Compréhension : Elle aide à comprendre les données en les rendant
visuellement accessibles, ce qui permet de voir des modèles et des
tendances qui ne sont pas évidents dans les données brutes.
 Identification des tendances : Les graphiques et les diagrammes
permettent de repérer rapidement les tendances, les anomalies et les
relations entre les variables.
 Communication : Les visualisations sont un moyen efficace de
communiquer des résultats et des idées complexes à un public, qu'il soit
technique ou non.
 Prise de décision : En rendant les données plus faciles à comprendre, les
visualisations aident à prendre des décisions éclairées.

Written and presented by Manda Tabi P a g e 35 | 61


Types de visualisations
1. Graphiques en barres :
 Utilisation : Pour comparer des valeurs entre différentes catégories.
 Exemple : Comparer les ventes de différents produits.
2. Histogramme :
 Utilisation : Pour montrer la distribution d'un ensemble de données
continues.
 Exemple : Montrer la distribution des âges dans une population.
3. Graphiques en secteurs (Camembert) :
 Utilisation : Pour montrer les proportions ou les pourcentages d'un
ensemble de données.
 Exemple : Montrer la répartition des parts de marché entre différentes
entreprises.
4. Nuages de points :
 Utilisation : Pour montrer la relation entre deux variables continues.
 Exemple : Analyser la relation entre la taille et le poids d'un groupe de
personnes.

Outils de visualisation
1. Matplotlib :
 Description : Une bibliothèque de base pour la visualisation en Python. Elle
est très flexible et permet de créer une grande variété de graphiques.
 Utilisation : Idéale pour ceux qui commencent avec la visualisation de
données en Python.
2. Seaborn :
 Description : Une bibliothèque basée sur Matplotlib qui offre une interface
plus simple pour créer des visualisations statistiques avancées et
esthétiquement agréables.
 Utilisation : Parfaite pour créer des graphiques statistiques complexes avec
peu de code.
3. Tableau :
 Description : Un outil de visualisation interactif qui permet de créer des
tableaux de bord et des graphiques interactifs sans nécessiter de
compétences en programmation.
 Utilisation : Excellente pour les utilisateurs qui souhaitent créer des
visualisations interactives et des rapports sans écrire de code.

Ces outils et techniques de visualisation permettent de transformer des


données complexes en informations visuelles claires et exploitables,
facilitant ainsi l'analyse et la communication des résultats.

Exercice Pratique

Written and presented by Manda Tabi P a g e 36 | 61


1. Création de graphiques simples :
 Activité : Utilisez Matplotlib et Seaborn pour créer des graphiques à partir
des ensembles de données nettoyés.
 Guide : Guidez les participants pour créer des graphiques en barres, des
histogrammes et des nuages de points.

En suivant ces étapes, vous devriez être en mesure de créer des graphiques
simples à l'aide de Matplotlib et Seaborn. Ces visualisations peuvent vous
aider à mieux comprendre vos données et à communiquer vos résultats de
manière efficace.

Préparation
Assurez-vous d'avoir installé les bibliothèques nécessaires. Vous pouvez les
installer via pip si ce n'est pas déjà fait :
pip install matplotlib seaborn pandas

Exemple de données

Nous allons utiliser un ensemble de données nettoyées sur les ventes de


produits. Voici un exemple de ce à quoi pourraient ressembler ces données :

Written and presented by Manda Tabi P a g e 37 | 61


Création de graphiques

Graphique en barres

Les graphiques en barres sont utiles pour comparer des catégories. Par
exemple, nous pouvons comparer les ventes totales par produit.
import pandas as pd
import [Link] as plt
import seaborn as sns

# Exemple de données nettoyées


data = {
'ID': [1, 2, 3, 4, 5, 6, 8, 9, 10, 12],
'Ville': ['Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon', 'Marseille',
'Lyon', 'Marseille', 'Paris', 'Toulouse'],
'Produit': ['Livre', 'Stylo', 'Cahier', 'Livre', 'Stylo', 'Cahier',
'Stylo', 'Cahier', 'Livre', 'Cahier'],
'Prix': [20, 5, 10, 20, 5, 10, 5, 10, 20, 10],
'Quantite': [5, 10, 8, 3, 15, 6, 20, 9, 4, 7],
'Annee': [2022, 2022, 2023, 2023, 2023, 2022, 2022, 2023, 2022, 2022],
'Ventes': [100, 50, 80, 60, 75, 60, 100, 90, 80, 70]
}

data_clean = [Link](data)

# Calculer la somme des ventes par produit


ventes_par_produit = data_clean.groupby('Produit')['Ventes'].sum()

# Créer un graphique en barres


[Link](ventes_par_produit.index, ventes_par_produit.values)

Written and presented by Manda Tabi P a g e 38 | 61


[Link]('Produit')
[Link]('Ventes')
[Link]('Ventes par Produit')
[Link](rotation=45)
[Link]()

Histogramme

Les histogrammes sont utiles pour visualiser la distribution d'une variable


continue. Par exemple, nous pouvons visualiser la distribution des ventes.
# Créer un histogramme
[Link](data_clean['Ventes'], bins=10)
[Link]('Distribution des Ventes')
[Link]('Ventes')
[Link]('Fréquence')
[Link]()

Nuage de points

Les nuages de points sont utiles pour visualiser la relation entre deux
variables continues. Par exemple, nous pouvons visualiser la relation entre le
prix et les ventes.
# Créer un nuage de points
[Link](x='Prix', y='Ventes', data=data_clean)
[Link]('Relation entre Prix et Ventes')
[Link]('Prix')
[Link]('Ventes')
[Link]()

Explications du code

1. Graphique en barres :
 Nous utilisons [Link]() pour créer un graphique en barres.
 ventes_par_produit.index et ventes_par_produit.values sont utilisés
pour spécifier les produits et les ventes totales.
 [Link](), [Link](), et [Link]() sont utilisés pour ajouter des
étiquettes et un titre.
 [Link](rotation=45) est utilisé pour faire pivoter les étiquettes de l'axe
des x pour une meilleure lisibilité.
2. Histogramme :
 Nous utilisons [Link]() pour créer un histogramme.
 data_clean['Ventes'] est utilisé pour spécifier les données à tracer.
 bins=10 est utilisé pour spécifier le nombre de barres dans l'histogramme.
3. Nuage de points :
 Nous utilisons [Link]() pour créer un nuage de points.
 x='Prix' et y='Ventes' sont utilisés pour spécifier les variables à tracer.

Written and presented by Manda Tabi P a g e 39 | 61


 data=data_clean est utilisé pour spécifier le DataFrame contenant les
données.

2. Interprétation des visualisations :


 Activité : Discutez de ce que chaque type de graphique peut révéler sur les
données.
 Guide : Demandez aux participants d'interpréter les graphiques créés et de
tirer des conclusions.

L'interprétation des visualisations est une compétence essentielle pour


comprendre les données et en tirer des conclusions significatives. Discutons
de ce que chaque type de graphique peut révéler sur les données et
comment les interpréter.
Graphique en barres
Ce qu'il révèle :
 Comparaisons catégorielles : Les graphiques en barres sont
excellents pour comparer des valeurs entre différentes catégories. Par
exemple, un graphique en barres des ventes par produit montre
clairement quel produit a les ventes les plus élevées ou les plus
basses.
 Tendances : Ils peuvent également révéler des tendances ou des
modèles dans les données catégorielles.
Interprétation :
 Exemple : Si le graphique en barres montre que les "Livres" ont la
barre la plus haute, cela signifie que les livres ont généré le plus de
ventes par rapport aux autres produits.
 Conclusion : Vous pourriez conclure que les livres sont le produit le
plus populaire parmi ceux analysés et décider d'augmenter le stock ou
de promouvoir davantage ce produit.
Histogramme
Ce qu'il révèle :
 Distribution des données : Les histogrammes montrent comment
les données sont distribuées sur un ensemble de valeurs. Ils peuvent
révéler la concentration des données, les écarts, et la présence de
valeurs aberrantes.
 Forme de la distribution : Ils peuvent indiquer si les données sont
normalement distribuées, asymétriques, bimodales, etc.
Interprétation :
 Exemple : Si l'histogramme des ventes montre une concentration de
barres autour des valeurs moyennes avec une diminution symétrique
vers les extrémités, cela suggère une distribution normale des ventes.

Written and presented by Manda Tabi P a g e 40 | 61


 Conclusion : Vous pourriez conclure que la plupart des ventes se
situent autour d'une valeur moyenne, avec peu de variations
extrêmes, ce qui peut aider à planifier les stocks et les stratégies de
vente.
Nuage de points
Ce qu'il révèle :
 Relations entre variables : Les nuages de points sont utilisés pour
visualiser la relation entre deux variables continues. Ils peuvent révéler
des corrélations positives, négatives, ou l'absence de corrélation.
 Groupements et valeurs aberrantes : Ils peuvent également
montrer des groupements de données ou des valeurs aberrantes.
Interprétation :
 Exemple : Si le nuage de points montre une tendance ascendante
entre le prix et les ventes, cela suggère une corrélation positive : à
mesure que le prix augmente, les ventes augmentent également.
 Conclusion : Vous pourriez conclure que l'augmentation du prix est
associée à une augmentation des ventes, ce qui pourrait indiquer que
les produits à prix plus élevé sont perçus comme ayant une meilleure
qualité ou sont plus désirables.
Activité d'interprétation
1. Graphique en barres :
 Question : Quel produit a les ventes les plus élevées et lequel a
les ventes les plus basses ?
 Interprétation : Identifiez les barres les plus hautes et les plus
basses et discutez des raisons possibles pour ces observations.
2. Histogramme :
 Question : Comment les ventes sont-elles distribuées ? Y a-t-il
des valeurs aberrantes ?
 Interprétation : Discutez de la forme de la distribution et de ce
qu'elle pourrait indiquer sur les habitudes d'achat.
3. Nuage de points :
 Question : Y a-t-il une relation apparente entre le prix et les
ventes ? Cette relation est-elle positive ou négative ?
 Interprétation : Discutez de la tendance générale des points et
de ce que cela pourrait signifier pour la stratégie de prix.
En interprétant ces graphiques, les participants peuvent tirer des conclusions
significatives sur les données et utiliser ces informations pour prendre des
décisions éclairées. Encouragez-les à poser des questions sur les données et
à explorer différentes hypothèses pour approfondir leur compréhension.

Written and presented by Manda Tabi P a g e 41 | 61


Module 4: Analyse Statistique
Contenu détaillé

Concepts de base

 Moyenne : La somme des valeurs divisée par le nombre de valeurs.


 Médiane : La valeur centrale dans un ensemble de données triées.
 Mode : La valeur la plus fréquente dans un ensemble de données.
 Écart-type : Une mesure de la dispersion des données autour de la
moyenne.
 Variance : Le carré de l'écart-type, une autre mesure de la dispersion.
 Tests statistiques :
 Test t : Pour comparer les moyennes de deux groupes.
 ANOVA : Pour comparer les moyennes de trois groupes ou plus.
 Test de chi-carré : Pour tester l'indépendance entre deux variables
catégorielles.

Exercice Pratique

1. Calcul de statistiques descriptives :


 Activité : Utilisez Python (Pandas) pour calculer la moyenne, la médiane, le
mode, l'écart-type et la variance des ensembles de données.
 Guide : Montrez comment utiliser les fonctions de Pandas pour calculer ces
statistiques.
L'interprétation des visualisations est en effet une compétence clé pour tirer
des conclusions significatives à partir des données. Voici quelques idées
supplémentaires et des conseils pour approfondir l'interprétation de chaque
type de graphique :

Graphique en barres

Approfondir l'interprétation :

 Comparaison des catégories : En plus d'identifier les catégories avec les


valeurs les plus élevées et les plus basses, discutez des écarts entre les
catégories. Par exemple, si les livres ont des ventes significativement plus
élevées que les stylos, explorez les raisons possibles de cet écart.

Written and presented by Manda Tabi P a g e 42 | 61


 Tendances temporelles : Si les données incluent une dimension
temporelle (par exemple, ventes mensuelles), utilisez des graphiques en
barres empilées ou groupées pour observer les tendances au fil du temps.

Questions supplémentaires :

 Quels facteurs pourraient expliquer les différences de ventes entre les


catégories ?
 Comment les promotions ou les saisons pourraient-elles influencer ces
résultats ?

Histogramme

Approfondir l'interprétation :

 Analyse de la distribution : Discutez de la signification des différentes


formes de distribution. Par exemple, une distribution asymétrique pourrait
indiquer que la plupart des ventes sont concentrées dans une gamme de
valeurs spécifique.
 Identification des valeurs aberrantes : Les valeurs aberrantes peuvent
indiquer des erreurs de données ou des événements inhabituels. Explorez les
raisons possibles de ces valeurs aberrantes et leur impact sur l'analyse.

Questions supplémentaires :

 Que pourraient signifier les valeurs aberrantes dans le contexte des ventes ?
 Comment la distribution des ventes pourrait-elle influencer les stratégies de
marketing et de stock ?

Nuage de points

Approfondir l'interprétation :

 Analyse de corrélation : Utilisez des mesures statistiques, comme le


coefficient de corrélation de Pearson, pour quantifier la force et la direction
de la relation entre les variables.
 Segmentation des données : Si les données peuvent être segmentées
(par exemple, par région ou par type de produit), créez des nuages de points
séparés pour chaque segment afin d'identifier des tendances spécifiques.
Written and presented by Manda Tabi P a g e 43 | 61
Questions supplémentaires :

 Quels autres facteurs pourraient influencer la relation entre le prix et les


ventes ?
 Comment pourriez-vous utiliser cette information pour optimiser la stratégie
de prix ?

Activité d'interprétation

Graphique en barres :

 Exercice : Demandez aux participants de créer un graphique en barres des


ventes par région et d'interpréter les résultats. Quelles régions ont les
ventes les plus élevées et pourquoi ?
 Discussion : Explorez comment les différences régionales pourraient
influencer les stratégies de marketing et de distribution.

Histogramme :

 Exercice : Créez un histogramme des ventes quotidiennes et identifiez les


jours avec des ventes exceptionnellement élevées ou basses. Quels
événements pourraient expliquer ces variations ?
 Discussion : Discutez de l'impact des jours de semaine, des weekends et
des jours fériés sur les ventes.

Nuage de points :

 Exercice : Créez un nuage de points montrant la relation entre les dépenses


publicitaires et les ventes. Y a-t-il une corrélation apparente ?
 Discussion : Explorez comment les différentes stratégies publicitaires
pourraient influencer les ventes et comment optimiser les dépenses
publicitaires.

En encourageant les participants à poser des questions et à explorer


différentes hypothèses, vous les aidez à développer une compréhension plus
profonde des données et à tirer des conclusions plus significatives. Cela peut
également stimuler la pensée critique et la créativité dans l'analyse des
données.

2. Interprétation des résultats :


 Activité : Discutez de ce que chaque statistique révèle sur les données.
 Guide : Demandez aux participants d'interpréter les résultats et de tirer des
conclusions.

Written and presented by Manda Tabi P a g e 44 | 61


L'interprétation des résultats statistiques est cruciale pour comprendre ce
que les données révèlent et pour prendre des décisions éclairées. Voici
comment aborder l'interprétation de différentes statistiques courantes et ce
qu'elles peuvent révéler sur les données :

Moyenne

Ce qu'elle révèle :

 Tendance centrale : La moyenne donne une idée de la valeur centrale des


données. Elle est utile pour comprendre la tendance générale.
 Comparaison : Elle permet de comparer différents ensembles de données
pour voir lequel a une valeur centrale plus élevée ou plus basse.

Interprétation :

 Exemple : Si la moyenne des ventes mensuelles est de 5000 unités, cela


signifie que, en moyenne, 5000 unités sont vendues chaque mois.
 Conclusion : Vous pourriez utiliser cette information pour fixer des objectifs
de vente ou pour évaluer la performance par rapport à la moyenne.

Médiane

Ce qu'elle révèle :

 Valeur centrale : La médiane est la valeur qui sépare la moitié supérieure


de la moitié inférieure des données. Elle est moins sensible aux valeurs
extrêmes que la moyenne.
 Distribution : Elle donne une idée de la distribution des données, surtout en
présence de valeurs aberrantes.

Interprétation :

 Exemple : Si la médiane des ventes est de 4500 unités, cela signifie que la
moitié des mois ont des ventes inférieures à 4500 unités et l'autre moitié a
des ventes supérieures.
 Conclusion : Cela peut indiquer que les ventes sont relativement
équilibrées, mais il peut y avoir des mois avec des ventes
exceptionnellement élevées ou basses.

Mode

Ce qu'il révèle :

Written and presented by Manda Tabi P a g e 45 | 61


 Valeur la plus fréquente : Le mode est la valeur qui apparaît le plus
fréquemment dans un ensemble de données.
 Tendance : Il peut révéler la tendance ou la préférence la plus courante
dans les données.

Interprétation :

 Exemple : Si le mode des ventes est de 6000 unités, cela signifie que 6000
unités est le nombre de ventes le plus fréquent.
 Conclusion : Cela pourrait indiquer un pic de ventes récurrent, peut-être dû
à des promotions ou à des saisons spécifiques.

Écart type

Ce qu'il révèle :

 Dispersion : L'écart type mesure la dispersion des données autour de la


moyenne. Un écart type élevé indique que les données sont très dispersées.
 Consistance : Il donne une idée de la consistance des données. Un faible
écart type signifie que les données sont proches de la moyenne.

Interprétation :

 Exemple : Si l'écart type des ventes est de 1000 unités, cela signifie que les
ventes varient généralement de 1000 unités autour de la moyenne.
 Conclusion : Un écart type élevé pourrait indiquer une grande variabilité
dans les ventes, ce qui pourrait nécessiter une investigation plus approfondie
pour comprendre les causes de cette variabilité.

Quartiles

Ce qu'ils révèlent :

 Distribution : Les quartiles divisent les données en quatre parties égales. Ils
donnent une idée de la distribution des données et de la présence de valeurs
aberrantes.
 Intervalle interquartile (IQR) : L'IQR, qui est la différence entre le
troisième quartile (Q3) et le premier quartile (Q1), mesure la dispersion de la
moitié centrale des données.

Interprétation :

 Exemple : Si Q1 est de 3000 unités et Q3 est de 7000 unités, cela signifie


que la moitié centrale des ventes se situe entre 3000 et 7000 unités.

Written and presented by Manda Tabi P a g e 46 | 61


 Conclusion : Un IQR large pourrait indiquer une grande variabilité dans les
ventes centrales, tandis qu'un IQR étroit suggère une plus grande
consistance.

Activité d'interprétation

Moyenne :

 Question : Quelle est la moyenne des ventes mensuelles et que cela révèle-
t-il sur la performance globale ?
 Interprétation : Discutez de ce que cette moyenne signifie pour l'entreprise
et comment elle pourrait être utilisée pour fixer des objectifs.

Médiane :

 Question : Comment la médiane des ventes se compare-t-elle à la moyenne


? Que cela pourrait-il indiquer sur la distribution des ventes ?
 Interprétation : Explorez les raisons possibles des différences entre la
moyenne et la médiane, comme la présence de valeurs aberrantes.

Mode :

 Question : Quel est le mode des ventes et que cela pourrait-il indiquer sur
les habitudes d'achat des clients ?
 Interprétation : Discutez des facteurs qui pourraient contribuer à ce pic de
ventes récurrent.

Écart type :

 Question : Que révèle l'écart type sur la variabilité des ventes ? Comment
cette variabilité pourrait-elle affecter la planification et les stratégies de
l'entreprise ?
 Interprétation : Explorez les raisons possibles de cette variabilité et
comment elle pourrait être gérée.

Quartiles :

 Question : Que révèlent les quartiles sur la distribution des ventes ?


Comment l'IQR pourrait-il être utilisé pour comprendre la consistance des
ventes ?
 Interprétation : Discutez de l'importance de comprendre la distribution des
ventes et comment cela pourrait influencer les décisions stratégiques.

Written and presented by Manda Tabi P a g e 47 | 61


Module 5: Machine Learning Basics
Contenu détaillé

Introduction au Machine Learning

Définition

Le Machine Learning est une méthode qui permet aux ordinateurs


d'apprendre et de s'améliorer à partir de l'expérience, sans avoir besoin
d'être explicitement programmés pour chaque tâche. Imaginez que vous
apprenez à un enfant à reconnaître des chats et des chiens en lui montrant
des images : c'est un peu ce que fait le Machine Learning, mais avec des
ordinateurs et des données.

Types de Machine Learning

Written and presented by Manda Tabi P a g e 48 | 61


1. Supervisé :
 Qu'est-ce que c'est ? C'est comme apprendre avec un professeur.
L'ordinateur reçoit des données avec des réponses correctes (étiquetées) et
apprend à prédire ces réponses.
 Exemples :
 Régression : Prédire un nombre, comme le prix d'une maison en fonction
de sa taille.
 Classification : Prédire une catégorie, comme déterminer si un email est un
spam ou non.
2. Non supervisé :
 Qu'est-ce que c'est ? C'est comme explorer sans guide. L'ordinateur reçoit
des données sans réponses correctes et doit trouver des motifs ou des
structures par lui-même.
 Exemple :
 Clustering : Regrouper des données similaires, comme segmenter des
clients en groupes similaires pour le marketing.
3. Par renforcement :
 Qu'est-ce que c'est ? C'est comme apprendre en essayant et en recevant
des récompenses ou des punitions. L'ordinateur apprend en effectuant des
actions et en voyant les résultats de ces actions.
 Exemple :
 Jeux vidéo : Un programme apprend à jouer à un jeu en essayant
différentes actions et en apprenant de ses erreurs et succès.

Algorithmes de base

1. Régression linéaire :
 À quoi ça sert ? À prédire une valeur continue, comme le prix d'une maison
ou la température de demain.
 Exemple : Prédire le prix d'une maison en fonction de sa taille et de son
emplacement.
2. Classification :
 À quoi ça sert ? À prédire une catégorie ou une classe, comme déterminer
si un email est un spam ou non.
 Exemple : Classer des emails en spam ou non spam.
3. Clustering :
 À quoi ça sert ? À regrouper des données similaires ensemble, utile pour la
segmentation de clients ou l'analyse de marché.
 Exemple : Segmenter des clients en différents groupes pour des campagnes
marketing ciblées.

En résumé, le Machine Learning permet aux ordinateurs d'apprendre à partir


de données pour faire des prédictions ou prendre des décisions, tout comme
les humains apprennent de l'expérience.

Written and presented by Manda Tabi P a g e 49 | 61


Exercice Pratique

1. Utilisation de Scikit-Learn pour un modèle simple :


 Activité : Montrez comment utiliser Scikit-Learn pour créer un modèle de
régression linéaire simple.
 Guide : Guidez les participants pour entraîner le modèle, faire des
prédictions et évaluer les résultats.
Pour créer un modèle de régression linéaire simple avec Scikit-Learn, nous
allons suivre un processus étape par étape. Cela inclut le chargement des
données, la division des données en ensembles d'entraînement et de test,
l'entraînement du modèle, la réalisation de prédictions, et l'évaluation des
résultats. Voici comment vous pouvez le faire :

Étape 1 : Préparation des données

Assurez-vous d'avoir un ensemble de données avec des caractéristiques et


une cible. Pour cet exemple, nous allons utiliser des données fictives sur les
ventes en fonction du prix.
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from [Link] import mean_squared_error, r2_score
import [Link] as plt

# Exemple de données
data = {
'Prix': [10, 15, 12, 20, 25, 30, 35, 40, 45, 50],
'Ventes': [20, 30, 25, 40, 45, 50, 55, 60, 65, 70]
}

# Créer un DataFrame
data_clean = [Link](data)

# Afficher les données


print(data_clean)

Étape 2 : Division des données

Nous allons diviser les données en ensembles d'entraînement et de test.


Cela nous permet d'entraîner le modèle sur une partie des données et de
tester sa performance sur une autre partie.
# Charger les données
X = data_clean[['Prix']] # Caractéristique
y = data_clean['Ventes'] # Cible

# Diviser les données en ensembles d'entraînement et de test


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)
Written and presented by Manda Tabi P a g e 50 | 61
Étape 3 : Création et entraînement du modèle

Nous allons créer un modèle de régression linéaire et l'entraîner sur les


données d'entraînement.
# Créer et entraîner le modèle
model = LinearRegression()
[Link](X_train, y_train)

Étape 4 : Réalisation de prédictions

Une fois le modèle entraîné, nous pouvons l'utiliser pour faire des prédictions
sur l'ensemble de test.
# Faire des prédictions
y_pred = [Link](X_test)

Étape 5 : Évaluation du modèle


Nous allons évaluer le modèle en utilisant des métriques comme l'erreur
quadratique moyenne (Mean Squared Error, MSE) et le coefficient de
détermination (R-squared).
# Évaluer le modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")


print(f"R-squared: {r2}")

Étape 6 : Visualisation des résultats

Enfin, nous allons visualiser les résultats pour voir comment le modèle
s'ajuste aux données.
# Visualiser les résultats
[Link](X_test, y_test, color='black', label='Données réelles')
[Link](X_test, y_pred, color='blue', linewidth=3, label='Prédictions')
[Link]('Prix')
[Link]('Ventes')
[Link]('Régression Linéaire: Prix vs Ventes')
[Link]()
[Link]()

Explications du code

1. Préparation des données : Nous créons un DataFrame avec des données


fictives sur les prix et les ventes.
2. Division des données : Nous utilisons train_test_split pour diviser les
données en ensembles d'entraînement et de test.

Written and presented by Manda Tabi P a g e 51 | 61


3. Création et entraînement du modèle : Nous créons une instance de
LinearRegression et utilisons fit pour entraîner le modèle sur les données
d'entraînement.
4. Réalisation de prédictions : Nous utilisons predict pour faire des
prédictions sur l'ensemble de test.
5. Évaluation du modèle : Nous calculons le MSE et le R-squared pour
évaluer la performance du modèle.
6. Visualisation des résultats : Nous traçons les données réelles et les
prédictions pour visualiser l'ajustement du modèle.

En suivant ces étapes, vous pouvez créer un modèle de régression linéaire


simple avec Scikit-Learn et évaluer ses performances.

2. Évaluation des résultats :


 Activité : Discutez de l'importance de l'évaluation des modèles et des
différentes métriques d'évaluation.
 Guide : Demandez aux participants d'interpréter les résultats du modèle et
de discuter des améliorations possibles.

L'évaluation des modèles est une étape cruciale dans le processus de


Machine Learning. Elle permet de comprendre comment le modèle performe
et d'identifier les domaines où des améliorations sont nécessaires. Voici un
guide sur l'importance de l'évaluation des modèles et sur les différentes
métriques d'évaluation, ainsi que des conseils pour interpréter les résultats
et discuter des améliorations possibles.
Importance de l'évaluation des modèles
L'évaluation des modèles est essentielle pour plusieurs raisons :
 Performance : Elle permet de mesurer la performance du modèle sur
des données non vues pendant l'entraînement, ce qui donne une idée
de sa capacité à généraliser.
 Comparaison : Elle permet de comparer différents modèles ou
configurations pour choisir le meilleur.
 Diagnostic : Elle aide à diagnostiquer les problèmes potentiels,
comme le surapprentissage (overfitting) ou le sous-apprentissage
(underfitting).

Métriques d'évaluation courantes


Pour les problèmes de régression :
1. Erreur Quadratique Moyenne (Mean Squared Error, MSE) :
 Définition : La moyenne des carrés des différences entre les
valeurs prédites et les valeurs réelles.

Written and presented by Manda Tabi P a g e 52 | 61


 Interprétation : Plus le MSE est bas, mieux le modèle performe.
Il est sensible aux valeurs aberrantes.
2. R-carré (R²) :
 Définition : Une mesure de la proportion de la variance dans la
variable dépendante qui est prédite par le modèle.
 Interprétation : Un R² proche de 1 indique un bon ajustement
du modèle aux données.
Pour les problèmes de classification :
1. Précision (Accuracy) :
 Définition : La proportion des prédictions correctes sur le total
des prédictions.
 Interprétation : Une précision élevée indique un bon modèle,
mais elle peut être trompeuse si les classes sont déséquilibrées.
2. Matrice de Confusion :
 Définition : Une table qui décrit la performance d'un modèle de
classification, montrant les vrais positifs, vrais négatifs, faux
positifs et faux négatifs.
 Interprétation : Elle permet de voir où le modèle fait des
erreurs et quel type d'erreurs il commet.
3. Précision (Precision) et Rappel (Recall) :
 Précision : La proportion des vrais positifs parmi les positifs
prédits.
 Rappel : La proportion des vrais positifs parmi les positifs réels.
 Interprétation : Une haute précision indique que le modèle est
précis dans ses prédictions positives, tandis qu'un haut rappel
indique que le modèle capture la plupart des positifs réels.
Interprétation des résultats
Exemple avec un modèle de régression :
Supposons que vous avez entraîné un modèle de régression linéaire et
obtenu les résultats suivants :
 MSE : 100
 R² : 0.85
Interprétation :
 Un MSE de 100 signifie que, en moyenne, les prédictions du modèle
sont éloignées des valeurs réelles par une certaine quantité (la racine
carrée du MSE donne l'erreur moyenne en unités originales).
 Un R² de 0.85 indique que 85% de la variance dans les ventes est
expliquée par le modèle, ce qui est généralement considéré comme un
bon ajustement.
Discuter des améliorations possibles
1. Collecte de plus de données : Plus de données peuvent aider le
modèle à mieux apprendre et à généraliser.
2. Ingénierie des caractéristiques : Créer de nouvelles
caractéristiques ou transformer les caractéristiques existantes peut
améliorer la performance du modèle.

Written and presented by Manda Tabi P a g e 53 | 61


3. Sélection de caractéristiques : Choisir les caractéristiques les plus
pertinentes peut réduire le bruit et améliorer la performance.
4. Choix du modèle : Essayer différents algorithmes de Machine
Learning pour voir lequel performe le mieux.
5. Hyperparamétrage : Ajuster les hyperparamètres du modèle pour
optimiser sa performance.
6. Traitement des valeurs aberrantes : Identifier et traiter les valeurs
aberrantes peut améliorer la robustesse du modèle.
En discutant de ces points, les participants peuvent non seulement
comprendre comment évaluer un modèle, mais aussi comment l'améliorer
pour obtenir de meilleurs résultats. Cela encourage une approche critique et
réfléchie du Machine Learning.

Written and presented by Manda Tabi P a g e 54 | 61


Test de Connaissances
Questions à Choix Multiples

1. Qu'est-ce que les données qualitatives ?


 A) Données numériques
 B) Données non numériques
 C) Données continues
 D) Données discrètes
2. Quel outil est utilisé pour la manipulation de données en Python ?
 A) Matplotlib
 B) Pandas
 C) Tableau
 D) Excel
3. Quelle bibliothèque Python est utilisée pour la visualisation de
données ?
 A) NumPy
 B) Matplotlib
 C) Scikit-Learn
 D) SQL
4. Quelle mesure de tendance centrale est la valeur la plus fréquente
dans un ensemble de données ?
 A) Moyenne
 B) Médiane
 C) Mode
 D) Écart-type
5. Quel type de Machine Learning utilise des données étiquetées ?
 A) Non supervisé
 B) Par renforcement
 C) Supervisé
 D) Clustering

Written and presented by Manda Tabi P a g e 55 | 61


Questions Ouvertes

1. Expliquez l'importance du nettoyage des données dans l'analyse de


données.
2. Quels sont les avantages de la visualisation des données ?
3. Décrivez brièvement les étapes pour créer un modèle de régression linéaire
en utilisant Scikit-Learn.
4. Quelle est la différence entre la moyenne et la médiane ?
5. Donnez un exemple de test statistique et expliquez son utilisation.

Exercice Pratique

1. Nettoyage de données :
 Activité : Donnez un ensemble de données sales et demandez aux
participants de le nettoyer en utilisant Python (Pandas).
 Guide : Montrez comment identifier et corriger les erreurs dans les données.
2. Visualisation de données :
 Activité : Demandez aux participants de créer un graphique en barres et un
histogramme à partir d'un ensemble de données nettoyé en utilisant
Matplotlib et Seaborn.
 Guide : Guidez les participants pour créer et interpréter les graphiques.
3. Analyse statistique :
 Activité : Demandez aux participants de calculer la moyenne, la médiane, le
mode, l'écart-type et la variance d'un ensemble de données en utilisant
Python (Pandas).
 Guide : Montrez comment utiliser les fonctions de Pandas pour calculer ces
statistiques.
4. Machine Learning :
 Activité : Demandez aux participants de créer un modèle de régression
linéaire simple en utilisant Scikit-Learn, de l'entraîner, de faire des
prédictions et d'évaluer les résultats.
 Guide : Guidez les participants pour créer et évaluer le modèle.

Written and presented by Manda Tabi P a g e 56 | 61


power-bi
[Link]

Power BI est un service d'analyse commerciale développé par Microsoft. Il


offre des capacités de visualisation interactive et d'intelligence d'entreprise
avec une interface suffisamment simple pour permettre aux utilisateurs
finaux de créer leurs propres rapports et tableaux de bord.
Voici quelques fonctionnalités et composants clés de Power BI :
1. Connectivité des données : Power BI peut se connecter à une large
gamme de sources de données, y compris des feuilles de calcul Excel, des
données basées sur le cloud, des bases de données locales et des services
web.
2. Transformation et modélisation des données : Avec Power Query, les
utilisateurs peuvent transformer et nettoyer les données avant de les
importer dans Power BI. Il offre également des capacités de modélisation des
données pour créer des relations entre différents ensembles de données.
3. Visualisations : Power BI propose une variété d'options de visualisation
pour représenter les données, y compris des graphiques, des tableaux, des
cartes et des visuels personnalisés. Les utilisateurs peuvent créer des
rapports interactifs qui permettent d'approfondir les données.
4. Tableaux de bord : Les utilisateurs peuvent créer des tableaux de bord qui
fournissent une vue consolidée des métriques et des informations clés. Les
tableaux de bord peuvent être personnalisés et partagés avec d'autres.
5. Partage et collaboration : Power BI permet aux utilisateurs de partager
des rapports et des tableaux de bord avec des collègues et des parties
prenantes. Il prend également en charge les fonctionnalités de collaboration,
permettant aux équipes de travailler ensemble sur des projets d'analyse de
données.
6. Service Power BI : Il s'agit du composant basé sur le cloud de Power BI où
les utilisateurs peuvent publier, partager et collaborer sur des rapports et
des tableaux de bord. Il fournit également des fonctionnalités
supplémentaires comme l'actualisation planifiée des données et les alertes
de données.

Written and presented by Manda Tabi P a g e 57 | 61


7. Power BI Desktop : Il s'agit d'une application de bureau gratuite utilisée
pour créer des rapports et des modèles de données. Elle offre un
environnement plus complet pour l'analyse de données et la création de
visualisations.
8. Accès mobile : Power BI propose des applications mobiles pour les
appareils iOS et Android, permettant aux utilisateurs d'accéder et d'interagir
avec leurs rapports et tableaux de bord en déplacement.
9. Intégration avec d'autres outils : Power BI s'intègre bien avec d'autres
produits et services Microsoft, tels qu'Azure, Excel et SQL Server, ainsi
qu'avec diverses applications tierces.

Power BI est largement utilisé dans divers secteurs pour sa capacité à


transformer les données en informations exploitables, aidant les
organisations à prendre des décisions basées sur les données. Si vous avez
des questions spécifiques ou avez besoin de plus d'informations sur Power
BI, n'hésitez pas à demander !

Rôles et Étapes pour Créer un Rapport dans Power BI


Contenu du Fichier Excel
Pour cet exercice, vous pouvez créer un fichier Excel simple avec les
données suivantes :
Feuille : Ventes
Date Produit Catégorie Quantité Prix Unitaire Total

01/01/2023 Produit A Catégorie 1 10 100 1000

02/01/2023 Produit B Catégorie 2 5 200 1000

03/01/2023 Produit C Catégorie 1 8 150 1200

04/01/2023 Produit A Catégorie 1 12 100 1200

05/01/2023 Produit B Catégorie 2 6 200 1200

06/01/2023 Produit C Catégorie 1 9 150 1350

Written and presented by Manda Tabi P a g e 58 | 61


En suivant ces étapes et en attribuant ces rôles, vous pouvez créer un
rapport Power BI efficace et collaboratif. Chaque rôle a des responsabilités
spécifiques qui contribuent à la création et à la gestion réussies du rapport.

Étape 1 : Charger les Données


Rôle : Responsable des Données
1. Ouvrir Power BI Desktop
 Action : Lancez l'application Power BI Desktop sur votre
ordinateur.
 Objectif : Préparer l'environnement pour le chargement des
données.
2. Obtenir des données
 Action : Cliquez sur "Obtenir des données" dans l'onglet
"Accueil".
 Objectif : Accéder à la fonctionnalité de chargement des
données.

3. Sélectionner Excel
 Action : Dans la fenêtre qui s'ouvre, choisissez "Excel" et cliquez
sur "Connecter".
 Objectif : Se connecter à un fichier Excel contenant les données
nécessaires.
4. Choisir le fichier
 Action : Sélectionnez le fichier Excel préparé et cliquez sur
"Ouvrir".
 Objectif : Charger le fichier de données dans Power BI.
5. Charger les données
 Action : Sélectionnez la feuille "Ventes" et cliquez sur "Charger".
 Objectif : Importer les données dans Power BI pour analyse.
Étape 2 : Transformer les Données

Written and presented by Manda Tabi P a g e 59 | 61


Rôle : Ingénieur de Données
1. Ouvrir l'Éditeur Power Query
 Action : Cliquez sur "Transformer les données" pour ouvrir
l'éditeur Power Query.
 Objectif : Préparer les données pour l'analyse.
2. Nettoyer les données
 Action : Renommez les colonnes pour plus de clarté, supprimez
les lignes vides, et ajustez les types de données.
 Objectif : Assurer que les données sont propres et bien
structurées pour l'analyse.

Étape 3 : Créer des Visualisations


Rôle : Analyste de Données
1. Créer un nouveau rapport
 Action : Allez dans l'onglet "Rapport".
 Objectif : Commencer à créer des visualisations basées sur les
données nettoyées.
2. Ajouter des visualisations
 Action : Utilisez le volet "Visualisations" pour ajouter des
graphiques. Par exemple, créez un histogramme pour les ventes
par date et un graphique circulaire pour les ventes par catégorie.
 Objectif : Visualiser les données pour mieux comprendre les
tendances et les modèles.
3. Personnaliser les visualisations
 Action : Utilisez les options de formatage pour personnaliser les
couleurs, ajouter des titres, et ajuster les axes.
 Objectif : Rendre les visualisations plus informatives et
attrayantes.
Étape 4 : Publier et Partager
Rôle : Administrateur Power BI
1. Enregistrer le rapport

Written and presented by Manda Tabi P a g e 60 | 61


 Action : Enregistrez votre rapport sur votre ordinateur.
 Objectif : Conserver une copie locale du rapport pour référence
future.
2. Publier sur Power BI Service
 Action : Cliquez sur "Publier" dans l'onglet "Accueil" pour publier
votre rapport sur Power BI Service.
 Objectif : Rendre le rapport accessible en ligne pour le partage et
la collaboration.
3. Partager le rapport
 Action : Utilisez l'option "Partager" dans Power BI Service pour
partager le rapport avec d'autres utilisateurs.
 Objectif : Permettre à d'autres parties prenantes de visualiser et
d'interagir avec le rapport.

Written and presented by Manda Tabi P a g e 61 | 61

Vous aimerez peut-être aussi