0% ont trouvé ce document utile (0 vote)
41 vues25 pages

Roadmap DataAnalyst - Ipynb

Ce document présente une roadmap complète pour devenir Data Analyst, en fournissant un aperçu des compétences nécessaires et des ressources recommandées pour l'apprentissage. Il aborde des sujets tels que les statistiques descriptives, l'utilisation d'Excel pour l'analyse de données, ainsi que les langages de programmation comme Python et SQL. Des projets pratiques et des ressources en ligne sont également suggérés pour renforcer les compétences en analyse de données.

Transféré par

Cedric Ndekebai
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
41 vues25 pages

Roadmap DataAnalyst - Ipynb

Ce document présente une roadmap complète pour devenir Data Analyst, en fournissant un aperçu des compétences nécessaires et des ressources recommandées pour l'apprentissage. Il aborde des sujets tels que les statistiques descriptives, l'utilisation d'Excel pour l'analyse de données, ainsi que les langages de programmation comme Python et SQL. Des projets pratiques et des ressources en ligne sont également suggérés pour renforcer les compétences en analyse de données.

Transféré par

Cedric Ndekebai
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats TXT, PDF, TXT ou lisez en ligne sur Scribd

{

"cells": [
{
"cell_type": "markdown",
"id": "d46bcf62",
"metadata": {},
"source": [
"# 🚀 Roadmap complète pour devenir Data Analyst\n",
" \n",
"\n",
"Créé par : Natacha Njongwa Yepnga Visitez la chaîne Youtube [LeCoinStat]
(https://www.youtube.com/c/LeCoinStat)\n",
"Pour des astuces quotidienne, rendez-vous tous les jours à 8h sur LinkedIN
[Linkedin](https://www.linkedin.com/in/natacha-njongwa-yepnga/)"
]
},
{
"cell_type": "markdown",
"id": "4c9b36ee",
"metadata": {},
"source": [
"# 🌟 Introduction\n",
"\n",
"## 🎯 Objectif\n",
"\n",
"L'objectif de ce notebook est de vous fournir un aperçu complet des
compétences requises pour exceller en tant que **data analyst**. \n",
"\n",
"Avec l'abondance de ressources disponibles en ligne, il peut être un véritable
défi de distinguer celles qui sont les plus pertinentes et efficaces. \n",
"\n",
"C'est pourquoi j'ai pris soin de sélectionner et de compiler dans ce notebook
des ressources recommandées, afin de faciliter votre parcours d'apprentissage et de
renforcer vos compétences en analyse de données.\n"
]
},
{
"cell_type": "markdown",
"id": "fd37ad4c",
"metadata": {},
"source": [
"\n",
"## 📘 Comment exploiter ce notebook?\n",
"\n",
"Vous êtes libre de choisir le domaine à explorer en premier lieu. Veuillez
noter que la séquence d'apprentissage des compétences n'est pas strictement définie
(!) **N'oubliez pas d'allier théorie et pratique !** \n"
]
},
{
"cell_type": "markdown",
"id": "4bc0e3b4",
"metadata": {},
"source": [
"# 📊 Statistiques Descriptives"
]
},
{
"cell_type": "markdown",
"id": "4e4bd3b6",
"metadata": {},
"source": [
"![https://www.scribbr.de/wp-content/uploads/2023/01/Descriptive-
statistics.webp](https://www.scribbr.de/wp-content/uploads/2023/01/Descriptive-
statistics.webp)"
]
},
{
"cell_type": "markdown",
"id": "f80c9ef1",
"metadata": {},
"source": [
"L'objectif de cette partie est de:\n",
"\n",
"- Définir et utiliser le vocabulaire statistique (population, observation,
échantillon, caractère)\n",
"- Sur une problématique donnée être capable de choisir les outils
d'exploration adaptée pour la base de données\n",
"- Faire des graphique pertinent\n",
"- Savoir interpréter les résultats"
]
},
{
"cell_type": "markdown",
"id": "94cf81b0",
"metadata": {},
"source": [
"## Statistique univariée\n",
" - Types de variables (qualitatives, quantitatives, ordinales, etc.)\n",
" - Mesures de tendance centrale (moyenne, médiane, mode)\n",
" - Mesures de dispersion (écart-type, variance)\n",
" - Fréquences et proportions\n",
" - Graphiques et visualisation de données (histogrammes, diagrammes en
barres, diagrammes circulaires, boxplot etc.)\n"
]
},
{
"cell_type": "markdown",
"id": "4032b5fd",
"metadata": {},
"source": [
"**Projet 1:** Faire un projet de statistique descriptive univariée avec
Excel\n",
"Vous pouvez choisir un domaine et récupérer une base de données sur [kaggle]
(https://www.kaggle.com/) ou sur le site
[https://archive.ics.uci.edu/](https://archive.ics.uci.edu/)"
]
},
{
"cell_type": "markdown",
"id": "49750e9f",
"metadata": {},
"source": [
"## Statistique bivariée :\n",
"- **Graphiques pour la visualisation des relations entre variables :**\n",
" - *Variables qualitatives-qualitatives* : diagramme en barres, diagramme
en secteurs.\n",
" - *Variables qualitatives-quantitatives* : boîte à moustaches, diagramme
en violon, diagramme en barres.\n",
" - *Variables quantitatives-quantitatives* : nuage de points, diagramme de
densité.\n",
"\n",
"- **Liaison entre deux variables quantitatives** : coefficient de corrélation
linéaire.\n",
"\n",
"- **Liaison entre deux variables qualitatives** : tableau de contingence,
statistique du Khi-deux (χ²).\n",
"\n",
"- **Liaison entre une variable quantitative et une variable qualitative** :
rapport de corrélation, analyse de variance à un facteur.\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "27d2e7a3",
"metadata": {},
"source": [
"**Projet 2:** Faire un projet qui permet d'analyser des variables deux à deux
avec Excel\n",
"\n",
"Vous pouvez choisir un domaine et récupérer une base de données sur [kaggle]
(https://www.kaggle.com/) ou sur le site
[https://archive.ics.uci.edu/](https://archive.ics.uci.edu/)"
]
},
{
"cell_type": "markdown",
"id": "efd5f974",
"metadata": {},
"source": [
"# Excel pour l'analyse de données : Fonctionnalités Clés\n",
"\n",
"## Manipulation de données\n",
"- **Tri et Filtre** : Classer les données selon des critères spécifiques.\n",
"- **RechercheV et RechercheH** : Chercher des données dans des tableaux.\n",
"- **Fonctions conditionnelles** : Utilisation de `SI`, `SOMME.SI`, `NB.SI`,
etc., pour des calculs basés sur des conditions.\n",
"\n",
"## Analyse statistique\n",
"- **Fonctions statistiques** : `MOYENNE`, `MEDIANE`, `ECARTYPE`, etc.\n",
"- **Analyse de tendance** : Régression linéaire et prévisions.\n",
"\n",
"## Visualisation de données\n",
"- **Graphiques** : Histogrammes, camemberts, lignes, etc.\n",
"- **Tableaux de bord interactifs** : Utilisation de contrôles de formulaire
pour la visualisation dynamique.\n",
"\n",
"## Automatisation\n",
"- **Macros** : Automatiser des tâches répétitives.\n",
"- **VBA** : Programmation pour des analyses plus complexes.\n",
"\n",
"## Tableaux croisés dynamiques\n",
"- **Analyse multidimensionnelle** : Explorer et résumer de grandes quantités
de données.\n",
"- **Segmentation de données** : Filtrer dynamiquement les données dans les
tableaux croisés.\n",
"\n",
"## Fonctions avancées\n",
"- **INDEX & EQUIV** : Techniques avancées de recherche et de référence.\n",
"- **Formules matricielles** : Calculs complexes sur des ensembles de données.\
n",
"\n",
"## Importation et intégration de données\n",
"- **Power Query** : Importer et transformer des données de sources variées.\
n",
"- **Connexions de données externes** : Intégrer des données provenant de bases
de données ou du web.\n",
"\n",
"## Autres fonctions fréquemment utilisées\n",
"- **CONCATENER / CONCAT** : Fusionner des textes de plusieurs cellules.\n",
"- **GAUCHE / DROITE** : Extraire des caractères depuis le début ou la fin
d'une chaîne de texte.\n",
"- **SIERREUR** : Gérer les erreurs dans les formules.\n",
"- **NBVAL** : Compter le nombre de cellules qui contiennent des données.\n",
"- **SOMMEPROD** : Multiplier les éléments de deux tableaux ou plus et en
sommer les produits.\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "a2233b06",
"metadata": {},
"source": [
"## Ressources et Cours \n",
"\n",
"\n",
"1. **Khan Academy** : \n",
" - [Statistiques et
probabilités](https://fr.khanacademy.org/math/statistics-probability)\n",
"\n",
"2. **Coursera** : \n",
" - [Data Science Math Skills par Duke
University](https://www.coursera.org/learn/datasciencemathskills)\n",
" - [Basic Statistics par University of
Amsterdam](https://www.coursera.org/learn/basic-statistics)\n",
"\n",
"3. **edX** : \n",
" - [Introduction to Probability and Data par Duke
University](https://www.edx.org/course/introduction-to-probability-and-data)\n",
"\n",
"4. **MIT OpenCourseWare** : \n",
" - [Introduction to Probability and
Statistics](https://ocw.mit.edu/courses/mathematics/18-05-introduction-to-
probability-and-statistics-spring-2014/)\n",
"\n",
"5. **YouTube** : \n",
" - [LeCoinStat](https://www.youtube.com/c/LeCoinStat)\n",
" - [Brandon Foltz](https://www.youtube.com/user/BCFoltz)\n",
" - [jbstatistics](https://www.youtube.com/user/jbstatistics)\n",
" - [StatQuest avec Josh Starmer](https://www.youtube.com/user/joshstarmer)\
n",
" - [https://www.youtube.com/@kozyrkov](https://www.youtube.com/@kozyrkov)\
n"
]
},
{
"cell_type": "markdown",
"id": "7d33ca5f",
"metadata": {},
"source": [
"\n",
"\n",
"# 💻 Programmation\n",
"Pour manipuler efficacement les données et développer des applications liées à
la data science, vous devrez maîtriser certains langages de programmation. Les plus
couramment utilisés sont :\n",
"\n",
"- Python\n",
"- SQL\n",
"- R\n",
"- SAS (particulièrement utile dans le secteur financier)\n",
"- JavaScript/C++/Java (pour le développement d'applications à grande échelle)\
n",
"\n",
"Ci-dessous, un aperçu des langages de programmation les plus utilisés dans le
domaine de la science des données selon les enquêtes Kaggle de 2018 à 2021. Python,
SQL et R sont indéniablement en tête.\n",
"![graphique](kaggle_survey.png)\n",
"\n",
"Source : [https://www.kaggle.com/code/lynnxy/a-deep-dive-into-the-kaggle-
survey-from-2017-2021#1.-Introduction](https://www.kaggle.com/code/lynnxy/a-deep-
dive-into-the-kaggle-survey-from-2017-2021#1.-Introduction)\n",
"\n",
"\n",
"\n",
"Même si les outils spécifiques et l'infrastructure de data science peuvent
différer d'une entreprise à l'autre, une base solide vous équipera pour apprendre
et maîtriser rapidement tout nouvel outil ou compétence qui pourrait se présenter
sur votre chemin.\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "91b18ef7",
"metadata": {},
"source": [
"Pour vous entrainer:
[http://www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_1a.html](http://
www.xavierdupre.fr/app/ensae_teaching_cs/helpsphinx/td_1a.html)"
]
},
{
"cell_type": "markdown",
"id": "4427fae9",
"metadata": {},
"source": [
"![https://www.datasciencecentral.com/wp-content/uploads/2021/10/3840441960-
1.png](https://www.datasciencecentral.com/wp-content/uploads/2021/10/3840441960-
1.png)"
]
},
{
"cell_type": "markdown",
"id": "42b4c4dc",
"metadata": {},
"source": [
"\n",
"## SQL (Structured Query Language)\n",
"\n",
"\n",
"\n",
"SQL est un langage de programmation conçu pour gérer les données stockées dans
des bases de données relationnelles. Le langage SQL est largement utilisé
aujourd'hui dans les frameworks web et les applications de base de données. Il
permet de maintenir l'exactitude et la sécurité des données, et contribue à
maintenir l'intégrité des bases de données, quel que soit leur taille.\n",
"\n",
"\n",
"# 📚 SQL pour les data analysts\n",
"\n",
"## 📕 SQL Débutant\n",
"Sujets :\n",
"1. Introduction au système de gestion de base de données relationnelle
(RDBMS)\n",
"2. Conception de bases de données\n",
" - Diagramme entité-relation (ERD)\n",
" - Clé primaire\n",
" - Clé étrangère\n",
" - Normalisation de la base de données\n",
"3. Syntaxe SQL de base\n",
" - Types de données\n",
" - Opérateurs et expressions\n",
" - Créer, sélectionner, supprimer une base de données\n",
" - Créer, supprimer une table\n",
" - Requête CRUD : \n",
" - Création de données (Requête INSERT)\n",
" - Lecture de données (Requête SELECT)\n",
" - Mise à jour de données (Requête UPDATE)\n",
" - Suppression de données (Requête DELETE)\n",
"4. Filtrage et Tri des données\n",
" - Clause WHERE\n",
" - Clauses AND, OR, NOT\n",
" - Clause LIKE\n",
" - Clause ORDER BY\n",
"5. Regroupement et Fonctions d'agrégation\n",
" - Clause GROUP BY\n",
" - Fonction DISTINCT\n",
" - Fonctions d'agrégation (SUM, AVG, MIN, MAX, COUNT)\n",
"Les Jointures (Left Join, Inner Join, Right Join, Outer Join)\n",
"\n",
"## 📗 SQL Intermédiaire\n",
"Sujets :\n",
"1. Contraintes de base de données\n",
"2. Gestion des valeurs NULL\n",
"3. Syntaxe des alias\n",
"4. Opérations sur les tables\n",
" - Indexation\n",
" - Commande ALTER TABLE\n",
" - Tronquer une table\n",
"5. Manipulation avancée des données\n",
" - Utilisation des vues\n",
" - Clause HAVING\n",
" - Transactions SQL\n",
" - Jokers\n",
" - Fonctions de date\n",
"6. Techniques SQL intermédiaires\n",
" - Tables temporaires\n",
" - Clonage des tables\n",
" - Utilisation des séquences\n",
" - Gestion des doublons\n",
" - Prévention de l'injection SQL\n",
"\n",
"## 📘 SQL Avancé\n",
"Sujets :\n",
"1. Techniques avancées de requête\n",
" - Sous-requêtes\n",
" - Opérations ensemblistes (UNION, UNION ALL, INTERSECT, MINUS)\n",
"2. Extensions de regroupement\n",
" - Extensions GROUP BY (ROLLUP, CUBE et GROUPING SETS)\n",
"3. Fonctions de fenêtrage\n",
" - RANK(), DENSE_RANK(), ROW_NUMBER() etc.\n",
" - Utilisation de OVER(PARTITION BY ...)\n",
"4. Partitionnement de données et requêtes récursives\n",
" - PARTITION BY\n",
"5. Requêtes récursives\n",
"\n",
"\n",
"6. Manipulation avancée des vues\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "49517ad4",
"metadata": {},
"source": [
"\n",
"**Ressources SQL, cours et certificats**\n",
"1. [Codecademy - Learn SQL](https://www.codecademy.com/learn/learn-sql)\n",
"2. [Khan Academy - Intro to
SQL](https://www.khanacademy.org/computing/computer-programming/sql)\n",
"3. https://www.w3schools.com/sql/default.asp\n",
"4. [Stanford University -
Databases](https://lagunita.stanford.edu/courses/DB/SQL/SelfPaced/about)\n",
"5. [SQLZoo](https://sqlzoo.net/)\n",
"6. [Mode Analytics - SQL Tutorial: Learn SQL with MySQL
Database](https://mode.com/sql-tutorial/)\n",
"7. [Coursera - SQL for Data Science by University of California, Davis]
(https://www.coursera.org/learn/sql-for-data-science)\n",
"8. [DataCamp - SQL Server
courses](https://www.datacamp.com/courses/tech:sql_server)\n",
"9. [Udemy - SQL - MySQL for Data Analytics and Business Intelligence]
(https://www.udemy.com/course/sql-mysql-for-data-analytics-and-business-
intelligence/)\n",
"\n",
"Pour réaliser des projets: https://8weeksqlchallenge.com/getting-started/\n"
]
},
{
"cell_type": "markdown",
"id": "903a8df4",
"metadata": {},
"source": [
"# Visualisation des données \n",
"\n",
"\n",
"La visualisation des données est la représentation des données à travers des
graphiques courants, tels que des diagrammes, des graphiques, des infographies et
même des animations. Ces représentations visuelles de l'information communiquent
des relations de données complexes et des connaissances basées sur les données de
manière facile à comprendre.\n",
"\n",
"La visualisation des données peut être créée à l'aide de Python/R ou de
logiciels propriétaires tels que Tableau et PowerBI (qui sont des outils de tableau
de bord populaires dans les entreprises).\n",
"\n",
"Bibliothèques populaires de visualisation des données en Python :\n",
"- matplotlib\n",
"- bokeh\n",
"- plotly\n",
"- seaborn\n",
"- altair\n",
"\n",
"Bibliothèques populaires de visualisation des données en R :\n",
"- ggplot2\n",
"- plotly\n",
"\n",
"Ressources, cours et certificats de visualisation des données\n",
"- Spécialisation Data Visualization with Tableau (Coursera)\n",
"- Cours PowerBI (Codebasics)\n",
"- 📚 Storytelling with Data\n",
"- Projets de portfolio de visualisation de données\n",
"- Création d'un tableau de bord interactif de visualisation en Python avec
Panel\n",
"- Benjamin Ejzenberg :
[https://www.youtube.com/@BenjaminEjzenberg](https://www.youtube.com/
@BenjaminEjzenberg)\n",
"\n",
"**Projet 6:** Faire un projet de dataviz avec R ou python "
]
},
{
"cell_type": "markdown",
"id": "bb3ba88e",
"metadata": {},
"source": [
"# 📚 Algorithmique et progammation avec Python\n",
"\n",
"La compréhension des concepts fondamentaux de l'algorithmique et de la
complexité est cruciale pour tout data scientist. Cela permet non seulement de
développer des compétences en programmation efficace, mais également de mieux
comprendre le fonctionnement interne des algorithmes de machine learning, tout en
offrant des outils pour résoudre de manière plus systématique et optimisée des
problèmes complexes.\n",
"\n",
"**L'objectif ici est d'acquerir:**\n",
"- Les éléments de bases de tout langage impératifs (variables, boucles, test,
fonction, classes).\n",
"- Notions d'algorithme : récurrence, coût d'un algorithme, programmation
dynamique, dichotomie.\n",
"\n",
"\n",
"\n",
"\n",
"\n",
"## 📕 Bases de l'Algorithmique\n",
"- Définition et caractéristiques d'un algorithme\n",
"- Conception d'algorithmes: pseudo-code et diagrammes de flux\n",
"- Structures de contrôle: séquence, sélection, répétition\n",
"- Recherche et tri: recherche linéaire, recherche binaire, tri par sélection,
tri à bulles, tri par insertion, tri rapide, tri fusion\n",
"- Recursivité: définition, exemples classiques (factorielle, Fibonacci),
avantages et inconvénients\n",
"- Procédures et fonctions\n",
"\n",
"## 📗 Structures de Données\n",
"- Tableaux et listes: utilisation, avantages et inconvénients\n",
"- Listes chaînées: liste simple, liste doublement chaînée\n",
"- Arbres: arbres binaires, arbres de recherche binaire, arbres AVL, arbres B\
n",
"- Graphes: définition, représentation\n",
"\n",
"## 📕 Langage python\n",
"- Manipulation des données\n",
"- Boucles, tests, fonctions\n",
"- Classes et programmation objet\n",
"- Exceptions\n",
"- Modules\n",
"- Interface graphique\n",
"\n",
"## 📗 Algorithmes (programme de l'ENSAE)\n",
"\n",
"\n",
"- Algorithmes de tri\n",
"- Files d’attente, simulation informatique\n",
"- Plus court chemin dans un graphe\n",
"- Plus court chemin reliant tous les noeuds d’un graphe, cartes de Kohonen\n",
"- Distance d’édition, distance entre deux séquences\n",
"- Optimisation numérique, algorithmes BFGS, DFP Classification à l'aide des k
plus proches voisins (k-PPV), -optimisation de la recherche du plus proche voisin\
n",
"- Modèles de Markov cachés et algorithme Expectation-Maximisation (EM)\n",
"\n",
"\n",
"## 📚 Ressources pour l'Apprentissage\n",
"\n",
"\n",
"- [Khan Academy: Algorithmes](https://www.khanacademy.org/computing/computer-
science/algorithms)\n",
"- [Geeks for Geeks: Structures de données](https://www.geeksforgeeks.org/data-
structures/)\n",
"- [Coursera: Algorithmes
spécialisés](https://www.coursera.org/specializations/algorithms)\n",
"- [MIT OpenCourseWare: Introduction à
l'algorithmique](https://ocw.mit.edu/courses/electrical-engineering-and-computer-
science/6-006-introduction-to-algorithms-fall-2011/index.htm)\n",
"- [EdX: Algorithmes et structures de
données](https://www.edx.org/micromasters/ucsandiegox-algorithms-and-data-
structures)\n"
]
},
{
"cell_type": "markdown",
"id": "82e75169",
"metadata": {},
"source": [
"## Python\n",
"Qu'est-ce que c'est ?\n",
"Python est un langage de programmation généraliste et de haut niveau largement
utilisé. Il a été initialement conçu par Guido van Rossum en 1991 et développé par
la Python Software Foundation. Il a été principalement développé pour mettre
l'accent sur la lisibilité du code, et sa syntaxe permet aux programmeurs
d'exprimer des concepts en moins de lignes de code.\n",
"\n",
"# 📚 Python pour l'analyse de données\n",
"\n",
"## 📕 Les bases de Python \n",
"\n",
"### Environnements de développement intégrés (IDE) populaires pour Python :\
n",
"\n",
"- [Pycharm](https://www.jetbrains.com/pycharm/)\n",
"- [VSCode](https://code.visualstudio.com/)\n",
"- [Jupyterlab/Jupyter Notebook](https://jupyter.org/) pour la programmation
interactive\n",
"- [Google Colab](https://colab.research.google.com/) pour le développement en
ligne\n",
"\n",
"### Bibliothèques importantes :\n",
"- pandas\n",
"- numpy\n",
"- matplotlib\n",
"- sklearn (pour l'apprentissage automatique)\n",
"- requests (pour travailler avec des API)\n",
"\n",
"### Bien débuter avec Python :\n",
"- Types de données\n",
"- Variables\n",
"- Conversion de types\n",
"- Opérateurs (affectation, logiques, arithmétiques, etc.)\n",
"- Instructions conditionnelles (if, else, elif)\n",
"- Collections : Liste, Tuple, Ensembles et Dictionnaire\n",
"- Compréhension de liste\n",
"- Boucles en Python (for, while et boucles imbriquées)\n",
"- Manipulation de chaînes\n",
"- Fonctions définies par l'utilisateur\n",
"- Fonction lambda\n",
"- Installation et importation de modules\n",
"\n",
"## 📗 Python intermédiaire\n",
"- Environnement virtuel\n",
"- Enumerate\n",
"- Zip et unzip\n",
"- Map, Filter et Reduce\n",
"- *args et **kwargs\n",
"- Erreurs et gestion des exceptions\n",
"- Gestionnaires de contexte\n",
"- Création de modules Python\n",
"\n",
"## 📘 Programmation orientée objet (POO) en Python\n",
"- Bases de la programmation orientée objet\n",
"- Création de classe et d'objet\n",
"- Constructeurs (paramétrés et non paramétrés)\n",
"- Héritage en Python\n",
"- Méthodes et attributs de classe intégrés\n",
"- Héritage multi-niveaux et multiple\n",
"- Surcharge de méthode et abstraction de données\n",
"- Encapsulation\n",
"- Polymorphisme\n",
"\n",
"\n",
"**Ressources, cours et certificats Python**\n",
"- Spécialisation Python for Everybody (Coursera)\n",
"- Data Science appliquée avec Python (Coursera)\n",
"- Python Tips (gratuit en ligne) - pour référence\n",
"- 📚 Python for Data Analysis\n",
"- 📚 Automate the Boring Stuff with Python\n",
"- 📚 Livre Python interactif (How to Think Like a Computer Scientist, Runestone
Academy)\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "f96034cd",
"metadata": {},
"source": [
"Python pour la data science lien utile [https://pythonds.linogaliana.fr/]
(https://pythonds.linogaliana.fr/)\n",
"\n",
"Pour bien démarrer en python vous pouvez suivre les daily live coding sur
LeCoinStat [https://www.youtube.com/watch?
v=jqZ3ATcm3yE&list=PLyh35eYRez8eiEt_0oVVqLDfnpxON2pZ-&index=2](https://
www.youtube.com/watch?v=jqZ3ATcm3yE&list=PLyh35eYRez8eiEt_0oVVqLDfnpxON2pZ-
&index=2)"
]
},
{
"cell_type": "markdown",
"id": "b6f5008b",
"metadata": {},
"source": [
"**Projet 3:** Faire un projet de statistique descriptive univariée et bivariée
en Python"
]
},
{
"cell_type": "markdown",
"id": "d7c9357e",
"metadata": {},
"source": [
"## R\n",
"\n",
"![https://devtechnosys.com/insights/wp-content/uploads/2023/02/What-Is-R-
Programming.png](https://devtechnosys.com/insights/wp-content/uploads/2023/02/What-
Is-R-Programming.png)\n",
"\n",
"R est un langage de programmation axé sur le calcul statistique et la création
de visualisations graphiques. Élaboré par Ross Ihaka et Robert Gentleman à
l'Université d'Auckland en 1991, R est une extension du langage S. Son nom,
reflétant les initiales de ses inventeurs, évoque aussi son héritage du langage S.
R est fréquemment utilisé dans les domaines du data mining, de la bioinformatique
et des statistiques pour analyser des données et développer des logiciels
statistiques.\n",
"\n",
"### Découvrir les Bases de R\n",
"\n",
"**Environnements de Développement Intégrés (IDE) :**\n",
"- **RStudio** : Une plateforme complète pour la programmation en R, favorisant
la productivité et la collaboration.\n",
"\n",
"**Bibliothèques Fondamentales :**\n",
"- **dplyr** et **tidyr** : Des outils performants pour la manipulation et le
nettoyage des données.\n",
"- **ggplot2** : Un système sophistiqué pour créer des visualisations de
données expressives.\n",
"- **shiny** : Pour construire des applications web interactives directement en
R.\n",
"- **plotly** : Permet de créer des graphiques interactifs.\n",
"- **caret** : Une boîte à outils complète pour le machine learning en R.\n",
"- **lubridate** : Simplifie la gestion des dates et heures.\n",
"- **stringr** : Fonctions pratiques pour la manipulation de chaînes de
caractères.\n",
"- Rmarkdown et Quarto pour une documentation dynamique\n",
"\n",
"**Compétences de Base :**\n",
"- Compréhension des différents types de données en R.\n",
"- Manipulation de structures de données telles que vecteurs, matrices, et
dataframes.\n",
"- Maîtrise des instructions conditionnelles et des boucles.\n",
"- Utilisation des fonctions `apply` pour des opérations efficaces sur les
données.\n",
"- Introduction aux statistiques descriptives avec R.\n",
"- Gestion de projets dans RStudio.\n",
"- Installation et utilisation de bibliothèques pour élargir les capacités de
R.\n",
"\n",
"### Approfondir vos Connaissances en R\n",
"\n",
"**Sujets Avancés :**\n",
"- Stratégies avancées pour la gestion des erreurs et le débogage.\n",
"- Compréhension de la portée des variables et des environnements en R.\n",
"- Création et maintenance de packages R.\n",
"\n",
"Ressources, cours et certificats R\n",
"- Spécialisation Data Analysis with R (Coursera)\n",
"- 📚 R for Data Science (Hadley Wickham & Garrett Grolemund)\n",
"- 📚 Advanced R by Hadley Wickham\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "2b20a71b",
"metadata": {},
"source": [
"**Projet 4:** Faire le projet de statistique descriptive univariée et bivariée
en R"
]
},
{
"cell_type": "markdown",
"id": "ab65f513",
"metadata": {},
"source": [
"## Pour bien écrire ces codes:\n",
"\n",
"Avant de commencer à programmer il faut bien penser au style que vous allez
adopter.\n",
"\n",
"### R \n",
"- [**Guide de style R de
Google**](https://google.github.io/styleguide/Rguide.html) : Ce guide offre des
suggestions pour l'écriture de code R, notamment sur la syntaxe, la nomination, les
commentaires et l'organisation.\n",
"- [**Tidyverse style guide**](https://style.tidyverse.org/) : Ce guide est
spécifiquement destiné à l'écriture de code R dans l'écosystème Tidyverse, un
ensemble de packages R pour le nettoyage, la manipulation et la visualisation de
données.\n",
"\n",
"### Python \n",
"- [**PEP 8**](https://pep8.org/) : C'est le guide de style pour le code source
Python. Il aborde des sujets comme l'indentation, les conventions de nommage, les
espaces blancs, etc.\n",
"- [**PEP 484**](https://www.python.org/dev/peps/pep-0484/) : Cette proposition
d'amélioration de Python introduit la notation pour les annotations de type, ce qui
peut aider à rendre votre code Python plus clair et plus facile à maintenir.\n",
"\n",
"Adopter un style de codage cohérent facilite également la collaboration avec
d'autres, car cela rend votre code plus prévisible et compréhensible pour ceux qui
pourraient avoir à le lire ou à y contribuer.\n",
"\n",
"### Outils pour aider à respecter les bonnes pratiques de codage\n",
"\n",
"#### Python\n",
"\n",
"- **pytest** : Un cadre de test pour Python. Apprendre à l'utiliser vous
permettra d'écrire des tests unitaires pour votre code, ce qui est essentiel pour
vérifier que votre code fonctionne comme prévu. Vous pouvez en savoir plus sur
pytest [ici](https://docs.pytest.org/en/latest/).\n",
"\n",
"- **pylint** : Un linter de code pour Python qui vérifie que votre code
respecte la convention PEP 8. C'est un outil précieux pour s'assurer que votre code
suit les bonnes pratiques de codage. Plus d'informations sur pylint peuvent être
trouvées [ici](https://www.pylint.org/).\n",
"\n",
"Adopter un style de codage cohérent facilite également la collaboration avec
d'autres, car cela rend votre code plus prévisible et compréhensible pour ceux qui
pourraient avoir à le lire ou à y contribuer.\n",
"\n",
"#### R\n",
"\n",
"- **lintr** : Un outil de contrôle de syntaxe pour R. Il vérifie que votre
code est bien formaté et suit les conventions de codage. Plus d'informations sur
lintr peuvent être trouvées [ici](https://github.com/jimhester/lintr).\n",
"- **testthat** : Un framework de tests unitaires pour R. Il vous aide à écrire
des tests pour votre code afin de vous assurer que tout fonctionne comme prévu.
Vous pouvez en savoir plus sur testthat [ici](https://testthat.r-lib.org/).\n",
"- **styler** : Un package qui peut reformater votre code R pour le rendre plus
propre et conforme aux conventions de style. Plus d'informations sur styler peuvent
être trouvées [ici](https://styler.r-lib.org/).\n",
"\n",
"\n",
"\n",
"Chaque entreprise peut avoir des outils et une infrastructure de data science
différents. Cependant, si vous avez des bases solides, il ne fait aucun doute que
vous pouvez facilement apprendre de nouvelles compétences et de nouveaux outils en
chemin."
]
},
{
"cell_type": "markdown",
"id": "54b32bf5",
"metadata": {},
"source": [
"# 🔢 Mathématiques et probabilités\n",
"\n",
"![https://interviewquestions.guru/wp-content/uploads/2024/01/Mind-Map-
Mathematics-for-Data-Science.webp](https://interviewquestions.guru/wp-content/
uploads/2024/01/Mind-Map-Mathematics-for-Data-Science.webp)\n",
"\n",
"Les mathématiques et les probabilités avancées sont primordiales pour
l'apprentissage automatique et les analyses statistiques avancées. Ne vous
inquiétez pas si vous ne maîtrisez pas tout, **l'essentiel est de progresser à
votre rythme :)**"
]
},
{
"cell_type": "markdown",
"id": "bae3c4cc",
"metadata": {},
"source": [
"## 🎲 Probabilité\n",
"- Probabilité conditionnelle et indépendance\n",
"- Théorème de Bayes\n",
"- Distributions de probabilité communes\n",
"- Variables aléatoires et espérance mathématique\n",
"- Variance et moments supérieurs\n",
"- Lois des grands nombres\n",
"- Théorème central limite\n",
"- Distributions discrètes (Binomiale, Poisson, Géométrique, etc.)\n",
"- Distributions continues (Uniforme, Normale, Exponentielle, etc.)\n",
"- Distributions multivariées\n",
"- Fonctions génératrices de moments\n",
"- Transformée de Laplace et de Fourier\n",
"- Processus stochastiques (si vous souhaitez travailler en finance)\n",
"- Chaînes de Markov (si vous souhaitez travailler en finance)\n"
]
},
{
"cell_type": "markdown",
"id": "95572f4e",
"metadata": {},
"source": [
"## 📈 Algèbre\n",
"\n",
"L'algèbre linéaire et bilinéaire est fondamentale dans le domaine de la data
sciencee cours présente les notions essentielles d'algèbre, en mettant l'accent sur
la réduction des matrices, en particulier dans le cas symétrique réel, et sur
l'importance de la projection orthogonale et de ses applications.\n",
"\n",
"En apprenant l'algèbre, vous devez être en mesure de: \n",
"- Appliquer les techniques du calcul matriciel : changement de base,
inversion, détermination du déterminant, réduction de matrices, résolution de
systèmes linéaires.\n",
"- Démontrer et utiliser les propriétés caractéristiques des espaces
euclidiens.\n",
"- Énoncer et appliquer les propriétés des projections orthogonales.\n",
"\n",
"#### Propriétés fondamentales des matrices et des vecteurs\n",
"\n",
"- Multiplication scalaire, transformation linéaire, transposition,
conjugaison.\n",
"- Rang, déterminant.\n",
"\n",
"#### Manipulations de matrices\n",
"\n",
"- Produits intérieurs et extérieurs, règles de multiplication.\n",
"- Inversion de matrices.\n",
"- Types de matrices : carrée, identité, triangulaire, matrices creuses et
denses, vecteurs unitaires, matrices symétriques.\n",
"\n",
"#### Décomposition et factorisation des matrices\n",
"\n",
"- Factorisation LU, décomposition en valeurs singulières.\n",
"- Élimination de Gauss, méthode Gauss-Jordan.\n",
"\n",
"#### Résolution des systèmes d'équations linéaires\n",
"\n",
"- Techniques pour résoudre des équations du type Ax = b.\n",
"\n",
"#### Espaces vectoriels\n",
"\n",
"- Concepts de base : espace vectoriel, bases, ensembles engendrés.\n",
"- Orthogonalité, orthonormalité, moindres carrés linéaires.\n",
"- Noyau, image, rang d'une application linéaire.\n",
"- Sous-espaces vectoriels, projecteurs associés.\n",
"\n",
"#### Théorie spectrale\n",
"\n",
"- Valeurs propres, vecteurs propres.\n",
"- Diagonalisation, décomposition en valeurs singulières.\n",
"\n",
"#### Applications supplémentaires en Algèbre\n",
"\n",
"- Opérations élémentaires sur les lignes et les colonnes.\n",
"- Réduction des endomorphismes : diagonalisation, théorème spectral.\n",
"- Formes quadratiques : définitions, orthogonalité, matrice associée,
réduction de Gauss.\n",
"- Espaces Euclidiens : définitions, orthogonalisation de Schmidt, matrices
orthogonales, projection orthogonale, matrices symétriques réelles.\n"
]
},
{
"cell_type": "markdown",
"id": "db5c7a22",
"metadata": {},
"source": [
"\n",
"## 📉 Analyse\n",
"- Limites\n",
"- Continuité de fonctions\n",
"- Dérivée d'une fonction\n",
"- Règles de dérivation\n",
"- Intégrales\n",
"- Techniques d'intégration\n",
"- Dérivées partielles\n",
"- Règle de la chaîne\n",
"- Maxima et minima\n",
"- Séries et séquences\n",
"- Équations différentielles\n",
"- Fonctions multivariables\n",
"- Intégrales multiples\n",
"\n",
"## ⚙️ Optimisation\n",
"- Fonctions convexes et concaves\n",
"- Opérations préservant la convexité\n",
"- Conditions de premier et de second ordre pour l'optimalité\n",
"- Méthodes d'optimisation \n",
" - Gradient descente\n",
" - Descente de gradient stochastique\n",
" - Méthode de Newton\n",
" - Méthode du lagrangien\n",
" - Optimisation par recherche linéaire et par région de confiance\n",
"- Contraintes d'optimisation et problèmes d'optimisation sous contraintes\n",
"- Optimisation convexe et non-convexe\n",
"- Optimisation combinatoire\n",
"- Programmation linéaire, quadratique et dynamique\n",
"\n",
"\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "96fe52d0",
"metadata": {},
"source": [
"\n",
"## Ressources et cours :\n",
"1. **Khan Academy** : \n",
" - [Mathématiques](https://fr.khanacademy.org/math)\n",
" - [Statistiques et
probabilités](https://fr.khanacademy.org/math/statistics-probability)\n",
"\n",
"2. **Coursera** : \n",
" - [Mathematics for Machine Learning par Imperial College
London](https://www.coursera.org/specializations/mathematics-machine-learning)\n",
" - [Probabilistic Graphical Models par Stanford
University](https://www.coursera.org/specializations/probabilistic-graphical-
models)\n",
"\n",
"3. **edX** : \n",
" - [Probability - The Science of Uncertainty and Data par
MITx](https://www.edx.org/course/probability-the-science-of-uncertainty-and-data)\
n",
"\n",
"4. **MIT OpenCourseWare** : \n",
" - [Mathématiques pour la science des
données](https://ocw.mit.edu/courses/mathematics/18-650-statistics-for-
applications-fall-2016/)\n",
" - [Probabilités](https://ocw.mit.edu/courses/mathematics/18-05-
introduction-to-probability-and-statistics-spring-2014/)\n",
"\n",
"\n",
"\n",
"Prenez le temps d'étudier ces sujets et de consolider votre compréhension des
mathématiques et de la probabilité pour exceller dans le domaine de la science des
données.\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "17c7a4bb",
"metadata": {},
"source": [
"\n",
"\n",
"\n",
"**Ressources SQL, cours et certificats**\n",
"1. [Codecademy - Learn SQL](https://www.codecademy.com/learn/learn-sql)\n",
"2. [Khan Academy - Intro to
SQL](https://www.khanacademy.org/computing/computer-programming/sql)\n",
"3. https://www.w3schools.com/sql/default.asp\n",
"4. [Stanford University -
Databases](https://lagunita.stanford.edu/courses/DB/SQL/SelfPaced/about)\n",
"5. [SQLZoo](https://sqlzoo.net/)\n",
"6. [Mode Analytics - SQL Tutorial: Learn SQL with MySQL
Database](https://mode.com/sql-tutorial/)\n",
"7. [Coursera - SQL for Data Science by University of California, Davis]
(https://www.coursera.org/learn/sql-for-data-science)\n",
"8. [DataCamp - SQL Server
courses](https://www.datacamp.com/courses/tech:sql_server)\n",
"9. [Udemy - SQL - MySQL for Data Analytics and Business Intelligence]
(https://www.udemy.com/course/sql-mysql-for-data-analytics-and-business-
intelligence/)\n",
"\n",
"Pour réaliser des projets: https://8weeksqlchallenge.com/getting-started/\n",
"\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "4dd3edae",
"metadata": {},
"source": [
"**Projet 5:** Faire un projet complet avec SQL"
]
},
{
"cell_type": "markdown",
"id": "fa5f644f",
"metadata": {},
"source": [
"# Statistique inférentielle\n",
"\n",

"![https://datatab.fr/assets/tutorial/Statistiques_descriptives_et_statistiques_inf
%C3%A9rentielles.png](https://datatab.fr/assets/tutorial/
Statistiques_descriptives_et_statistiques_inf%C3%A9rentielles.png)\n",
"\n",
"La statistique inférentielle est une branche de la statistique qui traite de
l'inférence et de la prise de décision à partir d'un échantillon représentatif
d'une population plus large. Elle permet de tirer des conclusions et de faire des
prédictions sur la population en utilisant les principes de l'échantillonnage et de
l'estimation statistique.\n",
"\n",
"Sujets clés :\n",
"\n",
"## Echantillonage et techniques de sondages\n",
"\n",
"- Echantillonnage aléatoire simple\n",
"- Echantillonnage stratifié\n",
"- Echantillonnage en grappes\n",
"- Méthodes de redressement\n",
"\n",
"## Estimation\n",
"L'estimation est une étape fondamentale en statistique qui vise à estimer les
paramètres de la population à partir des données de l'échantillon, en utilisant des
techniques d'estimation ponctuelle et d'estimation par intervalle de confiance.\n",
"\n",
"### Estimation ponctuelle\n",
"\n",
"L'estimation ponctuelle consiste à estimer un paramètre de la population par
une seule valeur, appelée estimateur ponctuel. L'estimateur ponctuel est
généralement calculé à partir des statistiques descriptives de l'échantillon. Par
exemple, la moyenne de l'échantillon peut être utilisée comme estimateur ponctuel
de la moyenne de la population.\n",
"\n",
"L'estimation ponctuelle repose sur différentes méthodes, telles que la méthode
des moments, la méthode des moindres carrés et la méthode du maximum de
vraisemblance. Chacune de ces méthodes peut être utilisée en fonction des
hypothèses et des caractéristiques de l'échantillon.\n",
"\n",
"### Estimation par intervalle de confiance\n",
"\n",
"L'estimation par intervalle de confiance est une approche qui permet d'estimer
un paramètre de la population en donnant un intervalle de valeurs possibles avec un
niveau de confiance spécifié. L'intervalle de confiance fournit une estimation plus
précise du paramètre en tenant compte de l'incertitude liée à l'échantillon.\n",
"\n",
"La construction d'un intervalle de confiance repose sur des techniques
statistiques telles que la distribution de l'échantillon, la taille de
l'échantillon et le niveau de confiance souhaité. Par exemple, un intervalle de
confiance à 95 % signifie que si l'on répète l'expérience un grand nombre de fois,
95 % de ces intervalles contiendront le véritable paramètre de la population.\n",
"\n",
"L'estimation par intervalle de confiance offre une meilleure compréhension de
la précision de l'estimation et permet de prendre en compte l'erreur
d'échantillonnage.\n",
"\n",
"\n",
"\n",
"## Tests statistiques\n",
"\n",
"### Tests d'adéquation et de normalité\n",
"- Test du khi-deux pour l'adhéquation : utilisé pour tester si un échantillon
suit une distribution théorique spécifiée.\n",
"- Tests de normalité : comprendre les tests de normalité tels que le test de
Shapiro-Wilk, le test de Kolmogorov-Smirnov, et le test d'Anderson-Darling pour
vérifier si un échantillon suit une distribution normale.\n",
"\n",
"## Corrélations\n",
"- Coefficient de corrélation de Pearson : utilisé pour mesurer la corrélation
linéaire entre deux variables continues.\n",
"- Coefficient de corrélation de Spearman : utilisé pour mesurer la corrélation
monotone entre deux variables continues ou ordinales.\n",
"- Coefficient de corrélation de Kendall : utilisé pour mesurer la corrélation
entre deux variables ordinales.\n",
"\n",
"\n",
"### Tests d'indépendance\n",
"- Test du khi-deux pour l'indépendance : utilisé pour tester l'indépendance
entre deux variables catégorielles.\n",
"- Test de Fisher : utilisé pour tester l'indépendance entre deux variables
catégorielles dans un tableau de contingence.\n",
"- Mesures d'association : \n",
" - Coefficient de contingence : mesure la force de la relation entre deux
variables catégorielles.\n",
" - Coefficient V de Cramér : mesure la force de la relation entre deux
variables nominales.\n",
" - Coefficient T de Tschuprow : mesure la force de la relation entre deux
variables nominales.\n",
"\n",
"\n",
"## Tests de comparaison de moyennes (paramétrique et non paramétrique)\n",
"- Test t de Student : utilisé pour comparer les moyennes de deux échantillons
indépendants.\n",
"- Test de Welch : utilisé pour comparer les moyennes de deux échantillons
indépendants avec des variances inégales.\n",
"- Test de Wilcoxon : utilisé pour comparer les distributions de deux
échantillons appariés ou indépendants non normalement distribués.\n",
"\n",
"\n",
"## Tests de comparaison de groupes (paramétrique et non paramétrique)\n",
"- Test d'égalité des proportions : utilisé pour comparer les proportions de
deux groupes indépendants.\n",
"- Test d'ANOVA (Analyse de variance) : utilisé pour comparer les moyennes de
plusieurs groupes indépendants.\n",
"- Test de Kruskal-Wallis : utilisé pour comparer les distributions de
plusieurs groupes indépendants non normalement distribués.\n",
"\n",
"## Tests d'égalité des variances\n",
"- Test de Levene : utilisé pour tester l'égalité des variances entre deux
groupes.\n",
"- Test de Bartlett : utilisé pour tester l'égalité des variances entre
plusieurs groupes.\n",
"\n",
"\n",
"Ressources :\n",
"\n",
"- Cours: [https://josephsalmon.eu/enseignement/ENSAE/StatAppli_tsybakov.pdf]
(https://josephsalmon.eu/enseignement/ENSAE/StatAppli_tsybakov.pdf)\n",
"- Cours très mathématique [https://egrcc.github.io/docs/math/all-of-
statistics.pdf](https://egrcc.github.io/docs/math/all-of-statistics.pdf)\n",
"\n"
]
},
{
"cell_type": "markdown",
"id": "99a2157e",
"metadata": {},
"source": [
"**Projet 7:** Faire un projet pour consolider les connaissances sur les tests
statististiques"
]
},
{
"cell_type": "markdown",
"id": "a4bcca1d",
"metadata": {},
"source": [
"# 📊 Analyses Factorielles\n",
"\n",
"Les analyses factorielles sont des techniques statistiques utilisées pour
explorer et interpréter les relations entre un grand nombre de variables. Elles
permettent de réduire la dimensionnalité des données et de découvrir des structures
sous-jacentes.\n",
"\n",
"Sujets :\n",
"- Analyse en Composantes Principales (ACP) : réduction de dimension,
visualisation des données, interprétation des composantes principales\n",
"- Analyse des Correspondances Multiples (ACM) : analyse de données
catégorielles, visualisation des profils, analyse de l'inertie\n",
"- Analyse Factorielle des Correspondances (AFC) : analyse de données
catégorielles, mise en évidence des relations entre variables\n",
"- Analyse Factorielle Discriminante (AFD) : classification et discrimination
des individus\n",
"- Autres techniques d'analyses factorielles : Analyse Factorielle des Données
Mixtes (AFDM), Analyse Factorielle des Correspondances Simples (AFCS), etc.\n",
"\n",
"Outils :\n",
"- Bibliothèques Python : scikit-learn, prince\n",
"- Bibliothèques R : FactoMineR, factoextra, Factoshiny\n",
"\n",
"Ressources:\n",
"\n",
"-Statistique exploratoire multidimensionnelle
[https://horizon.documentation.ird.fr/exl-doc/pleins_textes/divers11-
10/010007837.pdf](https://horizon.documentation.ird.fr/exl-doc/pleins_textes/
divers11-10/010007837.pdf)\n",
"\n",
"**Projet 8**: Faire un projet en utilisant une méthode d'analyse factorielle
sous R Ou Python"
]
},
{
"cell_type": "markdown",
"id": "97ae917c",
"metadata": {},
"source": [

"![https://miro.medium.com/v2/resize:fit:1400/format:webp/1*FUZS9K4JPqzfXDcC83BQTw.
png](https://miro.medium.com/v2/resize:fit:1400/format:webp/
1*FUZS9K4JPqzfXDcC83BQTw.png)"
]
},
{
"cell_type": "markdown",
"id": "1f3f1c74",
"metadata": {},
"source": [
"# 🤖 Apprentissage non supervisé\n",
"\n",
"L'apprentissage non supervisé est une branche de l'apprentissage automatique
qui vise à découvrir des structures et des modèles dans les données sans étiquettes
ou sans objectif de prédiction.\n",
"\n",
"Sujets :\n",
"- Clustering : regroupement des données similaires dans des groupes homogènes
(ex : K-means, clustering hiérarchique, DB Scan)\n",
"- Réduction de dimension : extraction des caractéristiques les plus
informatives (ex : Analyse en Composantes Principales, t-SNE)\n",
"\n",
"Outils :\n",
"- Bibliothèques Python : scikit-learn\n",
"- Bibliothèques R : stats\n",
" \n",
"\n",
"**Projet 9**: Faire un projet d'apprentissage non suppervisé\n"
]
},
{
"cell_type": "markdown",
"id": "6bdc4124",
"metadata": {},
"source": [
"# 🤖 Apprentissage supervisé"
]
},
{
"cell_type": "markdown",
"id": "c2be7529",
"metadata": {},
"source": [
"- **Comprendre la validation croisée** : une technique d'évaluation des
performances des modèles en divisant les données en ensembles d'entraînement et de
test (ex : cross_val_score)\n",
"- **Les étapes d'un projet de modélisation** : comprendre les différentes
étapes, de l'exploration des données à la construction du modèle, en passant par la
sélection des fonctionnalités et l'optimisation des hyperparamètres\n",
"- **Comment traiter les valeurs aberrantes** : identifier et gérer les valeurs
aberrantes dans les données pour éviter qu'elles n'affectent négativement les
performances du modèle (ex : boxplot, z-score)\n",
"- **Comment traiter les valeurs manquantes** : gérer les valeurs manquantes
dans les données en utilisant des techniques telles que l'imputation ou la
suppression des lignes ou des colonnes correspondantes (ex : fillna, dropna)\n",
"- **Comment évaluer les performances d'un modèle **: utiliser des métriques
d'évaluation telles que l'exactitude, la précision, le rappel, le score F1 et la
courbe ROC pour mesurer la performance d'un modèle (ex : accuracy_score,
precision_score, recall_score, f1_score, roc_auc_score)\n",
"- **Comment réaliser l'ingénierie des caractéristiques (feature engineering)**
: transformer les variables existantes ou créer de nouvelles variables pour
améliorer les performances du modèle (ex : création de variables indicatrices,
transformation logarithmique)\n",
"- **Comment sélectionner les meilleures variables** : utiliser des méthodes
telles que l'analyse univariée, la corrélation, l'importance des variables, et les
techniques de sélection automatique des variables pour choisir les caractéristiques
les plus pertinentes (ex : SelectKBest, Recursive Feature Elimination)\n",
"- **Mise à l'échelle des caractéristiques/normalisation**\n",
"- **Rééchantillonnage des données**\n",
" - Sous-échantillonnage\n",
" - Sur-échantillonnage\n"
]
},
{
"cell_type": "markdown",
"id": "a7b71957",
"metadata": {},
"source": [
"## On commence par les bases\n",
"\n",
"- Régression linéaire\n",
"- Régression logistique\n",
"- Analyse discriminante\n",
"- K plus proches voisins\n",
"- **Arbres de décision** : modèles basés sur des règles de décision
hiérarchiques pour la classification et la régression (ex : Random Forest)\n",
"\n",
"\n",
"\n",
"\n",
"### Ressources d'Apprentissage et Lectures Recommandées :\n",
"\n",
"- **Introduction to Statistical Learning** par Gareth James, Daniela Witten,
Trevor Hastie, et Robert Tibshirani :
[https://www.statlearning.com/](https://www.statlearning.com/)\n",
"\n",
"\n",
"- **The Hundred-Page Machine Learning Book** par Andriy Burkov :
[http://themlbook.com/wiki/doku.php](http://themlbook.com/wiki/doku.php)\n",
"\n",
"- **Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow** par
Aurélien Géron : [https://powerunit-ju.com/wp-content/uploads/2021/04/Aurelien-
Geron-Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow_-Concepts-
Tools-and-Techniques-to-Build-Intelligent-Systems-OReilly-Media-2019.pdf](https://
powerunit-ju.com/wp-content/uploads/2021/04/Aurelien-Geron-Hands-On-Machine-
Learning-with-Scikit-Learn-Keras-and-Tensorflow_-Concepts-Tools-and-Techniques-to-
Build-Intelligent-Systems-OReilly-Media-2019.pdf) | \n",
"\n",
"\n",
"**Projet 10:** Faire un projet complet avec chaque approche"
]
},
{
"cell_type": "markdown",
"id": "6748fde2",
"metadata": {},
"source": [
"# Programme de Formation pour Devenir Data Analyst en 9 Mois\n",
"\n",
"## Étapes Préliminaires\n",
"### 1. **Choix des Domaines d'Intérêt**\n",
"- Identifiez et sélectionnez les domaines qui vous passionnent.\n",
"\n",
"### 2. **Création de Votre Profil LinkedIn**\n",
"- En 2024, LinkedIn est un outil crucial. Assurez-vous d'avoir un profil à
jour.\n",
"- Tutoriel pour un bon profil LinkedIn : [Créer un Profil
LinkedIn](https://www.youtube.com/watch?v=DhS26hyNSFQ)\n",
"- Évitez les erreurs communes : [Erreurs à Éviter sur
LinkedIn](https://www.youtube.com/watch?v=YSOgTPWlrMM)\n",
"\n",
"### 3. **Réseau sur LinkedIn**\n",
"- Contactez des professionnels dans les domaines qui vous intéressent sur
LinkedIn.\n",
"- Comprenez leur quotidien, demandez des conseils sur les compétences
requises, les formations recommandées et les types de projets à entreprendre.\n",
"\n",
"\n",
"### 4. **Création de GitHub et Partage de Vos Progressions**\n",
"- Créez un compte GitHub pour documenter vos projets [https://github.com/]
(https://github.com/).\n",
"- Pour bien démarrer avec GitHub regardez cette vidéo:
[https://www.youtube.com/watch?v=rwS8lZ7NdJo&t=16s](https://www.youtube.com/watch?
v=rwS8lZ7NdJo&t=16s)\n",
"- Partagez régulièrement vos progrès et découvertes sur LinkedIn, YouTube,
Medium, ou votre blog personnel.\n",
"\n",
"\n",
"\n",
"\n",
"## Mois 1 - Fondements en Statistiques et Excel\n",
"- **Sujet :** Fondamentaux des statistiques et maîtrise d'Excel.\n",
"- **Projet :** Analyse statistique et création d'un tableau de bord dans
Excel.\n",
"\n",
"## Mois 2 - Immersion en SQL\n",
"- **Sujet :** Apprentissage intensif du SQL.\n",
"- **Projet :** Analyse et manipulation d'une base de données avec SQL.\n",
"\n",
"## Mois 3 - Découverte de R ou Python\n",
"- **Sujet :** Introduction à la programmation en R ou Python.\n",
"- **Projet :** Script de nettoyage de données et analyse exploratoire.\n",
"- Pour découvrir R vous avez cette vidéo sur LeCoinStat
[https://www.youtube.com/watch?v=AG4iFVJWvoE](https://www.youtube.com/watch?
v=AG4iFVJWvoE)\n",
"- Pour monter en compétence ne python suivez les daily live coding sur
LeCoinStat, la playlist est disponible ici: [https://www.youtube.com/watch?
v=jqZ3ATcm3yE&list=PLyh35eYRez8eiEt_0oVVqLDfnpxON2pZ-&index=2](https://
www.youtube.com/watch?v=jqZ3ATcm3yE&list=PLyh35eYRez8eiEt_0oVVqLDfnpxON2pZ-
&index=2)\n",
"\n",
"## Mois 4 - Exploration des Outils de Data Visualisation\n",
"- **Sujet :** Maîtrise d'un outil de visualisation de données (Tableau ou
Power BI).\n",
"- **Projet :** Création d'un tableau de bord interactif.\n",
"\n",
"## Mois 5 - Renforcement des Mathématiques et Probabilités\n",
"- **Sujet :** Mathématiques et probabilités.\n",
"- **Projet :** Projet statistique avec calculs de probabilités.\n",
"\n",
"## Mois 6 - Maîtrise des Tests Statistiques\n",
"- **Sujet :** Tests statistiques et analyses de données avancées.\n",
"- **Projet :** Projet d'analyse statistique avancée avec R ou Python.\n",
"\n",
"## Mois 7 - Analyse Factorielle et Multivariée\n",
"- **Sujet :** Analyses factorielles et multivariées.\n",
"- **Projet :** Projet d'analyse factorielle avec R ou Python.\n",
"\n",
"## Mois 8 - Initiation au Machine Learning\n",
"- **Sujet :** Introduction au machine learning.\n",
"- **Projet :** Création d'un modèle prédictif simple.\n",
"\n",
"## Mois 9 - Finalisation et Préparation Professionnelle\n",
"- **Sujet :** Projet final et préparation professionnelle.\n",
"- **Projet :** Projet intégrateur combinant toutes les compétences acquises.\
n",
"- **Activité :** Rédaction de CV et préparation à l'entretien d'embauche.\n"
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "975001ac",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"hide_input": false,
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.5"
},
"toc": {
"base_numbering": 1,
"nav_menu": {},
"number_sections": true,
"sideBar": true,
"skip_h1_title": false,
"title_cell": "Table of Contents",
"title_sidebar": "Contents",
"toc_cell": false,
"toc_position": {},
"toc_section_display": true,
"toc_window_display": false
}
},
"nbformat": 4,
"nbformat_minor": 5
}

Vous aimerez peut-être aussi