Rapport CRISP-DM - Projet Yoga Pose
Classification
Phase 1 - Compréhension du métier (Business Understanding)
Objectif :
Comprendre les objectifs métiers du projet, le contexte, les enjeux, et traduire cela en un
problème de data mining clair et exploitable.
1. Détermination des objectifs métier :
- Objectif principal : Développer un modèle capable de reconnaître automatiquement les
postures de yoga à partir d’images.
- Contexte : Projet académique pour l’année universitaire 2024-2025.
2. Évaluation de la situation :
- Données disponibles sur Kaggle (images annotées).
- Contraintes possibles : qualité variable des images, déséquilibre entre classes, droit à
l’image.
- Parties prenantes : développeurs, encadrants, futurs utilisateurs.
3. Objectifs de data mining :
- Problème de classification supervisée.
- Objectif : prédire la posture de yoga à partir d’une image via des modèles CNN.
4. Plan de projet :
- Collecte et compréhension des données (Phase 2)
- Préparation des données
- Modélisation (réseaux neuronaux convolutifs)
- Évaluation
- Déploiement éventuel
Phase 2 - Compréhension des données (Data Understanding)
Section 2.1 – Collecte initiale des données :
Les données proviennent d’un jeu de données open-source disponible sur Kaggle, dédié à la
classification des postures de yoga.
Ce dataset contient un ensemble d’images annotées, représentant différentes postures
corporelles réalisées par des pratiquants de yoga.
- Source : Kaggle – Yoga Pose Dataset
- Type de données : Images étiquetées (classification supervisée)
Section 2.2 – Description des données :
Chaque entrée dans le dataset contient :
- Image : une photo d’une posture de yoga, généralement en couleur (RGB)
- Label : le nom de la posture (ex. "mountain", "warrior", "downward_dog", etc.)
Structure typique :
- Dossier par classe (ex : /mountain, /warrior2, etc.)
- Taille des images : variable (à redimensionner pour le modèle, ex. 224x224)
- Nombre total d’images : souvent entre 1 000 et 10 000
- Nombre de classes : entre 5 et 10 postures courantes
Section 2.3 – Exploration des données :
Objectifs :
- Analyser la distribution des classes (nombre d’images par posture)
- Visualiser quelques images par classe pour détecter :
- Variations de luminosité, de fond, de vêtements
- Mauvais étiquetage ou mauvaise qualité
Exemple d'analyse :
Classe Nombre d’images
Mountain 500
Warrior II 480
Downward Dog 520
Tree Pose 200
Cobra 300
Section 2.4 – Qualité et préparation des données :
Problèmes potentiels :
- Variabilité dans les angles de prise de vue
- Fonds non uniformes (extérieur/intérieur)
- Postures mal étiquetées
- Images floues ou mal cadrées
Actions envisagées :
- Nettoyage des images : suppression ou correction des anomalies
- Augmentation des données :
- Rotation
- Zoom
- Flip horizontal
- Luminance
- Prétraitement :
- Redimensionnement
- Normalisation des pixels
- Encodage des labels