0% ont trouvé ce document utile (0 vote)

94 vues3 pages

CPS MLOps Pour La Classification de Texte

Le projet MLOps vise à établir un pipeline complet pour la classification de texte, intégrant des technologies comme DVC pour la gestion des données et des modèles, ainsi que des pratiques de sécurité. Il inclut des fonctionnalités telles que le versioning des données, le déploiement via FastAPI et Docker, et le monitoring des performances avec Prometheus et Grafana. L'architecture technique utilise des langages et frameworks avancés pour assurer une solution scalable et maintenable.

Transféré par

hassan adnan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

94 vues3 pages

CPS MLOps Pour La Classification de Texte

Transféré par

hassan adnan

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Cahier des Charges : Projet MLOps pour

la Classification de Texte
1. Contexte et Objectifs
Ce projet a pour objectif de mettre en place un pipeline MLOps complet pour l'entraînement, le
déploiement, le suivi et la gestion des modèles de classification de texte en utilisant des
technologies avancées comme DVC (Data Version Control) pour la gestion des données et des
modèles, ainsi que des techniques de programmation comme les générateurs, itérateurs,
décorateurs, et design patterns pour rendre le code plus efficace, modulaire et maintenable. Le
projet doit également intégrer des pratiques de sécurité pour garantir la protection des données
et des API.

Les objectifs spécifiques incluent :

Versioning des données et gestion des modifications grâce à DVC.

Création d'un modèle de classification de texte avec une approche modulaire et optimisée.

Déploiement du modèle dans un environnement de production à l'aide de FastAPI, Docker,

et Kubernetes.

Mise en place de mécanismes de monitoring pour suivre les performances du modèle en

temps réel.

Intégration de mécanismes de sécurité pour protéger les données et les accès aux API.

2. Fonctionnalités Principales
2.1 Gestion des Données et Versioning avec DVC
Versioning des données : Utilisation de DVC pour suivre les versions des ensembles de
données (y compris les prétraitements) et garantir que les données utilisées pour
l’entraînement sont cohérentes.

Gestion des modèles : Suivi des différentes versions de modèles, de leurs hyperparamètres
et des métriques de performance grâce à DVC et MLflow.

2.2 Gestion des Données et Traitement avec Générateurs et

Itérateurs
Utilisation de générateurs pour charger les données de manière paresseuse, optimisant
ainsi la mémoire pour les grandes quantités de données.

Itérateurs pour naviguer efficacement dans les données d’entraînement et les traiter par
lots.

2.3 Entraînement du Modèle et Suivi des Expériences

Entraînement de modèles de classification de texte avec différentes architectures (par
exemple, BERT, LSTM, Logistic Regression, etc.).

Suivi des performances du modèle en temps réel avec MLflow pour faciliter le tracking des
expériences, et gestion des modèles entraînés.
2.4 Décorateurs pour Ajouter des Fonctionnalités
Dynamiques
Utilisation de décorateurs pour ajouter des fonctionnalités transversales telles que le suivi
du temps d'exécution, le logging des performances, ou l’ajout de validations sans altérer la
logique métier principale.

2.5 Déploiement et API REST avec FastAPI

Création d'une API REST avec FastAPI pour exposer le modèle en production.

Déploiement du modèle via des conteneurs Docker et gestion de l’évolutivité avec

Kubernetes pour un environnement de production robuste.

2.6 Sécurité des Données et des API

Mise en place d'une authentification sécurisée avec OAuth2 et JSON Web Tokens (JWT)
pour l'accès à l'API.

Chiffrement des données sensibles (pendant le stockage et le transfert) pour garantir la

confidentialité des données traitées.

Contrôles d'accès basés sur les rôles (RBAC) pour limiter les permissions selon les
utilisateurs et les rôles dans le pipeline.

2.7 Monitoring des Performances du Modèle et Détection des

Drifts
Surveillance en temps réel des performances du modèle à l’aide de Prometheus et
Grafana.

Mise en place de mécanismes pour détecter les dérives des données (Data Drift) et des
concepts (Concept Drift) et permettre un réentraînement automatique si nécessaire.

Alertes en cas de baisse significative des performances.

2.8 Utilisation de Design Patterns pour une Architecture

Flexible
Singleton Pattern pour assurer une gestion centralisée du modèle dans le pipeline.

Factory Pattern pour la création dynamique de modèles selon les besoins (ex : BERT, LSTM,
etc.).

Strategy Pattern pour changer dynamiquement la stratégie de traitement des données ou

des modèles sans modifier le code central.

3. Architecture Technique
Technologies Utilisées :
Langage de programmation : Python

Framework NLP : Hugging Face Transformers, SpaCy

Modélisation : PyTorch, TensorFlow, Scikit-learn

Versioning des données et modèles : DVC

Suivi des expériences : MLflow

API et déploiement : FastAPI, Docker, Kubernetes

Surveillance : Prometheus, Grafana

Sécurité : OAuth2, JWT, TLS

CI/CD : GitHub Actions, Jenkins

*4. Sécurité et Conformité**

Authentification OAuth2 pour garantir une gestion sécurisée des utilisateurs et des rôles
dans le pipeline.

Chiffrement des données sensibles pendant le stockage avec AES et pendant le transfert
via TLS pour protéger les informations personnelles ou sensibles.

Gestion des accès basée sur des rôles (RBAC) pour restreindre les accès aux données et
aux actions sensibles dans le pipeline.

Surveillance des accès et des logs pour garantir qu'il n'y a pas de violations de la sécurité.

5. Suivi des Performances et Maintenance

Surveillance continue avec Prometheus pour observer les performances du modèle en
production.

Alertes automatiques en cas de dégradation des performances ou de détection de drift.

Processus automatisé de réentraînement du modèle en cas de dérive ou de besoin

d'amélioration.

6. Conclusion
Ce projet met en œuvre une solution complète pour la gestion d'un pipeline MLOps optimisé pour
la classification de texte, avec l’intégration de concepts comme les générateurs, itérateurs,
décorateurs, et design patterns. Grâce à l’utilisation de DVC, nous assurons un versioning
précis des données et des modèles, tout en garantissant une sécurisation des données et des
accès. Le projet vise à être facilement scalable et maintenable, tout en étant monitoré et sécurisé
à chaque étape.

Vous aimerez peut-être aussi

2.1 - Intégration Continue Dans MLOps
Pas encore d'évaluation
2.1 - Intégration Continue Dans MLOps
19 pages
AndreettaFontana Uqac 0862N 10926
Pas encore d'évaluation
AndreettaFontana Uqac 0862N 10926
75 pages
Cahier Des Charges Sodecoton
Pas encore d'évaluation
Cahier Des Charges Sodecoton
4 pages
Cahier de Charge
Pas encore d'évaluation
Cahier de Charge
3 pages
Report Template
Pas encore d'évaluation
Report Template
40 pages
Cahier Des Charges
Pas encore d'évaluation
Cahier Des Charges
5 pages
Formation IA Complet FAMME
Pas encore d'évaluation
Formation IA Complet FAMME
9 pages
Rapport PFE Copy ONS
Pas encore d'évaluation
Rapport PFE Copy ONS
67 pages
Cahier de Charges
Pas encore d'évaluation
Cahier de Charges
4 pages
Atelier 4 - Exposition Des Fonctions Via FastApi
Pas encore d'évaluation
Atelier 4 - Exposition Des Fonctions Via FastApi
4 pages
Dossier Competence
Pas encore d'évaluation
Dossier Competence
4 pages
Resumer Cours Chap 5
Pas encore d'évaluation
Resumer Cours Chap 5
3 pages
Stage 2 Annee
Pas encore d'évaluation
Stage 2 Annee
49 pages
Thématiques
Pas encore d'évaluation
Thématiques
16 pages
Spark-IT : Services Numériques Innovants
Pas encore d'évaluation
Spark-IT : Services Numériques Innovants
30 pages
Structure Projet Python IA (Copy 6)
Pas encore d'évaluation
Structure Projet Python IA (Copy 6)
2 pages
Projets Vision par Ordinateur Étudiants
Pas encore d'évaluation
Projets Vision par Ordinateur Étudiants
4 pages
Rapport de Pfe
Pas encore d'évaluation
Rapport de Pfe
32 pages
Analyse de Sentiments Sur Des Avis Clients
Pas encore d'évaluation
Analyse de Sentiments Sur Des Avis Clients
42 pages
Voicipdf Votre Plan Chapitre Dernier
Pas encore d'évaluation
Voicipdf Votre Plan Chapitre Dernier
4 pages
OliveSoft: Transformation Digitale et Intégration de Données
Pas encore d'évaluation
OliveSoft: Transformation Digitale et Intégration de Données
28 pages
Sujet: Conception Et Développement D'une Application Afin de Générer Un Code HTML/ CSS À Partir D'une Capture D'écran D'un Site Web
Pas encore d'évaluation
Sujet: Conception Et Développement D'une Application Afin de Générer Un Code HTML/ CSS À Partir D'une Capture D'écran D'un Site Web
86 pages
ML Machine Learning Mlops
Pas encore d'évaluation
ML Machine Learning Mlops
102 pages
Rapport Pfe Azzabenhmida
Pas encore d'évaluation
Rapport Pfe Azzabenhmida
71 pages
SAIDANI AnisPFE
Pas encore d'évaluation
SAIDANI AnisPFE
85 pages
P7 - Spark Mllib
Pas encore d'évaluation
P7 - Spark Mllib
1 page
PFA2
Pas encore d'évaluation
PFA2
38 pages
Améliorer L'efficacité Du Centre de Tri de La Poste 1
Pas encore d'évaluation
Améliorer L'efficacité Du Centre de Tri de La Poste 1
5 pages
Instructions Du TPE INF 365
Pas encore d'évaluation
Instructions Du TPE INF 365
2 pages
Machine Learning
Pas encore d'évaluation
Machine Learning
2 pages
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
Pas encore d'évaluation
MLOps - Pipelines de Livraison Continue Et D'automatisation Dans Le Machine Learning - Cloud Architecture Center - Google Cloud
18 pages
TP Ia
Pas encore d'évaluation
TP Ia
5 pages
Plateforme de Recommandation Professionnelle
Pas encore d'évaluation
Plateforme de Recommandation Professionnelle
10 pages
AI Network Vulnerability Defender
Pas encore d'évaluation
AI Network Vulnerability Defender
4 pages
Architecture
Pas encore d'évaluation
Architecture
2 pages
CDCanalyse de La Circulation
Pas encore d'évaluation
CDCanalyse de La Circulation
7 pages
Rapport PI
Pas encore d'évaluation
Rapport PI
32 pages
Classification Articles par Sujet
Pas encore d'évaluation
Classification Articles par Sujet
18 pages
Python
Pas encore d'évaluation
Python
28 pages
Fiche de Synthèse Du Projet de Stage.
Pas encore d'évaluation
Fiche de Synthèse Du Projet de Stage.
5 pages
CDOSS MLOps Fiche Revision
Pas encore d'évaluation
CDOSS MLOps Fiche Revision
2 pages
Des Sujets Pfe 2024
Pas encore d'évaluation
Des Sujets Pfe 2024
8 pages
? Fiche Révision - Déploiement D'un Modèle ML Avec Heroku Et Docker
Pas encore d'évaluation
? Fiche Révision - Déploiement D'un Modèle ML Avec Heroku Et Docker
3 pages
Projet Final
Pas encore d'évaluation
Projet Final
5 pages
Consignes Projet Collectifs
Pas encore d'évaluation
Consignes Projet Collectifs
5 pages
Phishanalyser Ai g2
Pas encore d'évaluation
Phishanalyser Ai g2
3 pages
Python Pro
Pas encore d'évaluation
Python Pro
3 pages
Plant Growth Predictor: Application Web Intelligente Pour La Prédiction Des Stades de Croissance Des Plantes
Pas encore d'évaluation
Plant Growth Predictor: Application Web Intelligente Pour La Prédiction Des Stades de Croissance Des Plantes
21 pages
? Fiche Révision - Déploiement D'un Modèle ML Avec Kubernetes
Pas encore d'évaluation
? Fiche Révision - Déploiement D'un Modèle ML Avec Kubernetes
4 pages
Plan de Sprint Agile Complet Et Détaillé
Pas encore d'évaluation
Plan de Sprint Agile Complet Et Détaillé
5 pages
Memoire
Pas encore d'évaluation
Memoire
104 pages
Détection de Fraude et Scraping LinkedIn
Pas encore d'évaluation
Détection de Fraude et Scraping LinkedIn
4 pages
Rapport Pfe Vneuron-Scrum
Pas encore d'évaluation
Rapport Pfe Vneuron-Scrum
122 pages
Mini Projet Genie Logiciel Reseaux Electriques
Pas encore d'évaluation
Mini Projet Genie Logiciel Reseaux Electriques
3 pages
Mini Projet Genie Logiciel Reseaux Electriques
Pas encore d'évaluation
Mini Projet Genie Logiciel Reseaux Electriques
3 pages
Outils Open Source pour MLOps
Pas encore d'évaluation
Outils Open Source pour MLOps
11 pages
Premiere Solution
Pas encore d'évaluation
Premiere Solution
9 pages
Générateur de CV en Ligne Professionnel
Pas encore d'évaluation
Générateur de CV en Ligne Professionnel
6 pages
Cour Français Complet
Pas encore d'évaluation
Cour Français Complet
20 pages
Part1 - Support AI & Prompt Engeneering PR YOUSSFI
Pas encore d'évaluation
Part1 - Support AI & Prompt Engeneering PR YOUSSFI
38 pages
Examin Final-2
Pas encore d'évaluation
Examin Final-2
4 pages
Cour Farouk Python1
Pas encore d'évaluation
Cour Farouk Python1
131 pages
Example QCM Soft-Skills
100% (2)
Example QCM Soft-Skills
9 pages
3.guide D - Installation
Pas encore d'évaluation
3.guide D - Installation
7 pages
Concour Ens TMW
Pas encore d'évaluation
Concour Ens TMW
4 pages
Epreuve D'Informatique Theorique: Partie I: Environnement Numérique, Sécurité Informatique Et Multimédia 6Pts
Pas encore d'évaluation
Epreuve D'Informatique Theorique: Partie I: Environnement Numérique, Sécurité Informatique Et Multimédia 6Pts
3 pages
Support JWT
Pas encore d'évaluation
Support JWT
12 pages
DEKRA 2018 - Triennale SSI
Pas encore d'évaluation
DEKRA 2018 - Triennale SSI
32 pages
Plan de Continuite D Activite Iso 22301 33372
100% (1)
Plan de Continuite D Activite Iso 22301 33372
3 pages
Les Politiques de Digitalisation Au Sénégal
Pas encore d'évaluation
Les Politiques de Digitalisation Au Sénégal
4 pages
Formation Windows Server : Fondamentaux
Pas encore d'évaluation
Formation Windows Server : Fondamentaux
6 pages
Internet Intranet Extranet
100% (1)
Internet Intranet Extranet
12 pages
Cybersécurité : défis et solutions clés
Pas encore d'évaluation
Cybersécurité : défis et solutions clés
28 pages
1 Etude Conceptuelle
Pas encore d'évaluation
1 Etude Conceptuelle
25 pages
Programme Digital Horizon Final
Pas encore d'évaluation
Programme Digital Horizon Final
12 pages
Juridique & Politique: Evue de La Recherche
Pas encore d'évaluation
Juridique & Politique: Evue de La Recherche
47 pages
3Sq1 E2C
Pas encore d'évaluation
3Sq1 E2C
4 pages
Mise en Place D
100% (1)
Mise en Place D
94 pages
OpenVPN : Sécurisez Votre Connexion Web
100% (1)
OpenVPN : Sécurisez Votre Connexion Web
6 pages
LM 2
Pas encore d'évaluation
LM 2
1 page
2-1-Cyber Security Les Fondamentaux
Pas encore d'évaluation
2-1-Cyber Security Les Fondamentaux
2 pages
Hacking Et Contre-Hacking (Roger A. Grimes) (Z-Library)
Pas encore d'évaluation
Hacking Et Contre-Hacking (Roger A. Grimes) (Z-Library)
446 pages
Mise en place d'un pare-feu Pfsense
Pas encore d'évaluation
Mise en place d'un pare-feu Pfsense
65 pages
Spécifications API Appariement MES
Pas encore d'évaluation
Spécifications API Appariement MES
24 pages
Windows 10 Désactiver L'antivirus Windows Defender - Le Crabe Info
Pas encore d'évaluation
Windows 10 Désactiver L'antivirus Windows Defender - Le Crabe Info
16 pages
WPA Une Reponse A L.insecurite Du WEP
Pas encore d'évaluation
WPA Une Reponse A L.insecurite Du WEP
34 pages
Département Informatique Master 2 E-Secure. Rapport de Projet Individuel Signature de Document XML
Pas encore d'évaluation
Département Informatique Master 2 E-Secure. Rapport de Projet Individuel Signature de Document XML
32 pages
IA Générative : Révolution 2024
Pas encore d'évaluation
IA Générative : Révolution 2024
26 pages
Maîtriser les Achats Indirects
Pas encore d'évaluation
Maîtriser les Achats Indirects
25 pages
ITN Module 1
Pas encore d'évaluation
ITN Module 1
74 pages
SUID, GUID Et Sticky Bit
Pas encore d'évaluation
SUID, GUID Et Sticky Bit
11 pages
Formation DPO: Maîtriser le RGPD
Pas encore d'évaluation
Formation DPO: Maîtriser le RGPD
5 pages
Installation D'un Service SSH: Secure Shell
Pas encore d'évaluation
Installation D'un Service SSH: Secure Shell
9 pages
CBOK Audit Des Risques Strategiques
Pas encore d'évaluation
CBOK Audit Des Risques Strategiques
12 pages
Sauvegarder, Sécuriser, Archiver en Local Et en Réseau
Pas encore d'évaluation
Sauvegarder, Sécuriser, Archiver en Local Et en Réseau
83 pages