0% ont trouvé ce document utile (0 vote)
33 vues2 pages

Script de Présentation

La collecte de données propres a été nécessaire en raison de l'absence de datasets adaptés aux besoins spécifiques du projet sur le transport en commun au Maroc. Deux étapes ont été suivies : une collecte manuelle d'informations essentielles et l'utilisation de l'API OpenStreetMap pour des données géographiques, suivies de l'augmentation et de la génération de données synthétiques via CTGAN. Cette approche a permis de créer un dataset final de 100 lignes, garantissant des analyses précises et une interface robuste.

Transféré par

elmansouri.aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues2 pages

Script de Présentation

La collecte de données propres a été nécessaire en raison de l'absence de datasets adaptés aux besoins spécifiques du projet sur le transport en commun au Maroc. Deux étapes ont été suivies : une collecte manuelle d'informations essentielles et l'utilisation de l'API OpenStreetMap pour des données géographiques, suivies de l'augmentation et de la génération de données synthétiques via CTGAN. Cette approche a permis de créer un dataset final de 100 lignes, garantissant des analyses précises et une interface robuste.

Transféré par

elmansouri.aya
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Script de Présentation

Pourquoi collecter nos propres données ?

Alors, pourquoi avons-nous dû collecter nos propres données ? Tout


simplement parce que nous n'avons pas trouvé de dataset prêt à l'emploi
qui corresponde à nos besoins spécifiques. Cette situation, bien
qu'exigeante, nous a permis de concevoir une base de données adaptée
aux objectifs du projet et de mieux comprendre les caractéristiques et les
contraintes du transport en commun au Maroc.

Avant de commencer la collecte, nous avons défini des paramètres


essentiels pour structurer notre base de données. Ces choix étaient
guidés par les objectifs du projet et la nécessité de disposer d'une vue
claire et exploitable des transports en commun au Maroc. Parmi ces
paramètres :

 Les données géographiques : comme la localisation exacte des


infrastructures (arrêts, gares, stations).
 Les moyens de transport disponibles : leur type (bus,
tramways, taxis) et leur nombre par région.
 Le flux de passagers : pour comprendre les usages quotidiens et
identifier les zones de forte demande.

Ces paramètres nous ont permis de mieux cibler notre collecte et


d'assurer que les données recueillies répondraient à nos besoins
spécifiques.

La collecte des données a été réalisée en deux grandes étapes :

Premièrement, nous avons effectué une collecte manuelle. Nous avons


consulté des sources fiables comme les sites web officiels des opérateurs
de transport tels qu'Alsa et les tramways de Casablanca et Rabat, ainsi
que des rapports locaux. Grâce à cela, nous avons pu recueillir des
informations essentielles, telles que :

 Le nombre de bus, tramways, trains, grands et petits taxis dans


chaque région.
 Le nombre et l’emplacement des arrêts et stations.
 Le flux de passagers journaliers pour chaque type de transport.
Deuxièmement, nous avons complété cette collecte avec l'utilisation de
l'API OpenStreetMap. Cet outil nous a permis d'obtenir des données
géographiques précises, comme la localisation des gares, des arrêts de
bus et des stations de tramway.

Notre dataset initial comportait seulement cinq lignes de données


réelles. Ces données étaient insuffisantes pour entraîner un modèle
génératif tel que CTGAN. C'est pourquoi nous avons décidé d'augmenter
les données en créant cinq copies de chaque ligne, avec des variations
bien contrôlées pour introduire une certaine diversité. Cette première
étape nous a permis d'obtenir 25 lignes de données augmentées.

Ensuite, nous avons utilisé CTGAN (Conditional Tabular Generative


Adversarial Network) pour générer des données synthétiques
supplémentaires. Ce modèle a été choisi pour sa capacité à gérer des
datasets tabulaires avec des relations complexes entre variables, tout en
générant des données réalistes et variées qui respectent les distributions
initiales. Grâce à ce modèle, nous avons créé un dataset final de 100
lignes, contenant des données réalistes tout en préservant les relations
complexes entre les variables. Cette approche nous a permis de disposer
d'un volume de données suffisant pour nos analyses et visualisations.

Pour nous assurer de la qualité de nos données, nous avons mené


plusieurs évaluations. Tout d'abord, nous avons comparé les distributions
des données réelles et synthétiques pour vérifier leur similarité. Ensuite,
nous avons analysé les corrélations entre les variables pour valider leur
cohérence logique. Enfin, nous avons examiné la diversité et la
confidentialité des données synthétiques pour garantir qu'elles ne
reproduisaient pas directement les données réelles.

En conclusion, cette phase de collecte, d'augmentation et de génération


des données a été essentielle pour poser les bases solides de notre projet.
Grâce à ces données, nous avons pu développer des analyses précises et
une interface robuste, comme vous le verrez dans la suite de cette
présentation.

Je vous remercie pour votre attention et je laisse maintenant la parole à


[nom du collègue suivant] pour la suite.

Vous aimerez peut-être aussi