Script de Présentation
Pourquoi collecter nos propres données ?
Alors, pourquoi avons-nous dû collecter nos propres données ? Tout
simplement parce que nous n'avons pas trouvé de dataset prêt à l'emploi
qui corresponde à nos besoins spécifiques. Cette situation, bien
qu'exigeante, nous a permis de concevoir une base de données adaptée
aux objectifs du projet et de mieux comprendre les caractéristiques et les
contraintes du transport en commun au Maroc.
Avant de commencer la collecte, nous avons défini des paramètres
essentiels pour structurer notre base de données. Ces choix étaient
guidés par les objectifs du projet et la nécessité de disposer d'une vue
claire et exploitable des transports en commun au Maroc. Parmi ces
paramètres :
Les données géographiques : comme la localisation exacte des
infrastructures (arrêts, gares, stations).
Les moyens de transport disponibles : leur type (bus,
tramways, taxis) et leur nombre par région.
Le flux de passagers : pour comprendre les usages quotidiens et
identifier les zones de forte demande.
Ces paramètres nous ont permis de mieux cibler notre collecte et
d'assurer que les données recueillies répondraient à nos besoins
spécifiques.
La collecte des données a été réalisée en deux grandes étapes :
Premièrement, nous avons effectué une collecte manuelle. Nous avons
consulté des sources fiables comme les sites web officiels des opérateurs
de transport tels qu'Alsa et les tramways de Casablanca et Rabat, ainsi
que des rapports locaux. Grâce à cela, nous avons pu recueillir des
informations essentielles, telles que :
Le nombre de bus, tramways, trains, grands et petits taxis dans
chaque région.
Le nombre et l’emplacement des arrêts et stations.
Le flux de passagers journaliers pour chaque type de transport.
Deuxièmement, nous avons complété cette collecte avec l'utilisation de
l'API OpenStreetMap. Cet outil nous a permis d'obtenir des données
géographiques précises, comme la localisation des gares, des arrêts de
bus et des stations de tramway.
Notre dataset initial comportait seulement cinq lignes de données
réelles. Ces données étaient insuffisantes pour entraîner un modèle
génératif tel que CTGAN. C'est pourquoi nous avons décidé d'augmenter
les données en créant cinq copies de chaque ligne, avec des variations
bien contrôlées pour introduire une certaine diversité. Cette première
étape nous a permis d'obtenir 25 lignes de données augmentées.
Ensuite, nous avons utilisé CTGAN (Conditional Tabular Generative
Adversarial Network) pour générer des données synthétiques
supplémentaires. Ce modèle a été choisi pour sa capacité à gérer des
datasets tabulaires avec des relations complexes entre variables, tout en
générant des données réalistes et variées qui respectent les distributions
initiales. Grâce à ce modèle, nous avons créé un dataset final de 100
lignes, contenant des données réalistes tout en préservant les relations
complexes entre les variables. Cette approche nous a permis de disposer
d'un volume de données suffisant pour nos analyses et visualisations.
Pour nous assurer de la qualité de nos données, nous avons mené
plusieurs évaluations. Tout d'abord, nous avons comparé les distributions
des données réelles et synthétiques pour vérifier leur similarité. Ensuite,
nous avons analysé les corrélations entre les variables pour valider leur
cohérence logique. Enfin, nous avons examiné la diversité et la
confidentialité des données synthétiques pour garantir qu'elles ne
reproduisaient pas directement les données réelles.
En conclusion, cette phase de collecte, d'augmentation et de génération
des données a été essentielle pour poser les bases solides de notre projet.
Grâce à ces données, nous avons pu développer des analyses précises et
une interface robuste, comme vous le verrez dans la suite de cette
présentation.
Je vous remercie pour votre attention et je laisse maintenant la parole à
[nom du collègue suivant] pour la suite.