0% ont trouvé ce document utile (0 vote)
21 vues22 pages

Uber

Transféré par

meriem baha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
21 vues22 pages

Uber

Transféré par

meriem baha
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet

Uber
01.

Projet uber
Description

Ce projet consiste à développer une solution pour aider les chauffeurs


d'Uber à identifier les zones les plus populaires où se trouvent les
utilisateurs à tout moment de la journée. Uber a identifié que l'une des
principales frustrations de ses utilisateurs est le temps d'attente
lorsqu'un chauffeur n'est pas à proximité.
Description

Pour réduire ces temps d'attente, Uber souhaite déterminer où se trouvent


ces "meilleures-zones" où les chauffeurs devraient se positionner
pour maximiser leurs chances de trouver des clients rapidement
Objectifs

1 - Algorithme de Clustering: L'objectif est de créer un algorithme


qui regroupera les lieux de prise en charge en clusters pour identifier ces
hot-zones.
Dataset utilisé

Description des colonnes pertinentes

● Lat : Latitude de la localisation d'un trajet Uber.


● Lon : Longitude de la localisation d'un trajet Uber.
● Ces colonnes représentent les coordonnées géographiques utilisées pour le
clustering.

Taille des données

● Les données couvrent plusieurs mois en 2014 et 2015.


● Plusieurs millions de lignes issues des fichiers suivants :
○ Avril à septembre 2014.
○ Janvier à juin 2015.
Distribution des Données

Distribution des données

● Les trajets sont majoritairement concentrés dans les zones urbaines.


● La densité de points est particulièrement élevée dans les grandes villes.
Prétraitement des Données

Filtrage

● Suppression des points géographiques hors des limites définies pour éviter le bruit.
● Exclusion des valeurs nulles ou incohérentes dans les colonnes Lat et Lon.

Normalisation

● Les coordonnées n'ont pas été normalisées car elles conservent leur sens
géographique brut pour le clustering.

Autres traitements

● Découpage en échantillons pour des analyses spécifiques.


● Ajout d'étiquettes temporaires pour explorer des clusters liés à différentes périodes.
Méthodologie de clustering

K-means : Définition et Fonctionnement

● K-means regroupe les données en divisant les points en K clusters.


● Il minimise la somme des distances au carré entre chaque point et le centre de son
cluster (WCSS).
● Processus :
1. Initialisation de K centres aléatoires.
2. Assignation des points au centre le plus proche.
3. Recalcul des centres et répétition.

Limites de K-means pour des Données Géographiques

● Sensible aux valeurs aberrantes et au bruit.


● Assume des clusters sphériques, inadaptés aux formes irrégulières.
● Ne gère pas les points isolés.
Méthodes de clustring

DBSCAN : Définition et Avantages

● DBSCAN identifie les clusters basés sur la densité des points.


● Avantages :
○ Gère les clusters de formes irrégulières.
○ Ignore les points isolés (bruit).
● Paramètres principaux :
○ eps : Distance maximale entre deux points pour les considérer comme
voisins.
○ min_samples : Nombre minimal de points dans un voisinage pour former
un cluster.
Evaluation des clusters

K-means : Résultats de WCSS


Évolution du WCSS pour différents K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92

- Analyse : La diminution de WCSS ralentit après K=4, suggérant un bon choix pour le nombre de
clusters.
Evaluation des clusters

K-means : Silhouette Score


Mesure de la cohérence des clusters :

K=2 : 0.74
K=3 : 0.44
K=4 : 0.46
K=5 : 0.47
K=6 : 0.48
K=7 : 0.48
K=8 : 0.43
K=9 : 0.40
K=10 : 0.41

● Analyse : Un score élevé pour K=2 indique des clusters bien séparés.
Résultats

4.1. Résultats de K-means

● Graphiques de l'évolution de WCSS.


● Visualisation des clusters sur la carte.
● Limites observées (par exemple, faible segmentation pour certains groupes).

4.2. Résultats de DBSCAN

● Cartographie des clusters.


● Exploration des paramètres (eps, min_samples) :
○ Impact sur le nombre de clusters.
○ Visualisations interactives des clusters (si disponibles).
Comparaison des méthodes

Performances : K-means vs DBSCAN

● K-means :
○ Meilleur pour des clusters compacts et bien séparés.
○ Moins performant avec des formes irrégulières ou bruitées.
● DBSCAN :
○ Prend en compte les points isolés.
○ Efficace pour des clusters de densité variable.
○ Résultats influencés par le choix de eps et min_samples.

Recommandation :

● DBSCAN est plus adapté si les données contiennent des zones de densité variable.
● K-means est utile pour des clusters homogènes avec peu de bruit.
Résultas du kmeans
Évolution de WCSS (Within-Cluster Sum of Squares)
Voici les valeurs obtenues pour différents nombres de clusters K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92


● Analyse : La diminution rapide de WCSS ralentit après K=4, ce qui suggère que 4 clusters est un bon choix.

Limites observées

● Les clusters sont bien définis pour des valeurs faibles de K, mais les clusters peuvent manquer de cohérence pour des
données de densité variable.
Visualisation des Clusters de K-means

Carte des clusters générés :


● Les clusters sont représentés par des points regroupés
géographiquement.
● Ils montrent une séparation claire dans les zones urbaines denses.

Problème : Certaines zones de faible densité sont mal segmentées, limitant


l'efficacité de K-means dans ces cas.
Résultats de DBSCAN

Paramètres explorés

● EPS : Valeur testée = EPS4 (0.1 ou autre valeur selon le contexte exact).
● Min_samples : Valeur testée = MIN_SAMPLES4 (4 ou autre valeur selon le
contexte exact).

Impact des paramètres

● La variation de eps et min_samples influence directement :


○ Le nombre de clusters formés.
○ L'identification des points isolés comme bruit.
Cartographie des Clusters DBSCAN

● Résultats générés :
○ Les clusters identifiés sont représentés par des couleurs distinctes.
○ Les points isolés (bruit) sont exclus, ce qui améliore la cohérence des
clusters.

Limites observées

● La performance dépend du choix des paramètres eps et min_samples.


● DBSCAN peut ne pas capturer de larges clusters homogènes.
Comparaison des méthodes
Avantages et Inconvénients Observés

K-means

● Avantages :
○ Simple et rapide à implémenter.
○ Utile pour des clusters bien séparés.
● Inconvénients :
○ Mal adapté aux clusters de densité variable.
○ Sensible au bruit et aux valeurs aberrantes.
Avantages et Inconvénients Observés

DBSCAN

● Avantages :
○ Gère efficacement les formes complexes et le bruit.
○ Ne nécessite pas de spécifier le nombre de clusters à l’avance.
● Inconvénients :
○ Paramètres eps et min_samples difficiles à optimiser.
○ Moins performant pour des clusters très denses ou homogènes.
Conclusion et Perspectives

- K-means reste une méthode simple et efficace pour des ensembles


de données homogènes et bien séparés.
- DBSCAN est plus adapté aux données complexes avec des formes
irrégulières et des zones bruitées.
Perspectives :
● Intégration de méthodes hybrides pour exploiter les avantages des
deux algorithmes.
● Exploration des clusters en fonction d'autres variables (temps, type de
trajet).

Vous aimerez peut-être aussi