0% ont trouvé ce document utile (0 vote)

21 vues22 pages

Uber

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

21 vues22 pages

Uber

Transféré par

meriem baha

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet

Uber
01.

Projet uber
Description

Ce projet consiste à développer une solution pour aider les chauffeurs

d'Uber à identifier les zones les plus populaires où se trouvent les
utilisateurs à tout moment de la journée. Uber a identifié que l'une des
principales frustrations de ses utilisateurs est le temps d'attente
lorsqu'un chauffeur n'est pas à proximité.
Description

Pour réduire ces temps d'attente, Uber souhaite déterminer où se trouvent

ces "meilleures-zones" où les chauffeurs devraient se positionner
pour maximiser leurs chances de trouver des clients rapidement
Objectifs

1 - Algorithme de Clustering: L'objectif est de créer un algorithme

qui regroupera les lieux de prise en charge en clusters pour identifier ces
hot-zones.
Dataset utilisé

Description des colonnes pertinentes

● Lat : Latitude de la localisation d'un trajet Uber.

● Lon : Longitude de la localisation d'un trajet Uber.
● Ces colonnes représentent les coordonnées géographiques utilisées pour le
clustering.

Taille des données

● Les données couvrent plusieurs mois en 2014 et 2015.

● Plusieurs millions de lignes issues des fichiers suivants :
○ Avril à septembre 2014.
○ Janvier à juin 2015.
Distribution des Données

Distribution des données

● Les trajets sont majoritairement concentrés dans les zones urbaines.

● La densité de points est particulièrement élevée dans les grandes villes.
Prétraitement des Données

Filtrage

● Suppression des points géographiques hors des limites définies pour éviter le bruit.
● Exclusion des valeurs nulles ou incohérentes dans les colonnes Lat et Lon.

Normalisation

● Les coordonnées n'ont pas été normalisées car elles conservent leur sens
géographique brut pour le clustering.

Autres traitements

● Découpage en échantillons pour des analyses spécifiques.

● Ajout d'étiquettes temporaires pour explorer des clusters liés à différentes périodes.
Méthodologie de clustering

K-means : Définition et Fonctionnement

● K-means regroupe les données en divisant les points en K clusters.

● Il minimise la somme des distances au carré entre chaque point et le centre de son
cluster (WCSS).
● Processus :
1. Initialisation de K centres aléatoires.
2. Assignation des points au centre le plus proche.
3. Recalcul des centres et répétition.

Limites de K-means pour des Données Géographiques

● Sensible aux valeurs aberrantes et au bruit.

● Assume des clusters sphériques, inadaptés aux formes irrégulières.
● Ne gère pas les points isolés.
Méthodes de clustring

DBSCAN : Définition et Avantages

● DBSCAN identifie les clusters basés sur la densité des points.

● Avantages :
○ Gère les clusters de formes irrégulières.
○ Ignore les points isolés (bruit).
● Paramètres principaux :
○ eps : Distance maximale entre deux points pour les considérer comme
voisins.
○ min_samples : Nombre minimal de points dans un voisinage pour former
un cluster.
Evaluation des clusters

K-means : Résultats de WCSS

Évolution du WCSS pour différents K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92

- Analyse : La diminution de WCSS ralentit après K=4, suggérant un bon choix pour le nombre de
clusters.
Evaluation des clusters

K-means : Silhouette Score

Mesure de la cohérence des clusters :

K=2 : 0.74
K=3 : 0.44
K=4 : 0.46
K=5 : 0.47
K=6 : 0.48
K=7 : 0.48
K=8 : 0.43
K=9 : 0.40
K=10 : 0.41

● Analyse : Un score élevé pour K=2 indique des clusters bien séparés.
Résultats

4.1. Résultats de K-means

● Graphiques de l'évolution de WCSS.

● Visualisation des clusters sur la carte.
● Limites observées (par exemple, faible segmentation pour certains groupes).

4.2. Résultats de DBSCAN

● Cartographie des clusters.

● Exploration des paramètres (eps, min_samples) :
○ Impact sur le nombre de clusters.
○ Visualisations interactives des clusters (si disponibles).
Comparaison des méthodes

Performances : K-means vs DBSCAN

● K-means :
○ Meilleur pour des clusters compacts et bien séparés.
○ Moins performant avec des formes irrégulières ou bruitées.
● DBSCAN :
○ Prend en compte les points isolés.
○ Efficace pour des clusters de densité variable.
○ Résultats influencés par le choix de eps et min_samples.

Recommandation :

● DBSCAN est plus adapté si les données contiennent des zones de densité variable.
● K-means est utile pour des clusters homogènes avec peu de bruit.
Résultas du kmeans
Évolution de WCSS (Within-Cluster Sum of Squares)
Voici les valeurs obtenues pour différents nombres de clusters K :
K=1 : 72502
K=2 : 51717.83
K=3 : 34216.22
K=4 : 27924.12
K=5 : 23098.00
K=6 : 18452.75
K=7 : 14877.05
K=8 : 12435.59
K=9 : 10946.08
K=10 : 9578.92

●
● Analyse : La diminution rapide de WCSS ralentit après K=4, ce qui suggère que 4 clusters est un bon choix.

Limites observées

● Les clusters sont bien définis pour des valeurs faibles de K, mais les clusters peuvent manquer de cohérence pour des
données de densité variable.
Visualisation des Clusters de K-means

Carte des clusters générés :

● Les clusters sont représentés par des points regroupés
géographiquement.
● Ils montrent une séparation claire dans les zones urbaines denses.

Problème : Certaines zones de faible densité sont mal segmentées, limitant

l'efficacité de K-means dans ces cas.
Résultats de DBSCAN

Paramètres explorés

● EPS : Valeur testée = EPS4 (0.1 ou autre valeur selon le contexte exact).
● Min_samples : Valeur testée = MIN_SAMPLES4 (4 ou autre valeur selon le
contexte exact).

Impact des paramètres

● La variation de eps et min_samples influence directement :

○ Le nombre de clusters formés.
○ L'identification des points isolés comme bruit.
Cartographie des Clusters DBSCAN

● Résultats générés :
○ Les clusters identifiés sont représentés par des couleurs distinctes.
○ Les points isolés (bruit) sont exclus, ce qui améliore la cohérence des
clusters.

Limites observées

● La performance dépend du choix des paramètres eps et min_samples.

● DBSCAN peut ne pas capturer de larges clusters homogènes.
Comparaison des méthodes
Avantages et Inconvénients Observés

K-means

● Avantages :
○ Simple et rapide à implémenter.
○ Utile pour des clusters bien séparés.
● Inconvénients :
○ Mal adapté aux clusters de densité variable.
○ Sensible au bruit et aux valeurs aberrantes.
Avantages et Inconvénients Observés

DBSCAN

● Avantages :
○ Gère efficacement les formes complexes et le bruit.
○ Ne nécessite pas de spécifier le nombre de clusters à l’avance.
● Inconvénients :
○ Paramètres eps et min_samples difficiles à optimiser.
○ Moins performant pour des clusters très denses ou homogènes.
Conclusion et Perspectives

- K-means reste une méthode simple et efficace pour des ensembles

de données homogènes et bien séparés.
- DBSCAN est plus adapté aux données complexes avec des formes
irrégulières et des zones bruitées.
Perspectives :
● Intégration de méthodes hybrides pour exploiter les avantages des
deux algorithmes.
● Exploration des clusters en fonction d'autres variables (temps, type de
trajet).

Vous aimerez peut-être aussi

Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
Présentation Cours CA
Pas encore d'évaluation
Présentation Cours CA
50 pages
Non Supervisé Clustring
Pas encore d'évaluation
Non Supervisé Clustring
10 pages
Image Mining Clustering
Pas encore d'évaluation
Image Mining Clustering
33 pages
Clustering 1
Pas encore d'évaluation
Clustering 1
8 pages
Introduction au Machine Learning et Clustering
Pas encore d'évaluation
Introduction au Machine Learning et Clustering
33 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
7 pages
Chapitre5 Clustring
Pas encore d'évaluation
Chapitre5 Clustring
59 pages
TPInfo
Pas encore d'évaluation
TPInfo
7 pages
Oualid Idriss Soufian
Pas encore d'évaluation
Oualid Idriss Soufian
19 pages
3 Cours DBSCAN
Pas encore d'évaluation
3 Cours DBSCAN
22 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
TP - 5 - Énoncé - Version 1
Pas encore d'évaluation
TP - 5 - Énoncé - Version 1
4 pages
Algorithme K-Means : Formation de Clusters
Pas encore d'évaluation
Algorithme K-Means : Formation de Clusters
15 pages
TP 12 Dbscan
Pas encore d'évaluation
TP 12 Dbscan
5 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
Introduction au Data Mining et Clustering
Pas encore d'évaluation
Introduction au Data Mining et Clustering
4 pages
Introduction au clustering DBSCAN en Python
Pas encore d'évaluation
Introduction au clustering DBSCAN en Python
13 pages
Techniques de Clustering Avancées
Pas encore d'évaluation
Techniques de Clustering Avancées
6 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
DM TP2
Pas encore d'évaluation
DM TP2
4 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
59 pages
Datamining : Algorithmes C4.5 et DBSCAN
Pas encore d'évaluation
Datamining : Algorithmes C4.5 et DBSCAN
25 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Classification en Télédétection
Pas encore d'évaluation
Classification en Télédétection
19 pages
Clustering
100% (1)
Clustering
114 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
43 pages
CR2 Théotime LAGUENS
Pas encore d'évaluation
CR2 Théotime LAGUENS
9 pages
Clustering
Pas encore d'évaluation
Clustering
79 pages
Méthodes de Clustering en ML
Pas encore d'évaluation
Méthodes de Clustering en ML
21 pages
Méthodes de segmentation en clustering
Pas encore d'évaluation
Méthodes de segmentation en clustering
18 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Kmeans
Pas encore d'évaluation
Kmeans
40 pages
Deep Learning Clustering
Pas encore d'évaluation
Deep Learning Clustering
14 pages
"K-Means : Guide pour Data Scientists"
100% (1)
"K-Means : Guide pour Data Scientists"
10 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
Kmeans
100% (2)
Kmeans
23 pages
Interpretations
Pas encore d'évaluation
Interpretations
4 pages
Approche de Classification À Base de K-Moyennes - V2-4
Pas encore d'évaluation
Approche de Classification À Base de K-Moyennes - V2-4
15 pages
Apprentissage Non Supervis e - Clustering: UP: Math Ematiques
Pas encore d'évaluation
Apprentissage Non Supervis e - Clustering: UP: Math Ematiques
81 pages
Techniques de Fouilles de Données
Pas encore d'évaluation
Techniques de Fouilles de Données
110 pages
Segmentation de données avec DBSCAN
Pas encore d'évaluation
Segmentation de données avec DBSCAN
4 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Classification Non Hierarchique
Pas encore d'évaluation
Classification Non Hierarchique
14 pages
Clustering
Pas encore d'évaluation
Clustering
32 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
K-Means et méthode du coude
Pas encore d'évaluation
K-Means et méthode du coude
47 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
57 pages
Classification Non Supervisée en IA
Pas encore d'évaluation
Classification Non Supervisée en IA
32 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
TP K-Means
Pas encore d'évaluation
TP K-Means
13 pages
Chap6 Clustering
Pas encore d'évaluation
Chap6 Clustering
30 pages
Devoir de Synthèse N°3 (Corrigé) - Technologie - 1ère AS (2008-2009)
100% (3)
Devoir de Synthèse N°3 (Corrigé) - Technologie - 1ère AS (2008-2009)
12 pages
Rapport de Conception Dalle
Pas encore d'évaluation
Rapport de Conception Dalle
4 pages
Exercices pratiques en JavaScript
Pas encore d'évaluation
Exercices pratiques en JavaScript
3 pages
Chimie-Td-Determination de La Masse Molaire
100% (2)
Chimie-Td-Determination de La Masse Molaire
4 pages
Controle 1 - 3 1
Pas encore d'évaluation
Controle 1 - 3 1
2 pages
EWI Programmation Synth
Pas encore d'évaluation
EWI Programmation Synth
32 pages
Résume Tracteur Agricole 1
Pas encore d'évaluation
Résume Tracteur Agricole 1
92 pages
Méthodes d'analyse de tests de puits
Pas encore d'évaluation
Méthodes d'analyse de tests de puits
12 pages
TD1 Can Cna
Pas encore d'évaluation
TD1 Can Cna
4 pages
Microcontrôleurs et MSP430: Guide Complet
100% (1)
Microcontrôleurs et MSP430: Guide Complet
39 pages
1
Pas encore d'évaluation
1
8 pages
Ski Waxing Manual PDF
Pas encore d'évaluation
Ski Waxing Manual PDF
52 pages
Methode de Traitement D'antenne
Pas encore d'évaluation
Methode de Traitement D'antenne
7 pages
Équilibre statique des corps rigides
Pas encore d'évaluation
Équilibre statique des corps rigides
21 pages
Fiche Méthode 1
Pas encore d'évaluation
Fiche Méthode 1
1 page
Expérience 2: Purification de Produits Chimiques Par Distillation
Pas encore d'évaluation
Expérience 2: Purification de Produits Chimiques Par Distillation
15 pages
Risque de Change - Attijari
Pas encore d'évaluation
Risque de Change - Attijari
89 pages
Lambert93 ConiquesConformes
Pas encore d'évaluation
Lambert93 ConiquesConformes
4 pages
Rapport Stage M1
Pas encore d'évaluation
Rapport Stage M1
117 pages
Rapport Mini Projet Topographie
Pas encore d'évaluation
Rapport Mini Projet Topographie
10 pages
Optimisation des Commandes Unix et Gestion de Fichiers
Pas encore d'évaluation
Optimisation des Commandes Unix et Gestion de Fichiers
2 pages
GA 11+-30presseurs Rotatifs À Vis À Injection D'huile, 11-30 KW - 15-40 HP - Atlas Copco France
Pas encore d'évaluation
GA 11+-30presseurs Rotatifs À Vis À Injection D'huile, 11-30 KW - 15-40 HP - Atlas Copco France
4 pages
Sudoku
Pas encore d'évaluation
Sudoku
9 pages
Comprendre le courant électrique et ses lois
Pas encore d'évaluation
Comprendre le courant électrique et ses lois
3 pages
PA Trice: (15 Points) (7,5 Points) 4 Points
Pas encore d'évaluation
PA Trice: (15 Points) (7,5 Points) 4 Points
2 pages
Étude des Équations de Maxwell
Pas encore d'évaluation
Étude des Équations de Maxwell
23 pages
Commande par retour d'état MCC
Pas encore d'évaluation
Commande par retour d'état MCC
2 pages
Cours Route S2 Chap 6-7 S1
Pas encore d'évaluation
Cours Route S2 Chap 6-7 S1
9 pages
TD Exercices Corrigés BODE
100% (1)
TD Exercices Corrigés BODE
4 pages
Cahier SI SEM I + Media 2
Pas encore d'évaluation
Cahier SI SEM I + Media 2
121 pages