Python pour la science des données
Projets
1) Recommandation des Hôtels
Choisir des destinations de vacances est difficile et choisir un hôtel est un plus gros problème. Avec
autant de visites et d'opérateurs hôteliers sur Internet, cela peut devenir écrasant, parfois les prix ne
reflètent pas souvent la réalité. La recommandation d'hôtel entre en scène, fournissant des
recommandations d'hôtel personnelles basées sur le choix et les besoins de l'utilisateur.
Description de l'ensemble de données
Les données de ce projet comprennent un historique de recherche et de réservation
d'utilisateurs, des détails sur le groupe d'hôtels, des détails sur l'hôtel et des détails sur
l'utilisateur.
Les détails de l'utilisateur incluent: un nom d'utilisateur, l'âge de l'utilisateur, l'emplacement
de l'utilisateur, l'historique des réservations de l'utilisateur.
L'historique de recherche de l'utilisateur correspond à toutes les recherches que l'utilisateur
a effectuées dans le passé pour trouver des hôtels.
Les détails de l'hôtel incluent : le nom de l'hôtel, l'emplacement de l'hôtel, le prix de l'hôtel
et la note de l'hôtel.
Hotel Cluster est un groupe d'hôtels qui ont des caractéristiques similaires telles que les prix,
la notation de l'hôtel. Le clustering est vital car il réduit la sortie attendue et augmente
l'efficacité de la phase d'apprentissage de l'algorithme.
Comme les paramètres sont discrets, nous utilisons des algorithmes de classification pour prédire les
groupes d'hôtels pour un utilisateur donné. Dans ce projet, vous êtes libre de choisir l’algorithme de
classification. Votre modèle d’apprentissage sera basé sur le prix, la note, le lieu de l’hôtel, le type de
chambre et croisement avec le statut du client (salarié, fonctionnaire, célibataire, couple,
femme/homme d’affaires)
Résultat : une application web affichant les données à visualiser sur les hôtels à proposer à un client.
En entrée nous définirons les paramètres du client.
2) Qualité des vins
Ce projet vise à déterminer la qualité d’un vin (blanc et rouge) et vin de palme. Les données (la
qualité d’un vin sera marquée par un ruban vert. Pour les vins de mauvaises qualité marqués par un
ruban rouge tout en présentant les caractéristiques de ces vins dans un tableau) soient visualisées sur
l’application Web. En utilisant le processus de ML. Vous devez déduire de la qualité d’un vin.
Données
https://archive.ics.uci.edu/ml/datasets/wine+quality
Résultat : Une application Web en entrée nous aurons les critères d’un vin en particulier et en
sortir le résultat.
PS. Pour le vin blanc vous chercherez un ensemble de données
3) Segmenter la part de marché
L’objectif est de diviser la part de marché sur un ou plusieurs produits que vous souhaitez lancé. Il
s’agira de subdiviser votre secteur de marché sur la base des critères clients historique d’achat, genre
(Homme, Femme), l’âge, le centre d’intérêt.
Le but ici est de proposer les produits adaptés aux résultats de notre modèle d’apprentissage sur la
segmentation du client. Pour ce faire il faut ressortir plusieurs visuels de données pour une meilleure
prise de décision.
Données (sont disponible auprès du professeur)
Les données regroupent les fréquentations effectuées par les clients répartis par âge, revenu, genre,
et pourcentage sur les achats déjà effectués.
Résultat : Une application web qui va ressortir plusieurs données visuels sur la base des critères
susmentionnés. A la suite des résultats, établir une déduction
4) Musique
Ecouter la musique est une bonne chose. Classer les musiques par genre est encore meilleur.
L’objectif est de classer automatiquement les sons par genres musicales (Bikutsi, Benskin, Makossa,
Assiko, Mbole, RnbCamer). Sur la base de plusieurs sons audio, regroupez-les en genre sus
mentionnés.
Données : une collection d’une centaine de sons
Résultat : Une application Web pour écouter la musique par genre
5) Analyse des trajets Uber
L’objectif de ce projet est de présenter les données de manière esthétique. Il s’agira de présenter ces
données suivant une période du mois d’avril au mois de septembre 2019
Ressortir les déductions relatives à ces données sur l’application web ;
Données
https://drive.google.com/file/d/1emopjfEkTt59jJoBH9L9bSdmlDC4AR87/view .
Résultat : une application web présentant la visualisation des données ainsi que le rapport de
déduction.
6) Prédiction du prix des maisons à l'aide de l'apprentissage automatique
Si vous pensez que l'immobilier est l'une de ces industries qui a été aliénée par l'apprentissage
automatique, nous aimerions vous informer que ce n'est pas le cas. L'industrie utilise des algorithmes
d'apprentissage automatique depuis longtemps et un exemple populaire en est le site Web Zillow.
Zillow dispose d'un outil appelé Zestimate qui estime le prix d'une maison sur la base de données
publique.
Énoncé du problème
Dans ce projet de science des données, la tâche consiste à mettre en œuvre un algorithme
d'apprentissage automatique de régression pour prédire le prix d'une maison en utilisant l'ensemble
de données Zillow. Le jeu de données contient environ 60 entités et contient 2 fichiers "train_2016"
et "properties_2016". Les fichiers sont liés les uns aux autres via une fonctionnalité appelée
« parcelid ».
https://www.zillow.com/research/data/
L'objectif du projet de science des données de prévision des prix des logements
Mettre en œuvre un modèle d'apprentissage automatique capable de prédire les meilleures
prévisions de vente futures de maisons.
Résultat : Une application web présentant un tableau des prix des logements sur une période. Avec
la possibilité de filtrer par type de logement. Les données à visualiser doivent sont circonscrites
uniquement aux villes.
7) Fake News Or Not
Sur la base d’un ensemble de posts. Vous devez définir un modèle d’apprentissage qui identifier les
fausses nouvelles.
Vous devez ressortir un visuel des données agréable à voir (rapport faux article/vrai article). Ensuite
visualiser les critères qui identifient les faux articles.
Données :
https://drive.google.com/file/d/1er9NJTLUA3qnRuyhfzuN0XUsoIC4a-_q/view
Résultat : Une application web qui va afficher les données de visualisation. Et prédire comment lutter
contre les fausses nouvelles
8) Prédiction pour passer en classe supérieur
Ce projet vise à déterminer sur un ensemble de données si un étudiant pourra passer en classe
supérieure.
Il s’agira de ressortir des visuels de données qui vont prédire :
le nombre d’étudiants classés par âge qui iront en classe supérieur ;
le nombre d’étudiants classés par sexe qui iront en classe supérieur ;
les étudiants dont les parents travails (MJob et FJob) et ceux dont les parents ne travaillent
pas;
Données
https://archive.ics.uci.edu/ml/datasets/Trains
(G1, G2, G3 représente les notes finales du 1er trimestre, 2nd trimestre et 3e trimestre)
Résultat : Une application Web qui va afficher les différents visuels des données. Une autre page
web qui va afficher le tableau des étudiants de moins de 17 ans ;