0% ont trouvé ce document utile (0 vote)

168 vues8 pages

Examen Seaborn

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

168 vues8 pages

Examen Seaborn

Transféré par

Sayoba Gansane

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Examen Seaborn

Analyse du catalogue Netflix

L'exercice est composé de plusieurs questions, faites-les dans l'ordre et faites attention à
respecter le nom des variables. N'hésitez pas à contacter l'équipe DataScientest si vous
rencontrez des problèmes.

Cette évaluation porte sur l'exploration d'un échantillon de données issu du catalogue de films et
de séries de la plateforme de vidéos à la demande américaine bien connue.

La premiere base de données à disposition, netflix_titles.csv contient près de 7800 films

proposés dans le catalogue Netflix, depuis la création de la plateforme en 2008. Pour chacun de
ces films nous avons accès aux données suivantes :
Variable Description

'show_id' ID du contenu

'type' Type de contenu (film ou série)

'title' Titre

'director' Réalisateur

'cast' Le casting principal

'country' Pays de production (possiblement plusieurs)

'date_added' Date d'ajout à la plateforme

'release_year' Date de sortie

'rating' Classification du contenu pour la diffusion télévisuelle

'duration' Durée en minutes ou saisons

'listed_in' Catégories dont font partie le contenu

'description Synopsis

La seconde base de données à laquelle nous avons accès, [Link] provient du site
international IMDb et contient diverses informations sur une très large sélection de films et séries,
notamment :

Variable Description

'primaryTitle' Titre principal

'originalTitle' Titre original

'startYear' Année de sortie

'averageRating
Note moyenne obtenue
'
Variable Description

'numVotes' Nombre de votes

 Charger le package pandas sous le nom pd

 Charger le package seaborn sous le nom sns
 Charger le sous-package [Link] sous le nom plt
 Lire le fichier "netflix_titles.csv" dans un DataFrame appelé netflix
 Afficher les 5 premiers contenus du catalogue Netflix.

In [391]:

1
## Insérer votre code ici
2

Nous nous intéresserons premièrement aux propotions réspectives de films et de séries dans le
catalogue Netflix.

 Afficher, dans un graphique, le nombre de contenus appartenant à chacun des deux

types ('TV Show' et 'Movie').

In [393]:

1
## Insérer votre code ici
2

 Lire à présent le fichier '[Link]' dans un DataFrame appelé imdb, et afficher les 5
premières lignes.

In [395]:

1
## Insérer votre code ici
2

 Pour faciliter l'analyse des films du catalogue, fusionner les

Dataframes netflix et imbd dans df, en gardant les lignes pour lesquelles le titre du
contenu sur Netflix et son année de sortie sont identiques au titre principale et l'année
de sortie d'après IMDb.

In [397]:

1
## Insérer votre code ici
2

 Ajouter à df une colonne 'is_drama qui prendra la valeur True ou False en fonction
de l'appartenance du contenu à la catégorie Dramas sur Netflix.
Pour cela, on pourra vérifier pour chacun des contenus, si la chaîne de
caractère Dramas est présente dans la colonne listed_in grâce à la fonction in.

In [399]:

1
## Insérer votre code ici
2

La colonne duration contient la durée en minutes pour les films, et en saisons pour les séries.
Pour les films, ces durées sont suivies d'un espace et des caractères 'min';

 Extraire de df un DataFrame movies, contenant uniquement les films (contenus de

type 'Movie').
 Créer une nouvelle variable duree à movies, qui contient les valeurs de la
variable duration auxquelles les 4 derniers caractères ont étés tronqués.
Transformer le type de la variable duree en int.

In [401]:
1
## Insérer votre code ici
2

 Afficher, dans un boxplot, la distribution de la variable duree en fonction de

l'appartenance du film à la catégorie Dramas ou non.

In [403]:

1
## Insérer votre code ici
2

Afficher, grâce à une courbe, la relation entre la durée d'un film qui dure entre 60 et 200
minutes et sa note moyenne sur IMDb.

In [405]:

1
## Insérer votre code ici
2

La colonne 'director' contient le ou les réalisateurs des contenus Netflix, séparés par les
caractères ', '.
La méthode [Link]() appliquée à une Serie avec le paramètre expand=True, permet de
récuperer un DataFrame avec pour chaque ligne les chaînes de caractères séparés par le
séparateur indiqué dans une colonne différente.
La méthode stack() permet de transformer un Dataframe en Serie Multi-index, en empilant les
valeurs (non manquante) des colonnes les unes après les autres.
Ainsi, par exemple:
S = [Link](["hello friend", "hello word", "hi"])

[Link](' ',
expand=True).stack().reset_index(drop=True)

permet de retourner la série contenant les mots: "hello","friend", "hello", "word",

"hi".

 Stocker dans une séries directors l'ensemble des réalisateurs présents dans la
colonne director de df.
 Afficher dans un graphique en barre horizontale, les 10 réalisateurs les plus présents
dans le catalogue.

In [407]:

1
## Insérer votre code ici
2

La fonction pd.to_datetime() transforme le type d'une série passée en argument, en une

série temporelle (de type datetime).
Il est possible ensuite de récupérer des informations partielles d'une date de type datetime,
comme l'année ou le mois grâce aux attributs [Link] ou [Link].

 Ajouter à df une nouvelle variable year_added contenant l'année d'ajout d'un contenu
sur la plateforme.
 Afficher dans un graphique deux courbes de tendance représantant le nombre de
contenus ajouté au catalogue Netflix au fil des ans, en fonction du type de contenu.
In [409]:

1
## Insérer votre code ici
2

 Afficher un histogramme accompagné d'une courbe d'estimation de la densité afin

d'analyser la variable averageRating.

In [411]:
1
## Insérer votre code ici
2

 Afficher côte à côte deux graphiques contenant le top5 des séries francaises et le top 5
des films français les plus populaires.
On considérera le nombre de votes pour une série ou un film comme un indicateur fiable
de sa popularité.

In [413]:

1
## Insérer votre code ici
2

 A l'aide d'un graphique, analyser l'évolution de la qualité du contenu du catalogue au fil

du temps.

In [415]:

1
## Insérer votre code ici
2

Bonus : Afficher le Top10 des acteurs/actrices les plus présents dans des productions
américaines ayant obtenues une note moyenne supérieure à 7.

In [417]:
1
## Insérer votre code ici
2

Vous aimerez peut-être aussi

TD Pyspark
Pas encore d'évaluation
TD Pyspark
2 pages
Examen 2
Pas encore d'évaluation
Examen 2
6 pages
Examen DA 101 - VF
100% (2)
Examen DA 101 - VF
8 pages
Préparation et Transformation de Données pour Analyses Statistiques
100% (1)
Préparation et Transformation de Données pour Analyses Statistiques
2 pages
Examen Clustering
Pas encore d'évaluation
Examen Clustering
15 pages
Analyse des données statistiques et régressions
Pas encore d'évaluation
Analyse des données statistiques et régressions
9 pages
ACP : Guide d'Analyse Multivariée et Visualisation
Pas encore d'évaluation
ACP : Guide d'Analyse Multivariée et Visualisation
18 pages
Chap6 Numpy - Python 25
Pas encore d'évaluation
Chap6 Numpy - Python 25
31 pages
TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
QCM Bi Final
Pas encore d'évaluation
QCM Bi Final
10 pages
Correction TP3 : Analyse Titanic avec Python
Pas encore d'évaluation
Correction TP3 : Analyse Titanic avec Python
15 pages
Analyse des Données : ACP STID 2004-2005
Pas encore d'évaluation
Analyse des Données : ACP STID 2004-2005
4 pages
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
Correction TD 2
Pas encore d'évaluation
Correction TD 2
4 pages
TD 4: Algèbre Relationnelle: Bases de Données Modèle Relationnel
Pas encore d'évaluation
TD 4: Algèbre Relationnelle: Bases de Données Modèle Relationnel
2 pages
Examen SQL et PL/SQL sur Tennis 2017
Pas encore d'évaluation
Examen SQL et PL/SQL sur Tennis 2017
3 pages
Compte-Rendu TP
100% (1)
Compte-Rendu TP
2 pages
Transformation de données avec Pentaho PDI
Pas encore d'évaluation
Transformation de données avec Pentaho PDI
3 pages
Correction Examen DataWarehouse
Pas encore d'évaluation
Correction Examen DataWarehouse
4 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Requêtes SQL pour voyages et musées
Pas encore d'évaluation
Requêtes SQL pour voyages et musées
2 pages
Examen de Reconnaissance de Motifs
Pas encore d'évaluation
Examen de Reconnaissance de Motifs
4 pages
Cours 4 - WS - RDF
Pas encore d'évaluation
Cours 4 - WS - RDF
45 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Cours PCA
Pas encore d'évaluation
Cours PCA
17 pages
Examen Graphes 2018
Pas encore d'évaluation
Examen Graphes 2018
3 pages
Python pour la Statistique Exploratoire
Pas encore d'évaluation
Python pour la Statistique Exploratoire
3 pages
Introduction à la régression linéaire
Pas encore d'évaluation
Introduction à la régression linéaire
71 pages
Introduction à la Recherche d'Info
Pas encore d'évaluation
Introduction à la Recherche d'Info
93 pages
Compte Rendu TP Data Mining
Pas encore d'évaluation
Compte Rendu TP Data Mining
27 pages
Modèles de Datamining : Régression et Classification
100% (2)
Modèles de Datamining : Régression et Classification
14 pages
Algorithmes K-means et règles d'association
Pas encore d'évaluation
Algorithmes K-means et règles d'association
3 pages
Cours et exercices de Data Mining R
Pas encore d'évaluation
Cours et exercices de Data Mining R
2 pages
TP2 Prétraitement Des Données Ipynb - Colab
Pas encore d'évaluation
TP2 Prétraitement Des Données Ipynb - Colab
10 pages
Data Mining tp.5 Régression Linéaire Multiple
Pas encore d'évaluation
Data Mining tp.5 Régression Linéaire Multiple
13 pages
Analyse des données policières à SF
Pas encore d'évaluation
Analyse des données policières à SF
3 pages
DBA Examen-Mars2024
Pas encore d'évaluation
DBA Examen-Mars2024
3 pages
Objectifs: Suite Au TP1: 4 Année ISI. Soit Lés Déux Sités Répréséntént Lés Locaux D'uné Société
Pas encore d'évaluation
Objectifs: Suite Au TP1: 4 Année ISI. Soit Lés Déux Sités Répréséntént Lés Locaux D'uné Société
8 pages
Examen 2 de Python
Pas encore d'évaluation
Examen 2 de Python
2 pages
MONDRIAN Jpivot Final
Pas encore d'évaluation
MONDRIAN Jpivot Final
26 pages
Tests Statistiques Avancés
100% (1)
Tests Statistiques Avancés
4 pages
TP 2 Spark
Pas encore d'évaluation
TP 2 Spark
4 pages
Modélisation Multidimensionnelle des EDs
Pas encore d'évaluation
Modélisation Multidimensionnelle des EDs
59 pages
Cours Hadoop et Big Data
Pas encore d'évaluation
Cours Hadoop et Big Data
105 pages
Analyse des Ventes et RH en Entreprise
Pas encore d'évaluation
Analyse des Ventes et RH en Entreprise
2 pages
Compte Rendu BDA 8
Pas encore d'évaluation
Compte Rendu BDA 8
7 pages
Machine Learning Preparation Des Donnéees
Pas encore d'évaluation
Machine Learning Preparation Des Donnéees
29 pages
Examen TALN 2022 - ESI Alger
Pas encore d'évaluation
Examen TALN 2022 - ESI Alger
5 pages
Gestion de Bases de Données Oracle
Pas encore d'évaluation
Gestion de Bases de Données Oracle
4 pages
Analyse de Données et Règles d'Association
Pas encore d'évaluation
Analyse de Données et Règles d'Association
11 pages
Analyse des parasites dans les viandes R
Pas encore d'évaluation
Analyse des parasites dans les viandes R
22 pages
Travaux Dirigés 1 Les Bases Du Langage R: Master MIAGE S9 PR Aicha MAJDA FSJES Meknes 2023-2024
Pas encore d'évaluation
Travaux Dirigés 1 Les Bases Du Langage R: Master MIAGE S9 PR Aicha MAJDA FSJES Meknes 2023-2024
6 pages
Analyse des ventes et des employés en entreprise
Pas encore d'évaluation
Analyse des ventes et des employés en entreprise
4 pages
Exo Netflix
Pas encore d'évaluation
Exo Netflix
2 pages
Examen R Colombe G2
Pas encore d'évaluation
Examen R Colombe G2
3 pages
TD NoSQL - MongoDB - Mflix - Etape 01
Pas encore d'évaluation
TD NoSQL - MongoDB - Mflix - Etape 01
2 pages
Spark Courses
Pas encore d'évaluation
Spark Courses
183 pages
Big Data TP 2 RDD (Dataframe)
Pas encore d'évaluation
Big Data TP 2 RDD (Dataframe)
23 pages
Data Min
Pas encore d'évaluation
Data Min
8 pages
CH 3
Pas encore d'évaluation
CH 3
44 pages
StatsProbas TC2A TD4
Pas encore d'évaluation
StatsProbas TC2A TD4
29 pages
Classification Automatique E-commerce
Pas encore d'évaluation
Classification Automatique E-commerce
32 pages
Classification automatique de produits
Pas encore d'évaluation
Classification automatique de produits
21 pages
Classification Automatique des Produits E-commerce
Pas encore d'évaluation
Classification Automatique des Produits E-commerce
17 pages
Évaluation nutritionnelle enfants Mauritanie 2014
Pas encore d'évaluation
Évaluation nutritionnelle enfants Mauritanie 2014
61 pages
Techniques d'échantillonnage avancées
Pas encore d'évaluation
Techniques d'échantillonnage avancées
11 pages
Prédiction d'Octroi de Prêts Bancaires
Pas encore d'évaluation
Prédiction d'Octroi de Prêts Bancaires
19 pages
Modèle de Scoring Crédit et Dashboard
Pas encore d'évaluation
Modèle de Scoring Crédit et Dashboard
20 pages
Maîtrisez Power BI pour vos rapports
50% (4)
Maîtrisez Power BI pour vos rapports
1 page
Initiation à QGIS pour SIG à Arlon
75% (4)
Initiation à QGIS pour SIG à Arlon
173 pages
Injection System FR
Pas encore d'évaluation
Injection System FR
4 pages
Creer Des Images Avec LIA Un Guide Illustre Pour Debutants
Pas encore d'évaluation
Creer Des Images Avec LIA Un Guide Illustre Pour Debutants
10 pages
Introduction à la sociologie politique
Pas encore d'évaluation
Introduction à la sociologie politique
6 pages
Les Politiques D'education - Agnes Van Zanten
100% (5)
Les Politiques D'education - Agnes Van Zanten
172 pages
24L1 - BIO - TD #1 - Algèbre - SORO
Pas encore d'évaluation
24L1 - BIO - TD #1 - Algèbre - SORO
4 pages
Fiche d'exercices de factorisation mathématique
Pas encore d'évaluation
Fiche d'exercices de factorisation mathématique
3 pages
INDH : Développement Humain Innovant
Pas encore d'évaluation
INDH : Développement Humain Innovant
21 pages
La Liaison
Pas encore d'évaluation
La Liaison
3 pages
Grille D'evaluation de La Qualite de La Recherche
Pas encore d'évaluation
Grille D'evaluation de La Qualite de La Recherche
2 pages
LES TECHNIQUES DE MOTIVATION (Mode de Compatibilité)
Pas encore d'évaluation
LES TECHNIQUES DE MOTIVATION (Mode de Compatibilité)
38 pages
Plan de Gestion Environnementale Sénégal
Pas encore d'évaluation
Plan de Gestion Environnementale Sénégal
186 pages
Procédure Traitement Des Réclamations
100% (2)
Procédure Traitement Des Réclamations
3 pages
Nicoara Beldiceanu Les Actes Des Premiers Sultans Conservés Dans Les Manuscrits Turcs de La Bibliothèque Nationale Paris, Tome 1
100% (1)
Nicoara Beldiceanu Les Actes Des Premiers Sultans Conservés Dans Les Manuscrits Turcs de La Bibliothèque Nationale Paris, Tome 1
199 pages
Croissance Démographique : Défis Mondiaux
Pas encore d'évaluation
Croissance Démographique : Défis Mondiaux
1 page
Master Professionnel Méthodes Informatiques Appliquées À La Gestion Des Entreprises (MIAGE)
0% (1)
Master Professionnel Méthodes Informatiques Appliquées À La Gestion Des Entreprises (MIAGE)
2 pages
Procedure de Maintenance Corrective Des Equipements Biomedicaux de - Equi - PT - 003 - C - 2 Version 2 Page - 1 - 7
100% (3)
Procedure de Maintenance Corrective Des Equipements Biomedicaux de - Equi - PT - 003 - C - 2 Version 2 Page - 1 - 7
7 pages
La Mèthode QQOQCP
Pas encore d'évaluation
La Mèthode QQOQCP
1 page
TP Circuit RLC : Régimes transitoire et sinusoïdal
Pas encore d'évaluation
TP Circuit RLC : Régimes transitoire et sinusoïdal
4 pages
Clonage Réseau avec Symantec Ghost
100% (1)
Clonage Réseau avec Symantec Ghost
22 pages
ALI : Amplificateurs et Rétroaction
Pas encore d'évaluation
ALI : Amplificateurs et Rétroaction
12 pages
Sakou Samoth - Geographie Du Cambodge (Francais)
Pas encore d'évaluation
Sakou Samoth - Geographie Du Cambodge (Francais)
80 pages
Guide Lean pour Équipes Agiles
100% (1)
Guide Lean pour Équipes Agiles
82 pages
9782402533294
100% (2)
9782402533294
43 pages
Reconnaissance Vocale
Pas encore d'évaluation
Reconnaissance Vocale
19 pages
Instruments de mesure du temps
Pas encore d'évaluation
Instruments de mesure du temps
3 pages
Corrigé Rattrapage - PHY322 - Methodes Numériques - Normale Juillet - 2024
Pas encore d'évaluation
Corrigé Rattrapage - PHY322 - Methodes Numériques - Normale Juillet - 2024
7 pages
Thermochimie : Calorimétrie et Entropie
100% (1)
Thermochimie : Calorimétrie et Entropie
4 pages
La Phrase Simples
Pas encore d'évaluation
La Phrase Simples
21 pages
Valérie Mignon, Sandrine Lardic - L'efficience Informationnelle Des Marchés Financiers (2006, Editions La Découverte) PDF
Pas encore d'évaluation
Valérie Mignon, Sandrine Lardic - L'efficience Informationnelle Des Marchés Financiers (2006, Editions La Découverte) PDF
128 pages
8cf280 PDF
100% (7)
8cf280 PDF
55 pages