Ds 2

Ce document est un devoir surveillé d'examen sur le Big Data, comprenant deux parties principales. La première partie se concentre sur les architectures Big Data, en particulier Lambda et Kappa, et leur adéquation pour une multinationale textile cherchant à analyser ses ventes et à faire des prédictions en temps réel. La deuxième partie traite de l'utilisation de Map Reduce pour analyser des données de blog, en demandant de concevoir un algorithme et d'évaluer l'utilisation de HDFS et Map Reduce pour le traitement des données.

Transféré par

no one

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

189 vues3 pages

Ds 2

Transféré par

no one

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Devoir surveillé Examen Session : principale

de contrôle

Matière : BigData Semestre: 1

Enseignante : Lilia SFAXI Date: Novembre 2019
Filière(s) : GL5- Option Data Science Durée: 1h30
Nombre de pages : 3 Documents : autorisés non autorisés

NB - Il est fortement conseillé de lire chacune des parties en entier avant de commencer à répondre.

Partie 1: Architectures Big Data (12 pts)

Vous êtes responsable d’une société de services qui a récemment reçu un grand projet de mise
en place d’une architecture Big Data pour une multinationale spécialisée dans le textile. Cette
entreprise a beaucoup de filiales dans plusieurs pays, et aimerait réaliser des analyses sur ses
ventes, le comportement de ses clients et de ses fournisseurs, ainsi que le succès de ses
produits. Mais surtout, elle aimerait être capable de fournir des prédictions en temps réel sur
l’état des stocks, si on observe le comportement des ventes précédentes, couplées avec des
évènements extérieurs, tels que la météo, les tendances de la mode, le nombre et le type des
touristes de la ville, les évènements politiques et médiatiques, etc.).

Vous, en tant qu’ancien étudiant en GL option Data Science et (surtout) Data Engineering,
avez votre propre idée sur le sujet. Vous connaissez deux grandes architectures : Lambda et
Kappa, qui pourraient peut-être faire l’affaire…

Question Présenter brièvement chacune de ces architectures. (2pts)

Question Est-ce que l’une de ces architectures (ou bien les deux) est adéquate pour
votre besoin ? Expliquer. (2pts)

Étant vous-même un peu éloigné depuis un moment des tendances techniques en matière
d’architecture logicielle, vous avez demandé à deux de vos collaborateurs de proposer chacun
une architecture qu’il pense adéquate.

Le premier, un architecte logiciel à la base, qui s’est converti récemment au Big Data, mais
qui a quelques bonnes années d’expérience à son actif, vous a proposé l’architecture
suivante :

1
Le deuxième, un jeune data analyste qui a le souci des détails, vous a donné cette
recommandation :

Question Expliquer brièvement le comportement de chacune de ces solutions.

Vous pourrez prendre comme point de départ l’une ou l’autre des architectures
de référence (Lambda et Kappa). (2pts)

Question Montrer pour chacune de ces solutions à quel point elle correspond au
besoin de notre système. (4pt)

Question Laquelle choisiriez-vous (parmi les quatre) ? et pourquoi ? (2pt)

Bon Travail 2
Partie 2: Map Reduce (8 pts)

Vous avez en votre possession un cluster HDFS dans lequel vous stockez depuis des années
les données que vous avez accumulées dans votre blog, que vous avez créé pour les étudiants
de votre fac, et où les étudiants ont pris l’habitude de poster leurs remarques, commentaires
ou articles intéressants. Vous avez décidé de faire une analyse sur la totalité des posts, pour
voir quels sont les sujets les plus abordés par les garçons et par les filles.

Vous avez deux fichiers volumineux en entrée :

- Un fichier appelé « users » contenant les données des utilisateurs, ayant la structure
suivante :

User_id Name Gender Specialty Town Country Fields of interest

- Un fichier appelé « posts » contenant les détails des posts, comme suit :

Post_id User_id Subject Post Timestam Comments Likes Hates

Question 1. Écrire l’algorithme de votre Job Map Reduce, permettant de réaliser le

traitement voulu, en montrant les types d’entrées et de sorties de chaque tâche, avec des
exemples de préférence. (5pts)

Il est à noter que tout le traitement doit être réalisé dans un seul Job, en une seule itération.

Question 2. Pensez-vous que, dans ce cas, utiliser HDFS et Map Reduce est idéal ? Si
oui, expliquer pourquoi, sinon, quelle serait la technologie ou paradigme qui serait
adéquat ? (3pts)

Bon Travail 3

Vous aimerez peut-être aussi

DS BigData 2019-2020
Pas encore d'évaluation
DS BigData 2019-2020
3 pages
Exam BD1718 Fin
Pas encore d'évaluation
Exam BD1718 Fin
4 pages
Examen BDA Corrigé SR 2223
Pas encore d'évaluation
Examen BDA Corrigé SR 2223
4 pages
Simili Big 1
Pas encore d'évaluation
Simili Big 1
2 pages
Exam Big Data
Pas encore d'évaluation
Exam Big Data
6 pages
Examen Big DATA
100% (2)
Examen Big DATA
4 pages
SGBD SessionPrincipaleVF1
Pas encore d'évaluation
SGBD SessionPrincipaleVF1
3 pages
Examen Big Data 3ème IM
Pas encore d'évaluation
Examen Big Data 3ème IM
2 pages
Big Data Et Architectures Associées: Examen de La Session Principale
Pas encore d'évaluation
Big Data Et Architectures Associées: Examen de La Session Principale
2 pages
Perfectionnement Big Data et IA
Pas encore d'évaluation
Perfectionnement Big Data et IA
10 pages
Exam Bd1718 SR
Pas encore d'évaluation
Exam Bd1718 SR
5 pages
Examen Big Data: Stockage et Traitement Hadoop
100% (1)
Examen Big Data: Stockage et Traitement Hadoop
6 pages
Examen BDA
Pas encore d'évaluation
Examen BDA
3 pages
Examen Gestion Répartie Du Big Data Ne Pas Cliquer Sur Ce Module Relecture de Tentative DatumAcademy
Pas encore d'évaluation
Examen Gestion Répartie Du Big Data Ne Pas Cliquer Sur Ce Module Relecture de Tentative DatumAcademy
72 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
TD Serie2
Pas encore d'évaluation
TD Serie2
3 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
CTRL - BDSD - 2020-2021 Avec Corrigé
100% (1)
CTRL - BDSD - 2020-2021 Avec Corrigé
3 pages
Corrige Devoir de Revision 1
Pas encore d'évaluation
Corrige Devoir de Revision 1
4 pages
Epreuves BTS GL 2022
Pas encore d'évaluation
Epreuves BTS GL 2022
28 pages
Examin Final-2
Pas encore d'évaluation
Examin Final-2
4 pages
Emd GL 2017
Pas encore d'évaluation
Emd GL 2017
4 pages
Examen ERPBI SP 2324 Finale 1
Pas encore d'évaluation
Examen ERPBI SP 2324 Finale 1
5 pages
Corrigé DEVOWFS-V1
Pas encore d'évaluation
Corrigé DEVOWFS-V1
10 pages
Correction EMD RC 2024
Pas encore d'évaluation
Correction EMD RC 2024
2 pages
Epreuve 1
0% (1)
Epreuve 1
12 pages
Examen BigData SR 1617
100% (2)
Examen BigData SR 1617
5 pages
Examen BigData SP 1617
Pas encore d'évaluation
Examen BigData SP 1617
6 pages
Examen Blanc
Pas encore d'évaluation
Examen Blanc
6 pages
Nosql Exercice
Pas encore d'évaluation
Nosql Exercice
6 pages
Test de Base de Données Du MPO Examen de Mi-Session
Pas encore d'évaluation
Test de Base de Données Du MPO Examen de Mi-Session
11 pages
Hackathon Berexia : Prototype Data Transform
Pas encore d'évaluation
Hackathon Berexia : Prototype Data Transform
6 pages
CORRIGE DD O Web Full Stack-V1
Pas encore d'évaluation
CORRIGE DD O Web Full Stack-V1
12 pages
Offre-Sitw Master Sitw
Pas encore d'évaluation
Offre-Sitw Master Sitw
29 pages
CC Inf365 Corrigé (2024-2025)
Pas encore d'évaluation
CC Inf365 Corrigé (2024-2025)
3 pages
Épreuves BTS 2022.
Pas encore d'évaluation
Épreuves BTS 2022.
35 pages
Épreuve de Génie Logiciel et Algorithmique
Pas encore d'évaluation
Épreuve de Génie Logiciel et Algorithmique
34 pages
Examen Bases de Données 2019/2020 Corrigé
Pas encore d'évaluation
Examen Bases de Données 2019/2020 Corrigé
5 pages
Section 1: Correct
Pas encore d'évaluation
Section 1: Correct
153 pages
Interrogation SIR 21-22 - Corrigé PDF
Pas encore d'évaluation
Interrogation SIR 21-22 - Corrigé PDF
2 pages
Exemple Examen BIG DATA Partie 1
Pas encore d'évaluation
Exemple Examen BIG DATA Partie 1
7 pages
Devoire Big Data
Pas encore d'évaluation
Devoire Big Data
15 pages
Examen GL2022
100% (1)
Examen GL2022
5 pages
Programme Master Génie Logiciel 2016-2017
Pas encore d'évaluation
Programme Master Génie Logiciel 2016-2017
27 pages
Travaux2 SynthèsePrépasBTS
Pas encore d'évaluation
Travaux2 SynthèsePrépasBTS
8 pages
Synthese Des Epreuves Professionnelles Au Bts en Genie Logiciel
Pas encore d'évaluation
Synthese Des Epreuves Professionnelles Au Bts en Genie Logiciel
21 pages
corrigéTypeExamenGL3-M1 TIC
Pas encore d'évaluation
corrigéTypeExamenGL3-M1 TIC
4 pages
Examen Génie Logiciel 4infoB
Pas encore d'évaluation
Examen Génie Logiciel 4infoB
5 pages
Examen Blanc Deep Learning 2BA
100% (1)
Examen Blanc Deep Learning 2BA
5 pages
QCM Big Datach1qcm Big Datach1qcm Big Datach1
Pas encore d'évaluation
QCM Big Datach1qcm Big Datach1qcm Big Datach1
12 pages
Ds 5
Pas encore d'évaluation
Ds 5
1 page
DS - EntrepotDesDonnees2022 - Correction
100% (1)
DS - EntrepotDesDonnees2022 - Correction
5 pages
Projet BDA: SQL3-Oracle et NoSQL
Pas encore d'évaluation
Projet BDA: SQL3-Oracle et NoSQL
7 pages
Examen Corrigé GL2 2020
Pas encore d'évaluation
Examen Corrigé GL2 2020
3 pages
Concours Doctoral: Épreuve de Génie Logiciel
Pas encore d'évaluation
Concours Doctoral: Épreuve de Génie Logiciel
3 pages
2017ESMA0009 Brahimi
Pas encore d'évaluation
2017ESMA0009 Brahimi
209 pages
Examen de Conception Orientée Objet
Pas encore d'évaluation
Examen de Conception Orientée Objet
2 pages
Cours Python Complet
90% (10)
Cours Python Complet
150 pages
Exercice Corrigé Recherche Opérationnelle PDF
82% (144)
Exercice Corrigé Recherche Opérationnelle PDF
6 pages
Exercices SQL Corriges PDF
93% (14)
Exercices SQL Corriges PDF
13 pages
Exercices UML Corrige
75% (4)
Exercices UML Corrige
17 pages
TD +corrigé Statistiques Descriptives 21-22
92% (12)
TD +corrigé Statistiques Descriptives 21-22
4 pages
Exercices (Entrepot - de - Donnees)
100% (6)
Exercices (Entrepot - de - Donnees)
11 pages
Correction Examen Big Data 2020 2021 Session Normale
90% (10)
Correction Examen Big Data 2020 2021 Session Normale
4 pages
Rapport PFE-corrigé
100% (3)
Rapport PFE-corrigé
82 pages
Apprendre Le ML en Une Semaine PDF
94% (17)
Apprendre Le ML en Une Semaine PDF
100 pages
Probabilité Exercices-Corriges
100% (1)
Probabilité Exercices-Corriges
33 pages
Cahier des charges pour site portail éducatif
82% (17)
Cahier des charges pour site portail éducatif
5 pages
Modèle Booléen
Pas encore d'évaluation
Modèle Booléen
23 pages
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
Pas encore d'évaluation
Examen - Big Data: 1 Exercice I: Hadoop Est Mort... Vive Hadoop ! (10pts)
3 pages
Chap1 Sonia
Pas encore d'évaluation
Chap1 Sonia
23 pages
1 Exercice I: Big Data Et Systèmes Embarqués (10pts)
Pas encore d'évaluation
1 Exercice I: Big Data Et Systèmes Embarqués (10pts)
3 pages
Copie de FO-PFE-27 00 Convention de Stage D'été
Pas encore d'évaluation
Copie de FO-PFE-27 00 Convention de Stage D'été
3 pages
DS BigData 2021
Pas encore d'évaluation
DS BigData 2021
2 pages
Alternatives à HDFS et S3 en Big Data
Pas encore d'évaluation
Alternatives à HDFS et S3 en Big Data
8 pages
TD 2, Management Et Leadership Ch4, Rt4, Iia4, Gl4
Pas encore d'évaluation
TD 2, Management Et Leadership Ch4, Rt4, Iia4, Gl4
1 page
Ds 7
Pas encore d'évaluation
Ds 7
3 pages
BD 1
Pas encore d'évaluation
BD 1
17 pages
Protocoles Dapplication Réseaux
Pas encore d'évaluation
Protocoles Dapplication Réseaux
43 pages
Technicien IT Débutant Motivé
Pas encore d'évaluation
Technicien IT Débutant Motivé
2 pages
Systemes Repartisreparti PDF
Pas encore d'évaluation
Systemes Repartisreparti PDF
174 pages
Phase préanalytique de l'antibiogramme
Pas encore d'évaluation
Phase préanalytique de l'antibiogramme
12 pages
Analyse Fonctionnelle et Cycle de Vie
Pas encore d'évaluation
Analyse Fonctionnelle et Cycle de Vie
17 pages
Armoires de Brassage Inf-Tel
100% (1)
Armoires de Brassage Inf-Tel
15 pages
Tutoriel Dialux EVO : Guide Complet
Pas encore d'évaluation
Tutoriel Dialux EVO : Guide Complet
5 pages
Problématiques et avancées en TAL
Pas encore d'évaluation
Problématiques et avancées en TAL
12 pages
Digitalisation-des-Achats LivreBlanc LemonLearning
100% (1)
Digitalisation-des-Achats LivreBlanc LemonLearning
65 pages
Amélioration de la qualité du Chocotruffe
Pas encore d'évaluation
Amélioration de la qualité du Chocotruffe
2 pages
Examen-ASSEU 2324 v3 Correcti
100% (1)
Examen-ASSEU 2324 v3 Correcti
9 pages
Analyse Fonctionnelle
Pas encore d'évaluation
Analyse Fonctionnelle
3 pages
Mémoires Vives et Mortes L1
Pas encore d'évaluation
Mémoires Vives et Mortes L1
14 pages
Modèle de trame de procédure processus
Pas encore d'évaluation
Modèle de trame de procédure processus
3 pages
Devoir BREZAK Laly - BENIN Maéva
Pas encore d'évaluation
Devoir BREZAK Laly - BENIN Maéva
3 pages
0 Chap0 - Cem
Pas encore d'évaluation
0 Chap0 - Cem
4 pages
CHAPITRE2 - Mémoire Virtuelle
Pas encore d'évaluation
CHAPITRE2 - Mémoire Virtuelle
17 pages
Informatique pour Ingénieurs : Cours 2016-2017
Pas encore d'évaluation
Informatique pour Ingénieurs : Cours 2016-2017
93 pages
Presentation Odoo Inventaire
Pas encore d'évaluation
Presentation Odoo Inventaire
12 pages
Auscultation Sonique des Pieux
100% (1)
Auscultation Sonique des Pieux
2 pages
Avance Manuel de CNC Emco Mill 105
Pas encore d'évaluation
Avance Manuel de CNC Emco Mill 105
25 pages
Introduction Norme Et Certification
100% (1)
Introduction Norme Et Certification
37 pages
Comprendre la norme ISO 26262 et ses enjeux
Pas encore d'évaluation
Comprendre la norme ISO 26262 et ses enjeux
1 page
FLIR b60 FR
Pas encore d'évaluation
FLIR b60 FR
2 pages
Introduction au langage JavaScript
Pas encore d'évaluation
Introduction au langage JavaScript
85 pages
Objectif 1.2 - Configurer Microsoft Windows
Pas encore d'évaluation
Objectif 1.2 - Configurer Microsoft Windows
180 pages
Annexe Maison de Qualité Équipe 1
Pas encore d'évaluation
Annexe Maison de Qualité Équipe 1
1 page
F MB 32 Optimisation Des Entrainements Electriques
Pas encore d'évaluation
F MB 32 Optimisation Des Entrainements Electriques
16 pages
ProNest 2019 Quick Start Guide 4
Pas encore d'évaluation
ProNest 2019 Quick Start Guide 4
1 page
Solutions Client Léger pour Entreprises
Pas encore d'évaluation
Solutions Client Léger pour Entreprises
7 pages