0% ont trouvé ce document utile (0 vote)

881 vues10 pages

Introduction aux Big Data

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

881 vues10 pages

Introduction aux Big Data

Transféré par

Smaïl Ben

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 01 : Introduction aux Big Data

● Data Science : C’est un domaine interdisciplinaire combinant les maths, les statistiques et
l’informatique, et qui permet à une entreprise d’explorer et d’analyser les données brutes pour les
transformer en informations précieuses permettant de résoudre les problèmes de l’entreprise.

« Data Science » : plutôt Math & Stats

« Big Data » : plutôt Informatique

● Big Data (mégadonnées) :

désigne un très grand volume de données souvent hétérogènes qui ont plusieurs formes
(texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux) et
formats (données structurées, non structurées et semi-structurées).

représente les collections de données caractérisées par un volume, une vélocité et une
variété si grands que leur transformation en valeur utilisable requiert l’ utilisation de
technologies et de méthodes analytiques spécifiques.

Les 5V qui caractérisent le Big Data :

❖ Volume : La quantité de données
❖ Variété : type et nature de données
❖ Vélocité (Vitesse) : à quelle vitesse les données sont générées et traitées
❖ Véracité : la fiabilité des sources
❖ Valeur : dans quelle mesure les données sont exploitables

Pourquoi le Big Data ?

❖ Explosion de la disponibilité des données
(voir différence entre données structurées et données non structurées)
❖ Augmentation de la capacité de stockage
❖ Augmentation de la capacité d’analyse : les technologies existantes ne
permettent pas de traiter ces données (BDD relationnelles, Tableurs, ...) →
l’apparition de nouvelles technologies et techniques d’analyse avancées (Map
Reduce, Hadoop, …)
Le Big Data s’appuie sur quatre sources de données :
❖ Les logs (Historique des évènements) : Company data “not free” (données web /
données d'enquêtes / transactions financières, …)
❖ Open Data
❖ Réseaux sociaux & Médias : Analyse des commentaires, des sentiments à travers
des publications.
❖ Third Party Data : données des internautes récoltées via des formulaires ou des
cookies.
Exemples d’applications du Big Data :
❖ Data Analysis : pour examiner des comportements passés
❖ Data Analytics : pour anticiper le future et prendre des décisions
❖ L’analyse de signaux de sorties
❖ L’analyse des réseaux sociaux
❖ ……
Disciplines participants aux Big Data :
❖ Maths - Info : l’implémentation des maths, stats et probabilités sur machines
sous formes d’algorithmes d’apprentissage, de graphes, …
❖ Parallel computing (voir cours datacamp)
❖ Conception & exploitation des bases de données : donner un sens aux
données, guider son analyse et interpréter les résultats de ses algorithmes
❖ Domaines de l’activité de l’entreprise

Défis du Big Data :

❖ Gérer l’augmentation des données
❖ Générer des insights rapidement
❖ Recruter des talents du Big Data
❖ Intégrer des sources de Big Data diversifiées
❖ Sécuriser le Big Data

Data Scientist vs. Data Engineer :

Voir cours datacamp

Langages de programmation actuels du Big Data :

❖ Python / Java / C++ / C
❖ NoSQL

Chapitre 02 : Plateformes pour Big Data

1. Map Reduce (Traitement parallèle)

Le modèle traditionnel (serveur centralisé pour le stockage et le traitement des données) n’est
certainement pas adapté au traitement de gros volumes de données → Solution ? : Map
Reduce

● Définition du modèle Map Reduce : Le modèle de programmation MapReduce est l’un des
principaux composants du framework Hadoop. Il est utilisé pour accéder aux données Big Data
stockées au sein de Hadoop File System (HDFS), et conçu pour traiter plusieurs téraoctets de
données rapidement et de façon parallèle.
● Objectif : Faciliter la parallélisation des données, leur distribution et l’équilibrage de la charge.
● Pourquoi le Map Reduce ? parce que les données sont :
❖ volumineuses
❖ Variées
❖ Complexes
❖ Changent rapidement.
● Qui l’utilise ? Facebook, Amazon, LinkedIn, Google, Twitter, …
● Dans quel contexte l’utiliser ?
❖ Pour des données non structurées et sans schéma
❖ Pour de très grands clusters
❖ Traitement et analyse de type Batch
● L’architecture du modèle Map Reduce :
❖ Découper le fichier en plusieurs sous fichiers (de petites tailles)
❖ Mapper : génération des tuples <clé, valeur> pour chaque mot
❖ Mélange, Tri et Combinaison des clés
❖ Reduce (Final Result) : sommation des valeurs d’une même clé

● Avantages du Map Reduce

❖ Exécution parallèle des applications
❖ Solution économique pour le stockage (sous forme distribuée entre multiples serveurs) et le
traitement des données.
❖ La vitesse
● Applications du Map Reduce
❖ L’exploration de messages courts
❖ Les algorithmes génétiques, k-means, random forest, algorithme de clustering
❖ Système de transport intelligent
❖ Capteur mobile de données

2. Hadoop
Limites des RDBMS (ne permet pas de stocker les données non structurées et n’est pas non plus
adapté aux vastes volumes du Big Data) → Solution ? : Hadoop

● Définition de Hadoop
Hadoop est un framework logiciel dédié au stockage et au traitement de larges volumes de
données distribuées. Il s’agit d’un projet open source, sponsorisé par la fondation Apache Software
Foundation.

● Les 4 modules de Apache Hadoop

● Map Reduce :
➢ Aide les programmes à effectuer des calculs parallèles.
➢ Map → Convertit les données en paires <clés-valeurs>.
➢ Reduce → Consomme les données d’entrées, les incorpore et produit le résultat.
● HDFS (Hadoop Distributed File System) :
➢ Utilisé pour le stockage de données distribuées.
➢ Délivre une excellente élasticité.
➢ Possibilité de passer d’une machine unique à plusieurs milliers d’entre elles très
facilement.
● YARN (Yet Another Resource Negotiator):
➢ Négociateur de ressources.
➢ Permet de : planifier des tâches / gérer les ressources / surveiller les nœuds de
clusters et les autres ressources.

● Hadoop common :
➢ Utilise des bibliothèques Java standards entre chaque module

● Architecture de Hadoop

➢ Hadoop est basé sur une architecture maître-esclave

• Un seul NameNode (maître)
• Un ou plusieurs DataNodes (esclaves)
➢ Toute interaction du client commence par le NameNode

➢ Le client interagit directement avec DataNode pour les opérations write/read des blocks.
➢ Le client met les données dans un tampon localement pour diffuser (write/read).
➢ DataNode stocke les données en block de 128MB par défaut.
● Comment Hadoop permet le traitement du Big Data?
❖ L’utilisation de la capacité de stockage et de traitement distribué de clusters.
❖ Les applications peuvent collecter des données de différents formats et les stocker dans le
cluster Hadoop se connectant au NameNode.
❖ Le NameNode capture la structure du dossier de fichiers, et réplique des morceaux entre
les différents DataNodes pour le traitement parallèle.
❖ Les requêtes de données sont effectuées par MapReduce, qui répertorie aussi tous les
DataNodes et réduit les tâches liées aux données dans le HDFS.
❖ Les tâches Map sont effectuées sur chaque nœud, et les Reduce sont exécutés pour lier les
données et organiser le résultat final.

● Avantages de Hadoop
❖ Permet un stockage et traitement plus rapides et puissants des données volumineuses
(même des données non structurées).
❖ Disponible à moindre coût puisqu’il est en open source.
❖ L’élasticité : Il suffit de changer le nombre de nœuds dans un cluster pour étendre ou
réduire le système.
❖ Tolérant aux pannes et aux erreurs (Hadoop ne dépend pas du hardware pour préserver la
disponibilité des données).

● Points faibles
❖ L’algorithme Map Reduce n’est pas toujours adéquat ! (Il convient pour les requêtes
d’informations les plus simples, mais pas pour les tâches itératives + Il n’est pas non plus
efficace pour le calcul analytique avancé)
❖ Difficile à maîtriser.
❖ La sécurité des données.

● Applications de Hadoop
❖ Les institutions médicales peuvent utiliser Hadoop pour surveiller les données liées aux
problèmes de santé et aux résultats des traitements médicaux.
❖ Les traders et le monde de la finance utilisent aussi Hadoop : Son algorithme permet de
scanner les données de marché pour identifier des opportunités et des tendances
saisonnières.
❖ L’Internet of Things
❖ Le sport

● Comment Hadoop est-il utilisé en entreprise ?

❖ En identifiant les besoins et les attentes des clients en analysant le Big Data sur l'activité et
le comportement de l’entreprise.
❖ En proposant des offres personnalisées aux clients.
❖ Hadoop permet d’optimiser le processus de l’entreprise.

3. HDFS (Stockage parallèle)

● C’est quoi HDFS ?

C’est un module d’Apache Hadoop utilisé pour le stockage distribué dans un cluster Hadoop. Il est
conçu pour travailler sur des dispositifs peu coûteux, avec un système de fichiers distribué.

● Dans quel but l’utiliser ?

❖ Stocker des données dans un grand nombre de blocs plutôt que de stocker de petits blocs
de données.
❖ Il fournit une tolérance aux pannes et une haute disponibilité à la couche de stockage et
aux autres appareils présents dans le cluster Hadoop.
❖ Performant sur un matériel peu coûteux.
❖ Permet des accès rapides, y compris sur de larges collections de données.
❖ Conçu pour fonctionner sur une à plusieurs machines.

● Architecture de l’HDFS

● Avantages de l’HDFS
❖ Il est distribué sur des centaines/ milliers de serveurs, et chaque nœud stocke une partie du
fichier.
❖ Il permet d’éviter le risque de perte des données (chaque donnée est stockée à trois
❖ emplacements).
❖ Il est très efficace pour le traitement de flux de données.
❖ Plus qu’une base de données, HDFS se présente comme un Data Warehouse (voir la
différence entre Database & Data Warehouse).

4. YARN (Job scheduling and resource manager)

● Présentation de YARN
YARN est l’un des principaux composants d’Apache Hadoop. Il permet de gérer les ressources du
système et de planifier les tâches.

YARN a été introduit dans Hadoop 2.0

pour supprimer le goulot
d’étranglement présent dans Hadoop
1.0
● Caractéristiques de YARN
❖ Évolutivité (Scalability) : le planificateur du gestionnaire de ressources dans YARN permet
à Hadoop d’étendre et de gérer des milliers de nœuds et de clusters.
❖ Compatibilité : YARN prend en charge les applications Map Reduce existantes sans
interruption → compatible avec Hadoop 1.0.
❖ Utilisation du cluster : Vu que YARN supporte l’utilisation dynamique du cluster dans
Hadoop → utilisation optimisée du cluster.
❖ Multi-tenant : Il permet un accès à plusieurs moteurs → offre aux organisations un avantage
de multi-tenant.

● Architecture de Hadoop YARN

Resource Manager
↙ ↘
Scheduler Application Manager
(Planificateur) (Responsable de l’acceptation de l’application)

● Workflow d’application dans Hadoop YARN

1. Le client soumet une application
2. Le resource manager alloue un container pour démarrer l’application manager
3. L’application manager s’inscrit auprès du resource manager
4. Le resource manager négocie les containers du resource manager
5. Le resource manager demande au node manager de lancer des containers
6. Le code de l’application est exécuté dans le container
7. Le client contacte le resource manager/application manager pour surveiller l’état de
l’application
8. Une fois le traitement terminé, l’application manager se désinscrit auprès du resource
manager
5. Spark

Problème Map Reduce:

90% du temps est perdu dans
les opérations read/write

Solution ?
→ Spark

● Définition Spark :
Apache Spark est un framework de traitement distribué écrit en Scala et conçu pour être rapide et
à usage général.
● Pourquoi Spark ?
❖ 3x plus rapide que Hadoop
❖ Utilise moins de ressource que Hadoop
● Main features
❖ Vitesse
❖ Usage général
❖ Accessibilité
❖ L’intégration
● Spark Stack

● Avantages
❖ Permettre de travailler sur de grandes volumétries de données sans augmenter les temps de
traitement.
❖ Faire évoluer le système en fonction des besoins.
❖ Travailler avec des données de différents formats.
❖ Implémentation des nouveaux types de traitements : Streaming, Machine Learning, Graphe.

● Spark vs. Map Reduce

❖ Spark est rapide :
• 10x plus rapide sur disque
• 100x plus rapide en mémoire
❖ Spark simplifie le développement :
• Écriture simplifiée des programmes
• Un code plus efficace
❖ Plusieurs modes de déploiement sont disponibles sur Spark : YARN, Mesos, Local, …
❖ Stack unifié : permet de travailler sur différentes structures de données (Batch, Streaming,
…) “voir différence Batch/Streaming’
❖ Spark supporte plusieurs langages : Python, Scala, Java, R

● Cas d’usage de Spark

❖ Les ETL
❖ Analyse prédictive et machine learning
❖ Opérations d’accès aux données SQL
❖ Traitement et extraction de texte
❖ Traitement temps réel
❖ Applications graphiques

● Spark components
❖ Spark Driver
❖ Spark Session
❖ Cluster Manager
● Lancement d’une application Spark

RDD (Resilient Distributed Dataset)

● Un programme Spark est une séquence d’opérations invoquées dans SparkContext.
● Ces opérations manipulent un type particulier de structures de données appelé : Resilient
distributed Dataset (RDD).
Un RDD est une collection immuable et distribuée d’objets.
Une opération peut être soit : une transformation soit une action.

❖ Une transformation : prend un ou plusieurs RDD et renvoie un nouveau RDD.

❖ Une action : prend un ou plusieurs RDD et renvoie un résultat au pilote ou l’écrit
dans le stockage.

exemples :

Transformations Actions

map()
filter()
flatMap()

Remarques TDs :

Vous aimerez peut-être aussi

Introduction au Big Data et Hadoop
100% (1)
Introduction au Big Data et Hadoop
6 pages
Introduction à l'Architecture Big Data
100% (1)
Introduction à l'Architecture Big Data
9 pages
Questions et réponses sur NoSQL et Hadoop
Pas encore d'évaluation
Questions et réponses sur NoSQL et Hadoop
21 pages
Control Big Data N°4-AU22-23
100% (1)
Control Big Data N°4-AU22-23
3 pages
Credit 5bi Big Data
Pas encore d'évaluation
Credit 5bi Big Data
4 pages
Examen Big Data: Stockage et Traitement Hadoop
100% (1)
Examen Big Data: Stockage et Traitement Hadoop
6 pages
Ds Big Data Hachani
Pas encore d'évaluation
Ds Big Data Hachani
7 pages
Introduction au Big Data et NoSQL
Pas encore d'évaluation
Introduction au Big Data et NoSQL
38 pages
BigDATA M1 GSI Corrigé - Type
100% (2)
BigDATA M1 GSI Corrigé - Type
3 pages
Corrige Devoir de Revision2
Pas encore d'évaluation
Corrige Devoir de Revision2
4 pages
Examen Big DATA
100% (2)
Examen Big DATA
4 pages
1ère Année Master GL (S3) TD 1: Introduction Au Big Data Quiz
Pas encore d'évaluation
1ère Année Master GL (S3) TD 1: Introduction Au Big Data Quiz
2 pages
Correction QCM Big Data - Master 2
100% (5)
Correction QCM Big Data - Master 2
5 pages
TD1 MapReduce PDF
100% (3)
TD1 MapReduce PDF
5 pages
Examen BD NoSQL: JSON, Requêtes et Index
100% (1)
Examen BD NoSQL: JSON, Requêtes et Index
3 pages
Chapitre 3 LEcosystème Hadoop VF
100% (1)
Chapitre 3 LEcosystème Hadoop VF
42 pages
Analyse Big Data avec Hadoop et MapReduce
100% (1)
Analyse Big Data avec Hadoop et MapReduce
6 pages
Exam Bd1718 SR
Pas encore d'évaluation
Exam Bd1718 SR
5 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
Examen BigData SP 1617
Pas encore d'évaluation
Examen BigData SP 1617
6 pages
Exemple Examen BIG DATA Partie 1
Pas encore d'évaluation
Exemple Examen BIG DATA Partie 1
7 pages
Td1: Hadoop: Exercice 1
75% (4)
Td1: Hadoop: Exercice 1
3 pages
Chapitre 2 Hadoop-Part1
100% (1)
Chapitre 2 Hadoop-Part1
26 pages
Introduction à Hadoop pour Big Data
Pas encore d'évaluation
Introduction à Hadoop pour Big Data
61 pages
Examen 2
50% (2)
Examen 2
4 pages
Introduction à MapReduce et Hadoop
Pas encore d'évaluation
Introduction à MapReduce et Hadoop
9 pages
Exercices Corrigés sur MongoDB NoSQL
100% (2)
Exercices Corrigés sur MongoDB NoSQL
5 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
Compte Rendu TP 1 Big Data
Pas encore d'évaluation
Compte Rendu TP 1 Big Data
6 pages
Examen BigData SR 1617
100% (2)
Examen BigData SR 1617
5 pages
Introduction aux bases de données NoSQL et MongoDB
100% (1)
Introduction aux bases de données NoSQL et MongoDB
3 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
Initiation à Hadoop et MapReduce
100% (4)
Initiation à Hadoop et MapReduce
5 pages
TP Map Reduce
100% (2)
TP Map Reduce
3 pages
QCM Inf 356
100% (3)
QCM Inf 356
13 pages
CorrigéTD3 Versionetudiant
Pas encore d'évaluation
CorrigéTD3 Versionetudiant
13 pages
Correction Examen Big Data 2020 2021 Session Normale
90% (10)
Correction Examen Big Data 2020 2021 Session Normale
4 pages
Cours Spark
Pas encore d'évaluation
Cours Spark
50 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
32 pages
Exams
Pas encore d'évaluation
Exams
8 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Introduction à Apache Hadoop
Pas encore d'évaluation
Introduction à Apache Hadoop
38 pages
Révision Modélisation NoSQL
Pas encore d'évaluation
Révision Modélisation NoSQL
14 pages
Introduction à HBase et Big Data
Pas encore d'évaluation
Introduction à HBase et Big Data
35 pages
Examen SP UE
0% (1)
Examen SP UE
4 pages
Hadoop
Pas encore d'évaluation
Hadoop
89 pages
Cours Hive Hem
Pas encore d'évaluation
Cours Hive Hem
61 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
Hadoop Map Reduce Exo
100% (4)
Hadoop Map Reduce Exo
2 pages
Corrigés TD Bases de Données SQL/NoSQL
83% (6)
Corrigés TD Bases de Données SQL/NoSQL
2 pages
Chapitre 1 - Big Data
100% (2)
Chapitre 1 - Big Data
30 pages
TP3 Hive Correction
Pas encore d'évaluation
TP3 Hive Correction
9 pages
TP 3 - Exercices Map Reduce
88% (8)
TP 3 - Exercices Map Reduce
3 pages
Introduction au Big Data et MongoDB
100% (1)
Introduction au Big Data et MongoDB
20 pages
Chapitre 4 - HBase
Pas encore d'évaluation
Chapitre 4 - HBase
35 pages
TP Apache Spark : Manipulation RDD
Pas encore d'évaluation
TP Apache Spark : Manipulation RDD
7 pages
Architecture du Big Data avec Hadoop
100% (1)
Architecture du Big Data avec Hadoop
54 pages
BIG DATA Resumé
Pas encore d'évaluation
BIG DATA Resumé
6 pages
Big Data et Écosystème Hadoop
Pas encore d'évaluation
Big Data et Écosystème Hadoop
37 pages
1-html Css
Pas encore d'évaluation
1-html Css
88 pages
Data Warehouse
100% (1)
Data Warehouse
41 pages
Cours
Pas encore d'évaluation
Cours
54 pages
Introduction à la programmation Qt
Pas encore d'évaluation
Introduction à la programmation Qt
35 pages
Micromine - Formation 5
100% (1)
Micromine - Formation 5
11 pages
Formation CICS TS v5 : Principes de base
Pas encore d'évaluation
Formation CICS TS v5 : Principes de base
2 pages
BD PDF
Pas encore d'évaluation
BD PDF
13 pages
Esp Descaf2 Examen Gestion de La Logistique Et Des Approvisionnements
Pas encore d'évaluation
Esp Descaf2 Examen Gestion de La Logistique Et Des Approvisionnements
2 pages
Résumé de La Data Defragmentation
100% (1)
Résumé de La Data Defragmentation
6 pages
Infrastructure à Clé Publique
Pas encore d'évaluation
Infrastructure à Clé Publique
105 pages
Ressources IT pour étudiants IM2AG
Pas encore d'évaluation
Ressources IT pour étudiants IM2AG
39 pages
Cours Complet MySQL
Pas encore d'évaluation
Cours Complet MySQL
3 pages
Modélisation Dimensionnelle OLAP
Pas encore d'évaluation
Modélisation Dimensionnelle OLAP
54 pages
(SMA) Django - Chapitre 4 - Modèles Et ORM
Pas encore d'évaluation
(SMA) Django - Chapitre 4 - Modèles Et ORM
17 pages
Cours de XHTML Et de Css Definitif UWB
Pas encore d'évaluation
Cours de XHTML Et de Css Definitif UWB
136 pages
Documentation Complète Et Archivée Du SMSI
0% (1)
Documentation Complète Et Archivée Du SMSI
4 pages
Architecture des Microservices et RabbitMQ
Pas encore d'évaluation
Architecture des Microservices et RabbitMQ
220 pages
GC BLO V5-Annexe D7-Version Du 5 Août 2022 1
Pas encore d'évaluation
GC BLO V5-Annexe D7-Version Du 5 Août 2022 1
33 pages
Télécoms M1 CTD Admin-Réseaux - BENMOSTEFA
Pas encore d'évaluation
Télécoms M1 CTD Admin-Réseaux - BENMOSTEFA
127 pages
Cours JSF
Pas encore d'évaluation
Cours JSF
175 pages
(Fron, Annick) Architectures Re Parties en Java
Pas encore d'évaluation
(Fron, Annick) Architectures Re Parties en Java
314 pages
Chapitre 01 - Introduction Au Développement D'applications Mobiles
100% (2)
Chapitre 01 - Introduction Au Développement D'applications Mobiles
45 pages
TP 01 BD
Pas encore d'évaluation
TP 01 BD
13 pages
Introduction aux Entrepôts de Données
Pas encore d'évaluation
Introduction aux Entrepôts de Données
18 pages
Gestion de Réseaux Et Protocoles
Pas encore d'évaluation
Gestion de Réseaux Et Protocoles
71 pages
QCM C++ : Questions et Réponses
100% (1)
QCM C++ : Questions et Réponses
23 pages
Optimisez DAX Studio pour Power BI
Pas encore d'évaluation
Optimisez DAX Studio pour Power BI
97 pages
Introduction aux applications Windows Forms
Pas encore d'évaluation
Introduction aux applications Windows Forms
20 pages
5138 Manipulation D Extensions Avec La Base de Registre PDF
Pas encore d'évaluation
5138 Manipulation D Extensions Avec La Base de Registre PDF
23 pages