0% ont trouvé ce document utile (0 vote)

258 vues3 pages

TP Bigdata ApacheSparkRDD

Ce document décrit comment utiliser Apache Spark pour effectuer des opérations de traitement de texte sur des données dans HDFS, notamment le comptage de mots et l'application de transformations et d'opérateurs scala.

Transféré par

AMAL NEJJARI

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

258 vues3 pages

TP Bigdata ApacheSparkRDD

Transféré par

AMAL NEJJARI

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP : Apache Spark RDD

Create a file in HDFS named input.txt

Launch Spark with the command : $ spark-shell

Create an RDD

Execute Word count Transformation

flatMap(line ⇒ line.split(“ ”)): Split each line into Words.

(map(word ⇒ (word, 1)): Read each word as a key with a value ‘1’ using map function.

(reduceByKey(_+_)): Reduce those keys by adding values of similar keys.

Appliquer des opérateurs scala
Transformations : elles prennent un ou deux Rdds en entrée et donnent un RDD en sortie

Par exemple sélectionner les documents qui contient le mot beautiful :

compteur de combien de termes dans la collection

Nombre d'occurence :

sauvegarder le resultat de mom compTermes.collect()

Un-Persist the Storage

Before Un-persisting, if you want to see the storage space that is used for this application, then use
the following URL in your browser.

Vous aimerez peut-être aussi

TP 2
Pas encore d'évaluation
TP 2
22 pages
Application2 - Initiation Spark PDF
Pas encore d'évaluation
Application2 - Initiation Spark PDF
7 pages
TP1 Spark
Pas encore d'évaluation
TP1 Spark
2 pages
Introduction à Spark et Scala avec Docker
Pas encore d'évaluation
Introduction à Spark et Scala avec Docker
6 pages
HDFS Boufares TP2
Pas encore d'évaluation
HDFS Boufares TP2
8 pages
TP 01 - RDD
Pas encore d'évaluation
TP 01 - RDD
2 pages
Atelier 1 - RDD
0% (1)
Atelier 1 - RDD
1 page
Spark : Analyse Big Data et RDD
Pas encore d'évaluation
Spark : Analyse Big Data et RDD
42 pages
TP Apache Spark : Manipulation RDD
Pas encore d'évaluation
TP Apache Spark : Manipulation RDD
7 pages
QCM Sur Apache Spark11
Pas encore d'évaluation
QCM Sur Apache Spark11
4 pages
TD Pyspark
Pas encore d'évaluation
TD Pyspark
2 pages
Importer et exporter avec Sqoop
Pas encore d'évaluation
Importer et exporter avec Sqoop
4 pages
TP2 Big Data Env Docker
Pas encore d'évaluation
TP2 Big Data Env Docker
3 pages
TP Hadoop: Manipulation HDFS CLI & Java
Pas encore d'évaluation
TP Hadoop: Manipulation HDFS CLI & Java
3 pages
Spark et Critique de MapReduce
Pas encore d'évaluation
Spark et Critique de MapReduce
14 pages
Commandes Hadoop
Pas encore d'évaluation
Commandes Hadoop
5 pages
tp3 Scala
Pas encore d'évaluation
tp3 Scala
2 pages
Big Data Analytics Sqoop - CDH 4.7
Pas encore d'évaluation
Big Data Analytics Sqoop - CDH 4.7
11 pages
Tp1: Installation de L'Apache Spark: Lebutdecetp
100% (1)
Tp1: Installation de L'Apache Spark: Lebutdecetp
4 pages
Introduction à Hadoop et Big Data
Pas encore d'évaluation
Introduction à Hadoop et Big Data
56 pages
TP Big Data : Compteur de Mots Hadoop
Pas encore d'évaluation
TP Big Data : Compteur de Mots Hadoop
8 pages
Initier Hadoop pour Big Data
Pas encore d'évaluation
Initier Hadoop pour Big Data
7 pages
QCM et exercices sur Hadoop et MapReduce
Pas encore d'évaluation
QCM et exercices sur Hadoop et MapReduce
3 pages
Ventes Totales par Produit et Région
100% (1)
Ventes Totales par Produit et Région
5 pages
MapReduce avec Hadoop et Python
Pas encore d'évaluation
MapReduce avec Hadoop et Python
5 pages
Spark : RDD et Transformations Optimisées
Pas encore d'évaluation
Spark : RDD et Transformations Optimisées
11 pages
TP PIG Hadoop
Pas encore d'évaluation
TP PIG Hadoop
3 pages
HDFS MapReduce
Pas encore d'évaluation
HDFS MapReduce
3 pages
Introduction à Apache Hive et Big Data
Pas encore d'évaluation
Introduction à Apache Hive et Big Data
28 pages
Spark-Td 1
Pas encore d'évaluation
Spark-Td 1
3 pages
Partie 01 - Cours Hadoop
Pas encore d'évaluation
Partie 01 - Cours Hadoop
61 pages
TD-MapReduce 02 2024
Pas encore d'évaluation
TD-MapReduce 02 2024
3 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
TP4 HBase: Manipulation et Stockage NOSQL
Pas encore d'évaluation
TP4 HBase: Manipulation et Stockage NOSQL
18 pages
Apache Flume Abderrahmane Rharrhour
Pas encore d'évaluation
Apache Flume Abderrahmane Rharrhour
6 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
58 pages
Atelier 2
Pas encore d'évaluation
Atelier 2
3 pages
Introduction à MapReduce en MongoDB
100% (2)
Introduction à MapReduce en MongoDB
3 pages
Exercice HDFS et MapReduce en Big Data
Pas encore d'évaluation
Exercice HDFS et MapReduce en Big Data
2 pages
TP Sparks QL
Pas encore d'évaluation
TP Sparks QL
19 pages
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
100% (1)
Tutoriel Complet sur Apache Spark : Chargement, Manipulation et Sauvegarde de Données
9 pages
Fondements de l'environnement Hadoop
Pas encore d'évaluation
Fondements de l'environnement Hadoop
32 pages
Cours-4 - Interrogation Big Data-Hive
Pas encore d'évaluation
Cours-4 - Interrogation Big Data-Hive
8 pages
Cours Hadoop et Big Data
Pas encore d'évaluation
Cours Hadoop et Big Data
105 pages
Examen Big Data Analytics - HDFS, MapReduce, Spark
Pas encore d'évaluation
Examen Big Data Analytics - HDFS, MapReduce, Spark
4 pages
Installation Cloudera HDFS
Pas encore d'évaluation
Installation Cloudera HDFS
5 pages
TP2 Hadoop 22 23
Pas encore d'évaluation
TP2 Hadoop 22 23
3 pages
tp1 BigData
Pas encore d'évaluation
tp1 BigData
9 pages
TP N°1 - Installation Via Paquets
100% (1)
TP N°1 - Installation Via Paquets
6 pages
Introduction à PySpark pour le Big Data
Pas encore d'évaluation
Introduction à PySpark pour le Big Data
2 pages
Introduction à Hadoop et MapReduce
Pas encore d'évaluation
Introduction à Hadoop et MapReduce
65 pages
Initiation à Hadoop et MapReduce en L2IRS
100% (1)
Initiation à Hadoop et MapReduce en L2IRS
7 pages
Chapitre N°4 Apache Spark
Pas encore d'évaluation
Chapitre N°4 Apache Spark
43 pages
Architecture Cloud et Big Data
Pas encore d'évaluation
Architecture Cloud et Big Data
70 pages
(Big Data Analytics) CHAP4 - Spark Streaming
Pas encore d'évaluation
(Big Data Analytics) CHAP4 - Spark Streaming
29 pages
Introduction au Big Data et ses enjeux
Pas encore d'évaluation
Introduction au Big Data et ses enjeux
45 pages
Jointure de tables avec MapReduce
Pas encore d'évaluation
Jointure de tables avec MapReduce
2 pages
TP4-5 Spark
Pas encore d'évaluation
TP4-5 Spark
21 pages
Traitement Batch et Streaming avec Spark
Pas encore d'évaluation
Traitement Batch et Streaming avec Spark
13 pages
TP 2.3 Spark Batch Scala
Pas encore d'évaluation
TP 2.3 Spark Batch Scala
10 pages
Interface Graphique
Pas encore d'évaluation
Interface Graphique
19 pages
Régression scalaire : Modèle Boston Housing
Pas encore d'évaluation
Régression scalaire : Modèle Boston Housing
2 pages
Classification Iris avec KMeans Spark
Pas encore d'évaluation
Classification Iris avec KMeans Spark
6 pages
TP2 Virtualisation Ips Fi Nejjariamal
Pas encore d'évaluation
TP2 Virtualisation Ips Fi Nejjariamal
31 pages