0% ont trouvé ce document utile (0 vote)
258 vues3 pages

TP Bigdata ApacheSparkRDD

Ce document décrit comment utiliser Apache Spark pour effectuer des opérations de traitement de texte sur des données dans HDFS, notamment le comptage de mots et l'application de transformations et d'opérateurs scala.

Transféré par

AMAL NEJJARI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
258 vues3 pages

TP Bigdata ApacheSparkRDD

Ce document décrit comment utiliser Apache Spark pour effectuer des opérations de traitement de texte sur des données dans HDFS, notamment le comptage de mots et l'application de transformations et d'opérateurs scala.

Transféré par

AMAL NEJJARI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

TP : Apache Spark RDD

Create a file in HDFS named input.txt


Launch Spark with the command : $ spark-shell

Create an RDD

Execute Word count Transformation

flatMap(line ⇒ line.split(“ ”)): Split each line into Words.

(map(word ⇒ (word, 1)): Read each word as a key with a value ‘1’ using map function.

(reduceByKey(_+_)): Reduce those keys by adding values of similar keys.


Appliquer des opérateurs scala
Transformations : elles prennent un ou deux Rdds en entrée et donnent un RDD en sortie

Par exemple sélectionner les documents qui contient le mot beautiful :

compteur de combien de termes dans la collection

Nombre d'occurence :

sauvegarder le resultat de mom compTermes.collect()


Un-Persist the Storage

Before Un-persisting, if you want to see the storage space that is used for this application, then use
the following URL in your browser.

Vous aimerez peut-être aussi