TP : Apache Spark RDD
Create a file in HDFS named input.txt
Launch Spark with the command : $ spark-shell
Create an RDD
Execute Word count Transformation
flatMap(line ⇒ line.split(“ ”)): Split each line into Words.
(map(word ⇒ (word, 1)): Read each word as a key with a value ‘1’ using map function.
(reduceByKey(_+_)): Reduce those keys by adding values of similar keys.
Appliquer des opérateurs scala
Transformations : elles prennent un ou deux Rdds en entrée et donnent un RDD en sortie
Par exemple sélectionner les documents qui contient le mot beautiful :
compteur de combien de termes dans la collection
Nombre d'occurence :
sauvegarder le resultat de mom compTermes.collect()
Un-Persist the Storage
Before Un-persisting, if you want to see the storage space that is used for this application, then use
the following URL in your browser.