Introducción a Databricks
Wilder Ramírez D.
Taller 1
Objetivos
En este manual introductorio de manejo para Databricks, exploraremos paso a paso cómo comenzar
a utilizar esta plataforma de análisis de datos en la nube. Comenzaremos con la creación de una
cuenta en la versión comunitaria de Databricks a través del sitio web oficial. Luego, continuaremos
con la configuración de un clúster de computación y la creación de un Notebook para comenzar a
trabajar con código y texto de manera interactiva. A lo largo de este manual, aprenderemos a
ejecutar fragmentos de código en Python y PySpark, así como a agregar y formatear celdas
Markdown para documentar nuestro trabajo. Además, exploraremos opciones avanzadas como la
descarga de Notebook y la gestión del clúster para una experiencia completa de análisis de datos en
Databricks.
Procedimiento
1) Acceda a: https://community.cloud.databricks.com/login.html
2) Diligencie el siguiente formulario (utilice su email institucional):
3) Seleccione versión community:
4) Verifique su cuenta de correo e ingrese:
5) Creación de Clúster: Seleccione la opción “compute” agregar nuevo:
Dar clic en “Create Compute” y esperar
6)
luego:
7) Crear un Notebook: De clic en la opción indicada
8) Asigne un nombre al Notebook :
9) Genera una celda de prueba:
Para ejecutar el fragmento de código ejecute la opción “run cell” de la esquina de la celda,
digite “shift” + “enter”
10) Agregar una celda Markdown: pose el mouse sobre la parte media inferior de la celda y de
clic en la opción “+”
11) La celda nueva esta generada para Python, para cambiar a Markdown de clic en la opción:
12) Pruebe algún fragmento Markdown
Ejecutar celda (shit + enter u opción del menú)
13) Probando código PySpark:
14) Descargando Notebook: Dar clic en la opción:
15) Luego descargue el archivo generado:
Actividades Propuestas
1. Generar texto en Markdown, donde se manejen títulos, listas, viñetas, enlaces, imágenes
2. Revisar las opciones del menú principal, específicamente las relacionadas con :
1. Cargar Notebook
2. Operaciones con celdas
3. Opciones de Ejecución
3. Cree un nuevo Notebook y vinculelo al clúster
4. Cambie entre los 2 Notebook creados
5. valide cual el el procedimiento para reinicio del clúster