0% encontró este documento útil (0 votos)
49 vistas5 páginas

Databricks

El documento explica los pasos para crear una cuenta en Databricks y configurar un clúster y Notebook. Luego muestra cómo ejecutar código Python y PySpark en celdas y agregar celdas Markdown para documentar el trabajo.

Cargado por

mauricio995
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
49 vistas5 páginas

Databricks

El documento explica los pasos para crear una cuenta en Databricks y configurar un clúster y Notebook. Luego muestra cómo ejecutar código Python y PySpark en celdas y agregar celdas Markdown para documentar el trabajo.

Cargado por

mauricio995
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Introducción a Databricks

Wilder Ramírez D.
Taller 1

Objetivos

En este manual introductorio de manejo para Databricks, exploraremos paso a paso cómo comenzar
a utilizar esta plataforma de análisis de datos en la nube. Comenzaremos con la creación de una
cuenta en la versión comunitaria de Databricks a través del sitio web oficial. Luego, continuaremos
con la configuración de un clúster de computación y la creación de un Notebook para comenzar a
trabajar con código y texto de manera interactiva. A lo largo de este manual, aprenderemos a
ejecutar fragmentos de código en Python y PySpark, así como a agregar y formatear celdas
Markdown para documentar nuestro trabajo. Además, exploraremos opciones avanzadas como la
descarga de Notebook y la gestión del clúster para una experiencia completa de análisis de datos en
Databricks.

Procedimiento

1) Acceda a: https://community.cloud.databricks.com/login.html
2) Diligencie el siguiente formulario (utilice su email institucional):

3) Seleccione versión community:

4) Verifique su cuenta de correo e ingrese:


5) Creación de Clúster: Seleccione la opción “compute” agregar nuevo:

Dar clic en “Create Compute” y esperar


6)

luego:

7) Crear un Notebook: De clic en la opción indicada


8) Asigne un nombre al Notebook :

9) Genera una celda de prueba:

Para ejecutar el fragmento de código ejecute la opción “run cell” de la esquina de la celda,
digite “shift” + “enter”

10) Agregar una celda Markdown: pose el mouse sobre la parte media inferior de la celda y de
clic en la opción “+”

11) La celda nueva esta generada para Python, para cambiar a Markdown de clic en la opción:
12) Pruebe algún fragmento Markdown

Ejecutar celda (shit + enter u opción del menú)

13) Probando código PySpark:

14) Descargando Notebook: Dar clic en la opción:


15) Luego descargue el archivo generado:

Actividades Propuestas

1. Generar texto en Markdown, donde se manejen títulos, listas, viñetas, enlaces, imágenes
2. Revisar las opciones del menú principal, específicamente las relacionadas con :
1. Cargar Notebook
2. Operaciones con celdas
3. Opciones de Ejecución
3. Cree un nuevo Notebook y vinculelo al clúster
4. Cambie entre los 2 Notebook creados
5. valide cual el el procedimiento para reinicio del clúster

También podría gustarte