MS Fabric
Talento Humano
Prueba de Concepto
Objetivo:
Implementar una arquitectura de datos sobre MS Fabric como prueba de
concepto tomando de referencia el caso de uso para la iniciativa de
puntuación de evaluadores desarrollada por el equipo de Talento Humano.
Temas Guía:
1. Arquitectura de datos
2. Workspace
3. Lakehouse
4. Notebooks
5. Data Pipelines
6. Power BI
Arquitectura de Datos
MS Fabric
Prueba de Concepto
Arquitectura de Datos – v1
MS Fabric
Fuente de Medium / Big
Datos 1 Data
Fuente de
Datos 2 Lakehous
Power Sharepoin
Automat t Data Pipelines e Power BI
e Online
Ingesta / Orquestador Visualización
Fuente de Files Tables
Datos 3
Dataflow
Fuente de PBI Notebooks
Small
Datos n Ingesta
Data Procesamiento
Procesamient
o Workspace
Costos Ingenieria de Datos – $180.000 /hora
Costos BI - $125.00 /hora
Costos Plataforma e Infraestructura – MS Fabric – F2
Licencia PBI PRO - $9,40 EUROS
Soporte y Operación – 1 IGD
Workspace
MS Fabric
Crear una serie de carpetas para organizar el espacio de trabajo.
Pipelines
Crear los elementos de tipo
data pipeline para ingestar
datos desde diferentes
fuentes.
Notebooks
Crear los elementos de tipo
notebook para procesar datos
ingestados en el Lakehouse y
llevarlo a tablas estructuradas.
PowerBI
Permite disponer
organizadamente de un lugar
donde hacer la publicación de los
tableros de PBI.
La idea es crear una estructura de carpetas que sea negocio / iniciativa
Pipelines
Dentro de Pipelines crear la
carpeta thyso /
puntuacion_evaluadores
Notebooks
Dentro de Notebooks crear la
carpeta thyso /
puntuacion_evaluadores
Hacer lo mismo en la
carpeta de PowerBI.
Lakehouse
MS Fabric
1. Dentro del Workspace crear un nuevo elemento (Almacén de datos Lakehouse)
Crearlo con esquemas habilitado
En el Workspace se verá creado el Lakehouse.
Notebooks
MS Fabric
Agregar dos Notebooks dentro de la carpeta Notebooks / thyso /
puntuacion_evaluadores, uno para Ingestar los datos y otro para procesarlos.
El nombre de los notebooks se puede cambiar, lo ideal es que
describa claramente lo que realiza.
Notebooks
Notebook de Ingesta: este contendrá la lógica para conectarse a Sharepoint utilizando
un App Service Principal para luego descargar los archivos al Lakehouse (Files).
Para poder conectarse a Sharepoint se debe hacer uso de un
permiso especial a través de la creación de un App Service
Principal (client_id, secret_id) que es necesario para interactuar
con el repositorio online. Esta es una actividad que debe realizar
el administrador de Sharepoint en la organización.
Notebook de Procesamiento: este contendrá la lógica de procesamiento de los datos
para dejarlos accionables en la capa de visualización, aquí es donde se implementa toda la
transformación de los datos y se dejan como tablas estructuradas en el Lakehouse.
Una vez se crea el notebook, se debe vincular el Lakehouse existente (lkh_analiticagh)
2
1
3
El Lakehouse se divide entre tablas y files, la idea es construir una ruta de
almacenamiento de archivos como repositorio central de los datos que se ingestarán
desde las fuentes.
La idea es que los notebooks tengan una estructura definida con el objetivo de
estandarizar el desarrollo, en este caso se ha dividido el notebook de ingesta en las
siguientes secciones.
Introducción: descripción general del notebook
Instalación de Dependencias: sección donde se
instalan todas las librerías necesarias.
Importación de Librerías: se instancian todas las
librerías y funciones necesarias.
Funciones y Parametros: sección donde se
configuran parámetros y se definen las funciones
propias.
Ingesta de datos: se obtienen los datos desde la
fuente Sharepoint.
El notebook de procesamiento está dividido en las siguientes secciones.
Introducción: descripción general del notebook
Instalación de Dependencias: sección donde se
instalan todas las librerías necesarias.
Importación de Librerías: se instancian todas las
librerías y funciones necesarias.
Funciones y Parametros: sección donde se
configuran parámetros y se definen las funciones
propias.
Ingesta de datos: se obtienen los datos a utilizar
desde Lakehouse.
Procesamiento: lógica de estandarización, limpieza
y cálculos derivados de los datos.
Salida de datos: guardado de datos persistente en
tablas estructuradas del Lakehouse.
Data Pipelines
MS Fabric
Una vez se han desarrollado los notebooks (ingesta y procesamiento) se deberá crear un
Data Pipeline dentro de la carpeta Pipelines, el cual orquestará la ejecución de los
notebooks, este también permite configurar una programación para que se realice de
manera periódica.
Crear el data pipeline con el nombre 01_ORQ_Data_Sharepoint
Se deberá seleccionar la opción ‘actividad de canalización’ y buscar la opción ‘Bloc de
Notas’
Automáticamente se creará una actividad de tipo Bloc de Notas, la cual debemos
configurar seleccionando el espacio de trabajo, luego se listarán los notebooks allí
creados. Como previamente ya hemos creado los dos notebooks entonces se debe crear
una actividad que ejecutara el notebook de ingesta y luego otra actividad que ejecute el
notebook de procesamiento.
El Pipeline de datos se vera de la siguiente manera, la primera actividad apunta al
notebook de ingesta y la segunda al notebook de procesamiento.
Teniendo en cuenta que en este caso estamos usando el
comando %pip install en los notebooks para instalar las
librerías en línea, se debe adicionar el siguiente
parámetro en la actividad del pipeline para que no
genere error.
Para ejecutar el pipeline a demanda, podemos hacer clic en la opción ‘Ejecutar’.
Se iniciará la ejecución de todo
el pipeline (orquesta la
ejecución de los notebooks)
Una vez finaliza la ejecución del Data Pipeline, podemos ver los resultados.
Podemos ir al Lakehouse y corroborar que se haya creado el archivo de la ingesta y
también la tabla en el Lakehouse producto del procesamiento.
1
2
En el espacio de trabajo abrimos el
Lakehouse.
En el caso que no aparezca se debe refrescar. Se
evidencia la tabla creada y el archivo descargado desde
Sharepoint.
Power BI
MS Fabric
Ahora, debemos conectar un tablero PBI a la tabla estructurada en el Lakehouse para
construir la capa de visualización. Se debe copiar el String de conexión SQL.
Para visualizar el string de conexión, en el lakehouse ir a ‘Configuración’, luego en la
opción ‘Punto de Conexión de Análisis SQL’ y copiar la cadena de conexión.
qca4gwlorzxupn4x75qijzazdy-
[Link]
Desde PBI, conectar una nueva fuente de datos, y seleccionar ‘Lakehouse’
Se listarán los Lakehouse que tiene permisos el usuario, en este
caso el tablero de PBI esta autenticado con el mismo usuario que
creo el Lakehouse, por ello se muestra en la lista.
Seleccionar el Lakehouse y luego en la opción conectar,
seleccionar ‘Conectar al punto de conexión SQL’, pues es el que
nos da acceso a las tablas estructuradas.
Seleccionar la tabla requerida, hay tablas de control del Lakehouse y las tablas propias.
Se listarán todas las tablas del Lakehouse, entre ellas la
nueva que creamos en el esquema thyso.
Es posible que se demore un poco en listarla, se debe
esperar unos minutos y volver a intentar la conexión.
En Power BI desktop ya podemos trabajar con los datos, crear las visualizaciones,
medidas, etc. Utilizando los datos directamente desde Lakehouse.
Desde Power BI también podemos hacer la conexión al Lakehouse utilizando el conector
de SQL Server.
Se listarán las tablas
1
3
Pegar el string de conexión SQL
qca4gwlorzxupn4x75qijzazdy-
[Link]
Una vez que el tablero ha sido construido, se deberá publicar en el Servicio de Power
BI. Autenticado con el usuario que tiene permisos en el Workspace hacer clic en Publicar.
Seleccionar la ruta dentro del Workspace dentro de la carpeta ‘PowerBI’ que hemos
creado al inicio.
Se iniciará la publicación del
tablero en el servicio de PBI
Terminada la publicación, podemos ir al Workspace a la ruta de publicación y veremos el
tablero y el conjunto de datos o modelo semántico.