3.
Limpieza de datos
Cristian Saavedra
3.1 Editor Power Query
Algunos de los datos a los cuales se encuentre accediendo, puede ser que no tengan el formato correcto,
en este caso se debe utilizar Power Query que se encuentra integrado a Power Bi. Power Query es una
tecnología utilizada en varios programas de Microsoft como Microsoft Excel o Microsoft Power Bi, es la
herramienta que se usa para el proceso de integración de datos de extracción, transformación y carga (ETL),
que permite diseñar una serie de pasos o instrucciones para convertir uno o varios orígenes de datos sin
procesar en tablas de datos funcionales que se pueden usar en informes y análisis.
A través de Power Query se puede transformar los datos: renombrar columnas o tablas, cambiar el texto a
números, eliminar filas, configurar la primera fila como encabezados, etc.., preparando de esta forma, los
datos para poder utilizarlos posteriormente en el diseño del Dashboard, a continuación de explica algunas
de las operaciones que se pueden realizar:
• Reducir la carga de trabajo de limpieza y preparación de datos a la mitad.
• Reemplazar macros complicadas por pasos sencillos.
• Tener una experiencia sin código o de poco código más sencilla.
• Agregar/Eliminar columnas y filas
• Dar forma a los datos
• Agrupar filas
• Dinamizar columnas
• Crear columnas personalizadas
• Remplazar o eliminar datos.
Fig. N°3: Ecosistema de análisis moderno. Fuente: [Link]
es/learn/modules/automate-data-cleaning-power-query/1-introduction
El editor de Power Query Editor, proporciona instrucciones paso a paso para que se lleve a cabo los ajustes
de los datos, es importante considerar que la fuente de datos original no se ve afectada; solo se ajusta o se
da forma a esta vista particular de los datos.
Para acceder al Editor de Power Query, seleccione Transformar datos en la pestaña Inicio de Power BI
Desktop.
La interfaz del Editor de Power Query, se encuentra compuesto principalmente por 4 sectores:
1. Menú de opciones: En este sector, se encuentra los botones asociados a las diversas tareas de
transformación y limpieza de datos.
2. En el panel izquierdo, se despliega la información de las tablas de datos consultadas.
3. En el panel central, se muestran una vista preliminar de los datos y formato de los datos de la
consulta seleccionada
4. El panel de la derecha, se visualiza las propiedades de la consulta y se enumera en forma secuencial
los cambios aplicados.
3
El Editor de Power Query, puede determinar si existen anomalías y errores en los datos, por medio de la vista
Calidad de Columna, en la cual se resume la calidad de los datos en relación si tiene un formato válido, con
error o se encuentra vacío, a partir de esta visualización se puede realizar un diagnóstico rápido del estado
de los datos en base a las primeras 1000 filas de datos.
En caso de que no esté habilitada la opción, se debe habilitar en el menú de vista y seleccionar la opción
Calidad de Columnas.
En power Query, se pueden realizar diversas operaciones, relaciona con ajuste de datos, ya sea en
contenido o formato, a continuación, se explicará los principales pasos de las siguientes operaciones:
• Relleno de valores vacíos o remplazo de valores
• Operaciones sobre columnas
o Cambio de nombre
o División de columna
o Quitar columnas
o Quitar otras columnas
o Solo deja la columna seleccionada,
o Duplicar Columna
• Operaciones sobre Filas
.
• Quitar duplicados: Elimina filas con datos duplicados, tomando como base los datos de la columna
seleccionada
3.2 Limpieza de datos
Algunos de los datos a los cuales se encuentre accediendo, puede ser que no tengan el formato correcto,
en este caso en Power Query se puede limpiar y preparar los datos para poder utilizarlos posteriormente
en el diseño del Dashboard, a continuación de explica algunas de las operaciones que se pueden realizar:
• Agregar/Eliminar columnas y filas
• Dar forma a los datos
• Agrupar filas
• Dinamizar columnas
• Crear columnas personalizadas
• Remplazar o eliminar datos.
Power Query, dispone de la vista Calidad de Columna, en la cual se resume la calidad de los datos en
relación si tiene un formato válido, con error o se encuentra vacío, a partir de esta visualización se puede
realizar un diagnóstico rápido del estado de los datos
En caso de que no esté habilitada la opción, se debe habilitar en el menú de vista y
seleccionar la opción Calidad de Columnas.
3.2.1 Relleno de valores vacíos o Remplazar Valores
En el panel de la izquierda,
seleccione la consulta Product.
Seleccione la columna Category.
En la cinta de opciones, seleccione
Transformar -> Remplazar valores
(1-> 2)
Aparece una ventana en la cual se
debe completar con el dato que se
desea remplazar y luego
seleccione aceptar.
.
3.2.2 División de Columna
Cada columna, contiene los valores de una variables, consideres que
esta variable es de tipo texto y en el proceso de limpieza o estructura
de datos, se deba dividir el contenido de esta celda en dos campos, se
puede aplicar los siguientes criterios para dividir el contenido de cada
columna; Por delimitador, por número de caracteres, por Posiciones,
Por de Minúscula a Mayúscula, Por de dígito a no dígito o por de no
dígito a dígito
Por ejemplo en el caso de dividir por delimitador, se puede utilizar un
carácter alfapumereico, que puede de barra vertical (|), un especio,
un ; & -, entre otros, a continuación de muestra cómo generar la
división de los datos en 2 columnas:
Seleccione la columna que desee dividir
En la cinta de opciones, seleccione
Transformar -> Dividir columna -> Por
delimitador. Se abrirá el cuadro de diálogo
Dividir columna por delimitador.
En el cuadro de diálogo, asegúrese de que
Personalizado está seleccionado en la lista
desplegable Seleccione o escriba el
delimitador.
Nota: La lista desplegable Seleccione o escriba
el delimitador contiene algunos de los
delimitadores estándar, como coma, dos
puntos, etc.
3.2.3 Operaciones Sobre una Columna
Cambio de Nombre de la Columna:
1. Seleccione la columna a la cual desea
cambiar el nombre
2. Haga clic con el botón derecho junto al
nombre de la columna.
3. Seleccione Cambiar nombre en el cuadro
de diálogo de selección.
4. Cambie el nombre del campo a que desee.
De la misma forma puede realizar otras
operaciones sobre la columna seleccionada,
por ejemplo:
• Quitar: Elimina la columna seleccionada
• Quitar otras columnas; Solo deja la
columna seleccionada
• Duplicar Columna; Genera una nueva
columna.
Dividir Columna
Combinar Columnas:
1. Seleccione dos o más columnas que desee
combinar:
2. Haga clic con el botón derecho junto al
nombre de la columna.
3. Seleccione Combinar columnas, seleccione
el separador, el nombre de la nueva
columna y luego aceptar.
3.2.4 Dejar primera Filas como Encabezado
Al importar los datos de fuentes como excel o
archivos csv, Power Bi generalmente asocia los
datos de la primera fila de la tabla, como los
nombres de las columnas, en el caso de que no
realice este paso, ya sea porque había filas en
blanco o con información que no
correspondería, se puede asignar la primera
fila de datos como encabezado de las
columnas, para lo cual se debe realizar los
siguientes pasos:
Del menú inicio, en la parte del panel de la
izquierda, seleccione Inicio -> Usar la primera
fila como encabezado en la cinta de opciones.
3.2.5 Eliminación de Filas no Deseadas
Eliminar Filas Superiores
Al momento de conectar con los datos, es
probable que el archivo fuente de Excel, no
tuviese datos en la primeras filas, en esos
casos, hay filas sin información o con datos que
no corresponde al modelo de datos, para
eliminar las filas superiores siga las siguientes
indicaciones:
1. En menú opciones, seleccione Inicio ->
Reducir filas -> Quitar filas -> Quitar filas
superiores.
2. Se abre el cuadro de diálogo Quitar filas
superiores. Escriba el número de filas que
desee eliminar
3. Seleccione Aceptar.
De la misma forma puede quitar filas
inferiores, alternas, filas en blanco o con
errores.
Quitar duplicados: Elimina filas con datos
duplicados, tomando como base los datos de
la columna seleccionada.
3.2.6 Cambiar Formato de Datos
El formato de los datos, se puede visualizar a la
izquierda del nombre de cada columna, en cual
se identifica en base ABC (texto), 1.2 (número
decimal), 123 (número entero), entre otros,
Para cambiar el formato de datos, se debe
seleccionar con el mouse el icono que se
encuentra a la izquierda del nombre de la
columna, luego se despliega el menú con los
tipos de formato y se selecciona el que
corresponda.
También se puede modificar desde el el menú
de Inicio -> Tipo de Datos.
Nota: Si en la columna aparece en el
encabezado ABC 123, implica que esta sin
formato definido, se debe corregir
Transformación de Datos.
Dependiendo la forma de ingreso de los datos,
se puede presentar que los datos ingresados,
se encuentre con distintos criterios de
escritura, por ejemplo toda la palabra con
Mayúscula, con Minúscula o en cada palabra la
primera letra con mayúscula, se desea
estandarizar el formato de escritura, puede
realizar la siguiente acción:
Seleccionar con el mouse el icono que se
encuentra a la izquierda del nombre de la
columna, luego se despliega el menú,
seleccionar la Opción de Transformar y luego
el formato de escritura que desee.
3.2.7 Crear Columna Personalizada
En Power Query, puede crear columnas
en base a fórmulas personalizadas que
aplique a datos de distintas columnas del
modelo de datos.
Para crear una nueva columna seleccione
del menú Agregar Columna -> Columna
Personalizada
Se despliega un menú, en el cual se ingresa
el nombre de la nueva columna, un área
para escribir la fórmula que define la nueva
columna personalizada. a la derecha los
nombres de las columnas o datos del
modelo, en base a estos campos se debe
realizar la fórmula de columna
personalizada
Ejemplos:
Para Concatenar dos campos de texto, se
debe aplicar:
[nombre campo1] &"….."& [nombre
campo2]
Para Concatenar un texto y un campo de
texto, se debe aplicar:
"Producto: "& [nombre campo1]
Para Concatenar un campo de texto y un
campo con formato numérico:
[nombre campo1]&"….."&
[Link] ([nombre campo2])
Para realizar una operación de división:
[nombre campo1]/[nombre campo2]
3.2.8 Crear Columna Condicional
En Power Query, puede crear columnas
en base a una condición en la cual se
evalúa el valor de una celda
Para crear una nueva columna seleccione
del menú Agregar Columna -> Columna
Condicional
Se despliega un menú, en el cual se ingresa
el nombre de la nueva columna, un área
para escribir las condiciones con la cual se
evalúa el valor el campo, si cumple la
condición se le asignará el valor resultado
indicado en la Salida.
Se puede utilizar para generar una nueva
columna, en base a valores numéricos o de
texto.
3.2.9 Crear Columna Índice
En Power Query, puede crear una
columna con valores numéricos únicos,
para cada registro de fila de datos
Para crear una nueva columna indice del
menú Agregar Columna -> Columna índice
3.2.10 Operaciones sobre Datos de Fecha
Los campos con formato de fecha, se
identifican con el icono , sobre estos
datos se pueden realizar distintas
operaciones, tales como extraer nombre,
número inicio de períodos de:
• Año
• Trimestre
• Mes
• Semana
• Día
Para realizare esta operaciones seleccione con
el mouse el icono que se encuentra a la
izquierda del nombre de la columna, luego se
despliega el menú, seleccionar la Opción de
Transformar y luego seleccione el periodo.
3.2.11 Combinar/Anexar Consultas
Cuando se desea combinar datos de diversas fuentes o tablas, que también son denominadas
consultas en la jerga de Power Bi, ya que son el resultado de las consultas que aplicamos a las
fuentes de datos, se puede realizar por medio de la opción de combinar consultas: combinar
consultas o anexar consultas.
• Cuando tenga una o más columnas que le gustaría agregar a otra consulta, seleccione
combine las consultas.
• Cuando tenga filas adicionales de datos que le gustaría agregar a una consulta
existente, seleccione anexar la consulta.
Por ejemplo, se podrían tener dos tablas, una con 300 filas y otra con 100, y al anexar las consultas, acabará
con 400 filas. Al combinar consultas, se agregarán columnas de una tabla (o consulta) a otra. Para combinar
dos tablas, se debe tener una columna que sea la clave entre las dos tablas.
Anexar consultas
Si desea combinar la información de
distintas tablas, lo puede realizar
mediante la opción de Anexar consultas,
de esta forma se agregan nuevas filas con
los datos anexo de la segunda (o más
tablas)
Para generar crear una nueva columna
índice, del menú Inicio Combinar -> Anexar
consulta
Se abre el cuadro de diálogo Anexar. Hay dos
opciones para anexar: Dos tablas o Tres o más
tablas. Deje seleccionada la opción que
requiera
.
Luego seleccione el Nombre de la Tabla en la
lista desplegable y haga clic en Aceptar. Al
realizar esta operación las columnas de Tabla
Anexada, se sumaran a la tabla original.
En caso de que desee generar una nueva
consulta (tabla) con los valores de dos o más
tablas, se debe seleccionar la opción Anexar
consultas para crear una nueva
Combinar consultas
En este caso, queremos fusionar las
consultas. Para hacerlo, sigue estos pasos:
1. En el panel izquierdo de Power
Query Editor, seleccione la
consulta (tabla) en la que desea
fusionar la otra consulta.
2. Seleccione Combinar > Combinar
consultas en la pestaña Inicio del
menú principal superior.
Es posible que se le pida que establezca
los niveles de privacidad para garantizar
que los datos se combinen sin incluir o
transferir datos que no desea que se
transfieran.
Aparece la ventana Combinar . Le solicita
que seleccione qué tabla desea fusionar en
la tabla seleccionada y las columnas
coincidentes que se usarán para la fusión.
Seleccione el nombre de la
columna de la tabla1 (consulta1),
luego seleccione el nombre de la
columna de la tabla 2 (consulta2).
Cuando selecciona las columnas
coincidentes correctas, se habilita el
botón Aceptar.
Seleccione Aceptar .
Power Query crea una nueva columna al
final de la consulta, que contiene el
contenido de la tabla (consulta) que se
fusionó con la consulta existente. Todas las
columnas de la consulta combinada se
condensan en la columna, pero
puede expandir la tabla e incluir las
columnas que desee.
Para expandir la tabla combinada y
seleccionar qué columnas incluir,
seleccione el icono de expansión ( ).
Aparece la ventana Expandir .
3.2.12 Editor Avanzado
A través del editor avanzado se puede
revisar los códigos asociados a cada uno
de los pasos que se ha realizado en Power
Query, también se puede crear su propio
código o modificar el código de modelado
de los datos
Para abrir el editor avanzado, seleccione
la pestaña Ver en la cinta y luego
seleccione la consulta sobre la cual desea
revisar y con el botón derecho del mouse
seleccione la opción de Editor avanzado .
Al seleccionar el editor avanzado aparece
una ventana que muestra el código de
consulta existente.
Sobre este código se puede realizar ajustes
para solucionar problemas como por
ejemplo de cambio de nombre de las
columnas del dato de origen, cambios en la
ubicación de las fuentes de datos entre
otros.
3.2.13 Recomendaciones para asignar nombres a tablas y columnas
Cuando se importan datos de varios orígenes en Power BI Desktop, los datos conservan sus nombres de
tabla y de columna predefinidos. Puede que se quieran cambiar algunos de estos nombres para que estén
en un formato coherente, con el que sea más fácil trabajar y más claro para el usuario. Se puede usar el
Editor de Power Query en Power BI Desktop para realizar estos cambios de nombre y simplificar la estructura
de datos.
Las convenciones de nomenclatura para las tablas, columnas y valores no tienen ninguna regla fija; sin
embargo, se recomienda usar el lenguaje y las abreviaturas que se usen habitualmente en la organización y
que todos los usuarios estén de acuerdo y consideren como terminología común.
Un procedimiento recomendado consiste en proporcionar a las tablas, columnas y medidas términos
empresariales descriptivos y reemplazar los guiones bajos ("_") por espacios. Sea coherente con las
abreviaturas, prefijos y palabras como "número" e "id.". Las abreviaturas excesivamente cortas pueden
provocar confusión si no se utilizan normalmente en la organización.
Al reemplazar valores, intente imaginar cómo aparecerán esos valores en el informe. Los valores demasiado
largos podrían ser difíciles de leer y no ajustarse en un objeto visual, por otro lado los valores demasiado
cortos podrían ser difíciles de interpretar.
2.3 Ejercicios
Ejercicio N°1
• Importar datos al PB desde el Archivo Data_1.xls
• Cargar datos en Power Query
• Eliminar las 2 primeras filas superiores
• Cambiar el nombre de la consulta de “Data” a “Info_Empresas”
• Dejar la primera fila como encabezado de columna
• Eliminar las columnas que se encuentren sin datos (si las hubiese)
• En la columna, que el formato esta en Número/Texto (123 ABC) dejarlo exclusivamente con formato
número decimal.
• Eliminar Filas con Registro error.
• Divida la columna de Rubro Económico, considerando el delimitador “-“.
• Elimine columna que contienen solo la letra del rubro.
• Deje en la columna Provincia, los nombres de las provincias con la primera letra en Mayúscula y la
siguientes en Minúscula.
• Combinar las columnas Comuna y Provincia, utilice un “/”
• Elimine el último paso realizado
• Genere una nueva consulta a partir de la columna Provincia.
• Quite duplicados de esta nueva consulta
• Realizar un reporte que considere una segmentación por rubro económico y que indique distribución de
trabajadores Hombres/Mujeres por región.
Ejercicio N°2
• Crear un nuevo archivo de PB
• Importar datos al PB desde el Archivo Data_2.xls
• Cargar datos en Power Query
• Agrupar por categoría
• Agrupar por Producto
• Agrupar por categoría y promedio Kg.
• Generar una nueva columna personalizada, Ventas= [kg]*[Valor Kg]
• Generar una nueva columna personalizada, Detalle del total de la venta
"Total Venta, $" &[Link] ([Venta])
• Genere una columna condicional, con el nombre “Cliente” para las ventas mayores de $2.000 se debe
agregar el Texto “Buen Cliente” y para las ventas menores a $2.000 se debe agregar “Mal Cliente”.
• Generar una columna que solo contenga el mes.
• Extraer en una columna el trimestre que corresponde la fecha
• Extraer en una columna el trimestre que corresponde la fecha
• Extraer en una columna el día de la semana que corresponde la fecha
• Genere una columna Indice
• Cambie el nombre desde Excel el nombre de la columna XXXX, realice una actualización de datos.
• Actualice en el editor avanzado de Power Query el nombre de la columna.
Ejercicio N°3
• Importar datos al PB desde el archivo [Link]
• Cambiar el nombre de la consulta a Reg1
• Dejar la primera fila como encabezado de columna
• Importar datos al PB desde el archivo [Link]
• Cambiar el nombre de la consulta a Reg2
• Dejar la primera fila como encabezado de columna
• Realizar una operación de anexar consulta entre Reg1 y Reg2
• Importar datos al PB desde el Cod_postal.xls
• Cambiar el nombre de la consulta a Cod_postal
• Realizar una operación de combinar consultas entre Reg1(Ciudad) y Cod_postal(Ciudad).
Ejercicio N°4
• Importar datos al PB desde dimensió[Link]
• Anule la dinamización de columnas de las dimensiones
• Genere una dinamización de columnas entre columna dimensión y Valores