0% encontró este documento útil (0 votos)

23 vistas43 páginas

Data Wrangling

El documento aborda el proceso de 'Data Wrangling', que implica la preparación y organización de datos para su análisis efectivo. Se discuten aspectos clave como el almacenamiento de datos, el tratamiento de valores nulos y atípicos, la agrupación, la organización y la fusión de datos de diferentes fuentes. Además, se enfatiza la importancia de mantener la integridad y la limpieza de los datos para obtener resultados precisos en el análisis.

Cargado por

Caro Lina

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

23 vistas43 páginas

Data Wrangling

Cargado por

Caro Lina

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Data Wrangling

Índice

• Introducción
• Data Warehousing
• Esquema
• Formatear
• Tratar Nulos
• Tratar Outliers
• Agrupar
• Organizar
• Cruzar
• Registrosrepetidos
Introducción
Compararcon sentido

Comparar requiere ordenar, recolocar,

reorganizar,...

Reunir datos dispersos

Rara vez los datos nos sirven tal y como están

Data Wrangling – Introducción

Unificar

Estudiar qué queremos comparar

Revisar las fuentes de datos que

tenemos

Definir el esquema común de los

datos unificados

Para analizar datos

desestructurados, el primer paso es
estructurarlos.
Organizar

Reunir en una tabla datos de

diferentes orígenes

Enriquecer los registros para

que encajen con la unidad de
estudio

Detectarcasos extraños,
resolver datos incompletos

Data wrangling – Data warehousing

Data Warehousing
Data Warehousing

Inspiración para el almacenamiento coordinado de datos

El valor de los datos se basa en compartirlos.

Mantenerlos:

• Organizados
• Limpios
• Accesibles

Entre diferentes grupos, tiene una gran recompensa.

Data wrangling – Data warehousing

Data Warehousing

Inspiración para el almacenamiento coordinado de datos

Un buen almacenamiento de datos:

• Está diseñado para escalabilidad
• Tiene un modelo de datos bien descrito
• Centralizado, unificado y accesible
• Se construye con código automatizado y productivizado

Respeta las Formas Normales ([Link]

Data wrangling – Data warehousing

Formas Normales

Primera Forma Normal

En una tabla cada línea no puede ser dividido en partes más pequeñas

Ej: Una persona con 2 números de teléfono aparece 2 veces, con valores
distintos en la columna teléfono

Data wrangling – Data warehousing

Formas Normales

Segunda Forma Normal

• Respeta la Primera Forma Normal

• En una tabla, las columnas que no son clave primaria dependen de todos los componentes
que definen la clave primaria.

Ej: proveedor-id +parte-numero, son la clave primaria de esta tabla de stock. Pero ciudad sólo
depende de proveedor: si el proveedor cambiase de ciudad, impactaría en todas las líneas.

Proveedor-id ciudad Parte-numero cantidad

A22 New York 7647 5

B34 Boston 9263 10

Data wrangling – Data warehousing

Formas Normales

Tercera Forma Normal

• Respeta la Primera Forma Normal y Segunda Forma Normal

• En una tabla, las columnas que no son clave primaria dependen SOLO de
la clave primaria. Evita que actualizaciones de ciertas columnas
produzcan incoherencias.

Ej: Una tabla que tenga ciudades y códigos postales. Si hay que actualizar la
ciudad o el código postal, puede que se alcancen inconsistencias, si no se
actualizan a la vez: mejor dejar la variable de grano más fino (código postal)
o crear una clave (ciudad-cp).

Data wrangling – Data warehousing

Modelode datos

El modelo de datos relaciona datos indexados en orígenes distintos

Data wrangling – Data warehousing

Esquema
Esquema

Qué información necesitamos de cada caso

Listar los datos que necesita el análisis

Cada instancia para el análisis tendrá la misma información

Al unificar, es posible, que no tengamos la misma información de todos los casos

Esquema =Datos que hacen único una instancia +Información adicional

nombre, apellidos, edad, hermanos, tiene coche, provincia, trabaja

Data wrangling – Esquema

Esquema enestrella

Facts & Dimensions (Hechos y dimensiones)

• Tabla Facts: registra series de eventos de negocio (compras, transacciones, etc).

Son tablas largas, con referencias a tablas dimension.

• Tabla Dimension: guardan menos registros, pero con detalles más específicos.
Tablas de atributos. (modelo de coche, indica de personas, proveedores, productos)
Son tablas anchas, que dan soporte a las tablas Facts.

Data wrangling – Esquema

Formatear
Formatear

Interpretar correctamente los datos

Una variable puede ser interpretada de diversas formas, en función de:

• Significado
• Tipo dedato

Interpretar correctamente el tipo de dato es crucial

El formato debe encajar en todos los casos “conocidos”

Data wrangling – Formatear

Formatear

string
“101010” string
? “101 - 010”

101010

date time
10/10/10 [Link]

number
101010

Data wrangling – Formatear

Tratar nulos
Valores Nulos (missing data)

Valores faltantes

• Tienen diferentesorígenes
• Pueden estar distribuidos aleatoriamente, pero es peligroso asumirlo
• Pueden, en conjunto, esconder o representar anomalías en el sistema
• Si hay una variable objetivo, puede que parte del problema se esconda en que falten
datos de variables muy representativas (pe, variables indicadoras de fraude)

Data wrangling – Tratar nulos

Tratar outliers
Valores atípicos(outliers)

Fuera de lo común

Valores distantes del resto

Errores obvios

• Valores demasiado extremos, de manera que no son plausibles (1000 años)

• Valores que no tienen sentido (-10 años)

¿Descartamos oincluimos?

Data wrangling – Tratar outliers

Interpretando valores atípicos

Varias causas originales

• Medidas válidas
• Variabilidadde mediciones
• Errores experimentales
• Erroresdel sistema
• Códigos especiales con significado en el origen de los datos

Data wrangling – Tratar outliers

Agrupar
Agrupar

Resumir información en función de otras variables

Resumir una o varias variables, según el valor de otras variables,

Función de agregación, para los “subgrupos”

Es una forma de unificar variables numéricas con diferentes precisiones

Para variables numéricas, estadísticos básicos:

• Media, Moda, Mediana, Mínimo, Máximo, ...

Para variables categóricas:

• Valor más frecuente, Valor menos frecuente, ...

Data wrangling – Tratar outliers

Agrupar

Data wrangling – Tratar outliers

Organizar
country 1995 1996 1997 1998

Afghanistan 17586073 18415307 19021226 19496836

3 casos
Algeria 29315463 29845208 30345466 30820435
país
1995
Angola 12104952 12451945 12791388 13137542 1996
...

storm wind pressure date city size amount

Alberto 110 1007 2000-08-03 New York large 23

Alex 45 1009 1998-07-27 New York small 14

Allison 65 1005 1995-06-03

London large 22

Ana 40 1013 1997-06-30 London small 16

Arlene 50 1010 1999-06-11 nombre Beijing large 121

velocidad de viento ciudad
Arthur 45 1010 1996-06-17 presión Beijing small 56 tamaño
fecha cantidad

[Link]

Data wrangling – Organizar

Datos desordenados

Tablas con datos desordenados

Síntomas de que los datos están desordenados:

• Variables en filas y columnas
• Los nombres de las columnas representan valores, no nombres
• Información de una unidad observación en tablas diferentes
• Información en una tabla de diferentes unidades de observación
• Varias variables en una columna

Tenemos la información, pero no en la “unidad” que se necesita

Data wrangling – Organizar

Datos desordenados

Valoresen cabeceras Cabecerasen nombres

Nombres de columnas son valores Variables y valores en filas y columnas

(no nombres de variables)

Data wrangling – Organizar

Recoger

Data wrangling – Organizar

Dispersar

Data wrangling – Organizar

Cruzar
Cruzar datos

Reunir los datos en una tabla “maestra”

Tiempo
Logística Cuentas
Tabla
maestra
Pedidos CRM MultiChannel

Data wrangling – Cruzar

Cruzar información

id v1 v2
Enriquecer con información
1 10 15

2 11 16 Crear tabla, cruzando información de otras

id v1 v2 v3 v4

1 10 15 3 6
• Añadir información de una tabla a
2 11 16 4 7

id v3 v4 cada caso de otra

1 3 6 • Requiere al menos una columna en
2 4 7
común
• “join”, “merge”, ...

Data wrangling – Cruzar

Cruzar información

¿Tipos dejoin?

Data wrangling – Cruzar

Añadir casos

Añadir casos de diferentes orígenes

id v1 v2

1 10 15
id v1 v2 v3
Crear tabla, juntando información de otras
2 11 16
1 10 15

2 11 16 • Añadir casos de una tabla a los casos de otra

3 3 6
• Ambas tablas tienen la misma vigencia
id v3 v4 • Pueden NO tener las mismas columnas, pero
4 4 7
3 3 6
deben tener mismo tipo de dato

4 4 7
• Consolidar
• “concat”, “append”,...

Data wrangling – Cruzar

Registros repetidos
Registros repetidos

Problemática

El trabajar con registros repetidos va a perjudicar a los modelos, puesto que la misma información se
va a utilizar repetidas veces. Al hacerlo, se le estará dando un peso añadido a ciertos registros.

Detectar y eliminar registros repetidos puede resultar complicado, puesto que no siempre dos
registros, aunque repetidos, van a ser exactamente iguales.

Data wrangling – Registros repetidos

Registros repetidos

Data wrangling – Registros repetidos

Registros repetidos

Cómo detectarlos

Para determinar los registros a considerar como

duplicados, la técnica de comparación puede utilizar reglas
estrictas (que los registros sean exactamente iguales) o
usar lógica difusa/ fuzzy logic (comparaciones fuzzy que
incorporan algoritmosmatemáticos).

• Porcentaje de campos idénticos (>70%)

• n valores idénticos (>10)

Data wrangling – Registros repetidos

Registros repetidos

Cómo detectarlos

• n valores idénticos:

• Un campo contiene a otro:

• Errores de escritura:
número de caracteres
distintos (<3)

Data wrangling – Registros repetidos

También podría gustarte

Clase 15 - Data Wrangling I y Data Wrangling II
Aún no hay calificaciones
Clase 15 - Data Wrangling I y Data Wrangling II
121 páginas
Transformación de Datos en ELT
Aún no hay calificaciones
Transformación de Datos en ELT
10 páginas
Introducción al Data Wrangling
Aún no hay calificaciones
Introducción al Data Wrangling
6 páginas
Datos Ordenados: Limpieza Eficaz
Aún no hay calificaciones
Datos Ordenados: Limpieza Eficaz
23 páginas
Bases de Datos - Unidad 4 - 2020 - Parte I
Aún no hay calificaciones
Bases de Datos - Unidad 4 - 2020 - Parte I
43 páginas
Tidy Data
Aún no hay calificaciones
Tidy Data
16 páginas
Normalizacion Ok
Aún no hay calificaciones
Normalizacion Ok
21 páginas
Guía de Bases de Datos para Técnicos
Aún no hay calificaciones
Guía de Bases de Datos para Técnicos
26 páginas
Introducción al Data Wrangling
Aún no hay calificaciones
Introducción al Data Wrangling
19 páginas
Anomalias Codd
100% (1)
Anomalias Codd
4 páginas
Diferencia Entre El Modelo Entidad Relacion y Modelo Relacional
Aún no hay calificaciones
Diferencia Entre El Modelo Entidad Relacion y Modelo Relacional
4 páginas
Clase I - DW - Eseit
Aún no hay calificaciones
Clase I - DW - Eseit
20 páginas
Normalizacion de Bases de Datos
Aún no hay calificaciones
Normalizacion de Bases de Datos
12 páginas
Presentation Normalizacion
Aún no hay calificaciones
Presentation Normalizacion
15 páginas
Base de Datos - Colegio
Aún no hay calificaciones
Base de Datos - Colegio
5 páginas
S3.-Base de Datos
Aún no hay calificaciones
S3.-Base de Datos
50 páginas
Análisis Exploratorio de Datos
Aún no hay calificaciones
Análisis Exploratorio de Datos
26 páginas
Tarea 2.2
Aún no hay calificaciones
Tarea 2.2
4 páginas
Diferencia Entre El Modelo Entidad Relacion y Modelo Relacional
100% (1)
Diferencia Entre El Modelo Entidad Relacion y Modelo Relacional
4 páginas
Optimización de Datos en Data Science
Aún no hay calificaciones
Optimización de Datos en Data Science
9 páginas
Capitulo 6 (Normalización y Dependencias Funcionales) PDF
Aún no hay calificaciones
Capitulo 6 (Normalización y Dependencias Funcionales) PDF
23 páginas
Las Normalizaciones
Aún no hay calificaciones
Las Normalizaciones
7 páginas
Formas de Normalización
Aún no hay calificaciones
Formas de Normalización
13 páginas
Normalización
Aún no hay calificaciones
Normalización
6 páginas
Normalizacion
Aún no hay calificaciones
Normalizacion
12 páginas
Procesamiento y Análisis de Datos
Aún no hay calificaciones
Procesamiento y Análisis de Datos
47 páginas
Normalización en Bases de Datos
Aún no hay calificaciones
Normalización en Bases de Datos
9 páginas
Normalización
Aún no hay calificaciones
Normalización
14 páginas
Presentacion - Tipos de Datos - Tipos de Errores - 130825
Aún no hay calificaciones
Presentacion - Tipos de Datos - Tipos de Errores - 130825
30 páginas
Lectura 1 - Normalización
Aún no hay calificaciones
Lectura 1 - Normalización
12 páginas
Guía de Normalización de Bases de Datos
Aún no hay calificaciones
Guía de Normalización de Bases de Datos
4 páginas
Investigación Normalización
Aún no hay calificaciones
Investigación Normalización
9 páginas
05 - Normalizar
Aún no hay calificaciones
05 - Normalizar
18 páginas
Las Normalizacionesaa
Aún no hay calificaciones
Las Normalizacionesaa
7 páginas
Normalización y Dependencias Funcionales
Aún no hay calificaciones
Normalización y Dependencias Funcionales
33 páginas
Normalizacion de Base de Datos
Aún no hay calificaciones
Normalizacion de Base de Datos
64 páginas
Normalización de Bases de Datos en SQL
100% (1)
Normalización de Bases de Datos en SQL
19 páginas
Normalización
Aún no hay calificaciones
Normalización
7 páginas
Modulo III - Normalización y Tablas en BBDD
Aún no hay calificaciones
Modulo III - Normalización y Tablas en BBDD
60 páginas
Analisis Datos Preprocesamiento
Aún no hay calificaciones
Analisis Datos Preprocesamiento
79 páginas
Normalización
Aún no hay calificaciones
Normalización
7 páginas
Consulta Analítica de Datos
Aún no hay calificaciones
Consulta Analítica de Datos
10 páginas
Excel Intermedio Fundamentos para La Formulación Y El Análisis
Aún no hay calificaciones
Excel Intermedio Fundamentos para La Formulación Y El Análisis
17 páginas
Normalización de Bases de Datos
Aún no hay calificaciones
Normalización de Bases de Datos
8 páginas
Capacitacion Manejo de Datos en Excel Banpais
Aún no hay calificaciones
Capacitacion Manejo de Datos en Excel Banpais
20 páginas
Normalización
Aún no hay calificaciones
Normalización
14 páginas
Normalización de Bases de Datos Relacionales
Aún no hay calificaciones
Normalización de Bases de Datos Relacionales
25 páginas
Slides Curso de Excel Avanzado para Análisis de Datos
Aún no hay calificaciones
Slides Curso de Excel Avanzado para Análisis de Datos
50 páginas
Transformación de Llaves en Búsquedas
Aún no hay calificaciones
Transformación de Llaves en Búsquedas
34 páginas
Optimización de Bases de Datos: Normalización
Aún no hay calificaciones
Optimización de Bases de Datos: Normalización
76 páginas
Normalizacion
Aún no hay calificaciones
Normalizacion
9 páginas
14 Normalizacion-Teoria
Aún no hay calificaciones
14 Normalizacion-Teoria
8 páginas
Normalización
Aún no hay calificaciones
Normalización
21 páginas
Normalización 1FN, 2FN Y 3FN
Aún no hay calificaciones
Normalización 1FN, 2FN Y 3FN
10 páginas
Fundamentos de la Normalización en BD
Aún no hay calificaciones
Fundamentos de la Normalización en BD
13 páginas
Fundamentos Bases de Datos 3
Aún no hay calificaciones
Fundamentos Bases de Datos 3
16 páginas
Normalización de Bases de Datos: Guía Básica
Aún no hay calificaciones
Normalización de Bases de Datos: Guía Básica
7 páginas
Estandarización y Tablas en Excel
Aún no hay calificaciones
Estandarización y Tablas en Excel
14 páginas
Laboratorio 02 - Ingestas en HDFS y Ejercicios HIVE
Aún no hay calificaciones
Laboratorio 02 - Ingestas en HDFS y Ejercicios HIVE
29 páginas
Laboratorio 01 - Instalacion y Configuracion de Un Cluster Hadoop Con CDP
Aún no hay calificaciones
Laboratorio 01 - Instalacion y Configuracion de Un Cluster Hadoop Con CDP
25 páginas
Laboratorio 03 - Instalacion y Configuracion de Apache Kafka
Aún no hay calificaciones
Laboratorio 03 - Instalacion y Configuracion de Apache Kafka
8 páginas
Catálogo Octubre 2022 Del 16 Al 31 - KONBINI
Aún no hay calificaciones
Catálogo Octubre 2022 Del 16 Al 31 - KONBINI
22 páginas
Experiencia Financiera de Sebastián Bennett
Aún no hay calificaciones
Experiencia Financiera de Sebastián Bennett
1 página
Curriculum Profesional A4
Aún no hay calificaciones
Curriculum Profesional A4
1 página
Auditoría de Lead Magnet en 10 Puntos
Aún no hay calificaciones
Auditoría de Lead Magnet en 10 Puntos
1 página
Lotes en Urbanización Viñas del Sur
Aún no hay calificaciones
Lotes en Urbanización Viñas del Sur
9 páginas
Arquitectura Moderna12
Aún no hay calificaciones
Arquitectura Moderna12
39 páginas
Fundamentos Del Análisis de Sistemas
100% (1)
Fundamentos Del Análisis de Sistemas
20 páginas
Guía Completa de Diseño CAD y Tinkercad
Aún no hay calificaciones
Guía Completa de Diseño CAD y Tinkercad
12 páginas
Plan de Recuperación de Desastres IT
Aún no hay calificaciones
Plan de Recuperación de Desastres IT
7 páginas
Terminos Condiciones Cinepolis
Aún no hay calificaciones
Terminos Condiciones Cinepolis
13 páginas
Introduccion-a-Kali-Linux-y-Hydra 2024
Aún no hay calificaciones
Introduccion-a-Kali-Linux-y-Hydra 2024
10 páginas
Tarea Investigativa sobre Big Data
Aún no hay calificaciones
Tarea Investigativa sobre Big Data
5 páginas
Animacion de Grupos Sscb014po
Aún no hay calificaciones
Animacion de Grupos Sscb014po
4 páginas
Unidad II - Actividad I. Manejo de Word
Aún no hay calificaciones
Unidad II - Actividad I. Manejo de Word
4 páginas
Epanet y Epacad Final
Aún no hay calificaciones
Epanet y Epacad Final
46 páginas
Sistema Contable WEB
Aún no hay calificaciones
Sistema Contable WEB
130 páginas
La Diversidad Artística
Aún no hay calificaciones
La Diversidad Artística
12 páginas
Mc. Soporte Tope
Aún no hay calificaciones
Mc. Soporte Tope
6 páginas
Peb Gran Olivo
Aún no hay calificaciones
Peb Gran Olivo
18 páginas
Cuestionario Actividad DropBox 1
Aún no hay calificaciones
Cuestionario Actividad DropBox 1
3 páginas
Puzzle de Literatura para Estudiantes
Aún no hay calificaciones
Puzzle de Literatura para Estudiantes
1 página
Condiciones Planes Portabilidad TMK JULIO2020 V - 4
Aún no hay calificaciones
Condiciones Planes Portabilidad TMK JULIO2020 V - 4
4 páginas
El Desarrollo Humano
Aún no hay calificaciones
El Desarrollo Humano
13 páginas
Et221 3a Csy4132
Aún no hay calificaciones
Et221 3a Csy4132
5 páginas
Guía de Uso de Flipgrid
Aún no hay calificaciones
Guía de Uso de Flipgrid
8 páginas
Sergio Graciano Merino Contreras - Responsiva
Aún no hay calificaciones
Sergio Graciano Merino Contreras - Responsiva
1 página
Test de Percolación en Peaje Vesique
Aún no hay calificaciones
Test de Percolación en Peaje Vesique
3 páginas
Analista Funcional
Aún no hay calificaciones
Analista Funcional
12 páginas
FT 1336 Naya Peru Orden 3475
Aún no hay calificaciones
FT 1336 Naya Peru Orden 3475
1 página
CCNA1 Network Fundamentals V7: Módulo 2
Aún no hay calificaciones
CCNA1 Network Fundamentals V7: Módulo 2
24 páginas
Introduccion A La Seguridad Informática y El Análisis de Vulnerabilidades - 2
Aún no hay calificaciones
Introduccion A La Seguridad Informática y El Análisis de Vulnerabilidades - 2
15 páginas
Guía BIOS: Habilitar TPM y Secure Boot
Aún no hay calificaciones
Guía BIOS: Habilitar TPM y Secure Boot
2 páginas
Migración de Servidor de Correo On-Premise
Aún no hay calificaciones
Migración de Servidor de Correo On-Premise
14 páginas
Introducción: Código HTML Aplicando El Primer Estilo
Aún no hay calificaciones
Introducción: Código HTML Aplicando El Primer Estilo
10 páginas
Soluciones a Problemas Comunes de PC
Aún no hay calificaciones
Soluciones a Problemas Comunes de PC
3 páginas
Informe de Analisis de Factibilidad Empresa
Aún no hay calificaciones
Informe de Analisis de Factibilidad Empresa
6 páginas