Procesos ETL en Business Intelligence
Procesos ETL en Business Intelligence
Método extract, transform and load, ETL Las distintas fases o secuencias de un proceso
ETL son las siguientes:
Los procesos ETL son un término estándar Extracción de los datos desde uno o varios
que se utiliza para referirse al movimiento y sistemas fuente.
transformación de datos. Se trata del proceso Transformación de dichos datos, es decir,
que permite a las organizaciones mover datos posibilidad de reformatear y limpiar estos
desde múltiples fuentes, reformatearlos y datos cuando sea necesario.
cargarlos en otra base de datos (denominada
data mart o data warehouse) con el objeto de Carga de dichos datos en otro lugar o base de
analizarlos. También pueden ser enviados a datos, un data mart o un data warehouse, con
otro sistema operacional para apoyar un el objeto de analizarlos o apoyar un proceso
proceso de negocio. de negocio.
Sistemas legacy. Es decir, legados, heredados Proceso de Extracción con Software ETL
o antiguos.
La primera parte del proceso ETL consiste en
Sistemas nuevos. Basados en Windows, Linux extraer los datos desde los sistemas de
y también en las redes sociales modernas: origen. La mayoría de los proyectos de
Facebook, Twitter, Linkedin, etc. almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de
Los sistemas legacy o heredados se
origen. Cada sistema separado puede usar
caracterizan, generalmente, por: ser
una organización diferente de los datos o
cerrados, no permitir cambios y tener un
formatos distintos. Los formatos de las
difícil acceso (normalmente se necesita algún
fuentes normalmente se encuentran en bases
tipo de driver especial). Son sistemas que
de datos relacionales o ficheros planos, pero
procesan hacia dentro y, por lo tanto, no
pueden incluir bases de datos no relacionales
permiten la agregación de una computadora
u otras estructuras diferentes. La extracción
que trabaje en paralelo.
convierte los datos a un formato preparado
Por el contrario, los sistemas nuevos o para iniciar el proceso de transformación.
modernos (basados en Windows o Linux) son
Una parte intrínseca del proceso de
abiertos, amplios e interconectados. Un
extracción es la de analizar los datos
ejemplo lo constituiría una granja de
extraídos, de lo que resulta un chequeo que
servidores Linux, la cual permite la
verifica si los datos cumplen la pauta o
interconexión de los distintos nodos entre sí.
estructura que se esperaba. De no ser así los
datos son rechazados.
•Obtener nuevos valores calculados (por Existen dos formas básicas de desarrollar el
ejemplo, total_venta = cantidad * precio). proceso de carga:
definido en ésta (por ejemplo, valores únicos, actualizadas cada pocos minutos, mientras
integridad referencial, campos obligatorios, que otras pueden tardar días o semanas). En
rangos de valores). Estas restricciones y un sistema de ETL será necesario que se
triggers (si están bien definidos) contribuyen puedan detener ciertos datos hasta que todas
a que se garantice la calidad de los datos en el las fuentes estén sincronizadas. Del mismo
proceso ETL, y deben ser tenidos en cuenta. modo, cuando un almacén de datos tiene que
ser actualizado con los contenidos en un
sistema de origen, es necesario establecer
Procesamiento en Herramientas ETL puntos de sincronización y de actualización.
el análisis. Esto incluye la comprensión de los Sirve para integrar sistemas. Las
volúmenes de datos que tendrán que ser organizaciones crecen de forma orgánica y
procesados según los acuerdos de nivel de cada vez se van agregando más fuentes de
servicio (SLA: Service level agreement). El datos. Esto provoca que comience a surgir
tiempo disponible para realizar la extracción nuevas necesidades, como por ejemplo
de los sistemas de origen podría cambiar, lo integrar los datos de un banking on line con
que implicaría que la misma cantidad de datos los datos antiguos de un sistema legacy.
tendría que ser procesada en menos tiempo.
Poder tener una visión global de todos los
Algunos sistemas ETL son escalados para
datos consolidados en una data warehouse.
procesar varios terabytes de datos para
Por ejemplo, crear una estrategia de
actualizar un data warehouse que puede
marketing basándose en el análisis de los
contener decenas de terabytes de datos. El
datos anteriores.
aumento de los volúmenes de datos que
pueden requerir estos sistemas pueden hacer Proceso ETL: un sistema efectivo, pero con
que los lotes que se procesaban a diario pasen retos y cuestiones a resolver
a procesarse en micro-lotes (varios al día) o
incluso a la integración con colas de mensajes Como hemos visto, los procesos ETL son muy
o a la captura de datos modificados (CDC: útiles y beneficiosos para las organizaciones
change data capture) en tiempo real para una por su capacidad para integrar grandes bases
transformación y actualización continua. de datos, logrando así una visión única global
que permite, a los analistas y directivos,
tomar las decisiones estratégicas adecuadas.
Beneficios de los procesos ETL
Bibliografía.
http://www.powerdata.es/data-warehouse
http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/403694/BI-en-l-nea-el-
reto-actual-de-los-data-warehouses
https://revistadigital.inesem.es/informatica-
y-tics/guia-construir-datawarehouse/
https://www.fing.edu.uy/inco/grupos/csi/es
p/Publicaciones/2001/tr0118-vp.pdf
https://anibalgoicochea.com/perspectivas/b-
i/bi-dimensiones-y-metricas/
http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/lo-que-necesitas-saber-
acerca-de-la-arquitectura-de-un-
datawarehouse
http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/312584/procesos-etl-
definici-n-caracter-sticas-beneficios-y-retos
1 / 10
Historia de big data
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes
conjuntos de datos se remontan a las décadas de 1960 y 1970, cuando el mundo de los datos
acababa de empezar con los primeros centros de datos y el desarrollo de las bases de datos
relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban los
usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se desarrollaría
Hadoop, un marco de código abierto creado específicamente para almacenar y analizar grandes
conjuntos de datos. En esta época, también empezaría a adquirir popularidad NoSQL.
El desarrollo de marcos de código abierto, tales como Hadoop (y, más recientemente, Spark), sería
esencial para el crecimiento del big data, pues estos hacían que el big data fuera más fácil de usar y
más barato de almacenar. En los años transcurridos desde entonces, el volumen de big data se ha
disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los humanos
no son los únicos que lo hacen.
Con la llegada de la Internet de las cosas (IoT), hay un mayor número de objetos y dispositivos
conectados a Internet que generan datos sobre patrones de uso de los clientes y el rendimiento de los
productos. El surgimiento del aprendizaje autónomo ha producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad recién empieza. La computación en la nube ha
ampliado aún más las posibilidades del big data. La nube ofrece una escalabilidad realmente flexible,
donde los desarrolladores pueden simplemente agilizar clústeres ad hoc para probar un subconjunto
de datos.
2
Las "tres V" de big data
• La cantidad de datos importa. Con big data, tendrá que procesar grandes volúmenes de datos no
estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de
Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con sensores. Para algunas
organizaciones, esto puede suponer decenas de terabytes de datos. Para otras, incluso cientos de
Volumen petabytes.
• La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se utilizan. Por lo general, la
mayor velocidad de los datos se transmite directamente a la memoria, en vez de escribirse en un disco.
Algunos productos inteligentes habilitados para Internet funcionan en tiempo real o prácticamente en
Velocidad tiempo real y requieren una evaluación y actuación en tiempo real.
• La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos convencionales
eran estructurados y podían organizarse claramente en una base de datos relacional. Con el auge del big
data, los datos se presentan en nuevos tipos de datos no estructurados. Los tipos de datos no
Variedad estructurados y semiestructurados, como el texto, audio o video, requieren un preprocesamiento
adicional para poder obtener significado y habilitar los metadatos.
3
El valor y la veracidad de big data
En los últimos años, han surgido otras "dos V": valor y veracidad.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí
misma). Se trata de todo un proceso de descubrimiento que requiere que los analistas,
usuarios empresariales y ejecutivos se planteen las preguntas correctas, identifiquen
patrones, tomen decisiones informadas y predigan comportamientos.
4
Casos de uso de big data
Desarrollo de productos Empresas como Netflix y Procter & Gamble usan big data para prever
la demanda de los clientes. Construyen modelos predictivos para
nuevos productos y servicios, clasificando atributos clave de
productos anteriores y actuales, y modelando la relación entre
dichos atributos y el éxito comercial de las ofertas. Además, P&G
utiliza los datos y los análisis de grupos de interés, redes sociales,
mercados de prueba y avances de salida en tiendas para planificar,
producir y lanzar nuevos productos.
Mantenimiento predictivo Los factores capaces de predecir fallas mecánicas pueden estar
profundamente ocultos entre datos estructurados (año del equipo,
marca o modelo de una máquina) o entre datos no estructurados que
cubren millones de entradas de registros, datos de sensores,
mensajes de error y temperaturas de motor. Al analizar estos
indicadores de problemas potenciales antes de que estos se
produzcan, las organizaciones pueden implementar el
mantenimiento de una forma más rentable y optimizar el tiempo de
servicio de componentes y equipos.
Experiencia del cliente La carrera por los clientes ya partió. Disponer de una vista clara de la
experiencia del cliente es más posible que nunca. El big data le
permite recopilar datos de redes sociales, visitas a páginas web,
registros de llamadas y otras fuentes para mejorar la experiencia de
interacción, así como maximizar el valor ofrecido. Empiece a
preparar ofertas personalizadas, reducir las tasas de abandono de los
clientes y administrar las incidencias de manera proactiva.
5
Casos de uso de big data
Fraude y cumplimiento En lo que a seguridad se refiere, no se enfrenta a simples hackers
solitarios, sino a equipos completos de expertos. Los contextos de
seguridad y requisitos de conformidad están en constante evolución.
El big data le ayuda a identificar patrones en los datos que pueden
ser indicativos de fraude, al tiempo que concentra grandes
volúmenes de información para agilizar la generación de informes
normativos.
Aprendizaje autónomo El aprendizaje autónomo es un tema candente en la actualidad. Los
datos, concretamente big data, es uno de los motivos de que así sea.
Ahora, en lugar de programarse, las máquinas pueden aprender. Esto
es posible gracias a la disponibilidad de big data para crear modelos
de aprendizaje autónomo.
Eficiencia operativa Puede que la eficiencia operativa no sea la noticia más importante,
pero es el área en que big data tiene un mayor impacto. El big data le
permite analizar y evaluar la producción, la opinión de los clientes,
las devoluciones y otros factores para reducir las situaciones de falta
de stock y prever la demanda futura. El big data también puede
utilizarse para mejorar la toma de decisiones en función de la
demanda de mercado del momento.
Impulse la innovación Big data puede ayudarle a innovar mediante el estudio de las
interdependencias entre seres humanos, instituciones, entidades y
procesos, y, posteriormente, mediante la determinación de nuevas
maneras de usar dicha información. Utilice las perspectivas que le
ofrecen los datos para mejorar sus decisiones financieras y
consideraciones de planificación. Estudie las tendencias y lo que
desean los clientes para ofrecer nuevos productos y servicios.
Implemente políticas de precios dinámicas. Las posibilidades son
infinitas.
6
Desafíos de big data
Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han
desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos
duplica su tamaño cada dos años aproximadamente.
Las organizaciones continúan esforzándose por mantener el ritmo de crecimiento de sus
datos y por encontrar formas de almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder
utilizarse, y esto depende de su conservación. Disponer de datos limpios es decir, datos
relevantes para el cliente y organizados de tal modo que permitan un análisis significativo
requiere una gran cantidad de trabajo.
Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache
Hadoop era la tecnología más conocida utilizada para administrar big data. Más tarde, en
2014, entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una
combinación de ambos marcos. Mantenerse al día en cuanto a tecnología de big data
supone un desafío constante.
7
Prácticas recomendadas de big data
8
Mitigue la escasez de
habilidades con Uno de los mayores obstáculos para beneficiarse de su inversión en big data
estándares y gobierno es la escasez de habilidades. Puede mitigar el riesgo asegurándose de
incorporar a su programa de gobierno de TI tecnologías, consideraciones y
decisiones relativas a big data. Normalizar su enfoque le permitirá administrar
los costos y aprovechar los recursos. Las organizaciones que implementen
soluciones y estrategias de big data deben evaluar sus necesidades de
habilidades de forma temprana y frecuente, e identificar de manera proactiva
las posibles carencias de habilidades. Esto puede lograrse mediante la
capacitación regular o cruzada entre los recursos existentes, la contratación de
nuevos recursos y el uso de empresas de consultoría.
9
La principal ventaja Analizar el big data de forma aislada sin duda aporta valor. Sin embargo,
reside en alinear los puede obtener una perspectiva empresarial aún más valiosa relacionando e
datos estructurados y no integrando el big data de baja densidad con los datos estructurados que ya usa
estructurados actualmente.
10
Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser
tanto humanos como automáticos. Las capacidades de análisis de big data
incluyen estadísticas, análisis especiales, semántica, detección interactiva y
visualización. Mediante el uso de modelos analíticos, puede relacionar
distintos tipos y fuentes de datos para realizar asociaciones y hallazgos
significativos.
Planificar el laboratorio El concepto "hallazgo" implica que los datos no siempre se obtienen
de hallazgos en pro del directamente. En ocasiones, ni siquiera sabemos qué estamos buscando. Eso
rendimiento es de esperar. La dirección y los equipos de TI deben respaldar esta "falta de
dirección" o "falta de claridad en los requisitos".
11
Alineación con el Los usuarios y procesos de big data requieren acceso a una amplia variedad de
modelo operativo en la recursos de experimentación reiterativa y ejecución de tareas de producción.
nube Una solución de big data incluye todos los ámbitos de los datos, incluidas
transacciones, datos principales, datos de referencia y datos resumidos. Los
entornos de pruebas (sandbox) analíticos deben crearse a pedido. La
administración de recursos es fundamental para garantizar el control de todo
el flujo de datos, incluido el procesamiento previo y posterior, la integración,
el resumen dentro de la base de datos y la creación de modelos analíticos.
Disponer de una estrategia bien definida de aprovisionamiento y seguridad
en la nube pública y privada es fundamental para respaldar estos requisitos
cambiantes.
12
Ventajas de big data y del análisis de
datos:
13
Bibliografía
Oracle. (1 de 1 de 2020). Oracle. Obtenido de ¿Qué es big data?: https://www.oracle.com/mx/big-
data/what-is-big-data.html
14
BUSINESS INTELLIGENCE (BI)
se muestra que sorpresivamente, los tres de los datos empresariales, incluso llegando al
mejores dispositivos han tenido malos nivel de transacción.
resultados en ventas.
El comprador en las oficinas corporativas
2. Análisis de cubos accede al análisis de cubo que le envió el
El análisis de cubos es el estilo de BI ideal para gerente de tienda, pero no puede determinar lo
el análisis básico y predefinido. Como que sucede basado únicamente en las
ejemplo, el análisis de ventas por región comparaciones predefinidas. El comprador
durante ciertos periodos de tiempo, y el necesita probar muchas más áreas de la base
análisis de ventas por producto y vendedor, de datos para determinar lo que pasa, y utiliza
podrían ser útiles para aquellos gerentes que “Análisis y consultas Ad Hoc” para lograrlo.
buscan detalles fundamentales en su
desempeño. Así que ejecuta un reporte parametrizado,
donde en base a contestar algunas preguntas,
Regresando a nuestro escenario, el gerente de define qué información quiere incluir en el
la tienda explora más a detalle el asunto, reporte. Así genera un reporte con información
ejecutando uno de los varios cubos de análisis de inventario de los productos
que han sido pre-construidos para los gerentes correspondientes, en los últimos dos meses.
de tienda. Los cubos de análisis proporcionan Nota que ha habido un flujo constante de
un ambiente sencillo y seguro que permite a embarques de las bodegas hacia las tiendas,
los usuarios principiantes de BI conducirse pero que las bodegas han dejado de ser
fácilmente para tratar de descubrir la raíz del reabastecidas, lo que ha causado un
problema en cuestión. El análisis de este agotamiento de su inventario. Concluye que el
gerente en particular, permite comparar los problema debe residir en algún punto anterior
resultados de venta de su tienda contra los en la cadena de abastecimiento. Desde el
resultados de venta en otras tiendas como la reporte de almacén, navega hacia un reporte de
suya, así como contra años anteriores. embarque que indica que todos los embarques
navales desde Taiwán han sido demorados,
Después de alternar entre varias vistas de afectando los productos en cuestión, y otros
análisis de información, muchas cosas quedan más. Es de esperarse entonces, que estos otros
evidenciadas. La primera es que la mayoría de productos también experimentarán una caída
las tiendas parecen estar experimentando esta en sus ventas. Informa al vicepresidente de
misma caída repentina en sus ventas. La ventas y a los gerentes de tienda sobre el
segunda es que esta tendencia evitará que logre resultado de su análisis, y manda la
sus metas de ventas para esta categoría de información al departamento de marketing,
producto. Y la tercera, que esta baja no es para que determinen el impacto de las demoras
consistente con sus patrones de venta de embarque en los ingresos y utilidades de la
estacionales de los últimos dos años para esta compañía para el trimestre.
clase de producto. Concluye que existe un
problema grave, pero que no es exclusivo de 4. Análisis estadístico y minería de datos Esto
su tienda, así que envía una liga de este análisis se utiliza para descubrir relaciones sutiles (ej.
de cubos a un comprador de las oficinas la elasticidad-precio), y/o generar
corporativas, de tal forma que este comprador proyecciones (ej. tendencias de ventas),
pueda ver exactamente lo mismo y profundizar apoyándose en la teoría de conjuntos,
en el asunto. tratamiento estadístico y otras funciones
matemáticas avanzadas.
3. Análisis y consultas Ad Hoc Este estilo
habilita un verdadero análisis de investigación Un analista en el departamento de marketing
construye un modelo de los ingresos y