0% encontró este documento útil (0 votos)

152 vistas67 páginas

Conceptos Clave de Big Data y Analítica

Este documento presenta conceptos fundamentales de analítica de datos y Big Data. Explica que Big Data se refiere al análisis, procesamiento y almacenamiento de grandes conjuntos de datos que a menudo provienen de múltiples fuentes. También define términos clave como conjunto de datos, análisis de datos, analítica, inteligencia de negocios, indicadores clave de desempeño y conductores de negocio. Finalmente, ofrece ejemplos de cómo se pueden representar los datos e insights obtenidos del análisis a

Cargado por

Marcos Varela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

152 vistas67 páginas

Conceptos Clave de Big Data y Analítica

Cargado por

Marcos Varela

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Conceptos de Analítica de Datos y Big Data

Módulo 2: Conceptos de Big Data

Prof. Alejandro Bianchi

ATAM Evaluator Certificate
Software Architecture Professional Certificate
Software Engineering Institute, CMU University

1
AGENDA DE LA JORNADA

• Conceptos generales de Big Data y relación con el negocio

• Tecnologías relacionadas con Big Data

• Conceptos de Arquitecturas de Software orientados a Big Data

• Intercambio
.

2
3
Contexto de la clase
• Disponibilidad de distintas fuentes de datos, en formatos
heterogéneos

• Aplicaciones que procesan estos datos para obtener

información

• Relacionado con la satisfacción

de objetivos de negocio

• Necesidades de infraestructura

• Atributos de calidad DECISIONES

TÉCNICAS
• Requiere una arquitectura subyacente, que no proviene Y DE NEGOCIO
de un diseño ”emergente” sino que (más y más) debe ser
planificada y evaluada previo a su construcción

4
Relación con Sistemas Inteligentes
• Sistemas conducidos por datos
 Incorporar “inteligencia” en
procesos de operación/negocio Inteligencia Artificial

Minería de
 Diferenciación en términos de valor Datos ML
agregado Ciencia de
Datos
 Personalización de capacidades y
funciones del sistema
Big Data
 Soporte a la toma de decisiones Arquitecturas
de Software

 Foco en experiencias de usuario

“inteligentes”
5
El Diseño de Software (para Big Data)

• Planificar antes de construir

• Facilitar la comunicación con múltiples stakeholders
• Proveer con un modelo de análisis “manejable” para sistemas complejos
• Brindar prescripciones para la implementación del sistema
• La arquitectura es un artefacto, pero también parte del proceso de desarrollo (architecting)
6
Elementos “arquitecturales” de Big Data
• Escalabilidad, tolerancia a fallas
• Fuentes de datos
• Ingreso de mensajes real-time
• Analítica de datos
• Análisis y reportes
• Almacenamientos de datos
• Procesamiento batch
• Procesamiento streaming
• Arquitecturas de referencia (Lambda, Kappa, etc.)
• Pipelines
• Orquestación
7
Conceptos de Big Data
INTRODUCCIÓN

8
Una definición de Big Data
• Es el campo dedicado al análisis, procesamiento y almacenamiento de grandes
conjuntos de datos, que frecuentemente se originan en distintas fuentes.

• Las soluciones y prácticas de Big Data son necesarias cuando las técnicas y
tecnologías tradicionales para análisis, procesamiento y almacenamiento no son
suficientes

• Los requerimientos típicos para Big Data incluyen:

• Combinación de distintos conjuntos de datos con distinta estructura
• Procesamiento en lotes o tiempo real de grandes volúmenes de datos
• Identificación de patrones “ocultos” en los datos (data mining, ML)
• Toma de decisiones basadas en datos
• Integración de las características anteriores en sistemas “tradicionales”

9
¿De dónde provienen los datos?
• Generados por humanos
• Son el resultado de una interacción humana
con sistemas de SW
• Por ej., servicios online y digitales tales como
redes sociales, e-mails, mensajería, etc.

• Generados por computadoras/dispositivos

• Son el resultado de eventos generados por
programas (SW) o dispositivos (HW)
• Por ej., Web logs, datos de sensores,
telemetría, información de uso de
dispositivos, etc.

10
Terminología básica de Datos
• Conjunto de datos
• Análisis de datos
• Analítica
• Inteligencia de negocios (BI)
• Indicadores claves de desempeño (KPIs)
• Conductores de negocio (drivers)
• Cloud Computing

11
Conjunto de Datos
• Son colecciones o grupos de datos relacionados
• Todas las instancias comparten el mismo conjunto de atributos (esquema)

• Algunos ejemplos incluyen:

• Tweets almacenados en un archivo plano
• Una colección de archivos de imágenes
• Un extracto de columnas de una tabla (SQL)
• Un conjunto de observaciones meteorológicas
almacenadas como archivos XML
1

12
Análisis de Datos
• Es el proceso de examinar datos para encontrar hechos, relaciones, patrones,
insights, o tendencias. El objetivo normalmente es dar soporte a la toma de
decisiones
• Un ejemplo simple puede ser el análisis de históricos de ventas en relación a ciertos
períodos de tiempo, estacionalidad, condiciones climáticas, etc.

• El análisis de datosde
Casos ayuda a establecer
uso en general. patrones y relaciones entre los datos
Ejemplo: Recolección de MAC addresses (datos
semi-estructurados)
Usos
de dispositivos móviles, para
Existen incontables casos de uso que se puede ir

construir tableros en casos de uso relacionados con COVID-19

complementando con el crecimiento de las fuentes de
información.

Seguridad, Hábitat, Turismo, Población, Emergencias, Salud,

Cultura, etc.

Presentación
Es posible también representar la información, casi de
cualquier forma que sea requerida, gráficos interactivos, en
tiempo real, completamente dinámicos. Este tipo de
soluciones son practicas a la hora de armar estrategias para 13
dispersión de aglomeraciones, manejo de emergencias
Analítica (de datos)
• Es la disciplina que busca lograr un entendimiento de los datos mediante técnicas científicas de
análisis y herramientas automatizadas, donde el foco está en identificar patrones y correlaciones
• En ambientes de Big Data, la analítica se realiza utilizando tecnologías y frameworks distribuidos para
analizar grandes volúmenes de datos y con diferentes formatos

• A menudo se utilizan conjuntos de datos “crudos” y no estructurados, a fin de obtener información

“útil” que puede servir para:
• Identificar patrones
• Enriquecer bases de datos empresariales existentes
• Realizar búsquedas a gran escala
• Y en última instancia tomar decisiones en base a datos
Ejemplo: Patrones de movimiento contagio,
”cercas” electrónicas, niveles de cumplimiento
de cuarentena, etc.

14
Inteligencia de Negocios (BI)
• Es el proceso de extraer insights sobre el funcionamiento de una empresa con el fin
de mejorar la toma de decisiones en la misma, analizando fuentes de datos
externas y datos generados por los procesos de negocio

• La inteligencia de negocios aplica analítica sobre grandes conjuntos

de datos que abarcan la empresa

• También puede utilizar

los datos consolidados
en un data warehouse
8c
para ejecutar consultas
de analítica (por ej.,
para construir tableros)
15
Indicadores claves de desempeño (KPIs)
• Un KPI es una métrica para determinar “éxito” en un contexto particular

• Los KPIs están estrechamente vinculados a los objetivos de negocio (o misión) de una
empresa, y a menudo se usan para:
• Identificar áreas problemáticas, a fin de tomar acciones correctivas
• Adherir a normativas o regulaciones

• Los KPIs actúan como “puntos de referencia” para medir

el desempeño del negocio desde distintas perspectivas
8d
• Cada KPI se basa en la identificación de un indicador
cuantificable y consensuado por los stakeholders
• Por ej., número de llamadas atendidas por día

16
Ejemplo:
Tableros

17
Ejemplo:
Call Center Monitoring - 5 Second Auto Refresh

Resolution Status Summary Average Duration (sec) Average Wait Time (sec)

Tableros 2,032 0 10 ● 06m 09s 01m 55s

Calls Handled Calls in Queue Queue Threshold All day average All day average
Click toset
Clik to set

Real Time Agent Status

Automatically refreshing agent sit chart. Green agents are in conversation. Size illustrate

Top 10 Longest Avg Duration Top 10 by Transferred Calls

Top 5 By Calls Handled Top 5 by Shortest Duration

18
Drivers de Negocio y Tecnología (Big Data)
• Big Data emerge como una combinación de
necesidades de negocio e innovaciones tecnológicas Los conceptos de objetivos de
negocio y drivers se relacionan
• Los principales conductores (drivers) incluyen: también con atributos de calidad
• Analítica y ciencia de datos en arquitecturas de software
• Digitalización
• Tecnologías accesibles y hardware de bajo costo
• Medios sociales
• Hiper-conectividad de comunidades y dispositivos

15x

19
(Big) Data Analytics
El diseño de arquitectura es
relativamente trivial
Las principales decisiones
tienen que ver con:
- Usar una arquitectura de
referencia (por ej., 3 tier)
- Diseño tradicional de BD
relacional
- Patrones para estilo cliente-
servidor

“Agile Big Data Analytics for Web-Based Systems:

An Architecture-Centric Approach”
H-M. Chen, R. Kazman, S. Haziyev (2016)

20
El valor del Análisis de datos
VALOR PARA EL NEGOCIO

DESCRIPTIVO PREDICTIVO PRESCRIPTIVO

QUE PASO? QUE PUEDE PASAR? QUE DEBE PASAR?

Es un tipo de análisis predictivo

El caso más simple de análisis. Consiste en la utilización de una
que no solo predice lo que puede
Consiste en sumarizar los datos y variedad de técnicas estadísticas y
pasar sino además cuando y
DESCRIPCION derivar información de machine learning para generar
porqué. Puede sugerir el mejor
diagnóstico para describir y predicciones: “múltiples futuros”
curso de acción a seguir en
explicar lo sucedido. probables.
función de una predicción.

Business Intelligence, Reportes, Machine Learning, técnicas Motores de Reglas, Bases de

TECNICAS Y
HERRAMIENTAS
Dashboards. estadísticas, modelos predictivos, datos deductivas, optimización.
Query, Drill-around. simulación, alertas, forecasts. Close-loop action feedback.

Métricas de reclamos, Adaptación del proceso y equipos

EJEMPLO distribución de esfuerzos por Análisis estadístico de procesos al producto; estímulos para el
ventas y/o atención. éxito.

21
Características de los Datos
• Son los que normalmente diferencian una aplicación o solución Big Data

18a

22
Volumen
• Se relaciona con la capacidad de generar datos

• Ejemplos típicos de fuentes generadoras de datos incluyen:

• Transacciones online
• Datos científicos (por ej., el Large Hadron Collider, un telescopio gigante)
• Sensores (por ej., RFIDs, GPS)
• Redes sociales
• Grandes volúmenes de documentos

• ¿Cuando un cierto volumen se vuelve “big data”?

23
Velocidad
• Tiene que ver con la velocidad a la que se ingresan los datos al sistema

• Los datos pueden ingresar a “diferentes velocidades”, por ejemplo:

• Tweets
• Emails
• Videos subidos a Internet
• Datos recibidos de sensores

• El sistema generalmente debe ser capaz de capturar los datos recibidos

24
Variedad
• Se refiere a los múltiple formatos y tipos de datos que el sistema debe soportar

• Las categorías incluyen:

• Datos estructurados (por ej., tablas SQL)
• Semi-estructurados (por ej., archivos JSON)
• Datos no estructurados (por ej., imágenes)

• La variedad de los datos trae aparejados desafíos relacionados con:

• Integración de datos
• Transformación de datos
• Procesamiento de datos
• Almacenamiento de datos

25
Veracidad
• Se refiere a la calidad o fidelidad de los datos

• Algunos datos puede tener un significado o estar “limpios”, mientras que otros datos
pueden tener “ruido” y no agregar valor
• Relación señal/ruido

• Los datos que se adquieren de manera controlada (por ej., transacciones de clientes)
suelen contener menos ruido que los datos que se adquieren de fuentes “no
controladas” (por ej. blogs)

• El grado de ruido de un conjunto de datos depende del tipo de datos

26
Valor
• Se define en términos de la utilidad de los datos para la empresa

• Esta característica se relaciona directamente con la veracidad, ya que una alta fidelidad en los
datos implica generalmente mayor valor para el negocio

• El valor es dependiente de cuanto tiempo lleva procesar los datos, ya que valor y tiempo se
consideran
inversamente
proporcionales
• Cuanto más tiempo
lleve extraer información
útil de los datos, menor
será el valor para el 18h 18i
negocio, ya que se afecta
la capacidad para tomar
“buenas” decisiones

27
Tipos de Datos
• De acuerdo a la organización interna de los datos, se dividen en las siguientes
categorías
• estructurados
• no estructurados
• semi-estructurados

• Y también meta-datos
(que no se considera técnicamente un tipo de datos,
pero que está relacionado a la estructura de los datos)

• Los datos no estructurados pueden constituir hasta el 80%

de los datos de una empresa, y tiene un ritmo mayor de
crecimiento que los datos estructurados

28
Datos estructurados
• Sus características son:
• Adhieren a un modelo de datos o esquema
• Se almacenan en forma de tabla
• Pueden ser relacionales

• Los datos estructurados generalmente se almacenan

en bases de datos relacionales, y se generan por
aplicaciones de la empresa
• Por ej., sistemas de tipo ERP, CRM, a algún otro tipo de sistema core

• No suelen tener ningún requerimiento especial respecto a pre-

procesamiento y almacenamiento

29
Datos no estructurados
• Son características son:
• No adhieren a un modelo de datos o esquema
• Pueden tolerar inconsistencia
• Son no relacionales

• Los datos no estructurados existen en formato textual o binario

• Por ej., imágenes, video, audio
• Técnicamente, estos archivos tiene una estructura definida
por el mismo formato de archivo

• Suelen tener requerimientos especiales o lógica especial

para el procesamiento y el almacenamiento
• No son tratables con mecanismos SQL

30
Datos semi-estructurados
• Son características se refieren a:
• Nivel de estructura y consistencia (aunque no llega a ser relacional)
• Por ej., formatos XML, JSON
• Suelen ser más fácilmente procesables que los datos no
estructurados

• Pueden tener requerimientos especiales de almacenamiento

y procesamiento

31
Meta-datos
• Provee información sobre las características y la estructura del conjunto de datos
• Este tipo de datos generalmente lo genera la misma computadora o algoritmo y lo
adjunta a los datos

• En Big Data los meta-datos son importantes para procesar, almacenar y analizar los
conjuntos de datos. También sirven para determinar provenance

• Ejemplos incluyen:
• Tags XMLs
• Tamaño y resolución, en imágenes

32
Importancia de la Metadata
• Básicamente la implantación de Big Data debe:

• Ofrecer una buena visibilidad de los datos en todo la estructura de

clusters
• Capturar y visibilizar el “linaje” de los datos a través de los sistemas
de origen y en la plataforma
• Las operaciones de auditoría y registro que se realizan en la
plataforma
• Aplicar las directivas definidas por los administradores de la
plataforma
• Ayuda a reducir la redundancia de datos en la plataforma
• Proveer información complementaria que genere confianza en los
usuarios de la plataforma.

33
Niveles de Metadata
• Metadata del negocio empresariales
• Suministra el contexto empresarial en torno a los datos, como el nombre, la
definición, los propietarios o los administradores, y los datos de referencia
asociados

• Metadata técnica
• Proporciona información técnica sobre los datos, como el nombre de la tabla de
origen, el nombre de columna de la tabla de origen y el tipo de datos y sus reglas

• Metadata Operacional
• Proporciona información sobre el uso de los datos, como la fecha de última
actualización, el número de veces que se accedió o la fecha en que se accedió
por última vez. También provee información sobre los procedimientos de
ejecución y análisis.

34
Tipos de datos y Veracidad
• Los datos semi-estructurados y no estructurados tiene una mayor relación señal-
ruido que los datos estructurados

• Esto hace que a menudo requieran un

mayor esfuerzo de limpieza
y verificación de los datos,
al realizar por ejemplo
procesos ETL (extract-transform-load)

35
Tecnologías relacionadas con Big Data
• Las siguientes son tecnologías que hace tiempo están disponibles en el
mercado y que al mismo tiempo son relevantes para soluciones y
ecosistemas de Big Data:

• Online Transaction Processing (OLTP)

• Online Analytical Processing (OLAP)
• Extract Transform Load (ETL)
• Data Warehouse
• Data Marts
• Hadoop

36
Tecnologías relacionadas con Big Data
• OLTP son sistemas de software que procesan datos orientados a
transacciones

• El procesamiento es en tiempo real, (near real time)

• Los datos procesados por este tipo de aplicaciones están totalmente

normalizados.

• Para Big Data esas aplicaciones representan un input de datos

estructurados

• Ejemplos:
• Sistemas bancarios
• Reserva de pasajes
• Transacciones POS

37
Tecnologías relacionadas con Big Data
• OLAP es una aplicación utilizada para procesar análisis de datos a partir de
queries

• Es un elemento esencial para procesos de BI, Data mining y de máquinas de

aprendizaje

• Este tipo de aplicaciones son importantes para Big Data porque pueden
servir como fuentes de datos y también receptores de los mismos

38
Tecnologías relacionadas con Big Data
• OLAPs son utilizadas para diagnóstico, analytics predictivo y prescriptivo

• Almacenan datos históricos y que están desnormalizados para mejorar

performance al momento de armar reportes y consultas

• Pueden responder consultas complejas basadas en múltiples dimensiones

de los datos.

39
Tecnologías relacionadas con Big Data –OLTP vs. OLAP
Características OLTP OLAP
Fuente de Datos Datos originales de la operación Se reciben de las apps OLTP

Propósito de los datos Procesos del negocio Planificación, toma de decisión

Cantidad de datos por transacción Pocos Grandes volúmenes

Tipo de datos Detallados Sumarizados

Tiempo de los datos Tiempo real Tiempo real e históricos

Diseño de la base de datos Normalizados – muchas tablas Des normalizados, pocas tablas

Número de Muchas, centenas a miles por día Pocas, decenas

transacciones/usuarios
Tiempo de respuesta Rápido, baja latencia No es un atributo crítico

Queries Estándar, simples Complejos, Grandes agregaciones

Operaciones Agregar, modificar, eliminar, leer Leer

Tipo de procesamiento Bien definido Ad - hoc

40
Tecnologías relacionadas con Big Data
• Una ETL es una herramienta, (y/o un proceso), que toma datos desde una fuente bien
identificada y los carga en un sistema destino

• La fuente de datos puede ser una base de datos, un archivo plano o una aplicación

• El sistema destino puede ser una base de datos o algún otro tipo de sistema de
información

• Una ETL es la operación básica a través de la cual un Data Warehouse obtiene sus
datos. Una aplicación de Big Data utiliza ETLs para convertir datos de diferentes tipos,
(no es la única)

41
Tecnologías relacionadas con Big Data
Base de datos relacionales Data Warehouse
Diseño ETL: Proceso

identificar y
Sistema 1 Mapear fuente

Datos desde diferentes fuentes

Data Mart 1
y destino

Sistema 2 Extracción

Proceso para ETL

Limpieza Data Mart 2

Sistema n Perfilar
Transformación
Data Mart n
Excel Agregación
PDF
TXT, XML Filtrado

Join
Otras fuentes
ERP Ordenamiento
CRM
Carga
SCM Creación de
workflows para carga

42
Tecnologías relacionadas con Big Data
• Un Data Warehouse es un repositorio central, focalizado en la empresa en toda su amplitud
que consiste de información vigente e histórica. Este repositorio es utilizado para resolver
consultas a través de BI.

• Tiene una fuerte interacción con OLAP para resolver queries de analytics

• También suele tomar datos desde otras fuentes, (CRM, SCM, ERP, OLTP), para consolidación
en un único dataset.

• Los Data Marts son un subconjunto de los datos almacenados en un DW que, típicamente,
responden a un departamento, división o línea particular del negocio

• Un DW puede tener varios Data Marts

43
Tecnologías relacionadas con Big Data

Tomado Big Data Fundamentals, Tomas Erl 44

Tecnologías para Big Data
• Modelo relacional y la reglas ACID:
• Atomic
• Consistent
• Isolated
• Durable

• Sistemas distribuidos y sus atributos:

• Escalabilidad
• Recursos compartidos
• Flexibilidad
• Velocidad
• Performance
• Sistema abierto

45
Tecnologías para Big Data: Bases de datos NoSQL
• Creados para soportar las nuevas necesidades de
almacenamiento, procesamiento y recuperación

• Los modelos de base de datos NoSQL

• Clave valor
• Basadas en documentos
• Orientados a columnas
• Basadas en grafos
Each record: UserID1, UserID2
Separate records: UserID, first_name,last_name, age, gender,...
Task: Find all friends of friends of friends of ... friends of a given
user.

Large collection of documents

Combination of structured and unstructured data
Task: Retrieve all pages regarding athletics of Summer Olympic before
1950.

46
Tecnologías para Big Data: Teorema de CAP

• Consistencia
• Cada lectura recibe la más reciente
actualización o un error

• Disponibilidad
• Cada requerimiento recibe una respuesta, (no
error), sin garantizar la última actualización

• Particionado
• El sistema continúa funcionando a pesar de un
número arbitrario de mensajes que son
descartados (o retrasados por los nodos de la
red)

47
Tecnologías para Big Data: Teorema de CAP

• No es posible proveer los 3

atributos

• Combinaciones posibles:
• CA
• CP
• AP

http://www.w3resource.com/mongodb/nosql.php
Tecnologías para Big Data: Hadoop
• Hadoop es un framework open source creado para almacenar y procesar grandes volúmenes de
datos que puede ser ejecutado en hardware no demasiado sofisticado, (hardware comodity).

• Hadoop se ha convertido en un estándar de facto para el desarrollo de soluciones de Big Data

• Puede ser utilizado como un motor de ETLs o como un motor de analytics para procesar
grandes volúmenes de datos estructurados, semi estructurados o no estructurados.

• Hadoop es una arquitectura distribuida

• Esta escrito en JAVA

Tecnologías para Big Data: Hadoop
Big Data y Metadata
• Metadata provee información acerca de las características y estructura de un Dataset. Este
tipo de información es generada en forma automática y “pegada” a los datos. Disponer de
meta data es crucial para almacenamiento y análisis de Big Data

• Por ejemplo:
• Tags XML proveen información del autor y fecha de creación de un documento
• Atributos que proveen el tamaño del archivo o resolución de una fotografía digital

• Las soluciones de Big Data deben confiar

en la metadata cuando procesan
datos no estructurados o semi estructurados
BI y Big Data
• El BI tradicional utiliza analytics descriptivo/diagnóstico para proveer información sobre
eventos presentes o históricos

• El BI tradicional no es “inteligente”, dado que solo provee respuestas a preguntas bien

formuladas

• Y las preguntas bien formuladas requieren una clara comprensión de los problemas del
negocio y no de los datos en si mismo.

• BI reporta en base a KPI:

• Reportes ad hoc
• Tableros de comando.
BI y Big Data

• BI Tradicional utiliza
DW y Data Marts para
reportes y análisis de
datos

Tomado Big Data Fundamentals, Tomas Erl

BI y Big Data
• Big Data BI elabora, sobre el BI tradicional y el DW consolidado y depurado, una integración de
este último con los datos semi estructurado y no estructurados provenientes de otras fuentes.

• Big Data BI conjuga ambos analytics: predictivo y prescriptivo para facilitar una visión
integradora para poder entender cómo esta operando el negocio

• Mientas que el BI tradicional se focaliza en un proceso de negocios en particular, Big Data BI

pone foco en múltiples procesos de negocios de manera simultanea.

• Esto permite la identificación de patrones y/o anomalías en un conjunto bien concreto de

procesos del negocio, facilitando la obtención de información que en otros contextos podría
estar ausente o desconocida
BI y Big Data
• Big Data BI requiere una nueva generación de DW que incorpore nuevas facilidades y
tecnologías para almacenar datos provenientes de diferentes fuentes en un formato
uniforme y depurado.

• La resultante de esta nueva generación son DW híbridos, los cuales actúan como un
repositorio uniforme y central de todos los tipos de datos que fluyen en la organización.
Este repositorio está disponible para ser explotado por herramientas de BI.

• Esta nueva tecnología evita que las herramientas de Big Data BI deban acceder a múltiples
fuentes de información para recibir y/o acceder a datos.
BI y Big Data

Tomado Big Data Fundamentals, Tomas Erl

Sintetizando…
RESULTADOS DE ACCIONES

ANALISIS TOMA DE EJECUTAR

DECISIONES ACCIONES

INTERVENCION
DESCRIPTIVO HUMANA
EJECUCION MANUAL

BIG
DATA PREDICTIVO INTERVENCION HUMANA EJECUCION MANUAL

SOPORTE A LAS DECISIONES EJECUCION MANUAL

PRESCRIPTIVO

AUTOMATIZACION DE LAS DECISIONES

BIG LOGIC
ESPACIO COMPARTIDO DE CONOCIMIENTO

Tomado de LIVEWARE IS - Big Data process

Arquitectura de Software
PENSANDO EN BIG DATA

58
Una definición
“La arquitectura de un programa o sistema es la
estructura o las estructuras del sistema que
contienen a los componentes, las propiedades
visibles de esos componentes y las relaciones entre
ellos”
Software Architecture in Practice
(Bass, Clements and Kazman, 1998)

¿Qué tiene que ver con Big Data?

59
Arquitecturas como “blueprints”

60
Arquitecturas para Procesamiento de Datos

61
Algunos casos de la vida real
• Un sistema de procesamiento de logs (de películas) para crear un dashboard funciona
correctamente, pero presenta problemas cuando se quiere incrementar el número de dispositivos
que envían sus logs para procesar.

• Un sistema de recuento automático de votos a nivel nacional tiene problemas de desempeño

cuando varios fiscales de partidos políticos quieren consultar simultáneamente los resultados
parciales, y el sistema no logra entregar los resultados finales a tiempo.

• Un sistema de BI existente debe integrar fuentes de datos no estructuradas (e importantes para el

negocio), y el esfuerzo para implementar dicha integración se demora 6 meses más de lo previsto.

• Un sistema de reservas turísticas presenta fallas en ciertos servicios

(en tiempo de ejecución), que hace que se pierdan las consultas
previas a distintos proveedores, y degrada la experiencia de usuario.

62
¿Qué tienen en común?
• Toma de decisiones técnicas
• Algunas pobres o malentendidas
• Algunas de estas decisiones son arquitecturalmente relevantes

• Identificación de requerimientos no funcionales - o atributos de calidad

• Afectados por decisiones técnicas
• No pueden satisfacerse todos los atributos al 100%

63
Atributos de Calidad
• Sin atributos de calidad • Con atributos de calidad
• El sistema implementa la funcionalidad • Hablan sobre la calidad esperada del
correcta pero: sistema
• “Anda lento” • Están definidos desde el punto de vista
• permite que los hackers roben datos de los stakeholders
• Está caído la mayor parte del tiempo • De manera precisa (no ambigua)
• No escala • Permite “testear” si el requerimiento de
• Es difícil realizar cambios o integraciones
atributo de calidad se satisface o no
• …

64
Atributos de Calidad (en general)
• Propiedades (sistémicas) de un producto de software a través de las cuales los
stakeholders juzgan la calidad del producto
• Performance
• Seguridad
• Modificabilidad
• Disponibilidad
• Usabilidad
• Portabilidad
• Estabilidad
• Escalabilidad
• “Webifyability”
• “Greenability”
• …

65
Atributos de Calidad en Big Data
• Cómo se relacionan las Vs (de Big Data) con los atributos de calidad?

• Principales atributos en sistemas Big Data

• Performance
• Disponibilidad
• Escalabilidad

18a
• Seguridad (y privacidad)

• Extensibility (multiple sources)

• “Reproducibility”/“Explainability”
• Accuracy (de ciertos algoritmos)
• “Data quality”
• “Self-service”
• …

66
CONSULTAS

También podría gustarte

Ciclo de Vida del Big Data
Aún no hay calificaciones
Ciclo de Vida del Big Data
66 páginas
Transformación Digital en Finanzas
100% (1)
Transformación Digital en Finanzas
65 páginas
Big Data: Atributos y Evolución
Aún no hay calificaciones
Big Data: Atributos y Evolución
31 páginas
Procesamiento de Big Data: Batch y Real-Time
100% (1)
Procesamiento de Big Data: Batch y Real-Time
65 páginas
Introducción a Big Data y sus Fuentes
100% (1)
Introducción a Big Data y sus Fuentes
136 páginas
Curso de Data Analytics: Introducción y Contenidos
100% (1)
Curso de Data Analytics: Introducción y Contenidos
59 páginas
Big Data y su Impacto en la Industria
Aún no hay calificaciones
Big Data y su Impacto en la Industria
22 páginas
Reglas de Clasificación y Asociación AI
Aún no hay calificaciones
Reglas de Clasificación y Asociación AI
47 páginas
Tema 4
Aún no hay calificaciones
Tema 4
67 páginas
Consultoría Especializada en Postgres
Aún no hay calificaciones
Consultoría Especializada en Postgres
7 páginas
Libro de Business Intelligence
Aún no hay calificaciones
Libro de Business Intelligence
52 páginas
AI Module 2 (ESPAÑOL) Workbook
Aún no hay calificaciones
AI Module 2 (ESPAÑOL) Workbook
119 páginas
El Arte del Análisis de Datos
Aún no hay calificaciones
El Arte del Análisis de Datos
30 páginas
Guía de Aprendizaje en BPMN para Software
Aún no hay calificaciones
Guía de Aprendizaje en BPMN para Software
11 páginas
Importancia del Usuario en Seguridad TIC
Aún no hay calificaciones
Importancia del Usuario en Seguridad TIC
2 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Norma IEEE 830: Especificación de Requerimientos de Software
Aún no hay calificaciones
Norma IEEE 830: Especificación de Requerimientos de Software
85 páginas
Tipos y Costos de Optimización en Programación
Aún no hay calificaciones
Tipos y Costos de Optimización en Programación
20 páginas
Tema 2
Aún no hay calificaciones
Tema 2
50 páginas
Arquitectura de Big Data: Fundamentos y Patrones
Aún no hay calificaciones
Arquitectura de Big Data: Fundamentos y Patrones
147 páginas
Técnicas de Elicitación de Requerimientos
Aún no hay calificaciones
Técnicas de Elicitación de Requerimientos
32 páginas
Procesadores de Lenguaje
Aún no hay calificaciones
Procesadores de Lenguaje
67 páginas
Metodología de Investigación: Manual Completo
Aún no hay calificaciones
Metodología de Investigación: Manual Completo
0 páginas
Introducción a la Programación Básica
75% (4)
Introducción a la Programación Básica
101 páginas
Examen de Procesadores de Lenguajes 2004
Aún no hay calificaciones
Examen de Procesadores de Lenguajes 2004
272 páginas
Ideas Clave
100% (1)
Ideas Clave
411 páginas
Introducción al Testing de Software
Aún no hay calificaciones
Introducción al Testing de Software
6 páginas
Solución de Bases de Datos Distribuidas
Aún no hay calificaciones
Solución de Bases de Datos Distribuidas
7 páginas
Tema 1
Aún no hay calificaciones
Tema 1
38 páginas
Desarrollo Seguro y Modelado de Amenazas en SDLC
Aún no hay calificaciones
Desarrollo Seguro y Modelado de Amenazas en SDLC
36 páginas
Introducción A La Minería de Datos-Jose-Hernandez-Orallo-Cesar-Ferri-Ramirez-Maria-Jose-Ramirez-Quintana-2004-Pearson-Educacion-Libgen-154-231
Aún no hay calificaciones
Introducción A La Minería de Datos-Jose-Hernandez-Orallo-Cesar-Ferri-Ramirez-Maria-Jose-Ramirez-Quintana-2004-Pearson-Educacion-Libgen-154-231
78 páginas
CMMI y Gestión de Requisitos en Software
Aún no hay calificaciones
CMMI y Gestión de Requisitos en Software
9 páginas
Modelo Sencillo Mediante Árboles de Clasificación en Python
Aún no hay calificaciones
Modelo Sencillo Mediante Árboles de Clasificación en Python
2 páginas
Introducción a la Planificación Automática
100% (1)
Introducción a la Planificación Automática
62 páginas
Diferencia Entre Mapas y Redes Conceptuales.
50% (2)
Diferencia Entre Mapas y Redes Conceptuales.
4 páginas
Comprobación de Tipos en Lenguajes
100% (1)
Comprobación de Tipos en Lenguajes
54 páginas
Auditoría Interna SG-SST: Guía Práctica
Aún no hay calificaciones
Auditoría Interna SG-SST: Guía Práctica
2 páginas
Estudio Técnico en Evaluación de Proyectos
Aún no hay calificaciones
Estudio Técnico en Evaluación de Proyectos
13 páginas
Auditoria de Bases de Datos
Aún no hay calificaciones
Auditoria de Bases de Datos
60 páginas
Estándares de Calidad en Software
100% (1)
Estándares de Calidad en Software
15 páginas
Modelo Espiral
Aún no hay calificaciones
Modelo Espiral
6 páginas
Interfaces de Usuario y Paradigmas de Interacción
100% (1)
Interfaces de Usuario y Paradigmas de Interacción
23 páginas
Analisis y Diseño de Sistemas I - Texto Guia
Aún no hay calificaciones
Analisis y Diseño de Sistemas I - Texto Guia
181 páginas
Matriz de Consistencia Educativa 2023
Aún no hay calificaciones
Matriz de Consistencia Educativa 2023
53 páginas
Errores comunes en modelado dimensional
Aún no hay calificaciones
Errores comunes en modelado dimensional
11 páginas
Ejemplos de Big Data
Aún no hay calificaciones
Ejemplos de Big Data
5 páginas
Introducción a Big Data y RRHH
100% (1)
Introducción a Big Data y RRHH
36 páginas
Mecanismos de Sincronización de Procesos
Aún no hay calificaciones
Mecanismos de Sincronización de Procesos
16 páginas
Pruebas de Caja Blanca en Software
Aún no hay calificaciones
Pruebas de Caja Blanca en Software
2 páginas
Medidas Estadísticas y Análisis de Datos
Aún no hay calificaciones
Medidas Estadísticas y Análisis de Datos
41 páginas
Introducción a Microservicios en Informática
100% (1)
Introducción a Microservicios en Informática
27 páginas
Introducción A La Ciencia de Datos y El Big Data
Aún no hay calificaciones
Introducción A La Ciencia de Datos y El Big Data
11 páginas
ESSup
100% (1)
ESSup
18 páginas
Ccna1 Resumen Modulo 2
100% (1)
Ccna1 Resumen Modulo 2
16 páginas
Investigación de Redaccion de Documentos Academicos
Aún no hay calificaciones
Investigación de Redaccion de Documentos Academicos
142 páginas
Curso de Administración SQL Server
Aún no hay calificaciones
Curso de Administración SQL Server
99 páginas
Calidad de Software
Aún no hay calificaciones
Calidad de Software
16 páginas
Introducción a Big Data y su Análisis
Aún no hay calificaciones
Introducción a Big Data y su Análisis
31 páginas
1 Big Data Professional Fundamentos v2 - Conceptos
Aún no hay calificaciones
1 Big Data Professional Fundamentos v2 - Conceptos
55 páginas
Fundamentos de Big Data
Aún no hay calificaciones
Fundamentos de Big Data
39 páginas
Implementación Sistema RTSx y Depo/x
Aún no hay calificaciones
Implementación Sistema RTSx y Depo/x
2 páginas
Waf Agesic 1.3
100% (1)
Waf Agesic 1.3
111 páginas
Vim Cheat Sheet - Español
Aún no hay calificaciones
Vim Cheat Sheet - Español
2 páginas
Guía de Instalación WAF en ISO
Aún no hay calificaciones
Guía de Instalación WAF en ISO
21 páginas
Gestión de Servicios IT y ITIL
Aún no hay calificaciones
Gestión de Servicios IT y ITIL
208 páginas
¿Qué Es Un Cluster - PDF
Aún no hay calificaciones
¿Qué Es Un Cluster - PDF
3 páginas
Evaluación y Resolución de Problemas
Aún no hay calificaciones
Evaluación y Resolución de Problemas
12 páginas
Servicios de Certificación IBNORCA en Bolivia
Aún no hay calificaciones
Servicios de Certificación IBNORCA en Bolivia
12 páginas
Los Sistemas Expertos Como Alternativa de Solución A La Deserción Universitaria
Aún no hay calificaciones
Los Sistemas Expertos Como Alternativa de Solución A La Deserción Universitaria
5 páginas
¿Qué Es El Ciberacoso y Como Prevenirlo?
Aún no hay calificaciones
¿Qué Es El Ciberacoso y Como Prevenirlo?
1 página
Guía de Trabajo Académico en Informática
Aún no hay calificaciones
Guía de Trabajo Académico en Informática
184 páginas
Manual de Instalacion Centrales Panasonic NCP500 NCP1000
Aún no hay calificaciones
Manual de Instalacion Centrales Panasonic NCP500 NCP1000
126 páginas
Documentos Policiales
0% (1)
Documentos Policiales
19 páginas
Documento Julio
Aún no hay calificaciones
Documento Julio
3 páginas
Crear USB booteable con Rufus
Aún no hay calificaciones
Crear USB booteable con Rufus
4 páginas
Actividad 1
Aún no hay calificaciones
Actividad 1
9 páginas
Introducción a la Programación POO
Aún no hay calificaciones
Introducción a la Programación POO
3 páginas
Diccionario de Datos
Aún no hay calificaciones
Diccionario de Datos
14 páginas
M2 Web Orientada Al Diseño
Aún no hay calificaciones
M2 Web Orientada Al Diseño
12 páginas
Diseño y Análisis Ergonómico en CATIA
Aún no hay calificaciones
Diseño y Análisis Ergonómico en CATIA
36 páginas
Manual Del Producto 12
Aún no hay calificaciones
Manual Del Producto 12
2 páginas
Instructivo SATI: Operación y Funcionalidades
Aún no hay calificaciones
Instructivo SATI: Operación y Funcionalidades
64 páginas
Guía de Instalación Hysys v15
Aún no hay calificaciones
Guía de Instalación Hysys v15
12 páginas
Lista de Chequeo de Seguridad Laboral
Aún no hay calificaciones
Lista de Chequeo de Seguridad Laboral
3 páginas
Guia 1 de Seminario Universidad
Aún no hay calificaciones
Guia 1 de Seminario Universidad
9 páginas
Equipos Industriales en Procesos Químicos
Aún no hay calificaciones
Equipos Industriales en Procesos Químicos
25 páginas
Trazabilidad Flujogramas
Aún no hay calificaciones
Trazabilidad Flujogramas
22 páginas
Estados Unidos Mexicanos Acta de Defunción: Identificador Electrónico
Aún no hay calificaciones
Estados Unidos Mexicanos Acta de Defunción: Identificador Electrónico
1 página
Guía Completa para Construir Pedales
Aún no hay calificaciones
Guía Completa para Construir Pedales
18 páginas
Sílabo de Estadística I - UTH
Aún no hay calificaciones
Sílabo de Estadística I - UTH
6 páginas
Diagrama de Gantt: Guía y Ejemplos
Aún no hay calificaciones
Diagrama de Gantt: Guía y Ejemplos
39 páginas
Lean y gestión de la cadena de suministro
Aún no hay calificaciones
Lean y gestión de la cadena de suministro
4 páginas
Guía Básica: Crear Scripts Bash
Aún no hay calificaciones
Guía Básica: Crear Scripts Bash
7 páginas
Exámenes Tipo Test en Psicología UNED
Aún no hay calificaciones
Exámenes Tipo Test en Psicología UNED
6 páginas