CICLO DE VIDA DEL BIG DATA
Introducción:
El análisis de Big Data se diferencia del análisis de datos tradicional principalmente debido al volumen, la
velocidad y las características de variedad de los datos que se procesan. Para abordar los distintos
requisitos para realizar análisis en Big Data, se necesita una metodología paso a paso para organizar las
actividades y tareas involucradas con la adquisición, procesamiento, análisis y reutilización de datos. Las
próximas secciones exploran un ciclo de vida de análisis de datos específico que organiza y administra las
tareas y actividades asociadas con el análisis de Big Data. Desde una perspectiva de planificación y
adopción de Big Data, es importante que, además del ciclo de vida, se tengan en cuenta cuestiones de
formación, educación, herramientas y dotación de personal de un equipo de análisis de datos.
El ciclo de vida del análisis de Big Data se puede dividir en las siguientes nueve etapas, como se muestra
en la figura 1:
1. Evaluación de necesidades de negocios
2. Identificación de datos
3. Adquisición y filtrado de datos
4. Extracción de datos
5. Validación y limpieza de datos
6. Agregación y representación de datos
7. Análisis de datos
8. Visualización de datos
9. Utilización de los resultados del análisis
Figura 1: Ciclo de Vida del Big Data
Fuente: (Erl et. al , 2016)
1. Evaluación de necesidades de negocio
Cada ciclo de vida del análisis de Big Data debe comenzar con un caso de negocio bien definido que
presente una comprensión clara de la justificación, la motivación y los objetivos de llevar a cabo el análisis.
La etapa de evaluación de necesidades de negocio requiere que se cree, evalúe y apruebe un caso de
negocios antes de continuar con las tareas de análisis prácticas reales.
Una evaluación de necesidades de negocio de análisis de Big Data ayuda a los tomadores de decisiones a
comprender los recursos comerciales que deberán utilizarse y los desafíos comerciales que abordará el
análisis. La identificación adicional de los KPI durante esta etapa puede ayudar a determinar los criterios
de evaluación y la orientación para la evaluación de los resultados analíticos. Si los KPI no están fácilmente
disponibles, se deben hacer esfuerzos para que los objetivos del proyecto de análisis sean SMART, que
significa específicos, medibles, alcanzables, relevantes y oportunos.
Con base en los requisitos que se documentan en el caso de negocio, se puede determinar si los problemas
organizacionales que se están abordando son realmente problemas de Big Data. Para calificar como un
problema de Big Data, un problema empresarial debe estar directamente relacionado con una o más de
las características de Big Data de volumen, velocidad, variedad, veracidad y valor. Tenga en cuenta
también que otro resultado de esta etapa es la determinación del presupuesto subyacente requerido para
llevar a cabo el proyecto de análisis. Cualquier compra requerida, como herramientas, hardware y
capacitación, debe entenderse de antemano para que la inversión anticipada pueda sopesarse con los
beneficios esperados de lograr los objetivos. Las iteraciones iniciales del ciclo de vida del análisis de Big
Data requerirán una mayor inversión inicial en tecnologías, productos y capacitación de Big Data en
comparación con iteraciones posteriores en las que estas inversiones anteriores se pueden aprovechar
repetidamente.
2. Identificación de datos
La etapa de Identificación de datos está dedicada a identificar los conjuntos de datos requeridos para el
proyecto de análisis y sus fuentes. La identificación de una variedad más amplia de fuentes de datos puede
aumentar la probabilidad de encontrar patrones y correlaciones ocultos. Por ejemplo, para proporcionar
información, puede ser beneficioso identificar tantos tipos de fuentes de datos con algún tipo de relación
como sea posible, especialmente cuando no está claro exactamente qué buscar.
Dependiendo del alcance y contexto del proyecto de análisis y la naturaleza de los problemas
organizacionales que se aborden, los conjuntos de datos requeridos y sus fuentes pueden ser internos y
/o externos a la empresa.
En el caso de conjuntos de datos internos, una lista de conjuntos de datos disponibles de fuentes internas,
como data marts1 y sistemas operativos, generalmente se compila y compara con una especificación de
conjunto de datos predefinida.
En el caso de conjuntos de datos externos, se compila una lista de posibles proveedores de datos de
terceros, como mercados de datos y conjuntos de datos disponibles públicamente. Algunas formas de
datos externos pueden estar incrustadas en blogs u otros tipos de sitios web basados en contenido, en
cuyo caso es posible que deban recopilarse a través de herramientas automatizadas.
3. Adquisición y filtrado de datos
Durante la etapa de Adquisición y Filtrado de Datos, los datos se recopilan de todas las fuentes de datos
que se identificaron durante la etapa anterior. Los datos adquiridos luego se someten a un filtrado
automático para la eliminación de datos corruptos o datos que se considera que no tienen valor para los
objetivos del análisis.
Dependiendo del tipo de fuente de datos, los datos pueden venir como una colección de archivos, como
los datos comprados a un proveedor de datos de terceros, o pueden requerir la integración de un API,
como con Twitter. En muchos casos, especialmente cuando se trata de datos externos no estructurados,
algunos o la mayoría de los datos adquiridos pueden ser irrelevantes (ruido) y pueden descartarse como
parte del proceso de filtrado.
Los datos clasificados como "corruptos" pueden incluir registros con valores faltantes o sin sentido o tipos
de datos no válidos. Los datos que se filtran para un análisis posiblemente pueden ser valiosos para un
tipo diferente de análisis. Por lo tanto, es recomendable almacenar una copia literal del conjunto de datos
original antes de continuar con el filtrado. Para minimizar el espacio de almacenamiento requerido, la
copia literal se puede comprimir.
1
Un Data Mart es un almacén de datos orientado a un área específica en una empresa, como por ejemplo,
Ventas, Recursos Humanos u otros sectores en una organización.
Tanto los datos internos como los externos deben conservarse una vez que se generan o entran en los
límites de la empresa. Para el análisis por lotes, estos datos se conservan en el disco antes del análisis. En
el caso de la analítica en tiempo real, los datos se analizan primero y luego se conservan en el disco.
Como se muestra en la figura 2, los metadatos se pueden agregar mediante la automatización a los datos
de fuentes tanto internas como externas para mejorar la clasificación y las consultas. Los ejemplos de
metadatos adjuntos incluyen el tamaño y la estructura del conjunto de datos, la información de origen, la
fecha y hora de creación o recopilación e información específica del idioma. Es vital que los metadatos
sean legibles por máquina y se transmitan a lo largo de las etapas de análisis posteriores. Esto ayuda a
mantener la procedencia de los datos a lo largo del ciclo de vida del análisis de Big Data, lo que ayuda a
establecer y preservar la precisión y la calidad de los datos.
Figura 2: Los metadatos se agregan a los datos de fuentes internas y externas.
Fuente: (Erl et. al , 2016)
4. Extracción de datos
Algunos de los datos identificados como entrada para el análisis pueden llegar en un formato incompatible
con la solución de Big Data. La necesidad de abordar tipos dispares de datos es más probable con datos
de fuentes externas. La etapa del ciclo de vida de Extracción de datos, está dedicada a extraer datos
dispares y transformarlos en un formato que la solución de Big Data subyacente pueda usar para el análisis
de datos.
El grado de extracción y transformación requerido depende de los tipos de análisis y capacidades de la
solución de Big Data. Por ejemplo, es posible que no sea necesario extraer los campos obligatorios de los
datos textuales delimitados, como con los archivos de registro del servidor web, si la solución de Big Data
subyacente ya puede procesar directamente esos archivos. De manera similar, la extracción de texto para
análisis de texto, que requiere escaneos de documentos completos, se simplifica si la solución de Big Data
subyacente puede leer directamente el documento en su formato nativo. La figura 3 ilustra la extracción
de comentarios y un ID de usuario incrustado dentro de un documento XML (Extensible Markup Language)
sin la necesidad de una transformación adicional.
Figura 3: Los comentarios y los ID de usuario se extraen de un documento XML.
Fuente: (Erl et. al , 2016)
La figura 4 muestra la extracción de las coordenadas de latitud y longitud de un usuario de un solo campo
JSON (JavaScript Object Notation Syntax). Se necesita una mayor transformación para separar los datos
en dos campos separados como lo requiere la solución Big Data.
Figura 4: El ID de usuario y las coordenadas de un usuario se extraen de un solo campo JSON.
Fuente: (Erl et. al , 2016)
5. Validación y limpieza de datos
Los datos no válidos pueden sesgar y falsificar los resultados del análisis. A diferencia de los datos
empresariales tradicionales, donde la estructura de datos está predefinida y los datos se validan
previamente, la entrada de datos en los análisis de Big Data puede desestructurarse sin ninguna indicación
de validez. Su complejidad puede dificultar aún más la obtención de un conjunto de restricciones de
validación adecuadas. La etapa de validación y limpieza de datos está dedicada a establecer reglas de
validación a menudo complejas y eliminar cualquier dato no válido conocido.
Las soluciones de Big Data a menudo reciben datos redundantes en diferentes conjuntos de datos. Esta
redundancia se puede aprovechar para explorar conjuntos de datos interconectados con el fin de
ensamblar parámetros de validación y completar los datos válidos que faltan.
Por ejemplo, como se ilustra en la figura 5:
El primer valor en el conjunto de datos B se valida con su valor correspondiente en el conjunto
de datos A.
El segundo valor en el conjunto de datos B no se valida con su valor correspondiente en el
conjunto de datos A.
Si falta un valor, se inserta del conjunto de datos A.
Figura 5: La validación de datos se puede utilizar para examinar conjuntos de datos interconectados con
el fin de completar los datos válidos que faltan.
Fuente: (Erl et. al , 2016)
Para el análisis por lotes, la validación y limpieza de datos se puede lograr a través de una operación ETL
fuera de línea. Para el análisis en tiempo real, se requiere un sistema de memoria más complejo para
validar y limpiar los datos a medida que llegan desde la fuente.
6. Agregación y representación de datos
Los datos se pueden distribuir en varios conjuntos de datos, lo que requiere que los conjuntos de datos
se unan a través de campos comunes, por ejemplo, fecha o ID. En otros casos, los mismos campos de
datos pueden aparecer en varios conjuntos de datos, como la fecha de nacimiento. De cualquier manera,
se requiere un método de conciliación de datos o se debe determinar el conjunto de datos que representa
el valor correcto. La etapa de agregación y representación de datos, está dedicada a integrar varios
conjuntos de datos para llegar a una vista unificada.
Realizar esta etapa puede complicarse debido a diferencias en:
Estructura de datos: aunque el formato de datos puede ser el mismo, el modelo de datos puede
ser diferente.
Semántica: un valor etiquetado de manera diferente en dos conjuntos de datos diferentes puede
significar lo mismo, por ejemplo, "apellido" y "nombre apellido".
Los grandes volúmenes procesados por las soluciones de Big Data pueden hacer que la agregación de
datos sea una operación que requiere mucho tiempo y esfuerzo. Reconciliar estas diferencias puede
requerir una lógica compleja que se ejecuta automáticamente sin la necesidad de intervención humana.
Los requisitos futuros de análisis de datos deben considerarse durante esta etapa para ayudar a fomentar
la reutilización de los datos. Ya sea que se requiera o no la agregación de datos, es importante comprender
que los mismos datos se pueden almacenar en muchas formas diferentes. Una forma puede ser más
adecuada para un tipo particular de análisis que otra.
Una estructura de datos estandarizada por la solución Big Data puede actuar como un denominador
común que se puede utilizar para una variedad de técnicas de análisis y proyectos. Esto puede requerir el
establecimiento de un repositorio de análisis estándar central, como una base de datos NoSQL, como se
muestra en la figura 6.
Figura 6: Ejemplo simple de agregación de datos donde dos conjuntos de datos se agregan usando el
campo Id.
Fuente: (Erl et. al , 2016)
La figura 7 muestra el mismo dato almacenado en dos formatos diferentes. El conjunto de datos A
contiene la pieza de datos deseada, pero es parte de un modelo de datos que no es fácilmente accesible
para realizar consultas. El conjunto de datos B contiene la misma pieza de datos organizada en un
almacenamiento basado en columnas, lo que permite que cada campo se consulte individualmente.
Figura 7: Los conjuntos de datos A y B se pueden combinar para crear una estructura de datos
estandarizada con una solución de Big Data.
Fuente: (Erl et. al , 2016)
7. Análisis de datos
La etapa de Análisis de datos está dedicada a llevar a cabo la tarea de análisis real, que generalmente
involucra uno o más tipos de análisis. Esta etapa puede ser de naturaleza iterativa, especialmente si el
análisis de datos es exploratorio, en cuyo caso el análisis se repite hasta que se descubre el patrón o la
correlación adecuados. El enfoque del análisis exploratorio se explicará en breve, junto con el análisis
confirmatorio.
Dependiendo del tipo de resultado analítico requerido, esta etapa puede ser tan simple como consultar
un conjunto de datos para calcular una agregación para comparar. Por otro lado, puede ser tan desafiante
como combinar la minería de datos y técnicas complejas de análisis estadístico para descubrir patrones y
anomalías o generar un modelo estadístico o matemático para representar relaciones entre variables. El
análisis de datos se puede clasificar como análisis confirmatorio o análisis exploratorio, el último de los
cuales está vinculado a la minería de datos, como se muestra en la figura 8.
Figura 8: El análisis de datos se puede realizar como análisis confirmatorio o exploratorio.
Fuente: (Erl et. al , 2016)
El análisis de datos confirmatorios es un enfoque deductivo donde se propone de antemano la causa del
fenómeno que se investiga. La causa o suposición propuesta se llama hipótesis. Luego, los datos se
analizan para probar o refutar la hipótesis y proporcionar respuestas definitivas a preguntas específicas.
Normalmente se utilizan técnicas de muestreo de datos. Los hallazgos inesperados o las anomalías
generalmente se ignoran ya que se asumió una causa predeterminada.
El análisis de datos exploratorios es un enfoque inductivo que está estrechamente asociado con la minería
de datos. No se generan hipótesis ni supuestos predeterminados. En cambio, los datos se exploran a
través del análisis para desarrollar una comprensión de la causa del fenómeno. Aunque puede que no
proporcione respuestas definitivas, este método proporciona una dirección general que puede facilitar el
descubrimiento de patrones o anomalías.
8. Visualización de datos
La capacidad de analizar cantidades masivas de datos y encontrar información útil tiene poco valor si los
únicos que pueden interpretar los resultados son los analistas. La etapa de visualización de datos, está
dedicada al uso de técnicas y herramientas de visualización de datos para comunicar gráficamente los
resultados del análisis para una interpretación efectiva por parte de los usuarios comerciales.
Los usuarios comerciales deben poder comprender los resultados para obtener valor del análisis y,
posteriormente, tener la capacidad de proporcionar comentarios, como lo indica la línea discontinua que
va desde la etapa 8 a la etapa 7 (ver figura 1).
Los resultados de completar la etapa de visualización de datos brindan a los usuarios la capacidad de
realizar análisis visuales, lo que permite descubrir respuestas a preguntas que los usuarios aún no han
formulado.
Los mismos resultados pueden presentarse de diferentes formas, lo que puede influir en la interpretación
de los resultados. En consecuencia, es importante utilizar la técnica de visualización más adecuada
manteniendo el dominio empresarial en contexto. Otro aspecto a tener en cuenta es que proporcionar
un método de desglose de estadísticas comparativamente simples es crucial, para que los usuarios
comprendan cómo se generaron los resultados acumulados o agregados.
9. Utilización de los resultados del análisis
Después de que los resultados del análisis se pongan a disposición de los usuarios comerciales para
respaldar la toma de decisiones, como a través de paneles de control, puede haber más oportunidades
para utilizar los resultados del análisis. La etapa de Utilización de los resultados del análisis, está dedicada
a determinar cómo y dónde se pueden aprovechar aún más los datos de análisis procesados.
Dependiendo de la naturaleza de los problemas de análisis que se aborden, es posible que los resultados
del análisis produzcan "modelos" que encapsulen nuevos conocimientos y comprensiones sobre la
naturaleza de los patrones y relaciones que existen dentro de los datos que se analizaron. Un modelo
puede parecer una ecuación matemática o un conjunto de reglas.
Los modelos se pueden utilizar para mejorar la lógica de los procesos de negocio y la lógica del sistema
de aplicaciones, y pueden formar la base de un nuevo sistema o programa de software.
Las áreas comunes que se exploran durante esta etapa incluyen las siguientes:
Entrada para sistemas empresariales: los resultados del análisis de datos pueden introducirse de
forma automática o manual directamente en los sistemas empresariales para mejorar y
optimizar sus comportamientos y rendimiento. Por ejemplo, una tienda en línea puede recibir
resultados procesados de análisis relacionados con el cliente que pueden afectar la forma en que
genera recomendaciones de productos. Se pueden usar nuevos modelos para mejorar la lógica
de programación dentro de los sistemas empresariales existentes o pueden formar la base de
nuevos sistemas.
Optimización de procesos comerciales: los patrones, correlaciones y anomalías identificadas
descubiertas durante el análisis de datos se utilizan para refinar los procesos comerciales. Un
ejemplo es la consolidación de rutas de transporte como parte de un proceso de cadena de
suministro. Los modelos también pueden generar oportunidades para mejorar la lógica de los
procesos comerciales.
Alertas: los resultados del análisis de datos se pueden utilizar como entrada para alertas
existentes o pueden constituir la base de nuevas alertas. Por ejemplo, se pueden crear alertas
para informar a los usuarios por correo electrónico o mensaje de texto SMS sobre un evento que
requiere que tomen medidas correctivas.
Ejemplo a través de un caso práctico
Introducción
ETI Ensure to Insure, es una compañía de seguros líder que ofrece una gama de planes de seguros en
los sectores de la salud, la construcción, la marina y la aviación a sus 25 millones de clientes en todo el
mundo. La empresa consta de una plantilla de alrededor de 5.000 empleados y genera ingresos anuales
de más de 350.000.000 USD.
La mayoría del equipo de TI (tecnologías de la información) de la empresa ETI está convencido de que
el Big Data es la panacea que resolverá todos sus problemas actuales. Sin embargo, los miembros de
TI capacitados señalan que adoptar Big Data no es lo mismo que simplemente adoptar una plataforma
tecnológica. Más bien, primero se debe considerar una variedad de factores para garantizar la adopción
exitosa de Big Data.
Por lo tanto, para garantizar que se comprenda completamente el impacto de los factores relacionados
con el negocio, el equipo de TI se reúne con los gerentes para crear un informe de viabilidad. Involucrar
al personal de la empresa en esta etapa inicial ayudará aún más a crear un entorno que reduzca la
brecha entre las expectativas percibidas de la gerencia y lo que el equipo de TI realmente puede
ofrecer.
Existe un fuerte entendimiento de que la adopción de Big Data está orientada a los negocios y ayudará
a ETI a alcanzar sus objetivos. Las capacidades de Big Data para almacenar y procesar grandes
cantidades de datos no estructurados y combinar múltiples conjuntos de datos ayudarán a ETI a
comprender el riesgo. La compañía espera que, como resultado, pueda minimizar las pérdidas al
aceptar solo a los solicitantes menos riesgosos como clientes. De manera similar, ETI predice que la
capacidad de analizar los datos de comportamiento no estructurados de un cliente y descubrir un
comportamiento anormal ayudará a reducir aún más las pérdidas porque se pueden rechazar los
reclamos fraudulentos.
La decisión de capacitar al equipo de TI en el campo de Big Data ha aumentado la preparación de ETI
para adoptar Big Data. El equipo cree que ahora tiene el conjunto de habilidades básicas requeridas
para emprender una iniciativa de Big Data. Los datos identificados y categorizados anteriormente
colocan al equipo en una posición sólida para decidir sobre las tecnologías requeridas. El compromiso
temprano de la gestión empresarial también ha proporcionado información que les permite anticipar
los cambios que pueden ser necesarios en el futuro para mantener la plataforma de soluciones Big
Data alineada con cualquier requisito empresarial emergente.
En esta etapa preliminar, solo se han identificado unas pocas fuentes de datos externas, como las redes
sociales y los datos del censo. El personal de la empresa acuerda que se asignará un presupuesto
suficiente para la adquisición de datos de proveedores de datos de terceros. Con respecto a la
privacidad, los usuarios de la empresa desconfían un poco de que la obtención de datos adicionales
sobre los clientes pueda despertar la desconfianza de los clientes. Sin embargo, se cree que se puede
introducir un esquema basado en incentivos, como primas más bajas, para obtener el consentimiento
y la confianza de los clientes. Al considerar los problemas de seguridad, el equipo de TI señala que se
requerirán esfuerzos de desarrollo adicionales para garantizar que existan controles de acceso
estandarizados y basados en roles para los datos almacenados en el entorno de la solución Big Data.
Esto es especialmente relevante para las bases de datos de código abierto que contendrán datos no
relacionales.
Los objetivos actuales de ETI incluyen disminuir el tiempo que se tarda en liquidar reclamos y detectar
reclamos fraudulentos. El logro de estos objetivos requerirá una solución que brinde resultados en
tiempo. Sin embargo, no se prevé que se requiera soporte de análisis de datos en tiempo real. El equipo
de TI cree que estos objetivos pueden cumplirse mediante el desarrollo de una solución Big Data
basada en lotes que aproveche la tecnología Big Data de código abierto. La infraestructura de TI actual
de ETI consiste en estándares de red comparativamente más antiguos. Del mismo modo, las
especificaciones de la mayoría de los servidores, como la velocidad del procesador, la capacidad del
disco y la velocidad del disco, dictan que no son capaces de proporcionar un rendimiento de
procesamiento de datos óptimo. Por lo tanto, se acuerda que la infraestructura de TI actual necesita
una actualización antes de que se pueda diseñar y construir una solución de Big Data.
Tanto los equipos gerenciales como los de TI creen firmemente que se requiere un marco de gobierno
de Big Data no solo para ayudarlos a estandarizar el uso de fuentes de datos dispares, sino también
para cumplir completamente con las regulaciones relacionadas con la privacidad de datos. Además,
debido al enfoque empresarial del análisis de datos y para garantizar que se generen resultados de
análisis significativos, se decide adoptar un enfoque iterativo de análisis de datos que incluya personal
de la empresa del departamento correspondiente. Por ejemplo, en el escenario de "mejora de la
retención de clientes", el equipo de marketing y ventas puede incluirse en el proceso de análisis de
datos desde la selección de conjuntos de datos para que solo se elijan los atributos relevantes de estos
conjuntos de datos.
Más tarde, el equipo puede proporcionar comentarios valiosos en términos de interpretación y
aplicabilidad de los resultados del análisis. Con respecto a la computación en la nube, el equipo de TI
observa que ninguno de sus sistemas está actualmente alojado en la nube y que el equipo no posee
conjuntos de habilidades relacionadas con la nube. Estos hechos, junto con las preocupaciones sobre
la privacidad de los datos, llevan al equipo de TI a tomar la decisión de crear una solución de Big Data
local. El grupo señala que dejará abierta la opción de alojamiento basado en la nube porque existe
cierta especulación de que su sistema de CRM interno puede ser reemplazado por una solución de CRM
de software como servicio alojada en la nube en el futuro.
Ciclo de vida del Big Data
El viaje de Big Data de ETI ha llegado a la etapa en la que su equipo de TI posee las habilidades
necesarias y la gerencia está convencida de los beneficios potenciales que una solución de Big Data
puede brindar para respaldar los objetivos de la empresa. El CEO y los directores están ansiosos por
ver el Big Data en acción. En respuesta a esto, el equipo de TI, en asociación con el personal de la
empresa, asume el primer proyecto de Big Data de ETI. Tras un exhaustivo proceso de evaluación, se
elige como primera solución de Big Data el objetivo “detección de reclamos fraudulentos”. Luego, el
equipo sigue un enfoque paso a paso según lo establecido por el ciclo de vida del Big Data para lograr
este objetivo.
1. Evaluación de necesidades de negocio
La realización de análisis Big Data para la “detección de reclamos fraudulentos” se corresponde
directamente con una disminución de la pérdida monetaria y por tanto conlleva un completo respaldo
empresarial. Aunque el fraude ocurre en los cuatro sectores comerciales de ETI, con el fin de mantener
el análisis algo sencillo, el alcance del análisis de Big Data se limita a la identificación del fraude en el
sector de la construcción. ETI proporciona seguros de construcción y contenido a clientes domésticos
y empresariales. Aunque el fraude de seguros puede ser tanto oportunista como organizado, el fraude
oportunista en forma de mentira y exageración cubre la mayoría de los casos.
Para medir el éxito de la solución Big Data para la detección de fraudes, uno de los KPIs fijados es la
reducción de reclamaciones fraudulentas en un 15%. Teniendo en cuenta su presupuesto, el equipo
decide que su mayor gasto será la adquisición de una nueva infraestructura que sea apropiada para
construir un entorno de solución de Big Data. Se dan cuenta de que aprovecharán las tecnologías de
código abierto para respaldar el procesamiento por lotes y, por lo tanto, no creen que se requiera una
gran inversión inicial para las herramientas.
Sin embargo, cuando consideran el ciclo de vida de análisis de Big Data más amplio, los miembros del
equipo se dan cuenta de que deben presupuestar la adquisición de herramientas adicionales de
limpieza y calidad de datos y tecnologías de visualización de datos más nuevas. Después de tener en
cuenta estos gastos, un análisis de costo-beneficio revela que la inversión en la solución Big Data puede
recuperarse varias veces si se pueden alcanzar los KPI de detección de fraude objetivo. Como resultado
de este análisis, el equipo cree que existe un caso de necesidades de negocio sólido para usar Big Data
para mejorar el análisis de datos.
2. Identificación de datos
Se identifican varios conjuntos de datos internos y externos. Los datos internos incluyen datos de
pólizas, documentos de solicitudes de seguros, datos de reclamos, notas del ajustador de reclamos,
fotografías de incidentes, notas de agentes del centro de llamadas y correos electrónicos. Los datos
externos incluyen datos de redes sociales (fuentes de Twitter), informes meteorológicos, datos
geográficos (GIS) y datos de censos. Casi todos los conjuntos de datos se remontan a cinco años atrás.
Los datos de reclamos consisten en datos históricos de reclamos compuestos en múltiples campos
donde uno de los campos especifica si el reclamo fue fraudulento o legítimo.
3. Adquisición y Filtrado de Datos
Los datos de la póliza se obtienen del sistema de administración de pólizas, los datos de relcamos, las
fotografías de incidentes y las notas del ajustador de reclamaciones se obtienen del sistema de gestión
de reclamaciones y los documentos de solicitud de seguro se obtienen del sistema de gestión de
documentos. Las notas del ajustador de reclamos están actualmente integradas dentro de los datos
del reclamo. Por lo tanto, se utiliza un proceso separado para extraerlos. Las notas y los correos
electrónicos de los agentes del centro de llamadas se obtienen del sistema CRM. El resto de los
conjuntos de datos se adquieren de proveedores de datos de terceros. Una copia comprimida de la
versión original de todos los conjuntos de datos se almacena en el disco. Desde una perspectiva de
procedencia, se rastrean los siguientes metadatos para capturar el pedigrí de cada conjunto de datos:
nombre del conjunto de datos, fuente, tamaño, formato, suma de verificación, fecha de adquisición y
número de registros. Una revisión rápida de las cualidades de los datos de los feeds de Twitter y los
informes meteorológicos sugiere que alrededor del cuatro al cinco por ciento de sus registros están
corruptos. En consecuencia, se establecen dos trabajos de filtrado de datos por lotes para eliminar los
registros corruptos.
4. Extracción de datos
El equipo de TI observa que algunos de los conjuntos de datos deberán procesarse previamente para
extraer los campos requeridos. Por ejemplo, el conjunto de datos de tweets está en formato JSON.
Para poder analizar los tweets, la identificación del usuario, la marca de tiempo y el texto del tweet
deben extraerse y convertirse a formato tabular. Además, el conjunto de datos meteorológicos llega
en un formato jerárquico (XML), y los campos como la marca de tiempo, el pronóstico de temperatura,
el pronóstico de velocidad del viento, el pronóstico de dirección del viento, el pronóstico de nieve y el
pronóstico de inundaciones también se extraen y guardan en forma tabular.
5. Validación y limpieza de datos
Para mantener los costos bajos, ETI actualmente utiliza versiones gratuitas del clima y los conjuntos de
datos del censo que no garantizan que sean 100% precisos. Como resultado, estos conjuntos de datos
deben validarse y limpiarse. Con base en la información de campo publicada, el equipo puede verificar
los campos extraídos en busca de errores tipográficos y datos incorrectos, así como la validación del
rango y el tipo de datos. Se establece una regla de que un registro no se eliminará si contiene algún
nivel significativo de información, aunque algunos de sus campos puedan contener datos no válidos.
6. Agregación y representación de datos
Para un análisis significativo de los datos, se decide unir los datos de pólizas, los datos de reclamos y
las notas de los agentes del centro de llamadas en un solo conjunto de datos que es de naturaleza
tabular donde se puede hacer referencia a cada campo a través de una consulta de datos. Se cree que
esto no solo ayudará con la tarea de análisis de datos actual de detectar reclamos fraudulentos, sino
que también ayudará con otras tareas de análisis de datos, como la evaluación de riesgos y la
liquidación rápida de reclamos. El conjunto de datos resultante se almacena en una base de datos
NoSQL.
7. Análisis de los datos
El equipo de TI involucra a los analistas de datos en esta etapa, ya que no tiene el conjunto de
habilidades adecuado para analizar datos en apoyo de la detección de reclamos fraudulentos. Para
poder detectar transacciones fraudulentas, primero se debe analizar la naturaleza de los reclamos
fraudulentos para encontrar qué características diferencian un reclamo fraudulento de un reclamo
legítimo. Para ello, se adopta el enfoque de análisis exploratorio de datos. Como parte de este análisis,
se aplica una variedad de técnicas de análisis. Esta etapa se repite varias veces ya que los resultados
generados después del primer paso no son lo suficientemente concluyentes para comprender qué hace
que un reclamo sea fraudulento diferente de un reclamo legítimo. Como parte de este ejercicio, los
atributos que son menos indicativos de un reclamo fraudulento se eliminan, mientras que los atributos
que tienen una relación directa se mantienen o agregan.
8. Visualización de datos
El equipo descubrió algunos hallazgos interesantes y ahora necesita transmitir los resultados a los
actuarios, aseguradores y ajustadores de siniestros. Se utilizan diferentes métodos de visualización,
incluidos gráficos de barras y líneas y diagramas de dispersión. Los diagramas de dispersión se utilizan
para analizar grupos de reclamos fraudulentos y legítimas a la luz de diferentes factores, como la edad
del cliente, la antigüedad de la póliza, la cantidad de reclamaciones realizadas y el valor de la
reclamación.
9. Utilización de los resultados del análisis
Con base en los resultados del análisis de datos, los usuarios de suscripción y liquidación de reclamos
ahora han desarrollado una comprensión de la naturaleza de los reclamos fraudulentos. Sin embargo,
para obtener beneficios tangibles de este ejercicio de análisis de datos, se genera un modelo basado
en una técnica de aprendizaje automático, que luego se incorpora al sistema de procesamiento de
reclamos existente para marcar los reclamos fraudulentos.
Fuente: Thomas Erl, Wajid Khattak, and Dr. Paul Buhler. Big Data Fundamentals: Concepts, Drivers &
Techniques. The Prentice Hall Service Technology Series pp 65-89, ISBN-13: 978-0134291079, 2016.