Universidad Católica de Córdoba
Facultad de Ciencias Económicas y de Administración
Carrera de Licenciado en Administración de Empresas
Investigación del “Big Data”
Artículo de investigación presentado al Seminario de Sistemas Administrativos
y de Información, 3er. Año, Cátedra “D”
Por: Ale, Raúl Ignacio
Altamirano, Nehuen
Miodowsky Garbarsky, Maor Gabriel
Schroeder, Franco
BIG DATA Y SUS CARACTERÍSTICAS
El concepto de Big Data aplica para toda aquella información que no puede
ser procesada o analizada utilizando procesos o herramientas tradicionales.
Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que
es usualmente utilizado cuando se habla en términos de petabytes y
exabytes de datos. Entonces ¿Cuánto es demasiada información de
manera que sea elegible para ser procesada y analizada utilizando Big
Data? Analicemos primeramente en términos de bytes:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Las características más importantes del Big Data perfectamente se pueden
clasificar en cuatro magnitudes, más conocidas como las cuatro V del Big
Data, relativas a volumen,
variedad, velocidad y veracidad. A
estas cuatro V, podemos añadir
tres más, como pueden ser la de
Viabilidad y Visualización. Pero si
hablamos de V en Big Data no
podemos dejar pasar la principal
característica del análisis de datos que es la V de Valor de los datos. Así
pues, en los últimos artículos se empieza a hablar, ya no de las
tradicionales cuatro V de Big Data, sino de las 7 “V” del Big Data:
1. Volumen: el volumen se refiere a la cantidad de datos que son generados
cada segundo, minuto y días en nuestro entorno. Es la característica más
asociada al Big Data, ya que hace referencia a las cantidades masivas de
datos que se almacenan con la finalidad de procesar dicha información,
transformando los datos en acciones.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos
más y más datos. Para algunas empresas, el estar en el mundo digital es
algo obligatorio, por lo que la cantidad de datos generados es aún mayor.
Por ejemplo, una empresa que vende sus productos únicamente a través de
un canal online, le convendría implantar tecnología Big Data para procesar
toda aquella información que recoge su página web rastreando todas las
acciones que lleva a cabo el cliente; conocer donde cliquea más veces,
cuántas veces ha pasado por el carrito de la compra, cuáles son los
productos más vistos, las páginas más visitadas, etc.
2. Velocidad: la velocidad se refiere a los datos en movimiento por las
constantes interconexiones que realizamos, es decir, a la rapidez en la que
son creados, almacenados y procesados en tiempo real.
2
Para los procesos en los que el tiempo resulta fundamental, tales como
la detección de fraude en una transacción bancaria o la monitorización de
un evento en redes sociales, estos tipos de datos deben estudiarse en
tiempo real para que resulten útiles para el negocio y se consigan
conclusiones efectivas.
3. Variedad de los datos: La variedad se refiere a las formas, tipos y
fuentes en las que se registran los datos. Estos datos pueden ser datos
estructurados y fáciles de gestionar como son las bases de datos, o datos
no estructurados, entre los que se incluyen documentos de texto, correos
electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos
en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de
redes sociales, artículos que leemos en blogs, las secuencias de click que
hacemos en una misma página, formularios de registro e infinidad de
acciones más que realizamos desde nuestro Smartphone, Tablet y
ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que
el tratamiento de la información es totalmente diferente con respecto a los
datos estructurados. Para ello, las empresas necesitan integrar, observar y
procesar datos que son recogidos a través de múltiples fuentes de
información con herramientas cualificadas.
4. Veracidad de los datos: cuando hablamos de veracidad nos referimos a
la incertidumbre de los datos, es decir, al grado de fiabilidad de la
información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando
soluciones y métodos que puedan eliminar datos imprevisibles que puedan
surgir como datos económicos, comportamientos de los consumidores que
puedan influir en las decisiones de compra.
La necesidad de explorar y planificar la incertidumbre es un reto para el Big
Data que está a la orden del día en las compañías dedicadas al análisis de
datos.
5. Viabilidad: la inteligencia empresarial es un componente fundamental para
la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad
que tienen las compañías en generar un uso eficaz del gran volumen de
datos que manejan.
La inteligencia competitiva también se asocia con la innovación de los
equipos de trabajo y el uso de tecnologías empleadas. Una empresa
inteligente analiza, selecciona y monitoriza la información con el fin de
conocer mejor el mercado en el que opera, a sus clientes y diseñar
estrategias eficaces.
Es necesario filtrar a través de esta información y seleccionar
cuidadosamente los atributos y factores que son capaces de predecir los
3
resultados que más interesan a las empresas. El secreto del éxito es
descubrir las relaciones entre las variables ocultas.
Una vez que conoces la viabilidad de tu organización, es el momento de
detallar el proyecto en una hoja de ruta, y desarrollar el plan de negocio.
6. Visualización de los datos: cuando hablamos de visualización nos referimos
al modo en el que los datos son presentados. Una vez que los datos son
procesados (los datos están en tablas y hojas de cálculo), necesitamos
representarlos visualmente de manera que sean legibles y accesibles, para
encontrar patrones y claves ocultas en el tema a investigar. Para que los
datos sean comprendidos existen herramientas de visualización que te
ayudarán a comprender los datos gráficamente y en perspectiva contextual.
7. Valor de los datos: El dato no es valor. Tampoco tienes valor por el mero
hecho de recopilar gran cantidad de información. El valor se obtiene de
datos que se transforman en información; esta a su vez se convierte en
conocimiento, y este en acción o en decisión. El valor de los datos está en
que sean accionables, es decir, que los responsable de la empresas
puedan tomar una decisión (la mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión.
Para ello, es necesario tener tecnologías aplicadas. Por ejemplo, una
publicación en una red social, que gracias al uso de tecnologías de
procesamiento de lenguaje natural, puede medir el sentimiento positivo o
negativo, con la ayuda de un algoritmo de análisis de redes sociales o
herramientas que permitan obtener de esto información.
PRINCIPALES ÁMBITOS DE APLICACIÓN
La capacidad de gestionar y analizar de forma eficiente enormes volúmenes
de datos de fuentes heterogéneas, pone en valor la ventaja competitiva y
diferencial de Big Data, lo que hace que los campos de aplicación sean muy
diversos:
Gobierno y toma de decisiones: Big Data ofrece una mejora y optimización
en los procesos administrativos de empresas y gobiernos, permitiendo entre
muchas otras, el soporte a la toma decisiones, siendo complementario a las
plataformas de “Business Intelligence” (BI). Gigantes como Facebook,
Google, Amazon, Twitter o eBay basan sus decisiones empresariales en los
datos que obtienen. Por su parte, la implantación de la e-administración es
un ejemplo del beneficio que aporta la utilización de un Big Data en la
Administración Pública.
CRM: La gestión de la relación de una empresa con sus clientes suele
implicar la gestión de data wharehouse y la interrelación de diversidad de
datos (comercial, operaciones, marketing,…), diversos canales (web, redes
sociales, correo,…) y formatos. Big Data facilita las operaciones de análisis
y seguimiento, favoreciendo la fidelidad y descubrimiento de nuevos
mercados.
4
Internet 2.0 genera una gran multitud de datos que difícilmente se podrían
gestionar sin un Big Data. Las redes sociales cada vez se extienden a más
ámbitos de nuestra sociedad. El “blogging” de Tumblr4, con más de 15
billones de visitas mensuales, es una de las plataformas de “bloggins” más
usada y cuenta con la solución tecnológica “HBase” de Apache.
Investigación médica: Caso particular del anterior, la investigación médica
puede mejorar muchísimo si es capaz de asimilar una enorme cantidad de
datos (monitorización, historiales, tratamientos, etc.) y estructurarlos para el
establecimiento de diagnósticos o la síntesis de medicamentos.
Logística: El sector logístico mejora notablemente gracias a las
posibilidades analíticas de un Big Data y su potencial para el despliegue de
servicios específicos (movilidad, tracking, seguridad, etc.). El ejemplo más
popular se encuentra en el control de flotas (la ruta óptima permite a los
vehículos circular con la máxima capacidad de carga, pudiendo recorrer
rutas mejorando tiempos, consumos y contaminación).
Seguridad: Su potencial reside en la capacidad de análisis de volúmenes de
datos antes impensable de una manera óptima y ágil. Existen, por ejemplo,
modelos de análisis del comportamiento humano para prevenir atentados
terroristas obtenidos mediante un análisis permanente de las cámaras y
sensores de seguridad de áreas de especial interés, vinculado con otras
fuentes de información no estructurada como pueden ser las redes sociales.
Smart City: la gestión de los servicios públicos de una ciudad tiene un gran
potencial de optimización mediante su digitalización y automatización de
sus operaciones. No obstante, este proceso viene condicionado por las
características de la información inherente: grandes volúmenes de datos,
procedentes de múltiples canales (sensores, cámaras, redes sociales,
smartphones,….) y sin estructuración previa. En este ámbito, Big Data
merece una atención especial. Así mismo, tan importante puede llegar a ser
el valor actual (online) como el histórico acumulado para la obtención de
conclusiones.
VENTAJAS, BENEFICIOS E IMPORTANCIA DEL BIG DATA EN LAS
EMPRESAS
Uno de los mayores beneficios del Big Data es que permite a las empresas
la posibilidad de recopilar y analizar una gran variedad de datos de cientos
de fuentes distintas en tiempo real. Esto consigue que podamos aumentar
la fidelidad del cliente entablando con ellos interacciones más eficaces y
mejores propuestas de marketing, que en última instancia conducen a la
empresa a conseguir un ciclo de vida más largo y rentable del cliente.
Además la capacidad de análisis del Big Data, proporciona a las
organizaciones perfiles completos de los clientes, lo que permite
5
conseguir experiencias de cliente más personalizadas en cada punto donde
se realiza un contacto a través de todo el recorrido del comprador.
Por otro lado, las grandes soluciones de gestión de Big Data eliminan los
nichos de datos de forma que las organizaciones obtienen una visión única
del cliente de 360 grados que incluye un sinnúmero de métricas
descriptivas, calculadas y específicas de su industria que permiten la
construcción de un registro detallado del comportamiento de cada cliente
individual. Estos perfiles proporcionan a las organizaciones
una comprensión global de sus clientes a través de un conocimiento
profundo del cliente y de sus operaciones.
La realidad es que el volumen de datos
sigue creciendo, y su potencial para los
negocios también parece estar creciendo
exponencialmente a medida que las
soluciones de gestión de Big Data
evolucionan. Y esto permite a las empresas
convertir los datos brutos en tendencias
relevantes, predicciones y proyecciones con
una precisión sin precedentes. Una lista de
algunos de los beneficios del Big
Data podría incluir:
Puede proporcionar ideas provenientes de enormes cantidades de datos
de múltiples fuentes que incluyen a aquellos que ya están almacenados
en bases de datos de la empresa, las que provienen de fuentes
externas de terceros, de Internet, redes sociales, etc.
Monitorización y previsión en tiempo real de eventos que pueden afectar
el rendimiento o las operaciones de los negocios.
Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y
visualizar datos con diferentes herramientas.
Identificación de información importante que puede mejorar la calidad de
la toma de decisiones.
Capacidad de mitigar riesgos mediante la optimización de decisiones
complejas acerca de eventos no planificados con mayor rapidez.
Identificación de las causas fundamentales de fallos y problemas en
tiempo real.
Comprensión plena del potencial del marketing basado en datos.
Generación de ofertas a clientes basadas en sus hábitos de compra.
Mejora del compromiso del cliente y aumento de su fidelidad.
6
Reevaluación del portfolio de riesgos de forma rápida.
Personalización de la experiencia del cliente.
Añadiendo valor a las interacciones con los clientes online y offline.
Otra forma de ver los beneficios del Big Data es a través de estas 8
cualidades requeridas por las empresas y que están presentes en el Big
Data:
Big Data es oportuno: el 60% de cada día de trabajo, los trabajadores
del conocimiento lo pasan tratando de encontrar y gestionar los datos.
Big Data puede proveer informes oportunos de forma inmediata.
Big Data es accesible: la mitad de los altos ejecutivos indican que el
acceso a datos correctos suele ser difícil.
Big Data es holístico: la información se encuentra almacenada
actualmente en silos dentro de la organización. Los datos de marketing,
por ejemplo, los puedes encontrar en análisis web, análisis de móviles,
análisis sociales, sistemas CRM, herramientas de pruebas A/B, sistemas
de email marketing, y mucho otros sitios… cada uno con su enfoque en
su silo.
Big Data es confiable: cosas tan simples como el aseguramiento de los
datos de contacto correctos de los clientes a través de la revisión de
múltiples sistemas puede ahorrar miles de euros en comunicaciones
incorrectamente enviadas.
Big Data es pertinente: el 43% de las empresas no están satisfechas con
la capacidad de sus herramientas para filtrar datos irrelevantes.
Big Data es seguro: un incumplimiento de seguridad de los datos cuesta
cientos de euros por cliente.
Big Data es preciso: las organizaciones luchan con múltiples versiones
de la verdad dependiendo cual sea la fuente de sus datos. Combinando
múltiples fuentes fiables, más compañías pueden producir fuentes de
inteligencia altamente precisas.
Big Data es utilizable: muchas compañías toman malas decisiones
debido a datos obsoletos o malos. Big Data puede asegurar que los
datos son utilizables sin temor a equivocaciones.
VENTAJAS, BENEFICIOS E IMPORTANCIA DEL BIG DATA EN LA
ADMINISTRACIÓN DE LAS RELACIONES CON LOS CLIENTES
7
Algunas de las ventajas de utilizar este tipo de herramientas para los
profesionales del marketing son el de predecir el comportamiento ya
que con estas es posible identificar los patrones de consumo de los
usuarios en base a la información que estos vuelcan a la red. Es así
como las compañías podrán ofrecer los productos indicados en el
momento indicado para la oportunidad. Otra de las ventajas es la de
poder segmentar las campañas dirigidas a un target mucho más definido
que en el pasado. A partir del análisis de los grandes volúmenes de
datos, los profesionales del marketing podrán saber quién compra qué
producto, cuándo y dónde y orientar sus esfuerzos en base a eso.
Además, a partir del análisis del comportamiento de los usuarios las
empresas tendrán información necesaria como para elaborar productos
que respondan a necesidades específicas.
Por otro lado, permite a las empresas contar con información de los
gustos de los usuarios y su comportamiento, permite aprovechar datos
que los clientes generan por fuera de las propias empresas. Es aquí
donde radica el carácter innovador de la tecnología: no se trata de ir a
preguntar a los clientes qué quieren, sino de interpretar la información
que ellos mismos dan a través del comportamiento en redes sociales,
correo electrónico, búsquedas en internet, compras online, etc.
Debido a los beneficios
que trae al área, los
departamentos de
marketing deberían ser
pioneros en la
implementación de esta
tecnología.
En conclusión la adopción del Big Data facilita a las empresas la
implantación de acciones específicas para aumentar la confianza y
lealtad del cliente. El objetivo a medio y largo plazo será convertirlo en
un cliente asiduo y en embajador de la marca.
DESVENTAJAS, PROBLEMAS POTENCIALES O DIFICULATES EN
LA IMPLEMENTACIÓN
Correlación: Que algo suceda no quiere decir que tenga una correlación
que nos afecte. Por ejemplo que la gente que viene a trabajar los lunes
esté más cansada y que los lunes tengamos más trabajadores que
vienen en bus no quiere decir que al venir en bus se cansen más. Puede
ser que su fin de semana fuera agotador.
Ahora ya no se pueden trazar estadísticas desde el despacho de la
oficina, se tiene que hacer experimentos en el mundo real y comprobar
que las hipótesis con sus conclusiones son ciertas.
No todas las organizaciones (incluida la administración) son capaces o
tienen ganas de adaptarse.
8
Comprender los resultados: Prácticamente cualquier ordenador ahora te
puede calcular grandes cantidades de datos, pero detrás de los
resultados tiene que haber una conclusión. Los números por si solos son
estériles, tiene que haber una parte humana para interpretar los
resultados correctamente y sacar las conclusiones acertadas.
Problemas de base: ¿Todos los datos están en un mismo sitio? ¿Los
poseedores de estos son las mismas personas? Puede pasar que en
una empresa los datos estén repartidos entre los diferentes
departamentos y almacenados de distintas formas. Esto requeriría una
colaboración distinta entre los distintos departamentos de la misma
empresa.
Pero no sólo esto, sino que también puede pasar que la empresa no sea
la propietaria de los datos y consecuentemente no los puedas usar en
según qué circunstancias o necesites permisos.
Problemas de identificación: Esta es la incapacidad de identificación de
los datos. Pongo un ejemplo más aclarador. Si lo que transmite datos es
una tarjeta SIM como sabemos si es hombre o mujer, su edad… Los
datos son de más utilidad si están ligados con las personas.
Problemas de privacidad: cada vez más los clientes quieren tener más
control sobre sus datos y en qué forma se usan, por lo que normalmente
tienen que autorizar un permiso expreso para que sus datos se usen. A
parte de esto la ley de cada país dictamina como se tienen que tratar
estos datos, y en ocasiones como España, esta ley es muy dura. Todo
esto puede terminar como 1984 de George Orwell.
Información desactualizada: Algunas veces nos entestamos en guardar
datos. Esto es bueno para hacer predicciones, pero no por eso tenemos
que dejar de adquirir nueva información. Basar decisiones en datos
desactualizados no es muy sabio. Siempre es mejor tener información
actualizada, forzando un poco más la situación podemos encontrar el
ejemplo de que un cliente se ha mudado y la residencia que tenemos ya
no es válida.
Incapacidad de tratamiento de la información en tiempo real: Algunas
veces no vamos a necesitar los datos de inmediato, pero otras veces sí
que necesitamos saber los resultados progresivos para actuar al
respeto. Por ejemplo, ¿de que sirve tener los niveles de existencias si
sólo se calculan una vez por semana? Si los tienes actualizados
posiblemente no tengas problemas de aprovisionamiento. Sé que es un
ejemplo infrecuente raro pero sirve.
No todos los datos son información: hay infinidad de motivos por los
cuales el 100% de nuestros datos no aportan información. Como por
ejemplo duplicidad de datos P.ej. Retweets manuales (o la misma
información en diferentes redes sociales), backups, etc.
9
Problemas de relevancia: No toda la información tiene la misma
importancia. Hay ruido en Internet, pero además para lo que algunos
puede ser ruido para otros puede ser música. Seguro que los diarios
Chinos son importantes para los Chinos, pero para mí no me aportarían
demasiado a menos que viviera allí.
HERRAMIENTAS DE SOFTWARE DISPONIBLE EN EL MERCADO, CON
EXPLICACIÓN DE SUS PRESTACIONES
La evolución de la tecnología y los menores costos de almacenamiento
han hecho posible que las aplicaciones de Big Data estén aumentando.
Sin embargo, definir la infraestructura para un proyecto no es una tarea
sencilla, recordemos que una plataforma tecnológica para esta actividad
debe facilitar muy rápidamente la recopilación, el almacenamiento y el
análisis de grandes volúmenes de datos, los cuales además pueden
estar en diferentes formatos ó inclusive generándose en tiempo real, y
que a diferencia de los “sistemas tradicionales” -por razones de
eficiencia- la forma de tratar y analizar la información debe ser
trasladada directamente a los datos sin precargarlos en memoria. Razón
por la que deben considerarse sistemas distribuidos1 o basados en
clústeres 2 tanto para el procesamiento como el almacenamiento de la
información.
En lo referente al software requerido para administrar los recursos de
una plataforma de Big Data, debido a que estamos hablando de trabajar
con arreglos de computadoras (servidores) y clústeres de
almacenamiento -que deben operarse en conjunto como un solo
sistema– resulta evidente que se requiere de un entorno de trabajo
“Framework 3”, capaz de administrar, distribuir, controlar y procesar
rápidamente los datos dentro de los arreglos de sistemas
computacionales y de almacenamiento.
Hoy en día el principal framework utilizado para Big Data, es Hadoop4
cuyo desarrollo pertenece a: The Apache Software Foundation, misma
que otorga el permiso para utilizar sus programas sin costo.
El proyecto original de Apache Hadoop incluye los siguientes módulos
funcionales:
•Hadoop Distributed File System (HDFS™): Sistema distribuido y creado
para trabajar con archivos de gran tamaño escrito en Java con un muy
alto desempeño.
• Hadoop MapReduce: Sistema para escribir aplicaciones de
procesamiento en paralelo para grandes cantidades de datos en
sistemas de procesamiento distribuido o clústeres.
• Hadoop YARN: (Yet Another Resource Negotiator). Plataforma de
trabajo que permite la programación de las tareas y la gestión de los
10
recursos de clústeres. (Es básicamente una nueva generación del
software de MapReduce MRv2 para la administración de clústeres).
• Hadoop Common: Utilerías necesarias para soportar al resto de los
módulos de Hadoop. Estas proporcionan acceso a los sistemas de
archivos soportados. De hecho contiene los archivos en Java (“.jar”) y
los scripts necesarios para hacerlo correr.
IBM Operations Analytics
¿Qué puede hacer por su empresa?
El insight sobre tendencias negativas y anomalías en su entorno e
infraestructura de TI facilita que se tomen medidas de forma proactiva y
ordenada. IBM Operations Analytics presenta paneles de control
detallados para identificar posibles cuellos de botella y problemas, a
partir de terabytes de datos operativos, para abordar rápidamente la
causa de los impactos potenciales sobre el servicio.
03:04
Reduzca los costos operativos
Permita que las capacidades de aprendizaje continua de IBM Operations
Analytics conozcan su entorno, establezcan y mantengan umbrales de
rendimiento en aplicaciones y recursos.
Mejore el tiempo promedio de reparación
Busque rápidamente entre terabytes de datos estructurados y sin
estructurar. Obtenga asesoramiento experto para acelerar el diagnóstico
de problemas. Reduzca los tiempos de los ciclos de consultas por
problemas en un 98 %.
Evite cortes de servicio
Detecte comportamiento anómalo en su entorno a través de
notificaciones proactivas de problemas operativos incipientes antes de
que se corten sus servicios.
Mejore la eficiencia operacional
Incremente la eficiencia de las operaciones de TI, hasta un 90 %, con los
estudios analíticos avanzados de tickets. Obtenga insights sobre las
11
zonas activas y respaldo para la toma de decisiones para establecer
prioridades en los tickets.
https://www.ibm.com/ar-es/marketplace/it-operations-analytics
Amazon Web Services
Proporciona una amplia gama de servicios que le ayudarán a crear e
implementar aplicaciones de análisis de big data de forma rápida y
sencilla. AWS ofrece un acceso rápido a recursos de TI económicos y
flexibles, algo que permitirá escalar prácticamente cualquier aplicación
de big data con rapidez, incluidos almacenamiento de datos, análisis de
clics, detección de elementos fraudulentos, motores de recomendación,
proceso ETL impulsado por eventos, informática sin servidor y
procesamiento del Internet de las cosas. Con AWS no necesita hacer
grandes inversiones iniciales de tiempo o dinero para crear y mantener
la infraestructura. En su lugar, puede aprovisionar exactamente el tipo y
el tamaño adecuado de los recursos que necesita para impulsar sus
aplicaciones de análisis de big data. Puede obtener acceso a tantos
recursos como necesite, prácticamente al instante, y pagar únicamente
por los utilice.
“Cree prácticamente cualquier aplicación de análisis de big data; admita
cualquier carga de trabajo independientemente del volumen, la velocidad
y la variedad de los datos. Con más de 50 servicios y cientos de
características añadidos todos los años, AWS le proporciona todo lo
necesario para recopilar, almacenar, procesar, analizar y visualizar big
data en la nube”.
VIDEO
Para el análisis del Big Data nos encontramos con un video que explica
en forma gráfica y resumida qué es el Big Data, cómo funciona y los
fundamentos de su aplicación. También el video brinda un ejemplo claro
y sintético del uso del Big Data y de su beneficio para las empresas.
Por otro lado, presenta algunos de los problemas que pueden darse a la
hora de implementar y utilizar el Big Data. Como vimos a lo largo del
trabajo, estos problemas pueden ser diversos, pero los que nombra el
video son: la velocidad para manipular los datos y la diversidad de los
formatos en que se pueden presentar.
Finalmente antes de concluir, el video menciona algunas de las
perspectivas para el futuro relativas al Big Data y como este es cada vez
más importante y necesario para desarrollar buenos productos y obtener
una ventaja competitiva.
Elegimos este video para mostrar durante la presentación, ya que
consideramos que es un material breve que nos ayudará a aclarar de
12
qué se trata el tema que investigamos (Big Data) y terminará de despejar
las dudas a nuestros compañeros sobre su funcionamiento y beneficios.
https://www.youtube.com/watch?v=mqMFMgVnRO8
PERSPECTIVAS FUTURAS
Este nuevo mundo de los datos y cómo las empresas pueden
aprovecharlo, choca de frente con dos áreas relativas a la política
pública y a las regulaciones existentes.
La primera es el empleo. El Big Data y los algoritmos asociados desafían
a los altamente cualificados trabajadores de la información en el siglo
XXI de la misma manera que la automatización de fábricas y la línea de
ensamblaje erosionaron la mano de obra poco cualificada en los siglos
XIX y XX.
Pero hay beneficios: El Big Data traerá consigo grandes cosas para la
sociedad. Nos gusta pensar que la tecnología conduce a la creación de
empleo, incluso si viene después de un período temporal de disrupción.
Eso es lo que ocurrió durante la Revolución Industrial. Sin duda, fue una
época turbulenta, pero al final condujo a una mejor calidad de vida en
global.
Sin embargo, esta perspectiva optimista ignora el hecho de que algunas
industrias simplemente nunca se recuperarán del cambio. Cuando los
tractores y los automóviles reemplazaron los arados y los carros tirados
por caballos, la necesidad de caballos en la economía terminó
abruptamente.
Los trastornos de la Revolución Industrial crearon un cambio político y
dieron lugar a nuevas filosofías económicas y movimientos políticos. No
supone demasiado ejercicio intelectual predecir que surgirán nuevas
filosofías políticas y movimientos sociales alrededor del Big Data, los
robots, los ordenadores e Internet, y el efecto de estas tecnologías sobre
la economía y la democracia representativa.
El segundo ámbito con el que choca de frente el Big Data es la
privacidad. Por supuesto, la privacidad suponía un problema incluso con
el “Small Data”, pero resulta un desafío mucho mayor en la era del Big
Data. En este caso, también, más es diferente. La naturaleza de la
protección de la información personal cambia cuando las amenazas
potenciales a la privacidad no ocurren diariamente o cada hora, sino mil
veces por segundo. También cambia cuando el acto de captura de datos
ocurre de forma invisible y pasiva, como subproducto de otros servicios,
en lugar de abierta y activamente. Es difícil imaginar cómo funcionarán
las leyes clásicas de privacidad en ese mundo, o cómo una persona
cuya privacidad ha sido violada tomará acción o incluso se dará cuenta
siquiera de la situación.
13
Aunque la cosa se pone peor. Una de las bases de las leyes sobre
privacidad en todo el mundo es el principio de que una entidad debe
eliminar los datos una vez que han cumplido su propósito primordial. Sin
embargo toda la lógica del Big Data resulta en que debemos guardar los
datos para siempre, porque hoy en día no podemos conocer todas las
maneras provechosas en que podría utilizarse el día de mañana.
Por esa razón, necesitamos legisladores que entiendan que las reglas
que gobiernan el Big Data no pueden ser más, es decir, más de lo
mismo. De hecho, las normas de hoy en día realizan un trabajo bastante
pobre en materia de protección de la privacidad. En su lugar, las grandes
empresas que trabajan con Big Data están reclamando regulaciones que
sean nuevas, mejores y, por supuesto, diferentes.
El Big Data cambiará a las empresas y las empresas cambiarán a la
sociedad. La esperanza, por supuesto, es que los beneficios superen a
los inconvenientes. El mundo del Big Data sigue siendo muy nuevo y,
como sociedad, no somos muy buenos manejando todos los datos que
podemos recopilar hoy en día. Tampoco podemos prever el futuro. La
tecnología seguirá sorprendiéndonos, al igual que lo haría un hombre de
la antigüedad con un ábaco mirando un iPhone. Lo cierto es que más no
será más: será diferente.
CASOS DE ÉXITO
Netflix
La estadística nos muestra una vez más que poseer información y saber
hacia dónde dirigirla puede ser la diferencia entre una empresa que tiene
éxito y otras que no. Como ejemplo, el uso del Big Data para la creación
de series en Netflix.
Desde el 2006, año en el que dicha empresa anunció el Netflix Prize
para el mejor algoritmo, se puede rastrear la estrategia de Big Data por
parte de la empresa. Ésta consiste en representar visualmente la
información abstraída de manera esquematizada, lo cual hacen de forma
continua en la creación de series
para estar siempre actualizadas.
Los datos que recopila Netflix son
directamente obtenidos de la
plataforma, ya que de su
audiencia saben qué preferencias
tiene por lo que ve, lo que no ve,
lo que deja de ver, el momento en
el que detiene la reproducción, si repiten la reproducción, si la adelantan
y hasta si la abandonan.
14
Dichos datos son analizados junto con la información de las horas que
pasa el espectador en la plataforma, el medio o gadget que utiliza, el
lugar geográfico del usuario y qué tipo de uso realiza de su plataforma.
Asimismo, la información que de manera voluntaria ofrecen directamente
los espectadores con base a la valoración de cada producto audiovisual,
ayuda a la creación del Big Data.
Como ya todos saben, Netflix es una plataforma de series, películas y
documentales que se retransmite
en streaming, indiscutiblemente se
encuentra en auge y en plano
apogeo, y ha sido la precursora de
las plataformas como HBO,
Amazon.
Ha sido la pionera en utilizar el
análisis de datos masivo o “Big
data”, pues en 2013 se emitió por primera vez una serie creada con la
ventaja competitiva de saber de antemano que será un éxito seguro
antes de emitir el primer capítulo, House Of Cards.
¿Cómo fue posible esto? House Of Cards es el resultado de un
algoritmo que había analizado previamente los gustos de los usuarios de
Netflix. Por eso, se supo que una serie británica retransmitida por la BBC
en 1990 era la base de este nuevo éxito del entretenimiento. Según este
algoritmo el hecho de que Kevin Spacey fuera protagonista de un film,
era éxito asegurado, y que cuándo más gustaba este actor era en
películas dirigidas David Fincher (Seven, 1995).
Otra cuestión muy importante que se descubrió gracias al Big Data, es
que el público suscriptor de Netflix tenía como costumbre ver grandes
maratones de series durante los fines de semana, es decir, ven series
como entretenimiento y como descanso de la semana laboral. Por ello,
se decidió por primera vez, poner a disposición del usuario, todos los
capítulos de la primera temporada (13 capítulos) de una serie de una
sola vez.
Gracias al Big Data, Netflix conocía perfectamente a qué personaje
tendría que “matar” para hacer la serie más interesante, para ello
estudian:
Las valoraciones hechas por los usuarios
Las búsquedas que se realizan en la plataforma
Los dispositivos en los que se reproduce el catálogo de productos
Cuánto tiempo invierten los usuarios en este entretenimiento y qué días
de la semana
Si ven los capítulos enteros o parcialmente
Las preferencias que tienen en común los usuarios con sus amigos
15
Las tendencias de una misma zona geográfica como actores más
valorados, directores o género de los títulos.
En definitiva, el Big Data, tiende a ser la opción más acertada para
generar entretenimiento al espectador, se ha convertido -y comprobado
queda- que el uso de esta nueva tecnología es un la opción más
recomendada para la industria en general, pues la posibilidad de crear
exactamente lo que al público le gusta, es lo más acertado para el
beneficio de estas producciones. Por lo tanto, el uso de Big Data en la
industria, otorga la posibilidad de crear campañas mucho más
eficaces. Siendo de esta manera, la utilización del Big Data, garantía de
éxito.
La estadística nos muestra una vez más que poseer información y saber
hacia dónde dirigirla puede ser la diferencia entre una empresa que tiene
éxito y otras que no. Como ejemplo, el uso del Big Data para la creación
de series en Netflix.
Met Office
Radicado en Exeter, Inglaterra, Met Office es un prestigioso servicio
meteorológico nacional del Reino Unido. Como Departamento
gubernamental autofinanciado del Departamento de estrategia
empresarial, energética e industrial, la organización ha suministrado
información meteorológica durante más de 160 años, incluidos
pronósticos semanales, gráficos de presión superficial, pronósticos de
niveles de polen, pronósticos extendidos, entre otros. Brinda datos
fundamentales a los sectores de defensa, energía, transporte, defensa
civil y aviación. Met Office también ofrece orientación de nivel
internacional sobre la ciencia del cambio climático y es la organización
con mayor interés en la ciencia climática en el Reino Unido.
Met Office usa dos
superequipos operativos (la
undécima implementación
más grande en su tipo a
nivel mundial) en un
entorno on-premise que
cuenta con modelos
meteorológicos numéricos
que aplican las leyes de la
física a más de 300
millones de observaciones
recopiladas diariamente. La
organización realiza 20
cuatrillones de cálculos y
genera más de 4 millones
de pronósticos.
16
Si bien los datos meteorológicos se almacenan y procesan localmente,
Met Office necesitaba una manera ágil y rentable de permitirles a los
ciudadanos, a las empresas y a los gobiernos acceder a estos datos
bajo demanda. Como la implementación on-premise es un entorno
particularmente sofisticado, la protección y las autorizaciones
representan un desafío. "Lo más difícil es convertir el enorme volumen
de datos en información que se pueda usar y comunicar, además de
transmitirse en una arquitectura con un alto nivel de seguridad", dice
James Tomkins, jefe de arquitectura de TI empresarial de Met Office.
Para aumentar la agilidad y flexibilidad de su infraestructura on-premise,
Met Office (que cuenta con un exabyte [1018 bytes] de datos archivados
on-premise) buscó una manera de enviar cargas de datos a los usuarios
que utilizan la información mediante tablets y smartphones. Necesitaba
una solución que pudiera escalarse para admitir eventos con altos
niveles de tráfico, como la tormenta Katie ocurrida en marzo de 2016.
Durante dicha tormenta, que incluyó ráfagas de viento de 60 millas por
hora en Londres y provocó la cancelación de una gran cantidad de
vuelos, Met Office recibió un 200% más de visitas.
Met Office también necesita atender las solicitudes de acceso de
terceros a los datos atmosféricos y climatológicos. Por ejemplo, el sector
de la aviación es uno de los principales consumidores de datos
meteorológicos, un recurso fundamental para su funcionamiento.
Además de la creciente demanda procedente de todo tipo de entidades
gubernamentales y comerciales, Met Office también necesita poder
intercambiar grandes volúmenes de datos con la comunidad
meteorológica, cuyo nivel de colaboración es muy elevado.
"En la última década, hubo un cambio radical en la manera de pensar de
las personas en relación con la información meteorológica", dice
Tomkins. "Las personas están comenzando a entender las
consecuencias que tienen el cambio climático y los eventos
meteorológicos en sus empresas. Los nuevos casos de uso pueden
incluir desde operaciones de venta al por menor hasta compañías de
energía renovable, organizaciones que desean analizar de qué manera
la información meteorológica afecta los comportamientos en su nicho de
mercado".
Al momento de definir una estrategia tecnológica, Met Office eligió a
Amazon Web Services (AWS) para respaldar la aplicación Met Office
Weather App, disponible para iPhones y teléfonos con Android. "En un
principio, la elección de AWS fue una decisión táctica", dice Tomkins.
"Era la única manera que considerábamos viable para prestar este
servicio. Todos los datos que pueden accederse mediante la aplicación
están hospedados en AWS".
La arquitectura de AWS de la organización incluye Amazon Elastic
Compute Cloud (Amazon EC2), un servicio web que escala
automáticamente y le permite a Met Office tener un control completo de
17
sus recursos informáticos. Met Office también utiliza AWS Lambda, que
permite ejecutar código backend sin la necesidad de aprovisionar
servidores. Lambda responde a eventos que incluyen cargas de objetos
en buckets en Amazon Simple Storage Service (Amazon S3),
actualizaciones de tablas en Amazon Relational Database Service
(Amazon RDS) o actividad en el interior de las aplicaciones.
Para poder atender picos de demanda de consultas meteorológicas de
lectura pesada, Met Office implementó Amazon ElastiCache para
recuperar datos de cachés en memorias ágiles y administradas. Esta
tecnología se utiliza para crear sistemas de recopilación de datos
distribuidos y controlar metadatos y estadísticas en tiempo real
asociadas con aplicaciones móviles. Es ideal para soluciones que
incluyen cálculos matemáticos complejos porque puede almacenar en
caché los resultados computacionales.
Recientemente, la organización comenzó a probar Amazon API Gateway
para crear, publicar, monitorear y proteger una serie de API de datos
para facilitar el intercambio dinámico de contenido, que puede incluir
pronósticos semanales específicos para un determinado lugar para
cualquier ubicación a nivel mundial, contenido sindicado y alertas para
eventos meteorológicos en el Reino Unido. Los usuarios pueden
personalizar el uso del servicio meteorológico.
Desde el lanzamiento de la aplicación Met Office Weather App en enero
de 2016, esta atrajo a más de medio millón de usuarios. "Estamos
pensando seriamente de qué manera usar la nube de una manera más
estratégica", dice Tomkins. "Las API que estamos creando actualmente
permitirán la entrega de nuestros datos a medida que nos apartemos del
modelo de entrega basado en FTP que utilizamos tradicionalmente".
La organización contrató a Cloudreach, un socio preferente de AWS,
para respaldar las operaciones de la aplicación Met Office Weather App.
Mediante el uso de Amazon Cloud Adoption Framework, Met Office
determinó que podía crecer en términos de madurez en la nube, por lo
que decidió contratar a los asesores de Cloudreach para optimizar sus
capacidades internas. "Cloudreach nos ayudó a prestar nuestros
servicios", dice Tomkins, "por lo que pudimos agilizar el nivel de
madurez en varias áreas del espacio en la nube".
Met Office ahora cuenta con un equipo de operaciones en la nube con
cinco especialistas. El objetivo de la organización es optimizar los costos
mediante el uso de los componentes sin servidor y los modelos de
precios de Amazon EC2 reservados en los próximos meses. Planea
incorporar Amazon EC2 Container Service (Amazon ECS) para ejecutar
aplicaciones en un clúster administrado de las instancias de Amazon
EC2. La siguiente arquitectura en la nube de iteración de Met Office
probará el uso de Amazon Direct Connect para conectar de manera
segura resultados de los superequipos con la nube.
18
Gracias al uso de AWS, Met Office logró aumentar los niveles de
agilidad, velocidad y escalabilidad, además de reducir costos. Tomkins
informa que el aprovisionamiento de infraestructura se redujo de meses
a minutos y la entrega de datos a los clientes ahora lleva 10 segundos,
en vez de 10 minutos. "El almacenamiento de nuestros datos ahora
escala casi de manera lineal en un 1 000 por ciento, mientras que la
arquitectura anterior no podía admitir un aumento del 50 por ciento", dice
Tomkins. "Además, la iteración de la arquitectura de nuestra solución
eliminó más del 50 por ciento del costo de nuestro diseño inicial para
nuestra solución on-premise".
La organización se siente sólida en relación con la seguridad de sus
datos y el equipo de autorizaciones está satisfecho con las capacidades
de monitorización y auditoría provistas por las herramientas de AWS, un
nivel de madurez que Met Office no podía ofrecer de una manera tan
rentable. "Es posible lograr un número de patrones de seguridad de
prácticas recomendadas con la llamada a una API", dice Tomkins.
"Podemos cifrar y automatizar para lograr un alto nivel de coherencia.
Podemos aislar sistemas y controlar el acceso de una manera estricta.
Estas capacidades son más difíciles de lograr en nuestro entorno
interno, pero están listas para usar con AWS".
Met Office logró aprovechar los servicios de AWS para aprovisionar
infraestructura e implementar aplicaciones en esta. La automatización de
cargas de trabajo que anteriormente consumían mucho tiempo le
permite a la organización iterar y lanzar aplicaciones nuevas con una
frecuencia 30 veces superior, una oportunidad que cambia las reglas del
juego. Además, Met Office puede incrementar rápidamente su capacidad
cuando la carga de trabajo aumenta y luego cancelar recursos que ya no
resulten necesarios. "Con AWS, podemos aumentar la capacidad para
distribuir y suministrar grandes volúmenes de datos a un gran número de
equipos", dice Tomkins.
Mediante la incorporación de AWS, Met Office pudo innovar y realizar
pruebas de una manera que antes resultaba imposible. Por ejemplo, en
un día, la organización comparó fácilmente el rendimiento y la
rentabilidad de tres soluciones backend de almacenamiento de AWS
diferentes. "No hubiésemos podido comparar las tres opciones on-
premise debido a los plazos", dice Tomkins. "Con AWS, pudimos
aprovisionar dichos servicios, ejecutar algunas pruebas y eliminarlas
nuevamente de una manera muy fácil. Sin la nube, este proceso nos
hubiera llevado meses (y, de hecho, directamente no lo hubiésemos
hecho). Ahora podemos equivocarnos rápidamente y de manera
asequible en términos de probar diferentes arquitecturas".
CONCLUSIONES
Luego realizar una investigación en profundidad sobre el Big Data y sus
usos y aplicaciones en las empresas podemos observar que son cada
19
vez más las empresas que obtuvieron grandes resultados de negocios a
partir de la implementación del Big Data.
Como explicamos a lo largo del presente trabajo, los usos de este
sistema son muy diversos. Particularmente nos llamó la atención los
casos de 2 empresas: Neflix y Met Office.
En el caso de Netflix el Big Data fue aplicado al desarrollo de un nuevo
producto: la conocida serie “House of Cards”. El éxito de esta tira se
fundamenta en que Netflix la desarrollo a partir del uso del Big Data para
medir las interacciones de sus usuarios en su plataforma. De esta forma,
se captaban la cantidad de clicks, los géneros más visto, la cantidad de
capítulos vistos por día, entre otros aspectos. A través del análisis de
estos datos lograron obtener lo que los usuarios esperaban: una serie
que combinara suspenso, crimen, política y poder. Para concluir, Netflix
pudo asegurarse el éxito de su nueva producción antes del lanzamiento
gracias al uso del Big Data.
Distinto es el caso de Met Office que le da un uso distinto que Netflix al
Big Data. Esta empresa no lo utiliza para desarrollar un producto sino
para brindar el servicio del que se trata su negocio: la meteorología. La
aplicación del Big Data para esta empresa es fundamental debido al
volumen de datos que procesan para luego transformarlos en
información valiosa para sus clientes.
Bibliografía:
https://aws.amazon.com/es/big-data/?
sc_channel=PS&sc_campaign=acquisition_AR&sc_publisher=google&sc_medium=english_
big_data_b&sc_content=big_data_e&sc_detail=amazon%20big
%20data&sc_category=big_data&sc_segment=160711758922&sc_matchtype=e&sc_count
ry=AR&s_kwcid=AL!4422!3!160711758922!e!!g!!amazon%20big
%20data&ef_id=Wa69uQAAAb@5z2y6:20170905150737:s
https://www.ibm.com/ar-es/marketplace/it-operations-analytics
http://www.puromarketing.com/12/24949/big-data-gran-oportunidad-perotambien-
fuente-problemas-para-empresas.html
https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/
http://www.iic.uam.es/innovacion/big-data-caracteristicas-mas-importantes-7-v/
http://globalmedia-it.com/clientes-y-big-data-una-relacion-que-se-consolida-
en-el-mundo-del-marketing/
20
21