0% encontró este documento útil (0 votos)
45 vistas14 páginas

Big Data

Este documento habla sobre Big Data. Define Big Data como conjuntos de datos muy grandes y complejos que son difíciles de manejar con herramientas tradicionales debido a su volumen, velocidad, variedad y veracidad. Explica que Big Data es importante porque permite a las empresas identificar problemas y oportunidades de una manera más comprensible, tomar decisiones más rápidas y crear nuevos productos y servicios. También describe algunas utilidades y objetivos de Big Data, como el análisis de negocios para mejorar la toma de decisiones y la investig

Cargado por

Popeye Troll
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
45 vistas14 páginas

Big Data

Este documento habla sobre Big Data. Define Big Data como conjuntos de datos muy grandes y complejos que son difíciles de manejar con herramientas tradicionales debido a su volumen, velocidad, variedad y veracidad. Explica que Big Data es importante porque permite a las empresas identificar problemas y oportunidades de una manera más comprensible, tomar decisiones más rápidas y crear nuevos productos y servicios. También describe algunas utilidades y objetivos de Big Data, como el análisis de negocios para mejorar la toma de decisiones y la investig

Cargado por

Popeye Troll
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad Autónoma del Estado de México

Diseño de sistemas computacionales

Roberto Ismael Vera Popoca

Big data

Jairo Santiago Ayala Cruz

Grupo I1
Índice

• Definiciones

• ¿Por qué Big Data es tan importante?

• Utilidades y objetivos

• Ecosistemas de Big Data

• Diferencias con el modelo relacional

• Referencias
1. Definición
Cuando hablamos de Big Data nos referimos a conjuntos de datos o combinaciones de
conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o análisis mediante
tecnologías y herramientas convencionales, tales como bases de datos relacionales y
estadísticas convencionales o paquetes de visualización, dentro del tiempo necesario para que
sean útiles.
Aunque el tamaño utilizado para determinar si un conjunto de datos determinado se
considera Big Data no está firmemente definido y sigue cambiando con el tiempo, la mayoría
de los analistas y profesionales actualmente se refieren a conjuntos de datos que van desde
30-50 Terabytes a varios Petabytes.
La naturaleza compleja del Big Data se debe principalmente a la naturaleza no estructurada de
gran parte de los datos generados por las tecnologías modernas, como los web logs, la
identificación por radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehículos, las búsquedas en Internet, las redes sociales como Facebook,
computadoras portátiles, teléfonos inteligentes y otros teléfonos móviles, dispositivos GPS y
registros de centros de llamadas.
En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con
datos estructurados (normalmente de una base de datos relacional) de una aplicación
comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM
(Customer Relationship Management).
Definición 2

Big Data se refiere a conjuntos de datos extremadamente grandes y complejos que no pueden
ser gestionados ni procesados con las herramientas de procesamiento de datos tradicionales.
Estos conjuntos de datos son caracterizados por su volumen, velocidad, variedad y veracidad,
conocidos como las "4 V's" de Big Data.
Volumen: Se refiere a la enorme cantidad de datos que se generan y recopilan continuamente.
Esto puede provenir de diversas fuentes, como redes sociales, sensores, transacciones
comerciales, registros de servidores, entre otros.
Velocidad: Hace referencia a la velocidad a la que se generan, recopilan y procesan los datos.
Algunos casos requieren el análisis en tiempo real para tomar decisiones rápidas basadas en la
información más reciente.

Variedad: Los datos pueden tener diferentes formatos y estructuras, incluyendo texto,
imágenes, videos, sonidos, datos de sensores, datos geoespaciales, etc. La capacidad de
gestionar y analizar esta variedad de datos es fundamental en el contexto de Big Data.

Además de estas tres "V", a veces se agregan otras características como "variabilidad"
(cambios en la consistencia de los datos) y "veracidad" (precisión y confiabilidad de los datos).

El objetivo principal del análisis de Big Data es extraer información valiosa, patrones,
tendencias y conocimientos significativos a partir de estos grandes conjuntos de datos. Para
abordar estos desafíos, se utilizan diversas tecnologías y herramientas, como sistemas de
almacenamiento distribuido, procesamiento paralelo, algoritmos de aprendizaje automático y
herramientas de análisis avanzado.

En resumen, Big Data se trata de lidiar con grandes cantidades de datos, provenientes de
diversas fuentes, a velocidades variables, y utilizando técnicas avanzadas para extraer
conocimientos útiles. Este enfoque es crucial en diversos campos, incluyendo negocios,
investigación científica, salud, gobierno y más.
2. ¿Por qué es tan importante Big Data?
Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a
muchas preguntas que las empresas ni siquiera sabían que tenían. En otras palabras, proporciona un punto
de referencia. Con una cantidad tan grande de información, los datos pueden ser moldeados o probados de
cualquier manera que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de
identificar los problemas de una forma más comprensible.
La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los datos permiten
que las empresas se muevan mucho más rápidamente, sin problemas y de manera eficiente. También les
permite eliminar las áreas problemáticas antes de que los problemas acaben con sus beneficios o su
reputación.
El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas
oportunidades. Eso, a su vez, conduce a movimientos de negocios más inteligentes, operaciones más
eficientes, mayores ganancias y clientes más felices. Las empresas con más éxito con Big Data consiguen valor
de las siguientes formas:
Reducción de coste. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la nube, aportan
importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos,
además de identificar maneras más eficientes de hacer negocios.

Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, combinada con
la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información
inmediatamente y tomar decisiones basadas en lo que han aprendido.

Nuevos productos y servicios. Con la capacidad de medir las necesidades de los clientes y la satisfacción a
través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más
empresas están creando nuevos productos para satisfacer las necesidades de los clientes.
Por ejemplo:
Turismo: Mantener felices a los clientes es clave para la industria del turismo, pero la satisfacción del cliente
puede ser difícil de medir, especialmente en el momento oportuno. Resorts y casinos, por ejemplo, sólo
tienen una pequeña oportunidad de dar la vuelta a una mala experiencia de cliente. El análisis de Big data
ofrece a estas empresas la capacidad de recopilar datos de los clientes, aplicar análisis e identificar
inmediatamente posibles problemas antes de que sea demasiado tarde.

Cuidado de la salud: El Big Data aparece en grandes cantidades en la industria sanitaria. Los registros de
pacientes, planes de salud, información de seguros y otros tipos de información pueden ser difíciles de
manejar, pero están llenos de información clave una vez que se aplican las analíticas. Es por eso que la
tecnología de análisis de datos es tan importante para el cuidado de la salud. Al analizar grandes cantidades de
información - tanto estructurada como no estructurada - rápidamente, se pueden proporcionar diagnósticos u
opciones de tratamiento casi de inmediato.

Administración: La administración se encuentra ante un gran desafío: mantener la calidad y la productividad


con unos presupuestos ajustados. Esto es particularmente problemático con lo relacionado con la justicia. La
tecnología agiliza las operaciones mientras que da a la administración una visión más holística de la actividad.

Retail: El servicio al cliente ha evolucionado en los últimos años, ya que los compradores más inteligentes
esperan que los minoristas comprendan exactamente lo que necesitan, cuando lo necesitan. El Big Data ayuda
a los minoristas a satisfacer esas demandas. Armados con cantidades interminables de datos de programas de
fidelización de clientes, hábitos de compra y otras fuentes, los minoristas no sólo tienen una comprensión
profunda de sus clientes, sino que también pueden predecir tendencias, recomendar nuevos productos y
aumentar la rentabilidad.

Empresas manufactureras: Estas despliegan sensores en sus productos para recibir datos de telemetría. A
veces esto se utiliza para ofrecer servicios de comunicaciones, seguridad y navegación. Ésta telemetría
también revela patrones de uso, tasas de fracaso y otras oportunidades de mejora de productos que pueden
reducir los costos de desarrollo y montaje.

Publicidad: La proliferación de teléfonos inteligentes y otros dispositivos GPS ofrece a los anunciantes la
oportunidad de dirigirse a los consumidores cuando están cerca de una tienda, una cafetería o un restaurante.
Esto abre nuevos ingresos para los proveedores de servicios y ofrece a muchas empresas la oportunidad de
conseguir nuevos prospectos.

Otros ejemplos del uso efectivo de Big Data existen en las siguientes áreas:

Uso de registros de logs de TI para mejorar la resolución de problemas de TI, así como la detección de
infracciones de seguridad, velocidad, eficacia y prevención de sucesos futuros.

Uso de la voluminosa información histórica de un Call Center de forma rápida, con el fin de mejorar la
interacción con el cliente y aumentar su satisfacción.
Uso de contenido de medios sociales para mejorar y comprender más rápidamente el sentimiento del cliente
y mejorar los productos, los servicios y la interacción con el cliente.

Detección y prevención de fraudes en cualquier industria que procese transacciones financieras online, tales
como compras, actividades bancarias, inversiones, seguros y atención médica.
Uso de información de transacciones de mercados financieros para evaluar más rápidamente el riesgo y
tomar medidas correctivas.
3. Utilidades y Objetivos de Big Data

Utilidades de Big Data:

Análisis de Negocios:

Objetivo: Obtener información valiosa para la toma de decisiones estratégicas, identificar tendencias del mercado,
mejorar la eficiencia operativa y comprender mejor a los clientes.

Ciencia e Investigación:

Objetivo: Facilitar la investigación científica al analizar grandes conjuntos de datos, como datos genómicos, datos
ambientales o datos de experimentos científicos.

Cuidado de la Salud:

Objetivo: Mejorar la atención médica mediante el análisis de datos clínicos, datos de pacientes y datos de investigación
para desarrollar tratamientos más efectivos, prever brotes de enfermedades y gestionar recursos de manera eficiente.

Internet de las Cosas (IoT):

Objetivo: Analizar grandes volúmenes de datos generados por dispositivos conectados para mejorar la eficiencia,
prevenir problemas y permitir servicios más inteligentes.

Finanzas:

Objetivo: Detectar fraudes, gestionar riesgos, realizar análisis de mercado y prever tendencias económicas mediante el
análisis de grandes cantidades de datos financieros.

Gobierno y Administración Pública:

Objetivo: Utilizar datos para mejorar la toma de decisiones gubernamentales, proporcionar servicios públicos de manera
más eficiente y abordar problemas sociales a través del análisis de datos.

Comercio Electrónico y Marketing:

Objetivo: Personalizar la experiencia del cliente, segmentar audiencias, realizar análisis de sentimientos y mejorar las
estrategias de marketing mediante el análisis de datos de comportamiento del consumidor.

Educación:
Objetivo: Personalizar la enseñanza, evaluar el rendimiento del estudiante, identificar patrones de aprendizaje y mejorar
la eficiencia de los sistemas educativos.

Objetivos de Big Data:

Optimización y Eficiencia:

Encontrar formas de mejorar procesos internos y operativos para aumentar la eficiencia y reducir costos.

Toma de Decisiones Informada:

Proporcionar información basada en datos para apoyar la toma de decisiones estratégicas y tácticas.

Innovación:

Fomentar la innovación mediante la identificación de nuevas oportunidades, productos o servicios a través del análisis
de datos.

Personalización:

Ofrecer experiencias personalizadas a clientes y usuarios basadas en el análisis de sus preferencias y comportamientos.

Predicción y Prevención:

Prever tendencias futuras, anticipar problemas y prevenir posibles riesgos mediante el análisis de datos históricos y en
tiempo real.

Mejora de la Experiencia del Cliente:

Entender las necesidades y expectativas del cliente para mejorar la satisfacción y retención del cliente.

Investigación Científica Avanzada:

Facilitar descubrimientos científicos avanzados a través del análisis de datos complejos en campos como la genómica, la
astrofísica y la biología.

Estos objetivos y utilidades destacan cómo Big Data puede ser una herramienta poderosa en la generación de valor, la
toma de decisiones informada y la mejora de procesos en una variedad de campos.
4. Ecosistemas de Big Data
El ecosistema de Big Data se refiere a un conjunto de herramientas, tecnologías y plataformas que trabajan de
manera conjunta para abordar los desafíos relacionados con el manejo, procesamiento y análisis de grandes
volúmenes de datos. Algunos de los ecosistemas de Big Data más prominentes incluyen:

Hadoop Ecosystem:

Componentes Clave:

Hadoop Distributed File System (HDFS): Sistema de archivos distribuido para almacenar datos a través de
múltiples nodos.
MapReduce: Modelo de programación y procesamiento paralelo para grandes conjuntos de datos.
Hadoop Common: Conjunto de utilidades y bibliotecas compartidas.
Uso Típico: Almacenamiento y procesamiento distribuido de grandes conjuntos de datos.

Apache Spark:

Características:
Procesamiento de datos en memoria.

Admite múltiples lenguajes de programación.


Funciones para procesamiento de datos en tiempo real.
Uso Típico: Procesamiento de datos en tiempo real y análisis de datos complejos.
NoSQL Databases:

Ejemplos:
MongoDB, Cassandra, Couchbase.
Características:

Modelos de datos flexibles.


Escalabilidad horizontal.
Uso Típico: Almacenamiento y recuperación eficiente de grandes cantidades de datos no estructurados o
semiestructurados.
Apache Flink:
Características:
Procesamiento de datos en tiempo real y por lotes.
Bajo tiempo de latencia.

Uso Típico: Procesamiento de datos en tiempo real y análisis de transmisiones de datos.


Apache Kafka:

Características:

Plataforma de transmisión de datos distribuida.


Escalabilidad y tolerancia a fallos.
Uso Típico: Ingesta y transmisión de datos en tiempo real entre sistemas.
Apache HBase:

Características:
Base de datos NoSQL distribuida.
Escalabilidad para grandes volúmenes de datos.
Uso Típico: Almacenamiento y recuperación de datos de alta velocidad.

Apache Hive:

Características:
Plataforma de almacenamiento y procesamiento de datos sobre Hadoop.

Utiliza un lenguaje similar a SQL (HiveQL) para consultas.


Uso Típico: Análisis y consulta de datos almacenados en Hadoop.
Apache Storm:

Características:
Procesamiento en tiempo real y distribuido.
Escalabilidad para flujos de datos en tiempo real.
Uso Típico: Procesamiento en tiempo real y análisis de datos de transmisión.

Estos son solo algunos ejemplos y el panorama de Big Data continúa evolucionando con el tiempo. Las
organizaciones pueden seleccionar herramientas específicas de estos ecosistemas según sus necesidades y
requisitos particulares para el análisis de grandes conjuntos de datos.
5. Diferencias con el modelo relacional

El modelo de Big Data y el modelo relacional representan enfoques diferentes para gestionar y analizar datos. Aquí hay
algunas diferencias clave entre ambos:

Tipo de Datos:

Modelo Relacional: Diseñado para manejar datos estructurados y tabulares con esquemas predefinidos. Utiliza tablas
con filas y columnas.

Big Data: Puede manejar datos estructurados, semi-estructurados y no estructurados, incluyendo texto, imágenes,
videos y otros formatos diversos.

Escalabilidad:

Modelo Relacional: Tradicionalmente, los sistemas relacionales tienen ciertas limitaciones en términos de escalabilidad
horizontal para grandes volúmenes de datos.

Big Data: Se ha diseñado para escalabilidad horizontal, permitiendo manejar grandes cantidades de datos distribuidos en
clústeres de servidores.

Estructura de Esquema:

Modelo Relacional: Requiere un esquema fijo y estructurado antes de cargar los datos. Cambiar el esquema puede ser
complicado.

Big Data: Puede manejar esquemas dinámicos y cambiar la estructura de los datos fácilmente. Admite la ingesta de datos
sin un esquema definido de antemano.

Procesamiento de Datos:

Modelo Relacional: Utiliza consultas SQL para el análisis de datos. El procesamiento se realiza mediante operaciones de
conjunto.

Big Data: Utiliza tecnologías como MapReduce, Apache Spark, y otras herramientas específicas para procesar grandes
volúmenes de datos distribuidos.

Velocidad de Procesamiento:

Modelo Relacional: Eficiente para operaciones de consulta complejas en conjuntos de datos estructurados. Menos
eficiente para procesamiento en tiempo real.

Big Data: Puede manejar el procesamiento en tiempo real y análisis de datos en movimiento con velocidades de
procesamiento más rápidas.
Flexibilidad:

Modelo Relacional: Menos flexible cuando se trata de datos no estructurados o cambiantes.

Big Data: Mayor flexibilidad para manejar diferentes tipos de datos, incluidos los no estructurados, y adaptarse a cambios
en la estructura de los datos.

Costos:

Modelo Relacional: Tradicionalmente, puede ser más costoso de escalar y mantener, especialmente para grandes
volúmenes de datos.

Big Data: Ofrece opciones de almacenamiento y procesamiento más escalables y, en algunos casos, puede ser más
rentable para grandes cantidades de datos.

Ambos enfoques tienen sus fortalezas y debilidades, y la elección entre el modelo relacional y el modelo de Big Data a
menudo depende de la naturaleza de los datos, los requisitos de rendimiento y las metas específicas del análisis. En
muchos casos, las organizaciones optan por soluciones híbridas que combinan elementos de ambos enfoques para
aprovechar las ventajas de cada uno.

Cuadro comparativo

Característica Modelo Relacional Big Data

Estructurados, tabulares con Estructurados, semi-estructurados, no


Tipo de Datos esquemas predefinidos estructurados

Vertical (aumento de capacidad en el Horizontal (añadir nodos para aumentar la


Escalabilidad mismo servidor) capacidad)

Estructura de Fijo, requiere esquema definido antes Dinámico, puede manejar cambios en la
Esquema de cargar datos estructura de datos

Procesamiento de SQL para consultas y operaciones de MapReduce, Apache Spark, procesamiento


Datos conjunto distribuido

Velocidad de Eficiente para consultas complejas en Puede manejar procesamiento en tiempo real
Procesamiento datos estructurados con velocidades rápidas

Menos flexible para datos no Mayor flexibilidad para diversos tipos y


Flexibilidad estructurados o cambiantes cambios en los datos

Puede ser costoso de escalar Escalabilidad horizontal puede ser más


Costos verticalmente rentable en grandes volúmenes
6. Referencias

(PowerData, 2023)

(Bello, 2023)

También podría gustarte