Nombre: Omar Asael Hernandez Montiel
Matricula: MCDA24D032
Materia: Bases de Datos No Relacionales
Programa: Maestría en Ciencias de Datos
Actividad 4: Investigación de bases de datos
Columnares
Fecha: 08 de febrero de 2025
Contents
Investigación de bases de datos Columnares.............................................................3
Apache Kudu........................................................................................................... 3
Apache Orc.............................................................................................................. 4
Apache Parquet....................................................................................................... 5
Amazon Redshift..................................................................................................... 6
Google BigQuery..................................................................................................... 7
Referencias................................................................................................................. 8
Investigación de bases de datos Columnares
Apache Kudu
CARACTERISTICAS:
1. Optimizado para lecturas y escrituras rápidas: A diferencia de otras bases
columnares como Apache HBase o Apache Cassandra, Kudu está diseñado para
admitir escrituras y actualizaciones eficientes, además de consultas
rápidas.
2. Integración nativa con Apache Hadoop y Apache Spark: Se integra
perfectamente con el ecosistema de Big Data, permitiendo análisis en tiempo
real con baja latencia.
EMPRESAS QUE LA USA:
ESCENARIO DONDE LA USARIA:
1. Big Data y análisis en tiempo real, especialmente cuando se requiere
actualizaciones frecuentes de datos.
2. Almacén de datos para machine learning, ya que permite consultar grandes
volúmenes de información con baja latencia.
ESCENARIO DONDE NO LA USARIA:
1. Si se necesita alta compatibilidad con SQL tradicional, ya que Kudu está
diseñado más para análisis distribuido.
2. Cuando se requiera una aplicación bancaria que requiera almacenar
transacciones
Apache Orc
CARACTERISTICAS:
- Almacenamiento eficiente con alta comprensión: ORC reduce el tamaño de
los datos en aproximadamente 75% (APACHE ORC, 2025), esto favorece el
almacenamiento de un gran volumen de datos de información en entornos
de Big Data.
- Optimización de consultas analíticas: Tiene algo que en la documentación le
llama “Lectura Selectiva de Columnas”, se refiere a un rendimiento
mejorado al evitar la carga de datos innecesarios en memoria.
EMPRESAS QUE LA USA:
ESCENARIO DONDE LA USARIA:
- Almacenamiento de Big Data: para hacer consultas de Big Data,
- Data Lakes en la nube,
- Análisis estadístico de grandes volúmenes de información.
ESCENARIO DONDE NO LA USARIA:
- Si se requiere acceso en tiempo real o transacciones
- Para datos pequeños de acceso frecuente
Apache Parquet
CARACTERISTICAS:
- Formato de almacenamiento eficiente y altamente comprimido:
Parquet utiliza compresión de columnas y codificación eficiente, lo que
reduce significativamente el espacio en disco y mejora la velocidad de
lectura. (QuestDB, 2025)
- Compatibilidad con múltiples herramientas de Big Data: Funciona
perfectamente con Apache Spark, Hadoop, Hive, Presto, Impala y AWS
Athena, permitiendo análisis de datos a gran escala. (Apache Parquet,
2025)
EMPRESAS QUE LA USA:
ESCENARIO DONDE LA USARIA:
- Almacenamiento de Data Lakes: es decir el almacenamiento centralizado de
datos en crudo.
- Consultas analíticas de Big Data
- Almacenamiento de datos históricos y logs
ESCENARIO DONDE NO LA USARIA:
- Si se requiere acceso en tiempo real
- Transacciones bancarias
- Cuando se necesita una base de datos operativa
- En bases de datos pequeñas y de acceso frecuente.
Amazon Redshift
CARACTERISTICAS:
- Optimizado para almacenamiento columnares y procesamiento
analítico (OLAP): Redshift usa almacenamiento en columnas, lo que permite
consultas rápidas sobre grandes volúmenes de datos, ideal para Business
Intelligence y Data Warehousing.
- Escalabilidad y rendimiento con procesamiento masivamente paralelo
(MPP): Distribuye las consultas en múltiples nodos, mejorando el
rendimiento y permitiendo escalar desde gigabytes hasta petabytes de
datos.
-
EMPRESAS QUE LA USA:
ESCENARIO DONDE LA USARIA:
- Almacenes de datos empresariales (Data Warehousing) para realizar
análisis avanzados con herramientas como Tableau, Looker, Power BI o
Amazon QuickSight.
- Procesamiento y análisis de Big Data en combinación con AWS Glue, S3
y Amazon Athena. (Amazon Web Services, 2025)
- Optimización de consultas analíticas sobre grandes volúmenes de
datos, como análisis de comportamiento de usuarios o ventas.
- Sistemas de reporting y dashboards en tiempo casi real, donde el
acceso rápido a grandes volúmenes de datos es clave.
ESCENARIO DONDE NO LA USARIA:
- Si se necesita un sistema OLTP para transacciones en tiempo real, ya
que Redshift está optimizado para consultas analíticas y no para
transacciones rápidas.
- Cuando se manejan datos muy dinámicos con muchas
actualizaciones, porque Redshift no es eficiente en cargas de trabajo con
frecuentes INSERTs y UPDATEs.
Google BigQuery
CARACTERISTICAS:
- Base de datos analítica sin servidores y altamente escalable:
BigQuery es un Data Warehouse en la nube totalmente administrado por
Google, lo que elimina la necesidad de administrar infraestructura y permite
escalar automáticamente según la carga de trabajo.
- Procesamiento masivamente paralelo (MPP) con SQL estándar:
BigQuery puede analizar petabytes de datos en segundos gracias a su
arquitectura de consulta distribuida y optimizada para análisis de Big Data.
EMPRESAS QUE LA USA:
ESCENARIO DONDE LA USARIA:
- Análisis de datos
- Procesamiento de grandes volúmenes de data en tiempo real
- Análisis financiero y detección de fraude
- Business Intelligence para darle vida a reportes de Power BI, Tableau
ESCENARIO DONDE NO LA USARIA:
- Si se requiere una base de datos OLTP, porque BigQuery esta optimizado para
consultas analíticas no para escribir y actualizar datos.
- Si el costo es un factor
- Si se quiere tener control total sobre la infraestructura.
Referencias
Apache Software Foundation,2025, Apache Kudu Documentation. Recuperado el 8
de febrero de 2025, de [Link]
Apache Software Foundation,2025, Apache ORC Documentation. Recuperado el 8
de febrero de 2025, de [Link]
QuestDB, 2025, Apache Parquet, qué es y por qué usarlo, Recuperado el 8 de
febrero de 2025, de [Link]
Apache Software Foundation, 2025. Apache Parquet Documentation. Recuperado el
8 de febrero de 2025, de [Link]
Amazon Web Services,2025, Amazon Redshift Documentation. Recuperado el 8 de
febrero de 2025, de [Link]
Google Cloud,2025 BigQuery Documentation. Recuperado el 8 de febrero de 2025,
de [Link]