Actividad 4

El documento presenta una investigación sobre bases de datos columnares, incluyendo Apache Kudu, Apache Orc, Apache Parquet, Amazon Redshift y Google BigQuery, destacando sus características, escenarios de uso y limitaciones. Cada base de datos se analiza en términos de optimización para consultas, almacenamiento eficiente y compatibilidad con herramientas de Big Data. Se concluye que estas bases de datos son ideales para análisis de grandes volúmenes de datos, aunque no son adecuadas para aplicaciones que requieren transacciones en tiempo real.

Cargado por

Omar Asael Hernandez Montiel

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

26 vistas8 páginas

Actividad 4

Cargado por

Omar Asael Hernandez Montiel

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Nombre: Omar Asael Hernandez Montiel

Matricula: MCDA24D032
Materia: Bases de Datos No Relacionales
Programa: Maestría en Ciencias de Datos
Actividad 4: Investigación de bases de datos
Columnares
Fecha: 08 de febrero de 2025
Contents
Investigación de bases de datos Columnares.............................................................3
Apache Kudu........................................................................................................... 3
Apache Orc.............................................................................................................. 4
Apache Parquet....................................................................................................... 5
Amazon Redshift..................................................................................................... 6
Google BigQuery..................................................................................................... 7
Referencias................................................................................................................. 8
Investigación de bases de datos Columnares

Apache Kudu
CARACTERISTICAS:
1. Optimizado para lecturas y escrituras rápidas: A diferencia de otras bases
columnares como Apache HBase o Apache Cassandra, Kudu está diseñado para
admitir escrituras y actualizaciones eficientes, además de consultas
rápidas.
2. Integración nativa con Apache Hadoop y Apache Spark: Se integra
perfectamente con el ecosistema de Big Data, permitiendo análisis en tiempo
real con baja latencia.

EMPRESAS QUE LA USA:

ESCENARIO DONDE LA USARIA:

1. Big Data y análisis en tiempo real, especialmente cuando se requiere
actualizaciones frecuentes de datos.
2. Almacén de datos para machine learning, ya que permite consultar grandes
volúmenes de información con baja latencia.
ESCENARIO DONDE NO LA USARIA:
1. Si se necesita alta compatibilidad con SQL tradicional, ya que Kudu está
diseñado más para análisis distribuido.
2. Cuando se requiera una aplicación bancaria que requiera almacenar
transacciones
Apache Orc
CARACTERISTICAS:
- Almacenamiento eficiente con alta comprensión: ORC reduce el tamaño de
los datos en aproximadamente 75% (APACHE ORC, 2025), esto favorece el
almacenamiento de un gran volumen de datos de información en entornos
de Big Data.
- Optimización de consultas analíticas: Tiene algo que en la documentación le
llama “Lectura Selectiva de Columnas”, se refiere a un rendimiento
mejorado al evitar la carga de datos innecesarios en memoria.

EMPRESAS QUE LA USA:

ESCENARIO DONDE LA USARIA:

- Almacenamiento de Big Data: para hacer consultas de Big Data,
- Data Lakes en la nube,
- Análisis estadístico de grandes volúmenes de información.

ESCENARIO DONDE NO LA USARIA:

- Si se requiere acceso en tiempo real o transacciones
- Para datos pequeños de acceso frecuente
Apache Parquet
CARACTERISTICAS:
- Formato de almacenamiento eficiente y altamente comprimido:
Parquet utiliza compresión de columnas y codificación eficiente, lo que
reduce significativamente el espacio en disco y mejora la velocidad de
lectura. (QuestDB, 2025)
- Compatibilidad con múltiples herramientas de Big Data: Funciona
perfectamente con Apache Spark, Hadoop, Hive, Presto, Impala y AWS
Athena, permitiendo análisis de datos a gran escala. (Apache Parquet,
2025)

EMPRESAS QUE LA USA:

ESCENARIO DONDE LA USARIA:

- Almacenamiento de Data Lakes: es decir el almacenamiento centralizado de
datos en crudo.
- Consultas analíticas de Big Data
- Almacenamiento de datos históricos y logs
ESCENARIO DONDE NO LA USARIA:
- Si se requiere acceso en tiempo real
- Transacciones bancarias
- Cuando se necesita una base de datos operativa
- En bases de datos pequeñas y de acceso frecuente.
Amazon Redshift
CARACTERISTICAS:
- Optimizado para almacenamiento columnares y procesamiento
analítico (OLAP): Redshift usa almacenamiento en columnas, lo que permite
consultas rápidas sobre grandes volúmenes de datos, ideal para Business
Intelligence y Data Warehousing.
- Escalabilidad y rendimiento con procesamiento masivamente paralelo
(MPP): Distribuye las consultas en múltiples nodos, mejorando el
rendimiento y permitiendo escalar desde gigabytes hasta petabytes de
datos.
-

EMPRESAS QUE LA USA:

ESCENARIO DONDE LA USARIA:

- Almacenes de datos empresariales (Data Warehousing) para realizar
análisis avanzados con herramientas como Tableau, Looker, Power BI o
Amazon QuickSight.
- Procesamiento y análisis de Big Data en combinación con AWS Glue, S3
y Amazon Athena. (Amazon Web Services, 2025)
- Optimización de consultas analíticas sobre grandes volúmenes de
datos, como análisis de comportamiento de usuarios o ventas.
- Sistemas de reporting y dashboards en tiempo casi real, donde el
acceso rápido a grandes volúmenes de datos es clave.
ESCENARIO DONDE NO LA USARIA:
- Si se necesita un sistema OLTP para transacciones en tiempo real, ya
que Redshift está optimizado para consultas analíticas y no para
transacciones rápidas.
- Cuando se manejan datos muy dinámicos con muchas
actualizaciones, porque Redshift no es eficiente en cargas de trabajo con
frecuentes INSERTs y UPDATEs.
Google BigQuery
CARACTERISTICAS:
- Base de datos analítica sin servidores y altamente escalable:
BigQuery es un Data Warehouse en la nube totalmente administrado por
Google, lo que elimina la necesidad de administrar infraestructura y permite
escalar automáticamente según la carga de trabajo.
- Procesamiento masivamente paralelo (MPP) con SQL estándar:
BigQuery puede analizar petabytes de datos en segundos gracias a su
arquitectura de consulta distribuida y optimizada para análisis de Big Data.

EMPRESAS QUE LA USA:

ESCENARIO DONDE LA USARIA:

- Análisis de datos
- Procesamiento de grandes volúmenes de data en tiempo real
- Análisis financiero y detección de fraude
- Business Intelligence para darle vida a reportes de Power BI, Tableau
ESCENARIO DONDE NO LA USARIA:
- Si se requiere una base de datos OLTP, porque BigQuery esta optimizado para
consultas analíticas no para escribir y actualizar datos.
- Si el costo es un factor
- Si se quiere tener control total sobre la infraestructura.
Referencias
Apache Software Foundation,2025, Apache Kudu Documentation. Recuperado el 8
de febrero de 2025, de [Link]
Apache Software Foundation,2025, Apache ORC Documentation. Recuperado el 8
de febrero de 2025, de [Link]
QuestDB, 2025, Apache Parquet, qué es y por qué usarlo, Recuperado el 8 de
febrero de 2025, de [Link]
Apache Software Foundation, 2025. Apache Parquet Documentation. Recuperado el
8 de febrero de 2025, de [Link]
Amazon Web Services,2025, Amazon Redshift Documentation. Recuperado el 8 de
febrero de 2025, de [Link]
Google Cloud,2025 BigQuery Documentation. Recuperado el 8 de febrero de 2025,
de [Link]

También podría gustarte

Comparativa de Almacenamiento de Datos en Hadoop
Aún no hay calificaciones
Comparativa de Almacenamiento de Datos en Hadoop
3 páginas
Herramientas Clave para Big Data
Aún no hay calificaciones
Herramientas Clave para Big Data
5 páginas
Herramientas Clave en el Ciclo de Big Data
Aún no hay calificaciones
Herramientas Clave en el Ciclo de Big Data
15 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
02 Evolucion Persistencia Datos
Aún no hay calificaciones
02 Evolucion Persistencia Datos
33 páginas
Big Data y Apache Spark: Procesamiento Eficiente
Aún no hay calificaciones
Big Data y Apache Spark: Procesamiento Eficiente
31 páginas
Introducción al Ecosistema Hadoop
Aún no hay calificaciones
Introducción al Ecosistema Hadoop
61 páginas
Clase 9 - Base de Datos y Big Data
Aún no hay calificaciones
Clase 9 - Base de Datos y Big Data
28 páginas
Tarea 3 - Luis Pimienta (Grupo - 202016911 - 1) - Avances
Aún no hay calificaciones
Tarea 3 - Luis Pimienta (Grupo - 202016911 - 1) - Avances
8 páginas
Clase3 pdf2
Aún no hay calificaciones
Clase3 pdf2
11 páginas
Big Query
Aún no hay calificaciones
Big Query
14 páginas
Kafka
Aún no hay calificaciones
Kafka
63 páginas
Gestores Bases Datos Marcos Camacho
Aún no hay calificaciones
Gestores Bases Datos Marcos Camacho
4 páginas
Resumen Curso Big Data
Aún no hay calificaciones
Resumen Curso Big Data
12 páginas
Herramientas Clave de Big Data
Aún no hay calificaciones
Herramientas Clave de Big Data
9 páginas
Bases de Datos Columnas y Gráficas
Aún no hay calificaciones
Bases de Datos Columnas y Gráficas
19 páginas
Cloudera y Herramientas de Big Data
Aún no hay calificaciones
Cloudera y Herramientas de Big Data
3 páginas
Todo
100% (1)
Todo
231 páginas
Comparativa de Herramientas de Data Warehouse
Aún no hay calificaciones
Comparativa de Herramientas de Data Warehouse
5 páginas
Comparativa de Herramientas de Big Data
Aún no hay calificaciones
Comparativa de Herramientas de Big Data
16 páginas
Resumen Base de Datos
Aún no hay calificaciones
Resumen Base de Datos
8 páginas
Ventajas y Desventajas de NoSQL
Aún no hay calificaciones
Ventajas y Desventajas de NoSQL
11 páginas
Presentacion BD
Aún no hay calificaciones
Presentacion BD
13 páginas
Introducción a SQL y Bases de Datos NoSQL
Aún no hay calificaciones
Introducción a SQL y Bases de Datos NoSQL
16 páginas
Guía de Almacenamiento de Datos en Google Cloud
Aún no hay calificaciones
Guía de Almacenamiento de Datos en Google Cloud
23 páginas
Actividad 3 - Unid 2
Aún no hay calificaciones
Actividad 3 - Unid 2
10 páginas
Bases de Datos NoSQL y En Memoria
Aún no hay calificaciones
Bases de Datos NoSQL y En Memoria
34 páginas
Introducción a Bases de Datos NoSQL
Aún no hay calificaciones
Introducción a Bases de Datos NoSQL
36 páginas
Tecnologías Clave en Big Data 2023
Aún no hay calificaciones
Tecnologías Clave en Big Data 2023
8 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Evidencia 1 BIG DATA-2
Aún no hay calificaciones
Evidencia 1 BIG DATA-2
17 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
BIGDATA
Aún no hay calificaciones
BIGDATA
26 páginas
Comparativa de Tipos de Bases de Datos
Aún no hay calificaciones
Comparativa de Tipos de Bases de Datos
3 páginas
Fundamentos del Big Data y Hadoop
Aún no hay calificaciones
Fundamentos del Big Data y Hadoop
12 páginas
SGB Mas Populares
Aún no hay calificaciones
SGB Mas Populares
3 páginas
Introducción a Bases de Datos Columnar
Aún no hay calificaciones
Introducción a Bases de Datos Columnar
207 páginas
Motores NOSQL Más Utilizados
Aún no hay calificaciones
Motores NOSQL Más Utilizados
4 páginas
Ventajas de Apache Spark y Cisco Spark
Aún no hay calificaciones
Ventajas de Apache Spark y Cisco Spark
3 páginas
Introducción a Big Data y NoSQL
Aún no hay calificaciones
Introducción a Big Data y NoSQL
74 páginas
Guía Completa de Bases de Datos NoSQL
Aún no hay calificaciones
Guía Completa de Bases de Datos NoSQL
25 páginas
Introducción a Data Lakes y Big Data
Aún no hay calificaciones
Introducción a Data Lakes y Big Data
21 páginas
Big Data Aa1 Grupo N°1
Aún no hay calificaciones
Big Data Aa1 Grupo N°1
16 páginas
Investigación de Bases de Datos de Grafos
Aún no hay calificaciones
Investigación de Bases de Datos de Grafos
3 páginas
Cuestionario sobre Bases de Datos y BI
Aún no hay calificaciones
Cuestionario sobre Bases de Datos y BI
13 páginas
Lectura 1 Big Analytics Handoop
Aún no hay calificaciones
Lectura 1 Big Analytics Handoop
2 páginas
Guía Completa sobre Big Data y Herramientas
Aún no hay calificaciones
Guía Completa sobre Big Data y Herramientas
4 páginas
Guía sobre Apache Spark y su uso
Aún no hay calificaciones
Guía sobre Apache Spark y su uso
9 páginas
Comparativa de DBMS: MySQL, MariaDB y más
Aún no hay calificaciones
Comparativa de DBMS: MySQL, MariaDB y más
3 páginas
Herramientas y conceptos de Big Data
Aún no hay calificaciones
Herramientas y conceptos de Big Data
7 páginas
Arquitecturas y Herramientas en Big Data
Aún no hay calificaciones
Arquitecturas y Herramientas en Big Data
27 páginas
21 Motores de BASE DE DATOS MÁS UTILIZADAS POR LOS DESARROLLADORES-1
Aún no hay calificaciones
21 Motores de BASE DE DATOS MÁS UTILIZADAS POR LOS DESARROLLADORES-1
27 páginas
Ikjkllñ
Aún no hay calificaciones
Ikjkllñ
5 páginas
Empresas que Usan SGBD Populares
Aún no hay calificaciones
Empresas que Usan SGBD Populares
4 páginas
Big Data
Aún no hay calificaciones
Big Data
13 páginas
Comparativa de Sistemas DBMS 2023
Aún no hay calificaciones
Comparativa de Sistemas DBMS 2023
5 páginas
Herramientas de Big Data: MongoDB y Más
Aún no hay calificaciones
Herramientas de Big Data: MongoDB y Más
12 páginas
IA y su Impacto en la Literatura Moderna
Aún no hay calificaciones
IA y su Impacto en la Literatura Moderna
2 páginas
La Revolución de La Inteligencia Artificial en La Era Moderna
Aún no hay calificaciones
La Revolución de La Inteligencia Artificial en La Era Moderna
4 páginas
Revalorización de la Función Docente
100% (1)
Revalorización de la Función Docente
4 páginas
Dire Acd U2 Omhm
Aún no hay calificaciones
Dire Acd U2 Omhm
10 páginas
Modelo E-R para Base de Datos Policial
Aún no hay calificaciones
Modelo E-R para Base de Datos Policial
11 páginas
Funciones de unistd.h en C para Linux
Aún no hay calificaciones
Funciones de unistd.h en C para Linux
16 páginas
Recuperación de Empresas en CONTPAQi
100% (1)
Recuperación de Empresas en CONTPAQi
2 páginas
Práctica SQL 12c: Uso de CASE y DECODE
Aún no hay calificaciones
Práctica SQL 12c: Uso de CASE y DECODE
3 páginas
Sesión 1 - Recolección de Evidencias - Mario Ruiz
Aún no hay calificaciones
Sesión 1 - Recolección de Evidencias - Mario Ruiz
6 páginas
Acta de Lacrado y Código Hash
Aún no hay calificaciones
Acta de Lacrado y Código Hash
14 páginas
Proceso de Arranque y Cierre de Windows
Aún no hay calificaciones
Proceso de Arranque y Cierre de Windows
51 páginas
Uso de Cursores en MySQL: Guía Práctica
Aún no hay calificaciones
Uso de Cursores en MySQL: Guía Práctica
5 páginas
80 Por Ciento Mikrotik Reinicia
Aún no hay calificaciones
80 Por Ciento Mikrotik Reinicia
8 páginas
Licenciamiento Oracle 11g: Management Packs
Aún no hay calificaciones
Licenciamiento Oracle 11g: Management Packs
62 páginas
Taller de Microprocesadores 2013
Aún no hay calificaciones
Taller de Microprocesadores 2013
6 páginas
Pistas para Reparar Una Memoria USB Dañada Soloelectronicos PDF
Aún no hay calificaciones
Pistas para Reparar Una Memoria USB Dañada Soloelectronicos PDF
13 páginas
Tipos de Archivos y Sus Extensiones
100% (1)
Tipos de Archivos y Sus Extensiones
3 páginas
Tipos de Dispositivos de Almacenamiento
Aún no hay calificaciones
Tipos de Dispositivos de Almacenamiento
14 páginas
Práctica de Gestión de Transacciones en SQL
Aún no hay calificaciones
Práctica de Gestión de Transacciones en SQL
3 páginas
6 Tablas Evolucion Microprocesadores
Aún no hay calificaciones
6 Tablas Evolucion Microprocesadores
3 páginas
Estándares de Programación de Base de Datos
Aún no hay calificaciones
Estándares de Programación de Base de Datos
23 páginas
Métodos de Procesamiento de Datos
Aún no hay calificaciones
Métodos de Procesamiento de Datos
5 páginas
Definición y componentes de redes
0% (1)
Definición y componentes de redes
2 páginas
Administración de Procesos en Linux
Aún no hay calificaciones
Administración de Procesos en Linux
43 páginas
Mejores Prácticas para PL SQL
Aún no hay calificaciones
Mejores Prácticas para PL SQL
8 páginas
Comandos de Red en Linux
Aún no hay calificaciones
Comandos de Red en Linux
4 páginas
Funciones Clave de un DBA
Aún no hay calificaciones
Funciones Clave de un DBA
7 páginas
Administración de Memoria en Sistemas Operativos
Aún no hay calificaciones
Administración de Memoria en Sistemas Operativos
16 páginas
Ventajas y Desventajas de Guardar en La Eeprom y Tarjetas SD
Aún no hay calificaciones
Ventajas y Desventajas de Guardar en La Eeprom y Tarjetas SD
1 página
Clave Secundaria en Bases de Datos
Aún no hay calificaciones
Clave Secundaria en Bases de Datos
3 páginas
Estructuras de Datos y Algoritmos I
Aún no hay calificaciones
Estructuras de Datos y Algoritmos I
14 páginas
) Parte 1 - Comunidad Ryohnosuke
Aún no hay calificaciones
) Parte 1 - Comunidad Ryohnosuke
24 páginas
Monografia Sistema de Archivos 20120916
Aún no hay calificaciones
Monografia Sistema de Archivos 20120916
39 páginas
Implementación de Bases de Datos en Software
Aún no hay calificaciones
Implementación de Bases de Datos en Software
9 páginas
Administración de Bases de Datos en ORACLE
Aún no hay calificaciones
Administración de Bases de Datos en ORACLE
5 páginas