0% encontró este documento útil (0 votos)

16 vistas7 páginas

DSF (Distributed File System)

El documento detalla el concepto de Sistemas de Archivos Distribuidos (DSF), que permiten distribuir el almacenamiento de datos entre múltiples nodos formando un sistema de archivos único. Se discuten las características, limitaciones y arquitecturas de DSF, incluyendo la replicación y particionamiento de datos, así como su escalabilidad y tolerancia a fallos. Además, se menciona la importancia de estos sistemas en el contexto del almacenamiento y procesamiento de grandes volúmenes de datos.

Cargado por

Camilo Hernandez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

16 vistas7 páginas

DSF (Distributed File System)

Cargado por

Camilo Hernandez

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

DSF (Distributed File System)

Evolución del almacenamiento hacia arquitecturas analíticas modernas de Block

Storage o Lakehouse.

Memoria Volátil
Sin energía no hay datos (RAM, Caché, Registros).

Memoria No Volátil
Sobreviven los datos sin energía (Disco duro).

¿Qué es?
Es distribuir el almacenamiento entre nodos para formar un solo sistema de
archivos usando la red.
Ejemplos:

NFS

SMB

GlusterFS

Fundamentos de datos
Datos - Información - Conocimiento - Sabiduría (DIKW)

Data: -5

Information: -5 Celsius (En formación con algo que significa algo para el
humano).

Knowledge: Frío (Acción sobre el dato).

Wisdom: Debería llevar Abrigo (Toma de decisiones basado en

entendimiento)

Tipos de datos
Estructurados

DSF (Distributed File System) 1

No Estructurados

Semi-Estructurados

¿Cómo se almacenan los datos?

Sistemas de Archivos (locales)

Datos almacenados en el Disco, gestionados por el Sistema Operativo

File Systems - Sistemas de Archivos

Varios formatos:

FAT

NTFS

Ext3

XFS

AFS

DSF (Distributed File System) 2

Los programas acceden a los datos mediante ‘calls’ (open, close, read,
write, lock/unlock)

¿Por qué la necesidad de Sistemas de Archivos Distribuidos?

Sistemas de Archivos Distribuidos (DFS)

Particionamiento y Replicación

Se distribuye el almacenamiento de archivos entre muchos nodos para

formar un solo sistema de archivos virtual (usando la red).

Un programa accede a los datos locales o remotos, con la misma

semántica de un acceso local (requiere un protocolo de red).

Sharding: Particionamiento “horizontal” de los datos. Distintos nodos

almacenan distintos elementos del filesystem. Particionar los datos si
quiero volumen (si quiero el Big Data).

La escalabilidad se logra simplemente agregando más nodos al sistema.

Un DFS idealmente debe lograr transparencia de:

Acceso y Concurrencia

Ubicación y fallas

Replicación y duplicidad

Replicación vs Particionamiento

La replicación permite mantener la copia del mismo dato sobre

múltiples nodos. Redundancia

El particionamiento divide los datos en múltiples partes.

Particionamiento inteligente.

Replicación mejora el rendimiento.

Motores de Bases de Datos

Data Warehouse

Data Lake - Lake House

Almacenamiento en la nube

DSF (Distributed File System) 3

Se busca almacenamiento y procesamiento.

Limitaciones de los DFS

Teorema CAP (Brewer’s Theorem)

Consistencia se refiere a que todos los nodos deben tener los mismos
datos al mismo tiempo. Esto implica que cuando se realiza una operación
en uno de los nodos, todos los demás nodos deben ser actualizados de
manera coherente y consistente.

Disponibilidad se refiere a que cada solicitud de datos debe recibir una

respuesta, sin importar si algunos nodos están fallando o no están
disponibles.

Tolerancia a particiones de red se refiere a que el sistema debe seguir

funcionando incluso si se pierde la conexión entre algunos de los nodos.

DSF (Distributed File System) 4

Almacenamiento con Procesamiento Masivo Simultáneo y
Paralelo
Google Filesystem

Hadoop Distributed Filesystem

Nube (S3-AZ Blob)

Si quiero tener almacenamiento masivo, debo usar sistemas distribuidos.

Características Generales
Cuando el set de datos no cabe en una sola máquina física se hace necesario
particionar la información en múltiples máquinas.

Los sistemas de archivos que manejan almacenamiento sobre redes se

conocen como sistemas de archivos distribuidos.

Es un sistema de archivos distribuidos, diseñado para operar en clusters de

computadores estándar.

Escalable horizontalmente. Se puede crecer agregando más nodos al cluster,

puede crecer hasta miles de nodos.

Tolerable a fallos. La información se replica.

Diseñado para manejar grandes archivos. Los archivos se dividen en bloques

que se distribuyen en distintos nodos.

Se logra alto throughput paralelizando operaciones de I/O entre muchos

nodos.

Ideal para operaciones por lotes (batch).

Como el SO almacena por bloques los archivos, el disco duro mueve bloques
completos. Se ajusta el archivo al tamaño del bloque.
En HFS los bloques de datos ocupan 128MB.

Arquitectura de HDFS
Arquitectura maestro/esclavo

DSF (Distributed File System) 5

Namenode: Maestro

Maneja los metadatos (el dato del dato) del FS. Mantiene el mapeo de
archivos a bloques.

Sebe donde están los bloques, pero los clavos son los que los almacenan.

Controla el acceso por los clientes, pero los datos nunca fluyen por el
namenode. Maneja operaciones abrir, cerrar, renombrar.

Namenode: Esclavos

Almacenan los bloques que componen los archivos. Ejecutan operaciones

read/write para los clientes.

Realizan operaciones de creación, borrado, replicación de bloques.

Replicación de HDFS
A cada archivo se le asigna un tamaño de bloque típico (128MB) y un factor de
replicación (por defecto 3). ¿Por qué 3 es ideal? Es más rápida la copia, busca
en el mismo rack, si no pasa a otro rack. Original, copia en el mismo rack, y en
otro rack por si se daña el rack.

El namenode recibe periódicamente un Heartbeat (estoy vivo) y un

Blockreport (que no se hayan corrompido) desde los datanodes.

Si desaparece de algún nodo, lo copia desde el nodo que todavía lo tiene.

La distribución de réplicas busca lograr un compromiso entre confiabilidad y

rendimiento, típicamente el primer bloque en el writer y sus dos copias en
datanodes que estén en el mismo rack, pero diferente al del writer.

Para lectura, se usa la política de usar la réplica más cercana al reader.

Tolerancia a Fallos
Si el namenode falla o se corrompen sus archivos Editlog o FsImage, no es
posible acceder al file system. Existen varios mecanismos para lograr alta
disponibilidad. Estos mecanismos operan con dos namenodes. Activo y standby.

DSF (Distributed File System) 6

Implementación basada en un journal distribuido. Es la opción preferida.
Un daemon en el standby recibe todos los updates del activo así como las
notificaciones de los datanodes. Mantiene actualizada una copia separada
de los metadatos.

Implementación basada en un servicio NFS compartido por los namenodes

activo y standby. En caso de falla del activo, el standby pasa a ser el
activo.

DSF (Distributed File System) 7

También podría gustarte

Trabajo1 SD
Aún no hay calificaciones
Trabajo1 SD
20 páginas
HDFS
Aún no hay calificaciones
HDFS
6 páginas
Prensentacion de Sistemas Dristribuidos
Aún no hay calificaciones
Prensentacion de Sistemas Dristribuidos
6 páginas
Guía de HDFS para Analítica Masiva
Aún no hay calificaciones
Guía de HDFS para Analítica Masiva
8 páginas
Almacenamiento de Datos Apuntes.
Aún no hay calificaciones
Almacenamiento de Datos Apuntes.
9 páginas
Funcionamiento y Alta Disponibilidad de HDFS
Aún no hay calificaciones
Funcionamiento y Alta Disponibilidad de HDFS
8 páginas
Sistemas de Archivos Distribuidos Aunque La World Wide Web Es El Sistema Distribuido Predominante en Uso Hoy en Día
Aún no hay calificaciones
Sistemas de Archivos Distribuidos Aunque La World Wide Web Es El Sistema Distribuido Predominante en Uso Hoy en Día
13 páginas
HDFS: Arquitectura y Replicación de Datos
Aún no hay calificaciones
HDFS: Arquitectura y Replicación de Datos
19 páginas
HDFS: Arquitectura y Replicación
Aún no hay calificaciones
HDFS: Arquitectura y Replicación
8 páginas
Problemas y beneficios de HDFS
Aún no hay calificaciones
Problemas y beneficios de HDFS
1 página
CIPAS Paso3 19 Junio 2
Aún no hay calificaciones
CIPAS Paso3 19 Junio 2
32 páginas
Teoria M4
Aún no hay calificaciones
Teoria M4
41 páginas
Sistemas de Archivos Distribuidos
Aún no hay calificaciones
Sistemas de Archivos Distribuidos
28 páginas
Sistemas Distribuidos AFS NFS
Aún no hay calificaciones
Sistemas Distribuidos AFS NFS
2 páginas
Sistemas de Ficheros Distribuidos y DLT
Aún no hay calificaciones
Sistemas de Ficheros Distribuidos y DLT
67 páginas
Actividad Asincrona 08 Luis González
Aún no hay calificaciones
Actividad Asincrona 08 Luis González
6 páginas
Sistemas de Archivos
Aún no hay calificaciones
Sistemas de Archivos
7 páginas
Sistemas de Archivos Distribuidos
Aún no hay calificaciones
Sistemas de Archivos Distribuidos
13 páginas
Proyecto2 Dfs
Aún no hay calificaciones
Proyecto2 Dfs
3 páginas
Preguntas Semana 13
Aún no hay calificaciones
Preguntas Semana 13
3 páginas
Componentes Clave de Hadoop y HDFS
Aún no hay calificaciones
Componentes Clave de Hadoop y HDFS
74 páginas
S16 - Archivos Distribuidos
Aún no hay calificaciones
S16 - Archivos Distribuidos
16 páginas
Resumen TASD - 2do Parcial
Aún no hay calificaciones
Resumen TASD - 2do Parcial
17 páginas
Sistemas de Archivos Distribuidos SAD
Aún no hay calificaciones
Sistemas de Archivos Distribuidos SAD
16 páginas
1024 Paper 1 Resume
Aún no hay calificaciones
1024 Paper 1 Resume
11 páginas
RC301 Grupo1
Aún no hay calificaciones
RC301 Grupo1
11 páginas
Presentacion de Tema de Unidad
Aún no hay calificaciones
Presentacion de Tema de Unidad
8 páginas
SGBD
Aún no hay calificaciones
SGBD
29 páginas
Sistemas de Archivos Distribuidos
Aún no hay calificaciones
Sistemas de Archivos Distribuidos
8 páginas
Sistemas de Archivos NFS y NTFS
Aún no hay calificaciones
Sistemas de Archivos NFS y NTFS
12 páginas
Apuntes Big Data Tema 2
Aún no hay calificaciones
Apuntes Big Data Tema 2
3 páginas
Network File System
Aún no hay calificaciones
Network File System
3 páginas
Hadoop
Aún no hay calificaciones
Hadoop
105 páginas
NFS y WAFL
Aún no hay calificaciones
NFS y WAFL
13 páginas
Capitulo 9 Sistemas Operativos
Aún no hay calificaciones
Capitulo 9 Sistemas Operativos
5 páginas
FIC - S3 Modificado
Aún no hay calificaciones
FIC - S3 Modificado
47 páginas
Clase No5
Aún no hay calificaciones
Clase No5
12 páginas
SISTEMAS DISTRIBUIDOS UTP - Taller 4 - Sistemas de Archivos Distribuidos
Aún no hay calificaciones
SISTEMAS DISTRIBUIDOS UTP - Taller 4 - Sistemas de Archivos Distribuidos
2 páginas
Sistemas de Ficheros en Linux y Windows
Aún no hay calificaciones
Sistemas de Ficheros en Linux y Windows
38 páginas
Monografia Sistema de Archivos 20120916
Aún no hay calificaciones
Monografia Sistema de Archivos 20120916
39 páginas
ZFS: Sistema de Archivos Avanzado
Aún no hay calificaciones
ZFS: Sistema de Archivos Avanzado
5 páginas
Sistemas de Archivos Distribuidos
Aún no hay calificaciones
Sistemas de Archivos Distribuidos
6 páginas
Introducción a NFS en Debian Linux
Aún no hay calificaciones
Introducción a NFS en Debian Linux
33 páginas
Sistemas de Archivos
Aún no hay calificaciones
Sistemas de Archivos
3 páginas
Tema 2
Aún no hay calificaciones
Tema 2
30 páginas
AVTIVIDADES
Aún no hay calificaciones
AVTIVIDADES
9 páginas
HDFS: Sistema de Archivos Distribuido en Hadoop
100% (1)
HDFS: Sistema de Archivos Distribuido en Hadoop
7 páginas
Introducción al Protocolo NFS
Aún no hay calificaciones
Introducción al Protocolo NFS
31 páginas
Introducción a Sistemas de Archivos y RAID
Aún no hay calificaciones
Introducción a Sistemas de Archivos y RAID
7 páginas
Sistemas de Ficheros Paralelos y Almacenamiento
Aún no hay calificaciones
Sistemas de Ficheros Paralelos y Almacenamiento
1 página
Sistemas Distribuidos: Objetos y Archivos
Aún no hay calificaciones
Sistemas Distribuidos: Objetos y Archivos
2 páginas
Propuesta de Sistema de Archivos
Aún no hay calificaciones
Propuesta de Sistema de Archivos
6 páginas
Guía Completa sobre NFS: Protocolo y Configuración
Aún no hay calificaciones
Guía Completa sobre NFS: Protocolo y Configuración
16 páginas
Sistemas de Archivos Distribuidos: Gestión y Operaciones
Aún no hay calificaciones
Sistemas de Archivos Distribuidos: Gestión y Operaciones
2 páginas
Sistemas de Archivo Soportados Por Linux
Aún no hay calificaciones
Sistemas de Archivo Soportados Por Linux
18 páginas
ReFS: Sistema de Archivos Resiliente
Aún no hay calificaciones
ReFS: Sistema de Archivos Resiliente
6 páginas
Sistemas de Archivos Distribuidos
Aún no hay calificaciones
Sistemas de Archivos Distribuidos
50 páginas
Tema 2
Aún no hay calificaciones
Tema 2
60 páginas
Guía de NFS para Administradores de Red
Aún no hay calificaciones
Guía de NFS para Administradores de Red
15 páginas
Lección Unidad 1 - Revisión Del Intento
Aún no hay calificaciones
Lección Unidad 1 - Revisión Del Intento
3 páginas
Aws Cloud Foundation - Módulo 3
Aún no hay calificaciones
Aws Cloud Foundation - Módulo 3
1 página
RPC y Sockets en Sistemas Distribuidos
Aún no hay calificaciones
RPC y Sockets en Sistemas Distribuidos
4 páginas
NubeNativa BuasafCangaMoreno
Aún no hay calificaciones
NubeNativa BuasafCangaMoreno
4 páginas
Servicios Web
Aún no hay calificaciones
Servicios Web
4 páginas
Guía de Estudio para El Examen Az-305
Aún no hay calificaciones
Guía de Estudio para El Examen Az-305
38 páginas
OHS y WebLogic: Integración y Funciones
Aún no hay calificaciones
OHS y WebLogic: Integración y Funciones
2 páginas
Aca Computacion Nube
Aún no hay calificaciones
Aca Computacion Nube
15 páginas
Introducción a Jersey JAX-RS y REST
Aún no hay calificaciones
Introducción a Jersey JAX-RS y REST
78 páginas
Clases Ip - Ejercicios Propuestos
Aún no hay calificaciones
Clases Ip - Ejercicios Propuestos
5 páginas
Ec2 Ug PDF
Aún no hay calificaciones
Ec2 Ug PDF
1108 páginas
Uso y Configuración de Servidores Proxy
Aún no hay calificaciones
Uso y Configuración de Servidores Proxy
50 páginas
MCIT Study Guide ES
Aún no hay calificaciones
MCIT Study Guide ES
6 páginas
Examen AWS Essentials Udemy
Aún no hay calificaciones
Examen AWS Essentials Udemy
10 páginas
Práctica de Laboratorio #2
Aún no hay calificaciones
Práctica de Laboratorio #2
9 páginas
Vidama 04 Act 1
Aún no hay calificaciones
Vidama 04 Act 1
8 páginas
Optimización AWS para Desarrolladores
Aún no hay calificaciones
Optimización AWS para Desarrolladores
8 páginas
Semana 14 - MS Azure - Azure Active Directory
100% (2)
Semana 14 - MS Azure - Azure Active Directory
31 páginas
Tipos de Servidores Informáticos
Aún no hay calificaciones
Tipos de Servidores Informáticos
8 páginas
Ejemplo de Solucion - Calculo de Red
Aún no hay calificaciones
Ejemplo de Solucion - Calculo de Red
11 páginas
Plan de Migración de Zimbra A Exchange Online
Aún no hay calificaciones
Plan de Migración de Zimbra A Exchange Online
3 páginas
Arquitectura Cliente/Servidor Java
Aún no hay calificaciones
Arquitectura Cliente/Servidor Java
26 páginas
Tablas de Enrutamiento y Comandos IP
Aún no hay calificaciones
Tablas de Enrutamiento y Comandos IP
12 páginas
Procedimiento para La Configuración SNMP
Aún no hay calificaciones
Procedimiento para La Configuración SNMP
9 páginas
Hadoop Taller PDF
Aún no hay calificaciones
Hadoop Taller PDF
48 páginas
Modelos de Arquitectura Cliente-Servidor
Aún no hay calificaciones
Modelos de Arquitectura Cliente-Servidor
4 páginas
Anexo 1 Inventario Activos de Infraestructura
Aún no hay calificaciones
Anexo 1 Inventario Activos de Infraestructura
2 páginas
Resultados Examen AWS Cloud Practitioner
0% (1)
Resultados Examen AWS Cloud Practitioner
1 página
Google Compute Engine y Herramientas de Redes - Coursera PDF
Aún no hay calificaciones
Google Compute Engine y Herramientas de Redes - Coursera PDF
1 página
Puertos InfoSphere
Aún no hay calificaciones
Puertos InfoSphere
4 páginas