INFORME DE PRÁCTICAS
Formato
FR-FAC-PAC-GLB-018 Versión: 01 Fecha: 02/03/2017
Asignatura: SISTEMAS AVANZADOS DE BASES Grupo Nº:
DE DATOS
Carrera: Ingeniería Informática Integrantes
Nivel y paralelo: 7mo Daniel Hidalgo
Fecha de práctica:04/04/2018
Fecha presentación informe:
Nº Práctica: 3 Informe Nº:3
TÍTULO DE LA PRÁCTICA: CASO NETFLIX
1. OBJETIVOS: Consultar los aspectos importantes de Netflix con su
arquitectura de datos big data con amazon web service
General:
Específicos:
2. INTRODUCCIÓN: Acerca de Netflix, es proveedor de contenido en línea Netflix es capaz
de soportar su servicio mundial asociándose con Amazon Web Services (AWS) para los
servicios de entrega de contenido. AWS permite a Netflix desplegar rápidamente miles de
servidores y terabytes de almacenamiento en cuestión de minutos. Los usuarios pueden
ver programas y películas de Netflix desde cualquier parte del mundo, incluso en la web, en
tabletas o en dispositivos móviles como el iPhone.
1) CUESTIONARIO DE INVESTIGACIÓN:
1) Aspectos Relevantes
Procesa y enriquece múltiples terabytes por día, lo que representa miles de millones de
eventos, con tiempos de respuesta inferiores al segundo para consultas de análisis
Altamente rentable en comparación con las soluciones de la competencia
Libertad para experimentar con la arquitectura del sistema para llegar a la solución más
efectiva
Ingestión de datos iniciada con solo unas pocas llamadas API simples
Solución altamente elástica con cerca de 1,000 fragmentos de Amazon Kinesis trabajando
en paralelo
2) Tecnología Utilizada
Netflix utiliza Amazon Kinesis Data Streams,permite crear aplicaciones personalizadas que
procesan o analizan datos de streaming para satisfacer necesidades especiales. Kinesis Data
Streams puede registrar y almacenar de manera continua terabytes de datos por hora
1
INFORME DE PRÁCTICAS
Formato
FR-FAC-PAC-GLB-018 Versión: 01 Fecha: 02/03/2017
procedentes de cientos de miles de orígenes, como secuencias de clics de sitios web,
transacciones financieras, fuentes de redes sociales, logs de TI y eventos de seguimiento de
ubicación. Con la biblioteca de clientes de Kinesis (KCL), podrá crear aplicaciones de Kinesis
y usar datos de streaming para alimentar paneles en tiempo real, generar alertas,
implementar anuncios y precios dinámicos y mucho más. También podrá emitir datos desde
Kinesis Data Streams a otros servicios de AWS, como Amazon Simple Storage Service
(Amazon S3), Amazon Redshift, Amazon EMR y AWS Lambda.
Centralización de registros de flujo con Amazon Kinesis Streams
Desde el principio, AWS permitió a Netflix experimentar con diferentes enfoques para
analizar sus datos de red. "Al principio del proceso de diseño, la flexibilidad para probar
diferentes formas de procesar los datos fue importante", dice Bennett. "Experimentamos
con múltiples diseños y usamos muchos productos de AWS para llegar hasta aquí".
La solución que Netflix finalmente implementó, conocida internamente como Dredge,
centraliza los registros de flujo utilizando las transmisiones de Amazon Kinesis.. La
aplicación lee los datos de Amazon Kinesis Streams en tiempo real y enriquece las
direcciones IP con los metadatos de la aplicación para proporcionar una imagen completa
del entorno de red. "Normalmente, pondríamos los datos en una base de datos, lo que
crearía un índice para permitir consultas más rápidas", dice Bennett. "Dredge se une a los
registros de flujo con metadatos de aplicaciones a medida que los transmite e indexa sin
utilizar una base de datos, lo que elimina gran parte de la complejidad".
Los datos enriquecidos llegan a una aplicación analítica de código abierto llamada
Druid. Netflix utiliza la funcionalidad de consulta OLAP de Druid para dividir rápidamente
los datos en regiones, zonas de disponibilidad y ventanas de tiempo para visualizarlos y
obtener una idea de cómo se comporta y funciona la red.
AWS fue la elección lógica para Dredge en parte porque los datos ya estaban en la nube de
AWS. "Habría sido desalentador publicar, transmitir y consumir tanta información de un
sistema externo como Kafka", dice Bennett. "Se necesitaron solo unas pocas llamadas API
para centralizar múltiples terabytes de registros de flujo en Amazon Kinesis Streams. Ahora
podemos centrarnos en obtener información de los datos en lugar de simplemente obtener
acceso a ella ".
La escalabilidad de Amazon Kinesis Streams fue una buena opción para la aplicación Dredge
debido a la naturaleza cíclica y elástica del uso de la red en Netflix. "Cuando se trata de
nuestros datos de red, es más eficiente en función de los costos escalar hacia arriba y hacia
abajo, lo cual no es tan fácil de hacer con alternativas a Amazon Kinesis", dice Bennett.
1
INFORME DE PRÁCTICAS
Formato
FR-FAC-PAC-GLB-018 Versión: 01 Fecha: 02/03/2017
Mejora de la experiencia del cliente con monitoreo de red en tiempo real
La solución de Amazon Kinesis Streams de Netflix ha demostrado ser altamente escalable,
procesando cada día miles de millones de flujos de tráfico. Normalmente, alrededor de
1.000 fragmentos de Amazon Kinesis funcionan en paralelo para procesar la secuencia de
datos. "Amazon Kinesis Streams procesa múltiples terabytes de datos de registro cada día,
sin embargo, los eventos aparecen en nuestro análisis en segundos", dice
Bennett. "Podemos descubrir y responder a problemas en tiempo real, garantizando una
alta disponibilidad y una excelente experiencia del cliente".
Netflix ahora puede identificar nuevas formas de optimizar sus aplicaciones, ya sea
moviendo una aplicación de una región a otra o cambiando a un protocolo de red más
apropiado para un tipo específico de tráfico. "Nuestra solución desarrollada en Amazon
Kinesis nos permite identificar formas de aumentar la eficiencia, reducir costos y mejorar la
resiliencia para la mejor experiencia del cliente", dice Bennett.
Aunque una solución de transmisión de datos no es nueva para la industria de TI, es una
innovación en el espacio de redes. "Netflix está fuertemente invertido en AWS en parte
porque abstrae la red subyacente, por lo que no tenemos que ocuparnos de los
conmutadores y enrutadores", dice Bennett. "Estamos monitoreando, analizando y
optimizando en un nivel superior de la pila, de una forma que nunca consideraríamos si
estuviéramos ejecutando nuestros propios centros de datos".
3) Aplicabilidad a Otras Empresas
Puede usar Kinesis Data Streams para empresa que se dediquen a una admisión y una
agregación de datos rápidas y continuas. El tipo de datos utilizado incluye los datos de
registros de infraestructura de TI, registros de aplicaciones, redes sociales, fuentes de datos
de mercado y datos de secuencias de clics en sitios web. Dado que el tiempo de respuesta
necesario para la admisión y el procesamiento de datos es en tiempo real, el procesamiento
suele ser ligero.
A continuación, muestro casos típicos de utilización de Kinesis de transmisiones de datos y
registros
Puede generadores de datos los inserten directamente en una secuencia. Por ejemplo, se
pueden enviar logs del sistema y de las aplicaciones, y estarán disponibles para su
1
INFORME DE PRÁCTICAS
Formato
FR-FAC-PAC-GLB-018 Versión: 01 Fecha: 02/03/2017
procesamiento en cuestión de segundos. Eso evita que los datos registrados se pierdan si
se produce un error en el front-end o en el servidor de la aplicación. Kinesis Data Streams
permite la admisión acelerada de los datos, ya que no es necesario acumular lotes de datos
en los servidores antes de enviarlos.
Análisis de datos en tiempo real
Así se combina la eficacia del procesamiento paralelo con el valor de los datos en tiempo
real. Por ejemplo, puede procesar secuencias de clics de sitios web en tiempo real y, a
continuación, analizar el uso del sitio mediante diferentes aplicaciones de Kinesis Data
Streams ejecutándose en paralelo.
Procesamiento de secuencias complejas
Puede crear gráficos acíclicos dirigidos (DAG) de Amazon Kinesis Data Streams application
s y secuencias de datos. Para ello, normalmente es necesario insertar datos desde varias
Amazon Kinesis Data Streams application s en otra secuencia para su posterior
procesamiento por otra Amazon Kinesis Data Streams application distinta.
3. CONCLUSIONES:
La utilización de Amazon Kinesis Data Streams para recopilar y procesar
grandes transmisiones de registros de datos en tiempo real.
Ayudado acrear aplicaciones de procesamiento de datos, conocidas como Amazon Kinesis
Data Streams application s. Una Amazon Kinesis Data Streams application típica lee datos
de una Kinesis data stream como registros de datos. Estas aplicaciones pueden utilizar la
Kinesis Client Library y pueden ejecutarse en instancias de Amazon EC2. Los registros
procesados pueden enviarse a paneles, que se utilizan para generar alertas, cambiar
dinámicamente las estrategias de precios y publicidad o enviar datos a una variedad de
otros servicios de AWS diferentes.
4. BIBLIOGRAFÍA:
[Link]
[Link]
[Link]