0% encontró este documento útil (0 votos)

499 vistas11 páginas

B2.322 20161 Pec2

Este documento describe una tarea práctica (PEC) sobre el procesamiento de grandes cantidades de datos (Big Data) usando el paradigma MapReduce y el framework Apache Spark. La PEC consiste en dos partes: primero, responder preguntas sobre un conjunto de datos usando pseudocódigo MapReduce; segundo, analizar los mismos datos con Apache Spark SQL o Python. El objetivo es familiarizarse con MapReduce, preparación de datos y Apache Spark.

Cargado por

Walter

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

499 vistas11 páginas

B2.322 20161 Pec2

Cargado por

Walter

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

B2.322 - Fundamentos y usos de Big Data B1.

781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y

Big Data Estudios de Informatica, Multimedia y Telecomunicacion

PEC2

Presentacion

En esta actividad os enfrentareis al reto de enfocar los problemas utilizando el paradigma MapReduce y
lo pondreis en practica con una de las tecnologas de BigData mas utilizada, Apache Spark.

Competencias

En esta PEC se trabajan las siguientes competencias:

Capacidad para analizar un problema desde el punto de vista de MapReduce.

Capacidad para analizar un problema en el nivel de abstraccion adecuada en cada situacion y aplicar
las habilidades y conocimientos adquiridos para resolverlos.

Objetivos

Los objetivos concretos de esta PEC son:

Conocer y profundizar el paradigma MapReduce.

Familiarizarse con el proceso de preparacion de datos para el analisis.

Familiarizarse con el framework de Apache Spark.

Familiarizarse con Apache Spark SQL y su sintaxis.

1
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

Descripcion de la PEC a realizar

En esta actividad se pondra en practica el paradigma de MapReduce y trabajareis con una de las tecno-
logas mas utilizadas en Big Data:

Apache Spark

Esta PEC tiene dos partes. Una primera parte teorica sobre MapReduce y sus limitaciones. Y despues,
una segunda parte practica con Apache Spark.

Para la parte practica debeis escoger entre utilizar Apache Spark SQL o Apache Spark Python, uno de
los dos. Para Apache Spark SQL se utilizara un SQL similar al estandar, mientras que para Apache
Spark Python se utilizara el lenguaje de programacion Python. Recomendamos encarecidamente a
los estudiantes que NO sepan programar que se decanten por Apache Spark SQL. A los
estudiantes que sepan programar les recomendamos que se decanten por Apache Spark
Python para tener una toma de contacto con uno de los frameworks mas utilizados de Big Data.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

PRIMERA PARTE: El paradigma MapReduce y sus limitaciones

En esta primera parte debeis pensar como solucionar una pregunta concreta sobre unos datos utilizando
MapReduce. Para ello se plantean diferentes preguntas sobre un dataset. Para cada una de las preguntas
debeis escribir el pseudocodigo que da la solucion. Finalmente se cerrara esta primera parte con una(s)
pregunta(s) sobre las posibilidades de MapReduce. Con esto empezareis a ver la dificultad de atacar un
problema con el paradigma MapReduce pero a la vez del potencial que tiene el hacerlo de esta manera
para conseguir resolverlo utilizando el paralelismo.

El dataset sobre el cual se plantean las preguntas corresponde a los datos de los viajes de la compana Uber
de Nueva York entre Enero y Junio de 2015. Este dataset sera tambien el que utilizareis posteriormente
en la parte practica.

El dataset esta organizado de la siguiente manera:

1. Dispatching base num: Codigo de la base de la compana TLC de la que salio el taxi.
2. Pickup date : Fecha y hora de la recogida.
3. Affiliated base num : Codigo de la base de la compana TLC afiliada al taxi.
4. LocationID : Identificador de la localizacion de la recogida.
5. Zone : Zona de la recogida.
6. Borough : Municipio/Barrio de la recogida.

Un ejemplo de los datos es el siguiente:

B02617,2015-05-17 09:47:00,B02617,141,Manhattan,Lenox Hill West

B02617,2015-05-17 09:47:00,B02617,65,Brooklyn,Downtown Brooklyn/MetroTech
B02617,2015-05-17 09:47:00,B02617,100,Manhattan,Garment District
B02617,2015-05-17 09:47:00,B02774,80,Brooklyn,East Williamsburg
B02617,2015-05-17 09:47:00,B02617,90,Manhattan,Flatiron
B02617,2015-05-17 09:47:00,B02617,228,Brooklyn,Sunset Park West
B02617,2015-05-17 09:47:00,B02617,7,Queens,Astoria
B02617,2015-05-17 09:47:00,B02764,74,Manhattan,East Harlem North
B02617,2015-05-17 09:47:00,B02617,249,Manhattan,West Village
B02617,2015-05-17 09:47:00,B02764,22,Brooklyn,Bensonhurst West
B02617,2015-05-17 09:48:00,B02617,263,Manhattan,Yorkville West
B02617,2015-05-17 09:48:00,B02617,61,Brooklyn,Crown Heights North
B02617,2015-05-17 09:49:00,B02617,229,Manhattan,Sutton Place/Turtle Bay North
B02617,2015-05-17 09:49:00,B02617,164,Manhattan,Midtown South
B02617,2015-05-17 09:49:00,B02617,237,Manhattan,Upper East Side South
B02617,2015-05-17 09:49:00,B02617,142,Manhattan,Lincoln Square East
B02617,2015-05-17 09:49:00,B02617,188,Brooklyn,Prospect-Lefferts Gardens
B02617,2015-05-17 09:49:00,B02617,237,Manhattan,Upper East Side South
B02617,2015-05-17 09:49:00,B02617,224,Manhattan,Stuy Town/Peter Cooper Village
B02617,2015-05-17 09:49:00,B02617,238,Manhattan,Upper West Side North
B02617,2015-05-17 09:49:00,B02682,242,Bronx,Van Nest/Morris Park

Las preguntas que se plantean a continuacion preguntan sobre el da con mas recogidas, etc. La salida
(output) del pseudocodigo que deis como respuesta no tiene porque contener directamente la respuesta,
pero si que debe facilitar el poder contestarla utilizando alguna tecnica simple como maximo o ordenacion.
En el ejemplo que se muestra a continuacion entendereis a que nos referimos.

Esta seccion esta cubierta por la pagina de la wiki, Ejemplo MapReduce.

B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

A continuacion se muestra un ejemplo de pregunta y la respuesta que se espera con el dataset presentado.

Cual es el Dispatching base num mas activa?

Nota: Las lneas que empiezan por // son explicativas, comentarios, y no afectan a la ejecucion.

Map(String key, String value):

// key: nombre del documento
// value: contenido del documento

valuesplit := value.separar por coma()

// valuesplit es una lista con cada elemento
// valuesplit[0] corresponde a Dispatching base num
// valuesplit[1] corresponde a Pikcup date
// ...
EmitIntermediate(valuesplit[0], 1);

Reduce(String key, Iterator values):

// key: Corresponde al primer parametro de EmitIntermediate
// values: una lista de ocurrencias

int result = 0;
for each v in values:
result += 1;

// Vamos a emitir una tupla donde el primer valor sera el Dispatching base num
// El segundo valor sera la cantidad de veces que ha aparecido
Emit( (key, AsString(result) ) );

Un ejemplo del resultado de esta ejecucion sera:

(B02512, 18645)
(B02598, 2384)
(B02617, 9344)
(B02682, 32574)
(B02764, 87565)
(B02765, 98547)
(B02835, 89736)
(B02836, 10485)

Esto es lo que se espera para cada una de las siguientes preguntas. Como podeis observar no hemos dado
el resultado de cual es el Dispatching base num con mas viajes, ni el pseudocodigo para obtenerlo. Esa
parte no es necesaria para esta primera parte teorica.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

INSTRUCCIONES

Para realizar la primera parte debeis entender como funciona el paradigma MapReduce. Cual es la entrada
de la fase Map y que debe salir de ella. Debeis saber que despues se realiza una parte shuffling y sorting.
Y finalmente cual es la entrada de cada Reduce, que operacion se lleva a cabo y que salida tiene.

Para averiguar todo esto debeis leer la documentacion del modulo 2 que os hemos provisto y despues
seguir con la wiki, hacer clic aqu. Una vez esteis seguros de que entendeis MapReduce estudiar el ejemplo
anterior hasta comprender que se hace en el Map y porque, y que se hace en el Reduce y porque.

Una vez tengais el ejemplo muy claro debeis tomar el ejemplo como si fuera una plantilla para contestar
a las preguntas que teneis a continuacion. De hecho podeis copiar y pegar ese ejemplo y adaptarlo para
llevar a cabo el objetivo de cada ejercicio.

Dado que el pseudocodigo es nuevo para la mayora de vosotros debeis saber que este textono se
ejecuta. As pues, unicamente escribir este codigo en un editor de texto (word o cualquier otro de vuestra
preferencia).

Como obtener la hora y minutos de un campo de fecha: Supongamos que valuesplit[1] contiene
la fecha, podemos hacer lo siguiente: hhmm := valuesplit[1].hora y minutos().

Como obtener la hora de un campo de fecha: Supongamos que valuesplit[1] contiene la fecha,
podemos hacer lo siguiente: hhmm := valuesplit[1].hora().

Como obtener el da de la semana de un campo fecha: Supongamos que valuesplit[1] contiene la

fecha, podemos hacer lo siguiente: ds := valuesplit[1].dayofweek().

Como recorro varios elementos de un array como el de valuesde la fase Reduce: Tal y
como se muestra en el ejemplo del enunciado, for each element in values: operacion sobre el
elemento. Por ejemplo si queremos sumarlos y guardar el resultado en la variable result, for each
element in values: result += 1.

Como creo las tuplas del resultado de la fase de Map: Para crear las tuplas del Map utiliza
EmitIntermediate(A, B) donde A es la clave y B el valor.

Como produzco los resultados de la fase de Reduce: Cuando necesites enviar valores al resultado
del Reduce utiliza el Emit(A) donde A es un numero, una palabra, una tupla, etc. lo que quieras como
resultado de la fase Reduce.

Como puedo filtrar: Cuando necesites filtrar en la fase de Map utiliza if CONDICION then: Emi-
tIntermediate... donde CONDICION es la condicion que quieres que se cumpla para emitir los valores.
Por ejemplo, si quieres filtrar por los das que son miercoles: if valuesplit[1].weekday() = 3 then:
EmitIntermediate(...), ponemos = 3 porque el 3 corresponde al miercoles.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

Ejercicio 1 (1p). Cual es la hora y minuto con mas recogidas?

Ejercicio 2 (1p). Cual es el Borought con mas recogidas durante los siete primeros das del mes?

Ejercicio 3 (1p). Cual es el da de la semana con mas recogidas?

Ejercicio 4 (1p). Que hora del da es la mas activa para la zona de Brooklyn?

Ejercicio 5 (1p). Formula una pregunta sobre el dataset mostrado que no se podra contestar utilizando
MapReduce pero s con otra metodologa/paradigma.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

SEGUNDA PARTE: Apache Spark SQL y Apache Spark Python

En esta parte debeis escoger UNICAMENTE una practica entre:

Apache Spark SQL

Apache Spark Python

Para llevar a cabo los ejercicios utilizaremos la plataforma cloud DataBricks. DataBricks provee de clusters
para ejecutar trabajos de Apache Spark. Los clusters estan en Amazon Web Services (AWS). Normalmente
enlazariamos nuestra cuenta de AWS a nuestro usuario de DataBricks y podramos empezar a trabajar.
Para esa practica utilizaremos la Community Edition de DataBricks la cual es totalmente gratuita y nos
aporta un cluster de 6GB, suficiente para realizar la practica.

Vamos a utilizar uno de los frameworks mas populares de Big Data de hoy en da. Con estos ejercicios os
enfrentareis a las peculiaridades de esta tecnologa y aprendereis como funciona para conseguir resolver
grandes problemas de manera distribuida.

Preparacion del set-up

Primero de todo, utilizando el navegador, os debeis dirigir a https://databricks.com/try-databricks y

debajo de COMMUNITY EDITION hacer clic en el boton START TODAY. Sobretodo no confundiros
con el FULL-PLATFORM TRIAL. Rellenar el formulario que aparecera. Una vez finalizado el registro
entrar a vuestra cuenta de DataBricks Community Edition.

Una vez dentro ya podemos empezar a utilizar la plataforma. Podeis familiarizaros con el menu de la
izquierda. Para daros una idea general, ofrece las siguientes funcionalidades:

Databricks: Es la pagina de bienvenida, teneis acceso directo a las demas secciones y tambien a la
documentacion.
Home: Despliega una seccion lateral que accede a la carpeta de vuestro usuario. Aqu podeis poner
nuevos ficheros.
Workspace: Despliega una seccion lateral con acceso a: Documentacion, Notas de la ultima version,
Tutoriales, etc.
Recent: Muestra los elementos a los que se ha accedido recientemente.

Tables: Despliega una seccion lateral desde la que podeis crear nuevas tablas y consultar las exis-
tentes.
Clusters: Desde este menu podeis manejar vuestros clusters y crear nuevos.
Jobs: Esta seccion no esta disponible para la version Community. Se utiliza para ejecutar notebooks
bajo demanda o programar la ejecucion para una hora determinada.
Search: Abre el menu de busqueda.

De todas estas opciones utilizaremos sobretodo la de Home y Tables. Podeis explorar las diferentes menus
para familiarizaros con ellos.

Instrucciones para obtener los enunciados

Debeis descargar del aula el notebook que hayais elegido. Los enunciados de esta parte los importareis
desde databricks. Debeis escoger uno de los dos como hemos mencionado anteriormente. Para importarlo
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

debeis hacer clic en el menu lateral workspace, seleccionar la flecha al lado del nombre Workspace, y
hacer clic en Importar. Seleccionar File en el menu que se despliega y seleccionar el notebook descargado.
Si teneis dudas aqu hay instrucciones sobre como hacerlo y una imagen animada que muestra el proceso
https://docs.databricks.com/user-guide/notebooks/index.html#importing-notebooks.

Una vez lo hayais importado, hacer clic en el nuevo elemento que aparecera dentro del workspace para
abrir el notebook. Seguir las instrucciones que apareceran en el.

En la siguiente pagina hay una gua para la parte de Apache Spark SQL.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

Gua Apache Spark SQL

A continuacion os pongo un ejemplo con unos archivos de empleados y departamentos.

El archivo employees2015.csv tiene los siguientes campos:

EmployeeID: Es de tipo numerico e identifica el empleado

Name: Es de tipo cadena de caracteres (string) e indica el nombre del empleado
Salary: Es de tipo numerico e identifica el salario del empleado

DepartmentID: Es de tipo numerico e identifica el ID del departamento para el que trabaja el

empleado

El archivo departments2015.csv tiene los siguientes campos:

DepartmentID: Es de tipo numerico e identifica el departamento

Name: Es de tipo cadena de caracteres (string) e indica el nombre del departamento

Suponer que hemos cargado estos archivos en DataBricks siguiendo el procedimiento explicado en el
Notebook.

Para comprobar que las tablas se han creado correctamente vamos a listar 5 filas de cada tabla.
select * from employees limit 5;, si muestra 5 filas de datos como los del archivo significa que hemos
creado la tabla employees correctamente.
select * from departments limit 5;, si muestra 5 filas de datos como los del archivo significa que
hemos creado la tabla departments correctamente.

Lo proximo que haremos sera crear una tabla con la union de estas dos para despues llevar a cabo nuestro
analisis sobre ella.

CREATE TABLE company (EmployeeID INT, EmployeeName STRING, Salary INT, De-
partmentID INT, DepartmentName STRING)
AS select e.EmployeeID, e.Name as EmployeeName, e.Salary, d.DepartmentID, d.Name as
DepartmentName
from Emloyees e INNER JOIN Departments d
ON e.DepartmentID = d.DepartmentID;

Comentarios sobre como hemos creado la tabla anterior:

Los campos numericos son de tipo INT, los campos de cadenas de caracteres son de tipo STRING
Despues del AS anadimos la consulta SQL con informacion que cargaremos en la tabla.
Hemos realizado la union de ambas tablas utilizando una INNER JOIN. Esto quiere decir que
para cada empleado debe existir su departamento o no aparecera en el resultado.
Donde pone ON especificamos la condicion de la union. En este caso juntamos los empleados y los
departamentos por el campo DepartmentID. En vuestra practica utilizareis el campo locationID.

Para comprobar que la tabla se ha cargado correctamente podemos lanzar la siguiente consulta:
select * from company limit 5;, si muestra 5 filas de datos como los del archivo significa que hemos
creado la tabla company correctamente.
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

En vuestro caso podeis comprobar cada una de las tablas con los siguientes comandos una vez las hayais
creado:

select * from uber simple limit 5;

select * from locations limit 5;

select * from uber limit 5;

Vamos a realizar un analisis sencillo como por ejemplo cuantos empleados tenemos para cada departa-
mento:

select DepartmentName, count(*) as EmployeeCount from uber group by DepartmentNa-

me;

Mostrar los 3 departamentos con mas empleados:

select DepartmentName, count(*) as EmployeeCount from uber group by DepartmentName

order by count(*) limit 3;

Mostrar los empleados del departamento RRHH:

select EmployeeName from departments where DepartmentName = RRHH;

Para ayudaros con las funciones de tiempo os dejo algunas pistas:

El tipo para las fechas es TIMESTAMP.

Extraer el da de la semana de una fecha: select date format(campoFecha, EEEE) from tabla;,
remplazar campoFecha por vuestra columna de formato TIMESTAMP.
Extraer la hora del da de una fecha: select hour(campoFecha) from tabla;
Extraer el da del mes de una fecha: select day(campoFecha) from tabla;
B2.322 - Fundamentos y usos de Big Data B1.781 - Gestion de Big Data PEC2 2016-1 Programa de Business Intelligence y
Big Data Estudios de Informatica, Multimedia y Telecomunicacion

Recursos

Recursos Basicos
Modulo didactico 2. Fundamentos de Big Data (parte 2).pdf

Modulo didactico 2.2.0. Hadoop

Modulo didactico 2.2.1 Apache Spark
Modulo didactico 2.3 MapReduce

Recursos Complementarios
Wiki. Tecnologas de Big Data
Hadoop Common
Comandos HDFS

Hive DDL
Hive DML
Spark Programming Guide

Criterios de valoracion
La PEC se tiene que resolver de forma individual.
Es necesario mostrar todos los comandos y sentencias para cada pregunta.
Se valorara tanto el resultado final como el procedimiento.

Formato y fecha de entrega

La entrega consiste en un documento PDF para los ejercicios de la primera parte. El nombre del
fichero tiene que ser: PEC2-Apellido1Apellido2Nombre-MapReduce.pdf. Y un segundo archivo,el
notebook, con las respuestas de todos los ejercicios de la segunda parte. El nombre del fichero tiene que
ser: PEC2-Apellido1Apellido2Nombre-ApacheSparkSQL.DBC, si habeis escogido Apache Spark
SQL, o PEC2-Apellido1Apellido2Nombre-ApacheSparkPython.DBC, si habeis escogido Apache
Spark Python.

No se aceptaran entregas fuera de plazo.

También podría gustarte

Simplificación de Grafos con Map Reduce
Aún no hay calificaciones
Simplificación de Grafos con Map Reduce
4 páginas
Funciones Excel 2007
Aún no hay calificaciones
Funciones Excel 2007
32 páginas
Sílabo Funpro Idat V1.3
Aún no hay calificaciones
Sílabo Funpro Idat V1.3
5 páginas
Ejercicios de Programación para Ciencia de Datos
Aún no hay calificaciones
Ejercicios de Programación para Ciencia de Datos
13 páginas
Monografia Final RRHH
Aún no hay calificaciones
Monografia Final RRHH
66 páginas
B3 - T8 - Ejercicios de Map Reduce PDF
Aún no hay calificaciones
B3 - T8 - Ejercicios de Map Reduce PDF
12 páginas
Estructuras de Datos y Recursividad
Aún no hay calificaciones
Estructuras de Datos y Recursividad
19 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Guia para Creación de Triggers en SQL-server
Aún no hay calificaciones
Guia para Creación de Triggers en SQL-server
5 páginas
Prueba Tecnica DataKnow PDF
Aún no hay calificaciones
Prueba Tecnica DataKnow PDF
3 páginas
Que Es MySQL
Aún no hay calificaciones
Que Es MySQL
2 páginas
Curso Spring Boot
Aún no hay calificaciones
Curso Spring Boot
76 páginas
OLTP On Line Transactional Processing
Aún no hay calificaciones
OLTP On Line Transactional Processing
12 páginas
Guía ETL para Data Warehousing
Aún no hay calificaciones
Guía ETL para Data Warehousing
20 páginas
Caso de Estudio Mongo DB
Aún no hay calificaciones
Caso de Estudio Mongo DB
6 páginas
Uso de MongoDB en Big Data
Aún no hay calificaciones
Uso de MongoDB en Big Data
14 páginas
Taller Reglas Asociación 2019-2
Aún no hay calificaciones
Taller Reglas Asociación 2019-2
12 páginas
Lab 2
Aún no hay calificaciones
Lab 2
6 páginas
Guía 9 Analisis Visual - Interfaz de Trabajo
Aún no hay calificaciones
Guía 9 Analisis Visual - Interfaz de Trabajo
11 páginas
Funciones de Base de Datos
Aún no hay calificaciones
Funciones de Base de Datos
5 páginas
PIF Calculo I
Aún no hay calificaciones
PIF Calculo I
9 páginas
Laboratorio 3 - Análisis de Datos
Aún no hay calificaciones
Laboratorio 3 - Análisis de Datos
10 páginas
Tarea Investigativa t3
Aún no hay calificaciones
Tarea Investigativa t3
3 páginas
Asignacion de Horario Mediante Algoritmo PDF
Aún no hay calificaciones
Asignacion de Horario Mediante Algoritmo PDF
120 páginas
Instalación Jasper Reports en APEX
Aún no hay calificaciones
Instalación Jasper Reports en APEX
5 páginas
Técnicas Avanzadas de POO: Herencia y Polimorfismo
Aún no hay calificaciones
Técnicas Avanzadas de POO: Herencia y Polimorfismo
17 páginas
Java - Crear Un Programa - Control Escolar
Aún no hay calificaciones
Java - Crear Un Programa - Control Escolar
2 páginas
Diseño de Bases de Datos: Conceptual y Lógico
Aún no hay calificaciones
Diseño de Bases de Datos: Conceptual y Lógico
38 páginas
Data Mart - 7 Pasos Tecnicos
Aún no hay calificaciones
Data Mart - 7 Pasos Tecnicos
61 páginas
SP P1-Ejercicio 1
Aún no hay calificaciones
SP P1-Ejercicio 1
11 páginas
Algoritmo de Búsqueda Local para el Problema de la Mochila
Aún no hay calificaciones
Algoritmo de Búsqueda Local para el Problema de la Mochila
8 páginas
PERSISTENCIA Y DATOS TRANSACCIONALES CLASE 2 Ayudas
Aún no hay calificaciones
PERSISTENCIA Y DATOS TRANSACCIONALES CLASE 2 Ayudas
26 páginas
Ejercicio Obligatorio - Python Orientado A Datos II - Revisión Del Intento
Aún no hay calificaciones
Ejercicio Obligatorio - Python Orientado A Datos II - Revisión Del Intento
3 páginas
Diseno de Centro de Datos
Aún no hay calificaciones
Diseno de Centro de Datos
5 páginas
Manual IFCD94. Herramientas Del Big Data y Gobierno Del Dato
Aún no hay calificaciones
Manual IFCD94. Herramientas Del Big Data y Gobierno Del Dato
95 páginas
Manual LibreOffice Base-Parte III
Aún no hay calificaciones
Manual LibreOffice Base-Parte III
19 páginas
Introducción a Haskell y Funcionalidad
Aún no hay calificaciones
Introducción a Haskell y Funcionalidad
46 páginas
Clase 01 - Data Analytics
Aún no hay calificaciones
Clase 01 - Data Analytics
80 páginas
Cloud Computing - 03
Aún no hay calificaciones
Cloud Computing - 03
27 páginas
Manual de Datawarehouse RR HH en Power Bi PDF
Aún no hay calificaciones
Manual de Datawarehouse RR HH en Power Bi PDF
22 páginas
Modelado de Datos en Bizagi: Entidades y Relaciones
Aún no hay calificaciones
Modelado de Datos en Bizagi: Entidades y Relaciones
80 páginas
N Reinas
Aún no hay calificaciones
N Reinas
2 páginas
PreparaTic - 29 - 064 Resumen
Aún no hay calificaciones
PreparaTic - 29 - 064 Resumen
11 páginas
Código de Ética y Conducta Profesional de ACM
Aún no hay calificaciones
Código de Ética y Conducta Profesional de ACM
33 páginas
CasoPractico M2 JorgeDeVivar
Aún no hay calificaciones
CasoPractico M2 JorgeDeVivar
5 páginas
Ciclo de Vida del Software
100% (1)
Ciclo de Vida del Software
8 páginas
Diagrama Componentes
Aún no hay calificaciones
Diagrama Componentes
7 páginas
Máster en Data Science para Profesionales
Aún no hay calificaciones
Máster en Data Science para Profesionales
24 páginas
Práctica SQL: Alquiler de Coches
Aún no hay calificaciones
Práctica SQL: Alquiler de Coches
4 páginas
Curso Python IA
Aún no hay calificaciones
Curso Python IA
146 páginas
Et121 3 Bdy7101 PDF
Aún no hay calificaciones
Et121 3 Bdy7101 PDF
6 páginas
Caso Práctico NEO4J
Aún no hay calificaciones
Caso Práctico NEO4J
16 páginas
BIG DATA-Marcela
Aún no hay calificaciones
BIG DATA-Marcela
7 páginas
S02.s2 - Ejercicios Data Mining y Balanced Scorecard
Aún no hay calificaciones
S02.s2 - Ejercicios Data Mining y Balanced Scorecard
4 páginas
Revisión y Retrospectiva del Sprint
Aún no hay calificaciones
Revisión y Retrospectiva del Sprint
11 páginas
Tutorial ETL Dataware House
Aún no hay calificaciones
Tutorial ETL Dataware House
75 páginas
Introducción a Consultas MDX en OLAP
Aún no hay calificaciones
Introducción a Consultas MDX en OLAP
38 páginas
Map Reduce: El Camino Hacia Big Data
Aún no hay calificaciones
Map Reduce: El Camino Hacia Big Data
14 páginas
Big Data - Ingenieria - Clase 1
Aún no hay calificaciones
Big Data - Ingenieria - Clase 1
59 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
24 páginas
Tema 2
Aún no hay calificaciones
Tema 2
30 páginas
Bigtable (ES)
Aún no hay calificaciones
Bigtable (ES)
26 páginas
Actividad 4 Minería de Datos
Aún no hay calificaciones
Actividad 4 Minería de Datos
17 páginas
Tendencias Digitales U3
Aún no hay calificaciones
Tendencias Digitales U3
23 páginas
Apache Hadoop Herramientas BIG DATA
Aún no hay calificaciones
Apache Hadoop Herramientas BIG DATA
24 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
44 páginas
Diseño de Una Arquitectura para Big Data
Aún no hay calificaciones
Diseño de Una Arquitectura para Big Data
28 páginas
Laboratorio MongoDB: Aggregation Framework
Aún no hay calificaciones
Laboratorio MongoDB: Aggregation Framework
6 páginas
Introducción a Big Data y NoSQL
Aún no hay calificaciones
Introducción a Big Data y NoSQL
74 páginas
2133 Nv237 Digital Sramirez
100% (1)
2133 Nv237 Digital Sramirez
7 páginas
EssentialsOfBusinessAnalytics - Español 1
100% (2)
EssentialsOfBusinessAnalytics - Español 1
288 páginas
Factibilidad Big Data para La Favorita
Aún no hay calificaciones
Factibilidad Big Data para La Favorita
25 páginas
The Hadoop Distributed FileSystem (ES)
Aún no hay calificaciones
The Hadoop Distributed FileSystem (ES)
10 páginas
Libros y Recursos de Hadoop 2013-2018
Aún no hay calificaciones
Libros y Recursos de Hadoop 2013-2018
14 páginas
Ciencia de Datos y Análisis de Big Data
Aún no hay calificaciones
Ciencia de Datos y Análisis de Big Data
2 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
Capitulo 6 Resumen Del Capitulo 6 Sistemas de Informacion Gerencial
Aún no hay calificaciones
Capitulo 6 Resumen Del Capitulo 6 Sistemas de Informacion Gerencial
9 páginas
Fundamentos de Los Sistemas Gestores de Bases de Datos
Aún no hay calificaciones
Fundamentos de Los Sistemas Gestores de Bases de Datos
19 páginas
Sistema Distribuido Google
80% (5)
Sistema Distribuido Google
53 páginas
MapReduce y Big Data: Guía Básica
Aún no hay calificaciones
MapReduce y Big Data: Guía Básica
60 páginas
Práctica 3 Spark y MapReduce
Aún no hay calificaciones
Práctica 3 Spark y MapReduce
8 páginas
Métodos de Partición y Muestreo en Big Data
Aún no hay calificaciones
Métodos de Partición y Muestreo en Big Data
17 páginas
Especialización en Big Data Multi-Cloud
Aún no hay calificaciones
Especialización en Big Data Multi-Cloud
5 páginas
Arquitectura Hadoop para Análisis de Yelp
Aún no hay calificaciones
Arquitectura Hadoop para Análisis de Yelp
4 páginas
Herramientas PDF y SQL para Empresas
Aún no hay calificaciones
Herramientas PDF y SQL para Empresas
18 páginas
Sesión 8 - Introducción A Apache Spark
Aún no hay calificaciones
Sesión 8 - Introducción A Apache Spark
39 páginas
Introducción a Hadoop y Big Data
Aún no hay calificaciones
Introducción a Hadoop y Big Data
3 páginas
Hadoop Taller PDF
Aún no hay calificaciones
Hadoop Taller PDF
48 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Introducción A Big Data y Arquitectura de Datos
Aún no hay calificaciones
Introducción A Big Data y Arquitectura de Datos
26 páginas