Examen Final Resuelto

El **Big Data** se refiere al manejo y análisis de grandes volúmenes de datos que crecen a gran ve..

Cargado por

Josue Banchon

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

38 vistas4 páginas

Examen Final Resuelto

El **Big Data** se refiere al manejo y análisis de grandes volúmenes de datos que crecen a gran ve..

Cargado por

Josue Banchon

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

5- Indique que tarea realiza el siguiente programa de Spark Scala e indique como se podría

modificar par eliminar la string “cuentas” cada vez que aparezca.

val counts = [Link](_.replaceAll("[.,]", ""))

.map(_.replaceAll("-", ""))
.flatmap(line => [Link](" "))
.map(word => (word, 1))
.reduceByKey(_+_)
.sortBy(_._2)
.collect

Agregar antes del collect la siguiente línea

.filter((x:String) => x!="cuentas"

Este programa es un contador de palabras. Básicamente lo que hace es eliminar las comas,
puntos y demás estructuras que no sean palabras, para luego contar cada palabra cuantas
veces esta repetida en el texto.

3- Describa las principales ventajas de usar un sistema de análisis de Spark Scala, así como las
principales diferencias frente a los sistemas basados en R.

Apache Spark es un sistema informático distribuido de código abierto que se utiliza para el
procesamiento y análisis de big data. Está diseñado para trabajar con grandes conjuntos de datos
y proporcionar un procesamiento rápido y eficiente. Spark admite varios lenguajes de
programación, incluidos Python, Scala y R. Cada uno de estos lenguajes tiene sus ventajas y
desventajas cuando se usa con Spark.

Python es una opción popular para trabajar con Spark debido a su simplicidad, facilidad de uso
y la gran cantidad de bibliotecas y marcos disponibles. La API de PySpark permite a los
desarrolladores de Python interactuar con Spark de manera fácil y eficiente. Python tiene una
amplia colección de marcos y bibliotecas de ciencia de datos como NumPy, Pandas y Scikit-learn,
lo que lo convierte en una excelente opción para la preparación de datos, la limpieza de datos y
la ingeniería de características.

Scala, por otro lado, es un lenguaje de programación que está diseñado para ejecutarse en JVM
(Java Virtual Machine) y es conocido por su velocidad y escalabilidad. Spark está escrito en Scala
y, por lo tanto, Scala se considera el idioma nativo de Spark. Scala es ideal para desarrollar
aplicaciones informáticas distribuidas de alto rendimiento y es particularmente útil para el
procesamiento de big data.

R es un lenguaje de programación comúnmente utilizado para el análisis estadístico y la ciencia

de datos. R tiene una amplia variedad de paquetes y bibliotecas disponibles para el aprendizaje
automático, el modelado estadístico y la visualización de datos, lo que lo convierte en una
excelente opción para el análisis de datos y las tareas de aprendizaje automático.

Cuando se trata de elegir el mejor lenguaje para Spark, hay varios factores a considerar. Si ya está
familiarizado con un idioma en particular, podría ser una buena idea quedarse con ese idioma.
Si buscas simplicidad y facilidad de uso, Python es una excelente opción. Si necesita escalabilidad
y computación de alto rendimiento, Scala podría ser la mejor opción. Si ya tiene experiencia en
R y prefiere usarlo, entonces R podría ser la mejor opción para usted.

En general, no existe una respuesta única sobre qué idioma es el mejor para Spark. La elección
depende de sus requisitos y preferencias específicas. Sin embargo, Python y Scala son los
lenguajes más populares para Spark debido a su simplicidad, facilidad de uso y escalabilidad. Es
fundamental elegir el idioma que mejor se adapte a usted y a las necesidades de su proyecto,
teniendo en cuenta su familiaridad con el idioma, los requisitos de rendimiento y la
disponibilidad de bibliotecas y marcos.

4- Indique que para que tareas y fases utilizarías tanto Apache NIFI y Kafka en un sistema de
Big Data que recibe los ficheros de todos los semáforos de una ciudad inteligente y los
almacena en una base de datos NoSQl.

Los ficheros serán trasladados con Apache nifi, quien los va a tratar y entregar a Kafka quien por
último lo almacenará en la base de datos NoSQL.

¿Para qué se utiliza Apache NiFi?

• Transferencia confiable y segura de datos entre sistemas
• Entrega de datos de fuentes a plataformas analíticas
• Enriquecimiento y preparación de datos:
• Conversión entre formatos
• Extracción/Análisis
• Decisiones de enrutamiento
Apache Kafka
• Apache Kafka es un sistema de mensajería de publicación y suscripción distribuida. Él
está diseñado para soportar lo siguiente
• Mensajería persistente con estructuras de disco O(1) que proporcionan tiempo constante
rendimiento incluso con muchos TB de mensajes almacenados.
• Alto rendimiento: incluso con hardware muy modesto, Kafka puede admitir
cientos de miles de mensajes por segundo.
• Soporte explícito para particionar mensajes en servidores Kafka y distribuir
consumo sobre un grupo de máquinas de consumo mientras se mantiene la perpartición
ordenar la semántica.
• Soporte para carga de datos en paralelo en Hadoop.
Enunciado común problemas 1 y 2:
• La función agrupa, toma una lista L y un elemento E. Dicha función intenta dividir L en
dos sublistas, de las siguientes forma: si los primeros elementos coinciden con E,
devuelve una nueva lista con dichos primeros elementos agrupados por un lado y el
resto de los elementos en otro (es decir, se genera una lista con dos elementos, que
son listas a su vez). Si los primeros elementos No coinciden con el dado, devuelven la
lista original por ejemplo:

(agrupa (list a a b b a a) a) // devuelve ( ( a a) (b b a a))

( agrupa (list a a b b a ) b) // devuelve (a a b b a)

Nota: En el segundo caso no ha agrupado elementos por que los primeros no coinciden con b
• La función seguidos, que a partir de una lista determina el número de repeticiones
consecutivas de elementos que hay en una lista. Por ejemplo:

(seguidos (list a a b b c c c b a a a )) // devuelve (2 2 3 1 3)

• La función length devuelve el número de elementos en una lista

1- Escriba en LISP
- La función LENGTH
- La función SEGUIDOS, suponiendo que ya existe la función AGRUPA

- Función SEGUIDOS

(DEFUN Seguidos (L))

(COND
(NULL (L)) 0)
(EQ (CAR L SECOND L)) (LENGTH(CAR(AGRUPA (L CDR L)) Seguidos (CDR (AGRUPA(L CDR L)))
(T (1 (Seguidos (CDR L)))

- Función LENGTH

(DEFUN LENGHT (L))

(COND
(NULL (L)) 0
(T (1 + LENGTH (CDR L))))
2- Escriba en SCALA, usando programación funcional, la función AGRUPA.
NOTA: el operador e : : L es la concatenación del elemento e a la lista L por delante.

def agrupa( e: Any, lista: List[Any]) : List[Any] = {

lista match{
case head :: tail if (e == head) => [Link]( _ == e).toList
case head :: tail if (e != head) => (head :: tail)
case _ => Nil
}
}
agrupa('a', List('a', 'a', 'a', 'b', 'c'))
agrupa('a' , List('b', 'c', 'a', 'a', 'a'))

También podría gustarte

Introducción a Apache Spark
0% (1)
Introducción a Apache Spark
23 páginas
TallerUnidad4 BigData
Aún no hay calificaciones
TallerUnidad4 BigData
11 páginas
Introducción a Scala y Apache Spark
Aún no hay calificaciones
Introducción a Scala y Apache Spark
72 páginas
Apache Spark: Guía Completa para Ingeniería Informática
Aún no hay calificaciones
Apache Spark: Guía Completa para Ingeniería Informática
9 páginas
Tema 3
Aún no hay calificaciones
Tema 3
5 páginas
SCALA
Aún no hay calificaciones
SCALA
6 páginas
Scala
Aún no hay calificaciones
Scala
44 páginas
Guía sobre Apache Spark y su uso
Aún no hay calificaciones
Guía sobre Apache Spark y su uso
9 páginas
Introducción al lenguaje de programación Scala
Aún no hay calificaciones
Introducción al lenguaje de programación Scala
5 páginas
Componentes y Funciones de Apache Spark
Aún no hay calificaciones
Componentes y Funciones de Apache Spark
5 páginas
Contador de Palabras con Spark y MapReduce
Aún no hay calificaciones
Contador de Palabras con Spark y MapReduce
8 páginas
DataFrames y Spark SQL en Procesamiento de Datos
Aún no hay calificaciones
DataFrames y Spark SQL en Procesamiento de Datos
38 páginas
Lenguajes de Programación y Big Data
Aún no hay calificaciones
Lenguajes de Programación y Big Data
4 páginas
Actividades Del Ingeniero en Tu Especialidad
Aún no hay calificaciones
Actividades Del Ingeniero en Tu Especialidad
4 páginas
Scala
Aún no hay calificaciones
Scala
4 páginas
Introducción a Scala y Funciones Básicas
Aún no hay calificaciones
Introducción a Scala y Funciones Básicas
12 páginas
Apache Spark
Aún no hay calificaciones
Apache Spark
11 páginas
Introducción a Scala: Lenguaje y Características
Aún no hay calificaciones
Introducción a Scala: Lenguaje y Características
2 páginas
Introducción a Apache Spark y sus Componentes
Aún no hay calificaciones
Introducción a Apache Spark y sus Componentes
25 páginas
II-B.Tech-ECE-Programación en Python-Sílabo
Aún no hay calificaciones
II-B.Tech-ECE-Programación en Python-Sílabo
4 páginas
Fundamentos de Apache Spark en Ciencia de Datos
Aún no hay calificaciones
Fundamentos de Apache Spark en Ciencia de Datos
23 páginas
DataFrames y Spark SQL en Apache Spark
Aún no hay calificaciones
DataFrames y Spark SQL en Apache Spark
46 páginas
Ejercicios de Programación en Scheme
Aún no hay calificaciones
Ejercicios de Programación en Scheme
4 páginas
SCALA
Aún no hay calificaciones
SCALA
2 páginas
Introducción a Apache Spark
Aún no hay calificaciones
Introducción a Apache Spark
44 páginas
Actividad Programacion
Aún no hay calificaciones
Actividad Programacion
4 páginas
Introducción a Spark y PySpark en Python
Aún no hay calificaciones
Introducción a Spark y PySpark en Python
32 páginas
Lenguajes de Programación en Ciencia de Datos
Aún no hay calificaciones
Lenguajes de Programación en Ciencia de Datos
14 páginas
Comparativa entre Spark y Hadoop
Aún no hay calificaciones
Comparativa entre Spark y Hadoop
7 páginas
Introducción a Scala: Historia y Características
Aún no hay calificaciones
Introducción a Scala: Historia y Características
14 páginas
CP Campoverde Cueva Miño Paccha
Aún no hay calificaciones
CP Campoverde Cueva Miño Paccha
13 páginas
Lenguajes de Programación y Algoritmos
Aún no hay calificaciones
Lenguajes de Programación y Algoritmos
12 páginas
Analítica de Datos con Spark y Python
Aún no hay calificaciones
Analítica de Datos con Spark y Python
137 páginas
Descripción de Apache Spark y lenguajes
Aún no hay calificaciones
Descripción de Apache Spark y lenguajes
1 página
Apache Spark Es
100% (1)
Apache Spark Es
56 páginas
Analizador Léxico en Python: Práctica 2
Aún no hay calificaciones
Analizador Léxico en Python: Práctica 2
11 páginas
Introducción a Python: Características y Uso
100% (1)
Introducción a Python: Características y Uso
45 páginas
00 Presentación 2
Aún no hay calificaciones
00 Presentación 2
33 páginas
Lenguajes de Programación Funcionales y Lógicos
Aún no hay calificaciones
Lenguajes de Programación Funcionales y Lógicos
8 páginas
Python
Aún no hay calificaciones
Python
44 páginas
Cuadro Comparativo - Herramientas Big Data para Tu Empresa
100% (2)
Cuadro Comparativo - Herramientas Big Data para Tu Empresa
10 páginas
Herramientas Clave para Análisis de Big Data
Aún no hay calificaciones
Herramientas Clave para Análisis de Big Data
3 páginas
Fundamentos de Python
Aún no hay calificaciones
Fundamentos de Python
40 páginas
Tema 2
Aún no hay calificaciones
Tema 2
6 páginas
Examen Final de Programación 2022-B
Aún no hay calificaciones
Examen Final de Programación 2022-B
5 páginas
Introducción a Apache Spark y sus Ventajas
Aún no hay calificaciones
Introducción a Apache Spark y sus Ventajas
10 páginas
PYTHON
Aún no hay calificaciones
PYTHON
34 páginas
Big Data y Apache Spark: Procesamiento Eficiente
Aún no hay calificaciones
Big Data y Apache Spark: Procesamiento Eficiente
31 páginas
Guía de Trabajo con Apache Spark
Aún no hay calificaciones
Guía de Trabajo con Apache Spark
179 páginas
Comparativa de Lenguajes de Programación
Aún no hay calificaciones
Comparativa de Lenguajes de Programación
19 páginas
Introducción a Scala: Fundamentos y Sintaxis
Aún no hay calificaciones
Introducción a Scala: Fundamentos y Sintaxis
60 páginas
Métodos Numéricos y Lenguajes de Programación
Aún no hay calificaciones
Métodos Numéricos y Lenguajes de Programación
11 páginas
Test Tema 4 - Ingenieria para El Procesado Masivo de Datos - Fundación UNIR Colombia
Aún no hay calificaciones
Test Tema 4 - Ingenieria para El Procesado Masivo de Datos - Fundación UNIR Colombia
2 páginas
Funciones Haskell
Aún no hay calificaciones
Funciones Haskell
3 páginas
Lenguajes de Programación: Python y R
Aún no hay calificaciones
Lenguajes de Programación: Python y R
14 páginas
Comparativa de Lenguajes: Python, C# y Scala
100% (1)
Comparativa de Lenguajes: Python, C# y Scala
10 páginas
Post-Test - Escape Room (Realizar DESP
Aún no hay calificaciones
Post-Test - Escape Room (Realizar DESP
5 páginas
DAFO RETOS URBAN I HUBS Grupo 2
Aún no hay calificaciones
DAFO RETOS URBAN I HUBS Grupo 2
1 página
TAREA #S10 - Clasificación PLDs - Enzo Banchón
Aún no hay calificaciones
TAREA #S10 - Clasificación PLDs - Enzo Banchón
2 páginas
Introducción a la PC: Componentes y Mantenimiento
Aún no hay calificaciones
Introducción a la PC: Componentes y Mantenimiento
7 páginas
Principios del Circuito Pasa Banda
Aún no hay calificaciones
Principios del Circuito Pasa Banda
8 páginas
Cuestionario 4-6
Aún no hay calificaciones
Cuestionario 4-6
11 páginas
Principios del Circuito Pasa Banda
Aún no hay calificaciones
Principios del Circuito Pasa Banda
8 páginas
Microserivicios Temario v2
Aún no hay calificaciones
Microserivicios Temario v2
16 páginas
Tutorial Atpdraw
Aún no hay calificaciones
Tutorial Atpdraw
8 páginas
Ejercicios de Laboratorio en Ciberseguridad
Aún no hay calificaciones
Ejercicios de Laboratorio en Ciberseguridad
2 páginas
Consumo de API en React Con UseEffect
Aún no hay calificaciones
Consumo de API en React Con UseEffect
42 páginas
Sesión 2 - Fundamentos de SQL e Introducción A PostgreSQL
Aún no hay calificaciones
Sesión 2 - Fundamentos de SQL e Introducción A PostgreSQL
32 páginas
Características y Usos de Software Diverso
Aún no hay calificaciones
Características y Usos de Software Diverso
4 páginas
M2 Programación II FIN A - Proyecto Modular
Aún no hay calificaciones
M2 Programación II FIN A - Proyecto Modular
13 páginas
Memoria Compartida Distribuida
Aún no hay calificaciones
Memoria Compartida Distribuida
15 páginas
Dinámica de Equipos en Tecnología
Aún no hay calificaciones
Dinámica de Equipos en Tecnología
4 páginas
Markem Imaje 2200 DS LAM A11
Aún no hay calificaciones
Markem Imaje 2200 DS LAM A11
2 páginas
Auditoría TI Servicios García 2019
Aún no hay calificaciones
Auditoría TI Servicios García 2019
9 páginas
Desarrollo de Requerimientos y Diagramas de Caso de Uso para
Aún no hay calificaciones
Desarrollo de Requerimientos y Diagramas de Caso de Uso para
3 páginas
Cloud Resumen PDF
Aún no hay calificaciones
Cloud Resumen PDF
5 páginas
GA1-220501092-AA4-EV02 Documento Con Especificación de Requerimientos
Aún no hay calificaciones
GA1-220501092-AA4-EV02 Documento Con Especificación de Requerimientos
24 páginas
3.1 Definicion de Espacio Almacenamiento
Aún no hay calificaciones
3.1 Definicion de Espacio Almacenamiento
21 páginas
Auditoría de Control de Acceso ISO 27002
Aún no hay calificaciones
Auditoría de Control de Acceso ISO 27002
9 páginas
Examen de Arquitectura de Software
0% (2)
Examen de Arquitectura de Software
10 páginas
Dispositivos de Almacenamiento - TRIPTICO
Aún no hay calificaciones
Dispositivos de Almacenamiento - TRIPTICO
4 páginas
TAREA 2 UNIDAD 1 Ejemplos de Casos de AMENAZAS Hechas Por PERSONAS - 2ºSMR
Aún no hay calificaciones
TAREA 2 UNIDAD 1 Ejemplos de Casos de AMENAZAS Hechas Por PERSONAS - 2ºSMR
3 páginas
Evidencia GA6-220501096-AA2-EV01 Destrezas y Conocimientos en El Manejo de Sentencias DDL y DML de SQL
Aún no hay calificaciones
Evidencia GA6-220501096-AA2-EV01 Destrezas y Conocimientos en El Manejo de Sentencias DDL y DML de SQL
10 páginas
Guía Práctica de Azure DevOps 2021
0% (1)
Guía Práctica de Azure DevOps 2021
12 páginas
Evaluacion Final
Aún no hay calificaciones
Evaluacion Final
15 páginas
CV Juan Carlos Berrios Torres
Aún no hay calificaciones
CV Juan Carlos Berrios Torres
2 páginas
Plantilla - Eval.seg - Magerit.octave 270624 JL v1
Aún no hay calificaciones
Plantilla - Eval.seg - Magerit.octave 270624 JL v1
43 páginas
Manual de Prácticas: Java Swing
Aún no hay calificaciones
Manual de Prácticas: Java Swing
104 páginas
Renovación de Licenciamiento de Seguridad Perimetral
Aún no hay calificaciones
Renovación de Licenciamiento de Seguridad Perimetral
13 páginas
Conceptos Clave de Informática Básica
Aún no hay calificaciones
Conceptos Clave de Informática Básica
3 páginas
Unidad 2 - Entornos de Desarrollo Integrados
Aún no hay calificaciones
Unidad 2 - Entornos de Desarrollo Integrados
25 páginas
Rap 04
Aún no hay calificaciones
Rap 04
8 páginas
Componentes de un Sistema de Base de Datos
Aún no hay calificaciones
Componentes de un Sistema de Base de Datos
3 páginas