PLAN DE TRABAJO DEL
ESTUDIANTE
Trabajo Final
DATOS DEL ESTUDIANTE
Apellidos y Nombres: Pedrito José Oclocho Cuipal ID: 001541026
Dirección Zonal/CFP: Chachapoyas
Carrera: ingeniería de Software con Inteligencia Artificial Semestre: 6
Curso/ Mód. Formativo: Big Data y Análisis Digital
Tema de Trabajo Final: Entregable 1
1. INFORMACIÓN
▪ Identifica la problemática del caso práctico propuesto.
La empresa DataCorp tiene problemas porque genera muchísimos datos de
redes sociales, compras en línea, sensores en tiendas y registros de clientes,
pero no cuenta con una buena infraestructura para almacenarlos ni procesarlos
rápido. Esto hace que el análisis tarde mucho, que no siempre se obtenga
información útil para decidir, y además hay riesgos en seguridad y cumplimiento
de normas. En resumen, no pueden aprovechar bien sus datos y eso afecta sus
decisiones y su competitividad.
• Falta de capacidad para almacenar datos.
• Procesamiento lento de la información.
• Dificultad para obtener información útil.
• Riesgos en seguridad y cumplimiento de normas.
• Poco uso de tecnologías modernas de Big Data.
▪ Identifica propuesta de solución y evidencias.
Propuesta de solución
• Usar almacenamiento en la nube para guardar los datos.
• Implementar herramientas de Big Data (como Spark) para procesar la
información más rápido.
• Asegurar la seguridad de los datos y cumplir con normas.
Evidencias
• La nube brinda más espacio y acceso rápido.
• Spark permite procesar datos de forma ágil.
• Las medidas de seguridad garantizan protección y confianza.
▪ Respuestas a preguntas guía
2
Trabajo Final
Durante el análisis y estudio del caso práctico, debes obtener las respuestas a las
interrogantes:
Pregunta 01: ¿Cuáles son las principales fuentes de datos masivos en la empresa y cómo
pueden ser gestionadas de manera eficiente?
Las principales fuentes son redes sociales, compras en línea, sensores IoT en tiendas y registros
de clientes. Se pueden gestionar mejor con almacenamiento en la nube, bases de datos NoSQL
y procesamiento en tiempo real con Spark.
Pregunta 02: ¿Qué ventajas y desventajas tienen los diferentes sistemas de almacenamiento
de datos masivos para la empresa?
• Local: control directo, pero caro y poco escalable.
• Nube: flexible y accesible, pero dependiente de proveedores.
• Distribuidos (HDFS/GFS): manejan grandes volúmenes, pero requieren conocimiento
técnico.
Pregunta 03: ¿Cuál es el framework de procesamiento de datos más adecuado para los
objetivos de DataCorp y por qué?
El más adecuado es Apache Spark, porque procesa en tiempo real, es más rápido que Hadoop y
permite aplicar técnicas de Machine Learning para análisis avanzados.
Pregunta 04: ¿Cómo se pueden aplicar herramientas de análisis de Big Data para mejorar la
toma de decisiones empresariales en la empresa?
Sirven para detectar tendencias de compra, analizar comentarios en redes sociales, predecir
la demanda de productos y personalizar ofertas para los clientes.
Pregunta 05: ¿Cuáles son los principales desafíos éticos y legales en la gestión de datos
masivos dentro de DataCorp?
Los principales son la protección de datos personales, la seguridad contra filtraciones, el uso
responsable de la información y la transparencia con los clientes sobre cómo se usan sus
datos.
3
Trabajo Final
2. PLANIFIC
ACIÓN
DEL TRABAJO
▪ Cronograma de actividades:
N° ACTIVIDADES CRONOGRAMA
1 Identificación de fuentes de datos y SEMANA 1
problemas principales
Selección de almacenamiento, bases
2 SEMANA 2
NoSQL y framework (Spark)
Implementación piloto y presentación de
3 SEMANA 3
resultados
▪ Lista de recursos necesarios:
1. MÁQUINAS Y EQUIPOS
Descripción Cantidad
Servidores o acceso a la nube (AWS, Azure o Google Cloud) 1
Computadoras para el equipo de análisis 3
Dispositivos de respaldo (discos duros externos) 2
2. HERRAMIENTAS E INSTRUMENTOS
Descripción Cantidad
Software de procesamiento Big Data (Apache Spark, Hadoop) 1
Base de datos NoSQL (MongoDB o Cassandra) 1
Herramientas de seguridad y cumplimiento (firewall, cifrado) 1
3. MATERIALES E INSUMOS
Descripción Cantidad
Licencias de software en la nube 1
Manuales y guías técnicas 1
Capacitación para el personal 1
3. DECIDIR PROPUESTA
▪ Describe la propuesta determinada para la solución del caso práctico
4
Trabajo Final
PROPUESTA DE
SOLUCIÓN
Propuesta de solución para DataCorp
La propuesta de solución para DataCorp consiste en implementar una arquitectura de Big Data
moderna y flexible que le permita gestionar de manera eficiente el gran volumen de información
que genera diariamente. En primer lugar, se sugiere utilizar almacenamiento en la nube (AWS,
Azure o Google Cloud), ya que estos servicios garantizan escalabilidad, seguridad y acceso
inmediato a los datos desde cualquier ubicación, evitando limitaciones de espacio físico y altos
costos de servidores locales. Además, se recomienda el uso de bases de datos NoSQL como
MongoDB o Cassandra, que son más adecuadas para manejar datos estructurados,
semiestructurados y no estructurados, lo que permite trabajar con información diversa como redes
sociales, compras en línea y registros de clientes.
En cuanto al procesamiento, se plantea la adopción de Apache Spark como framework principal,
debido a su capacidad de análisis en tiempo real y su eficiencia en comparación con otros sistemas
como Hadoop, lo que reducirá los tiempos de espera y brindará resultados más rápidos para la
toma de decisiones. A ello se suma la aplicación de técnicas avanzadas de análisis y Machine
Learning, que facilitarán la identificación de patrones de consumo, predicciones de demanda y
generación de estrategias personalizadas de marketing. Finalmente, la solución se completa con la
implementación de protocolos de seguridad y cumplimiento normativo, que aseguren la protección
de los datos sensibles de los clientes, evitando riesgos legales y fortaleciendo la confianza en la
empresa.
Con esta propuesta, DataCorp podrá transformar su gran volumen de datos en información valiosa
para la toma de decisiones estratégicas, optimizando sus procesos internos, mejorando la
experiencia del cliente y fortaleciendo su posición competitiva en el mercado minorista.
Almacenamiento en la nube: Usar servicios como AWS, Azure o Google Cloud para garantizar
escalabilidad, seguridad y acceso rápido a los datos.
- Bases de datos NoSQL: Implementar MongoDB o Cassandra para manejar información
estructurada y no estructurada de distintas fuentes (redes sociales, compras en línea,
sensores IoT).
- Procesamiento con Apache Spark: Adoptar Spark como framework principal, ya que
permite análisis en tiempo real y reduce significativamente los tiempos de espera.
- Análisis avanzado y Machine Learning: Aplicar estas técnicas para identificar patrones
de consumo, predecir demanda y diseñar estrategias personalizadas de marketing.
- Seguridad y cumplimiento normativo: Establecer protocolos de cifrado y políticas de
protección de datos para garantizar la privacidad y cumplir con la normativa vigente.
4. EJECUTAR
5
Trabajo Final
Resolver
▪ el
caso práctico,
utilizando
como referencia el problema propuesto y las preguntas guía proporcionadas
para orientar el desarrollo.
▪ Fundamentar sus propuestas en los conocimientos adquiridos a lo largo del
curso, aplicando lo aprendido en las tareas y operaciones descritas en los
contenidos curriculares.
INSTRUCCIONES: Ser lo más explícito posible. Los gráficos ayudan a transmitir
mejor las ideas. Tomar en cuenta los aspectos de calidad, medio ambiente y SHI.
NORMAS TÉCNICAS -
OPERACIONES / PASOS / SUBPASOS ESTANDARES / SEGURIDAD
/ MEDIO AMBIENTE
1. Identificación de fuentes de datos y
problemas
Uso de información confiable, confidencialidad en -
el manejo de datos. Aplicar principios de calidad
(ISO 9001).
2. Selección de almacenamiento y bases de
datos
Cumplimiento de normas de protección de datos. -
Revisar impacto ambiental (energía y recursos de
servidores).
3.Implementación de procesamiento con
Apache Spark
Estándares de seguridad informática (ISO -
27001). Control de acceso a sistemas y uso
responsable de recursos.
4.Análisis y generación de reportes
Validación de calidad de los datos. Uso ético de -
la información, evitando sesgos y manipulación
indebida.
5.Seguridad, cumplimiento y mejora
continua
-
Políticas de cifrado y respaldo. Cumplimiento
normativo en datos personales. Auditorías
6
Trabajo Final
periódicas y control de impacto ambiental.
7
Trabajo Final
DIBUJO / ESQUEMA / DIAGRAMA DE PROPUESTA
(Adicionar las páginas que sean necesarias)
[NOMBRE DEL TEMA DEL TRABAJO FINAL]
[APELLIDOS Y NOMBRES] [ESCALA]
8
Trabajo Final
5. CONTROLAR
▪ Verificar el cumplimiento de los procesos desarrollados en la propuesta de solución del caso
práctico.
NO
EVIDENCIAS CUMPLE CUMPLE
• ¿Se identificó claramente la problemática del caso ☐ ☒
práctico?
• ¿Se desarrolló las condiciones de los requerimientos ☐ ☒
solicitados?
• ¿Se formularon respuestas claras y fundamentadas a ☐ ☒
todas las preguntas guía?
• ¿Se elaboró un cronograma claro de actividades a ☐ ☒
ejecutar?
• ¿Se identificaron y listaron los recursos (máquinas, ☐ ☒
equipos, herramientas, materiales) necesarios para
ejecutar la propuesta?
• ¿Se ejecutó la propuesta de acuerdo con la planificación y ☐ ☒
cronograma establecidos?
• ¿Se describieron todas las operaciones y pasos seguidos ☐ ☒
para garantizar la correcta ejecución?
• ¿Se consideran las normativas técnicas, de seguridad y ☐ ☒
medio ambiente en la propuesta de solución?
• ¿La propuesta es pertinente con los requerimientos ☐ ☒
solicitados?
• ¿Se evaluó la viabilidad de la propuesta para un contexto ☐ ☒
real?
9
Trabajo Final
6. VALORAR
▪ Califica el impacto que representa la propuesta de solución ante la situación planteada en el
caso práctico.
PUNTAJE
CRITERIO DE DESCRIPCIÓN DEL PUNTUACIÓN CALIFICADO
EVALUACIÓN CRITERIO MÁXIMA POR EL
ESTUDIANTE
Identificación del Claridad en la identificación
3 2
problema del problema planteado.
La propuesta responde
Relevancia de la adecuadamente al
propuesta de problema planteado y es 8 7
solución relevante para el contexto
del caso práctico.
La solución es
técnicamente factible,
Viabilidad técnica tomando en cuenta los 6 5
recursos y conocimientos
disponibles.
La solución cumple con
Cumplimiento de todas las normas técnicas
3 2
Normas de seguridad, higiene y
medio ambiente.
PUNTAJE TOTAL 20 16
1
0