UNIVERSIDAD MARIANO GÁLVEZ DE GUATEMALA
DIRECCIÓN DE INVESTIGACIÓN E INFORMÁTICA
APLICADA
MAESTRÍA EN INFORMÁTICA
Curso: Inteligencia Artificial.
Catedrático: Ing. Gerber Flores.
Trabajo:
CASO 2.
BIG DATA Y MACHINE LEARNING
Alumnos:
Jorge Estuardo Vásquez Rosales. - Carné: 092-98-3055
domingo, 6 de octubre de 2024
Contenido
Caso de Estudio. ............................................................................................................................ 3
1. Qué es Big Data................................................................................................................ 3
2. Relación entre Machine Learning y BigData................................................................... 4
Big Data como fuente de entrenamiento para machine learning .......................................... 4
ML para analizar Big Data ........................................................................................................ 4
Automatización y escalabilidad ............................................................................................... 4
3. ¿Qué son y para qué sirven los algoritmos? ................................................................... 4
4. Qué relevancia tiene el aprendizaje de un algoritmo en IA........................................... 5
5. Qué industria puede beneficiarse de estas tecnologías. ............................................... 5
1. Laboral: ...................................................................................................................... 5
2. Universitario: ............................................................................................................. 5
3. Personal : ................................................................................................................... 5
Caso de Estudio.
1. Qué es Big Data
Para describir el término quisiera iniciar 25 años atrás, donde estábamos
pasando de estructuras de datos almacenados en archivos secuenciales y
modelos ya relacionales.
Los primeros modelos relacionales funcionaron bien, hasta que los las
organizaciones comenzaron a demandar reportes, los cuales eran complejos,
lentos y debían generarse en tiempos fuera de oficina para no interrumpir las
operaciones, volviéndose el área de TI suministrador de estos reportes.
Para dar solución comenzaron con los años a salir propuestas en el mercado, se
introdujeron términos como OLAP, Cubos de Información, o Servicios de Análisis,
pero con el avance de ellas, se comenzaron a demandar indicadores, los cuales
se alimentaban de muchos más datos.
Entrando en materia, aunque las bases de datos distribuidas en servidores
podían ayudar, la generación de información masiva en la que estamos, los
negocios necesitan analizar toda esa transaccionalidad, ya no sólo para
conocer indicadores, si no, para analizar a profundidad y en tiempo real lo que
pueda estar pasando con un producto nuevo, una campaña de marketing, un
equipo industrial instalado recientemente.
Para dar solución a esas necesidades nace el concepto de Big Data, el cal es
un conjunto de tecnologías, herramientas y metodologías para procesar,
analizar, y gestionar esos grandes volúmenes de datos que son bastante
complejos para analizarlo con los métodos tradicionales y menos con la
tecnología que nació hace 25 años.
Esto considera aspectos claves los cuales algunos expertos los clasifican como
las 5V del BigData.
1. Volumen: Es toda la cantidad masiva de datos que se generan
continuamente. Estos datos pueden venir no de un solo origen si no de
múltiples fuentes, como sistemas, sistemas en nube, redes sociales,
dispositivos IOT, etc.
2. Variedad: Este es un aspecto fundamental porque los datos pueden
tener diferentes formatos, pueden estar estructurados o no estructurados
y esta no sería una limitación.
3. Velocidad: Un aspecto que diferencia a la recolección de hace 25 años,
es que la recopilación, y procesamiento en los datos están sobre
infraestructuras elásticas y diseñadas hasta poder hacer análisis en
tiempo real.
4. Veracidad: Hace referencia a la confiabilidad de los datos. Porque a más
información se puede recolectar información no precisa o irrelevante por
lo que eliminar el ruido en los datos y filtrar para que la información sea
consistente y precisa es un aspecto importante.
5. Valor: El BigData siempre debe generar valor para la toma decisiones y
para la estrategia de las empresas.
2. Relación entre Machine Learning y BigData.
La relación entre ambas es muy estrecha, ambos conceptos se complementan
y se potencian mutuamente bajo el contexto de la analítica avanzada.
Podemos decir que ambas interactúan de la siguiente manera.
Big Data como fuente de entrenamiento para machine learning
Machine Learning es una rama de la IA que desarrolla algoritmos y modelos que
permiten aprender a partir de datos. Y es allí donde comienza su relación la big
data porque el machine learning no está programado para hacer tareas
específicas como los sistemas tradicionales, estos algoritmos aprenden patrones
a partir de datos, por lo que necesitan grandes cantidades de datos para ser
efectivos y es allí donde el BigData proporciona esta fuente para que los
algoritmos de ML aprendan, se entrenen y ajusten con precisión.
ML para analizar Big Data
El volumen de BigData hace complicado su procesamiento y puede ser
complicado, pero con machine learning puede proporcionar herramientas
para analizar estos grandes volúmenes de datos de manera eficiente dado que
esos patrones hacen más eficiente su procesamiento.
Es decir, dentro de estas masas de datos puede encontrar patrones ocultos y
pueden generar modelos predictivos, no sólo pueden describir lo que pasó en
el pasado, si no también pueden predecir que pueden hacer en el futuro o crear
tendencias.
Automatización y escalabilidad
Este principio es bastante importante porque se ha resuelto el tema del
almacenaje y procesamiento de grandes volúmenes de datos en un entorno de
BigData, pero sería imposible tratar de analizar y revisar estos datos por el ser
humano de forma manual, y es allí donde los algoritmos de ML permiten
automatizar este análisis y escalar las soluciones para trabajar con la BigData.
3. ¿Qué son y para qué sirven los algoritmos?
En su punto más básico un algoritmo es una secuencia de instrucciones claras y
bien definidas que permiten resolver un problema o realizar una tarea específica
paso a paso.
Este concepto ha ido evolucionando, pero bajo el contexto de la IA dejan de
ser secuencias y se transforman en reglas e instrucciones claramente definidas
que una maquina sigue para resolver un problema específico, procesando
datos y a través del análisis de ellos logran tomar decisiones, hacer predicciones
o identificar patrones.
La diferencia más clara entre el concepto de la era moderna a principios del
siglo pasado, por matemáticos como Turing y en la antigüedad al-Juarisimi y la
actualidad es que si bien un algoritmo tenía una secuencia de pasos para
resolver un problema, este no tenía contemplado el análisis de información, el
establecimiento de patrones y el aprendizaje y la generación de nuevos
algoritmos.
4. Qué relevancia tiene el aprendizaje de un algoritmo en IA.
Un aspecto que se cita en el numeral anterior es que el ser humano de forma
individual sería incapaz de analizar de estos datos, y el poder dentro de estos
datos poder identificar patrones es lo más relevante del aprendizaje de un
algoritmo.
La relevancia es porque al aprender estos patrones puede permitir no sólo
analizar el comportamiento o los patrones de estos datos en el pasado, si no
puede hacer análisis predictivos.
Y la flexibilidad de ser aplicado que brinda el aprendizaje de estos algoritmos
hace que sea aplicable para industria, entretenimiento, análisis de
comportamientos. Lo cual como he citado en documentos anteriores debe
tener un lineamiento o reglas, para plantear una ética dentro de la IA para no
afectar la armonía en las sociedades.
5. Qué industria puede beneficiarse de estas tecnologías.
1. Laboral: En el aspecto laboral, en una de las industrias del sector
eléctrico, tanto de hidro como viento, se están implementando capturas
de todos los PLC que están en las plantas esto con el fin de analizar la
información que generan y encontrar patrones de desgaste en turbinas
para prevenir fallas, y hacer cambios programados, dado que una falla
afecta componentes, pero un cambio programado por desgaste puede
llegar a ahorrar de $100K a $250K.
2. Universitario: Para brindar solución a una problemática nacional por la
desaparición de mujeres y niñas, se propuso en un curso de maestría
hacer un algoritmo de reconocimiento de personas desaparecidas
usando copilot y sobre una infraestructura en Azure ideal para BigData
para la identificación de personas.
3. Personal : Derivado del tráfico en el sector la elaboración de un modelo
predictivo de tráfico para enero del próximo año, con la finalidad de leer
las API de los recorridos registrados en WAZE y Google maps desde las
coordenadas iniciales (Mi Casa) al colegio de mi hija (En Zona 10),
exportarlas a una BD y por los modelos ARIMA/SARIMA capturar los
patrones o en su defecto tratar de construir una red neuronal, y con
Phyton con algunas bibliotecas poder analizar datos, visualizarlos,
establecer modelos temporales y validar el modelo, con la finalidad de
establecer un patrón de salida y las rutas ideales, y evitar la acumulación
de llegadas tarde de mi hija ya que este año acumuló 20 llegadas tarde.