0% encontró este documento útil (0 votos)
50 vistas30 páginas

Big Data: Conceptos y Aplicaciones

Este documento describe conceptos y tecnologías clave relacionadas con big data y minería de datos. Explica definiciones de big data, las tres V (volumen, velocidad y variedad), y tecnologías como Hadoop, MapReduce, HBase y Cassandra. También cubre técnicas estadísticas, de aprendizaje automático, reconocimiento de patrones, reglas de asociación y algoritmos genéticos. Finalmente, discute la relación entre big data y minería de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
50 vistas30 páginas

Big Data: Conceptos y Aplicaciones

Este documento describe conceptos y tecnologías clave relacionadas con big data y minería de datos. Explica definiciones de big data, las tres V (volumen, velocidad y variedad), y tecnologías como Hadoop, MapReduce, HBase y Cassandra. También cubre técnicas estadísticas, de aprendizaje automático, reconocimiento de patrones, reglas de asociación y algoritmos genéticos. Finalmente, discute la relación entre big data y minería de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd

Benemérita Universidad Autónoma de Puebla

Facultad Ciencias de la Computación

Primavera 2022
Minería de datos
NRC: 22726
Docente: Irene Olaya Ayaquica Martínez

Trabajo de investigación y
exposición:
Alumno: Oscar Rene Salgado Guzman
Matricula: 201637300
RESUMEN
En esta exposición explicaremos los conceptos,
tecnologías y metodologías básicas del big data,
describiremos algunas aplicaciones actuales y
potenciales, que técnicas utiliza big data y también
un análisis e investigación sobre cómo se relación
el big data con la minería de datos.

3
El crecimiento en el volumen de datos generados por diferentes
sistemas y actividades cotidianas en la sociedad ha forjado la
necesidad de modificar, optimizar y generar métodos y modelos
de almacenamiento y tratamiento de datos que suplan las
falencias que presentan las bases de datos. Respondiendo a esto
aparece Big Data, término que incluye diferentes tecnologías
asociadas a la administración de grandes volúmenes de datos
provenientes de diferentes fuentes y que se generan con rapidez.

4
DESARROLLO
DE TEMA

Un dato puede definirse como: «Antecedente
necesario para llegar al conocimiento exacto de algo
o para deducir las consecuencias legítimas
de un hecho» (RAE, 2012).
Definición que remarca el hecho de que un dato es
aquello que nos facilitará el llegar al conocimiento.
se puede decir que los datos incorporados en un
sistema informático nos facilitan herramientas para
que la manipulación de estos nos permita llegar a
un conocimiento exacto.
6
Big data es una colección de
datos grandes, complejos, muy
difícil de procesar a través de
herramientas de gestión y
procesamiento de datos
tradicionales. Big data es
cualquier característica sobre

BIG los datos que represente un


reto para las capacidades de
un sistema.
CONCEPT
7
ANTECEDENTE

El concepto de Big Data fue introducido por


primera vez por Roger Magoulas de O’Reilly en
2005, y lo hizo para definir aquella gran
cantidad de datos que no podía gestionarse
por medio de técnicas y procesos tradicionales
debido a su complejidad y tamaño.

8
Así se observó que Big Data constaba de tres facetas diferentes,
denominadas las tres V de Big Data:

VOLUMEN VELOCIDAD

VARIEDAD

9
VOLUMEN VARIEDAD VELOCIDAD

Se refiere a que Big Los datos que se incluyen Todo tratamiento de


Data implica el manejo en Big Data son muy datos Big Data va a
de una gran cantidad diversos y heterogéneos, implicar un tiempo de
de datos que servirá pueden incluir tanto tratamiento, por lo que
para generar datos denominados la velocidad de ese
información, que, a su estructurados, como no tratamiento debe ser la
vez, se utilizará para estructurados. Los datos más pequeña posible ya
generar conocimiento. estructurados son que esa información
Los datos informáticos aquellos que están tiene validez
se miden en bit, que es encorsetados en una únicamente si se trata
la unidad mínima de estructura definida, como en tiempo real.
información. pueden ser los utilizados
en las bases de datos
10
TECNOLOGIAS DEL BIG
DATA
Como tecnologías de Big
Data se clasifican aquellas
que dan soporte a la
captura, transformación,
procesamiento y análisis
de los datos, ya sean
estructurados,
semiestructurados o no
estructurados.

11
HADOOP
Hadoop es una librería de Apache definida como un
framework que permite hacer procesamiento de datos
distribuido sobre volúmenes de datos de considerable
tamaño sobre clúster.

12
MAPREDUCE
MapReduce es un modelo de programación que se ha asociado
también a la implementación de estrategias de procesamiento de
grandes conjuntos de datos que puede ser aplicado a una gran
variedad de tareas del mundo real. Este modelo de programación
fue utilizado inicialmente por Google para resolver el problema de
ranking de páginas (“Page Rank”).

13
HBase
Es una base de datos Hadoop,
distribuida y escalable. HBase ha sido
desarrollada por Apache y se
recomienda su uso cuando se necesita
acceso a lectura y escritura de datos en
tiempo real sobre Big Data. El objetivo
de HBase es el almacenamiento de
tablas de gran tamaño, con billones de
filas por millones de columnas.

14
Cassandra

La base de datos Cassandra, propiedad de Apache, brinda


escalabilidad y alta disponibilidad sin comprometer el rendimiento.
Se considera una plataforma ideal para tratar problemas de datos
críticos, puesto que cuenta con escalabilidad lineal y la tolerancia a
fallos en el hardware o en la infraestructura en la nube.
15
MAHOUT
Mahout es un proyecto de Apache que tiene como objetivo ofrecer
un ambiente para la creación rápida de aplicaciones de aprendizaje
máquina escalables y eficientes. Mahout ofrece una suite de
algoritmos para clustering, categorización, filtrado colaborativo,
clasificación y programación evolutiva. Algunas de sus principales
aplicaciones prácticas se enmarcan en la realización de clúster de
documentos, recomendaciones y organización de contenidos
16
Se presenta una clasificación
de las técnicas de Big data
en técnicas estadísticas,
métodos de optimización,
minería de datos, técnicas de
machine learning, técnicas
de clasificación y Clustering y
técnicas de análisis y
regresión.

Técnicas Big data 17


Mineria de datos
La minería de datos (data mining - DM) se
puede definir como el proceso de extracción
de conocimiento a partir de cúmulos de datos.
Se suele utilizar el término minería de datos
como sinónimo de descubrimiento de
conocimiento, pero realmente no son
sinónimos, la minería de datos es solo un paso
en el proceso de descubrimiento de
conocimiento.
18
Reconocimiento
Machine learning
de patrones
Aprendizaje máquina es un
área de investigación Es una técnica que se aplica en
bastante reconocida en las procesos de ingeniería, computación y
ciencias de la computación, matemáticas. En el procesamiento de
principalmente comprende patrones generalmente se usan
el descubrimiento de algoritmos de optimización, puesto
modelos, patrones y que su intención es hallar una mejor
regularidades en los datos. El solución respecto a un criterio
aprendizaje máquina puede definido, teniendo en cuenta que un
ser visto desde dos proceso de optimización es una
enfoques, los simbólicos y los situación que requiere elegir desde un
estadísticos. conjunto de alternativas, la que lleve
al fin requerido con el costo mínimo.
19
Algoritmos Aprendizaje de
geneticos
reglas de asociación
Son una técnica aplicada en
Es un método para encontrar las
la ingeniería computacional,
pero que parte de la relaciones entre variables en
concepción biológica de la grandes bases de datos, su
genética. Estos algoritmos objetivo es identificar reglas
comprenden un enfoque que usando algunas medidas de
busca dar solución a diversos relación de intereses, por ejemplo,
problemas matemáticos en el caso de las redes sociales, se
intangibles que no han trataría de revisar las personas que
podido tener solución desde posiblemente le interesarían
otros enfoques matemáticos
seguir a otras dependiendo de sus
tradicionales.
amistades o seguidores.
20
La minería de datos se define como
una serie de técnicas encaminadas a
identificar patrones implícitos dentro
de grandes conjuntos de datos, con
el fin de entender sus mecanismos
de comportamiento, su interrelación
y su potencial evolución futura.

Relación con Minería


de datos
21
Relación con Minería de datos

Clustering Redes Neuronales Redes bayesianas Modelado Regresion


estadistico
Agrupamiento en Modelos que, a través del Son representaciones
minería de datos tiene aprendizaje automático, gráficas de relaciones de La regresión como
Pretende dibujar el mapa
como objetivo la intentan llenar los vacíos dependencia técnica de minería de
de relaciones entre
segmentación de de interpretación en un probabilística entre datos toma como punto
variables explicativas y
elementos que sistema. Para ello imitan, distintas variables. de partida una serie
dependientes, y mostrar
presentan alguna en cierto modo, las Sirven para dar solución histórica para, a partir de
cómo cambia a medida
característica definitoria conexiones entre tanto a problemas ella, predecir qué
que lo hacen los
en común. En este caso, neuronas que se producen descriptivos como sucederá a continuación.
parámetros considerados
el algoritmo atiende a en el sistema nervioso de predictivos.
en su planteamiento.
condiciones de cercanía los seres vivos.
o similitud para hacer
su trabajo.

Arboles de decision Extracción de reglas de asociación

Diagramas lógicos que plantean, ante una determinada situación, La extracción de reglas de asociación como técnica de minería de
cuáles son las opciones de intervención posibles, agregando sus datos persigue la inferencia de silogismos del tipo si…/entonces…
implicaciones, costes, ventajas y desventajas. a partir de conjuntos de registros.

22
Salud y Sanidad

Personalización y transparencia

lucha contra el crimen APLICACIONES


Marketing y Ventas DE BIG DATA
Política

Finanzas

23
Personalización y Salud

transparencia hacia el Según un informe, las aplicaciones de big data en el


campo de la salud, que están apoyadas en soluciones
consumidor analíticas y de inteligencia artificial, permitirán:
- Mejorar la prevención de patologías.
- Facilitar cambios en los estilos de vida dirigidos hacia
Modelos de negocio hábitos más saludables.
más eficientes y - Detectar patologías de forma temprana,
automatizados especialmente las de tipo crónico.
- Facilitar el diseño y la aplicación de tratamientos
personalizados, lo que conducirá a una medicina más
precisa.
Sostenibilidad e
igualdad

24
Big Data en Los datos de los clientes se analizan y
procesan obteniendo información relativa a
Marketing y Ventas sus gustos, preferencias o
comportamientos.

El desarrollo del Big Data en el ámbito Big Data en


financiero está siendo de vital
importancia en los últimos años. Entre Finanzas
las ventajas que se encuentran en esta
alianza destacamos la simplificación de
pasos y reducción de costes para
procesar datos.
25
Lucha contra
Deportes Política
el crimen
En Estados Unidos los En la NBA y la NFL se Con la plataforma HP
cuerpos y fuerzas de emplean aplicaciones Vertica, que permite
seguridad disponen que hacen uso del Big obtener los datos,
de aplicaciones que, Data para definir las notificar de manera
haciendo uso del Big estrategias a utilizar eficiente y rápida la
Data, pueden en cada partido, información, y
predecir la prevenir lesiones de segmentar a los
probabilidad de que los jugadores, potenciales votantes.
se produzca un conocer las
crimen en una zona preferencias de los
determinada. aficionados, etc.

26
Algunos operadores de telefonía móvil
utilizan el Big Data para analizar qué se dice
Telecomunicaciones de ellas en las redes sociales, examinar los
datos de sus tickets de soporte a clientes o
sus quejas.

Tanto en la industria farmacéutica en el campo


de la investigación de nuevos medicamentos
como en el diagnóstico de enfermedades, cada
vez es más ampliamente utilizado el procesado Salud y Sanidad
del Big Data colectivo para optimizar y probar
modelos que mejoren los resultados, faciliten
las pruebas en los ensayos clínicos con nuevas
terapias o mejoren los diagnósticos.
27
CONCLUSION
Las tecnologías asociadas al enfoque de Big Data ya han
comenzado a tomar madurez y se vislumbran grandes
oportunidades y retos en su utilización, optimización y adaptación
a diferentes dominios de datos. Sin embargo, ya se encuentran
resultados que muestran sus beneficios en aspectos como la
reducción de tiempos, optimización de recursos y mayor
flexibilidad.
28
BIBLIOGRAFIA
▰ E.J. Hernández-Leal, N.D. Duque-Méndez y J. Moreno-Cadavid, “Big Data: una exploración de
investigaciones, tecnologías y casos de aplicación”, TecnoLógicas, vol. 20, no. 39, mayo - agosto,
2017. http://www.scielo.org.co/pdf/teclo/v20n39/v20n39a02.pdf
▰ Ríos Insua, David. Gómez-Ullate Oteiza, David. Big data: Conceptos, tecnologías y aplicaciones.
Los Libros de la Catarata. Madrid. 2019
▰ Sharma, N. (4 de febrero de 2008). The origin of the «data information knowledge wisdom»
hierarchy [Artículo en un blog]. e-Reality. Recuperado
dehttps://erealityhome.wordpress.com/2008/03/09/the-origin-of-dikw-hierarchy/

▰ ¿Qué es el big data?. Oracle Mexico. https://www.oracle.com/mx/big-data/what-is-big-data/


▰ Sosa Escudero, Walter. Big data: Breve manual para conocer la ciencia de datos que ya invadió
nuestras vidas. Siglo XXI Editores, 2019.
▰ Mayer-Schönberger, Viktor & Cukier K. Big Data. La revolución de los datos masivos. Primera
edición. Latin Trade. Madrid. 2013.
29
GRACIAS!

30

También podría gustarte