0% encontró este documento útil (0 votos)

93 vistas61 páginas

Big Data

Este documento trata sobre la minería de datos aplicada a redes eléctricas. Explica conceptos clave de Big Data como volumen, velocidad y variedad de datos. Presenta casos de estudio de Big Data en deportes, redes sociales y política. Describe el proceso típico de Big Data que incluye adquisición, almacenamiento, indexación, análisis y visualización. También define conceptos como cluster, nodo, índice y JSON. Finalmente, brinda una introducción a la minería de datos y sus tareas descriptivas y predict

Cargado por

Cris Pol

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

93 vistas61 páginas

Big Data

Cargado por

Cris Pol

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

1

MINERÍA DE DATOS
APLICADA A REDES ELÉCTRICAS

Dr.-Ing. Jaime Cepeda

Conceptos de Big Data

MAYO 2023
2

1.
Introducción
3

Datos, datos, datos, …

Información
5

Gartner's Hype Cycle for Emerging Technologies Maps the Journey to Digital Business
6

▪ Google trends

https://trends.google.com/trends/explore?date=all&q=big%20data
7
8

A cualquier proyecto de análisis de datos

se le está poniendo la etiqueta de Big
Data simplemente porque se tratan de
muchos datos..
(www.stratebi.com, 2017 )
9

2.
¿Qué no es Big Data?
10

¿Qué no es Big Data?

▪ No solo es una base de datos enorme.

▪ No es un data warehouse enorme.
▪ No es una nueva forma de Business Intelligence.
▪ No es llevar la base de datos a la nube.
▪ No es analizar solo redes sociales.
▪ No es solo es Hadoop
11

3.
¿Qué es Big Data?
12

Big Data is data that exceeds the processing

capacity of conven4onal database systems.
The data is too big, moves too fast, or
doesn’t ﬁt the structures of your database
architectures. To gain value from this data,
you must choose an alterna4ve way to
process it.
(Edd Dumbill, analyst at O’Reilly Media )
13

Big Data is high-volume, high-velocity and/or

high-variety informa-on assets that demand
cost-eﬀec-ve, innova-ve forms of informa-on
processing that enable enhanced insight,
decision making, and process automa-on.
(Gartner IT Glossary)
14

Big Data
Conjuntos de datos cuyo tamaño (volumen), complejidad (variabilidad) y
velocidad de crecimiento (velocidad) dificultan su captura, gestión,
procesamiento o análisis mediante tecnologías y herramientas
convencionales, tales como bases de datos relacionales y estadísticas
convencionales o paquetes de visualización, dentro del tiempo necesario para
que sean útiles.

Recoger – Almacenar – Buscar – Compartir – Analizar – Visualizar - Procesar

4.
Dimensiones de Big
Data
16

1.- Volumen
2.- Velocidad
3.- Variedad
4.- Variabilidad
5.- Veracidad
6.- Visualización
7.- Valor

(https://goo.gl/rRrLWA)
17
18

Velocidad
19

Velocidad
20

Volumen
21

Volumen
22

Volumen
23

Variedad
24

Variedad
25

¿Todas las dimensiones

se aplican a todos los proyectos?

Buyya, R., Calheiros, R. N., &

Dastjerdi, A. V. (Eds.). (2016). Big
data: principles and paradigms.
Morgan Kaufmann.
26

5.
Casos de estudio
27

Big data y el deporte

https://goo.gl/cXBKo6

https://www.youtube.com/watch?v=DXq30dvE0Xg
28

Big data de las redes sociales para

predecir el comportamiento ciudadano

h"ps://goo.gl/FGhofB

h"ps://www.youtube.com/watch?v=yoSqojO2-CQ
29

Big data aplicado a la política

https://www.youtube.com/watch?v=ku78zo9fhoI
30

6.
Proceso de Big Data
31

Adquisición Almacenamiento Indexación

Toma de
Análisis Visualización
decisiones
El proceso Big Data 32
Ecosistema Big Data 33

Visualización Análisis Aprendizaje

Business estadístico automático
Intelligence

Plataforma Bases de datos DataMart

BigData SQL, noSQL

ETL: Extraction, Transformation, Load

PMUs UTRs Web R.Sociales Imagenes Audios

Adquisición

Logstash es una herramienta administrar logs la cual nos

Logstash sirve para recolectar convertir y re- direccionar a una fuente
de almacenamiento tipo NoSQL.

Python scripts Python permite la conexión con varias fuentes de

información, twitter, facebook, etc. Scripts para preparar la
data de insumo
35

Almacenamiento

Es una base de datos basada en Graphos altamente

transaccional y utilizada para encontrar interrelaciones entre
Neo4j entidades.

Es un servidor NoSQL distribuido y altamente escalable el

CouchBase cual nos permite almacenar grandes cantidades de
información en formato JSON.

Hadoop es un framework de código abierto para el

procesamiento y almacenamiento distribuido de grandes
Hadoop (HDFS) volúmenes de información utilizando un modelo de
programación llamado MapReduce.
36

Indexación

Es un servidor de búsqueda que nos permite indexar grandes

cantidades de datos de forma distribuida.
elasticsearch
37

Visualización y
análisis

Es una herramienta de visualización que nos permite mostrar

Kibana los datos indexados que provienen de Elasticsearch.
38

7.
Conceptos varios y
terminología
39
40

Conceptos
Cluster
A cluster is a collection of one or more nodes (servers) that together holds your entire data and provides federated indexing and search
capabilities across all nodes. A cluster is identified by a unique name. This name is important because a node can only be part of a cluster if
the node is set up to join the cluster by its name.

Node
A node is a single server that is part of your cluster, stores your data, and participates in the cluster’s indexing and search capabilities. Just like a
cluster, a node is identified by a name which by default is a random Universally Unique IDentifier (UUID) that is assigned to the node at startup.
You can define any node name you want if you do not want the default. This name is important for administration purposes where you want to
identify which servers in your network correspond to which nodes in your cluster.

Index
An index is a collection of documents that have somewhat similar characteristics. For example, you can have an index for customer data,
another index for a product catalog, and yet another index for order data. An index is identified by a name and this name is used to refer to the
index when performing indexing, search, update, and delete operations against the documents in it.
41
42
43
44

JSON
45
46

JSON
47
48

JSON
▪ https://jsonformatter.curiousconcept.com/
▪ http://www.json.org/
49
50

Data Science & Data Engineering

Data Engineer

Data Scientist
https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer
52
53
54

7.
Data Mining
55

Data mining
“Data Mining” constitutes a young and promising area of mathematics whose
objective is to allow the “knowledge discovery from data” (KDD).
In general terms, data mining refers to “extracting or mining knowledge from large
amounts of data (i.e. big data)”. This knowledge is obtained via the determination or
extraction of patterns immersed in the data (i.e. pattern recognition).

Databases and
Data Data Mining Patterns Knowledge
Warehouse
56

Data mining
Data mining tasks can be classified into two categories: descriptive and predictive.
Descriptive mining tools characterize the general properties of the data in the
database, whereas predictive mining techniques carry out inference on the current
data in order to make predictions (based on learning). Both types of data mining tools
can be applied in different instances, such as: numerosity reduction, dimensionality
reduction, signal processing, clustering, classification, regression.
Most of the data mining techniques are designed to analyze multivariate data (i.e.
data set consisting of a large number of interrelated variables). This data set usually
structures a data matrix (Xnp), where n constitutes the number of observations, and p
represents the number of variables.
Data Mining is an interdisciplinary discipline encompassing a blend of statistical,
artificial intelligence, and management science & information systems disciplines for
pattern recognition, mathematical modeling, and databases activities.
57

Data Mining

Data Science
58

Inteligencia Artificial

Small Data Ciencia de datos

Inteligencia de

Aprendizaje
Big Data

automático
negocio

Learning
Deep
59

Niveles de la ciencia de datos

Niveles de la ciencia de datos
60
61

Data mining & Big Data & Smart Grid

Smart Grid

También podría gustarte

Roles Gobierno de Datos
Aún no hay calificaciones
Roles Gobierno de Datos
12 páginas
Tutorial Básico de MDX para OLAP
Aún no hay calificaciones
Tutorial Básico de MDX para OLAP
5 páginas
Consultas SQL en Northwind
Aún no hay calificaciones
Consultas SQL en Northwind
5 páginas
Propuesta para Mejora en Toma de Decisiones
100% (1)
Propuesta para Mejora en Toma de Decisiones
29 páginas
Trainer 430i
100% (1)
Trainer 430i
32 páginas
Diplomado en Inteligencia de Negocios
Aún no hay calificaciones
Diplomado en Inteligencia de Negocios
6 páginas
Análisis de Datos Librería de Iztaccihuatl
Aún no hay calificaciones
Análisis de Datos Librería de Iztaccihuatl
14 páginas
La Nube Como El Habilitador de La Ciencia de Datos
Aún no hay calificaciones
La Nube Como El Habilitador de La Ciencia de Datos
49 páginas
Ejemplos de KPI en Power BI
Aún no hay calificaciones
Ejemplos de KPI en Power BI
17 páginas
Power Bi Prime Institute Virtual
Aún no hay calificaciones
Power Bi Prime Institute Virtual
5 páginas
Indicadores No Financieros en Gestión
Aún no hay calificaciones
Indicadores No Financieros en Gestión
220 páginas
Gobernanza Activa de Datos
Aún no hay calificaciones
Gobernanza Activa de Datos
11 páginas
Implementación de Dashboards Efectivos
Aún no hay calificaciones
Implementación de Dashboards Efectivos
15 páginas
Excel Avanzado: Power Pivot y DAX
Aún no hay calificaciones
Excel Avanzado: Power Pivot y DAX
32 páginas
Power BI: Extracción y Transformación de Datos
Aún no hay calificaciones
Power BI: Extracción y Transformación de Datos
32 páginas
Introducción A Variables - Lectura Previa A UiPath
Aún no hay calificaciones
Introducción A Variables - Lectura Previa A UiPath
4 páginas
Guía de Visualizaciones en Power BI
Aún no hay calificaciones
Guía de Visualizaciones en Power BI
25 páginas
Plan de Entrenamiento para Media Maratón
Aún no hay calificaciones
Plan de Entrenamiento para Media Maratón
3 páginas
Gestión de Reclamaciones en Bizagi Modeler
Aún no hay calificaciones
Gestión de Reclamaciones en Bizagi Modeler
4 páginas
Big Data para Directivos Roca
Aún no hay calificaciones
Big Data para Directivos Roca
6 páginas
Introducción a la Minería de Datos
Aún no hay calificaciones
Introducción a la Minería de Datos
42 páginas
Prueba Técnica: Reporte de Diferencias en Power BI
Aún no hay calificaciones
Prueba Técnica: Reporte de Diferencias en Power BI
1 página
Guía para Consumidores de Power BI
Aún no hay calificaciones
Guía para Consumidores de Power BI
291 páginas
Power BI Herramientas Bsicas para El Anlisis de Datos
Aún no hay calificaciones
Power BI Herramientas Bsicas para El Anlisis de Datos
7 páginas
6 - Modelado de Datos - POWER BI
Aún no hay calificaciones
6 - Modelado de Datos - POWER BI
2 páginas
Ensayo Big Data
Aún no hay calificaciones
Ensayo Big Data
3 páginas
Slides-Del-Curso-De-Analisis-De-Datos-Con-Power-Bi 3
Aún no hay calificaciones
Slides-Del-Curso-De-Analisis-De-Datos-Con-Power-Bi 3
23 páginas
Guía 9 Analisis Visual - Interfaz de Trabajo
Aún no hay calificaciones
Guía 9 Analisis Visual - Interfaz de Trabajo
11 páginas
Material Excel Aplicado para El Analisis de Datos VACACIONAL
Aún no hay calificaciones
Material Excel Aplicado para El Analisis de Datos VACACIONAL
69 páginas
EPS Python - Módulo 1
Aún no hay calificaciones
EPS Python - Módulo 1
49 páginas
Maestría en Ciencia de Datos UC
Aún no hay calificaciones
Maestría en Ciencia de Datos UC
21 páginas
05 - IN - Data Storytelling y Sus Visualizaciones
Aún no hay calificaciones
05 - IN - Data Storytelling y Sus Visualizaciones
22 páginas
Medidas de Distancia en Algoritmos
Aún no hay calificaciones
Medidas de Distancia en Algoritmos
4 páginas
Curso Power BI para Analistas de Negocios
Aún no hay calificaciones
Curso Power BI para Analistas de Negocios
54 páginas
Temario Power Bi
Aún no hay calificaciones
Temario Power Bi
4 páginas
AutoServicio BI (SSBI) Aprovechelo en Lugar de Ignorarlo
Aún no hay calificaciones
AutoServicio BI (SSBI) Aprovechelo en Lugar de Ignorarlo
5 páginas
Caso Netflix-1
Aún no hay calificaciones
Caso Netflix-1
8 páginas
Ebook Gráficos Power Bi
Aún no hay calificaciones
Ebook Gráficos Power Bi
41 páginas
Prueba Técnica para Desarrollador BI
Aún no hay calificaciones
Prueba Técnica para Desarrollador BI
1 página
Guía de instalación SQL Developer
Aún no hay calificaciones
Guía de instalación SQL Developer
7 páginas
Capitulo 4
Aún no hay calificaciones
Capitulo 4
19 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
Guía Del Libro Arya
Aún no hay calificaciones
Guía Del Libro Arya
94 páginas
Uso de Power BI en Business Intelligence
Aún no hay calificaciones
Uso de Power BI en Business Intelligence
23 páginas
Plataforma Web
Aún no hay calificaciones
Plataforma Web
106 páginas
Big Data: Estrategias y Tecnologías Empresariales
100% (1)
Big Data: Estrategias y Tecnologías Empresariales
37 páginas
Modelos Tabular vs Multidimensional
100% (1)
Modelos Tabular vs Multidimensional
2 páginas
Ciclo de Vida del Big Data
Aún no hay calificaciones
Ciclo de Vida del Big Data
66 páginas
QlikView Tutorial (es-ES) PDF
Aún no hay calificaciones
QlikView Tutorial (es-ES) PDF
160 páginas
Curso Big Data: Introducción y Pedagogía
Aún no hay calificaciones
Curso Big Data: Introducción y Pedagogía
9 páginas
Clase 5, Las 5 Fuerzas de Porter
100% (1)
Clase 5, Las 5 Fuerzas de Porter
21 páginas
Metricas COE
Aún no hay calificaciones
Metricas COE
5 páginas
Prueba Técnica BI: Análisis de Datos
Aún no hay calificaciones
Prueba Técnica BI: Análisis de Datos
2 páginas
Big Data y Control de Procesos
Aún no hay calificaciones
Big Data y Control de Procesos
10 páginas
Unidad-1 Big Data-1
Aún no hay calificaciones
Unidad-1 Big Data-1
29 páginas
Unidad 1-2 PDF
Aún no hay calificaciones
Unidad 1-2 PDF
28 páginas
Introducción a Big Data Analityc
Aún no hay calificaciones
Introducción a Big Data Analityc
25 páginas
Big Data en Negocios: Guía Esencial
Aún no hay calificaciones
Big Data en Negocios: Guía Esencial
6 páginas
Big Data
Aún no hay calificaciones
Big Data
7 páginas
Lección 4. Big Data y Arquitecturas
Aún no hay calificaciones
Lección 4. Big Data y Arquitecturas
20 páginas
Grados de Libertad
Aún no hay calificaciones
Grados de Libertad
1 página
Pruebas en Medidores o Contadores de Energía
Aún no hay calificaciones
Pruebas en Medidores o Contadores de Energía
13 páginas
Presentacion Del Uso Del Equipo MTO de Megger
Aún no hay calificaciones
Presentacion Del Uso Del Equipo MTO de Megger
24 páginas
Pruebas de Inyección de Corriente Primaria
Aún no hay calificaciones
Pruebas de Inyección de Corriente Primaria
26 páginas
Silabus - Adobe Premiere LaComba Escuela
Aún no hay calificaciones
Silabus - Adobe Premiere LaComba Escuela
5 páginas
TP1 - Windows (2022)
Aún no hay calificaciones
TP1 - Windows (2022)
3 páginas
Guía Rápida de Uso de CapaciNET
Aún no hay calificaciones
Guía Rápida de Uso de CapaciNET
4 páginas
MiniCalculadora en Visual Basic.Net
Aún no hay calificaciones
MiniCalculadora en Visual Basic.Net
8 páginas
Cuadro Comparativo de SO
Aún no hay calificaciones
Cuadro Comparativo de SO
3 páginas
Caracterizacion Del Proceso de Compras
Aún no hay calificaciones
Caracterizacion Del Proceso de Compras
6 páginas
Software Integral de Prevención Laboral
Aún no hay calificaciones
Software Integral de Prevención Laboral
5 páginas
Portal COES SINAC Digsilent
Aún no hay calificaciones
Portal COES SINAC Digsilent
3 páginas
IA Gratis Crear Modelos 3D A Partir de Fotos 2D 1. Luma AI: Tú Dijiste
Aún no hay calificaciones
IA Gratis Crear Modelos 3D A Partir de Fotos 2D 1. Luma AI: Tú Dijiste
3 páginas
Pruebas Funcionales Del Software
Aún no hay calificaciones
Pruebas Funcionales Del Software
3 páginas
Seguridad Integral en Redes: Tipos y Niveles
Aún no hay calificaciones
Seguridad Integral en Redes: Tipos y Niveles
1 página
MAPFRE - Plataforma de Autogestion - Manual de Participante-1
Aún no hay calificaciones
MAPFRE - Plataforma de Autogestion - Manual de Participante-1
5 páginas
Proyecto de Grado Final
Aún no hay calificaciones
Proyecto de Grado Final
128 páginas
1.1. Conceptos Básicos
Aún no hay calificaciones
1.1. Conceptos Básicos
19 páginas
PR-PDN-00 Procedimiento Montajes
Aún no hay calificaciones
PR-PDN-00 Procedimiento Montajes
6 páginas
Manual Inventarios 2017
Aún no hay calificaciones
Manual Inventarios 2017
72 páginas
Configuración de Lecciones en Moodle
100% (1)
Configuración de Lecciones en Moodle
2 páginas
1.ingrese A La Página WWW - Senavirtual.edu - Co. Haga Clic en Ingresar A Cursos
Aún no hay calificaciones
1.ingrese A La Página WWW - Senavirtual.edu - Co. Haga Clic en Ingresar A Cursos
7 páginas
Tabla Herramientas Tecnologicas
Aún no hay calificaciones
Tabla Herramientas Tecnologicas
2 páginas
2 Manual de Uso Cyber Rat
Aún no hay calificaciones
2 Manual de Uso Cyber Rat
45 páginas
Curso GAMS para Sistemas Eléctricos
Aún no hay calificaciones
Curso GAMS para Sistemas Eléctricos
11 páginas
CLK Instructivo Alpha III
Aún no hay calificaciones
CLK Instructivo Alpha III
10 páginas
GUIA DE APRENDIZAJE-linux - Solucion
Aún no hay calificaciones
GUIA DE APRENDIZAJE-linux - Solucion
10 páginas
Diferencias entre error, falla y defecto
100% (1)
Diferencias entre error, falla y defecto
12 páginas
Competencias Tecnológicas en Educación
Aún no hay calificaciones
Competencias Tecnológicas en Educación
3 páginas
Formato de Diagnóstico
Aún no hay calificaciones
Formato de Diagnóstico
2 páginas
Crucigrama: Fundamentos de BDD
Aún no hay calificaciones
Crucigrama: Fundamentos de BDD
2 páginas
Sistema de Gestión de Información para El Consultorio Odontológico El Ángel, Ubicado en Maturín Estado Monagas
0% (1)
Sistema de Gestión de Información para El Consultorio Odontológico El Ángel, Ubicado en Maturín Estado Monagas
107 páginas
Contenidos Programáticos Metodos Numericos
Aún no hay calificaciones
Contenidos Programáticos Metodos Numericos
5 páginas
Instructivo Ualá - Preguntas Frecuentes.
Aún no hay calificaciones
Instructivo Ualá - Preguntas Frecuentes.
3 páginas