--Capitulo 3.
1--
¿Qué es big data?
Bid data se refiere a grandes conjuntos de datos los cuales demasiados grandes, y
complejos para ser procesados por métodos tradicionales fe gestión de datos. Estos
conjuntos de datos pueden ser de diferentes tipos, y fuentes, incluyendo los datos
estrucuturados un ejemplo de ellos sería (datos en bases de datos) y los no
estrucuturados serían (imagenes, videos, archivos de audio, publicaciones en redes
sociales, correos electronicos, etc)
El analisis de big data implica el uso de tecnologias, y herramientas
especializadas para procesar, y analizar estos grandes conjuntos de datos, lo cual
puede proporcionar información valiosa, y conocomientos muy importantes para la
toma de decisiones, y la planificación estrategica en una amplia gama de sectores,
y aplicaciones. Algunos ejemplos incluyen la industria de la salud, la industria
financiera, industria del markenting y publicidad, la industria de la tecnologia, y
mucho más
--Caracteristicas claves de big data--
1) Volumen: Big data implica grandes cantidades de datos. El volumen de datos puede
ser de varios terabytes o incluso petabytes, lo que significa que no pueden ser
almacenados ni procesados en una única computadora
2) Velocidad: Big data a menudo aplica una tasa de generacón de datos muy alta,lo
que significa que la velocidad de procesamiento de datos es critica para poder
analizarlos y obtener información valiosa en tiempo real
3) Veracidad: Es importante que los datos sean precisos, y confiables para poder
tomar decisisones informadas basadas en ellos. Big data a menudo incluye datos de
multiples fuentes, y diferentes formatos,lo que puede aumentar la posibilidad de
errores o incosistencias en los datos
4) Valor: La capacidad de extraer informacion valiosa, y conocimientos importantes
de los grandes conjutos de datos es el principal valor de big data. Esto puede ser
utilizado para mejorar la toma de decisiones, identificar patrones, y tendencias, y
para optimizar procesos, y operaciones en una amplia gama de aplicaciones, y
sectores
5) Variabilidad: Big data tambien puede incluir datos con diferentes niveles de
precision, y calidad, ejemplo, los datos pueden ser recopilados de diferentes
fuentes o sistemas, o pueden ser introducidos manualmente, lo cual puede aumentar
la variabilidad en los datos
6) Complejidad: Big data tambien puede ser complejo, y dificil de entender debido a
la gran cantidad de informacion disponible. Por lo cual, se requieren herramientas,
y tecnicas de analisis de datos avanzadas para procesar, y analizar los datos para
obtener información útil
7) Escalabilidad: Debido a la gran cantidad de datos involucrados en big data, las
soluciones de almacenamiento, y procesamiento de datos deben ser altamente
escalable. Esto quiere decir que las soluciones deben poder manejar grandes
cantidades de datos sin afectar el rendimiento o la eficiencia
8) Distribucion: Big data a menudo se almacena, y procesa en multiples sistemas, y
ubicaciones. Esto requiere soluciones de software, y hardware que puedan gestionar,
y cordinar la distribución de datos, y la ejecución de procesos en diferentes
sistemas
9) Accesibilidad: Big data debe ser accesible para los usuarios que necesiten
analizar los datos, por lo que, las soluciones de big data deben proporcionar
herramientas, y tecnologias que permitan a los usuarios acceder, y analizar los
datos de manera fácil, y efectiva
--FUENTES--
"What is Big Data and Why It Matters?" por Bernard Marr, publicado en Forbes, 2015.
"Big Data Characteristics" por Priya Pedamkar, publicado en Towards Data Science,
2018.
"The Characteristics of Big Data" por Michael Grogan, publicado en Udacity, 2018.
"Big Data Characteristics: Volume, Velocity, Variety, and Veracity" por George
Levy, publicado en Udemy, 2020.
"10 Characteristics of Big Data" por Cloud Technology, publicado en Medium, 2021
--Capitulo 3.2--
¿Que es Ciencia de datos?
La ciencia de datos es una disciplina interdisciplinaria que involucra la
extracción de conocimiento, y la obtención de informacion útil de grandes conjuntos
de datos, a través de técnicas, y herramientas de análisis de datos avanzadas.
La ciencia de datos combina elementos de la estadistica, matematica, informatica, y
la visualizacion de datos para identificar patrones, tendencias, y relaciones en
los datos. Tambien implica el uso de tecnicas de aprendizaje automatico, y mineria
de datos para automatizar la detección de patrones, y relaciones, y el uso de
modelos predictivos para predecir eventos futuros
Su objetivo principal es transformar los datos en información, y conocimiento
útiles que pueden utilizarse para tomar decisiones informadas en una amplia gama de
aplicaciones, y sectores, incluyendo la salud, el markentig, las finanzas, la
investigación cientifica, y mucho mas
--AREAS DE APLICACION DE LA CIENCIA DE DATOS--
1) Marketing: La ciencia de datos se utiliza en marketing para analizar los datos
de los clientes, y las tendencias del mercado, y para predecir el comportamiento
futuro de los clientes. la informacion obtenida puede ser utilizada para mejorar
las estrategias de marketing, optimizar la segmentación de clientes, y mejorar la
fidelizacion de los clientes
2) Salud: En el sector de la salud, la ciencia de datos se utiliza para analizar
grandes cantidades de datos médicos, incluyendo registros de pacientes y resultados
de pruebas médicas, para mejorar el diagnóstico y el tratamiento de enfermedades, y
para predecir el riesgo de enfermedades en pacientes
3) Finanzas: La ciencia de datos se utiliza en finanzas para analizar los datos
financieros y económicos y para predecir tendencias futuras del mercado. Esto puede
ser utilizado para tomar decisiones de inversión más informadas y para reducir los
riesgos asociados con la inversión
4) Investigacion cientifica: La ciencia de datos se utiliza en investigación
científica para analizar grandes conjuntos de datos, como datos de genómica,
astronomía y ciencias ambientales. Esto puede ser utilizado para descubrir nuevas
tendencias y patrones en los datos, lo que puede conducir a nuevos descubrimientos
y avances científicos
5) Tecnologia: La ciencia de datos se utiliza en el desarrollo de tecnología para
analizar datos de usuarios y patrones de uso, lo que puede ser utilizado para
mejorar la usabilidad de la tecnología y la experiencia del usuario
6) Industria: La ciencia de datos se utiliza en la industria para optimizar la
producción y el rendimiento de las máquinas, predecir el desgaste y la falla de los
equipos y mejorar la eficiencia y la seguridad de los procesos industriales
--TIPOS DE CIENCIAS DE DATOS--
1)Ciencia de datos descriptiva: este tipo de ciencia de datos se utiliza para
describir y resumir los datos existentes, lo que puede ayudar a identificar
patrones y tendencias.
2)Ciencia de datos exploratoria: este tipo de ciencia de datos se utiliza para
explorar los datos en busca de patrones interesantes y relaciones ocultas. Puede
ser útil para generar nuevas hipótesis y preguntas para futuros análisis
3)Ciencia de datos predictiva: este tipo de ciencia de datos se utiliza para
predecir futuros resultados o eventos. Es comúnmente utilizado en aplicaciones como
la predicción del clima, el pronóstico de ventas, o la detección de fraudes
4)Ciencia de datos prescriptiva: este tipo de ciencia de datos se utiliza para
prescribir recomendaciones o soluciones basadas en datos. Por ejemplo, un sistema
de recomendación en línea que sugiere productos a los clientes basados en sus
patrones de compra anteriores
5)Ciencia de datos causal: este tipo de ciencia de datos se utiliza para investigar
relaciones causa-efecto entre variables y para identificar factores que puedan
estar afectando un resultado en particular. Es comúnmente utilizado en estudios
médicos y científicos
6)Ciencia de datos bayesiana: este tipo de ciencia de datos se basa en el teorema
de Bayes para actualizar las creencias sobre un evento a medida que se recopila
nueva información. Es comúnmente utilizado en aplicaciones como la detección de
spam y la clasificación de correos electrónicos
7)Ciencia de datos de texto: este tipo de ciencia de datos se centra en el análisis
y la interpretación de grandes cantidades de texto. Se utiliza en aplicaciones como
la minería de opiniones y la clasificación de documentos
--FUENTES--
"What is Data Science?" por SAS, 2019.
"Data Science: What it is and why it matters" por Forbes, 2018.
"5 Industries Getting the Most Out of Data Science" por Entrepreneur, 2019.
"Applications of Data Science" por Simplilearn, 2020.
"Data Science in Healthcare: Applications and Benefits" por Health Catalyst, 2019.
"Data Science Applications in Finance: A Beginner's Guide" por DataCamp, 2020.
"Big Data Analytics for Industrial Applications" por ScienceDirect, 2019.
"What are the different types of Data Science?" por Simplilearn:
[Link]
"5 Types Of Data Science Projects You Need To Know" por Analytics Insight:
[Link]
"5 Types of Data Analytics and Their Use in Business" por the University of Alabama
at Birmingham: [Link]
their-use-in-business/
"The Seven Types of Data Science" por Datanami:
[Link]
-- Capitulo 3.3--
--CIENCIA DE DATOS CON ESTRUCUTURA JERARQUICA--
La ciencia de datos con estructura jerárquica se refiere a la aplicación de
técnicas de análisis de datos en conjuntos de datos que tienen una estructura
jerárquica o de árbol. Esto significa que los datos están organizados en múltiples
niveles o capas, donde cada nivel contiene subconjuntos de datos relacionados entre
sí.
Un ejemplo común de datos con estructura jerárquica son los datos de ventas de una
empresa con múltiples sucursales. Los datos se organizan en un árbol donde el nivel
superior es la empresa, y los niveles inferiores corresponden a cada sucursal,
departamento o sección. Dentro de cada nivel, pueden haber subniveles que
representen diferentes categorías de productos, clientes o cualquier otra variable
que se quiera analizar.
Para analizar estos tipos de datos, se utilizan técnicas específicas de análisis
jerárquico como el análisis de varianza de dos vías, el análisis de conglomerados
jerárquicos y el análisis de modelos lineales mixtos. Estas técnicas permiten
examinar cómo los diferentes niveles del árbol interactúan y afectan los resultados
en cada nivel.
La ciencia de datos con estructura jerárquica es útil en una variedad de campos,
incluyendo el análisis de encuestas, el análisis de datos de salud, el análisis de
datos de redes sociales y la modelización de datos climáticos.
-- Capitulo 3.4--
--CIENCIA DE DATOS CON ESTRUCTURA EN RED--
La ciencia de datos con estructura en red se refiere a la aplicación de técnicas de
análisis de datos en conjuntos de datos que tienen una estructura en forma de red o
grafo. Esto significa que los datos están representados por nodos o vértices y por
relaciones o enlaces entre ellos.
Un ejemplo común de datos con estructura en red es una red social como Facebook o
Twitter, donde los nodos representan a los usuarios y los enlaces representan las
conexiones entre ellos, como amistades o seguidores. Otro ejemplo es una red de
transporte, donde los nodos pueden ser estaciones o paradas y los enlaces
representan las conexiones entre ellas.
Para analizar estos tipos de datos, se utilizan técnicas específicas de análisis de
redes, como el análisis de centralidad, el análisis de comunidades y la detección
de anomalías. Estas técnicas permiten examinar la estructura de la red y cómo los
nodos y los enlaces interactúan y afectan el comportamiento de la red en su
conjunto.
La ciencia de datos con estructura en red es útil en una variedad de campos,
incluyendo la detección de fraudes, la identificación de grupos de interés en redes
sociales, el análisis de redes de transporte y la modelización de redes biológicas.
-- Capitulo 3.5--
--CIENCIA DE DATOS CON ESTRUCTURA RELACIONAL--
La ciencia de datos con estructura relacional se refiere a la aplicación de
técnicas de análisis de datos en conjuntos de datos que tienen una estructura
relacional o de tabla. Esto significa que los datos están organizados en tablas con
columnas que representan variables y filas que representan observaciones o
registros.
Un ejemplo común de datos con estructura relacional es una base de datos de
clientes de una empresa, donde cada fila representa a un cliente y cada columna
representa una variable como el nombre, la dirección, el número de teléfono y la
fecha de registro. Otra ejemplo es una tabla que contiene datos financieros, donde
cada fila representa una transacción y cada columna representa una variable como la
fecha, el monto y el tipo de transacción.
Para analizar estos tipos de datos, se utilizan técnicas específicas de análisis
relacional, como la agregación, la filtración, la unión y la transformación de
datos. Estas técnicas permiten examinar la estructura de la tabla y cómo las
variables están relacionadas entre sí.
La ciencia de datos con estructura relacional es útil en una variedad de campos,
incluyendo la minería de datos, el análisis financiero, la gestión de inventarios y
la gestión de recursos humanos.
--Capitulo 3.6--
--CIENCIA DE DATOS CON ESTRUCTURA MULTIDIMENSIONAL--
La ciencia de datos con estructura multidimensional se refiere a la aplicación de
técnicas de análisis de datos en conjuntos de datos que tienen una estructura
multidimensional. Esto significa que los datos están organizados en varias
dimensiones, donde cada dimensión representa una variable distinta y las
observaciones están indexadas por valores en cada dimensión.
Un ejemplo común de datos con estructura multidimensional son los datos de ventas
de una empresa, donde las dimensiones pueden incluir la fecha, la sucursal, el
producto y el canal de venta. Otro ejemplo es un cubo de datos, donde cada
dimensión representa una variable como la región, el tiempo y el producto, y las
medidas representan el valor numérico en cada celda.
Para analizar estos tipos de datos, se utilizan técnicas específicas de análisis
multidimensional, como el análisis OLAP (Procesamiento Analítico en Línea), el
análisis de series de tiempo multidimensionales y el análisis de patrones de
asociación. Estas técnicas permiten examinar la estructura multidimensional de los
datos y cómo las diferentes dimensiones interactúan y afectan los resultados.
La ciencia de datos con estructura multidimensional es útil en una variedad de
campos, incluyendo el análisis financiero, el análisis de datos de marketing, la
planificación de recursos empresariales y la toma de decisiones empresariales
--Capitulo 3.7--
--CIENCIA DE DATOS CON ESTRUCTURA ORIENTADA A OBJETOS--
La ciencia de datos con estructura orientada a objetos se refiere a la aplicación
de técnicas de análisis de datos en conjuntos de datos que tienen una estructura
orientada a objetos. Esto significa que los datos están organizados en objetos, que
son instancias de una clase y tienen propiedades y métodos específicos.
Un ejemplo común de datos con estructura orientada a objetos es una aplicación de
software que almacena información de usuarios, donde cada usuario se representa
como un objeto con propiedades como el nombre, la dirección de correo electrónico y
la fecha de registro, y métodos como la autenticación y la actualización de la
información del perfil. Otro ejemplo es una aplicación de modelado de objetos
tridimensionales, donde cada objeto es un modelo 3D con propiedades como la forma,
el tamaño y la textura, y métodos como la rotación y la traslación.
Para analizar estos tipos de datos, se utilizan técnicas específicas de análisis
orientado a objetos, como el modelado de objetos, la encapsulación y la herencia.
Estas técnicas permiten examinar la estructura orientada a objetos de los datos y
cómo los objetos interactúan entre sí.
La ciencia de datos con estructura orientada a objetos es útil en una variedad de
campos, incluyendo el desarrollo de software, el modelado y simulación de objetos,
la inteligencia artificial y la robótica
--FUENTES--
Ciencia de datos con estructura jerárquica: "Data Science for Business" de Foster
Provost y Tom Fawcett.
Ciencia de datos con estructura en red: "Networks, Crowds, and Markets: Reasoning
About a Highly Connected World" de David Easley y Jon Kleinberg.
Ciencia de datos con estructura relacional: "Mining of Massive Datasets" de Jure
Leskovec, Anand Rajaraman y Jeffrey Ullman.
Ciencia de datos con estructura multidimensional: "OLAP Solutions: Building
Multidimensional Information Systems" de Erik Thomsen.
Ciencia de datos con estructura orientada a objetos: "Object-Oriented Analysis and
Design with Applications" de Grady Booch, Robert A. Maksimchuk, Michael W. Engle,
Bobbi J. Young, y Jim Conallen.