02 DataScience
Temas abordados
02 DataScience
Temas abordados
MONOGRAFÍA
CIENCIA DE DATOS
Juliaca - Perú
Dedicatoria
Dedicamos nuestro trabajo a nuestro apreciado docente del curso de
modelamiento de datos Uriel Quispe Mamani
2
INDICE
INTRODUCCION vi
DESCRIPCIÓN DE LA SITUACIÓN PROBLEMÁTICA vi
FORMULACIÓN DE UNA PREGUNTA DE INVESTIGACIÓN vi
OBJETIVOS PROPUESTOS vii
JUSTIFICACIÓN E IMPORTANCIA DEL ESTUDIO vii
BREVE COMENTARIO DE LOS CAPÍTULOS QUE SE DESARROLLARÁN viii
CAPÍTULO I: ORIGEN DE LA CREACION DE LA CIENCIA DE DATOS 9
CAPÍTULO II: FUNDAMENTOS DE LA CIENCIA DE DATOS 11
DEFINICIÓN Y CONCEPTOS CLAVE 11
EVOLUCIÓN Y CONTEXTO HISTÓRICO 11
INTERDISCIPLINARIEDAD DE LA CIENCIA DE DATOS 12
ROL DEL CIENTÍFICO DE DATOS 12
CAPÍTULO III: METODOLOGÍAS EN LA CIENCIA DE DATOS 13
PROCESO DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS 13
ANÁLISIS EXPLORATORIO DE DATOS (EDA) 14
NO GRÁFICO UNIVARIANTE 14
GRÁFICO UNIVARIANTE 15
NO GRÁFICO MULTIVARIANTE (NGM) 15
GRÁFICO MULTIVARIANTE (GM) 15
TOMA DE DECISIONES BASADA EN DATOS 16
Mejora el análisis de las alternativas 16
Reduce costos 17
Reduce riesgos 17
Genera ingresos 18
Ágil y rápida adaptabilidad 18
CAPÍTULO IV: PREPARACIÓN DE DATOS E IMPORTANCIA DEL CICLO DE VIDA DEL DATO 19
PREPARACIÓN DE DATOS 19
IMPORTACIÓN DE DATOS 19
DESCUBRIMIENTO 19
ii
LIMPIEZA Y DE DATOS 20
MEJORA DE DATOS 21
PUBLICACIÓN 21
CICLO DE VIDA DEL DATO 22
importancia la ciencia de datos 22
LA GESTIÓN DEL CICLO DE VIDA DE LOS DATOS 23
¿Qué es el ciclo de vida de los datos? 23
el ciclo de vida y su importancia 23
ciclo vital de los datos 24
Diseño y Modelamiento de Datos 24
Implementación 24
Operación y captura de datos 25
CAPÍTULO V: GESTIÓN DE DATOS MAESTROS 26
principios de Master Data Management o MDM 26
Datos maestros frente a datos de referencia 27
Estrategia MDM 27
CULTURA 28
Proceso 28
Tecnología 28
Información 29
Gobernanza de datos 29
INSTRUMENTOS PARA LA gestión de datos maestros 29
Ataccama ONE 30
IBM InfoSphere Master Data Management 30
MDM multidominio de Informatica 30
Plataforma Profisee 30
Riversand Platform 31
Gobierno de datos maestros de SAP 31
Semarchy Xdm 31
Tibco EBX 31
¿Cómo afecta al sector público? 32
importancia de gestionar los datos maestros 32
Aplicación de una herramienta de gestión de datos maestros 33
La gestión del modelo del dato 33
Obtención del dato 34
Validación, estandarización y enriquecimiento 34
iii
Resolución de entidades 34
Custodia (Del maestro y mantenimiento) 34
CAPÍTULO VI: CALIDAD DE DATOS 35
Calidad de los datos 35
Datos oscuros 36
Datos sucios 36
Datos No estructurados 36
Aseguramiento de datos 36
Monitoreo de la calidad del dato 37
reporte de calidad de datos 37
Limpieza de datos 37
Limpieza 37
Depurar 37
Corregir 37
Estandarizar 38
Relacionar 38
Consolidar 38
Gestión de la calidad de los datos 38
La gestión de la calidad de los datos en el tiempo 40
CAPÍTULO VII: SEGURIDAD DE LOS DATOS 42
seguridad de datos 42
conceptos básicos 43
Ingeniería de la seguridad de datos y quien se encarga 43
Encriptación de datos 44
Detección de intrusión y respuesta a una violación de seguridad 45
bloque de usuarios no autorizados a través de Firewall 45
vulnerabilidades y su análisis 46
Ciberseguridad: HTTPS, SSL y TLS 46
CONCLUSIONES 47
RECOMENDACIONES 48
FUENTES DE INFORMACION 50
APENDICES Y/O ANEXOS 53
iv
v
INTRODUCCION
En este entorno cada vez más informático, las empresas afrontan el desafío de
aprovechar la gran cantidad de datos originados a diario. No obstante, el hecho
de disponer con cantidades enormes de información no avala conseguir valor de
ella. Entonces se origina la necesidad de usar planteamientos analíticos y
científicos para transformar estos datos en inteligencia útil.
vi
Ante esta situación, nace la siguiente interrogante de estudio: ¿Cómo la ciencia
puede contribuir a la comprensión de datos y utilización verdadera de los datos
en múltiples campos, a partir de la toma de decisiones corporativas hasta el
análisis científico?
OBJETIVOS PROPUESTOS
vii
ayudar bastante con el crecimiento y la eficiencia en una gran cantidad de
campos. Comprender cómo sacar los conocimientos a partir de los datos es
esencial para la toma de decisiones fundamentadas y así ayudar con la
resolución de problemas complejos. Además, la ciencia de datos tiene
significativamente un impacto en el desarrollo de tecnologías que surgieron y lel
nacimiento de ideas innovadoras.
viii
CAPÍTULO I: ORIGEN DE LA CREACION DE LA CIENCIA DE
DATOS
John W. Tukey dijo en 1962: “Por mucho tiempo pensaba que la estadística de
lo general a lo normal era mi rama, cuando vi que esta iba evolucionando, me
hizo capacitar, y llegar a que me interesaba más la analítica de datos, por
supuesto asociada a la estadística.”
El diseño
La recolección
Y la analítica de datos
9
Figura 1
Imagen referencial a la formación de la ciencia de datos
Nota. En esta imagen podemos notar La ciencia de datos combina las ciencias
de la computación, matemáticas y estadística y las habilidades de negocio.
Tomada de (Datademia , 2022).
10
CAPÍTULO II: FUNDAMENTOS DE LA CIENCIA DE DATOS
11
profesionales de la computación. Todavía tuvo que pasar otra década para que
el término se utilizara fuera del ámbito académico
Por científicos de datos nos referimos a los profesionales en ese ámbito. Estos
no son necesariamente los responsables de todo lo comprendido en el ciclo de
vida en mundo de la ciencia de datos. Un claro ejemplo es que los ingenieros de
datos comprenden generalmente de los conductos de datos, no obstante, los
eruditos(científicos) de datos se encargan de proporcionar recomendaciones
acerca de qué clase de datos son necesarios. A pesar de que los científicos de
datos tienen la capacidad de crear ejemplos de machine learning, subir esta
iniciativa a un nivel superior necesariamente vamos a requerir más habilidades
en la ingeniería de Software para así poder potenciar el programa de modo que
este se ejecute con eficiencia y rápidamente. (International Business Machines
Corporation, 2023).
12
CAPÍTULO III: METODOLOGÍAS EN LA CIENCIA DE DATOS
13
Constantemente, estas tres fases del proceso ETL se llevan a cabo
simultáneamente con el objetivo de reducir el tiempo. Por ejemplo, mientras se
obtienen los datos, es posible que se esté llevando en ese mismo momento la
evolucio, transformación y preparación de los datos recibidos, al mismo tiempo
que se inicia el proceso de carga de los datos preparados. Esto evita tener que
esperar a que se complete todo el proceso de extracción antes de continuar.
(Jhawar & Tejada, 2018)
El EDA tiene como objetivo principal explorar los datos antes de realizar
cualquier tipo de suposición. Esto permite identificar errores evidentes,
comprender mejor los patrones presentes en los datos, detectar los valores
atípicos o eventos anómalos, y descubrir relaciones cautivadoras entre las
variables.
NO GRÁFICO UNIVARIANTE
14
El análisis univariante es una forma básica de análisis de datos que se enfoca
en una única variable a la vez. En este tipo de análisis, no se consideran las
causas o las relaciones entre variables. El objetivo primordial del análisis
univariante consiste en proporcionar una descripción de los datos y identificar los
posibles patrones presentes en ellos.
GRÁFICO UNIVARIANTE
Las técnicas no gráficas no brindan una imagen integra de los datos. Por ende,
se necesitan utilizar métodos visuales. Los tipos más frecuentes de
representaciones gráficas univariantes son:
Diagramas de tallo y hojas, en los cuales se visualizan todos los valores de los
datos y la estructura de la distribución.
Histogramas, que son gráficos de barras en los que cada barra representa la
frecuencia (balance) o proporción (balance/balance total) de situaciones para un
intervalo de valores.
obtenemos estos datos de muchas variables, para lo cual aplicamos los métodos
del EDA NGM la cual no mostrara la correlación entre 2 o más variables de datos,
mediante tabulación estadística o cruzada.
15
Otro modelo común de gráfico multivariantes incluye:
Dentro de las principales utilidades que ofrece dicha práctica, podemos nombrar
a las siguientes:
16
de posibilidades y contribuye a un mayor entendimiento de cada una de ellas.
Este mayor conocimiento aumenta la probabilidad de seleccionar la alternativa
óptima y alcanzar un resultado exitoso. Sin embargo, es importante tener en
cuenta que el análisis de datos no garantiza el éxito, sino que simplemente
mejora las opciones disponibles. Según Robles, "los modelos de predicción son
más efectivos cuando cuentan con las variables adecuadas y se dispone de una
cantidad significativa de datos de calidad".
REDUCE COSTOS
REDUCE RIESGOS
17
GENERA INGRESOS
Al utilizar el análisis de datos, se puede anticipar las tendencias que son futuras
del mercado y responder de manera ágil a ellas, lo que brinda a la empresa la
oportunidad de obtener una ventaja competitiva más sólida en su mercado
objetivo. Sin embargo, para lograr esto, es fundamental que la compañía tenga
una capacidad organizativa de ser ágil. Aunque el análisis de datos proporciona
conocimientos valiosos, si la organización no es capaz de responder de manera
efectiva a estos conocimientos, no se producirá una adaptación exitosa. Es
esencial que la empresa cuente con la capacidad de aprovechar el análisis de
datos para impulsar cambios significativos y lograr una ventaja competitiva
sostenible. (Robles Flores & Mendiola, 2020)
18
CAPÍTULO IV: PREPARACIÓN DE DATOS E IMPORTANCIA DEL
CICLO DE VIDA DEL DATO
PREPARACIÓN DE DATOS
IMPORTACIÓN DE DATOS
DESCUBRIMIENTO
19
descriptivas de los datos con solo un clic. Esto me brinda la oportunidad de
identificar rápidamente categorías incorrectas, valores atípicos y, sobre todo,
valores nulos. Esta funcionalidad me permite tener una visión clara y precisa de
la calidad de los datos, lo que es crucial para garantizar su fiabilidad y validez en
el análisis. Durante la etapa de descubrimiento de datos, es recomendable
aprovecharla para realizar pruebas sencillas con el fin de detectar problemas
menos evidentes que puedan requerir corrección en la siguiente etapa. Una
estrategia útil es utilizar funciones de clasificación para identificar posibles
duplicados en los datos. Esto ayuda a garantizar la integridad de los datos y
permite abordar cualquier duplicación antes de avanzar en el análisis. Realizar
estas pruebas tempranas proporciona una base sólida para asegurar la calidad
de los datos y evitar problemas posteriores en el proceso de análisis.
LIMPIEZA Y DE DATOS
20
conjunto de datos presenta valores atípicos, las operaciones de transición se
vuelven útiles para aprovechar la información valiosa que contienen.
MEJORA DE DATOS
La perfección de datos conocida cada vez más como "data wrangling" o "data
munging" implica enriquecer su conjunto de datos con información adicional
proveniente de fuentes externas. Para lograr esto, se requiere realizar una
combinación de datos. Existen diversas variantes de combinaciones disponibles.
Lo que encuentro atractivo en una solución como Anatella es la capacidad de
elegir entre una variedad de modelos de combinaciones según mis necesidades.
Entre los diferentes tipos de combinaciones disponibles, destaca uno en
particular por su singularidad: la combinación de fuzzy matching. Es posible
realizar uniones simples después de haber depurado todos los datos
directamente en la solución de visualización de datos, lo que brinda una mayor
comodidad y eficiencia en el proceso. Esta metodología presenta tanto
beneficios como inconvenientes. Personalmente, tengo la preferencia de
consolidar la preparación de mis datos en una única herramienta de software y,
así una vez completado este proceso, iniciar directamente el análisis de los
mismos.
PUBLICACIÓN
21
CICLO DE VIDA DEL DATO
22
LA GESTIÓN DEL CICLO DE VIDA DE LOS DATOS
Según (Marytere, 2022) dice que: La vida del dato útil tiene ciclos, ya que es
consecuente de varios niveles que los datos pasan por toda su vida.
Esta etapa de vida del dato va desde el periodo temporal que los datos sean
útiles para las empresas, esta es desde su nacimiento hasta el fin de su vida que
es a la eliminación, también podemos reutilizarlos cuando este sea necesario.
Según (Marytere, 2022) dice lo siguiente: El ciclo de vida de los datos describe
las etapas de producción, consumo y reutilización de datos.
23
Esta perspectiva de datos ayuda a las organizaciones a protegerse contra la
pérdida de datos, la eliminación, los ataques cibernéticos y más. Además, las
empresas pueden decidir cómo se procesan, utilizan, almacenan y comparten
sus datos.
ANÁLISIS
IMPLEMENTACIÓN
Las metas a alcanzar y las metas definidas en las fases anteriores determinarán
la elección de la base de datos y la metodología a implementar para la
recolección de datos y generación de información. Esta fase debe ejecutarse en
varios supuestos para determinar:
24
modelo de bases de datos: relacionales, no-relacionales.
niveles de privacidades.
interoperabilidadades.
Operación o uso de bases de datos: esto incluye el acceso constante a las bases
de datos por parte de los usuarios finales, mantener las bases de datos
actualizadas por parte de los desarrolladores del sistema y escribir programas
para adaptarse a los nuevos requisitos de los usuarios. Ambas fases requieren
el uso de un DBMS, especialmente para la tarea de definir y manipular bases de
datos.
Figura 2
Imagen referencial al cycle life of date
NOTA: En esta imagen podemos notar los 4 niveles del ciclo de vida del dato
Tomada de (Araneda, 2022)
25
CAPÍTULO V: GESTIÓN DE DATOS MAESTROS
Utilizado para dar contexto a todos los datos transaccionales, normalmente las
organizaciones la tienen dispersas en hojas de cálculo.
26
Ya consolidado, Master Data Management respalda la consistencia y la
perfección de los recursos de datos en una empresa, incluyendo los datos de
creacion al proporcionar los datos a los usuarios finales como también a otras
aplicaciones, incluyendo tanto los datos de los usuarios y los datos activos dentro
de la empresa, manteniendo la coherencia y la superioridad de los datos activos
dentro de la empresa. Estas entidades buscan Master Data Management debido
a una extensa multitud de razones; dentro de los más populares se encuentran
la creación de eficiencias internas y a su vez operativas (69%), implementar
mejoras en los hallado respecto a los procesos de negocios (59%) y tener una
mejora en la velocidad sobre los procesos en negocios (54%), como lo indica el
Cuadrante Mágico de MDM (Gartner Glossary, 2021).
ESTRATEGIA MDM
27
datos, nos indica que tenemos un total de 5 componentes completamente
fundamentales para un programa de MDM.
CULTURA
Encaminar el proyecto.
PROCESO
Las relaciones con los clientes (CRM) son buenas opciones para comenzar, por
ejemplo, Debido a que es un foco para gestión de datos maestros (MDM) puesto
que almacena los datos de clientes que están inherentemente relacionado con
el sistema de gestión de relaciones con los clientes (CRM).
TECNOLOGÍA
28
La gestión de datos maestros (MDM), práctica que es respaldada por la
tecnología. Los elementos fundamentales en el ámbito tecnológico incluyen un
hub de MDM, para poder adjuntar todos los datos del sistema de origen, la
integración de datos es para obtener datos del sistema de origen en MDM hub
que es una herramienta para poder obtener datos de calidad. Todos estos
métodos tecnológicos proporcionan una línea de base que nos indica Power.
Power es una clase que gestiona los datos de referencia, política de metadatos,
las normas en negocio, políticas, entre otros, entre otras más posibilidades.
INFORMACIÓN
Con el fin de recopilar todos los datos de los sistemas de origen, se utiliza la
integración de datos para transferir los datos al hub de MDM. Además, se emplea
una herramienta de calidad de datos, se sugiere tomarse un tiempo para evaluar
minuciosamente los informes y análisis que se desean verificar sobre los
prospectos y clientes. Es necesario considerar todas las particularidades
necesarias para respaldar dichos análisis de manera adecuada. Para cumplir
con esto, puede ser necesario incorporar datos externos que proporcionen las
particularidades necesarias como códigos de industria, ingresos, edad,
jerarquías corporativas, riesgo financiero, entre otros.
GOBERNANZA DE DATOS
29
Existen numerosos arreglos disponibles para respaldar las aplicaciones de
gestión de datos maestros (MDM). A continuación, se mencionan algunos de los
más reconocidos y utilizados:
ATACCAMA ONE
PLATAFORMA PROFISEE
30
implementado en entornos locales (on-premises), en la nube o a través de un
modelo híbrido. Cuenta con un motor de modelado que permite a los usuarios
representar los datos maestros tal y como existen en la realidad.
RIVERSAND PLATFORM
SEMARCHY XDM
TIBCO EBX
Nos brinda un flujo de trabajo, sobre todo la calidad en los datos y los aplicativos
específicos de la idea, está principalmente diseñado para ser un autoservicio, en
enero de 2021, Tibco adquirió la compañía proveedora de soluciones de análisis
y gestión de datos, Information Builders. (Luis, 2021)
31
¿CÓMO AFECTA AL SECTOR PÚBLICO?
Entre las ventajas que ofrece para administrar los datos principales son:
reducción de costos debido a datos efectivos.
En resumen, la confianza en los datos nos dice, y los resultados directos de esto
son la pérdida de nuestra información.
32
APLICACIÓN DE UNA HERRAMIENTA DE GESTIÓN DE DATOS
MAESTROS
Para poder compartir los datos, necesariamente tenemos que tener una visión
única y por lo tanto de confianza de nuestros datos, principalmente de datos
críticos o con mayor prioridad, que nos garantizará la integridad y consistencia
de estos datos, y también su calidad y exactitud, la cual nos dará un punto único
de la veracidad.
Este paso, normalmente se puede concretar por medio de las siguientes etapas:
Figura 3
Nota: En esta imagen podemos ver Las etapas de la gestión de datos maestros.
Tomada de (Juan, 2022).
33
A través de documentación que nos brindara la ubicación de los orígenes
variados para un solo dominio de información.
Desde las diferentes fuentes para la unificación de todos los posibles valores.
RESOLUCIÓN DE ENTIDADES
Para poder difundir con otros usuarios o empresas como compartición con
terceros.
34
CAPÍTULO VI: CALIDAD DE DATOS
Según (Araneda, 2022) dice que: La calidad de los datos es la calidad del
conjunto de información recopilada en una base de datos (un sistema de
información que combina los siguientes atributos):
Exactitud
Complejidad
Integridad
Actualización
Coherencia
Relevancia
Accesibilidad
Confiabilidad
Decir que los datos que recolectamos son de calidad es un error muy grave para
el análisis de datos orientada a negocios. Por lo tanto, primero debemos hacer
un datawarehouse o una datamart con los datos que logramos obtener, pero
estos datos deben estar limpios y tratados.
35
La veracidad de estos datos será comprobada de manera automatizado o si no
contamos con máquinas de manera manual, eso sí siguiendo los diferentes
niveles de detalles y variando el tiempo, haciendo una comprobación de que los
datos coincidan con los de la fuente principal, la calidad de estos datos es de
vital importancia para el reporte, que generara la confianza de la empresa o
usuario para la correcta operatividad y transacción.
Los tipos de datos de mayor error pueden causar los siguientes datos:
DATOS OSCUROS
DATOS SUCIOS
Estos tipos de datos causan un daño real a la empresa ya que obliga a utilizar
un costo económico real, por medio de permisos a usar datos que no son válidos.
DATOS NO ESTRUCTURADOS
Son datos que su estructura esta tal como fue recogida y esto causa que tenga
dispersión de datos la cual lleva a tener datos erróneos y no estén preparados
para su uso, estos datos son de menos importancia para el sistema SQL la cual
recibe datos más heterogéneos.
ASEGURAMIENTO DE DATOS
Para asegura el dato antes se debe pasar por los siguientes pasos:
36
MONITOREO DE LA CALIDAD DEL DATO
LIMPIEZA DE DATOS
se encarga de borrar los datos con mayor dispersión de datos o datos con mayor
error.
LIMPIEZA
Esta encargada de eliminar los datos que presenta dispersión muy grave con
respecto a lo necesitado y para ello es necesario aplicar las cinco fases para
limpiar el dato:
DEPURAR
CORREGIR
37
Se encarga de corrige Valores de atributos individuales utilizando algoritmos de
corrección y fuentes de datos externas. Ejemplo: Verifique la dirección y el código
postal correspondiente.
ESTANDARIZAR
RELACIONAR
Este proceso se relacionan ya los datos que pasaron los anteriores pasos, y trata
de encontrar una conexión que una a dos o más datos para que este sea un dato
de calidad (Araneda, 2022).
CONSOLIDAR
38
extracción de información por parte de los sistemas de inteligencia empresarial
y a la toma de decisiones erróneas.
Los que serán acreedores de estos beneficios por la buena gestión de datos, los
usuarios miembros de la organización, pero los que están a cargo se pueden
separar por las siguientes categorías
De los cuales el que tiene un contacto directo con el dato es el propietario del
dato, desde la creación(importación), hasta su eliminación del sistema, Estos
últimos son los encargados de realizar los proyectos de gestión, pero es más
probable que detecten los defectos de calidad que suelen ocurrir durante la etapa
de perfilado.
Exploración de datos.
Calidad de datos.
Figura 4
39
Nota: en esta imagen podemos ver la exploración de datos y calidad de datos
tomada de (LOGICALIS, 2014).
40
5. Consolidar: La fase de implementación del proceso de mejora de la
calidad.
Figura 5
Nota: podemos observar en la imagen que la calidad de datos debe pasar por
muchos procesos para ser llamado como tal, tomada de (LOGICALIS, 2014).
41
CAPÍTULO VII: SEGURIDAD DE LOS DATOS
SEGURIDAD DE DATOS
su marca,
capital intelectual
las personas
los procesos
42
la tecnología.
CONCEPTOS BÁSICOS
Empresas inteligentes.
En este siglo donde se ve el dominio del internet de las cosas y consigo los
hackers, es necesario tener una protección de nuestros datos ya que todos
contamos con cuentas Google donde guardamos información de nuestra
privacidad. Los hackeos de ransomware están incrementando con más
frecuencia y más prejudicial. es un negocio en crecimiento para pillos
cibernéticos y hackers, que acceden a la red y retienen información de datos.
43
arquitecturas, algoritmos de seguridad y modelos de amenazas para mantener
una red privada(bloqueada) y segura.
ENCRIPTACIÓN DE DATOS
Según (Diana, 2021)nos dice que: Los métodos actuales se basan en métodos
utilizados durante cientos de años. El principio es que los datos en el archivo se
reemplazan por caracteres sin sentido e ilegibles para extraños y malware. Las
permutaciones son posibles gracias a algoritmos criptográficos que evocan lo
impensable y se denominan«ciphertext».pero los usuarios que cuenta con
acceso al mensaje e información no presenta problema ya que tiene el mismo
algoritmo que el proceso inverso , decodificando el archivo nuevamente ,la cual
provoca que el formato se regresa a su formato original.
Encriptación simétrica.
Encriptación asimétrica.
Encriptación mixta.
Encriptación en flujo.
Esteganografía.
44
Spread-Spectrum.
Nosotros estamos conectados a la red casi todo el día, por lo tanto, es necesario
tener una seguridad de que nuestros datos y archivos sean recibidos por
45
personas autorizadas por medio de firewall este es un software u hardware que
se encarga de bloquear el ingreso al usuario no autorizado a nuestra red.
VULNERABILIDADES Y SU ANÁLISIS
La conexión cifrada y las páginas seguras: estos se dan con pasos HTTPS que
pueden proteger y ocultar datos del usuario u empresa, la creación de canales
seguros de comunicación es necesario el profesional encargado de esta.
46
El profesional de seguridad en la red puede crear implementándolo por medio de
protocolos TCP o IP a través de criptografías entretejidas y por medio de
encriptación por SECURE SOCKETS LAYER o llamado SSL o el famoso TLS
(transport layer security).
CONCLUSIONES
47
enormes cantidades de datos. Es de suma importancia asumir estos retos de
manera sensata, garantizando la confidencialidad y la protección de la
información, así como respetando los principios éticos en el análisis de datos.
RECOMENDACIONES
48
importante tener en consideración las regulaciones y directrices éticas vigentes
al trabajar con datos sensibles, y aplicar técnicas de anonimizarían y seguridad
de datos para poder así garantizar la privacidad y protección adecuada de la
información.
49
FUENTES DE INFORMACION
¿Qué es la ciencia de datos? (17 de Abril de 2023). ¿Qué es la ciencia de datos? Amazon Web
Services, Inc.: https://aws.amazon.com/es/what-is/data-science/
Aguilar, F., Ramiro, D., & Aguado, B. (5 de Julio de 2022). Ciencia de datos. PTI Ciencia Digital
CSIC: https://pti-cienciadigital.csic.es/ciencia-de-datos/
Colaborador de DocuSign. (11 de Enero de 2022). Fases del ciclo de vida de los datos: ¿por qué
es tan importante conocerlas? DocuSign: https://www.docusign.mx/blog/ciclo-de-
vida-de-datos
Jhawar, R., & Tejada, Z. (13 de Abril de 2018). Extracción, Transformación y Carga de Datos
(ETL) - azure architecture center. Azure Architecture Center | Microsoft Learn:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
50
Luis, B. P. (2021). ¿Qué es la Gestión de Datos Maestros? Asegure una única “fuente de
verdad”. CIO Mexico: https://cio.com.mx/que-es-la-gestion-de-datos-maestros-
asegure-una-unica-fuente-de-verdad/
Marytere, N. (2022). Ciclo de vida de los datos: Qué es y qué etapas tiene. QuestionPro:
https://www.questionpro.com/blog/es/ciclo-de-vida-de-los-datos/
Robles Flores, J. A., & Mendiola, L. (04 de Febrero de 2020). Importancia del Análisis de Datos
en la Toma de Decisiones. Conexión ESAN: https://www.esan.edu.pe/conexion-
esan/importancia-del-analisis-de-datos-en-la-toma-de-decisiones
Schwab, P.-N. (18 de Enero de 2021). Preparación de Datos: Definición, ejemplos, consejos
[guía 2023]. Market research consulting:
https://www.intotheminds.com/blog/es/data-preparacion-datos/
¿Qué es la ciencia de datos? (17 de Abril de 2023). ¿Qué es la ciencia de datos? Amazon Web
Services, Inc.: https://aws.amazon.com/es/what-is/data-science/
Aguilar, F., Ramiro, D., & Aguado, B. (5 de Julio de 2022). Ciencia de datos. PTI Ciencia Digital
CSIC: https://pti-cienciadigital.csic.es/ciencia-de-datos/
Colaborador de DocuSign. (11 de Enero de 2022). Fases del ciclo de vida de los datos: ¿por qué
es tan importante conocerlas? DocuSign: https://www.docusign.mx/blog/ciclo-de-
vida-de-datos
51
Denman, C. A. (s.f.). Antologia de metodos de base de datos.
https://biblioteca.colson.edu.mx/e-docs/RED/Por_los_rincones-
DENMAN_HARO.pdf#page=249
Jhawar, R., & Tejada, Z. (13 de Abril de 2018). Extracción, Transformación y Carga de Datos
(ETL) - azure architecture center. Azure Architecture Center | Microsoft Learn:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
Luis, B. P. (2021). ¿Qué es la Gestión de Datos Maestros? Asegure una única “fuente de
verdad”. CIO Mexico: https://cio.com.mx/que-es-la-gestion-de-datos-maestros-
asegure-una-unica-fuente-de-verdad/
Marytere, N. (2022). Ciclo de vida de los datos: Qué es y qué etapas tiene. QuestionPro:
https://www.questionpro.com/blog/es/ciclo-de-vida-de-los-datos/
Robles Flores, J. A., & Mendiola, L. (04 de Febrero de 2020). Importancia del Análisis de Datos
en la Toma de Decisiones. Conexión ESAN: https://www.esan.edu.pe/conexion-
esan/importancia-del-analisis-de-datos-en-la-toma-de-decisiones
52
Schwab, P.-N. (18 de Enero de 2021). Preparación de Datos: Definición, ejemplos, consejos
[guía 2023]. Market research consulting:
https://www.intotheminds.com/blog/es/data-preparacion-datos/
Nota. Es una canalización de datos que se usa para recopilar datos de varios
orígenes. Tomado de (Jhawar & Tejada, 2018)
53
La gestión de datos maestros (MDM) es fundamental para la coherencia y calidad de los datos en las empresas porque proporciona una única fuente confiable de información que es consistente en toda la organización. Esto permite la creación de eficiencias internas y operativas y mejora procesos empresariales. La estrategia MDM asegura que todos los datos críticos de negocio sean precisos, homogéneos y disponibles para múltiples aplicaciones empresariales, mejorando así la toma de decisiones comerciales .
La interdisciplinariedad en el campo de la ciencia de datos es crucial porque permite la combinación de diferentes disciplinas como matemáticas, estadística, informática y habilidades empresariales para analizar grandes cantidades de datos. Esta mezcla de disciplinas hace que la ciencia de datos sea una herramienta poderosa para la toma de decisiones informadas al permitir extraer conocimiento valioso de datos complejos y masivos y aplicar estos hallazgos a varios ámbitos como seguridad, salud, negocios, etc. .
Las claves para un programa exitoso de gestión de datos maestros incluyen contar con un liderazgo visionario, implementar procesos estructurados, y utilizar tecnología adecuada. Es vital tener una estrategia clara de gobernanza de datos que aborde los desafíos culturales y políticos dentro de una organización. Además, se necesita un enfoque tecnológico que asegure que los datos maestros estén bien integrados, precisos y accesibles, y procesos que estén alineados con los objetivos de negocio para obtener un retorno sobre la inversión significativo .
La evolución histórica de la ciencia de datos, que comenzó como un término alternativo para la estadística en los años 60, ha sido significativa para expandir su aplicación actual. A medida que el término se fue formalizando en los años 90, especialmente en la informática, la ciencia de datos comenzó a ser reconocida como un campo independiente que combina diseño, recolección y análisis de datos. Esta evolución ha permitido aplicaciones en múltiples campos como el negocio, investigación científica y tecnología médica, donde utiliza datos para tomar decisiones estratégicas y motivar innovaciones .
La ciencia de datos transforma la toma de decisiones estratégicas en empresas al proporcionar insights basados en el análisis de grandes cantidades de datos, permitiendo a las empresas prever tendencias, optimizar recursos y personalizar servicios para los clientes. Mediante modelos predictivos y descriptivos, las organizaciones pueden identificar patrones significativos que guían la planificación estratégica, mejoran la eficiencia operativa y fomentan la innovación. La ciencia de datos es un habilitador clave para decisiones fundamentadas y adaptativas .
La ciencia de datos y las tecnologías de seguridad de datos están interrelacionadas en la protección de la información en línea. Mientras que la ciencia de datos se enfoca en el análisis de grandes volúmenes de datos para derivar información útil, las tecnologías de seguridad aseguran que esos datos sean protegidos contra accesos no autorizados. Herramientas de cifrado y protocolos como HTTPS y TLS garantizan la integridad y confidencialidad de los datos en tránsito, protegiéndolos de potenciales amenazas cibernéticas. Esto es vital en la infraestructura de seguridad de datos moderna y en la gestión de ciberseguridad .
La visualización de datos juega un papel crucial en la comunicación de resultados en ciencia de datos al convertir datos complejos en información visualmente comprensible. Herramientas de visualización ayudan a destacar patrones, tendencias y anomalías que podrían no ser evidentes en presentaciones numéricas, facilitando así la interpretación y el análisis para la toma de decisiones. Se convierte en un puente entre los análisis cuantitativos y la comprensión cualitativa por parte de audiencias diversas, lo que es vital para compartir insights de manera efectiva .
El avance en tecnologías de inteligencia artificial ha impactado significativamente la gestión de datos maestros al aumentar la capacidad para procesar, analizar y gestionar grandes cantidades de datos de manera eficiente. Herramientas como los MDM basados en IA, incluyendo las soluciones de Informatica y IBM, utilizan algoritmos de aprendizaje automático para mejorar la precisión y la calidad de los datos, automatizar procesos de limpieza y clasificación de datos, y facilitar la implementación de iniciativas de datos maestros complejas .
La ciencia de datos plantea desafíos significativos en términos de ética y privacidad debido al manejo de grandes volúmenes de datos, lo que puede comprometer la privacidad individual y la seguridad de la información. Abordar estos retos implica establecer regulaciones claras, implementar prácticas de gobernanza de datos, garantizar la seguridad de los datos a través del cifrado y adoptar enfoques transparentes para el tratamiento de datos personales. También es esencial que las organizaciones sean responsables y respeten los derechos de los individuos utilizando sus datos .
Implementar sistemas de MDM en la nube ofrece varias ventajas sobre los sistemas locales tradicionales, como flexibilidad, escalabilidad, y reducción de costos de infraestructura. Sistemas en la nube permiten a las organizaciones acceder a sus datos desde cualquier lugar, facilitar la colaboración remota y ajustarse rápidamente a los cambios de demanda o volumen de datos. Además, los sistemas basados en cloud ofrecen actualizaciones y mantenimiento continuos, asegurando que las últimas tecnologías y políticas de seguridad estén siempre en lugar .