0% encontró este documento útil (0 votos)
71 vistas54 páginas

02 DataScience

Este documento presenta un resumen de tres capítulos de una monografía sobre ciencia de datos. El capítulo I explora el origen de la ciencia de datos. El capítulo II define conceptos clave como la interdisciplinariedad y el rol del científico de datos. El capítulo III describe metodologías como el procesamiento de datos, análisis exploratorio de datos y toma de decisiones basada en datos. La monografía analiza fundamentos, metodologías y aplicaciones de la ciencia de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • Gobernanza de datos,
  • Análisis de tendencias,
  • Instrumentos de análisis,
  • Aprendizaje automático,
  • Desafíos éticos,
  • Estadística aplicada,
  • Ciencia de datos en finanzas,
  • Reducción de costos,
  • Seguridad de datos,
  • Ciencia de datos en medicina
0% encontró este documento útil (0 votos)
71 vistas54 páginas

02 DataScience

Este documento presenta un resumen de tres capítulos de una monografía sobre ciencia de datos. El capítulo I explora el origen de la ciencia de datos. El capítulo II define conceptos clave como la interdisciplinariedad y el rol del científico de datos. El capítulo III describe metodologías como el procesamiento de datos, análisis exploratorio de datos y toma de decisiones basada en datos. La monografía analiza fundamentos, metodologías y aplicaciones de la ciencia de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temas abordados

  • Gobernanza de datos,
  • Análisis de tendencias,
  • Instrumentos de análisis,
  • Aprendizaje automático,
  • Desafíos éticos,
  • Estadística aplicada,
  • Ciencia de datos en finanzas,
  • Reducción de costos,
  • Seguridad de datos,
  • Ciencia de datos en medicina

UNIVERSIDAD NACIONAL DE JULIACA

Facultad de ciencias de ingenierías

Escuela profesional de ingeniería de software y sistemas

MONOGRAFÍA

CIENCIA DE DATOS

Asignatura de modelamiento de datos

Autor 1: ATAMARI HANCCO CHRISTIAN WILBER


Autor 2: CONDORI MAMANI GABRIEL OMAR
Autor 3: SONCO CONDORI DIEGO ALEXANDER

Docente: Dr. Uriel Quispe Mamani

Semestre académico 2023

Juliaca - Perú
Dedicatoria
Dedicamos nuestro trabajo a nuestro apreciado docente del curso de
modelamiento de datos Uriel Quispe Mamani

2
INDICE

INTRODUCCION vi
DESCRIPCIÓN DE LA SITUACIÓN PROBLEMÁTICA vi
FORMULACIÓN DE UNA PREGUNTA DE INVESTIGACIÓN vi
OBJETIVOS PROPUESTOS vii
JUSTIFICACIÓN E IMPORTANCIA DEL ESTUDIO vii
BREVE COMENTARIO DE LOS CAPÍTULOS QUE SE DESARROLLARÁN viii
CAPÍTULO I: ORIGEN DE LA CREACION DE LA CIENCIA DE DATOS 9
CAPÍTULO II: FUNDAMENTOS DE LA CIENCIA DE DATOS 11
DEFINICIÓN Y CONCEPTOS CLAVE 11
EVOLUCIÓN Y CONTEXTO HISTÓRICO 11
INTERDISCIPLINARIEDAD DE LA CIENCIA DE DATOS 12
ROL DEL CIENTÍFICO DE DATOS 12
CAPÍTULO III: METODOLOGÍAS EN LA CIENCIA DE DATOS 13
PROCESO DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE DATOS 13
ANÁLISIS EXPLORATORIO DE DATOS (EDA) 14
 NO GRÁFICO UNIVARIANTE 14
 GRÁFICO UNIVARIANTE 15
 NO GRÁFICO MULTIVARIANTE (NGM) 15
 GRÁFICO MULTIVARIANTE (GM) 15
TOMA DE DECISIONES BASADA EN DATOS 16
 Mejora el análisis de las alternativas 16
 Reduce costos 17
 Reduce riesgos 17
 Genera ingresos 18
 Ágil y rápida adaptabilidad 18
CAPÍTULO IV: PREPARACIÓN DE DATOS E IMPORTANCIA DEL CICLO DE VIDA DEL DATO 19
PREPARACIÓN DE DATOS 19
IMPORTACIÓN DE DATOS 19
DESCUBRIMIENTO 19

ii
LIMPIEZA Y DE DATOS 20
MEJORA DE DATOS 21
PUBLICACIÓN 21
CICLO DE VIDA DEL DATO 22
 importancia la ciencia de datos 22
LA GESTIÓN DEL CICLO DE VIDA DE LOS DATOS 23
 ¿Qué es el ciclo de vida de los datos? 23
el ciclo de vida y su importancia 23
ciclo vital de los datos 24
 Diseño y Modelamiento de Datos 24
 Implementación 24
 Operación y captura de datos 25
CAPÍTULO V: GESTIÓN DE DATOS MAESTROS 26
principios de Master Data Management o MDM 26
Datos maestros frente a datos de referencia 27
Estrategia MDM 27
 CULTURA 28
 Proceso 28
 Tecnología 28
 Información 29
 Gobernanza de datos 29
INSTRUMENTOS PARA LA gestión de datos maestros 29
 Ataccama ONE 30
 IBM InfoSphere Master Data Management 30
 MDM multidominio de Informatica 30
 Plataforma Profisee 30
 Riversand Platform 31
 Gobierno de datos maestros de SAP 31
 Semarchy Xdm 31
 Tibco EBX 31
¿Cómo afecta al sector público? 32
importancia de gestionar los datos maestros 32
Aplicación de una herramienta de gestión de datos maestros 33
 La gestión del modelo del dato 33
 Obtención del dato 34
 Validación, estandarización y enriquecimiento 34

iii
 Resolución de entidades 34
 Custodia (Del maestro y mantenimiento) 34
CAPÍTULO VI: CALIDAD DE DATOS 35
Calidad de los datos 35
 Datos oscuros 36
 Datos sucios 36
 Datos No estructurados 36
Aseguramiento de datos 36
 Monitoreo de la calidad del dato 37
 reporte de calidad de datos 37
 Limpieza de datos 37
Limpieza 37
 Depurar 37
 Corregir 37
 Estandarizar 38
 Relacionar 38
 Consolidar 38
Gestión de la calidad de los datos 38
La gestión de la calidad de los datos en el tiempo 40
CAPÍTULO VII: SEGURIDAD DE LOS DATOS 42
seguridad de datos 42
conceptos básicos 43
Ingeniería de la seguridad de datos y quien se encarga 43
Encriptación de datos 44
Detección de intrusión y respuesta a una violación de seguridad 45
bloque de usuarios no autorizados a través de Firewall 45
vulnerabilidades y su análisis 46
Ciberseguridad: HTTPS, SSL y TLS 46
CONCLUSIONES 47
RECOMENDACIONES 48
FUENTES DE INFORMACION 50
APENDICES Y/O ANEXOS 53

iv
v
INTRODUCCION

En este tiempo de la investigación, en donde la concepción y almacenamiento


de datos ha conseguido proporciones aceleradas, florece una disciplina que se
levanta como un eficaz instrumento que sirve para extraer conocimiento: la
ciencia de datos. Esta área multidisciplinaria combina recursos de datos, y de
programación para examinar cantidades grandes de información y descubrir
patrones, preferencias y relaciones ocultas.

Hablar sobre la ciencia de datos en la actualidad es sumamente importante por


su enfoque interdisciplinario ya que abarca casi todos los principios de las
materias como: en estadísticamente y la aplicación de IA, y la ingeniería en
ciencia de datos que está dando mucho que departir ya que los profesionales de
este campo se dedican a analizar grandes cantidades de datos, según indica
Amazon (Amazon, 2023).

En este tiempo de la investigación, en donde la concepción y almacenamiento


de datos ha conseguido proporciones aceleradas, florece una disciplina que se
levanta como un eficaz instrumento que sirve para extraer conocimiento: la
ciencia de datos. Esta área multidisciplinaria combina recursos de datos, y de
programación para examinar cantidades grandes de información y descubrir
patrones, preferencias y relaciones ocultas.

DESCRIPCIÓN DE LA SITUACIÓN PROBLEMÁTICA

En este entorno cada vez más informático, las empresas afrontan el desafío de
aprovechar la gran cantidad de datos originados a diario. No obstante, el hecho
de disponer con cantidades enormes de información no avala conseguir valor de
ella. Entonces se origina la necesidad de usar planteamientos analíticos y
científicos para transformar estos datos en inteligencia útil.

FORMULACIÓN DE UNA PREGUNTA DE INVESTIGACIÓN

vi
Ante esta situación, nace la siguiente interrogante de estudio: ¿Cómo la ciencia
puede contribuir a la comprensión de datos y utilización verdadera de los datos
en múltiples campos, a partir de la toma de decisiones corporativas hasta el
análisis científico?

OBJETIVOS PROPUESTOS

El propósito principal al realizar esta monografía es brindar una visión universal


de la ciencia de datos e indagar sus metodologías y utilidades prácticas. Para
lograrlo, se proponen los siguientes objetivos específicos:

 Entender los fundamentos contemplativos y conceptuales de la ciencia de


datos.

 Explorar las metodologías empleadas en el proceso de extracción,


transformación y carga (ETL) de datos, así mismo en el estudio
exploratorio y modelamiento.

 Examinar las fuentes y modelos de datos disponibles, como los desafíos


agrupados a la adquisición y planificación de los mismos.

 Tantear la variedad modelos de aprendizaje automatizado que se


emplearon en la ciencia de datos y su ejecución en la resolución de los
problemas.

 Investigar los métodos de visualización de datos y la importancia que este


tiene en la presentación y expansión de resultados.

 Verificar la variedad de aplicaciones de la data science en áreas como la


toma de decisiones en las empresas, la investigación científica, así como
la medicina y el marketing, entre otros.

JUSTIFICACIÓN E IMPORTANCIA DEL ESTUDIO

La investigación de la ciencia de datos es muy importante hoy en día, ya que nos


brinda la oportunidad de convertir datos en información muy relevante que puede

vii
ayudar bastante con el crecimiento y la eficiencia en una gran cantidad de
campos. Comprender cómo sacar los conocimientos a partir de los datos es
esencial para la toma de decisiones fundamentadas y así ayudar con la
resolución de problemas complejos. Además, la ciencia de datos tiene
significativamente un impacto en el desarrollo de tecnologías que surgieron y lel
nacimiento de ideas innovadoras.

BREVE COMENTARIO DE LOS CAPÍTULOS QUE SE


DESARROLLARÁN

En los siguientes capítulos de esta monografía, se explorarán los fundamentos


teóricos de lo que hoy en día conocemos como la ciencia de datos, las
metodologías que se emplean en el campo de análisis de datos, la preparación
y limpieza de estos mismos, las pautas de aprendizaje automático, los métodos
de visualización de datos y la diversidad en aplicaciones prácticas para la ciencia
de datos en la gran cantidad de campos. Cada capítulo proporcionará una
comprensión más profunda de los conceptos.

viii
CAPÍTULO I: ORIGEN DE LA CREACION DE LA CIENCIA DE
DATOS

Según Fuente especificada no válida. dice lo siguiente : La Ciencia de


Datos tiene sus inicios en 1962, por el estadístico estadounidense John W.
Tukey, reconocido por sus trabajos tales como haber desarrollado complejos
algoritmos y el famoso diagrama de caja y bigotes (Box Plot).

John W. Tukey dijo en 1962: “Por mucho tiempo pensaba que la estadística de
lo general a lo normal era mi rama, cuando vi que esta iba evolucionando, me
hizo capacitar, y llegar a que me interesaba más la analítica de datos, por
supuesto asociada a la estadística.”

La denominación de ciencias del dato no es actual, ya que su significado ha ido


variando con el tiempo al igual que su connotación, este apareció en el año 60
como un seudónimo alternativo para la estadística, pero de la década de los 90,
los profesionales en computación acuñaron el termino, la cual consideraba
campos independientes con tres aspectos:

 El diseño

 La recolección

 Y la analítica de datos

9
Figura 1
Imagen referencial a la formación de la ciencia de datos

Nota. En esta imagen podemos notar La ciencia de datos combina las ciencias
de la computación, matemáticas y estadística y las habilidades de negocio.
Tomada de (Datademia , 2022).

10
CAPÍTULO II: FUNDAMENTOS DE LA CIENCIA DE DATOS

DEFINICIÓN Y CONCEPTOS CLAVE

Por ciencia de datos comprendemos que es el estudio de datos con el fin de


obtener información significativa para la gran cantidad de empresas que lo usan.
Es un sentido multidisciplinario que mezcla principios y prácticas en el campo de
las matemáticas, la inteligencia artificial, la estadística y la ingeniería de
computación para investigar cantidades enormes de datos. Este análisis permite
a los científicos de datos la capacidad para que planteen y respondan a
incógnitas como “por qué pasó”, “que pasó”, “qué se puede hacer con los
resultados” y “que pasara”.

La ciencia de datos es de suma importancia ya que combina herramientas, pasos


y tecnología para originar significado partiendo desde los datos. Las nuevas
organizaciones se encuentras inundadas de grandes cantidades de datos; hay
una propagación de dispositivos los cuales pueden almacenar y recopilar
información de una manera automática. Si bien se sabe que en los portales de
pago y de por si los sistemas en línea captan gran cantidad datos en los campos
del comercio electrónico, las finanzas también en la medicina y en cualquier otro
aspecto en la vida humana. En la actualidad contamos con grandes cantidades
de datos de texto, video, audio e imágenes. (¿Qué es la ciencia de datos?, 2023)

EVOLUCIÓN Y CONTEXTO HISTÓRICO

A pesar de que el término ciencia de datos no ha surgido recientemente, sus


significados y connotaciones han cambiado a lo largo del tiempo. La palabra dio
su aparición por primera vez cerca de los años 60 como un término alternativo
de la estadística. Y finalizando los 90, se formalizo el termino por los

11
profesionales de la computación. Todavía tuvo que pasar otra década para que
el término se utilizara fuera del ámbito académico

Se propuso considerarlo un campo independiente con 3 aspectos los cuales son:


el diseño, la recopilación y el análisis de datos. Y tuvo que pasar una década
para que este término fuese utilizado fuera del ambito académico (¿Qué es la
ciencia de datos?, 2023)

INTERDISCIPLINARIEDAD DE LA CIENCIA DE DATOS

Por campo interdisciplinar consideramos que se involucra los métodos


científicos, procedimientos y sistemas que se usan para extraer información y a
su vez conocimiento de varios tipos de datos, estructurados o no estructurados.
Para esto se vale de información matemática y estadística, ingeniería y
desarrollo de software a parte de un conocimiento característico del área en el
que se emplea De tal modo que es tenemos la posibilidad para abordar una
problemática a partir de un criterio interdisciplinar. (Aguilar y otros, 2022)

ROL DEL CIENTÍFICO DE DATOS

Por científicos de datos nos referimos a los profesionales en ese ámbito. Estos
no son necesariamente los responsables de todo lo comprendido en el ciclo de
vida en mundo de la ciencia de datos. Un claro ejemplo es que los ingenieros de
datos comprenden generalmente de los conductos de datos, no obstante, los
eruditos(científicos) de datos se encargan de proporcionar recomendaciones
acerca de qué clase de datos son necesarios. A pesar de que los científicos de
datos tienen la capacidad de crear ejemplos de machine learning, subir esta
iniciativa a un nivel superior necesariamente vamos a requerir más habilidades
en la ingeniería de Software para así poder potenciar el programa de modo que
este se ejecute con eficiencia y rápidamente. (International Business Machines
Corporation, 2023).

12
CAPÍTULO III: METODOLOGÍAS EN LA CIENCIA DE DATOS

PROCESO DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE


DATOS

La problemática a la que generalmente se enfrentan los organismos es el de


recompilar datos que tiene múltiples orígenes, en diferentes formatos. Después,
tendrá que recorrerlos a uno o más almacenes de datos. Posiblemente el destino
no será el mismo modelo de almacén de datos que el de origen. Habitualmente
el formato suele ser diferente, o posiblemente es necesario darles forma a los
datos así mismo limpiarlos para poder cargarlos en su destino final

Pasando los años han desarrollado una gran cantidad de variedades en


instrumentos, servicios y procesos que ayudan a poder afrontar los desafíos. De
manera independiente al proceso que utilice, se tiene la necesidad de coordinar
los trabajos y aplicar un nivel de transformación de datos dentro de su
canalización. Existen métodos habituales que se usan para realizar este tipo de
tareas

Extracción, transformación y carga (ETL) es un método de guía de datos que


normalmente se usa para compilar datos de diversos orígenes. Posteriormente,
transforma los datos al margen de las normas de negocio y lo carga dentro de
un almacén de datos de destino. La labor de transición en ETL tiene sede en un
motor especializado y, habitualmente esto implica que usemos provisionalmente
tablas de almacenamiento para poder conservar los datos momentáneamente a
medida que estos se van convirtiendo y, para finalizar, se sube en su destino

La transición de datos a menudo conlleva una serie de operaciones como filtrado,


clasificación, reunión, unión de datos, depuración de datos, eliminación de
duplicados y validación de datos.

13
Constantemente, estas tres fases del proceso ETL se llevan a cabo
simultáneamente con el objetivo de reducir el tiempo. Por ejemplo, mientras se
obtienen los datos, es posible que se esté llevando en ese mismo momento la
evolucio, transformación y preparación de los datos recibidos, al mismo tiempo
que se inicia el proceso de carga de los datos preparados. Esto evita tener que
esperar a que se complete todo el proceso de extracción antes de continuar.
(Jhawar & Tejada, 2018)

ANÁLISIS EXPLORATORIO DE DATOS (EDA)

El análisis exploratorio de datos (EDA) es una técnica utilizada por científicos de


datos para examinar e investigar unos conjuntos de datos, y asi resumir sus
características principales mediante el uso frecuente de métodos de
visualización de datos. Su objetivo es determinar la mejor forma de manipular los
datos de origen para obtener las respuestas necesarias, lo que permite a los
científicos de datos encontrar patrones, descubrir anomalías, probar hipótesis y
validar suposiciones.

El EDA tiene como objetivo principal explorar los datos antes de realizar
cualquier tipo de suposición. Esto permite identificar errores evidentes,
comprender mejor los patrones presentes en los datos, detectar los valores
atípicos o eventos anómalos, y descubrir relaciones cautivadoras entre las
variables.

Existen cuatro tipos principales de EDA:

 NO GRÁFICO UNIVARIANTE

14
El análisis univariante es una forma básica de análisis de datos que se enfoca
en una única variable a la vez. En este tipo de análisis, no se consideran las
causas o las relaciones entre variables. El objetivo primordial del análisis
univariante consiste en proporcionar una descripción de los datos y identificar los
posibles patrones presentes en ellos.

 GRÁFICO UNIVARIANTE

Las técnicas no gráficas no brindan una imagen integra de los datos. Por ende,
se necesitan utilizar métodos visuales. Los tipos más frecuentes de
representaciones gráficas univariantes son:

Diagramas de tallo y hojas, en los cuales se visualizan todos los valores de los
datos y la estructura de la distribución.

Histogramas, que son gráficos de barras en los que cada barra representa la
frecuencia (balance) o proporción (balance/balance total) de situaciones para un
intervalo de valores.

Esquema de caja, que tienen como función representar gráficamente el resumen


de cinco números de mínimo, cuartil 1, mediana, cuartil 3 y máximo.

 NO GRÁFICO MULTIVARIANTE (NGM)

obtenemos estos datos de muchas variables, para lo cual aplicamos los métodos
del EDA NGM la cual no mostrara la correlación entre 2 o más variables de datos,
mediante tabulación estadística o cruzada.

 GRÁFICO MULTIVARIANTE (GM)

Los datos de GM emplean gráficos que arrastre el relacionamiento entre los


grupos de datos. El gráfico comúnmente usado es el gráfico de barras o
diagrama de barras agrupadas, en el cual cada conjunto representa un nivel de
las variables y en cada barra de un grupo refiere las escalas de datos.

15
Otro modelo común de gráfico multivariantes incluye:

 Trama de dispersión, se utiliza para proyectar puntos de datos en una


coordenada horizontal y una vertical para señalar la cantidad afectada una
variable a otra.

 Gráfico multivariante, figura como muestra gráfica en las relaciones de los


factores y la respuesta.

 Diagrama de ejecución, se refiere al diagrama de líneas de datos


proyectados a medida que pasa el tiempo.

 Gráfico de burbujas, se presenta como una representación gráfica de


datos que presenta una gran cantidad de círculos (burbujas) en un
esquema bidimensional.

 Mapa de calor, es una visualización de datos en donde se tienen valores


que se representan por color. (International Business Machines
Corporation, 2021)

TOMA DE DECISIONES BASADA EN DATOS

La toma de elecciones fundamentada en el análisis de datos es el proceso


centrado en la recolección, análisis y validación de los datos para elaborar
estrategias y acciones que brinden ayuda a las empresas para logras sus
objetivos comerciales. Esta validación incrementa las posibilidades de que estas
decisiones estén originadas en fuentes confiables.

Dentro de las principales utilidades que ofrece dicha práctica, podemos nombrar
a las siguientes:

 MEJORA EL ANÁLISIS DE LAS ALTERNATIVAS

El análisis de datos, cuando se realiza de manera adecuada y se utilizan datos


de calidad, en combinación con objetivos empresariales claros, ofrece la
oportunidad de examinar y evaluar diversas alternativas. Esto amplía el espectro

16
de posibilidades y contribuye a un mayor entendimiento de cada una de ellas.
Este mayor conocimiento aumenta la probabilidad de seleccionar la alternativa
óptima y alcanzar un resultado exitoso. Sin embargo, es importante tener en
cuenta que el análisis de datos no garantiza el éxito, sino que simplemente
mejora las opciones disponibles. Según Robles, "los modelos de predicción son
más efectivos cuando cuentan con las variables adecuadas y se dispone de una
cantidad significativa de datos de calidad".

 REDUCE COSTOS

Cuando se implementa el estudio de datos en la elección de decisiones ayuda a


poder identificar posibles estrategias que logren reducir los costos en las áreas
diversas del negocio. De acuerdo a Bi-Survey, las entidades que emplean el
análisis de Big Data reducen sus costos en un 10%. Pero, ¿Por qué es esto
posible? Esta práctica posibilita identificar estrategias ineficaces a las que se les
asigna una gran parte del presupuesto, al tiempo que proporciona la información
y el conocimiento acerca de las razones por las cuales los artículos son
devueltos. Además, permite realizar predicciones sobre la probabilidad de que
un cliente devuelva un artículo adquirido, lo cual brinda la oportunidad de
implementar medidas estratégicas para reducir dicha probabilidad a través de
intervenciones. Todo esto conduce a la posibilidad de disminuir los costos
asociados.

 REDUCE RIESGOS

Con la toma de decisiones aleatorias se puede llevar a importantes pérdidas


económicas para la organización. En oposición, tomar decisiones
fundamentadas en datos sólidos permite realizar un análisis de costo-beneficio
y evaluar diferentes escenarios, lo que reduce las posibilidades de cometer
errores al considerar las posibles consecuencias. Esto resulta especialmente útil
al realizar inversiones significativas o asumir proyectos de mayor riesgo.

17
 GENERA INGRESOS

Cuanto más eficientemente se utilicen los datos en la toma de decisiones, más


ágil y astuta se volverá la empresa, lo que generará mayores ganancias al
redefinir la estrategia de precios actual y descubrir oportunidades para realizar
ventas cruzadas. Según Bi-Survey, las organizaciones que emplean el análisis
de datos en la toma de decisiones informan un aumento del 8% en sus ingresos.
Además, las empresas con una visión de futuro utilizarán estos beneficios para
financiar proyectos innovadores y entrar en nuevos mercados, lo que aumentará
aún más sus ganancias y promoverá su crecimiento en la industria.

 ÁGIL Y RÁPIDA ADAPTABILIDAD

Al utilizar el análisis de datos, se puede anticipar las tendencias que son futuras
del mercado y responder de manera ágil a ellas, lo que brinda a la empresa la
oportunidad de obtener una ventaja competitiva más sólida en su mercado
objetivo. Sin embargo, para lograr esto, es fundamental que la compañía tenga
una capacidad organizativa de ser ágil. Aunque el análisis de datos proporciona
conocimientos valiosos, si la organización no es capaz de responder de manera
efectiva a estos conocimientos, no se producirá una adaptación exitosa. Es
esencial que la empresa cuente con la capacidad de aprovechar el análisis de
datos para impulsar cambios significativos y lograr una ventaja competitiva
sostenible. (Robles Flores & Mendiola, 2020)

18
CAPÍTULO IV: PREPARACIÓN DE DATOS E IMPORTANCIA DEL
CICLO DE VIDA DEL DATO

PREPARACIÓN DE DATOS

Contamos con 5 etapas las cuales son:

IMPORTACIÓN DE DATOS

La primera etapa consiste en obtener los datos fundamentales necesarios para


el trabajo. Estos datos pueden provenir de diversas fuentes y tener diferentes
formatos. Por lo tanto, es crucial seleccionar una herramienta que cuente con
múltiples conectores para evitar obstáculos. Aunque los archivos planos son
comunes, no se deben descuidar los formatos más inusuales. Al importar los
datos, es importante estar preparado para cualquier eventualidad y tener la
permisividad necesaria para manejar diferentes tipos de datos.

DESCUBRIMIENTO

La etapa de descubrimiento, que es la segunda fase, resulta bastante


emocionante. Consiste en explorar y descubrir los datos en lugar de analizar las
correlaciones directamente. Durante esta etapa, el objetivo principal es identificar
posibles errores o inconsistencias que puedan haberse introducido en los datos.
Es fundamental detectar campos vacíos y verificar los formatos de los datos para
garantizar su integridad y calidad. Realizar una visualización rápida resulta útil
para este propósito, ya que le permitirá identificar de inmediato si el formato de
los datos es el correcto. Si los datos se encuentran almacenados en formato de
texto, intentar crear un gráfico puede ser una forma efectiva de verificar su
estructura y coherencia. La visualización proporciona una representación gráfica
que facilita la identificación de posibles problemas en el formato de los datos.
Cuando utilizo Anatella, valoro la capacidad de acceder a las estadísticas

19
descriptivas de los datos con solo un clic. Esto me brinda la oportunidad de
identificar rápidamente categorías incorrectas, valores atípicos y, sobre todo,
valores nulos. Esta funcionalidad me permite tener una visión clara y precisa de
la calidad de los datos, lo que es crucial para garantizar su fiabilidad y validez en
el análisis. Durante la etapa de descubrimiento de datos, es recomendable
aprovecharla para realizar pruebas sencillas con el fin de detectar problemas
menos evidentes que puedan requerir corrección en la siguiente etapa. Una
estrategia útil es utilizar funciones de clasificación para identificar posibles
duplicados en los datos. Esto ayuda a garantizar la integridad de los datos y
permite abordar cualquier duplicación antes de avanzar en el análisis. Realizar
estas pruebas tempranas proporciona una base sólida para asegurar la calidad
de los datos y evitar problemas posteriores en el proceso de análisis.

LIMPIEZA Y DE DATOS

La tercera etapa de preparación de datos, también conocida como "data prep"


en un contexto más profesional, es necesario organizar y limpiar los datos.
Durante esta etapa, es recomendable reorganizar y renombrar las columnas
según sea necesario, así como eliminar aquellas columnas redundantes que no
aporten valor al análisis. Este proceso de organización y limpieza contribuye a
mejorar la estructura y calidad de los datos, lo que facilita su posterior análisis y
visualización. Al realizar estos pasos, se logra una mayor coherencia y claridad
en la estructura de los datos, lo que resulta fundamental para obtener
conclusiones precisas y significativas en el análisis de datos. Al seguir este
enfoque, se establecen las bases de un modelo de datos y se crea el punto de
partida para desarrollar un diagrama UML más detallado. Después de la etapa
de descubrimiento, donde se han corregido los problemas de formato más
obvios, es el momento de profundizar en los detalles. En este punto, es el
momento de abordar los problemas menos obvios que puedan existir. Estos
pueden incluir desafíos como la detección y manejo de duplicados
(deduplicación), y la dispersión de datos. En el proceso de limpieza de datos, es
posible que también se requiera realizar transformaciones en los datos. Si su

20
conjunto de datos presenta valores atípicos, las operaciones de transición se
vuelven útiles para aprovechar la información valiosa que contienen.

MEJORA DE DATOS

La perfección de datos conocida cada vez más como "data wrangling" o "data
munging" implica enriquecer su conjunto de datos con información adicional
proveniente de fuentes externas. Para lograr esto, se requiere realizar una
combinación de datos. Existen diversas variantes de combinaciones disponibles.
Lo que encuentro atractivo en una solución como Anatella es la capacidad de
elegir entre una variedad de modelos de combinaciones según mis necesidades.
Entre los diferentes tipos de combinaciones disponibles, destaca uno en
particular por su singularidad: la combinación de fuzzy matching. Es posible
realizar uniones simples después de haber depurado todos los datos
directamente en la solución de visualización de datos, lo que brinda una mayor
comodidad y eficiencia en el proceso. Esta metodología presenta tanto
beneficios como inconvenientes. Personalmente, tengo la preferencia de
consolidar la preparación de mis datos en una única herramienta de software y,
así una vez completado este proceso, iniciar directamente el análisis de los
mismos.

PUBLICACIÓN

Una vez finalizados los pasos de organización, limpieza y enriquecimiento de los


datos, La única tarea restante es publicar el conjunto de datos finalizado. En la
mayoría de los casos, los datos se cargan en la nube o se exportan a otros
sistemas o plataformas. Según cómo tenga previsto utilizar los datos después de
su preparación, puede resultar beneficioso elegir la opción de exportarlos en un
formato cuyos datos sean óptimos. Esto por su parte nos brinda una garantía de
mayor eficacia y compatibilidad con las utilidades y herramientas que optaremos
para el análisis siguiente. (Schwab, 2021).

21
CICLO DE VIDA DEL DATO

 IMPORTANCIA LA CIENCIA DE DATOS

La ciencia de datos tiene un rol muy importante en operaciones y estrategias


comerciales. En este punto podemos decir que aporta con los datos de los
usuarios a empresas que estén interesados par a poder hacer un Marketing y
así fidelizar al comprador. Según (Craig, 2021) nos dice que: Ayuda a gestionar
los riesgos financieros, identificar transacciones falsas y prevenir fallas en el
equipo en la producción de fábricas y otros entornos industriales. Esto ayuda a
prevenir ataques de red y otras amenazas de seguridad para los sistemas de TI.
Desde una perspectiva operativa, los programas de ciencia de datos pueden
optimizar la gestión de las cadenas de suministro, el almacenamiento de
productos, las redes de distribución y el servicio al cliente. En un nivel básico,
señalan el camino hacia una mayor eficiencia y menores costos. La ciencia de
datos también permite a las empresas desarrollar planes y estrategias
comerciales basados en el análisis de datos del comportamiento del cliente, las
tendencias del mercado y la competencia. Sin ella, las empresas corren el riesgo
de perder oportunidades y tomar malas decisiones. La ciencia de datos también
es muy importante fuera del negocio normal. En el cuidado de la salud, se utiliza
para el diagnóstico de enfermedades, el análisis de imágenes, la planificación
del tratamiento y la investigación médica. Las instituciones académicas utilizan
la ciencia de datos para realizar un seguimiento del rendimiento de los
estudiantes y mejorar el marketing para los posibles estudiantes. Los equipos
deportivos utilizan la ciencia de datos para analizar el rendimiento de los
jugadores y desarrollar estrategias de juego. Las instituciones públicas y
organizaciones con políticas públicas pertenecen y por lo tanto son grandes
usurarios.

22
LA GESTIÓN DEL CICLO DE VIDA DE LOS DATOS

Según (Colaborador de DocuSign, 2022)informa que: “ciclo de vida de la


información”; se refiere al período completo en que los datos existen en nuestro
sistema. Esto toma todos los niveles por las que pasan, desde la primera captura
en adelante.

En el tema de evolución digital de las entidades empresariales, funciona como el


método de etapas que tienen que pasar la unidad particular de dato desde su
creación o captura, hasta su archivado y eliminación tras terminar su vida útil.

 ¿QUÉ ES EL CICLO DE VIDA DE LOS DATOS?

Según (Marytere, 2022) dice que: La vida del dato útil tiene ciclos, ya que es
consecuente de varios niveles que los datos pasan por toda su vida.

Estos datos se dividen en fases de acuerdo a la funcionalidad de múltiples


criterios, pasan las etapas y van completando dientes requisitos.

Esta etapa de vida del dato va desde el periodo temporal que los datos sean
útiles para las empresas, esta es desde su nacimiento hasta el fin de su vida que
es a la eliminación, también podemos reutilizarlos cuando este sea necesario.

Hablamos de ciclos porque los conocimientos de un proyecto de datos a menu


do sirven como base para el siguiente. Por lo tanto, la última fase del proceso e
s la primera fase de retroalimentación.

EL CICLO DE VIDA Y SU IMPORTANCIA

Según (Marytere, 2022) dice lo siguiente: El ciclo de vida de los datos describe
las etapas de producción, consumo y reutilización de datos.

23
Esta perspectiva de datos ayuda a las organizaciones a protegerse contra la
pérdida de datos, la eliminación, los ataques cibernéticos y más. Además, las
empresas pueden decidir cómo se procesan, utilizan, almacenan y comparten
sus datos.

Esto minimiza el riesgo de fuga de datos y evita el uso indebido de información


confidencial. Además, ayuda a mantener la calidad de los datos a lo largo de su
ciclo de vida, mejorando los procesos y aumentando la eficiencia.

CICLO VITAL DE LOS DATOS

 ANÁLISIS

Durante la fase de análisis, se definen los objetivos y se desarrollan las


especificaciones de los requisitos en función de las necesidades de la
organización.

 DISEÑO Y MODELAMIENTO DE DATOS

Como resultado del proceso de análisis, se van definiendo (en términos de


materialización) cada vez más los elementos que componen el sistema de
información a implementar. En esta fase, definimos los objetos (entidades) que
necesitamos usar.

 IMPLEMENTACIÓN

Las metas a alcanzar y las metas definidas en las fases anteriores determinarán
la elección de la base de datos y la metodología a implementar para la
recolección de datos y generación de información. Esta fase debe ejecutarse en
varios supuestos para determinar:

 implementación on-premiso en cloud.

 uso de los servicios cloud (GCP, AWS u otros).

24
 modelo de bases de datos: relacionales, no-relacionales.

 niveles de privacidades.

 interoperabilidadades.

 OPERACIÓN Y CAPTURA DE DATOS

Operación o uso de bases de datos: esto incluye el acceso constante a las bases
de datos por parte de los usuarios finales, mantener las bases de datos
actualizadas por parte de los desarrolladores del sistema y escribir programas
para adaptarse a los nuevos requisitos de los usuarios. Ambas fases requieren
el uso de un DBMS, especialmente para la tarea de definir y manipular bases de
datos.

Figura 2
Imagen referencial al cycle life of date

NOTA: En esta imagen podemos notar los 4 niveles del ciclo de vida del dato
Tomada de (Araneda, 2022)

25
CAPÍTULO V: GESTIÓN DE DATOS MAESTROS

Los datos maestros se entienden como datos sobre empresas y objetos


intercambiables (demandantes, ofertantes, trabajadores, insumos, centros en
gastos, etc.) alrededor de los cuales se desarrollan o efectúan estos negocios.

La Gestión de Datos Maestros (Master Data Management o MDM) se trata de un


cumulo de conocimientos, procedimientos y herramientas empleados en la
gestión de los datos fundamentales de una entidad. (Luis, 2021).

Utilizado para dar contexto a todos los datos transaccionales, normalmente las
organizaciones la tienen dispersas en hojas de cálculo.

“Una práctica respaldada por la tecnología en la que los aspectos comerciales


y de la TI colaboran para asegurar la consistencia., exactitud, gestión, coherencia
semántica y la función que tiene con los recursos de datos maestros distribuidos
oficiales de la organización.” (Gartner Glossary, 2021).

PRINCIPIOS DE MASTER DATA MANAGEMENT O MDM

MDM tiene como propósito crear la única fuente de información confiable


presente en todas las réplicas de los datos maestros, con el fin de asegurar la
alineación de los valores de datos. Al hacerlo MDM nos muestra una estructura
a la entidad completa para así poder homogeneizar, asociar y poner una fuente
oficial y confiable de datos,fuentes que no sean parejos de Información que
posee atributos similares o replicados con el propósito de respaldar la repetición
de operaciones y la elección de decisiones comerciales, de acuerdo con la firma
de servicios profesionales Earley Information Science o facil.

26
Ya consolidado, Master Data Management respalda la consistencia y la
perfección de los recursos de datos en una empresa, incluyendo los datos de
creacion al proporcionar los datos a los usuarios finales como también a otras
aplicaciones, incluyendo tanto los datos de los usuarios y los datos activos dentro
de la empresa, manteniendo la coherencia y la superioridad de los datos activos
dentro de la empresa. Estas entidades buscan Master Data Management debido
a una extensa multitud de razones; dentro de los más populares se encuentran
la creación de eficiencias internas y a su vez operativas (69%), implementar
mejoras en los hallado respecto a los procesos de negocios (59%) y tener una
mejora en la velocidad sobre los procesos en negocios (54%), como lo indica el
Cuadrante Mágico de MDM (Gartner Glossary, 2021).

DATOS MAESTROS FRENTE A DATOS DE REFERENCIA

Los datos dependientes o llamados de referencia pueden considerarse una


subclase de lo que llamamos datos maestros. Por lo tanto, los datos maestros y
los datos de referencia nos brindan el contexto para el procesamiento comercial,
pero los datos maestros se enfocan en una unidad comercial específica y los
datos de referencia se utilizan para categorizar y categorizar la información. Los
datos de referencia tienden a cambiar con poca frecuencia. Algunos ejemplos
incluyen códigos postales, códigos de transacción, estructuras financieras
jerárquicas, códigos de estado o país, segmentos de clientes y más.

Las entidades de datos comerciales de TIBCO: "Cuando se trata de datos


maestros, estos son elementos comerciales básicos, como datos de clientes y
datos relacionados con negocios y transacciones, y los datos de referencia
forman un conjunto autorizado de datos que se utiliza en función de los datos
maestros. datos para clasificación de datos".

ESTRATEGIA MDM

La presidencia de Hub Solution Designs, una compañía (firma) de consultoría


tecnológica y dirección global es especializada en MDM y gestionamiento de

27
datos, nos indica que tenemos un total de 5 componentes completamente
fundamentales para un programa de MDM.

 CULTURA

La gestión de datos maestros (MDM) trasciende múltiples áreas dentro de una


organización, lo cual puede llevar inevitablemente a desafíos de naturaleza
política. Según Power, para lograr una iniciativa de gestión de datos maestros
(MDM) exitosa, es necesario contar con un adalid perspicaz que pueda:

 Encaminar el proyecto.

 Sostiene en la alta guía comprometida y a su vez solidaria.

 Permite que la organización asuma la responsabilidad de la proposición,


pero permitiendo la participación del departamento de TI como respaldo y
facilitador.

 Aborda los problemas que puedan surgir como culturales y políticos.

 Encuentre un equilibrio entre financiación, las necesidades para si poder


obtener ganancias inmediatas, al mismo tiempo que garantiza la
integridad arquitectónica al pasar el tiempo.

 PROCESO

Es necesario que alguien reestructure continuamente los procesos comerciales


de la organización con el tiempo, con el fin de reconocer el retorno de la inversión
(ROI) de un centro de gestión de datos maestros (MDM). Power sugiere que se
empiece por procesos simultáneos en ámbito comercial que son manejables.

Las relaciones con los clientes (CRM) son buenas opciones para comenzar, por
ejemplo, Debido a que es un foco para gestión de datos maestros (MDM) puesto
que almacena los datos de clientes que están inherentemente relacionado con
el sistema de gestión de relaciones con los clientes (CRM).

 TECNOLOGÍA

28
La gestión de datos maestros (MDM), práctica que es respaldada por la
tecnología. Los elementos fundamentales en el ámbito tecnológico incluyen un
hub de MDM, para poder adjuntar todos los datos del sistema de origen, la
integración de datos es para obtener datos del sistema de origen en MDM hub
que es una herramienta para poder obtener datos de calidad. Todos estos
métodos tecnológicos proporcionan una línea de base que nos indica Power.

Power es una clase que gestiona los datos de referencia, política de metadatos,
las normas en negocio, políticas, entre otros, entre otras más posibilidades.

 INFORMACIÓN

Con el fin de recopilar todos los datos de los sistemas de origen, se utiliza la
integración de datos para transferir los datos al hub de MDM. Además, se emplea
una herramienta de calidad de datos, se sugiere tomarse un tiempo para evaluar
minuciosamente los informes y análisis que se desean verificar sobre los
prospectos y clientes. Es necesario considerar todas las particularidades
necesarias para respaldar dichos análisis de manera adecuada. Para cumplir
con esto, puede ser necesario incorporar datos externos que proporcionen las
particularidades necesarias como códigos de industria, ingresos, edad,
jerarquías corporativas, riesgo financiero, entre otros.

 GOBERNANZA DE DATOS

Una aplicación de gobernanza respecto a los datos es fundamental para sentar


las bases de un programa de gestión de datos maestros (MDM) exitoso. Contar
con una adecuada gobernanza de datos puede acelerar la gestión de datos
maestros (MDM) al abordar de manera efectiva los problemas que puedan surgir
y también una apropiación de datos y las normas y así la aprobación y el
aprovechamiento de estos mismos.

INSTRUMENTOS PARA LA GESTIÓN DE DATOS MAESTROS

29
Existen numerosos arreglos disponibles para respaldar las aplicaciones de
gestión de datos maestros (MDM). A continuación, se mencionan algunos de los
más reconocidos y utilizados:

 ATACCAMA ONE

En este entorno de gestión de datos es compatible tanto con la administración


de datos maestros como con la gestión de datos de referencia. Está
especialmente diseñada para atender fundamentalmente a organizaciones de
servicios financieros tanto pequeñas como grandes, Con un enfoque peculiar en
campo de la gobernanza de datos, la calidad de los datos, la gestión de
metadatos y la gestión de datos maestros (MDM).

 IBM INFOSPHERE MASTER DATA MANAGEMENT

InfoSphere MDM está aprovechable tanto en las instalaciones locales como en


ofertas de nube completamente gestionada. Esta solución se centra en varios
aspectos sobre el uso en datos claves (maestros) de dominio. IBM en camino
cuenta con su estrategia de gestión de datos maestros (MDM) con la gestión de
datos aumentada, aprovechando la potencia de Watson y los múltiples
conocimientos engendrados en muchas relaciones.

 MDM MULTIDOMINIO DE INFORMATICA

La solución proporcionada por el principal proveedor de gestión de datos


maestros (MDM), Informatica, se enfoca en una variedad de casos de uso de
datos claves (maestros) en diversos dominios, las tecnologías basadas en la
nube y MDM son impulsados por inteligencia artificial (IA).

 PLATAFORMA PROFISEE

Profisee, especializada en la gestión de datos maestros (MDM) multidominio y


ofrece una aceptación completa con Microsoft Azur, aunque puede ser

30
implementado en entornos locales (on-premises), en la nube o a través de un
modelo híbrido. Cuenta con un motor de modelado que permite a los usuarios
representar los datos maestros tal y como existen en la realidad.

 RIVERSAND PLATFORM

Esta solución, diseñada específicamente para la nube, se presenta con una


estrategia que prioriza la colaboración con socios. Cuenta con una amplia base
de clientes en los sectores de comercio minorista, de bienes para el consumo,
envasados y relacionados con la alimentación, como también ha experimentado
un crecimiento significativo en los sectores de transporte y servicios.

 GOBIERNO DE DATOS MAESTROS DE SAP

La solución que SAP implementa tanto en entornos locales (on-premises) como


en la nube y además Es compatible con todos los dominios de datos maestros y
ofrece flexibilidad en cuanto a los estilos de implementación. Tenemos una hoja
de ruta que además se centra más que todo en la generación significativa de la
implementacion sobre datos maestros.

 SEMARCHY XDM

Semarchy emplea técnicas de aprendizaje que son automáticos para la gestión,


emparejamiento avanzado, la supervivencia y la clasificación de datos.

Ofrece un interfaz de usuario intuitiva y de fácil manejo, sus operaciones tienen


su enfoque principal en Europa, Medio Oriente y África (EMEA).

 TIBCO EBX

Nos brinda un flujo de trabajo, sobre todo la calidad en los datos y los aplicativos
específicos de la idea, está principalmente diseñado para ser un autoservicio, en
enero de 2021, Tibco adquirió la compañía proveedora de soluciones de análisis
y gestión de datos, Information Builders. (Luis, 2021)

31
¿CÓMO AFECTA AL SECTOR PÚBLICO?

(Juan, 2022) comenta que: Si concluimos sobre datos asociados a lo público


respecto a organismos, esencialmente lo que está puesto en cargos de
ciudadanos y otras administraciones mediante los portales de los datos,
podemos apreciar que es más necesario una estandarización, o sea, el
implemento sobre una visión única y confiable de los datos referidos a
ciudadanos, programas, proveedores, empleados, entre otros

IMPORTANCIA DE GESTIONAR LOS DATOS MAESTROS

Con el progreso de la era digital, los datos conservan el lugar básico de la


sociedad, y su existencia es exponencial con el tiempo. Hace unos años, el
gobierno comenzó a recopilar datos utilizados en un sistema específico basado
en cada necesidad. A medida que pasa el tiempo, ahora es obviamente similar
a los datos de varios procedimientos de origen, y a veces esta información es
similar. Además, aunque no se produce necesariamente al comparar diferentes
administraciones, ocurre por varias razones, como la migración de datos entre
sistemas que se ejecutan sin control y diversos antecedentes de datos.

 Entre las ventajas que ofrece para administrar los datos principales son:
reducción de costos debido a datos efectivos.

 Además de procesos optimizados, más rápidos y más productivos que


traen mejoras financieras.

En resumen, la confianza en los datos nos dice, y los resultados directos de esto
son la pérdida de nuestra información.

32
APLICACIÓN DE UNA HERRAMIENTA DE GESTIÓN DE DATOS
MAESTROS

Para poder compartir los datos, necesariamente tenemos que tener una visión
única y por lo tanto de confianza de nuestros datos, principalmente de datos
críticos o con mayor prioridad, que nos garantizará la integridad y consistencia
de estos datos, y también su calidad y exactitud, la cual nos dará un punto único
de la veracidad.

Este paso, normalmente se puede concretar por medio de las siguientes etapas:

Figura 3

Imagen referencial sobre etapas de gestión de datos maestros

Nota: En esta imagen podemos ver Las etapas de la gestión de datos maestros.
Tomada de (Juan, 2022).

 LA GESTIÓN DEL MODELO DEL DATO

33
A través de documentación que nos brindara la ubicación de los orígenes
variados para un solo dominio de información.

 OBTENCIÓN DEL DATO

Desde las diferentes fuentes para la unificación de todos los posibles valores.

 VALIDACIÓN, ESTANDARIZACIÓN Y ENRIQUECIMIENTO

Esto para datos que ya son válidos para su uso.

 RESOLUCIÓN DE ENTIDADES

Se trata de una tomar una de decisión, generando el proceso de coincidencia y


fusión de registros que permite la construcción del maestro.

 CUSTODIA (DEL MAESTRO Y MANTENIMIENTO)

Para poder difundir con otros usuarios o empresas como compartición con
terceros.

“las administraciones públicas pueden poner a disposición de terceros


información garantizando su calidad, así como aprovecharse de la de otros
organismos públicos, reduciendo esfuerzos y teniendo acceso ágil al
conocimiento” (Juan, 2022).

34
CAPÍTULO VI: CALIDAD DE DATOS

En estos últimos años gracias al COVID 19 incremento el número de usuarios


en las múltiples plataformas virtuales, y esto género que consuman mucha
publicidad y cada usuario tiene un algoritmo de compra que esto luego se
convierte en dato para una empresa, ahora aquí entra la parte de calidad de
datos o (Data Quality) que esto ayuda a mantener la precisión y la integridad de
todos los tipos de datos en una organización y garantiza que pueda cumplir su
propósito en un contexto específico.

CALIDAD DE LOS DATOS

Según (Araneda, 2022) dice que: La calidad de los datos es la calidad del
conjunto de información recopilada en una base de datos (un sistema de
información que combina los siguientes atributos):

 Exactitud

 Complejidad

 Integridad

 Actualización

 Coherencia

 Relevancia

 Accesibilidad

 Confiabilidad

Decir que los datos que recolectamos son de calidad es un error muy grave para
el análisis de datos orientada a negocios. Por lo tanto, primero debemos hacer
un datawarehouse o una datamart con los datos que logramos obtener, pero
estos datos deben estar limpios y tratados.

35
La veracidad de estos datos será comprobada de manera automatizado o si no
contamos con máquinas de manera manual, eso sí siguiendo los diferentes
niveles de detalles y variando el tiempo, haciendo una comprobación de que los
datos coincidan con los de la fuente principal, la calidad de estos datos es de
vital importancia para el reporte, que generara la confianza de la empresa o
usuario para la correcta operatividad y transacción.

Los tipos de datos de mayor error pueden causar los siguientes datos:

 DATOS OSCUROS

Datos que se consiguen por medio de actividades comerciales diarias y no se


utiliza con otros fines. Si tenemos estos datos quiere decir que la calidad de datos
de nuestra empresa es baja por lo tanto hace falta la eficacia y eficiencia.

 DATOS SUCIOS

Estos tipos de datos causan un daño real a la empresa ya que obliga a utilizar
un costo económico real, por medio de permisos a usar datos que no son válidos.

 DATOS NO ESTRUCTURADOS

Son datos que su estructura esta tal como fue recogida y esto causa que tenga
dispersión de datos la cual lleva a tener datos erróneos y no estén preparados
para su uso, estos datos son de menos importancia para el sistema SQL la cual
recibe datos más heterogéneos.

ASEGURAMIENTO DE DATOS

Esta parte hace referencia al proceso de verificar la fiabilidad del dato y


efectivada, esta debe hacerse periódicamente como actualizar.

Para asegura el dato antes se debe pasar por los siguientes pasos:

36
 MONITOREO DE LA CALIDAD DEL DATO

Los datos obtenidos se deben hacer un seguimiento para ver el porcentaje de


error definido.

 REPORTE DE CALIDAD DE DATOS

Es el procedimiento por medio de utilización de herramientas que se utilizan para


informar, detallar errores y actualizar las medidas de calidad de datos en curso.

 LIMPIEZA DE DATOS

se encarga de borrar los datos con mayor dispersión de datos o datos con mayor
error.

LIMPIEZA

Esta encargada de eliminar los datos que presenta dispersión muy grave con
respecto a lo necesitado y para ello es necesario aplicar las cinco fases para
limpiar el dato:

 DEPURAR

Este proceso consiste en ubicar e identificar piezas individuales de información


dentro de la fuente de datos y aislarlas dentro de la estructura de destino. Se
encarga de depurar el dato recogido según lo requerido, se aplica generalmente
cuando el dato presente incongruencias entre el método de captura y el dato
definido a capturar.

 CORREGIR

37
Se encarga de corrige Valores de atributos individuales utilizando algoritmos de
corrección y fuentes de datos externas. Ejemplo: Verifique la dirección y el código
postal correspondiente.

 ESTANDARIZAR

Se encarga de hacer rutinas de conversión que servirán para transformar valores


en formato definido y consistente, usando pasos de estandarizar ya definidas por
las normas de la empresa. Por ejemplo: trato de señor., señora., entre otros. o
haciendo que el nombre sea un diminutivo.

 RELACIONAR

Este proceso se relacionan ya los datos que pasaron los anteriores pasos, y trata
de encontrar una conexión que una a dos o más datos para que este sea un dato
de calidad (Araneda, 2022).

 CONSOLIDAR

según (Naeem, 2019) nos dice que: La integración de datos es el proceso de


combinar datos de múltiples fuentes, eliminar errores, limpiar y validar los datos
y almacenarlos en un solo lugar, como un almacén de datos o una base de datos.
Todas las empresas generan datos en múltiples formatos de varias fuentes. Un
proceso de integración de datos facilita la integración de estos datos.

GESTIÓN DE LA CALIDAD DE LOS DATOS

(LOGICALIS, 2014) dice que: El control de calidad de los datos es esencial en el


almacenamiento de datos(warehouse) y el entorno de análisis posterior porque
cualquier falla en la calidad de los datos puede conducir posteriormente a la

38
extracción de información por parte de los sistemas de inteligencia empresarial
y a la toma de decisiones erróneas.

Los que serán acreedores de estos beneficios por la buena gestión de datos, los
usuarios miembros de la organización, pero los que están a cargo se pueden
separar por las siguientes categorías

 Propietarios del dato.

 Desarrolladores del proyecto de gestión de datos.

De los cuales el que tiene un contacto directo con el dato es el propietario del
dato, desde la creación(importación), hasta su eliminación del sistema, Estos
últimos son los encargados de realizar los proyectos de gestión, pero es más
probable que detecten los defectos de calidad que suelen ocurrir durante la etapa
de perfilado.

Abarcar con exactitud la buena gestión de datos, tiene como pasos


concentrarnos en los siguientes procedimientos:

 Exploración de datos.

 Calidad de datos.

Figura 4

Imagen referencial a la gestión de datos de calidad

39
Nota: en esta imagen podemos ver la exploración de datos y calidad de datos
tomada de (LOGICALIS, 2014).

LA GESTIÓN DE LA CALIDAD DE LOS DATOS EN EL TIEMPO

El secreto para una buena gestión de datos en temas de Data WareHouse


abarcaría los sucesos que vivimos en el día a día. Tenemos que tener algo muy
claro que este para poder desarrollarse tendrá que pasar estrictos estándares,
sin embargo, no lo podemos dejar de lado este paso.

Los pasos a seguir son:

1. Descubrimiento: identificar y medir la calidad de los datos.

2. Perfilar: define reglas y objetivos de calidad de datos.

3. Limpiar: Diseñar procesos de mejora de la calidad (estandarizar y mejorar


donde sea necesario).

4. Match: comparación de información y estadísticas.

40
5. Consolidar: La fase de implementación del proceso de mejora de la
calidad.

6. Monitorizar: Supervise la calidad de sus datos comparándolos con


objetivos preestablecidos.

Figura 5

Imagen referente a calidad de datos

Nota: podemos observar en la imagen que la calidad de datos debe pasar por
muchos procesos para ser llamado como tal, tomada de (LOGICALIS, 2014).

Siguiendo esto continuamente de inicio del funcionamiento de la implementación


también se finalizará, para lo cual es importante el monitoreo de la calidad de
datos que recolectamos. La frecuencia de seguimiento dependerá de cada
empresa y sus necesidades. En cualquier caso, la implantación de estos
procesos de calidad debe planificarse dentro de la fase de transformación.
(LOGICALIS, 2014).

41
CAPÍTULO VII: SEGURIDAD DE LOS DATOS

Según (PowerData , 2023): En general, la seguridad de la información se refiere


a las medidas de protección de la privacidad digital que impiden el acceso no
autorizado a la información en computadoras, bases de datos, sitios web, etc. La
seguridad de datos también protege los datos contra posibles pérdidas.

SEGURIDAD DE DATOS

La seguridad de la información (también conocida como seguridad de la


información o seguridad informática) es una parte importante de TI en
organizaciones de todos los tamaños y tipos, y tiene como objetivo proteger los
datos del acceso no autorizado y posibles daños a lo largo de su ciclo de vida.

Para tener seguro nuestros datos debemos incluir conocimientos como


encriptación de los datos, tokenizar y por último la gestión de las claves que
sirven para proteger datos de todas las apk y sitos webs de una empresa.

actualmente, empresas mundiales invierten altas cantidades de dinero en la TI


(TECNOLOGIAS DE INFORMACION) y la ciberdefensa con la misión de
proteger los activos críticos:

 su marca,

 capital intelectual

 la información de sus clientes.

En los temas de ciberseguridad enfocada en datos. Tenemos componentes


comunes en todas las organizaciones que debemos tener en cuenta al aplicar
estas medidas:

 las personas

 los procesos

42
 la tecnología.

CONCEPTOS BÁSICOS

Al hablar de seguridad de datos es necesario tener en cuenta que actualmente


todos nosotros estamos ligados a la tecnología y por lo tanto a la seguridad de
estos. en actualidad hay muchas empresas que están fabricamos nuevas
tecnologías y estas deben tener políticas de seguridad para poder introducirlas
al mercado ya que formaran parte de nuestra vidas, como ejemplo tenemos a :

 Relojes inteligentes (smarwatch).

 Vehículos Teslas (conducción automática).

 Empresas inteligentes.

En este siglo donde se ve el dominio del internet de las cosas y consigo los
hackers, es necesario tener una protección de nuestros datos ya que todos
contamos con cuentas Google donde guardamos información de nuestra
privacidad. Los hackeos de ransomware están incrementando con más
frecuencia y más prejudicial. es un negocio en crecimiento para pillos
cibernéticos y hackers, que acceden a la red y retienen información de datos.

INGENIERÍA DE LA SEGURIDAD DE DATOS Y QUIEN SE


ENCARGA

Seguridad de los datos implica construcción de defensas atravesó de muchos


códigos informáticos, antivirus entre otros, esto aplicados desde el principio ya
que es muy importante. los encargados de esto son los ingenieros de seguridad
y tiene como objetivo proteger las redes de virus y amenazas desde el código
fuente hasta que son confiables y de mucha seguridad para la empresa y el
cliente. Además, estos ingenieros diseñan sistemas que protegen los datos.

La ingeniería de seguridad abarca tantos temas y medidas, desde pruebas de


seguridad y revisiones de código de cualquier desarrollador hasta la creación de

43
arquitecturas, algoritmos de seguridad y modelos de amenazas para mantener
una red privada(bloqueada) y segura.

ENCRIPTACIÓN DE DATOS

Según (Diana, 2021)nos dice que: Los métodos actuales se basan en métodos
utilizados durante cientos de años. El principio es que los datos en el archivo se
reemplazan por caracteres sin sentido e ilegibles para extraños y malware. Las
permutaciones son posibles gracias a algoritmos criptográficos que evocan lo
impensable y se denominan«ciphertext».pero los usuarios que cuenta con
acceso al mensaje e información no presenta problema ya que tiene el mismo
algoritmo que el proceso inverso , decodificando el archivo nuevamente ,la cual
provoca que el formato se regresa a su formato original.

El funcionamiento de estos algoritmos es necesario las llaves o cadenas de


números, esta funciona en grupos o pares el primero envía la información y el
otro la recepción, mientras más grandes sean estos números será más difícil de
robarlas o hackearlas.

Tenemos varios encriptación de datos. Estos son principalmente tres apartados:


según las llaves (claves), según los algoritmos y la encriptación de datos de
sistemas alternativos. Veámoslos:

 Encriptación simétrica.

 Encriptación asimétrica.

 Encriptación mixta.

 Encriptación en flujo.

 Encriptación por bloques.

 Esteganografía.

44
 Spread-Spectrum.

Sabemos que la ingeniería de seguridad protege los datos en la red y servidores,


hardware y bases de datos por medio de la encriptación.

La encriptación se encarga de proteger los archivos reales y datos que se


almacenan y viajan por internet en estos, la encriptación es muy importante para
todas las empresas que tenga un dominio en la nube ya que son la mejor manera
de proteger los discos duros, datos y archivos que se encuentran haciendo su
labor a través de la red o internet.

DETECCIÓN DE INTRUSIÓN Y RESPUESTA A UNA VIOLACIÓN


DE SEGURIDAD

sí tenemos movimientos sospechosos de tráfico de datos o querer entrar de


manera forzada, el reconocimiento de intrusos se hará su trabajo. los sistemas
de detección de intrusos de red o llamada NIDS, supervisara continuamente el
tráfico en la red buscando un comportamiento ilícito y si lo encuentra lo marcara
para su revisión.

Y si esta es sorteada fácilmente, debemos tener un plan de respuesta contra


este hackeo de datos con un sistema solido que garantizara que tengamos los
pasos para sellar la violación de datos.

BLOQUE DE USUARIOS NO AUTORIZADOS A TRAVÉS DE


FIREWALL

Nosotros estamos conectados a la red casi todo el día, por lo tanto, es necesario
tener una seguridad de que nuestros datos y archivos sean recibidos por

45
personas autorizadas por medio de firewall este es un software u hardware que
se encarga de bloquear el ingreso al usuario no autorizado a nuestra red.

Son muy buenos defensores contra el adueñamiento de datos por parte de


hackers a través de malwares que intentan entrar a la red, esto implica la
protección de datos para evitar que sean filtrados estos datos pueden ser
cuentas id u password .

VULNERABILIDADES Y SU ANÁLISIS

Para analizar cómo se generan esta vulnerabilidad es necesario conocer como


los hackers hacen para entrar a nuestra red, de formas activas o pasivas
buscando de huecos y vulnerabilidades en el código de nuestro software.

Los hackers éticos de datos o llamado analistas de seguridad de los datos


conjunto a los profesionales encargados de la evaluación de estos huecos en los
códigos, su trabajo es ubicarlos y cerrarlos o reforzarlos, esto se da mediante el
software de análisis de seguridad quien favorece al encontrar estas
vulnerabilidades sea de una red, ordenador y prioriza cada uno de estos con
planes de seguridad de datos (proteger, detectar y reaccionar).

CIBERSEGURIDAD: HTTPS, SSL Y TLS

Mientras navegamos por el internet nuestros datos también están propensos a


ser secuestrados por un hacker y por esto es que se considera insegura la red,
lo cual puede que te asuste, pero esto sucede de manera exponencial no solo
de nosotros como usuarios si no también en las organizaciones, para proteger
estos datos que están en la red, existen muchos métodos de enviar la
información de manera segura por la red.

La conexión cifrada y las páginas seguras: estos se dan con pasos HTTPS que
pueden proteger y ocultar datos del usuario u empresa, la creación de canales
seguros de comunicación es necesario el profesional encargado de esta.

46
El profesional de seguridad en la red puede crear implementándolo por medio de
protocolos TCP o IP a través de criptografías entretejidas y por medio de
encriptación por SECURE SOCKETS LAYER o llamado SSL o el famoso TLS
(transport layer security).

CONCLUSIONES

1. La ciencia de datos ha logrado convertirse en una disciplina clave en esta era


de la informática, lo cual permite extraer gran cantidad de valioso conocimiento
a partir de inmensas cantidades de datos. Su carácter interdisciplinario y enfoque
fundamentado en la fusión de técnicas estadísticas, matemáticas y de
programación hacen que sea una herramienta poderosa en la toma de
decisiones.

2. Comprender los fundamentos sobre la ciencia de datos es elemental para su


ejecución eficaz. Es indispensable poder definir de manera clara los conceptos
clave, comprender el paso histórico de su evolución y saber reconocer la
entender su evolución histórica y reconocer la interacción entre la variedad de
disciplinas por las que está compuesta.

3. El rol que tiene un científico de datos es de suma importancia en el proceso


de análisis de datos. Las habilidades que tiene y sus conocimientos sobre
estadística, así como la programación y el autoaprendizaje, también su
capacidad en la comprensión de textos empresariales o científicos, son
fundamentales para la obtención de resultados fiables y significativos.

4. La ciencia de datos se aplica en diversos sectores, abarcando desde


empresas hasta medicina, investigación científica y gobierno, entre otros. La
capacidad de la ciencia de datos para extraer información valiosa y crear
modelos predictivos o descriptivos que tiene el potencial de impulsar la toma de
decisiones que son estratégicas así mismo mejorar la eficiencia de los procesos
y fomentar ideas innovadoras.

5. Sin embargo, cuando hacemos uso de la ciencia de datos planteamos


desafíos éticos y sobre privacidad, debido a que esto incluye el manejo de

47
enormes cantidades de datos. Es de suma importancia asumir estos retos de
manera sensata, garantizando la confidencialidad y la protección de la
información, así como respetando los principios éticos en el análisis de datos.

En resumen, la ciencia de datos es un área que está en constante desarrollo y


brinda grandes oportunidades para realizar un análisis de datos y el nacimiento
de conocimiento. Comprender los fundamentos de esta disciplina, aplica
metodologías apropiadas y asumir estos desafíos éticos son elementos
elementales para poder así aprovechar lo máximo posible, el potencial en
diferentes contextos.

RECOMENDACIONES

1. Inculcar el desarrollo de las habilidades técnicas: En vista de la ascendente


demanda de profesionales en el área de la ciencia de datos, es sumamente
recomendable que los estudiantes soliciten oportunidades para obtener y
reforzar las habilidades técnicas importantes, como la programación, estadística
y el autoaprendizaje. Dentro de esto podemos incluir los concursos en los que
uno puede participar asi mismo la participación en programas que brinden
certificación y algunos proyectos o competencias sobre ciencia de datos

2. Es importante fomentar la educación interdisciplinaria: Ya que la ciencia de


datos engloba múltiples disciplinas, es recomendable incentivar a la colaboración
y facilitar el intercambio de conocimientos entre estudiantes y profesionales de
diversas disciplinas, como matemáticas, estadística, informática y ciencias
sociales. Esto se puede lograr mediante programas educativos, grupos de
estudio e incluso seminarios

3. Dar énfasis a la ética y a la privacidad de datos: Debido al acceso a grandes


cantidades de datos personales, es de suma importancia que profesionales de
la ciencia de datos se apeguen a principios éticos macizos y tomar las medidas
necesarias para brindar protección hacia la privacidad de las personas. Es

48
importante tener en consideración las regulaciones y directrices éticas vigentes
al trabajar con datos sensibles, y aplicar técnicas de anonimizarían y seguridad
de datos para poder así garantizar la privacidad y protección adecuada de la
información.

4. Continuar el aprendizaje y la actualización: La ciencia de datos es un campo


en constante evolución, con nuevas metodologías, técnicas y herramientas que
surgen regularmente. Es esencial que los estudiantes y profesionales se
mantengan actualizados mediante la participación en conferencias, talleres,
cursos en línea y la lectura de publicaciones relevantes. Además, buscar
oportunidades para aplicar los conocimientos adquiridos en proyectos reales
puede ayudar a fortalecer las habilidades y la comprensión de la ciencia de
datos.

5. Promover la comunicación efectiva de los resultados: La ciencia de datos es


un procedimiento complejo, y por lo tanto interactuar los resultados y lo que esto
implica de una manera clara y entendible es de suma importancia para lograr
tener un impacto significativo. Es recomendable establecer habilidades de
observación de datos y narración eficaz, que nos permitan comunicar los
descubrimientos y todas las recomendaciones de tal manera pueda ser accesible
tanto a profesionales como a personas que no tengan experiencia técnica.

Estas sugerencias tienen como finalidad promover un punto de vista integro en


dirección a la ciencia de datos, esto incluye el desarrollo de técnicas, la ética en
la manipulación de datos, la actualización frecuente y la comunicación eficaz. Si
seguimos todas estas recomendaciones se puede brindar hallazgos exitosos en
el campo de la ciencia de datos y así añadir el avance de lo que conlleva esta
disciplina

49
FUENTES DE INFORMACION

¿Qué es la ciencia de datos? (17 de Abril de 2023). ¿Qué es la ciencia de datos? Amazon Web
Services, Inc.: https://aws.amazon.com/es/what-is/data-science/

Aguilar, F., Ramiro, D., & Aguado, B. (5 de Julio de 2022). Ciencia de datos. PTI Ciencia Digital
CSIC: https://pti-cienciadigital.csic.es/ciencia-de-datos/

Amazon. (2023). aws: https://aws.amazon.com/es/what-is/data-


science/#:~:text=La%20ciencia%20de%20datos%20es,analizar%20grandes%20cantida
des%20de%20datos.

Araneda, P. (2022). Base de Datos. creative commons.


https://doi.org/https://bookdown.org/paranedagarcia/database/

Colaborador de DocuSign. (11 de Enero de 2022). Fases del ciclo de vida de los datos: ¿por qué
es tan importante conocerlas? DocuSign: https://www.docusign.mx/blog/ciclo-de-
vida-de-datos

Craig, S. (2021). Ciencia de datos. ComputerWeekly.es:


https://www.techtarget.com/es/contribuidor/Craig-Stedman

Denman, C. A. (s.f.). Antologia de metodos de base de datos.


https://biblioteca.colson.edu.mx/e-docs/RED/Por_los_rincones-
DENMAN_HARO.pdf#page=249

Diana, W. (2021). Todo sobre la encriptación de datos (+ software especializado). HubSpot:


https://blog.hubspot.es/marketing/encriptacion-de-datos

Gartner Glossary. (2021). Master Data Management (MDM). Gartner:


https://www.gartner.com/en/information-technology/glossary/master-data-
management-mdm

International Business Machines Corporation. (3 de Agosto de 2021). ¿Qué es el análisis de


Datos Exploratorio? IBM: https://www.ibm.com/es-es/topics/exploratory-data-
analysis

International Business Machines Corporation. (17 de Marzo de 2023). ¿Qué es la ciencia de


datos? IBM: https://www.ibm.com/es-es/topics/data-science

Jhawar, R., & Tejada, Z. (13 de Abril de 2018). Extracción, Transformación y Carga de Datos
(ETL) - azure architecture center. Azure Architecture Center | Microsoft Learn:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

Juan, M. (2022). La importancia de la gestión de los datos maestros. datos.gob.es:


https://datos.gob.es/es/blog/la-importancia-de-la-gestion-de-los-datos-maestros

LOGICALIS. (2014). Gestión de la calidad de los datos. LOGICALIS:


https://blog.es.logicalis.com/analytics/gestin-de-la-calidad-de-los-datos

50
Luis, B. P. (2021). ¿Qué es la Gestión de Datos Maestros? Asegure una única “fuente de
verdad”. CIO Mexico: https://cio.com.mx/que-es-la-gestion-de-datos-maestros-
asegure-una-unica-fuente-de-verdad/

Marytere, N. (2022). Ciclo de vida de los datos: Qué es y qué etapas tiene. QuestionPro:
https://www.questionpro.com/blog/es/ciclo-de-vida-de-los-datos/

Mediano, C. M. (2014). TÉCNICAS E INSTRUMENTOS DE RECOGIDA Y ANÁLISIS DE DATOS.


https://books.google.es/books?hl=es&lr=&id=iiTHAwAAQBAJ&oi=fnd&pg=PA7&dq=te
cnicas+de+analisis+de+datos&ots=GXLVfQrsRZ&sig=EM3E5XmSLsRRYxnDLLijacqKjH4#
v=onepage&q&f=false

Naeem, T. (2019). Consolidación de datos: descripción general y técnicas. ASTERA :


https://www.astera.com/es/type/blog/data-consolidation/

PowerData . (2023). Seguridad de datos: En qué consiste y qué es importante en tu empresa.


PowerData : https://www.powerdata.es/seguridad-de-datos

Riquelme, J. C. (2006). Minería de Datos: Conceptos y Tendencias.


https://idus.us.es/bitstream/handle/11441/43290/Miner%c3%ada%20de%20datos.pd
f?sequence=1&isAllowed=y

Robles Flores, J. A., & Mendiola, L. (04 de Febrero de 2020). Importancia del Análisis de Datos
en la Toma de Decisiones. Conexión ESAN: https://www.esan.edu.pe/conexion-
esan/importancia-del-analisis-de-datos-en-la-toma-de-decisiones

Schwab, P.-N. (18 de Enero de 2021). Preparación de Datos: Definición, ejemplos, consejos
[guía 2023]. Market research consulting:
https://www.intotheminds.com/blog/es/data-preparacion-datos/

¿Qué es la ciencia de datos? (17 de Abril de 2023). ¿Qué es la ciencia de datos? Amazon Web
Services, Inc.: https://aws.amazon.com/es/what-is/data-science/

Aguilar, F., Ramiro, D., & Aguado, B. (5 de Julio de 2022). Ciencia de datos. PTI Ciencia Digital
CSIC: https://pti-cienciadigital.csic.es/ciencia-de-datos/

Amazon. (2023). aws: https://aws.amazon.com/es/what-is/data-


science/#:~:text=La%20ciencia%20de%20datos%20es,analizar%20grandes%20cantida
des%20de%20datos.

Araneda, P. (2022). Base de Datos. creative commons.


https://doi.org/https://bookdown.org/paranedagarcia/database/

Colaborador de DocuSign. (11 de Enero de 2022). Fases del ciclo de vida de los datos: ¿por qué
es tan importante conocerlas? DocuSign: https://www.docusign.mx/blog/ciclo-de-
vida-de-datos

Craig, S. (2021). Ciencia de datos. ComputerWeekly.es:


https://www.techtarget.com/es/contribuidor/Craig-Stedman

51
Denman, C. A. (s.f.). Antologia de metodos de base de datos.
https://biblioteca.colson.edu.mx/e-docs/RED/Por_los_rincones-
DENMAN_HARO.pdf#page=249

Diana, W. (2021). Todo sobre la encriptación de datos (+ software especializado). HubSpot:


https://blog.hubspot.es/marketing/encriptacion-de-datos

Gartner Glossary. (2021). Master Data Management (MDM). Gartner:


https://www.gartner.com/en/information-technology/glossary/master-data-
management-mdm

International Business Machines Corporation. (3 de Agosto de 2021). ¿Qué es el análisis de


Datos Exploratorio? IBM: https://www.ibm.com/es-es/topics/exploratory-data-
analysis

International Business Machines Corporation. (17 de Marzo de 2023). ¿Qué es la ciencia de


datos? IBM: https://www.ibm.com/es-es/topics/data-science

Jhawar, R., & Tejada, Z. (13 de Abril de 2018). Extracción, Transformación y Carga de Datos
(ETL) - azure architecture center. Azure Architecture Center | Microsoft Learn:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

Juan, M. (2022). La importancia de la gestión de los datos maestros. datos.gob.es:


https://datos.gob.es/es/blog/la-importancia-de-la-gestion-de-los-datos-maestros

LOGICALIS. (2014). Gestión de la calidad de los datos. LOGICALIS:


https://blog.es.logicalis.com/analytics/gestin-de-la-calidad-de-los-datos

Luis, B. P. (2021). ¿Qué es la Gestión de Datos Maestros? Asegure una única “fuente de
verdad”. CIO Mexico: https://cio.com.mx/que-es-la-gestion-de-datos-maestros-
asegure-una-unica-fuente-de-verdad/

Marytere, N. (2022). Ciclo de vida de los datos: Qué es y qué etapas tiene. QuestionPro:
https://www.questionpro.com/blog/es/ciclo-de-vida-de-los-datos/

Mediano, C. M. (2014). TÉCNICAS E INSTRUMENTOS DE RECOGIDA Y ANÁLISIS DE DATOS.


https://books.google.es/books?hl=es&lr=&id=iiTHAwAAQBAJ&oi=fnd&pg=PA7&dq=te
cnicas+de+analisis+de+datos&ots=GXLVfQrsRZ&sig=EM3E5XmSLsRRYxnDLLijacqKjH4#
v=onepage&q&f=false

Naeem, T. (2019). Consolidación de datos: descripción general y técnicas. ASTERA :


https://www.astera.com/es/type/blog/data-consolidation/

PowerData . (2023). Seguridad de datos: En qué consiste y qué es importante en tu empresa.


PowerData : https://www.powerdata.es/seguridad-de-datos

Riquelme, J. C. (2006). Minería de Datos: Conceptos y Tendencias.


https://idus.us.es/bitstream/handle/11441/43290/Miner%c3%ada%20de%20datos.pd
f?sequence=1&isAllowed=y

Robles Flores, J. A., & Mendiola, L. (04 de Febrero de 2020). Importancia del Análisis de Datos
en la Toma de Decisiones. Conexión ESAN: https://www.esan.edu.pe/conexion-
esan/importancia-del-analisis-de-datos-en-la-toma-de-decisiones

52
Schwab, P.-N. (18 de Enero de 2021). Preparación de Datos: Definición, ejemplos, consejos
[guía 2023]. Market research consulting:
https://www.intotheminds.com/blog/es/data-preparacion-datos/

APENDICES Y/O ANEXOS


FIGURA 1

Extracción transformación y carga

Nota. Es una canalización de datos que se usa para recopilar datos de varios
orígenes. Tomado de (Jhawar & Tejada, 2018)

53

Common questions

Con tecnología de IA

La gestión de datos maestros (MDM) es fundamental para la coherencia y calidad de los datos en las empresas porque proporciona una única fuente confiable de información que es consistente en toda la organización. Esto permite la creación de eficiencias internas y operativas y mejora procesos empresariales. La estrategia MDM asegura que todos los datos críticos de negocio sean precisos, homogéneos y disponibles para múltiples aplicaciones empresariales, mejorando así la toma de decisiones comerciales .

La interdisciplinariedad en el campo de la ciencia de datos es crucial porque permite la combinación de diferentes disciplinas como matemáticas, estadística, informática y habilidades empresariales para analizar grandes cantidades de datos. Esta mezcla de disciplinas hace que la ciencia de datos sea una herramienta poderosa para la toma de decisiones informadas al permitir extraer conocimiento valioso de datos complejos y masivos y aplicar estos hallazgos a varios ámbitos como seguridad, salud, negocios, etc. .

Las claves para un programa exitoso de gestión de datos maestros incluyen contar con un liderazgo visionario, implementar procesos estructurados, y utilizar tecnología adecuada. Es vital tener una estrategia clara de gobernanza de datos que aborde los desafíos culturales y políticos dentro de una organización. Además, se necesita un enfoque tecnológico que asegure que los datos maestros estén bien integrados, precisos y accesibles, y procesos que estén alineados con los objetivos de negocio para obtener un retorno sobre la inversión significativo .

La evolución histórica de la ciencia de datos, que comenzó como un término alternativo para la estadística en los años 60, ha sido significativa para expandir su aplicación actual. A medida que el término se fue formalizando en los años 90, especialmente en la informática, la ciencia de datos comenzó a ser reconocida como un campo independiente que combina diseño, recolección y análisis de datos. Esta evolución ha permitido aplicaciones en múltiples campos como el negocio, investigación científica y tecnología médica, donde utiliza datos para tomar decisiones estratégicas y motivar innovaciones .

La ciencia de datos transforma la toma de decisiones estratégicas en empresas al proporcionar insights basados en el análisis de grandes cantidades de datos, permitiendo a las empresas prever tendencias, optimizar recursos y personalizar servicios para los clientes. Mediante modelos predictivos y descriptivos, las organizaciones pueden identificar patrones significativos que guían la planificación estratégica, mejoran la eficiencia operativa y fomentan la innovación. La ciencia de datos es un habilitador clave para decisiones fundamentadas y adaptativas .

La ciencia de datos y las tecnologías de seguridad de datos están interrelacionadas en la protección de la información en línea. Mientras que la ciencia de datos se enfoca en el análisis de grandes volúmenes de datos para derivar información útil, las tecnologías de seguridad aseguran que esos datos sean protegidos contra accesos no autorizados. Herramientas de cifrado y protocolos como HTTPS y TLS garantizan la integridad y confidencialidad de los datos en tránsito, protegiéndolos de potenciales amenazas cibernéticas. Esto es vital en la infraestructura de seguridad de datos moderna y en la gestión de ciberseguridad .

La visualización de datos juega un papel crucial en la comunicación de resultados en ciencia de datos al convertir datos complejos en información visualmente comprensible. Herramientas de visualización ayudan a destacar patrones, tendencias y anomalías que podrían no ser evidentes en presentaciones numéricas, facilitando así la interpretación y el análisis para la toma de decisiones. Se convierte en un puente entre los análisis cuantitativos y la comprensión cualitativa por parte de audiencias diversas, lo que es vital para compartir insights de manera efectiva .

El avance en tecnologías de inteligencia artificial ha impactado significativamente la gestión de datos maestros al aumentar la capacidad para procesar, analizar y gestionar grandes cantidades de datos de manera eficiente. Herramientas como los MDM basados en IA, incluyendo las soluciones de Informatica y IBM, utilizan algoritmos de aprendizaje automático para mejorar la precisión y la calidad de los datos, automatizar procesos de limpieza y clasificación de datos, y facilitar la implementación de iniciativas de datos maestros complejas .

La ciencia de datos plantea desafíos significativos en términos de ética y privacidad debido al manejo de grandes volúmenes de datos, lo que puede comprometer la privacidad individual y la seguridad de la información. Abordar estos retos implica establecer regulaciones claras, implementar prácticas de gobernanza de datos, garantizar la seguridad de los datos a través del cifrado y adoptar enfoques transparentes para el tratamiento de datos personales. También es esencial que las organizaciones sean responsables y respeten los derechos de los individuos utilizando sus datos .

Implementar sistemas de MDM en la nube ofrece varias ventajas sobre los sistemas locales tradicionales, como flexibilidad, escalabilidad, y reducción de costos de infraestructura. Sistemas en la nube permiten a las organizaciones acceder a sus datos desde cualquier lugar, facilitar la colaboración remota y ajustarse rápidamente a los cambios de demanda o volumen de datos. Además, los sistemas basados en cloud ofrecen actualizaciones y mantenimiento continuos, asegurando que las últimas tecnologías y políticas de seguridad estén siempre en lugar .

También podría gustarte