0% encontró este documento útil (0 votos)
19 vistas9 páginas

Foro 1

El documento aborda la ciencia de datos como un campo multidisciplinario que combina estadística, informática y diversas áreas de aplicación. Se definen conceptos clave como el perfil y tareas del científico de datos, así como las diferencias entre científicos, analistas e ingenieros de datos. Además, se describen etapas del proceso de ciencia de datos y se mencionan tendencias actuales en el ámbito de la inteligencia de negocios.

Cargado por

Leonardo Glz. C.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
19 vistas9 páginas

Foro 1

El documento aborda la ciencia de datos como un campo multidisciplinario que combina estadística, informática y diversas áreas de aplicación. Se definen conceptos clave como el perfil y tareas del científico de datos, así como las diferencias entre científicos, analistas e ingenieros de datos. Además, se describen etapas del proceso de ciencia de datos y se mencionan tendencias actuales en el ámbito de la inteligencia de negocios.

Cargado por

Leonardo Glz. C.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad Tecnológica de México

Ingeniería en Ciencia de Datos


Séptimo cuatrimestre
Asignatura: Modelado y Analítica de Datos Avanzada
Profesor: Víctor Gonzalo Rivero Martínez

Actividad: Foro1
Alumno: Jorge Rigoberto Bautista Secun

San Francisco de Campeche, Campeche a 02 de febrero de 2025


INTRODUCCIÓN
La ciencia de datos es un campo multidisciplinario porque convergen en ella la
estadística, la informática, tecnologías de desarrollo y amplias áreas de aplicación.
Extrae conocimientos a partir de una cantidad grande de datos y los traduce en
modelos. Entre las áreas de aplicación se encuentran la banca digital, la salud,
áreas de gobierno, seguridad y el comercio electrónico a través de una mejor
atención al cliente, optimizar sus procesos y el desarrollo y evaluación de nuevos
productos.

DESARROLLO

Define los siguientes conceptos:


1. Concepto de Ciencia de Datos
La ciencia de datos es la aplicación de la estadística y programación a un conjunto
de datos para obtener información y proponer modelos estadísticos.

2. Perfil y tareas del científico de datos


Por lo tanto, las habilidades generales son aquellas derivadas del uso de la
estadística, informática y propiamente la del campo de aplicación (comercio
electrónica, banca, salud, tránsito, seguridad policiaca, etc) como son las siguientes:
dominio de herramientas y técnicas de análisis de datos, destreza en aprendizaje
automático (machine learning), saber programar en lenguajes como Python o R y
conocer de bases de datos y sus lenguajes como SQL. Además, comunicación
eficaz, análisis crítico de los resultados, mejorar las habilidades técnicas y colaborar
en equipo.

Con respecto a las tareas: recopilar datos, limpieza y procesamiento, explorar datos
y su modelado, evaluar el modelo , implementar y comunicar.

3. Diferencia entre científico de datos, analista de datos e ingeniero de datos

Científico de datos: tiene conocimientos en estadística, programación y el área en


que se está desarrollando. Descubre patrones y tendencias para crear algoritmos y
modelos a través de técnicas de predicción, aprendizaje automático y minería de
datos. Tiene la capacidad de implementar el método científico.

Analista de datos: tiene conocimientos de estadísticas y análisis de datos. Su perfil


se dirige a la visualización e interpretación de datos de un negocio. Elabora gráficos,
dashboards y reportes, además de monitorear la empresa a través de indicadores.

Ingeniero de datos: tiene conocimientos en informática y datos. Se encarga de


gestionar y crear la infraestructura y herramientas para el almacenamiento de datos,
administra la bases de datos y asegura la calidad de estos.
4. ¿Qué es el aprendizaje automático? Investiga tres ejemplos de aplicación

El aprendizaje automático o machine learning desarrolla algoritmos que le permiten


a las computadoras aprender sin programarles o sin darles órdenes específicas
permitiéndoles identificar patrones y tendencias para hacer predicciones.

Ejemplos: recomendación de películas o canciones por Netflix y Spotify, detección


de fraudes bancarios y el análisis de imágenes radiológicas para el diagnóstico de
enfermedades.

5. Realiza un diagrama del proceso general de la ciencia de datos

1. Definir 2.
el Transform
problema ar datos

3. 4.
Análisis Característi
explorato cas del
rio extracto

6.
5. Retroali
Modelar mentar

6. ¿Explica detalladamente en qué consiste cada una de las siguientes etapas


del proceso de la ciencia de datos puntos? Agrega un ejemplo explicativo en
cada una, puedes utilizar Excel, R o Python.

·Definición del problema. Limitar el problemas planteándolo a través de una


pregunta generalmente. Comprender esta fase orienta a todo el proceso porque se
pueden elegir técnicas adecuadas y una buena evaluación.

EJEMPLO. La base de datos se llama “Titanic”. El problema para resolver es crear


un modelo matemático que prediga la sobrevivencia de los pasajeros.
·Extracción y limpieza del conjunto de datos. Se eliminan errores, valores faltantes
y valores duplicados para tener datos de calidad. Esta fase asegura que los datos
sean consistentes.

EJEMPLO. El dataset Titanic está en formato .csv y consta de 891 filas o registros
y 12 columnas o variables. Las columnas son contadas iniciando con cero; ejemplos
de estas columnas son las siguientes:

-PassangerID. A cada pasajero se le asigna un número.


-Survive. Categórica: 0=No, 1=Sí
-Pclass. Categórica: 1=primera clase, 2=segunda clase, 3=tercera clase
-Sex. Categórica: male, female.
-Age. Numérica discreta.
-…
-Embarked. Puerto de embarque. Categórica. C=Cherbourg, Q=Queenstown,
S=Southampton
Eliminé algunas columnas para probar el código y después visualizar el cambio.

Visualicé si hay datos nulos

Para añadir un nuevo registro al dataframe:


·Análisis exploratorio de datos (EDA). Aproximación inicial del análisis estadístico
pues se determinan parámetros de tendencial central y de dispersión. Las gráficas
son básicas y ayudan a determinar tendencias, patrones y valores extremos.

EJEMPLO. Para describir estadísticamente los valores de una columna se utiliza el


siguiente código:

Hice una gráfica de barras a través de matplotlib. La columna que utilicé fue la de
Sex y mi objetivo es graficar el conteo. Utilicé el código:
·Características del extracto. A partir del EDA, ¿se pueden crear nuevas variables?,
¿existen variables que confunden o que no son útiles para el análisis?, ¿agrupamos
variables?, ¿convierto a una variable cuantitativa a una ordinal? Son mejoras en el
uso de datos para mejorar el rendimiento, precisión y generalización de los modelos.

EJEMPLO. Para eliminar una columna se utiliza el comando del

Ahora conté una variable (una columna) en otras columnas y utilcé el comando
groupy
·Modelado de datos. Crear modelos a partir de la relación entre las variables. El
objetivo es automatizar tareas y procesos para predecir y tomar decisiones.

·Desarrollo e implementación de código. Implementar los modelos a través de la


programación o la escritura del código. Es decir, se lleva a la práctica el modelo y el
análisis que se ideó.

·Revisión iterativa. Es un feedback o retroalimentación del modelo. Se responden


las siguientes preguntas ¿el modelo se ajusta a la realidad?, ¿es necesario cambiar
los indicadores de calidad?, ¿se tomó en cuenta toda la información disponible?,
etc. Este proceso permite que los resultados sean precisos, útiles e importantes.

De las últimas tres fases, no escribí los ejemplos porque todavía no comprendo el
modelado de datos.

7. Redacta en un párrafo al menos tres tendencias de la ciencia de datos e


inteligencia de negocios

Las tendencias que se pueden observar son la automatizacuón de tareas y la


predicción como son los chatbots de compañías para la atención del clientes y las
recomendaciones de Max y Amazon. Además, el acceso al análisis de datos por
profesionistas sin experiencia en el ámbito de la inteligencia de negocios para
obtener análisis sencillos de comprender, ejemplos son la elaboración automática
de dashboards e informes y las plataformas de análisis que explican los resultados.
Por otro lado, el resguardo de los datos y el uso legal y ético de estos son
características que las empresas están adaptando a través de la implementación de
técnicas de privacidad diferencial y auditorías de algoritmos.

CONCLUSIÓN
Un científico de datos obtiene modelos y algoritmos a través del procesamiento de
datos. Esto lo hace a través de las fases siguientes fases: recopilación de datos,
limpieza y procesamiento de datos, análisis exploratorio de datos, características
del extracto, modelado, implementación e iteración. Por consiguiente, el científico
de dato necesita desarrollar habilidades en estadística y programación, así como
de aprendizaje automatizado y minería de datos.
REFERENCIAS
Gavilán, I. (29 mayo 2017). Las fases de un proyecto de Data Science.
https://ignaciogavilan.com/las-fases-de-un-proyecto-de-data-science/
Gonzalez Gouvera, R.(26 septiembre 2021). Cómo HACER un Análisis de Datos en
Python con Jupyter Notebook [Video]. . https://www.youtube.com/watch?v=VkU-
9Us6Rpw
Gutiérrez-García, J.O. [Código Máquina]. (2021, 26 de Julio). Filtra Datos en
DataFrames de Pandas para un mejor Análisis de Datos con Python [Video].
https://www.youtube.com/watch?v=Ys02DmUwl30&list=PLat2DtY8K7YUVqJYC31
sPZgTXI8P_rOEh&index=8
MBIT School.(19 mayo 2022). Guía paso a paso de un proyecto Data Science.
https://www.mbitschool.com/actualidad/guia-paso-a-paso-de-un-proyecto-data-
science
Willems K. (diciembre 2024). Científico de datos vs Ingeniero de datos.
https://www.datacamp.com/es/blog/data-scientist-vs-data-engineer

También podría gustarte