ANÁLISIS EXPLORATORIO DE DATOS EN PYTHON
domingo, 31 de agosto de 2025 6:22 p. m.
IMPORTANCIA
Naturaleza
El análisis de datos permite explorar, resumir y entender la naturaleza y trascendencia de los datos en el entorno empresaria l.
Organización
El análisis exploratorio de datos permite obtener y validar información que facilita la planificación y organización de los p rocesos, la delegación de funciones y el
seguimiento constante a cada una de las tareas asignadas.
Clientes
El análisis exploratorio de datos permite mantener organizada la información de los clientes potenciales y establecer desde a llí estrategias para captar clientes futuros.
Volúmenes de información
El análisis exploratorio de datos permite dar valor a grandes volúmenes de información.
Funcionamiento organizacional
Con el análisis exploratorio de los datos se busca detectar errores, anomalías en los datos, realizar la visualización de inf ormación en gráficos, validar hipótesis y, por
supuesto, entender mucho mejor el funcionamiento de la organización.
En este orden de ideas, se puede afirmar que el objetivo principal del análisis exploratorio de datos es tener una visión clara de los datos que maneja la organización para,
posteriormente, indicar la técnica de ciencia de datos más adecuada para su tratamiento.
PASOS
1. ¿Qué se quiere responder?
2. Tener una idea general del conjunto de datos
3. Clasificar los datos por tipos
4. Elegir el tipo de estadística necesaria para el análisis de estos datos
5. Visualizar datos
6. Analizar las posibles variables y sus interacciones
7. Extraer conclusiones y análisis
METODOLOGÍA PARA LA CIENCIA DE DATOS
El objetivo principal de esta metodología consiste en la planeación, de manera organizada, de las metas, proyectos o implemen taciones necesarias para que cualquier tipo
de tarea, que requiera de un tratamiento específico, funcione de manera correcta.
Una de las metodologías más utilizadas cuando se emprenden proyectos de ciencia de datos, es la denominada ASUM (siglas en inglés de Analytics Solutions Unified
Method), cuyo significado en español es Método Unificado para Soluciones de Analítica.
Una metodología de ciencia de datos permite llevar de manera organizada cada una de las etapas necesarias para desarrollar un proyecto de ciencia de datos y, de esta
manera, garantizar el cumplimento de los objetivos, que se han propuesto sobre este tema. Se enmarcan tres acciones
1. Análisis y diseño
2. Configuración y ejecución
3. Despliegue, operación y optimización
Fases:
1- Inicio del proyecto:
Lo primero es realizar un levantamiento de la información, se debe hacer un diagnóstico respecto a qué tan preparada está la compañía para iniciarse en un proyecto de
analítica, dentro de esta etapa se deben identificar factores como:
Cursos SENA página 1
2. Entender el negocio:
En esta etapa es importante entender cuáles son esos objetivos, pero, además, es fundamental reconocer los requerimientos y l as necesidades organizacionales, al
identificar este aspecto se podrán reconocer aquellos problemas que podrían resolverse con la implementación de la analítica:
Para conocer las principales características de esta etapa, se invita a explorar el siguiente recurso educativo:
- Determinar objetivos
Establecer cuáles son los objetivos de la empresa o negocio es fundamental, para esto se puede realizar un recuento histórico de negocio que ayude a determinar la
situación actual y establecer esas fortalezas que han permitido tener éxito organizacional. Determinar acciones de mejora y d esde allí plantear objetivos o identificar
posibles problemáticas que se pueda resolver desde el análisis de los datos.
- Realizar evaluación
Cursos SENA página 2
Realizar evaluación
- Terminología:
Socializar un documento y realizar capacitaciones en donde se tenga claridad de las terminología utilizada, tanto en la organ ización en general como la que maneja
el equipo de analítica.
- Costo y beneficio
Es importante calcular los costos del proyecto y determinar cuáles serán las utilidades una vez este se haya finalizado.
Es fundamental clasificar los costos en directos e indirectos dentro de la recolección de los datos y en el despliegue del pr oyecto.
- Ruta de trabajo
Para tener éxito en el proyecto es fundamental tener claridad frente al paso a paso que se debe realizar en cada una de las e tapas del proceso, de igual manera, se
debe tener claro cuáles son los involucrados y sus responsabilidades.
Reportes
Es importante crear reportes que permitan entender la empresa, para el equipo de analítica es vital comprender el negocio com pletamente, el objetivo que se
desea alcanzar, los criterios de éxito y demás datos relevantes que permitan entender a profundidad el negocio.
Con los reportes se genera un insumo fundamental que pueden ser consultados en cualquier momento durante la ejecución del pro yecto.
3. Descubrimiento y entendimiento de datos:
Se debe realizar la recolección de datos iniciales para determinar la consistencia de la información, se espera poder describ irlos, realizar todas
las exploraciones planteadas y verificar la calidad de los mismos.
Los datos iniciales pueden provenir de diferentes fuentes de información, como se observa en la siguiente figura:
Posteriormente, es necesario describir los datos presentes con cada colección analizada, generalmente estos deben estar organ izados en filas y columnas, para esto se
debe realizar la identificación de las columnas y determinar cuáles de estas son datos categóricos y cuales son numéricos, ta mbién es importante establecer algunas
medidas de tendencia central como la moda, media, mediana, varianzas, máximos y mínimos.
Cursos SENA página 3
4. Preparando datos:
Esta es una de las etapas que ocupa mayor cantidad de tiempo, pues, normalmente, los datos no cumplen con los parámetros requ eridos para empezar a trabajar
con ellos de manera adecuada, por ende, es necesario que en la fase anterior se realice un muy buen trabajo de investigación que permita avanzar rápidamente.
En este paso se deben tener en cuenta las siguientes operaciones:
5. Construir el modelo:
Al inicio del proyecto se plantearon unos objetivos o metas, con la construcción de un modelo se pretende estructurar todo lo necesario para lograr alcanzarlos, en
esta fase se pueden requerir varias interacciones que permite ir afinando el modelo, es muy probable que sea necesario volver a la fase de preparación de los datos
para realizar los ajustes necesarios.
6. Evaluar el modelo
Con los criterios de evaluación definidos y los resultados que se obtuvieron del modelo generado anteriormente, se realiza un diagnóstico que permite determinar si
el modelo utilizado es el indicado para el negocio.
Cursos SENA página 4
Identificación de problemas y oportunidades de negocio:
Design Thinking es una metodología que utiliza herramientas creativas para identificar las necesidades y requerimientos de los
usuarios o de los clientes y, desde allí, desarrollar ideas innovadoras para lograr satisfacerlas.
Empatizar
Cuando se empatiza lo que se quiere es tratar de estar en la misma situación de la otra persona, tratar de entender su situac ión, de pensar y sentir como esa
persona lo haría.
Definir
En la etapa de definir, lo que se quiere es depurar toda esa información recopilada al momento de empatizar y quedarse con lo que realmente tiene un valor
significativo.
Idear
En la etapa de ideación se deben contemplar todas las posibilidades que se tienen y plantear soluciones a los problemas ident ificados, por absurda que parezca la
idea no se debe dejar de plantearla, pues las ideas más locas pueden terminar en cambios significativamente positivos para la compañía.
Prototipo
Realice un prototipo de lo que considera sería una solución a su problema, no debe ser nada elaborado, incluso si tiene a man o lápiz y papel proceda a plasmar
todas las ideas que tenga en mente.
Para la etapa de empatía se puede hacer uso de la herramienta denominada mapa de empatía la cual ayuda a identificar las posi bles variables que afectan el
negocio
Cursos SENA página 5
ESTADÍSTICA
4.1 Media
Consiste en realizar la sumatoria de todos los elementos de una lista de datos que sean numéricos y dividirlos sobre el total de
elementos, por ejemplo, si se quiere saber la media de las calificaciones de un curso de la materia de Python cuya lista se m uestra a
continuación.
4.2 Mediana
Con el cálculo de la mediana se mejora la relación del problema presentado en la media. Esta medida consiste en organizar los datos y tomar el valor que divide los datos
en dos partes igual, para esta acción se deben tener en cuenta dos consideraciones:
• Cuando los datos son impares: se toma el valor central dejando igual número de registros a ambos lados.
• Cuando los datos son pares: por otro lado, lo que se debe realizar cuando los registros son pares es realizar la suma de los dos datos centrales y dividi rlos por 2.
4.3 Moda
Es el valor con mayor frecuencia en la lista de datos, se pueden agrupar todas las posibilidades presentes en la lista y se c uenta el número de veces que se repite:
4.4 Tablas de frecuencias
Estas permiten agrupar información de manera que se puedan entender mejor los volúmenes de datos.
• En ese sentido, se encuentran las frecuencias absolutas que sirven para representar el número de veces que se repiten los elementos o grupos dentro de una serie
de datos.
• La frecuencia absoluta acumulada corresponde a sumar cada uno de los elementos o grupos de la siguiente manera, en el último elemento, grupo o rango se muestr a el
total de registro, en este caso de 200, que coincide con el total general, para el primer registro se deja el mismo valor.
4.5 Varianza
Se utiliza cuando se quiere saber qué tan dispersos están los datos con respecto a la media, como se observa en la fórmula se eleva al cuadrado lo que evita datos
negativos.
4.6 Desviación estándar
Se emplea cuando se quiere saber qué tan disperso está un grupo de datos con respecto a la media se representa mediante la si guiente fórmula:
Preparación de los datos
Una de las estrategias que apoya el proceso de preparación de datos son los Data Sets, esta estrategia es una colección o
representación de datos que, generalmente, están dados por filas y columnas. Estos datos se generan directamente desde los
sistemas de información del negocio o se pueden encontrar como datos abiertos que se descargan desde internet, o incluso pued en
comprarse.
Normalmente las colecciones de datos se trabajan en archivos con extensión .CSV (valores separados por comas), este tipo de
archivo permite que se manejen grandes volúmenes de información, la separación por comas se utiliza para la identificación de las
filas y las columnas.
Cursos SENA página 6
Cursos SENA página 7