UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN
EVIDENCIA 3.3
MASTER DE DATOS (TABLA INFORMATIVA) .
ALMACENES DE DATOS .
Lic En Administración
Maestro: HIRAM ISAI PEREZ SAUCEDA.
Nombre de alumno
• 1865799 HERNANDEZ SARABIA HECTOR FRANCISCO
Ciudad Universitaria: 19/05/24
1
Introducción:
El Análisis Exploratorio de Datos (EDA) es una fase esencial en cualquier proyecto
de análisis o ciencia de datos. Su objetivo principal es comprender la estructura y
características de los datos, identificar patrones, detectar anomalías y probar
hipótesis antes de aplicar modelos más complejos. El EDA permite a los analistas
tener una visión preliminar del comportamiento de las variables y sus relaciones,
facilitando decisiones informadas.
La tabla presentada resume las principales técnicas involucradas en el EDA,
ofreciendo una descripción y ejemplos prácticos. Con estadísticas descriptivas, los
analistas obtienen resúmenes numéricos básicos de los datos, como media y
desviación estándar, ayudando a captar rápidamente la tendencia central y la
dispersión de las variables.
La visualización de datos, utilizando herramientas como histogramas y diagramas
de dispersión, permite identificar patrones y anomalías de manera visual. El análisis
de valores atípicos y faltantes es crucial para asegurar la calidad de los datos y
evitar sesgos.
El análisis de correlación y bivariado explora las relaciones entre variables,
proporcionando una base para el modelado predictivo. Además, técnicas como el
clustering identifican subgrupos naturales dentro de los datos, útil para segmentar
audiencias.
En resumen, el EDA es vital para conocer a fondo los datos antes de realizar análisis
avanzados. La siguiente tabla detalla estas técnicas y su aplicación práctica,
ofreciendo una guía clara para el análisis de datos.
2
TABLA INFORMATIVA.
TECNICA DESCRIPCION EJEMPLO DE USO
ESTADISTICAS Resumen de las Calcular la media y la
DESCRIPTIVAS características básicas de los desviación estándar de los
datos mediante medidas ingresos anuales en un
como media, mediana, conjunto de datos de
moda, varianza, y desviación salarios.
estándar.
VISUALIZACION DE Uso de gráficos para Crear histogramas para
DATOS identificar patrones, observar la distribución de
tendencias y anomalías en una variable continua, como
los datos. la altura.
ANALISIS DE Identificación y manejo de Utilizar diagramas de caja
VALORES ATIPICOS valores que se desvían (boxplots) para detectar
significativamente del resto valores atípicos en una
de los datos. variable numérica.
ANALISIS DE Evaluación y tratamiento de Calcular el porcentaje de
VALORES FALTANTES los datos ausentes en el valores faltantes en cada
conjunto de datos. columna y decidir si se
imputa o se elimina.
ANALISIS DE Evaluación de la relación Calcular la correlación de
CORRELACION entre dos o más variables Pearson entre las variables
mediante coeficientes de "edad" y "salario".
correlación.
DIAGRAMAS DE Gráficos que muestran la Crear un diagrama de
DISPERSION relación entre dos variables dispersión para analizar la
continuas. relación entre "horas de
estudio" y "calificaciones".
MAPAS DE CALOR Visualización de matrices de Utilizar un mapa de calor
datos, donde los valores se para visualizar la matriz de
representan mediante correlación de todas las
colores para identificar variables numéricas.
patrones.
3
AGRUPAMIENTO Identificación de subgrupos Aplicar k-means clustering
naturales dentro del para segmentar clientes en
conjunto de datos. un conjunto de datos de
marketing.
ANALISIS BIVARIADO Exploración de la relación Realizar un análisis de tabla
entre dos variables, de contingencia para
utilizando tanto métodos estudiar la relación entre
gráficos como estadísticos. "nivel de educación" y
"estado laboral".
TRANSFORMACIONES Aplicación de Aplicar una transformación
DE DATOS transformaciones para logarítmica a una variable
normalizar o escalar los con distribución sesgada.
datos, y hacerlos aptos para
análisis posteriores.