0% encontró este documento útil (0 votos)
49 vistas15 páginas

Introducción A Python 5

1. Este módulo introduce conceptos básicos de análisis exploratorio de datos en Python como validar la calidad de los datos, identificar variables estadísticas y agrupar datos. 2. La visualización de datos a través de librerías como Matplotlib y Seaborn es una herramienta importante para entender y comunicar lo que se aprende de los datos. 3. Python provee poderosas herramientas para limpiar, analizar y crear visualizaciones que ayudan a comprender mejor conjuntos de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
49 vistas15 páginas

Introducción A Python 5

1. Este módulo introduce conceptos básicos de análisis exploratorio de datos en Python como validar la calidad de los datos, identificar variables estadísticas y agrupar datos. 2. La visualización de datos a través de librerías como Matplotlib y Seaborn es una herramienta importante para entender y comunicar lo que se aprende de los datos. 3. Python provee poderosas herramientas para limpiar, analizar y crear visualizaciones que ayudan a comprender mejor conjuntos de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

QUINTO

MÓDULO
Introducción a un análisis
exploratorio de datos
Preparación de los datos
Ahora, conoceremos cómo validar la calidad de los datos.

Los temas que abordaremos son:

Validaciones de calidad de los datos


Validaciones de calidad de datos
Cargar datos Validar los datos
Usar Pandas es la manera más sencilla de Aunque no revisaremos esto en profundidad,
abrir archivos de diferentes tipos es necesario también saber cuántos valores
Empezamos leyendo el archivo de datos: nulos tenemos. Esto lo podemos ver con
csv = ‘/data/data_curso.csv’ .isnan()
df = pd.read_csv(csv) También es importante revisar que los tipos
de datos sean los correctos. Esto lo podemos
checar con df.info()
“Dejemos que los datos cambien
nuestra forma de pensar”
Hans Rosling
Análisis exploratorio
Ahora, identificaremos los elementos básicos de un
análisis exploratorio de datos, incluyendo funciones.

Los temas que desarrollaremos son:

Variables estadísticas de los datos


Agrupación de datos
Variables estadísticas de los datos
Pandas tiene funciones que nos ayudan a Cuando tenemos variables categóricas
describir los datos incluyendo algunas (texto), podemos usar el método
variables estadísticas como promedio .value_count() para aprender todos los
df.describe() niveles (i.e., opciones) que tiene cada
variable
Este método de un dataframe nos arroja df[var_categorica].value_counts()
una tabla resumen con variables como
desviación estándar, valor máximo, etc.
Agrupación de datos
Existe otro método llamado groupby que El método .crosstab() de Pandas nos
ayuda a agrupar una tabla con una variable ayuda a agrupar dos variables y ver la
y podemos definir la función a agrupar (i.e., distribución de observaciones
una versión simple de una tabla pivote) pd.crosstab(df[var_1],df[var_2],
normalize = 'index')
df.groupby([var1])[[var2,var3
,var4]].mean()

En este ejemplo, estamos agrupando a nivel


de la variable var1, las variables var2, var3,
var4 y sacamos el promedio. Es decir, para
todos los niveles de la variable var1, vemos
los valores promedio de las variables var2,
var3, var4
“Todos los modelos están mal,
pero algunos son útiles”
George E. P. Box
Visualización
Ahora, conoceremos paquetes para visualización
de datos y creación de gráficos básicos.

Los temas que abordaremos son:

Paquetes de visualización de datos


Creación de histogramas y series de tiempo
Cierre y despedida
Paquetes de visualización de datos
Visualizar los datos nos ayuda a entender Los principales métodos que se utilizan
mejor el comportamiento de los datos, pero son:
también nos ayuda a representar lo que plt.figure()
vamos descubriendo de los datos
plt.title()
Existen dos librerías muy populares para plt.legend()
visualizar datos: matplotlib y seaborn plt.show()
La segunda librería está basada en la
primera. Seaborn tiene funciones y métodos
que permiten trabajar mejor con los datos y
personalizar los gráficos. Sin embargo, por
esta flexibilidad, es un poco más laborioso
aprender en su totalidad
Creación de histogramas y series de tiempo
Para estos ejemplos, vamos a utilizar Si tenemos una serie con una variable
matplotlib temporal (i.e., día, mes, hora, año, etc.),
los principales métodos que se utilizan
Al igual que con Pandas, tenemos que son:
importar la librería primero plt.plot(x, y, linestyle =
import matplotlib as plt
'dotted')
Imaginemos que tenemos una lista x con plt.show()
ciertos valores
plt.hist(x)
plt.show()
“Los datos son un regalo de ayer
que recibimos hoy para hacer
un futuro mejor”
Jon Acuff
Ideas resumen del módulo 5

1
Python es una gran herramienta para analizar y
entender mejor los datos. Un paso muy importante
es revisar la calidad de los datos, así como los valores
nulos.

La visualización de datos es una herramienta que nos

2 ayuda a entender mejor los datos y comunicar lo que


aprendemos de ellos. Existen librerías que nos
ayudan a crear los gráficos.

Esta es solo una pequeña parte de todo lo que

3 podemos hacer en Python para entender mejor los


datos, crear modelos y comunicar nuestra
conclusiones.
Bibliografía del curso
Matplotlib (s.f.). Matplotlib: Visualization with Python.
https://matplotlib.org/

Pandas (s.f.). User Guide.


https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html#user-guide

W3Schools (s.f.). Python Tutorial.


https://www.w3schools.com/python/

Waskom, M. (s.f.). Seaborn: statistical data visualization.


https://seaborn.pydata.org/

También podría gustarte