Pandas: Una librería de Python que proporciona
estructuras de datos como Series y DataFrame,
especialmente diseñadas para trabajar con datos
tabulares y heterogéneos. Además, proporciona
herramientas intuitivas para el análisis y la
manipulación de datos.
Estructura de datos en Pandas
Las dos estructura principales de pandas son: Series y DataFrame.
Series DataFrame
Es un objeto unidimensional de Se corresponde con una tabla de 2
estilo array, que contiene una dimensiones. Tiene un índice de fila y
secuencia de valores del mismo tipo otro de columna; se podría considerar
y un array asociado de etiquetas de como un diccionario de objetos Series
datos, correspondiente a su índice. que comparten todos el mismo índice.
Series A
index
DataFrame
index
data
Series B
index data
data
Creación de Series
import pandas as pd
Con un array Con un array de numpy
Con un diccionario de Python
Con algunos elementos de un diccionario
Con un escalar
Acceso a los elementos de una
Serie
Cada elemento de un objeto Series tiene un identificador único denominado
index label.
s["num4"] s.loc["num2"] s[0] s.iloc[3]
12 4 2 12
Por atributo Por posición
s[['num1','num2']] s[[2,3]]
Creación de un DataFrame
import pandas as pd
# Creación de un DataFrame inicializando con un diccionario
# Creación de un DataFrame inicializándolo con una lista de listas de Python
Las columnas e
índices deben
especificarse por
separado.
Acceso a los elementos de un
DataFrame
Indexación, selección, filtrado de las columnas de un DF
DF
df["edad"] df[["edad","estatura"]] df["edad"]>40
df[df["edad"]>40]
Acceso a los elementos de un
DataFrame
Indexación, selección, filtrado de las filas de un DF
DF
df.loc["Juan"] df.iloc[0] df.iloc[0:2]
df.loc[["Juan","Lucia"]]
Reindexación en un DataFrame
Reindexación de un DF
reindex puede alterar el
índice (fila), las
columnas o ambas cosas.
Las columnas se pueden reindexar con la palabra clave columns:
B
Métodos de ordenamiento en
Series y DataFrame
obj.sort_index() obj.sort_values()
Con un dataframe es posible ordenar por el índice de cada eje:
df.sort_index()
DF df.sort_index(axis="columns")
ordena alfabéticamente
Eliminación de ejes en un
DataFrame
Eliminación de un eje de un DF
Cargar, copiar y guardar un
DataFrame
Cargar un
DataFrame
# Copia del DataFrame df_ventas en df_copy
Copiar un
DataFrame
Nota: Al modificar un elemento de
df_copy no se modifica df_ventas
Guardar el DataFrame
como CSV y JSON
Métodos de información
general
info(): Permite obtener
una visión general del
contenido de un DF.
Columns: Retorna un objeto
DF index con los nombres de
todas las columnas del DF.
dtypes: Devuelve una Serie
con el tipo de dato de cada
columna.
df_ventas.info() df_ventas.columns
df_ventas.index df_ventas.shape
RangeIndex(start=0, stop=7, step=1) (7, 7)
df_ventas.head() Muestra los 5 primeros registros del DF
df_ventas.dtypes
df_ventas.tail() Muestra los 5 últimos registros del DF
Métodos estadísticos
descriptivos
DF
Muestra un resumen estadístico
descriptivo, principalmente de las
columnas numéricas de un DF.
Valores únicos y recuentos de
valores
unique: Calcula un array de valores únicos.
value_counts: Devuelve valores únicos como
índice y frecuencias como valores.
Aplicación y asignación de
funciones
DF
Con la función se esta multiplicando la
cantidad por el precio unitario Con la función se esta sumando 5 a
cada elemento de la columna cantidad
Modificaciones de un
DataFrame
DF
# Añadir una nueva columna al DataFrame # Añadir una nueva columna calculada al DataFrame
# Añadir una nueva columna creando un DataFrame nuevo
# Eliminar una nueva columna del DataFrame nuevo
Nuevo DataFrame (df_new)
Gestión de datos faltantes en
un DataFrame
DF
df_empleados.isna()
El método isna nos proporciona
una serie booleana con True,
donde los valores son nulos.
Gestión de datos faltantes en
un DataFrame
Filtrar datos faltantes
En un DataFrame, dropna En Series, dropna devuelve la serie solo
elimina por defecto cualquier fila que con los valores de datos e índice no
contiene un valor faltante. nulos.
df_empleados.dropna()
s.dropna() s[s.notna()]
Gestión de datos faltantes en
un DataFrame
Rellenado de datos ausentes
Se suele emplear el método fillna, el cual permite rellenar los “huecos” de
distintas maneras. Reemplaza los valores ausentes por otro valor indicado.
valor indicado
df.fillna(0)
df.fillna({1: 0.5, 2: 0.9}) # Imputación de datos utilizando las estadísticas de la media.
Transformación de datos
Método Replace Valor a reemplazar
Valor de
reemplazo
Método Rename
Replace mediante
listas o diccionarios
NOTA
Los temas abordados en este manual corresponden a
algunos de los métodos y funcionalidades que se suelen
emplear con mayor frecuencia en el análisis de datos con
pandas. Sin embargo, la librería pandas ofrece una
amplia variedad de herramientas adicionales que
pueden explorarse a mayor profundidad según las
necesidades de cada proyecto.