0% encontró este documento útil (0 votos)
21 vistas2 páginas

Pandas Cheatsheet

El documento es una guía sobre el uso de la biblioteca Pandas en Python, que incluye métodos para crear, ordenar, agrupar y limpiar DataFrames, así como realizar operaciones estadísticas y lógicas. También se abordan transformaciones avanzadas, selección de datos, exportación y visualización gráfica. Se presenta un resumen de funciones y métodos esenciales para trabajar con datos en Pandas.

Cargado por

Miyagi San
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
21 vistas2 páginas

Pandas Cheatsheet

El documento es una guía sobre el uso de la biblioteca Pandas en Python, que incluye métodos para crear, ordenar, agrupar y limpiar DataFrames, así como realizar operaciones estadísticas y lógicas. También se abordan transformaciones avanzadas, selección de datos, exportación y visualización gráfica. Se presenta un resumen de funciones y métodos esenciales para trabajar con datos en Pandas.

Cargado por

Miyagi San
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Creación Ordenación Agrupaciones

# Métodos comunes para crear DataFrames y atributos habituales # Ordenación de valores e índices # Permite agrupar los datos y aplicar funciones
# También se pueden utilizar cualquiera de las funciones de estadística
[Link](dict) # Desde diccionario sd.sort_values() # Ordena los valores
pd.read_csv(file) # Desde un csv sd.sort_index() # Ordena el índice [Link]() # Agrupa datos por un criterio
pd.read_excel(file) # Desde un excel [Link](func) # Aplica una función a los datos sobre el eje que indiquemos
pd.read_json(json) # Desde un json
[Link](lambda x: x*2) # Aplica una operación a todos los elementos del DataFrame
pd.read_html(uri) # Desde una web
pd.read_sql(sql) # Desde una base de datos Consulta de datos [Link]() # Crea ventanas que se desplazan para el procesamiento de los datos
pd.read_clipboard() # Desde el portapapeles # Obtener información de los datos almacenados [Link](func) # Agrega los datos aplicando la función del parámetro
pd.read_table(file) # Desde un archivo delimitado tsv
[Link](func) # Devuelve una serie/Dataframe después de aplicarle la función
pd.read_parquet() # Desde un archivo en formato parquet pd.read_gbg
[Link]() # Selecciona filas al azar. [Link](func) # Permite encadenar llamadas a funciones
Se pueden indicar % o número de filas/columnas [Link](periods) # Crea una ventana creciente con los periodos que indiquemos
[Link](list) # Devuelve un Dataframe que indica si cada celda contiene
Limpieza de datos alguno de los elementos que se pasan
[Link](expresion) # Permite obtener una parte del Dataframe a partir
# Ayudan a identificar datos inválidos de una expresión. Funciones estadísticas
Se puede conseguir algo similar con df[]
# Funciones que nos permiten calcular la estadística sobre columnas
[Link](obj) # Detecta los valores inválidos en un array [Link](list|expr) # Filtra las columnas a mostrar.
# o DataFrames completos
[Link](obj) # Detecta los nulos en un array Se puede utilizar o una lista o una expresión regular
[Link](obj) # Detecta los valores válidos en un array [Link](n=5) # Obtiene el comienzo del Dataframe.
[Link](obj) # Detecta todos los valores no nulos en un array Se pueden indicar el número de filas. [Link]() # Calcula la suma total
[Link](obj) # Devuelve un array con valores únicos. También existe para [Link](n=5) # Obtiene el final del Dataframe. [Link]() # Calcula el número de elementos
series ([Link]()) e índices ([Link]()), y variaciones Se puede indicar el número de filas [Link]() # Calcula el valor máximo
(nuinique, is_unique) [Link](cond) # Es equivalente a df[cond] pero devolviendo un Dataframe [Link]() # Calcula el valor mínimo
[Link] # Informa si la serie tiene NA con la misma forma que el original [Link]() # Calcula la desviación típica
[Link]() # Elimina los valores inválidos [Link]() # Iterador perezoso de elementos. Equivalente a [Link]() [Link]() # Calcula la media
[Link](val) # Rellena los valores inválidos [Link]() # Devuelve el primer elemento de la Serie [Link]() # Calcula la mediana
[Link]() # Interpola los valores según distintos métodos [Link]() # Columnas del objeto sr.value_counts() # Calcula los valores que hay de cada tipo
sd.drop_duplicates() # Elimina los duplicados [Link](item) # Elimina un elemento del conjunto y lo devuelve [Link]() # Devuelve una Serie con el valor absoluto de cada elemento
[Link]() # Máscara con los duplicados [Link](sr) # Calcula la covarianza con otro objeto.
sr.is_monotonic # Indica si es una progresión creciente/decreciente El parámetro es obligatorio en las Series
[Link]() # Devuelve los índices de los elementos que no son cero [Link](sr) # Calcula la correlación con otro objeto.
[Link]() # Elimina las filas o columnas del objeto Operadores Binarios El parámetro es obligatorio sólo en las Series
[Link]() # Devuelve la media de la desviación absoluta de los valores
# Son operaciones entre 2 Series o DataFrames
[Link](n,col) # Devuelve los N elementos más altos.
En el DataFrame hay que indicar la columna
Operadores lógicos [Link](sd) # Suma a nivel de elemento [Link](n, col) # Devuelve los N elementos más pequeños.
# Operadores lógicos para usar en cualquier expresión booleana [Link](sd) # Resta a nivel de elemento En el DataFrame hay que indicar la columna
[Link](sd) # Multiplicación a nivel de elemento sd.pct_change() # Devuelve la Serie con los cambios porcentuales
[Link](sd) # División a nivel de elemento [Link]() # Rango de elementos
& # And [Link](sd) # Módulo a nivel de elemento [Link]() # Suma acumulada
| # Or [Link](sd) # Potencia a nivel de elemento [Link]() # Máximo acumulado
~ # Not [Link](sd,func) # Combina 2 objetos aplicando la función a sus elementos [Link]() # Mínimo acumulado
^ # Xor [Link]() # Redondea con el número de decimales que indiquemos [Link]() # Producto acumulado
[Link]() # Any [Link]() # Operador lógico < [Link]() # Devuelve un elemento en el percentil indicado
[Link] # All [Link]() # Operador lógico >
[Link]() # Operador lógico <=
[Link]() # Operador lógico >=
Selección [Link]() # Operador lógico != Modificación
[Link]() # Operador lógico ==
[Link]() # Devuelve el producto de sus valores según el eje que indiquemos # Permite modificar nuestros elementos
# Selecciona contenido del DataFrame
[Link](sd) # Devuelve el producto matricial
[Link][row_indexer,column_indexer] # Selecciona por índices de filas y columnas [Link]() # Permite cambiar el nombre o las etiquetas del índice
[Link][row_indexer,column_indexer] # Selecciona por etiquetas [Link](to_replace) # Reemplaza los valores de panda según el parámetro
[Link][row,column] # Método análogo a iloc para obtener un valor concreto Exportación [Link](sd) # Actualiza los valores según el objeto del parámetro
[Link][row,column] # Método análogo a loc para obtener un valor concreto [Link]() # Desplazamos los valores tantas posiciones como indiquemos
df[] # Permite mezclar las selecciones y realizar filtrados # Permite exportar los datos a un fichero
(por defecto 1)

sd.to_excel() # En formato excel


Transformaciones avanzadas df.to_csv() # En formato csv
Metainformación
# Transformaciones de las Series/DataFrames sd.to_dict() # En formato diccionario python
sd.to_json() # En formato json # Nos da información sobre el modelo que estamos manejando
sd.to_sql(tab, con) # A una base de datos indicando tabla y cadena de conexión
[Link](df) # Descompone un Dataframe, según la columnas que digamos sd.to_string() # En formato cadena de texto
[Link](index,col,val) # Crea una tabla auxiliar a partir de 3 columnas sd.to_clipboard() # Al portapapeles [Link] # Etiquetas del índice
pd.pivot_table(df) # Crea una tabla auxiliar con el DataFrame. Series.to_latex() # En formato latex [Link] # ndarray con los valores
Guarda los distintos niveles de la tabla con un índice múltiple. [Link] # Informa del tipo de datos de la Serie. Es equivalente a [Link]
También disponible en la clase DataFrame [Link] # Informa del número de filas de la Serie. También se pueda usar
[Link](left, right) # Fusiona 2 DataFrames como si fuera un join de base de datos.
También disponible en la clase DataFrame Gráficas con DataFrame y devuelve filas y columnas
[Link] # Número de elementos
[Link]() # Nos permite utilizar un índice con nuevas etiquetas # Permiten obtener gráficos de los datos del DataFrame [Link] # Puntero a los datos
[Link](obj) # Fusiona las columnas de 2 DataFrames en base a una clave/columna [Link] # Nombre de la Serie
[Link](to_append) # Añade más columnas al DataFrame [Link](indices,values) # Efectúa un put sobre los índices con los values suministrados
[Link](rule) # Permite realizar un remuestro en función del tiempo [Link]() # Gráfico
[Link](obj) # Concatena pandas en el eje que se decida [Link]() # Histograma de los datos
Pandas cheatsheet V1 - ene. 2019

Inicialización Selección Manejo de tablas


# Para usar pandas sólo se requiere importar la librería [Link][2, 2] [Link][pd.to_datetime('2018/01/01'), ['B', 'C']]

import pandas as pd
Melt
# En esta guía utilizaremos 4 posibles notaciones:
# pd : Aplica a la librería de pandas
df2
# df : Aplica únicamente a dataframes
# sr : Aplica a series (pueden ser series únicas o columnas de un DataFrame)
first last height weight
# sd : Aplica tanto a series como DataFrames
0 John Doe 5.5 130
# En todos los ejemplos salvo que se diga lo contrario pondremos únicamente
los atributos obligatorios 1 Mary Bo 6.0 150

Series [Link][0, 2] [Link][pd.to_datetime('2018/01/03'), ['C']

sr1 = [Link](['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']) [Link](id_vars=['first', 'last'])

first last variable value


Índice Valor
0 John Doe height 5.5
0 a
1 Mary Bo height 6.0
1 b
2 John Doe weight 130
2 c
3 Mary Bo weight 150
3 d

4 e
df1[df1.C >'i'] [Link](n=4)
5 f

6 g Pivot
7 h

8 i
df3
9 j
foo bar baz zoo

DataFrame 0 one A 1 x
1 one B 2 y
df1 = [Link]({'A': range(0, 50, 5),
'B': 10**2, 2 one C 3 z
'C': sr_a.values}, [Link](['a', 'b', 'g', 'h', 'i', 100]) [Link](df1.C>'c') q
3 two A 4
index=pd.date_range(start='2019-01-01', freq="D", periods=10))
4 two B 5 w
5 two C 6 t
Índice A B C

2019-01-01 0 100 a

2019-01-02 5 100 b

2019-01-03 10 100 c

2019-01-04 [Link](index='foo', columns='bar', values='baz')


15 100 d

2019-01-05 20 100 e
[Link]("'a'< C <'d'") [Link](items=['A', 'C']) bar A B C
2019-01-06 25 100 f foo

2019-01-07 30 100 g one 1 2 3


two 4 5 6
2019-01-08 35 100 h

2019-01-09 40 100 i

2019-01-10 45 100 j

También podría gustarte