Creación Ordenación Agrupaciones
# Métodos comunes para crear DataFrames y atributos habituales # Ordenación de valores e índices # Permite agrupar los datos y aplicar funciones
# También se pueden utilizar cualquiera de las funciones de estadística
[Link](dict) # Desde diccionario sd.sort_values() # Ordena los valores
pd.read_csv(file) # Desde un csv sd.sort_index() # Ordena el índice [Link]() # Agrupa datos por un criterio
pd.read_excel(file) # Desde un excel [Link](func) # Aplica una función a los datos sobre el eje que indiquemos
pd.read_json(json) # Desde un json
[Link](lambda x: x*2) # Aplica una operación a todos los elementos del DataFrame
pd.read_html(uri) # Desde una web
pd.read_sql(sql) # Desde una base de datos Consulta de datos [Link]() # Crea ventanas que se desplazan para el procesamiento de los datos
pd.read_clipboard() # Desde el portapapeles # Obtener información de los datos almacenados [Link](func) # Agrega los datos aplicando la función del parámetro
pd.read_table(file) # Desde un archivo delimitado tsv
[Link](func) # Devuelve una serie/Dataframe después de aplicarle la función
pd.read_parquet() # Desde un archivo en formato parquet pd.read_gbg
[Link]() # Selecciona filas al azar. [Link](func) # Permite encadenar llamadas a funciones
Se pueden indicar % o número de filas/columnas [Link](periods) # Crea una ventana creciente con los periodos que indiquemos
[Link](list) # Devuelve un Dataframe que indica si cada celda contiene
Limpieza de datos alguno de los elementos que se pasan
[Link](expresion) # Permite obtener una parte del Dataframe a partir
# Ayudan a identificar datos inválidos de una expresión. Funciones estadísticas
Se puede conseguir algo similar con df[]
# Funciones que nos permiten calcular la estadística sobre columnas
[Link](obj) # Detecta los valores inválidos en un array [Link](list|expr) # Filtra las columnas a mostrar.
# o DataFrames completos
[Link](obj) # Detecta los nulos en un array Se puede utilizar o una lista o una expresión regular
[Link](obj) # Detecta los valores válidos en un array [Link](n=5) # Obtiene el comienzo del Dataframe.
[Link](obj) # Detecta todos los valores no nulos en un array Se pueden indicar el número de filas. [Link]() # Calcula la suma total
[Link](obj) # Devuelve un array con valores únicos. También existe para [Link](n=5) # Obtiene el final del Dataframe. [Link]() # Calcula el número de elementos
series ([Link]()) e índices ([Link]()), y variaciones Se puede indicar el número de filas [Link]() # Calcula el valor máximo
(nuinique, is_unique) [Link](cond) # Es equivalente a df[cond] pero devolviendo un Dataframe [Link]() # Calcula el valor mínimo
[Link] # Informa si la serie tiene NA con la misma forma que el original [Link]() # Calcula la desviación típica
[Link]() # Elimina los valores inválidos [Link]() # Iterador perezoso de elementos. Equivalente a [Link]() [Link]() # Calcula la media
[Link](val) # Rellena los valores inválidos [Link]() # Devuelve el primer elemento de la Serie [Link]() # Calcula la mediana
[Link]() # Interpola los valores según distintos métodos [Link]() # Columnas del objeto sr.value_counts() # Calcula los valores que hay de cada tipo
sd.drop_duplicates() # Elimina los duplicados [Link](item) # Elimina un elemento del conjunto y lo devuelve [Link]() # Devuelve una Serie con el valor absoluto de cada elemento
[Link]() # Máscara con los duplicados [Link](sr) # Calcula la covarianza con otro objeto.
sr.is_monotonic # Indica si es una progresión creciente/decreciente El parámetro es obligatorio en las Series
[Link]() # Devuelve los índices de los elementos que no son cero [Link](sr) # Calcula la correlación con otro objeto.
[Link]() # Elimina las filas o columnas del objeto Operadores Binarios El parámetro es obligatorio sólo en las Series
[Link]() # Devuelve la media de la desviación absoluta de los valores
# Son operaciones entre 2 Series o DataFrames
[Link](n,col) # Devuelve los N elementos más altos.
En el DataFrame hay que indicar la columna
Operadores lógicos [Link](sd) # Suma a nivel de elemento [Link](n, col) # Devuelve los N elementos más pequeños.
# Operadores lógicos para usar en cualquier expresión booleana [Link](sd) # Resta a nivel de elemento En el DataFrame hay que indicar la columna
[Link](sd) # Multiplicación a nivel de elemento sd.pct_change() # Devuelve la Serie con los cambios porcentuales
[Link](sd) # División a nivel de elemento [Link]() # Rango de elementos
& # And [Link](sd) # Módulo a nivel de elemento [Link]() # Suma acumulada
| # Or [Link](sd) # Potencia a nivel de elemento [Link]() # Máximo acumulado
~ # Not [Link](sd,func) # Combina 2 objetos aplicando la función a sus elementos [Link]() # Mínimo acumulado
^ # Xor [Link]() # Redondea con el número de decimales que indiquemos [Link]() # Producto acumulado
[Link]() # Any [Link]() # Operador lógico < [Link]() # Devuelve un elemento en el percentil indicado
[Link] # All [Link]() # Operador lógico >
[Link]() # Operador lógico <=
[Link]() # Operador lógico >=
Selección [Link]() # Operador lógico != Modificación
[Link]() # Operador lógico ==
[Link]() # Devuelve el producto de sus valores según el eje que indiquemos # Permite modificar nuestros elementos
# Selecciona contenido del DataFrame
[Link](sd) # Devuelve el producto matricial
[Link][row_indexer,column_indexer] # Selecciona por índices de filas y columnas [Link]() # Permite cambiar el nombre o las etiquetas del índice
[Link][row_indexer,column_indexer] # Selecciona por etiquetas [Link](to_replace) # Reemplaza los valores de panda según el parámetro
[Link][row,column] # Método análogo a iloc para obtener un valor concreto Exportación [Link](sd) # Actualiza los valores según el objeto del parámetro
[Link][row,column] # Método análogo a loc para obtener un valor concreto [Link]() # Desplazamos los valores tantas posiciones como indiquemos
df[] # Permite mezclar las selecciones y realizar filtrados # Permite exportar los datos a un fichero
(por defecto 1)
sd.to_excel() # En formato excel
Transformaciones avanzadas df.to_csv() # En formato csv
Metainformación
# Transformaciones de las Series/DataFrames sd.to_dict() # En formato diccionario python
sd.to_json() # En formato json # Nos da información sobre el modelo que estamos manejando
sd.to_sql(tab, con) # A una base de datos indicando tabla y cadena de conexión
[Link](df) # Descompone un Dataframe, según la columnas que digamos sd.to_string() # En formato cadena de texto
[Link](index,col,val) # Crea una tabla auxiliar a partir de 3 columnas sd.to_clipboard() # Al portapapeles [Link] # Etiquetas del índice
pd.pivot_table(df) # Crea una tabla auxiliar con el DataFrame. Series.to_latex() # En formato latex [Link] # ndarray con los valores
Guarda los distintos niveles de la tabla con un índice múltiple. [Link] # Informa del tipo de datos de la Serie. Es equivalente a [Link]
También disponible en la clase DataFrame [Link] # Informa del número de filas de la Serie. También se pueda usar
[Link](left, right) # Fusiona 2 DataFrames como si fuera un join de base de datos.
También disponible en la clase DataFrame Gráficas con DataFrame y devuelve filas y columnas
[Link] # Número de elementos
[Link]() # Nos permite utilizar un índice con nuevas etiquetas # Permiten obtener gráficos de los datos del DataFrame [Link] # Puntero a los datos
[Link](obj) # Fusiona las columnas de 2 DataFrames en base a una clave/columna [Link] # Nombre de la Serie
[Link](to_append) # Añade más columnas al DataFrame [Link](indices,values) # Efectúa un put sobre los índices con los values suministrados
[Link](rule) # Permite realizar un remuestro en función del tiempo [Link]() # Gráfico
[Link](obj) # Concatena pandas en el eje que se decida [Link]() # Histograma de los datos
Pandas cheatsheet V1 - ene. 2019
Inicialización Selección Manejo de tablas
# Para usar pandas sólo se requiere importar la librería [Link][2, 2] [Link][pd.to_datetime('2018/01/01'), ['B', 'C']]
import pandas as pd
Melt
# En esta guía utilizaremos 4 posibles notaciones:
# pd : Aplica a la librería de pandas
df2
# df : Aplica únicamente a dataframes
# sr : Aplica a series (pueden ser series únicas o columnas de un DataFrame)
first last height weight
# sd : Aplica tanto a series como DataFrames
0 John Doe 5.5 130
# En todos los ejemplos salvo que se diga lo contrario pondremos únicamente
los atributos obligatorios 1 Mary Bo 6.0 150
Series [Link][0, 2] [Link][pd.to_datetime('2018/01/03'), ['C']
sr1 = [Link](['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']) [Link](id_vars=['first', 'last'])
first last variable value
Índice Valor
0 John Doe height 5.5
0 a
1 Mary Bo height 6.0
1 b
2 John Doe weight 130
2 c
3 Mary Bo weight 150
3 d
4 e
df1[df1.C >'i'] [Link](n=4)
5 f
6 g Pivot
7 h
8 i
df3
9 j
foo bar baz zoo
DataFrame 0 one A 1 x
1 one B 2 y
df1 = [Link]({'A': range(0, 50, 5),
'B': 10**2, 2 one C 3 z
'C': sr_a.values}, [Link](['a', 'b', 'g', 'h', 'i', 100]) [Link](df1.C>'c') q
3 two A 4
index=pd.date_range(start='2019-01-01', freq="D", periods=10))
4 two B 5 w
5 two C 6 t
Índice A B C
2019-01-01 0 100 a
2019-01-02 5 100 b
2019-01-03 10 100 c
2019-01-04 [Link](index='foo', columns='bar', values='baz')
15 100 d
2019-01-05 20 100 e
[Link]("'a'< C <'d'") [Link](items=['A', 'C']) bar A B C
2019-01-06 25 100 f foo
2019-01-07 30 100 g one 1 2 3
two 4 5 6
2019-01-08 35 100 h
2019-01-09 40 100 i
2019-01-10 45 100 j