Guía Rápida de Manipulación de Datos con dplyr
Guía Rápida de Manipulación de Datos con dplyr
Aplique funciones de resumen a las columnas para crear una filas con valores duplicados. select(.data, …) Extraer columnas como una
nueva tabla de estadísticas de resumen. Las funciones de mtcars |> distinct(gear) tabla.
resumen toman vectores como entrada y devuelven un valor (ver mtcars |> select(mpg, wt)
atrás). slice(.data, …, .preserve = FALSE) Seleccionar
filas por posición. relocate(.data, …, .before = NULL, .after = NULL)
summary function Mover columnas a una nueva posición.
mtcars |> slice(10:15) mtcars |> relocate(mpg, cyl, .after = last_col())
summarise(.data, …)
Calcular tabla de resúmenes. slice_sample(.data, …, n, prop, weight_by =
mtcars |> summarise(avg = mean(mpg)) NULL, replace = FALSE) Seleccione filas al azar.
Use n para seleccionar un número de filas y Utilice estos ayudantes con select() y across()
prop para seleccionar una fracción de filas. e.j. select(mtcars, mpg:cyl)
count(.data, …, wt = NULL, sort = FALSE, name =
NULL) Cuente el número de filas de cada grupo mtcars |> slice_sample(n = 5, replace = TRUE) contains(match) num_range(prefix, range) :, e.g. mpg:cyl
definido por las variables de ... Además tally(). ends_with(match) all_of(x)/any_of(x, …, vars) -, e.g, -gear
slice_min(.data, order_by, …, n, prop, starts_with(match) matches(match) everything()
Mtcars |> count(cyl)
with_ties = TRUE) y slice_max() Seleccione las
filas con los valores más bajos y más altos. MANIPULAR VARIAS VARIABLES A LA VEZ
mtcars |> slice_min(mpg, prop = 0.25)
df <- tibble(x_1 = c(1, 2), x_2 = c(3, 4), y = c(4, 5))
Agrupar Casos slice_head(.data, …, n, prop) y slice_tail() across(.cols, .funs, …, .names = NULL) Resumir o
Seleccione la primera o la última fila. mutar varias columnas de la misma manera.
Utilice group_by(.data, ..., .add = FALSE, .drop = TRUE) para crear mtcars |> slice_head(n = 5)
una copia "agrupada" de una tabla agrupada por columnas en ... df |> summarise(across(everything(), mean))
Las funciones de dplyr manipularán cada "grupo" por separado y
combinarán los resultados. c_across(.cols) Calcule a través de columnas en
Operadores lógicos y booleanos que se pueden usar con filter() datos agrupados por filas.
df |>
== < <= [Link]() %in% | xor() rowwise() |>
mtcars |> mutate(x_total = sum(c_across(1:2)))
group_by(cyl) |> != > >= ![Link]() ! &
summarise(avg = mean(mpg)) Vea ?base::Logic y ?Comparison para obtener ayuda.
MAKE NEW VARIABLES
ORGANIZAR CASOS Apply vectorized functions to columns. Vectorized functions take
Utilice rowwise(.data, ...) para agrupar los datos en filas
individuales. Las funciones dplyr calcularán los resultados de cada arrange(.data, …, .by_group = FALSE) Ordene vectors as input and return vectors of the same length as output
fila. También aplique funciones a las columnas de lista. Consulte la las filas por valores de una columna o columnas (see back).
hoja de referencia rápida de tidyr para el flujo de trabajo de la lista (de menor a mayor), utilícela con desc() para vectorized function
de columnas. ordenar de mayor a menor.
mtcars |> arrange(mpg)
starwars |> mtcars |> arrange(desc(mpg)) mutate(.data, …, .keep = "all", .before = NULL,
rowwise() |> .after = NULL) compute new column(s). Also
mutate(film_count = length(films)) AÑADIR CASOS add_column().
mtcars |> mutate(gpm = 1 / mpg)
add_row(.data, …, .before = NULL, .after = mtcars |> mutate(gpm = 1 / mpg, keep = “none”)
ungroup(x, …) Devuelve una copia desagrupada de la tabla. NULL) Agregar una o más filas a una tabla.
g_mtcars <- mtcars |> group_by(cyl) cars |> add_row(speed = 1, dist = 1)
ungroup(g_mtcars) rename(.data, …) Rename columns. Use
rename_with() to rename with a function.
mtcars |> rename(miles_per_gallon = mpg)
CC BY SA Posit Software, PBC • info@[Link] • [Link] • Vea más en [Link] • Guía rápida HTML en [Link]/cheatsheets • dplyr 1.1.4 • Actualizado: 2024-05
Funciones Vectorizadas Funciones De Resumen Combinar Tablas
USAR CON MUTATE () PARA USAR CON SUMMARISE () COMBINAR VARIABLES COMBINAR CASOS
mutate() aplica funciones vectorizadas a las summarise() aplica funciones de resumen a las x y
A B C
columnas para crear nuevas columnas. Las columnas para crear una nueva tabla. Las A B C E F G A B C E F G
+ =
a t 1
funciones vectorizadas toman vectores como funciones de resumen toman vectores como a
b
t
u
1
2
a
b
t
u
3
2
a
b
t
u
1
2
a
b
t
u
3
2 x b u 2
NA
A1 B1 C A2 B2
que se va a dar a las columnas no
pmax() - max() por elemento
a
b u
t 1
2
d
b
w
u
coincidentes que tienen el mismo Utilice setequal() para comprobar si dos
También tibble::has_rownames() y nombre en ambas tablas. conjuntos de datos contienen exactamente las
pmin() - min() por elemento tibble::remove_rownames().
c v 3 a t
left_join(x, y, by = c("C" = "D"),
suffix = c("1", "2")) mismas filas (en cualquier orden).
CC BY SA Posit Software, PBC • info@[Link] • [Link] • Vea más en [Link] • Guía rápida HTML en [Link]/cheatsheets • dplyr 1.1.4 • Actualizado: 2024-05