0% encontró este documento útil (0 votos)

14 vistas17 páginas

PR 6

FEW

Cargado por

David

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

14 vistas17 páginas

PR 6

FEW

Cargado por

David

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Fastbook 06

Programación en R
Trabajando con dataframes (I)
Edix Educación

06. Trabajando con dataframes (I)

Tal y como hemos comentado en otras ocasiones, la presente asignatura está

dividida en dos partes principales.

En la primera (del fastbook 01 al 04) se han sentado las bases del lenguaje de
programación R. Con este sexto fastbook estrenamos la fase 2, cuyo foco se sitúa en
la práctica de analytics.

¡Empezamos!

Autor: Juan Jiménez

Análisis exploratorio de datos Orden del dataframe

Transformaciones estructurales Renombrado de columnas

Introducción a dplyr Modi cación y creación de columnas

Selección de columnas Conclusiones

Filtrado de muestras
Lesson 1 of 9

Análisis exploratorio de datos

Edix Educación

Antes de nada, conviene realizar una parada que nos sirva de introducción a lo que vamos a ver
en esta última parte de la asignatura.

La siguiente imagen, tal y como se mostró en el fastbook 01, contiene el ﬂujo de tareas a las que
se enfrenta un data scientist en su trabajo diario.

1 La importación de datos ya ha sido abordada, por lo que ya contamos con ese

conocimiento.

2 Aunque ya hemos trabajado con algunos conceptos de orden y transformación de

dato, tanto este como el siguiente fastbook vuelven a poner el foco en esta tarea,
pero desde una perspectiva más avanzada.
3 Debido a su magnitud, la modelización y visualización de datos está cubierta por
otras asignaturas del programa.

4 Por último, los dos últimos fastbooks nos enseñarán a construir informes desde R
que nos sirvan para comunicar nuestros resultados de una forma eﬁciente y
elegante.

Tanto en este como en el siguiente fastbook vamos a centrarnos en la manipulación y

transformación avanzada de dataframes. Para ello, haremos uso de dos paquetes que están
diseñados para trabajar con este tipo de estructuras: tidyr y dplyr.
Lesson 2 of 9

Transformaciones estructurales
Edix Educación

La primera transformación que vamos a aprender necesita del paquete tidyr, y nos permite
cambiar el formato de nuestros datos de long a wide y viceversa. Pero ¿qué son estos formatos?

Cuando trabajamos con datos estructurados (tablas), podemos diferenciar entre dos tipos de
información: aquella que nos sirve para identificar y definir a nuestra muestra, y la que nos
aporta información sobre sus características y atributos.
En muchas ocasiones, la información que identifica las muestras está constituida por más de
una columna.

Los dos ejemplos que acabamos de ver usan formato wide: cada atributo tiene su columna.
El formato long condensa todos los atributos en dos columnas: nombre de atributo y valor.
Debido a esto, una misma identiﬁcación (muestra) aparece en tantas ﬁlas como parámetros
tenga. De ahí viene el término long.

Para movernos entre estos formatos vamos a usar las funciones pivot_longer() y pivot_wider()
que, como ya hemos comentado, forman parte del paquete tidyr.

Función pivot_longer()

Parámetro Clase Deﬁnición

Dataframe en formato wide que queremos

data dataframe
transformar a formato long.

Columnas que queremos pasar a formato

cols vector long y que por lo tanto pasarán a formar
parte de la estructura atributo-valor.

Nombre de la columna que va a albergar el

names_to vector
nombre de los atributos.

Nombre de la columna que va a albergar el

values_to vector
valor de los atributos.
Función pivot_wider()

Parámetro Clase Deﬁnición

Dataframe en formato long que queremos

data dataframe
transformar a formato wide.

Nombre de las columnas que identiﬁcan

id_cols vector
nuestra muestra.

Nombre de la columna a partir de la cual

names_from vector
vamos a extraer el nombre de cada atributo.

Nombre de la columna a partir de la cual

values_from vector
vamos a extraer el valor de cada atributo.
Lesson 3 of 9

Introducción a dplyr
Edix Educación

El resto de las transformaciones que vamos a ver hacen uso del paquete dplyr. Antes de pasar a
ellas, es necesario realizar una pequeña introducción al uso y las peculiaridades de este paquete.

En primer lugar, debemos hablar sobre el operador pipe.

El operador pipe sirve para pasar un determinado parámetro a la

función que queremos ejecutar. En la práctica se utiliza para concatenar
la aplicación de múltiples funciones. Su símbolo es %>%.

Ejemplo de uso del operador pipe.

En segundo lugar, tenemos que mencionar los objetos tibble.

Son una estructura de datos muy similar a un dataframe (rectangular y
organizada en las y columnas) que se integra dentro del paquete
tibble. Dplyr importa este paquete de forma automática porque, aunque
puede trabajar con dataframes ordinarios, está diseñado para hacerlo
con tibbles.

¿Cuáles son las diferencias entre un dataframe (forma parte del R base) y un tibble (del paquete
tibble)?

El método print es distinto. Los tibbles incluyen ciertas mejoras que facilitan el
trabajo: muestran el número de ﬁlas y columnas, el tipado de cada variable y los NA
resaltados en color rojo.

Si bien los tibble pueden utilizar rownames, por defecto los eliminan y se
desaconseja usar ese atributo.

Los tibble son más estrictos a la hora de acceder a una columna. Si en un dataframe
queremos acceder a la columna edad y escribimos $ed, va a funcionar. Sin embargo,
si se trata de un tibble, mostrará un error.

El uso de las funciones data.frame() y tibble() nos permiten

movernos de un tipo de objeto a otro.

Tras conocer estos dos aspectos, es hora de pasar a la acción a través de las funciones más
importantes que se integran dentro de este paquete.
Lesson 4 of 9

Selección de columnas
Edix Educación

La función select() de dplyr sirve para quedarnos con un determinado conjunto de columnas de
nuestro dataframe o tibble.

Recibe el dataframe o tibble y el nombre de las distintas variables que queremos seleccionar.
Lesson 5 of 9

Filtrado de muestras
Edix Educación

La función filter() de dplyr sirve para quedarnos con las muestras (filas) que cumplan con unas
determinadas condiciones de filtrado que se construyen en base al valor de las variables.
Lesson 6 of 9

Orden del dataframe

Edix Educación

La función arrange() de dplyr sirve para ordenar las muestras en base a los valores de una o más
columnas.

Recibe el dataframe o tibble y el nombre de las distintas variables por las que lo queremos
ordenar. Las columnas que situemos primero tendrán mayor prioridad. Podemos usar la función
desc() para indicar orden descendente.
Lesson 7 of 9

Renombrado de columnas
Edix Educación

La función rename() de dplyr sirve para modiﬁcar el nombre de las columnas de nuestra tabla.

Para ello, tendremos que introducir el dataframe o tibble, así como los cambios de nombre que
queremos llevar a cabo. El formato a usar debe ser nombre_nuevo = nombre_antiguo.
Lesson 8 of 9

Modi cación y creación de columnas

Edix Educación

La función mutate() es una de las más potentes de dplyr. Nos permite modiﬁcar y construir
nuevas variables en nuestro dataframe.

Su funcionamiento se basa en recibir el dataframe y la deﬁnición de las variables que queremos

construir o modiﬁcar. Dicha deﬁnición puede ser un valor constante, un vector o, lo que resulta
más interesante, construirse a partir de otras columnas.
Lesson 9 of 9

Conclusiones
Edix Educación

En este fastbook hemos aprendido a utilizar dos nuevos paquetes que nos ayudan a desarrollar
tareas relacionadas con la transformación del dato. En concreto, estos paquetes se centran
en dataframes y tibbles, que son el tipo de estructura R con el que cualquier analista consume el
99% de su tiempo.

Las transformaciones que hemos abordado son:

Transformaciones estructurales (formatos wide y long).

Selección de columnas.

Filtrado de muestras.

Orden.

Renombrado.

Modiﬁcación.

Como ya os he adelantado, el siguiente fastbook es una continuación del presente. En él

abordaremos nuevos conceptos de manipulación y transformación de dataframes para que seáis

capaces de resolver retos analíticos desde la programación, que es, al ﬁn y al cabo, el objetivo de
esta asignatura.

En concreto, trabajaremos la agregación de datos y el cruce de tablas.

¡E n h o r a b u e n a ! Fa s t b o o k s u pe r a d o
Creamos Digital Workers

También podría gustarte

Módulo 3. Manejo de Datos. Introducción A Tidyverse
Aún no hay calificaciones
Módulo 3. Manejo de Datos. Introducción A Tidyverse
9 páginas
Introducción a R: Funciones y Estructuras
Aún no hay calificaciones
Introducción a R: Funciones y Estructuras
5 páginas
Introducción a R para Estudiantes
Aún no hay calificaciones
Introducción a R para Estudiantes
37 páginas
Introducción A "R"
Aún no hay calificaciones
Introducción A "R"
12 páginas
Notas R-Isaac
Aún no hay calificaciones
Notas R-Isaac
7 páginas
Edición y Limpieza de Datos en Rstudio
Aún no hay calificaciones
Edición y Limpieza de Datos en Rstudio
25 páginas
Unidad 1
Aún no hay calificaciones
Unidad 1
28 páginas
Guía de Data Frames en R
Aún no hay calificaciones
Guía de Data Frames en R
14 páginas
Operaciones Básicas en R y RStudio
Aún no hay calificaciones
Operaciones Básicas en R y RStudio
82 páginas
Práctica 1 - Empezando en R
Aún no hay calificaciones
Práctica 1 - Empezando en R
5 páginas
Introducción a R y RStudio
100% (1)
Introducción a R y RStudio
27 páginas
DataFrame R
Aún no hay calificaciones
DataFrame R
24 páginas
Introduccion A R Studio
Aún no hay calificaciones
Introduccion A R Studio
4 páginas
02.R Programming DataFrames PDF
100% (1)
02.R Programming DataFrames PDF
21 páginas
Introducción a Tibbles en R
Aún no hay calificaciones
Introducción a Tibbles en R
24 páginas
Uso de R para Manipulación de Datos
Aún no hay calificaciones
Uso de R para Manipulación de Datos
3 páginas
Tipos y operaciones de datos en R
Aún no hay calificaciones
Tipos y operaciones de datos en R
20 páginas
02 - Introducción A Tidyverse
Aún no hay calificaciones
02 - Introducción A Tidyverse
15 páginas
S01 Repaso Dplyr
Aún no hay calificaciones
S01 Repaso Dplyr
18 páginas
Manipulación de datos con dplyr en R
Aún no hay calificaciones
Manipulación de datos con dplyr en R
24 páginas
Comandos Estadistica en R
Aún no hay calificaciones
Comandos Estadistica en R
86 páginas
Manejo de Archivos y Dataframes en R
Aún no hay calificaciones
Manejo de Archivos y Dataframes en R
36 páginas
1-Elementos Básicos de R (Día 1)
Aún no hay calificaciones
1-Elementos Básicos de R (Día 1)
7 páginas
Operaciones Básicas en R: Guía Práctica
Aún no hay calificaciones
Operaciones Básicas en R: Guía Práctica
40 páginas
R y EPH: Introducción y Funciones Básicas
Aún no hay calificaciones
R y EPH: Introducción y Funciones Básicas
17 páginas
Creación de Dataframes en R
Aún no hay calificaciones
Creación de Dataframes en R
13 páginas
Comandos R para Estadísticas Sociales
Aún no hay calificaciones
Comandos R para Estadísticas Sociales
10 páginas
Analisis Exploratorio de Datos
Aún no hay calificaciones
Analisis Exploratorio de Datos
28 páginas
Creación y manipulación de tablas en R
Aún no hay calificaciones
Creación y manipulación de tablas en R
23 páginas
Curso - Analisis Estadístico de Datos Usando R Studio - 20182
Aún no hay calificaciones
Curso - Analisis Estadístico de Datos Usando R Studio - 20182
91 páginas
Listas, Factores y Data Frames en R
Aún no hay calificaciones
Listas, Factores y Data Frames en R
10 páginas
Análisis Estadístico con R: Guía Completa
Aún no hay calificaciones
Análisis Estadístico con R: Guía Completa
99 páginas
Introducción al Análisis Estadístico con R
Aún no hay calificaciones
Introducción al Análisis Estadístico con R
41 páginas
Capítulo 3 Conceptos Básicos de R Lms
Aún no hay calificaciones
Capítulo 3 Conceptos Básicos de R Lms
33 páginas
Introducción a R: Paquetes y Objetos
Aún no hay calificaciones
Introducción a R: Paquetes y Objetos
6 páginas
Sintaxis
Aún no hay calificaciones
Sintaxis
3 páginas
Introducción a R y RStudio
Aún no hay calificaciones
Introducción a R y RStudio
43 páginas
Estructuras de Datos en R: Listas, Vectores y Data Frames
Aún no hay calificaciones
Estructuras de Datos en R: Listas, Vectores y Data Frames
8 páginas
Gestión de Datos y ETL en R
Aún no hay calificaciones
Gestión de Datos y ETL en R
44 páginas
Taller 1 de R Studio
Aún no hay calificaciones
Taller 1 de R Studio
28 páginas
Listas y Análisis de Datos en R
Aún no hay calificaciones
Listas y Análisis de Datos en R
46 páginas
Introducción a R para Estadística
100% (1)
Introducción a R para Estadística
35 páginas
Importar y Exportar Datos en R
Aún no hay calificaciones
Importar y Exportar Datos en R
47 páginas
2 ManipulacionDeDatos PDF
Aún no hay calificaciones
2 ManipulacionDeDatos PDF
4 páginas
Introducción a R: Vectores y Datos
Aún no hay calificaciones
Introducción a R: Vectores y Datos
10 páginas
Obtener Archivo Recurso
Aún no hay calificaciones
Obtener Archivo Recurso
19 páginas
Análisis de Datos con Tidyr
Aún no hay calificaciones
Análisis de Datos con Tidyr
21 páginas
Manipulación de datos con dplyr en R
Aún no hay calificaciones
Manipulación de datos con dplyr en R
26 páginas
Introduccion R 2022
Aún no hay calificaciones
Introduccion R 2022
20 páginas
Guia
Aún no hay calificaciones
Guia
12 páginas
Resumen Curso R
Aún no hay calificaciones
Resumen Curso R
7 páginas
Librerías R para limpieza de datos
Aún no hay calificaciones
Librerías R para limpieza de datos
7 páginas
Introducción a R y R Studio 2023
Aún no hay calificaciones
Introducción a R y R Studio 2023
36 páginas
Exploración de La Base de Datos
Aún no hay calificaciones
Exploración de La Base de Datos
20 páginas
Lectura y escritura de datos en R
Aún no hay calificaciones
Lectura y escritura de datos en R
4 páginas
Introducción a data.frames en R
Aún no hay calificaciones
Introducción a data.frames en R
9 páginas
RParaAnalisisDeDatos PDF
Aún no hay calificaciones
RParaAnalisisDeDatos PDF
32 páginas
Ma 7 1
Aún no hay calificaciones
Ma 7 1
15 páginas
Ma 9 1
Aún no hay calificaciones
Ma 9 1
19 páginas
Ma 10 1
Aún no hay calificaciones
Ma 10 1
20 páginas
SCD 2
Aún no hay calificaciones
SCD 2
27 páginas
Python 01
Aún no hay calificaciones
Python 01
46 páginas
Python 06
Aún no hay calificaciones
Python 06
55 páginas
Microcurrículo Matemáticas 8° Grado
Aún no hay calificaciones
Microcurrículo Matemáticas 8° Grado
9 páginas
Análisis de Probabilidades en Facturas
Aún no hay calificaciones
Análisis de Probabilidades en Facturas
28 páginas
Equilibrio Químico: Conceptos Clave y Aplicaciones
Aún no hay calificaciones
Equilibrio Químico: Conceptos Clave y Aplicaciones
10 páginas
Medición de Ángulos en Bloque V
Aún no hay calificaciones
Medición de Ángulos en Bloque V
12 páginas
Preguntas de Olimpiada Interna
Aún no hay calificaciones
Preguntas de Olimpiada Interna
10 páginas
Prueba Fracciones Quinto F1
Aún no hay calificaciones
Prueba Fracciones Quinto F1
6 páginas
Diseño Factorial General
100% (1)
Diseño Factorial General
10 páginas
Ensayo Triaxial en Mecánica de Suelos
Aún no hay calificaciones
Ensayo Triaxial en Mecánica de Suelos
20 páginas
Evaluación de Proyectos Viales con HDM-III
Aún no hay calificaciones
Evaluación de Proyectos Viales con HDM-III
0 páginas
ASTM D 1633 00 Espanol PDF
100% (3)
ASTM D 1633 00 Espanol PDF
5 páginas
Regulador Sipart DR21
Aún no hay calificaciones
Regulador Sipart DR21
29 páginas
PLANIFICACION ADAPTACION - MATEMATICA - 1RO BGU-signed
Aún no hay calificaciones
PLANIFICACION ADAPTACION - MATEMATICA - 1RO BGU-signed
6 páginas
Comandos Básicos de Arduino PDF
Aún no hay calificaciones
Comandos Básicos de Arduino PDF
10 páginas
Matemáticas en la Antigua Egipto
Aún no hay calificaciones
Matemáticas en la Antigua Egipto
37 páginas
Transformadas de Laplace y Series de Fourier
Aún no hay calificaciones
Transformadas de Laplace y Series de Fourier
6 páginas
Optimización Recuperación Plata Minera
Aún no hay calificaciones
Optimización Recuperación Plata Minera
105 páginas
Formulación de Objetivos de Investigación
Aún no hay calificaciones
Formulación de Objetivos de Investigación
20 páginas
Ley Dulong-Petit
Aún no hay calificaciones
Ley Dulong-Petit
5 páginas
Syllabus Ma195 Metodos Numerico 2012-I Coordinador Leonardo Flores
Aún no hay calificaciones
Syllabus Ma195 Metodos Numerico 2012-I Coordinador Leonardo Flores
5 páginas
Criterio Del Filtro de Terzhagui
Aún no hay calificaciones
Criterio Del Filtro de Terzhagui
9 páginas
Cultura y Estética Artística
100% (1)
Cultura y Estética Artística
7 páginas
2016 406 Res Agip
Aún no hay calificaciones
2016 406 Res Agip
16 páginas
Momento de una Fuerza en Física
Aún no hay calificaciones
Momento de una Fuerza en Física
5 páginas
Métodos de Factorización de Polinomios
90% (10)
Métodos de Factorización de Polinomios
5 páginas
Assignment 1 Week 1 Eduin Herrera
Aún no hay calificaciones
Assignment 1 Week 1 Eduin Herrera
6 páginas
Tabla de Curvas Horizontales y Datos
Aún no hay calificaciones
Tabla de Curvas Horizontales y Datos
1 página
Viscosidad y Fenómenos de Transporte
Aún no hay calificaciones
Viscosidad y Fenómenos de Transporte
96 páginas
Calendario Matemático Resuelto - Mayo
Aún no hay calificaciones
Calendario Matemático Resuelto - Mayo
1 página
Diseño de Sonda Pasiva para Osciloscopio
Aún no hay calificaciones
Diseño de Sonda Pasiva para Osciloscopio
15 páginas
Analisis Estatico - Brazo de Excavadora
50% (2)
Analisis Estatico - Brazo de Excavadora
32 páginas