0% encontró este documento útil (0 votos)
133 vistas3 páginas

Manipulación de Datos en R para Bioingeniería

Este documento presenta 13 ejercicios para practicar la manipulación de vectores, matrices y bases de datos en R. Los ejercicios cubren temas como la creación y transformación de variables, resúmenes estadísticos, representaciones gráficas de datos, análisis de relaciones entre variables y modelización de regresión. El objetivo general es que los estudiantes aprendan a manipular y analizar datos usando el lenguaje R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
133 vistas3 páginas

Manipulación de Datos en R para Bioingeniería

Este documento presenta 13 ejercicios para practicar la manipulación de vectores, matrices y bases de datos en R. Los ejercicios cubren temas como la creación y transformación de variables, resúmenes estadísticos, representaciones gráficas de datos, análisis de relaciones entre variables y modelización de regresión. El objetivo general es que los estudiantes aprendan a manipular y analizar datos usando el lenguaje R.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Informática Médica

Bioingeniería, USC

UNIVERSIDAD SANTIAGO DE CALI - FACULTAD DE INGENIERÍA


BIOINGENIERÍA
INFORMÁTICA MÉDICA
Práctica No. 03. Manipulación de Bases de Datos en R
Lea completamente esta guía antes de realizar la práctica

1. OBJETIVOS

1.1. Manipular Vectores y Matrices en R.

1.2. Manipular Bases de datos en R.

2. ACTIVIDADES

2.1. Un conductor europeo de viaje por Estados Unidos apunta las millas recorridas por su coche
cada vez que llena el tanque de gasolina. La relación de las últimas 6 veces que lo ha llenado
es la siguiente:

65311 65624 65908 66219 66499 66821 67145 67447

a) Crea una variable llamada “millas” que contenga los datos anotados.
b) Crea una nueva variable “kms” y asígnale el valor de “millas” transformado en kms (una
milla son 1,609 km).
c) ¿Qué resultado produce la función diff aplicada sobre los datos anteriores?
d) ¿Qué funciones son adecuadas para resumir estos datos?

2.2. Una persona dispone de un contrato de pago mínimo telefónico, con el que cuenta poder
controlar sus gastos. A pesar de esto cada mes tiene que pagar una cantidad adicional, que
finalmente decide revisar. En el último año estas cantidades, en euros, han sido las
siguientes:

46 33 39 37 46 30 48 32 49 35 30 48

a) ¿Cuánto le ha costado la factura del último año?


b) ¿Cuánto ha pagado en promedio cada mes?
c) ¿Cuáles son las cantidades mínimas y máximas pagadas?
d) ¿En qué mes se realizó cada pago?
e) ¿Cuantos meses pagó más de 40 euros?
f) ¿Qué porcentaje del gasto total representa esta cantidad?

2.3. ¿Cuál será el resultado de ejecutar las siguientes instrucciones?:

a) x = c(1,3,5,7,9)
b) y = c(2,3,5,7,11,13)
c) x+1
d) y*2
e) length(x) and length(y)
f) x+y
g) sum(x>5) and sum(x[x>5])
h) sum(x>5 | x< 3)

Ing. Leonardo Antonio Bermeo Varón


Informática Médica
Bioingeniería, USC

i) y[3]
j) y[-3]
k) y[x]
l) (¿Que significa NA?)
m) y[y>=7]

2.4. Con los datos siguientes: 60 85 72 59 37 75 93 7 98 63 41 90 5 17 97

a) Haz un diagrama de porcentual


b) Obtén resúmenes numéricos de los datos.
c) ¿Qué diferencias hay entre summary(x) y fivenum(x)?

2.5. R permite generar datos aleatorios con gran facilidad mediante instrucciones específicas
que empiezan con “r” (rnorm, rpois, rbinom,...).

a) Genera 100 valores de una distribución normal con rnorm(100).


b) Realiza un histograma de los valores. Repite el proceso un par de veces. ¿Qué observas?
c) Realiza un resumen numérico de los datos.

2.6. De forma similar al ejercicio genera 30 valores de una distribución binomial de parámetros
(n=5 y p=1).

a) Representa los resultados con un diagrama de barras o de pastel.


b) Realiza un resumen numérico de los datos y compáralo con el del ejercicio anterior.
¿Qué deberías hacer para obtener un resumen similar?

2.7. El número de fallos en los 23 primeros intentos de puesta en órbita de un satélite fue: 0 1 0
NA 0 0 0 0 0 1 1 1 0 0 3 0 0 0 0 0 2 0 1 (NA significa ”not available” – se ha perdido el
dato).

a) Representa gráficamente estos datos. Qué representación es más adecuada una diagrama
boxplot o un diagrama de barras?
b) Tabula los datos y calcula el número medio de errores (Puedes tener que probar con
mean(x,[Link]=TRUE) o x[![Link](x)] para prescindir de los valores faltantes.

2.8. En una encuesta en la que se evalúa el funcionamiento de un curso se han recogido las
siguientes respuestas de 10 estudiantes a tres preguntas P1, P2 y P3:

Estudiante 1 2 3 4 5 6 7 8 9 10
P1 3 3 3 4 3 4 3 4 4 3
P2 5 5 2 2 5 2 2 5 5 2
P3 1 3 1 3 3 3 1 3 1 1

a) Entra los datos mediante c(), scan(), [Link]() y [Link]().


b) Tabula los resultados de cada pregunta por separado.
c) Realiza tablas de contingencia cruzadas para cada pregunta, de 2 en 2 y las 3 a la vez.
d) Haz un diagrama de barras apiladas de las preguntas 2 y 3.
e) Haz un diagrama de barras con las tres preguntas simultáneamente.

2.9. Carga (o instala primero y luego carga) el paquete UsingR

a) ¿Cuantos conjuntos de datos de trabajo contiene el paquete?

Ing. Leonardo Antonio Bermeo Varón


Informática Médica
Bioingeniería, USC

b) Representa gráficamente los datos contenidos en los conjuntos de datos (“datasets”)


bumpers, firstchi, math con un histograma y/o un boxplot.
c) Estima visualmente las medias, medianas y desviaciones estándar de cada conjunto de
datos y a continuación calcula los valores anteriores con las funciones adecuadas. ¿Qué
gráfico resulta de mayor ayuda para la aproximación?

2.10. El conjunto de datos brightness contiene información sobre el brillo de 963 estrellas.

a) Representa estos datos mediante un histograma y un gráfico de densidad superpuesto.


b) Representa gráficamente estos datos mediante un diagrama de caja (boxplot). ¿Dirias
que los datos presentan “outliers”? Cuál es el segundo menor outlier?
c) Deseamos conservar los datos que de ninguna forma puedan ser considerados atípicos.
Crea una nueva variable denominada [Link] que contenga tan solo los valores
que se encuentren por encima de la primera bisagra y por debajo de la cuarta.

2.11. El paquete MASS contiene la base de datos UScereal con información relativa a desayunos
con cereales.

a) (¿Cuál es el tipo de datos de cada variable?


b) Utiliza los datos de cereales para investigar algunas asociaciones entre sus variables:
i. La relación entre manufacturer y shelf.
ii. La relación entre fat y vitamins.
iii. La relación entre fat y shelf.
iv. La relación entre carbohydrates y sugars.
v. La relación entre fibre y manufacturer.
vi. La relación entre sodium y sugars.

2.12. El conjunto de datos mammals contiene datos sobre la relación entre peso corporal y peso
del cerebro.

a) ¿Cuál es la correlación lineal entre estas variables?


b) Representa los datos mediante la instrucción plot
c) Transforma los datos mediante la función log y repite el estudio. ¿Cómo cambian los
resultados?

2.13. Enlaza la base de datos emissions del paquete UsingR.

a) Estudia la relación entre las variables GDP (Gross Domestic Product), perCapita (pues
eso) y CO2 (Emisiones de CO2) de cada pais.
b) Construye un modelo de regresión para predecir las emisiones de CO2 a partir de cada
una de las variables.
c) Identifica los outliers y prueba de ajustar el modelo de nuevo sin ellos.

Ing. Leonardo Antonio Bermeo Varón

También podría gustarte