Universidad de Concepcin
Facultad de Ciencias Fsicas y Matemticas
Ingeniera Estadstica
Tarea 1
Nombre alumna: Carolina Oate Cid
Asignatura: Tcnicas de Manejo de Base de Datos.
1- Se realizaron unas operaciones en R Project para resolver los
siguientes ejercicios.
a) pi*2^3-sqrt(4)
b) abs(12-17*2/3-9)
c) factorial(4)
d) log(2,10)
e) log(5)
f) exp(0.6931472)
Resultados: Se obtuvo
a) 23.13274
b) 8.333333
c) 24
d) 0.30103
e) 1.609438
f) 2
2- Si
con
, al resolverlo con R-Project
0.5303963
3- Calculando en R, si
10.48187
4- Dado
y dado
, se introducen como vectores en R de
la siguiente forma:
x <- c(3,-5,31,-1,-9,10,0,18)
y<- c(1,1,-3,1,-99,-10,10,-7)
La media, varianza, raz cuadrada y desviacin estndar de y.
mean(y) -13.25
var(y) 1236.786
sd(y) 35.16796
sqrt(y)
[1] 1.000000 1.000000 NaN 1.000000
NaN
NaN 3.162278
NaN
Tiene datos perdidos, ya que la raz de nmeros negativos
no existe en nmeros reales.
La media, varianza, raz cuadrada y desviacin estndar de x.
mean(x) 5.875
var(x) 174.9821 sd(x) 1.732051
sqrt(x)
[1] 1.732051 NaN 5.567764
NaN
NaN 3.162278 0.000000 4.242641
Tiene datos perdidos, ya que la raz de nmeros negativos
no existe en nmeros reales.
Correlacin entre
y .
Cor(x,y)
0.3659679
Extraccin de las entradas 2 y 7 de
x [2:7]
-5 31 -1 -9 10 0
Extraccin de todas las entradas excepto la 2 y 7 de
w <- c (-2,-7)
y[w]
1 -3 1 -99 -10 -7
Extraccin de las entradas de menores a -3 o mayores a 10.
y [ ( y < -3) | ( y > 10 ) ]
-99 -10 -7
Extraccin de las entradas de mayores a 0 y que sean nmeros
pares.
x [ x > 0 & x%%2 = = 0 ]
10 18
5- Se ingres en R una matriz de 4x3.
A= matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),nrow=4,byrow=true)
A[1,1:3]
123
Extrae la primera fila, desde la posicin 1 hasta la 3.
A[1:4,2]
2 5 8 11
Extrae la segunda columna, desde la posicin 1 hasta la 4.
A[3,3]
9
Extrae el dato que se encuentra en la posicin 3,3 de la matriz.
A[11]
9
Extrae el dato al contar 11 posiciones de la matriz.
A[20]
NA
No hay datos en esa posicin, la matriz es de 4x3.
A[5,4]
ERROR
El cdigo sobrepasa la dimensin de la matriz A que es de 4x3.
A[1,1,1]
Nmero incorrecto de dimensiones.
7- Se introduce con cdigos en R, en un DataFrame la siguiente
tabla.
peso <- c ( 76 , 67 , 55 , 57 , 87, 48 )
edad <- c ( 25 , 23 , 19 , 18 , 57 , 13 )
niveleducativo <- c ( "Lic" , "Bach" , "Bach" , "Bach" , "Dr" , "MSc" )
tabla7 <- data.frame ( peso , edad , niveleducativo )
tabla7
As creamos un archivo de datos de tipo DataFrame, se pueden trabajar y
analizar las variables como en cualquier tabla para anlisis.
8- Para cargar un archivo de datos en R, se utiliza el siguiente
cdigo
ejercicio8 <- read.table ( " EjemploAlgoritmosRecomendacion.csv" ,
header=TRUE , sep = ";" , dec = "," , row.names = 1 )
ejercicio8
attach ( ejercicio8 ) #Guarda las variables en la memoria sirve para
trabajar las variables directamente.
La dimensin del archivo es:
dim ( ejercicio8 )
100 9
Lo que quiere decir, que hay una columna de 100 datos y 9
columnas de cualidades.
Para desplegar las dos primeras columnas de la tabla, se ingresa el
siguiente cdigo en R.
a<- ejercicio8[, 1 : 2 ]
El ejemplo se muestra en la siguiente imagen, cabe destacar que los
nombres en la tabla continan hasta el individuo 100, que por motivo
de espacio no se colocarn.
summary(ejercicio8)
ste cdigo se utiliza en R, para obtener un resumen de las
variables de nuestro archivo de datos.
Como podemos observar, el cdigo summary nos entrega el mnimo
(min), la mediana (median), el promedio (mean), etc.
El siguiente cdigo nos muestra caractersticas de nuestras variables,
str(ejercicio8)
Podemos decir que todas son variables numricas, adems nuestra
Tabla de Datos es de tipo Data.Frame con 100 observaciones y 9
variables.
Nos piden obtener los valores de la Media(mean) y de la Desviacin
Estndar(sd) de cada variable de la tabla.
Desviaciones Estndar.
Medias.
Destacaremos que las medias de cada variable, se
encontraban antes en el resumen de los datos(summary), sin
embargo, podemos corroborar de que los valores son correctos
con el cdigo mean.
Anlisis de Componentes Principales.
#Instalamos una librera
install.packages( " FactoMineR " , dependencies = TRUE )
library ( FactoMineR )
res <- PCA (ejercicio8 , scale.unit = TRUE , ncp = 5 , graph = FALSE)
plot ( res, axes=c(1,2), choix="ind", col.ind="red", new.plot=TRUE)
plot(res, axes=c(1,2), choix="var", col.var="blue", new.plot=TRUE)
Los dos plots anteriores, son dos dimensiones que logran
explicar las otras 9 variables a travs de un grfico.
9- Cargamos en R-Project una tabla de datos que se encuentra en el
archivo SAheartv.csv.
ejercicio9 <- read.csv ( file = " SAheart.csv " , header=TRUE,sep= ";" ,
dec = ".", na.strings = "NA",check.names = TRUE)
ejercicio9
attach ( ejercicio9 ) #Guardamos las variables en la memoria, para
trabajarlas directamente.
Si queremos conocer la dimensin de la Tabla, usamos el cdigo:
dim(ejercicio9)
462 10
Lo que significa que tenemos 462 datos de individuos y 10
columnas de caractersticas de stos.
Queremos desplegar las tres primeras columnas de nuestra Tabla de
Datos, lo realizamos con el siguiente cdigo en R:
ejercicio9[ , 1:3 ]
Nos
quedaran
las
tres
columnas llamadas, sbp, tobacco y ldl, por
razones de espacio la imagen se corta hasta
el individuo 21, hay que tener presente que la
lista llega hasta el 462.
summary(ejercicio9); Resumen de nuestra Tabla de Datos, donde
podremos ver las medias, promedio, mnimos de nuestras variables y
algunos otros datos.
str(ejercicio9); ste cdigo nos muestra caractersticas de cada
variable, como podemos ver en la siguiente imagen, por ejemplo,
tobacco es una variable numrica.
Queremos correlacionar las variables tobacco y alcohol
cor(tobacco,alcohol)
0.2008134
sbp
Mnimo:
Mximo:
Media:
Mediana:
min (sbp)
max(sbp)
mean(sbp)
median(sbp)
101
218
138.3268
134
tobacco
Mnimo: min (tobacco)
0
Mximo: max(tobacco)
31.2
Media:
mean(tobacco)
3.6356
Mediana: median(tobacco) 2
ldl
Mnimo:
Mximo:
Media:
Mediana:
min (sbp)
max(sbp)
mean(sbp)
median(sbp)
0.98
15.33
4.740325
4.34
adiposity
Mnimo: min (sbp)
Mximo: max(sbp)
Media:
mean(sbp)
Mediana: median(sbp)
6.74
42.49
25.40673
26.115
typea
Mnimo:
Mximo:
Media:
Mediana:
min (sbp)
max(sbp)
mean(sbp)
median(sbp)
13
78
53.1039
53
obesity
Mnimo:
Mximo:
Media:
Mediana:
min (sbp)
max(sbp)
mean(sbp)
median(sbp)
14.7
46.58
26.04411
25.805
alcohol
Mnimo: min (sbp)
Mximo: max(sbp)
Media:
mean(sbp)
Mediana: median(sbp)
0
147.19
17.04439
7.51
age
Mnimo:
Mximo:
Media:
Mediana:
15
64
42.81602
45
min (sbp)
max(sbp)
mean(sbp)
median(sbp)
chd
No: 302
S: 160
Podemos observar que con el cdigo summary
obtenemos todos los datos anteriores.
plot(x,y)
x=tobacco y=alcohol