Primer Parcial Parte # 2
Gabriel Serna Gonzlez
Ever Fuentes Echenique
Leonardo Ral Rojas Pinzn
Universidad Tecnolgica de Bolvar
Facultad de Ciencias Bsicas
Cartagena, Bolvar, Colombia
Ao 2017
PROBLEMA 1
De acuerdo al conjunto de datos que le corresponde, realice lo siguiente:
Que significa cada una de sus variables, cual es la naturaleza de cada una de
ellas. Realice una breve descripcin.
Solucin:
El conjunto de datos Ionosphere del UCI Machine Learning Repository est compuesto por 351
observaciones y 33 variables. Cada una de las variables son predictores y el objetivo eran
electrones libres en la ionosfera.
En la base de datos ionosphere se encuentra 33 variables con valores entre -1 y 1, con
excepcin de la variable 33 que solo tiene dos opciones de respuesta 1 y 2, esta es una
variable dicotmica. Las variables restantes son cuantitativas continuas.
ANALISIS DE LAS VARIABLES:
En la Figura 1-1 se puede observar que las variables pares tienen su mediana cerca de cero,
mientras que las impares estn por arriba de 0.5 con excepcin de la variable 29 y 31 que
estn por debajo de 0.5.
En la Figura 1-3 se observa que las medias de las variables pares son menores que las
medias de las variables impares, como se puede ver en el siguiente grfico:
Interprete a grandes rasgos las medidas de covarianza y correlacin:
La Figura 1-2 muestra la matriz de correlaciones entre las variables y se observa poca
correlacin lineal entre ellas, esto se nota por el color dbil de los nmeros. El determinante
de la matriz de varianzas y covarianzas es pequeo, lo que indica que los datos estn
centrados en el vector de medias.
Tiene valores atpicos? segn mahalanobis, mcd y mve. Observe por lo menos diez valores
atpicos (Si los tiene) e investigue de qu clase son.
Nuestros datos cuentan con tres datos tpicos como se puede observar en el siguiente diagrama de
caja y bigotes:
.
Segn MVE obtenemos 16 valores atpicos y los observamos en R:
Segn MCD obtenemos 10 valores atpicos
Luego se procede a eliminar los datos atpicos que se obtuvieron en los
mtodos aplicados. A continuacin se presentan los diagramas:
Realice la prueba de mardia para observar si es normal multivariada. Si concluye que no es
normal. Normalice usando znorm. Realice la prueba de hztest concluya. Realice este proceso
supervisado
Aplicando el test de mardia obtenemos que los datos no son de una distribucin normal
multivariada
En R:
Normalizando:
PROBLEMA 2
Ejercicio 3.19
#Para crear la matriz de la tabla 3.6 se procede as:
y1=c(47.8,46.4,46.3,45.1,47.6,52.5,51.2,49.8,48.1,45,51.2,48.5,52.1,48.2,49.6,50.7,47.2,5
3.3,46.2,46.3)
y2=c(48.8,47.3,46.8,45.3,48.5,53.2,53,50,50.8,47,51.4,49.2,52.8,48.9,50.4,51.7,47.7,54.6
,47.5,47.6)
y3=c(49,47.7,47.8,46.1,48.9,53.3,54.3,50.3,52.3,47.3,51.6,53,53.7,49.3,51.2,52.7,48.4,55.
1,48.1,51.3)
y4=c(49.7,48.4,48.5,47.2,49.3,53.7,54.5,52.7,54.4,48.3,51.9,55.5,55.0,49.8,51.8,53.3,49.
5,55.3,48.4,51.8)
Matriz=cbind(y1,y2,y3,y4)
Matriz
class(Matriz)
#para hallar la combinacin lineal de z y despus de w procedemos a crear el
vector, y luego multiplicarlo por la traspuesta de la matriz:
V=c(1,2,1,-3)
V
v=t(Matriz)
M=V%*%v
M
W=c(-2,3,-1,2)
W
E=W%*%v
E
#para hallar la media de la combinacin primero, hallamos el vector de las
medias y luego se multiplica por la traspuesta del vector para obtener la media
de la combinacin de z y despus de w
A=apply(Matriz,2,mean)
A
y=t(V)%*%A
y
x=t(W)%*%A
x
#Procedemos a calcular la matriz de covarianza y posteriormente la varianza
respectivamente de z, y la varianza de w.
N=cov(Matriz)
N
vz=t(V)%*%N%*%V
vz
vw=t(W)%*%N%*%W
vw
#procedemos a hallar la covarianza de z y w.
zw=t(V)%*%N%*%W
zw
#procedemos a hallar la correlacin de z y w
czw= zw/sqrt(vz*vw)
zw
Ejercicio 3.20.
# se definen las tres combinaciones lineales y se organizan en forma de matriz,
posteriormente se halla su transpuesta.
Z1=c(2,3,-1,4)
Z2=c(-2,-1,4,-2)
Z3=c(3,-2,-1,3)
Matriz1=cbind(Z1,Z2,Z3)
Matriz1
class(Matriz1)
B1=t(Matriz1)
B1
# El vector media de z viene dado por
G=B1%*%A
G
#la matriz de covarianza de z viene dada por
P=B1%*%N%*%Matriz1
P
#se representa la matriz con diagonal igual a la raz de los elementos de la
matriz de covarianza de z y los dems trminos 0
DC1=c(19.9830,0,0)
DC2=c(0,3.5144,0)
DC3=c(0,0,7.7238)
Matriz2=cbind(DC1,DC2,DC3)
Matriz2
# se halla la matriz inversa de (matriz2) y se procede a hallar el producto , para
hallar la matriz de correlacin de z
j=solve(Matriz2)
j
Rz=j%*%P%*%j
Rz
PROBLEMA 3
Considere la siguiente base de datos, el cual tiene la informacin de 8 trabajadores de una
oficina de abogados. En ella se relaciona la edad, las horas de trabajo semanal y el pago en
dlares por horas.
(1: ocasional, 0: permanente)
SOLUCION
Para realizar una imputacin por la media y la mediana lo primero que
hacemos es llamar nuestros datos:
data(trabajadores)
trabajadores
Agrupamos los datos por clases:
ocasionales=trabajadores$Clase==0
permanentes=trabajadores$Clase==1
tra0= trabajadores[ocasionales,1:3]
tra0
tra1= trabajadores[permanentes,1:3]
tra1
Verificamos los valores faltantes con la ayuda del software R:
summary(tra0)
CLASE 0
Realizamos la imputacin de los datos faltantes en las variables que se
observan en la tabla anterior; Edad(NA=1), Pago(NA=2) y Horas(NA=1)
IMPUTACION POR LA MEDIA
[Link]=impute(tra0,"mean")
[Link]
IMPUTACION POR LA MEDIANA
[Link]=impute([Link](tra0),"median")
[Link]
CLASE 1
Repetimos el proceso de imputacin de los datos faltantes en las variables que
se observan en la siguiente tabla; Edad(NA=1), Pago(NA=2) y Horas(NA=1)
IMPUTACION POR LA MEDIA
[Link]=impute(tra1,"mean")
[Link]
IMPUTACION POR LA MEDIANA
[Link]=impute([Link](tra1),"median")
[Link]