PAQUETES A CARGAR PARA PC
library(psych)
library(GGally)
library(PerformanceAnalytics)
library(corrplot)
library(rstatix)
bootstrap
exactRankTests
tseries
forecast
lmtest
nortest
ggfortify
7/4
Si queremos que se cumplan los supuestos el p-valor en la prueba de normalidad y
homocedasticidad debe ser mayor o igual que alfa (nivel de significación)
El análisis de varianza me da una prueba F
Si no rechazo H0 puedo elegir cualquier programa de capacitación
CM: CUADRADO MEDIO
SC: SUMA DE CUADRADOS
COMPONENTES DE EXPERIMENTO
RR: REGIÓN DE RECHAZO
chical= 1.0218
Chicrit= 8.947287
11/4
SUPUESTOS:
Normalidad de errores, homocedasticidad e independencia
28/4
CORRER A LA VEZ
CORRER A LA VEZ TMB
TMB CORRER
correr todo
1 xq es estatal, si hubiera sido particular es 2
lo encerrado de rojo se tiene q cambiar
pruebas no paramétricas se le conocen como pruebas de distribución libre
18/4
PRUEBAS CHI CUADRADO
Asimétrica hacia la derecha.
Es asintótica con respecto al eje x.
Toma solo los valores positivos.
2/5/22
PRUEBAS NO PARAMÉTRICAS
1- PRUEBA DE WILCOXON
- Analiza una variable de una muestra aleatoria.
- Evalúa la media poblacional.
- Es una prueba alternativa a las pruebas z o t.
H0:Me=Me0 H0:Me≤Me0 H0:Me≥Me0
H1:Me≠Me H1:Me>Me0 H1:Me<M0
Ejm:
H0:Me≥3 En R rank
H1:Me<3
α p-valor
X Número de artículos adquiridos
x Xi~Me0 Rankear
5 5-3=2 2.5
8 8-3 4
2 2-3 1
1 1-3 2.5
3 3-3=0
9 9-3=6 5
W=2.5+4+5=11.5
1.
H0:Me≥3
H1:Me<3
2. α =0.05
3. V=24584 p-valor=8.96x10−15 x 0.00<α se rechaza H0
R.N.R de H0 R.R de H0
V.C.
4. Conclusión
2- PRUEBA DE MANN WHITNEY
- Permite comparar la mediana de 2 poblaciones independientes.
H0:Me1=Me2 H0:Me1≤Me2 H0:Me1≥Me2
H1:Me1≠Me2 H1:Me1>Me2 H1:Me1<M2
H0:Me1-Me2=0
H1:Me1-Me2≠0
- Es la alternativa a la prueba z o t para z muestras independientes.
Ejm:
A B
5(5) 5(5)
8(7) 5(5)
3(2) 2(1)
4(3) n1=4
S1=17 n2=3
4 (4 +1)
W=17-
2
SI EN LA PC NO TE DICEN NADA SE ASUME QUE EL PRIMER GRUPO ES EL GRUPO DE INTERÉS.
H0:Mec≤Mes
H1:Mec>Mes
α =0.05
p-valor=0.6214 > α no se rechaza H 0
Conclusión
3- PRUEBA DE KRUSKAL-WALLIS
- Permite comparar la mediana de K poblaciones independientes.
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k
- Es la prueba alternativa de Diseño Completamente al Azar (DCA)
H0:Me1=Me2=Me3
H1: Al menos una Mei es diferente a las demás i=1,2,3
α =0.05
2
X c=2.293 p-valor=0.318>α no se rechaza H0
Como X 2c=2.293< X 2c=5.99 no se rechaza H0
Conclusión
4- PRUEBA DE FRIEDMAN
- Es la prueba alternativa al Diseño de Bloques Completamente al Azar (DBCA)
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k
X2~X2(k-1)
Y: Puntaje del postulante en una escala de la S
Evalua. P1 P2 P3
E1 4(2.5) 4(2.5) 3(1)
E2 2(2) 1(1) 3(3)
Bloques E3 5(3) 4(1.5) 4(1.5)
E4 3(2) 3(2) 3(2)
9/5
SI LA PENDIENTE SALE NEGATIVA LA CORRELACIÓN SALE NEGATIVA.
SI LA PENDIENTE SALE POSITIVA LA CORRELACIÓN SALE POSITIVA.
PREDICCIÓN
Confidence o valor medio
Prediction o valor individual
12/5
19/5
ES BOOTSTRAP (PRUEBAS NO PARAMÉTRICAS) SI TE DICE QUE USA TANTAS MUESTRAS
BOOTSTRAP, USA UNA SEMILLA
ES WILCOXON SI DICE PROBAR SI LA MEDIANA ES MAYOR A CIERTO VALOR
EN CLASE 4-2 R ESTÁ TODO LO DE BOOTSTRAP
[Link](aquí va la semilla que dan de dato)
media: mean, varianza: var
estimador de la media
error estándar
DE 4500 A
4.5 PORQUE DATO DICE QUE ESTÁ EN MILES
H0 ES LO CONTRARIO DE H1, MENOR O IGUAL, O IGUAL
H1 ES MAYOR, MENOR O DIFERENTE DE
COMO EN H1 ES MAYOR A ES g: (si fuera menor sería l, si fuera diferente sería t)
Wilcoxon ES PARA 1 MUESTRA
Mann Whitney ES PARA 2 MUESTRAS
Kruskal Wallis MÁS DE DOS MUESTRAS. ES PARA K MUESTRAS por eso es equivalente al DCA
Friedman ES PARA K MUESTRAS PERO EN BLOQUES por eso es equivalente al DBCA
Spearman ES PARA ANALIZAR CORRELACIONES
D: DORADA
C: CLÁSICA
EL 102 SE OBTIENE DE DO QUE ES DORADAS
EN CLASE 5-2 R ESTÁ TODAS LAS PRUEBAS NO PARAMÉTRICAS (INCLUYE CORRELACIÓN DE
SPEARMAN)
EN CLASE 7-1 R ESTÁ TODO LO DE REGRESIÓN
PREDICTION ES PARA UN INDIVIDUO
CONFIDENCE VARIOS
fit: valor estimado, valor puntual
: intervalo
SI NO ME DAN EL PORCENTAJE DE CONFIANZA TE PREGUNTAN POR EL fit
SI ES MAYOR A ALFA DESCARTO EL CUADRÁTICO QUE ES EL MAYOR Y PASO AL SIGUIENTE
MAYOR QUE ES EL EXPONENCIAL
26/5
sol pc2
datos<-[Link]("clipboard")
#Pregunta 5
sm<-subset(datos,distrito=="San Miguel")
RNGkind([Link]="Rounding")
[Link](54)
library(bootstrap)
esti<- bootstrap(sm$Y,1350,var)
var_sam<-esti$thetastar
esboot<-mean(var_sam)
eeboot<-sd(var_sam)
#Intervalos de confianza
nc<-0.95
alfa<-1-nc
quantile(var_sam,c(alfa/2,1-alfa/2), type = 6)
sqrt(quantile(var_sam,c(alfa/2,1-alfa/2), type = 6))
#Prueba de hipótesis
phv <- function(datos,B)
{
res1=c()
res2=c()
for (i in 1:B) {
n=length(datos)
data=sample(datos,n,replace=T)
res1[i]=varTest(data,[Link] = 21, alternative = "l")$[Link]
res2[i]=varTest(data,[Link] = 21, alternative = "l")$statistic
}
pvalor=mean(res1)
sta=mean(res2)
return(list(pvalor=pvalor,sta=sta))
}
RNGkind([Link]="Rounding")
[Link](54)
phv(sm$Y,1350)
lm<-subset(datos,distrito=="La Molina")
library(exactRankTests)
[Link](lm$Y,mu=73,alternative="l")
PREGUNTA 4
dis<-c("San Isidro", "San Luis", "Pueblo Libre")
subc<-subset(datos, datos$distrito%in%dis)
library(agricolae)
kruskal(subc$Y,subc$distrito,console=T)
qchisq(0.01,2,[Link] = F)
estadístico de prueba =
su<-subset(datos,distrito=="Surco")
mode<-lm(Y~X2,data=su)
summary(mode)
library(nortest)
[Link](mode$residuals)
anova(mode)
predict(mode,[Link](X2=85.9),[Link]=0.98,interval="prediction")
summary(mode)$[Link]*100
#Pregunta 1
lo<-subset(datos,distrito=="Los Olivos")
mode1<-lm(Y~X1+X2+X3,data=lo)
summary(mode1)
mode2<-lm(Y~X1+X3,data=lo)
library(car)
vif(mode2)
predict(mode2,[Link](X1=179.9,X3=2318.2),[Link]=0.96,interval="prediction")
5.74
30/5
SERIES DE TIEMPO
LA SERIE ES ESTACIONARIA CUANDO TRAZO UNA MEDIA Y ES ESTABLE RESPECTO A ESA MEDIA
SI NO ES ESTACIONARIA TENEMOS QUE SABER CUÁNTAS VECES TENEMOS QUE
DIFERENCIARLAS, TENEMOS QUE DETERMINAR CUÁNTO VALE X.
SI LA SERIE ES ESTACIONARIA “D” VALE 0.
[Link]
EJEMPLOS DE DONDE PUEDES ANALIZAR UNA SERIE DE TIEMPO:
EJM: EN EL CELULAR SALE LA TEMPERATURA
CON COMPORTAMIENTO CON PENDIENTE NEGATIVA
PRUEBA Q DE Ljung-Box
H0: Modelo es adecuado
H1: Modelo no es adecuado
α =0.05
p-valor=0.668>α no se rechaza H0
Conclusión
Prueba de normalidad
H0: Los errores se distribuyen normalmente
SERIES DE TIEMPO
2017,1 porque es enero del 2017
pdq
ARIMA (0,1,1)
ARIMA (1,1,0)
ARIMA (2,1,0)
ARIMA (0,1,2)
.
.
.
ARIMA (1,0,0)=AR(1)
ARIMA (0,0,1)=MA(1)
ARIMA (1,0,1)=ARMA(1,1)
no ES MEJOR EL QUE TENGA MENOR AIC, PORQUE PUEDE QUE NO CUMPLA CON LOS
SUPUESTOS
p-valores : 0.00, 0.72, 0.00
2/6
(2016,8) 8 porque es agosto
: los 1 es por la
diferenciación
p-valor: 0.8981
p q
optar por el más simple, p+q (el primero)
6/6
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO
Técnicas multivariadas
Dependientes (Y vs X1,..., Xp)
Ejm:
- Análisis de regresión múltiple
- Análisis discriminante lineal
Independientes (X1, X2,..., Xp)
- Análisis de conglomerados
- Análisis de correspondencia simple
- Análisis factorial
1. ANÁLISIS FACTORIAL
a) Exploratorio
b) Confirmatorio
Clasificación de variables
● Cualitativas
Nominal: Escala nominal
Ordinal: Escala ordinal
● Cuantitativas
Discretas: Escala intervalo
Continuas: Escala razón
CARACTERÍSTICAS DE LA MATRIZ VARIANZA-COVARIANZA (S)
- ES UNA MATRIZ CUADRADA
- ES UNA MATRIZ SIMÉTRICA
- EN LA DIAGONAL SE UBICAN LAS VARIANZAS DE LAS “p” VARIABLES
- FUERA DE LA DIAGONAL SE UBICAN LAS COVARIANZAS POR PARES DE VARIABLES
SI (Sij >0) LA COVARIANZA ES POSITIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA DIRECTA.
SI (Sij <0) LA COVARIANZA ES NEGATIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA INDIRECTA.
SI (Sij =0) LA COVARIANZA ES 0 NO HAY DEPENDENCIA ENTRE Xi y Xj.
CARACTERÍSTICAS DE LA MATRIZ DE CORRELACIÓN (R) LA CORRELACIÓN VARÍA ENTRE -1 Y 1 (-1≤r≤ 1)
- ES UNA MATRIZ CUADRADA
- ES UNA MATRIZ SIMÉTRICA (rij=rji)
- EN LA DIAGONAL SE UBICA EL VALOR 1 QUE INDICA LA CORRELACIÓN DE Xj CON Xi.
- FUERA DE LA DIAGONAL SE UBICAN LAS CORRELACIONES POR PARES DE VARIABLES
SI (rij >0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL DIRECTA.
SI (rij <0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL INDIRECTA.
SI (rij =0) NO HAY RELACIÓN LINEAL ENTRE Xi y Xj.
PROPIEDADES DE LOS AUTOVALORES
- LA SUMA DE LOS AUTOVALORES ES IGUAL A LA TRAZA DE LA MATRIZ DE DONDE SON OBTENIDOS.
- EL PRODUCTO DE LOS AUTOVALORES ES IGUAL AL DETERMINANTE DE LA MATRIZ DE DONDE SON
OBTENIDOS.
- EL PORCENTAJE DE VARIABILIDAD TOTAL EXPLICADA
PARA AUTOVALORES DE LA MATRIZ DE COVARIANZA: MATRIZ DE COVARIANZA – LAMBDA VECES LA
MATRIZ IDENTIDAD
CADA AUTOVALOR TIENE SU PROPIO AUTOVECTOR
LA TRAZA ES LA SUMA DE LA DIAGONAL PRINCIPAL
9/6
SE ANALIZAN VARIAS VARIABLES A LA VEZ CON LA FINALIDAD DE APROVECHAR LA CORRELACIÓN O LA
ASOCIACIÓN ENTRE ESAS VARIABLES
ESA ASOCIACIÓN ES MEDIDA POR LA CORRELACIÓN
TAMBIÉN SE PUEDE UTILIZAR LA COVARIANZA, PERO PUEDE SALIR UN VALOR MUY GRANDE O MUY
PEQUEÑO
LA CORRELACIÓN SIEMPRE VARÍA DE -1 A 1
CERCANA A 1 ES TENDENCIA LINEAL DIRECTA
CERCANA A -1 ES TENDENCIA LINEAL INDIRECTA
SI ES CERCANA A 0 NO HAY RELACIÓN ENTRE ESE PAR DE VARIABLES
VARIABLE INDIRECTA: UNA VARIABLE AUMENTA Y LA OTRA DISMINUYE
VARIABLE DIRECTA: SI UNA AUMENTA LA OTRA TAMBIÉN AUMENTA
SI UNA DISMINUYE LA OTRA TAMBIÉN DISMINUYE
SOLO TRABAJAREMOS CON CUANTITATIVAS
Min. 48:00 ej. pc teórica:
Si se tiene una matriz de datos de dimensión 80x5
¿Cuántas correlaciones por pares de variables se pueden obtener?
n=80 , p=5
MD: MATRIZ DE DATOS
PERO SI LE QUITA LA DIAGONAL (QUE SON LOS 5 UNOS)
ES SIMÉTRICA ARRIBA Y ABAJO DE LA DIAGONAL, POR ELLO SE DIVIDE ENTRE 2
las matrices de correlación y covarianza son cuadradas (pxp, 5x5, etc)
2
p −p
FÓRMULA GENERAL:
2
La traza de la matriz de correlación siempre es igual a p. En este caso 5.
siempre ponerlo sin signo en la rpta. aunque sea negativo
SI
QUISIERA LOS 3 PRIMEROS VALORES SERÍA 1:3
siempre salen p autovalores
s12 pc presencial, temas:
series de tiempo análisis multivariada
16/6
LOS DATOS DE WORD COPIAR A EXCEL Y PONERLOS EN COLUMNA ANTES DEL READ DELIM
EL MÉTODO ARIMA TRABAJA CON SERIES ESTACIONARIAS, SERIES ESTABLES, SERIES QUE NO TENGAN
MUCHA VARIACIÓN. SI NO ES ESTACIONARIA, HAY QUE VOLVERLA ESTACIONARIA DIFERENCIANDO.
PARA QUE LA SERIE SEA
ESTACIONARIA, LA SERIE DEBE SER ASÍ (NARANJA) ESTABLE.
PARA DECIR QUE ES ESTACIONARIA, EL P-VALOR DEBE SALIR MENOR AL ALFA (Dickey-Fuller)
Se diferencia con la función dif:
adf: Augmented Dickey-Fuller:
NIVEL DE SIGNIFICACIÓN: α
EN LOS NÚMEROS
DEL MEDIO VA EL NÚMERO DE DIFERENCIACIONES. LOS EXTREMOS SON LOS COEFICIENTES.
SI TIENEN MENOR AIC Y SI SUS COEFICIENTES SON SIGNIFICATIVOS DEBEMOS QUEDARNOS CON ESE
MODELO
SE ANALIZA
PRIMERO EL ARIMA 2 XQ ES EL Q TIENE MENOR AIC. SE ESCOGE SI TIENE LA MENOR SUMA DE LOS
COEFICIENTES (SIGNIFICATIVOS).
SI LOS ARIMAS TIENEN LOS MISMA SUMA DE COEFICIENTES SE ELIGE AL QUE TENGA MENOR AIC
EL P VALOR DE LOS DOS
COEFICIENTES DE (2,2,0) DEBE SER MENOR QUE ALFA
SI FUERA MAYOR SE PASA AL SIGUIENTE ARIMA CON MENOR AIC
PARA SERIE DE TIEMPO NO SE USA SUBSET
Prueba de Ljung-Box: ANALIZA EL COMPORTAMIENTO DE LOS RESIDUOS, LA DISPERSIÓN DE LOS
RESIDUOS A TRAVÉS DEL TIEMPO, YA QUE MIS RESIDUOS DEBEN SER CONSTANTES
MI MODELO NO ES ADECUADO POR MÁS QUE MIS COEFICIENTES SEAN SIGNIFICATIVOS, DEBO
DESCARTAR. HAY PUNTOS FUERA DE C (LÍNEA CONSTANTE)
#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling
#e)
#Pronósticos
library(forecast)
forecast(arima2, h= 2, level = 0.94)
#level(nivel de confianza)=0.94 ya q es 1-0.06(alfa)
#si mi serie acaba en mayo(dato),quiero solo junio y julio q es el q me piden(h=2)
EL INTERVALO ES DE Lo hasta Hi: [182.7119 ; 193.0904]
[límite inferior ; límite superior]
import dataset from excel
#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]
si la 8va columna (última) fuera cualitativa sería -8
El sexto elemento del tercer autovalor de la matriz de correlación es:
[,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,] 0.49 -0.08 0.01 0.02 0.00 -0.06 0.86
[2,] -0.11 -0.75 0.07 -0.65 0.00 0.00 0.00
[3,] 0.49 -0.08 0.02 0.02 -0.80 0.19 -0.27
[4,] 0.08 0.50 0.68 -0.52 0.01 0.00 0.00
[5,] 0.49 -0.08 0.02 0.02 0.25 -0.75 -0.34
[6,] 0.11 0.39 -0.72 -0.55 0.00 0.00 0.00
[7,] 0.49 -0.09 0.01 0.02 0.55 0.62 -0.25
#Caso 1: Series de Tiempo
#Lectura de datos
serie<-[Link]("clipboard")
#en serie puedo poner el nombre q quiera
#Transformar a una serie de tiempo
[Link]<-ts(serie, start = c(2016, 1), frequency = 12)
#2016 (año) y 1 (enero). 12 porque es una serie mensual
#Gráfica de la serie de tiempo
plot([Link])
#no es estacionaria, no es constante
#Análisis de Estacionariedad
library(tseries)
#a)
[Link]([Link], alternative = "stationary")
dif1.x <- diff([Link], differences = 1)
[Link](dif1.x , alternative = "stationary")
dif2.x <- diff(dif1.x , differences = 1)
[Link](dif2.x , alternative = "stationary")
#no es seguro:
library(forecast)
ndiffs([Link])
#rpta a) 2 diferenciaciones
#b)
#Evaluación de modelos candidatos (va 2 en el medio del (), ya que son 2 diferenciaciones)
arima1<-Arima([Link], order=c(1,2,0))
arima2<-Arima([Link], order=c(2,2,0))
arima3<-Arima([Link], order=c(0,2,1))
arima4<-Arima([Link], order=c(0,2,2))
arima5<-Arima([Link], order=c(1,2,1))
arima6<-Arima([Link], order=c(2,2,2))
arima7<-Arima([Link], order=c(2,2,1))
arima8<-Arima([Link], order=c(1,2,2))
AIC(arima1,arima2,arima3,arima4,arima5,arima6,arima7,arima8)
#Análisis del Modelo ARIMA2
library(lmtest)
coeftest(arima2)
#c)
#Evaluación de supuestos
#Prueba de Ljung Box
#no es necesario library(ggfortify)
[Link](arima2$residuals, type="Ljung-Box")
#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling
#e)
#Pronósticos
library(forecast)
forecast(arima2, h= 2, level = 0.94)
#level(nivel de confianza)=0.94 ya q es 1-0.06(alfa)
#si mi serie acaba en mayo(dato),quiero solo junio y julio q es el q me piden(h=2)
#Caso 2: Introducción al Análisis Multivariado
sl<-subset(caso,distrito=="San Luis")
sl
#sl si quieres ver todo
#matriz de san luis sería 151x8
#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]
s
#s si quiero ver todo
#b)Matriz de correlación
r<-cor(sl[,-1])
r[1,2]
#c) Autovalor
es<-eigen(s)
#(s) xq piden de la matriz de covarianza, correlación(r) y er<-
es$values
#como piden el sexto autovalor se escoge el 0.002641357
#d) Determinante de la matriz de covarianza
det(s)
#tmb se puede hacer así x propiedad:
prod(es$values)
#e) Traza de la matriz de covarianza
sum(diag(s))
#tmb se puede hacer así x propiedad:
sum(es$values)
#f) Autovectores (de la matriz de correlación )
er<-eigen(r)
round(er$vectors,2)
#eso para redondear a 2 decimales
#3er autovalor se refiere a 3ra columna y 6to elemento de las filas
#g) Variabilidad total explicada
#porcentaje de variabilidad total de los datos explica el 2do autovalor de la matriz de CORRELACIÓN
er$values[2]*100/7
#2do: [2] y porcentaje: *100/ 7=p(variables cuantitativas)
#si me piden de matriz covarianza sería 100/27.38865 q es su traza
#el 15.80223 es la rpta: 15.80223%
23/6
MATRIZ CORRELACIÓN ES DIFERENTE A LA MATRIZ IDENTIDAD
BASTA ELIMINAR LA MENOR VARIABLE (X5) NO TODAS, DSP TODAS SON MAYORES A 0.5
27/6
4/7
MATRIZ DE DISTANCIA
ES UNA MATRIZ CUADRADA DE DIMENSIÓN nxn
MATRIZ DE DISTANCIA COMPLETA ES SIMÉTRICA
EN LA DIAGONAL VAN CEROS, PORQUE ES LA DISTANCIA DE UN PUNTO A SI MISMO
PUEDEN PREGUNTAR, CUAL ES EL ELEMENTO MÁS CERCANO AL ELEMENTO 20? (CUAL ES EL
MÍNIMO)
CUAL ES LA PRIMERA PAREJA QUE SE UNE
PREGUNTAN:
EN LA ETAPA 18 CUÁNTOS CONGLOMERADOS HAY?
n: tamaño de la muestra
SI PREGUNTARAN EN EL PASO 90 SERÍA 100-90=10
14/7 REPASO
Toma valores entre 0 y 1:
[Link] de adecuación de la muestra (KMO)
Buena, si KMO ≥ 0,75
Aceptable, si 0,5 ≤ KMO < 0,75
Inaceptable, si KMO < 0,5
[Link] de adecuación por variable (MSA)
Buena, si MSA ≥ 0,75
Aceptable, si 0,5 ≤ MSA < 0,75
Inaceptable, si MSA < 0,5
MSA: MEDIDA DE ADECUACIÓN MUESTRAL (DE CADA VARIABLE)
KMO: MEDIDA DE ADECUACIÓN GLOBAL
#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
EL 100 XQ QUIERO PORCENTAJE, Y EL 3 (3 DECIMALES) SE DEJA X DEFECTO
> #Parte d)
> total<-facto$values
> var<-total*100/sum(total)
> porvar<-cumsum(var)
> cbind(total,var,porvar)
total var porvar
[1,] 3.9978396331 99.94599083 99.94599
[2,] 0.0009969241 0.02492310 99.97091
[3,] 0.0006847024 0.01711756 99.98803
[4,] 0.0004787404 0.01196851 100.00000
porcentaje de
variabilidad x 2 factores: 99.971
SEGÚN LA REGLA DE KAISER SE DEBE EXTRAER SOLO 1 FACTOR, YA
QUE SE DEBE EXTRAER AQUELLOS FACTORES CUYOS AUTOVALORES SON MAYORES A 1: 3.998
SI EL INVESTIGADOR O ANALISTA DESEA CONSERVAR COMO MÍNIMO 80% DE VARIABILIDAD,
CUÁNTOS FACTORES DEBEN EXTRAER? 1 XQ EL PRIMERO YA ESTÁ POR ENCIMA DEL 80%:
: ESE VALOR NO ES 0, ES UN VALOR MUY PEQUEÑO (-0.010):
: 2DO FACTOR DE LA VARIABLE X1
Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace
promedio (average).
c) El número de conglomerados formados en el paso (o etapa) 86 es:
N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados
d)
Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:
18 casos
#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100
coe[2:139]/coe[1:138] (coe de 1 a N-1 y coe de 1 a N-2)
:
1ra variable: Su p-valor(2.2e−16) <alfa(0.05)
Las otras variables tmb son menor a α . Por lo tanto todas son significativas.
Mean Sq: cuadrado medio del factor x ejm.
Sum Sq: suma de cuadrados del error (Residuals) x ejm.
F value: F calculado y Df: grados de libertad
c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado es:
: 5.235
#correr de nuevo con la semilla porsiaca
RNGkind([Link]="Rounding")
[Link](161)
mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1
Caso: R&DGo Market (Continuación)
R&Dgo Market es una cadena de supermercados que tiene varias tiendas en la capital.
El gerente de personal desea hacer un estudio sobre algunas características de los empleados que tienen
contacto directo con los clientes.
Para realizar el estudio seleccionó muestras aleatorias e independientes de vendedores de cada una de las
tiendas con las que cuenta la empresa.
Los ítems (variables) utilizadas en el cuestionario aplicado a los empleados son: X1: Calificación de la
amabilidad que proporciona el empleado.
X2: Calificación de grado de autoconfianza del empleado
X3: Calificación de grado de lucidez que demuestra el empleado frente a sus clientes
X4: Calificación de la honestidad del empleado con sus clientes.
X5: Calificación del arte para lograr una venta del empleado.
X6: Calificación de la experiencia como empleado
X7: Calificación de identificación con la empresa
Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
Miraflores
Análisis Factorial
Considerando a todas las variables
a) El Índice KMO es:
KMO=0.875 > 0.5 se debe realizar el Análisis Factorial
> library(psych)
> r1<-cor(mir)
> KMO(r1)$MSA
[1] 0.8752791
b) ¿Se debe eliminar del análisis alguna variable? Si su respuesta es afirmativa, indique la(s)
variable(s) que deben ser eliminadas y sustente por qué debe ser eliminada.
Se deben eliminar las variables X2, X4 y X6
MSAX4=0.273 después de eliminar X4
MSAX6=0.473 después de eliminar X4 y X6
MSAX2=0.473
Considerando las variables que deberían incluirse en el análisis y si se desean extraer 2 factores,
c) El porcentaje de variabilidad de la variable que conserva la mayor variabilidad explicada por
los factores explicados es:
Comunalidad de X3 = 99.991
d) El porcentaje de variabilidad explicado por los factores extraídos es:
El porcentaje de variabilidad total explicada por los 2 factores extraídos es 99.971%.
Luego de utilizar la rotación varimax,
e) La correlación del segundo factor con la variable X1 es:
0.331
f) El puntaje correspondiente al primer factor del individuo número 2 es:
-0.533
Análisis de Conglomerados
Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
San Miguel
Considerando solo los 10 primeros casos,
a) El par de casos más cercanos según la distancia euclídea es:
El par de casos más cercanos es 7 y 10 d(7:10)=1.192
b) El par de casos más lejanos según la distancia euclídea es:
El par de casos más lejano es 6 y 9 d(6;9)= 17.205
Conglomerado Jerárquico
Utilice todos los datos
Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace
promedio (average).
c) El número de conglomerados formados en el paso (o etapa) 86 es:
N° de conglomerados = N-etapa a analizar: 140 – 86 = 54 conglomerados
d) Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:
18 casos
e) Si se desea formar 2 conglomerados, el promedio de la variable X4 del conglomerado número
1 es:
Xbar4 = 10.213
Según el método máxima variación del coeficiente de conglomeración,
a) La etapa donde se obtiene la mayor variación es:
138
b) El número de conglomerados que se deben formar en esta etapa es:
148-138= 2
Conglomerado de K medias
Antes de correr anteponga
RNGkind([Link]=”Rounding”)
[Link](161).
Aplique el método de K medias, considere 3 conglomerados,
a) El número de casos del conglomerado más grande es:
55
b) A un nivel de significación de 0.05, la(s) variable(s) no significativas para la formación de los
conglomerados es(son):
Todas son significativas
c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado
es:
5.235
#Análisis Factorial
###################
mira<-subset(caso,distrito=="Miraflores")
#en análisis factorial solo valores numéricos, por eso [,-1](se elimina columna distrito):
mir<-mira[,-1]
#a partir de ahí se trabaja con mir
library(psych)
#Pregunta a)
r1<-cor(mir)
KMO(r1)$MSA
#Pregunta b)
KMO(r1)$MSAi
r2<-cor(mir[,-4])
KMO(r2)$MSAi
r3<-cor(mir[,-c(4,6)])
KMO(r3)$MSAi
r4<-cor(mir[,-c(2,4,6)])
KMO(r4)$MSAi
#0.473 xq se elimina dos veces finalmente, solo piden quitar 3 X
#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
#se escoge lo q te pida de las X
#Parte d)
total<-facto$values
var<-total*100/sum(total)
porvar<-cumsum(var)
cbind(total,var,porvar)
#Parte e)
#Cargas factoriales
facto$loadings
facto$loadings[1,1]
#Rotación de factores
facto2<-principal(r4,nfactors=2,rotate="varimax")
facto2$loadings
facto2$loadings[1,2]
#tener cuidado con el orden de [1,2] siempre en cualquier caso
#Parte f)
#Puntuaciones Factoriales en 13-1 todo lo hecho
facto3<-principal(mir[,-c(2,4,6)],nfactors=2, rotate="varimax",scores=T)
#mir[,-c(2,4,6) de arriba, no se usa r4 xq para obtener los puntuaciones se necesitan datos originales
facto3$scores[2,1]
#####################################
#Análisis de Conglomerados Jerárquico
#####################################
sm<-subset(caso,distrito=="San Miguel")
smr<-sm[,-1]
#Parte a y b)
#Matriz de distancias en 14-1 (5)
round(dist(smr[1:10,], method="euclidean"),3)
#round:redondea a 3 decimales (N° al final), dist:distancia
#Parte c)
#Conglomerado Jerárquico
d<-dist(smr, method="euclidean")
clus<-hclust(d, method="average")
#N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados
#Parte d)
#Número de elementos en cada conglomerado en 14-1 (29)
con3<-cutree(clus,k=3)
table(con3)
#Parte e)
con2<-cutree(clus,k=2)
#Perfil de conglomerados en 14-1 (35)
aggregate(smr,by=list(cluster=con2),mean)
#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100
#abs:para valor absoluto si hubiera algun dato q sea negativo
#coe:coeficientes, (coe del sgte a 1 a N-1 y coe de 1 a N-2)
[Link](pvar[-c(1:4)])+4
#cúal es el máx. y se quita del 1:4, luego se suma los 4 q se quitó
#####################################
#Análisis de Conglomerados K Medias
#####################################
#Parte a)
#escribir de nuevo las comillas en Rounding para q salga warning message:
RNGkind([Link]="Rounding")
[Link](161)
#Conglomerado de k medias en 15-1 (9)
cluk<-kmeans(smr, centers=3, [Link] = 10)
#centers=N°conglomerados
#Conglomerado de pertenencia en 15-1 (18 y 20)
cong3<-cluk$cluster
table(cong3)
#cong3=conglomerado 3
#Parte b)
#Análisis de Varianza en 15-1 (23)
anova(lm(smr$X1~[Link](cong3)))
anova(lm(smr$X2~[Link](cong3)))
anova(lm(smr$X3~[Link](cong3)))
anova(lm(smr$X4~[Link](cong3)))
anova(lm(smr$X5~[Link](cong3)))
anova(lm(smr$X6~[Link](cong3)))
anova(lm(smr$X7~[Link](cong3)))
#Si te piden el Fcal con más decimales
anova(lm(smr$X7~[Link](cong3)))[1,4]
#[1,4] fila 1, columna 4
anova(lm(smr$X7~[Link](cong3)))[2,2]
#Parte c)
#Centros finales
mediask<-cluk$centers
#Distancias entre los centros
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
#T:True
d1
#correr de nuevo con la semilla porsiaca
RNGkind([Link]="Rounding")
[Link](161)
mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1
PAQUETES:
pcych
fastgraph
aplpack
corrplot
rstatix
En 14-2: manhattan, centroid