0% encontró este documento útil (0 votos)
52 vistas50 páginas

Paquetes R para Análisis Estadístico PC

1) El documento presenta una introducción al análisis multivariado, mencionando técnicas como el análisis de regresión múltiple, análisis discriminante lineal, análisis de conglomerados y análisis factorial. 2) Explica que el análisis factorial puede ser exploratorio u confirmatorio y clasifica las variables en cualitativas y cuantitativas. 3) Describe las características de la matriz de varianza-covarianza y la matriz de correlación, incluyendo que son matrices simétricas y que la

Cargado por

Mary Carrasco
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
52 vistas50 páginas

Paquetes R para Análisis Estadístico PC

1) El documento presenta una introducción al análisis multivariado, mencionando técnicas como el análisis de regresión múltiple, análisis discriminante lineal, análisis de conglomerados y análisis factorial. 2) Explica que el análisis factorial puede ser exploratorio u confirmatorio y clasifica las variables en cualitativas y cuantitativas. 3) Describe las características de la matriz de varianza-covarianza y la matriz de correlación, incluyendo que son matrices simétricas y que la

Cargado por

Mary Carrasco
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

PAQUETES A CARGAR PARA PC

library(psych)
library(GGally)
library(PerformanceAnalytics)
library(corrplot)
library(rstatix)

bootstrap
exactRankTests
tseries
forecast
lmtest
nortest
ggfortify
7/4

Si queremos que se cumplan los supuestos el p-valor en la prueba de normalidad y


homocedasticidad debe ser mayor o igual que alfa (nivel de significación)

El análisis de varianza me da una prueba F

Si no rechazo H0 puedo elegir cualquier programa de capacitación


CM: CUADRADO MEDIO
SC: SUMA DE CUADRADOS

COMPONENTES DE EXPERIMENTO
RR: REGIÓN DE RECHAZO

chical= 1.0218
Chicrit= 8.947287

11/4

SUPUESTOS:
Normalidad de errores, homocedasticidad e independencia

28/4

CORRER A LA VEZ
CORRER A LA VEZ TMB

TMB CORRER

correr todo
1 xq es estatal, si hubiera sido particular es 2

lo encerrado de rojo se tiene q cambiar

pruebas no paramétricas se le conocen como pruebas de distribución libre


18/4

PRUEBAS CHI CUADRADO


Asimétrica hacia la derecha.
Es asintótica con respecto al eje x.
Toma solo los valores positivos.
2/5/22

PRUEBAS NO PARAMÉTRICAS
1- PRUEBA DE WILCOXON
- Analiza una variable de una muestra aleatoria.
- Evalúa la media poblacional.
- Es una prueba alternativa a las pruebas z o t.

H0:Me=Me0 H0:Me≤Me0 H0:Me≥Me0


H1:Me≠Me H1:Me>Me0 H1:Me<M0

Ejm:
H0:Me≥3 En R rank
H1:Me<3
α p-valor
X Número de artículos adquiridos

x Xi~Me0 Rankear
5 5-3=2 2.5
8 8-3 4
2 2-3 1
1 1-3 2.5
3 3-3=0
9 9-3=6 5

W=2.5+4+5=11.5

1.
H0:Me≥3
H1:Me<3

2. α =0.05

3. V=24584 p-valor=8.96x10−15 x 0.00<α se rechaza H0


R.N.R de H0 R.R de H0
V.C.
4. Conclusión
2- PRUEBA DE MANN WHITNEY
- Permite comparar la mediana de 2 poblaciones independientes.

H0:Me1=Me2 H0:Me1≤Me2 H0:Me1≥Me2


H1:Me1≠Me2 H1:Me1>Me2 H1:Me1<M2

H0:Me1-Me2=0
H1:Me1-Me2≠0

- Es la alternativa a la prueba z o t para z muestras independientes.

Ejm:
A B
5(5) 5(5)
8(7) 5(5)
3(2) 2(1)
4(3) n1=4
S1=17 n2=3
4 (4 +1)
W=17-
2

SI EN LA PC NO TE DICEN NADA SE ASUME QUE EL PRIMER GRUPO ES EL GRUPO DE INTERÉS.

H0:Mec≤Mes
H1:Mec>Mes
α =0.05
p-valor=0.6214 > α no se rechaza H 0
Conclusión

3- PRUEBA DE KRUSKAL-WALLIS
- Permite comparar la mediana de K poblaciones independientes.
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k
- Es la prueba alternativa de Diseño Completamente al Azar (DCA)

H0:Me1=Me2=Me3
H1: Al menos una Mei es diferente a las demás i=1,2,3
α =0.05
2
X c=2.293 p-valor=0.318>α no se rechaza H0

Como X 2c=2.293< X 2c=5.99 no se rechaza H0

Conclusión

4- PRUEBA DE FRIEDMAN
- Es la prueba alternativa al Diseño de Bloques Completamente al Azar (DBCA)
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k

X2~X2(k-1)

Y: Puntaje del postulante en una escala de la S


Evalua. P1 P2 P3
E1 4(2.5) 4(2.5) 3(1)
E2 2(2) 1(1) 3(3)
Bloques E3 5(3) 4(1.5) 4(1.5)
E4 3(2) 3(2) 3(2)

9/5

SI LA PENDIENTE SALE NEGATIVA LA CORRELACIÓN SALE NEGATIVA.


SI LA PENDIENTE SALE POSITIVA LA CORRELACIÓN SALE POSITIVA.

PREDICCIÓN
Confidence o valor medio
Prediction o valor individual

12/5
19/5
ES BOOTSTRAP (PRUEBAS NO PARAMÉTRICAS) SI TE DICE QUE USA TANTAS MUESTRAS
BOOTSTRAP, USA UNA SEMILLA

ES WILCOXON SI DICE PROBAR SI LA MEDIANA ES MAYOR A CIERTO VALOR

EN CLASE 4-2 R ESTÁ TODO LO DE BOOTSTRAP

[Link](aquí va la semilla que dan de dato)

media: mean, varianza: var

estimador de la media

error estándar

DE 4500 A
4.5 PORQUE DATO DICE QUE ESTÁ EN MILES

H0 ES LO CONTRARIO DE H1, MENOR O IGUAL, O IGUAL

H1 ES MAYOR, MENOR O DIFERENTE DE


COMO EN H1 ES MAYOR A ES g: (si fuera menor sería l, si fuera diferente sería t)

Wilcoxon ES PARA 1 MUESTRA


Mann Whitney ES PARA 2 MUESTRAS
Kruskal Wallis MÁS DE DOS MUESTRAS. ES PARA K MUESTRAS por eso es equivalente al DCA
Friedman ES PARA K MUESTRAS PERO EN BLOQUES por eso es equivalente al DBCA
Spearman ES PARA ANALIZAR CORRELACIONES

D: DORADA
C: CLÁSICA
EL 102 SE OBTIENE DE DO QUE ES DORADAS

EN CLASE 5-2 R ESTÁ TODAS LAS PRUEBAS NO PARAMÉTRICAS (INCLUYE CORRELACIÓN DE


SPEARMAN)

EN CLASE 7-1 R ESTÁ TODO LO DE REGRESIÓN

PREDICTION ES PARA UN INDIVIDUO


CONFIDENCE VARIOS

fit: valor estimado, valor puntual

: intervalo

SI NO ME DAN EL PORCENTAJE DE CONFIANZA TE PREGUNTAN POR EL fit

SI ES MAYOR A ALFA DESCARTO EL CUADRÁTICO QUE ES EL MAYOR Y PASO AL SIGUIENTE


MAYOR QUE ES EL EXPONENCIAL

26/5
sol pc2

datos<-[Link]("clipboard")

#Pregunta 5
sm<-subset(datos,distrito=="San Miguel")

RNGkind([Link]="Rounding")
[Link](54)
library(bootstrap)
esti<- bootstrap(sm$Y,1350,var)
var_sam<-esti$thetastar
esboot<-mean(var_sam)
eeboot<-sd(var_sam)

#Intervalos de confianza
nc<-0.95
alfa<-1-nc
quantile(var_sam,c(alfa/2,1-alfa/2), type = 6)

sqrt(quantile(var_sam,c(alfa/2,1-alfa/2), type = 6))

#Prueba de hipótesis
phv <- function(datos,B)
{
res1=c()
res2=c()
for (i in 1:B) {
n=length(datos)
data=sample(datos,n,replace=T)
res1[i]=varTest(data,[Link] = 21, alternative = "l")$[Link]
res2[i]=varTest(data,[Link] = 21, alternative = "l")$statistic
}
pvalor=mean(res1)
sta=mean(res2)
return(list(pvalor=pvalor,sta=sta))
}

RNGkind([Link]="Rounding")
[Link](54)
phv(sm$Y,1350)

lm<-subset(datos,distrito=="La Molina")
library(exactRankTests)
[Link](lm$Y,mu=73,alternative="l")
PREGUNTA 4
dis<-c("San Isidro", "San Luis", "Pueblo Libre")
subc<-subset(datos, datos$distrito%in%dis)
library(agricolae)
kruskal(subc$Y,subc$distrito,console=T)

qchisq(0.01,2,[Link] = F)

estadístico de prueba =

su<-subset(datos,distrito=="Surco")
mode<-lm(Y~X2,data=su)
summary(mode)
library(nortest)
[Link](mode$residuals)
anova(mode)

predict(mode,[Link](X2=85.9),[Link]=0.98,interval="prediction")
summary(mode)$[Link]*100

#Pregunta 1
lo<-subset(datos,distrito=="Los Olivos")
mode1<-lm(Y~X1+X2+X3,data=lo)
summary(mode1)

mode2<-lm(Y~X1+X3,data=lo)
library(car)
vif(mode2)
predict(mode2,[Link](X1=179.9,X3=2318.2),[Link]=0.96,interval="prediction")

5.74

30/5
SERIES DE TIEMPO
LA SERIE ES ESTACIONARIA CUANDO TRAZO UNA MEDIA Y ES ESTABLE RESPECTO A ESA MEDIA

SI NO ES ESTACIONARIA TENEMOS QUE SABER CUÁNTAS VECES TENEMOS QUE


DIFERENCIARLAS, TENEMOS QUE DETERMINAR CUÁNTO VALE X.
SI LA SERIE ES ESTACIONARIA “D” VALE 0.
[Link]
EJEMPLOS DE DONDE PUEDES ANALIZAR UNA SERIE DE TIEMPO:
EJM: EN EL CELULAR SALE LA TEMPERATURA
CON COMPORTAMIENTO CON PENDIENTE NEGATIVA

PRUEBA Q DE Ljung-Box
H0: Modelo es adecuado
H1: Modelo no es adecuado
α =0.05
p-valor=0.668>α no se rechaza H0
Conclusión

Prueba de normalidad
H0: Los errores se distribuyen normalmente

SERIES DE TIEMPO

2017,1 porque es enero del 2017


pdq
ARIMA (0,1,1)
ARIMA (1,1,0)
ARIMA (2,1,0)
ARIMA (0,1,2)
.
.
.
ARIMA (1,0,0)=AR(1)
ARIMA (0,0,1)=MA(1)
ARIMA (1,0,1)=ARMA(1,1)

no ES MEJOR EL QUE TENGA MENOR AIC, PORQUE PUEDE QUE NO CUMPLA CON LOS
SUPUESTOS

p-valores : 0.00, 0.72, 0.00

2/6

(2016,8) 8 porque es agosto

: los 1 es por la
diferenciación
p-valor: 0.8981
p q

optar por el más simple, p+q (el primero)


6/6
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO
Técnicas multivariadas
Dependientes (Y vs X1,..., Xp)
Ejm:
- Análisis de regresión múltiple
- Análisis discriminante lineal
Independientes (X1, X2,..., Xp)
- Análisis de conglomerados
- Análisis de correspondencia simple
- Análisis factorial
1. ANÁLISIS FACTORIAL
a) Exploratorio
b) Confirmatorio

Clasificación de variables
● Cualitativas
Nominal: Escala nominal
Ordinal: Escala ordinal
● Cuantitativas
Discretas: Escala intervalo
Continuas: Escala razón

CARACTERÍSTICAS DE LA MATRIZ VARIANZA-COVARIANZA (S)


- ES UNA MATRIZ CUADRADA
- ES UNA MATRIZ SIMÉTRICA
- EN LA DIAGONAL SE UBICAN LAS VARIANZAS DE LAS “p” VARIABLES
- FUERA DE LA DIAGONAL SE UBICAN LAS COVARIANZAS POR PARES DE VARIABLES
SI (Sij >0) LA COVARIANZA ES POSITIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA DIRECTA.
SI (Sij <0) LA COVARIANZA ES NEGATIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA INDIRECTA.
SI (Sij =0) LA COVARIANZA ES 0 NO HAY DEPENDENCIA ENTRE Xi y Xj.

CARACTERÍSTICAS DE LA MATRIZ DE CORRELACIÓN (R) LA CORRELACIÓN VARÍA ENTRE -1 Y 1 (-1≤r≤ 1)

- ES UNA MATRIZ CUADRADA


- ES UNA MATRIZ SIMÉTRICA (rij=rji)
- EN LA DIAGONAL SE UBICA EL VALOR 1 QUE INDICA LA CORRELACIÓN DE Xj CON Xi.
- FUERA DE LA DIAGONAL SE UBICAN LAS CORRELACIONES POR PARES DE VARIABLES
SI (rij >0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL DIRECTA.
SI (rij <0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL INDIRECTA.
SI (rij =0) NO HAY RELACIÓN LINEAL ENTRE Xi y Xj.
PROPIEDADES DE LOS AUTOVALORES
- LA SUMA DE LOS AUTOVALORES ES IGUAL A LA TRAZA DE LA MATRIZ DE DONDE SON OBTENIDOS.

- EL PRODUCTO DE LOS AUTOVALORES ES IGUAL AL DETERMINANTE DE LA MATRIZ DE DONDE SON


OBTENIDOS.

- EL PORCENTAJE DE VARIABILIDAD TOTAL EXPLICADA

PARA AUTOVALORES DE LA MATRIZ DE COVARIANZA: MATRIZ DE COVARIANZA – LAMBDA VECES LA


MATRIZ IDENTIDAD

CADA AUTOVALOR TIENE SU PROPIO AUTOVECTOR

LA TRAZA ES LA SUMA DE LA DIAGONAL PRINCIPAL

9/6
SE ANALIZAN VARIAS VARIABLES A LA VEZ CON LA FINALIDAD DE APROVECHAR LA CORRELACIÓN O LA
ASOCIACIÓN ENTRE ESAS VARIABLES
ESA ASOCIACIÓN ES MEDIDA POR LA CORRELACIÓN
TAMBIÉN SE PUEDE UTILIZAR LA COVARIANZA, PERO PUEDE SALIR UN VALOR MUY GRANDE O MUY
PEQUEÑO
LA CORRELACIÓN SIEMPRE VARÍA DE -1 A 1
CERCANA A 1 ES TENDENCIA LINEAL DIRECTA
CERCANA A -1 ES TENDENCIA LINEAL INDIRECTA
SI ES CERCANA A 0 NO HAY RELACIÓN ENTRE ESE PAR DE VARIABLES

VARIABLE INDIRECTA: UNA VARIABLE AUMENTA Y LA OTRA DISMINUYE


VARIABLE DIRECTA: SI UNA AUMENTA LA OTRA TAMBIÉN AUMENTA
SI UNA DISMINUYE LA OTRA TAMBIÉN DISMINUYE

SOLO TRABAJAREMOS CON CUANTITATIVAS

Min. 48:00 ej. pc teórica:


Si se tiene una matriz de datos de dimensión 80x5
¿Cuántas correlaciones por pares de variables se pueden obtener?
n=80 , p=5

MD: MATRIZ DE DATOS


PERO SI LE QUITA LA DIAGONAL (QUE SON LOS 5 UNOS)
ES SIMÉTRICA ARRIBA Y ABAJO DE LA DIAGONAL, POR ELLO SE DIVIDE ENTRE 2
las matrices de correlación y covarianza son cuadradas (pxp, 5x5, etc)
2
p −p
FÓRMULA GENERAL:
2
La traza de la matriz de correlación siempre es igual a p. En este caso 5.
siempre ponerlo sin signo en la rpta. aunque sea negativo

SI
QUISIERA LOS 3 PRIMEROS VALORES SERÍA 1:3

siempre salen p autovalores

s12 pc presencial, temas:


series de tiempo análisis multivariada
16/6
LOS DATOS DE WORD COPIAR A EXCEL Y PONERLOS EN COLUMNA ANTES DEL READ DELIM
EL MÉTODO ARIMA TRABAJA CON SERIES ESTACIONARIAS, SERIES ESTABLES, SERIES QUE NO TENGAN
MUCHA VARIACIÓN. SI NO ES ESTACIONARIA, HAY QUE VOLVERLA ESTACIONARIA DIFERENCIANDO.
PARA QUE LA SERIE SEA
ESTACIONARIA, LA SERIE DEBE SER ASÍ (NARANJA) ESTABLE.

PARA DECIR QUE ES ESTACIONARIA, EL P-VALOR DEBE SALIR MENOR AL ALFA (Dickey-Fuller)

Se diferencia con la función dif:

adf: Augmented Dickey-Fuller:


NIVEL DE SIGNIFICACIÓN: α

EN LOS NÚMEROS
DEL MEDIO VA EL NÚMERO DE DIFERENCIACIONES. LOS EXTREMOS SON LOS COEFICIENTES.
SI TIENEN MENOR AIC Y SI SUS COEFICIENTES SON SIGNIFICATIVOS DEBEMOS QUEDARNOS CON ESE
MODELO
SE ANALIZA
PRIMERO EL ARIMA 2 XQ ES EL Q TIENE MENOR AIC. SE ESCOGE SI TIENE LA MENOR SUMA DE LOS
COEFICIENTES (SIGNIFICATIVOS).
SI LOS ARIMAS TIENEN LOS MISMA SUMA DE COEFICIENTES SE ELIGE AL QUE TENGA MENOR AIC

EL P VALOR DE LOS DOS


COEFICIENTES DE (2,2,0) DEBE SER MENOR QUE ALFA
SI FUERA MAYOR SE PASA AL SIGUIENTE ARIMA CON MENOR AIC

PARA SERIE DE TIEMPO NO SE USA SUBSET


Prueba de Ljung-Box: ANALIZA EL COMPORTAMIENTO DE LOS RESIDUOS, LA DISPERSIÓN DE LOS
RESIDUOS A TRAVÉS DEL TIEMPO, YA QUE MIS RESIDUOS DEBEN SER CONSTANTES

MI MODELO NO ES ADECUADO POR MÁS QUE MIS COEFICIENTES SEAN SIGNIFICATIVOS, DEBO
DESCARTAR. HAY PUNTOS FUERA DE C (LÍNEA CONSTANTE)
#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling

#e)
#Pronósticos
library(forecast)
forecast(arima2, h= 2, level = 0.94)
#level(nivel de confianza)=0.94 ya q es 1-0.06(alfa)
#si mi serie acaba en mayo(dato),quiero solo junio y julio q es el q me piden(h=2)

EL INTERVALO ES DE Lo hasta Hi: [182.7119 ; 193.0904]


[límite inferior ; límite superior]
import dataset from excel

#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]

si la 8va columna (última) fuera cualitativa sería -8

El sexto elemento del tercer autovalor de la matriz de correlación es:


[,1] [,2] [,3] [,4] [,5] [,6] [,7]

[1,] 0.49 -0.08 0.01 0.02 0.00 -0.06 0.86

[2,] -0.11 -0.75 0.07 -0.65 0.00 0.00 0.00

[3,] 0.49 -0.08 0.02 0.02 -0.80 0.19 -0.27

[4,] 0.08 0.50 0.68 -0.52 0.01 0.00 0.00

[5,] 0.49 -0.08 0.02 0.02 0.25 -0.75 -0.34

[6,] 0.11 0.39 -0.72 -0.55 0.00 0.00 0.00

[7,] 0.49 -0.09 0.01 0.02 0.55 0.62 -0.25

#Caso 1: Series de Tiempo

#Lectura de datos
serie<-[Link]("clipboard")
#en serie puedo poner el nombre q quiera

#Transformar a una serie de tiempo


[Link]<-ts(serie, start = c(2016, 1), frequency = 12)
#2016 (año) y 1 (enero). 12 porque es una serie mensual

#Gráfica de la serie de tiempo


plot([Link])
#no es estacionaria, no es constante

#Análisis de Estacionariedad
library(tseries)

#a)
[Link]([Link], alternative = "stationary")
dif1.x <- diff([Link], differences = 1)
[Link](dif1.x , alternative = "stationary")
dif2.x <- diff(dif1.x , differences = 1)
[Link](dif2.x , alternative = "stationary")

#no es seguro:
library(forecast)
ndiffs([Link])

#rpta a) 2 diferenciaciones

#b)
#Evaluación de modelos candidatos (va 2 en el medio del (), ya que son 2 diferenciaciones)
arima1<-Arima([Link], order=c(1,2,0))
arima2<-Arima([Link], order=c(2,2,0))
arima3<-Arima([Link], order=c(0,2,1))
arima4<-Arima([Link], order=c(0,2,2))
arima5<-Arima([Link], order=c(1,2,1))
arima6<-Arima([Link], order=c(2,2,2))
arima7<-Arima([Link], order=c(2,2,1))
arima8<-Arima([Link], order=c(1,2,2))
AIC(arima1,arima2,arima3,arima4,arima5,arima6,arima7,arima8)

#Análisis del Modelo ARIMA2


library(lmtest)
coeftest(arima2)

#c)
#Evaluación de supuestos
#Prueba de Ljung Box
#no es necesario library(ggfortify)
[Link](arima2$residuals, type="Ljung-Box")

#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling

#e)
#Pronósticos
library(forecast)
forecast(arima2, h= 2, level = 0.94)
#level(nivel de confianza)=0.94 ya q es 1-0.06(alfa)
#si mi serie acaba en mayo(dato),quiero solo junio y julio q es el q me piden(h=2)

#Caso 2: Introducción al Análisis Multivariado

sl<-subset(caso,distrito=="San Luis")
sl
#sl si quieres ver todo

#matriz de san luis sería 151x8

#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]
s
#s si quiero ver todo

#b)Matriz de correlación
r<-cor(sl[,-1])
r[1,2]

#c) Autovalor
es<-eigen(s)
#(s) xq piden de la matriz de covarianza, correlación(r) y er<-
es$values
#como piden el sexto autovalor se escoge el 0.002641357

#d) Determinante de la matriz de covarianza


det(s)
#tmb se puede hacer así x propiedad:
prod(es$values)

#e) Traza de la matriz de covarianza


sum(diag(s))
#tmb se puede hacer así x propiedad:
sum(es$values)

#f) Autovectores (de la matriz de correlación )


er<-eigen(r)
round(er$vectors,2)
#eso para redondear a 2 decimales
#3er autovalor se refiere a 3ra columna y 6to elemento de las filas

#g) Variabilidad total explicada


#porcentaje de variabilidad total de los datos explica el 2do autovalor de la matriz de CORRELACIÓN
er$values[2]*100/7
#2do: [2] y porcentaje: *100/ 7=p(variables cuantitativas)
#si me piden de matriz covarianza sería 100/27.38865 q es su traza
#el 15.80223 es la rpta: 15.80223%
23/6

MATRIZ CORRELACIÓN ES DIFERENTE A LA MATRIZ IDENTIDAD

BASTA ELIMINAR LA MENOR VARIABLE (X5) NO TODAS, DSP TODAS SON MAYORES A 0.5

27/6
4/7
MATRIZ DE DISTANCIA

ES UNA MATRIZ CUADRADA DE DIMENSIÓN nxn


MATRIZ DE DISTANCIA COMPLETA ES SIMÉTRICA

EN LA DIAGONAL VAN CEROS, PORQUE ES LA DISTANCIA DE UN PUNTO A SI MISMO

PUEDEN PREGUNTAR, CUAL ES EL ELEMENTO MÁS CERCANO AL ELEMENTO 20? (CUAL ES EL


MÍNIMO)

CUAL ES LA PRIMERA PAREJA QUE SE UNE

PREGUNTAN:
EN LA ETAPA 18 CUÁNTOS CONGLOMERADOS HAY?
n: tamaño de la muestra

SI PREGUNTARAN EN EL PASO 90 SERÍA 100-90=10

14/7 REPASO
Toma valores entre 0 y 1:
[Link] de adecuación de la muestra (KMO)
Buena, si KMO ≥ 0,75
Aceptable, si 0,5 ≤ KMO < 0,75
Inaceptable, si KMO < 0,5

[Link] de adecuación por variable (MSA)


Buena, si MSA ≥ 0,75
Aceptable, si 0,5 ≤ MSA < 0,75
Inaceptable, si MSA < 0,5

MSA: MEDIDA DE ADECUACIÓN MUESTRAL (DE CADA VARIABLE)


KMO: MEDIDA DE ADECUACIÓN GLOBAL

#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
EL 100 XQ QUIERO PORCENTAJE, Y EL 3 (3 DECIMALES) SE DEJA X DEFECTO

> #Parte d)
> total<-facto$values
> var<-total*100/sum(total)
> porvar<-cumsum(var)
> cbind(total,var,porvar)
total var porvar
[1,] 3.9978396331 99.94599083 99.94599
[2,] 0.0009969241 0.02492310 99.97091
[3,] 0.0006847024 0.01711756 99.98803
[4,] 0.0004787404 0.01196851 100.00000

porcentaje de
variabilidad x 2 factores: 99.971

SEGÚN LA REGLA DE KAISER SE DEBE EXTRAER SOLO 1 FACTOR, YA


QUE SE DEBE EXTRAER AQUELLOS FACTORES CUYOS AUTOVALORES SON MAYORES A 1: 3.998
SI EL INVESTIGADOR O ANALISTA DESEA CONSERVAR COMO MÍNIMO 80% DE VARIABILIDAD,
CUÁNTOS FACTORES DEBEN EXTRAER? 1 XQ EL PRIMERO YA ESTÁ POR ENCIMA DEL 80%:
: ESE VALOR NO ES 0, ES UN VALOR MUY PEQUEÑO (-0.010):

: 2DO FACTOR DE LA VARIABLE X1

Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace


promedio (average).

c) El número de conglomerados formados en el paso (o etapa) 86 es:

N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados

d)
Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:
18 casos

#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100

coe[2:139]/coe[1:138] (coe de 1 a N-1 y coe de 1 a N-2)

:
1ra variable: Su p-valor(2.2e−16) <alfa(0.05)
Las otras variables tmb son menor a α . Por lo tanto todas son significativas.

Mean Sq: cuadrado medio del factor x ejm.


Sum Sq: suma de cuadrados del error (Residuals) x ejm.
F value: F calculado y Df: grados de libertad

c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado es:

: 5.235

#correr de nuevo con la semilla porsiaca


RNGkind([Link]="Rounding")
[Link](161)

mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1

Caso: R&DGo Market (Continuación)

R&Dgo Market es una cadena de supermercados que tiene varias tiendas en la capital.

El gerente de personal desea hacer un estudio sobre algunas características de los empleados que tienen
contacto directo con los clientes.

Para realizar el estudio seleccionó muestras aleatorias e independientes de vendedores de cada una de las
tiendas con las que cuenta la empresa.
Los ítems (variables) utilizadas en el cuestionario aplicado a los empleados son: X1: Calificación de la
amabilidad que proporciona el empleado.

X2: Calificación de grado de autoconfianza del empleado

X3: Calificación de grado de lucidez que demuestra el empleado frente a sus clientes

X4: Calificación de la honestidad del empleado con sus clientes.

X5: Calificación del arte para lograr una venta del empleado.

X6: Calificación de la experiencia como empleado

X7: Calificación de identificación con la empresa

Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
Miraflores

Análisis Factorial

Considerando a todas las variables

a) El Índice KMO es:

KMO=0.875 > 0.5 se debe realizar el Análisis Factorial

> library(psych)

> r1<-cor(mir)

> KMO(r1)$MSA

[1] 0.8752791

b) ¿Se debe eliminar del análisis alguna variable? Si su respuesta es afirmativa, indique la(s)
variable(s) que deben ser eliminadas y sustente por qué debe ser eliminada.

Se deben eliminar las variables X2, X4 y X6

MSAX4=0.273 después de eliminar X4

MSAX6=0.473 después de eliminar X4 y X6

MSAX2=0.473

Considerando las variables que deberían incluirse en el análisis y si se desean extraer 2 factores,

c) El porcentaje de variabilidad de la variable que conserva la mayor variabilidad explicada por


los factores explicados es:

Comunalidad de X3 = 99.991

d) El porcentaje de variabilidad explicado por los factores extraídos es:

El porcentaje de variabilidad total explicada por los 2 factores extraídos es 99.971%.


Luego de utilizar la rotación varimax,

e) La correlación del segundo factor con la variable X1 es:

0.331

f) El puntaje correspondiente al primer factor del individuo número 2 es:

-0.533

Análisis de Conglomerados

Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
San Miguel

Considerando solo los 10 primeros casos,

a) El par de casos más cercanos según la distancia euclídea es:

El par de casos más cercanos es 7 y 10 d(7:10)=1.192

b) El par de casos más lejanos según la distancia euclídea es:

El par de casos más lejano es 6 y 9 d(6;9)= 17.205

Conglomerado Jerárquico

Utilice todos los datos

Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace


promedio (average).

c) El número de conglomerados formados en el paso (o etapa) 86 es:

N° de conglomerados = N-etapa a analizar: 140 – 86 = 54 conglomerados

d) Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:

18 casos

e) Si se desea formar 2 conglomerados, el promedio de la variable X4 del conglomerado número


1 es:

Xbar4 = 10.213

Según el método máxima variación del coeficiente de conglomeración,

a) La etapa donde se obtiene la mayor variación es:

138

b) El número de conglomerados que se deben formar en esta etapa es:

148-138= 2
Conglomerado de K medias

Antes de correr anteponga

RNGkind([Link]=”Rounding”)

[Link](161).

Aplique el método de K medias, considere 3 conglomerados,

a) El número de casos del conglomerado más grande es:

55

b) A un nivel de significación de 0.05, la(s) variable(s) no significativas para la formación de los


conglomerados es(son):

Todas son significativas

c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado
es:

5.235

#Análisis Factorial
###################
mira<-subset(caso,distrito=="Miraflores")
#en análisis factorial solo valores numéricos, por eso [,-1](se elimina columna distrito):
mir<-mira[,-1]
#a partir de ahí se trabaja con mir
library(psych)

#Pregunta a)
r1<-cor(mir)
KMO(r1)$MSA

#Pregunta b)
KMO(r1)$MSAi

r2<-cor(mir[,-4])
KMO(r2)$MSAi

r3<-cor(mir[,-c(4,6)])
KMO(r3)$MSAi

r4<-cor(mir[,-c(2,4,6)])
KMO(r4)$MSAi
#0.473 xq se elimina dos veces finalmente, solo piden quitar 3 X

#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
#se escoge lo q te pida de las X

#Parte d)
total<-facto$values
var<-total*100/sum(total)
porvar<-cumsum(var)
cbind(total,var,porvar)

#Parte e)
#Cargas factoriales
facto$loadings
facto$loadings[1,1]

#Rotación de factores
facto2<-principal(r4,nfactors=2,rotate="varimax")
facto2$loadings
facto2$loadings[1,2]

#tener cuidado con el orden de [1,2] siempre en cualquier caso

#Parte f)
#Puntuaciones Factoriales en 13-1 todo lo hecho
facto3<-principal(mir[,-c(2,4,6)],nfactors=2, rotate="varimax",scores=T)
#mir[,-c(2,4,6) de arriba, no se usa r4 xq para obtener los puntuaciones se necesitan datos originales
facto3$scores[2,1]

#####################################
#Análisis de Conglomerados Jerárquico
#####################################
sm<-subset(caso,distrito=="San Miguel")
smr<-sm[,-1]

#Parte a y b)
#Matriz de distancias en 14-1 (5)
round(dist(smr[1:10,], method="euclidean"),3)
#round:redondea a 3 decimales (N° al final), dist:distancia

#Parte c)
#Conglomerado Jerárquico
d<-dist(smr, method="euclidean")
clus<-hclust(d, method="average")
#N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados

#Parte d)
#Número de elementos en cada conglomerado en 14-1 (29)
con3<-cutree(clus,k=3)
table(con3)

#Parte e)
con2<-cutree(clus,k=2)
#Perfil de conglomerados en 14-1 (35)
aggregate(smr,by=list(cluster=con2),mean)

#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100
#abs:para valor absoluto si hubiera algun dato q sea negativo
#coe:coeficientes, (coe del sgte a 1 a N-1 y coe de 1 a N-2)
[Link](pvar[-c(1:4)])+4
#cúal es el máx. y se quita del 1:4, luego se suma los 4 q se quitó

#####################################
#Análisis de Conglomerados K Medias
#####################################

#Parte a)
#escribir de nuevo las comillas en Rounding para q salga warning message:
RNGkind([Link]="Rounding")
[Link](161)
#Conglomerado de k medias en 15-1 (9)
cluk<-kmeans(smr, centers=3, [Link] = 10)
#centers=N°conglomerados
#Conglomerado de pertenencia en 15-1 (18 y 20)
cong3<-cluk$cluster
table(cong3)
#cong3=conglomerado 3

#Parte b)
#Análisis de Varianza en 15-1 (23)
anova(lm(smr$X1~[Link](cong3)))
anova(lm(smr$X2~[Link](cong3)))
anova(lm(smr$X3~[Link](cong3)))
anova(lm(smr$X4~[Link](cong3)))
anova(lm(smr$X5~[Link](cong3)))
anova(lm(smr$X6~[Link](cong3)))
anova(lm(smr$X7~[Link](cong3)))
#Si te piden el Fcal con más decimales
anova(lm(smr$X7~[Link](cong3)))[1,4]
#[1,4] fila 1, columna 4
anova(lm(smr$X7~[Link](cong3)))[2,2]

#Parte c)
#Centros finales
mediask<-cluk$centers
#Distancias entre los centros
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
#T:True
d1
#correr de nuevo con la semilla porsiaca
RNGkind([Link]="Rounding")
[Link](161)

mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1

PAQUETES:
pcych
fastgraph
aplpack
corrplot
rstatix

En 14-2: manhattan, centroid

También podría gustarte