0% encontró este documento útil (0 votos)

52 vistas50 páginas

Paquetes R para Análisis Estadístico PC

1) El documento presenta una introducción al análisis multivariado, mencionando técnicas como el análisis de regresión múltiple, análisis discriminante lineal, análisis de conglomerados y análisis factorial. 2) Explica que el análisis factorial puede ser exploratorio u confirmatorio y clasifica las variables en cualitativas y cuantitativas. 3) Describe las características de la matriz de varianza-covarianza y la matriz de correlación, incluyendo que son matrices simétricas y que la

Cargado por

Mary Carrasco

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

52 vistas50 páginas

Paquetes R para Análisis Estadístico PC

Cargado por

Mary Carrasco

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

PAQUETES A CARGAR PARA PC

library(psych)
library(GGally)
library(PerformanceAnalytics)
library(corrplot)
library(rstatix)

bootstrap
exactRankTests
tseries
forecast
lmtest
nortest
ggfortify
7/4

Si queremos que se cumplan los supuestos el p-valor en la prueba de normalidad y

homocedasticidad debe ser mayor o igual que alfa (nivel de significación)

El análisis de varianza me da una prueba F

Si no rechazo H0 puedo elegir cualquier programa de capacitación

CM: CUADRADO MEDIO
SC: SUMA DE CUADRADOS

COMPONENTES DE EXPERIMENTO
RR: REGIÓN DE RECHAZO

chical= 1.0218
Chicrit= 8.947287

11/4

SUPUESTOS:
Normalidad de errores, homocedasticidad e independencia

28/4

CORRER A LA VEZ
CORRER A LA VEZ TMB

TMB CORRER

correr todo
1 xq es estatal, si hubiera sido particular es 2

lo encerrado de rojo se tiene q cambiar

pruebas no paramétricas se le conocen como pruebas de distribución libre

18/4

PRUEBAS CHI CUADRADO

Asimétrica hacia la derecha.
Es asintótica con respecto al eje x.
Toma solo los valores positivos.
2/5/22

PRUEBAS NO PARAMÉTRICAS
1- PRUEBA DE WILCOXON
- Analiza una variable de una muestra aleatoria.
- Evalúa la media poblacional.
- Es una prueba alternativa a las pruebas z o t.

H0:Me=Me0 H0:Me≤Me0 H0:Me≥Me0

H1:Me≠Me H1:Me>Me0 H1:Me<M0

Ejm:
H0:Me≥3 En R rank
H1:Me<3
α p-valor
X Número de artículos adquiridos

x Xi~Me0 Rankear
5 5-3=2 2.5
8 8-3 4
2 2-3 1
1 1-3 2.5
3 3-3=0
9 9-3=6 5

W=2.5+4+5=11.5

1.
H0:Me≥3
H1:Me<3

2. α =0.05

3. V=24584 p-valor=8.96x10−15 x 0.00<α se rechaza H0

R.N.R de H0 R.R de H0
V.C.
4. Conclusión
2- PRUEBA DE MANN WHITNEY
- Permite comparar la mediana de 2 poblaciones independientes.

H0:Me1=Me2 H0:Me1≤Me2 H0:Me1≥Me2

H1:Me1≠Me2 H1:Me1>Me2 H1:Me1<M2

H0:Me1-Me2=0
H1:Me1-Me2≠0

- Es la alternativa a la prueba z o t para z muestras independientes.

Ejm:
A B
5(5) 5(5)
8(7) 5(5)
3(2) 2(1)
4(3) n1=4
S1=17 n2=3
4 (4 +1)
W=17-
2

SI EN LA PC NO TE DICEN NADA SE ASUME QUE EL PRIMER GRUPO ES EL GRUPO DE INTERÉS.

H0:Mec≤Mes
H1:Mec>Mes
α =0.05
p-valor=0.6214 > α no se rechaza H 0
Conclusión

3- PRUEBA DE KRUSKAL-WALLIS
- Permite comparar la mediana de K poblaciones independientes.
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k
- Es la prueba alternativa de Diseño Completamente al Azar (DCA)

H0:Me1=Me2=Me3
H1: Al menos una Mei es diferente a las demás i=1,2,3
α =0.05
2
X c=2.293 p-valor=0.318>α no se rechaza H0

Como X 2c=2.293< X 2c=5.99 no se rechaza H0

Conclusión

4- PRUEBA DE FRIEDMAN
- Es la prueba alternativa al Diseño de Bloques Completamente al Azar (DBCA)
H0:Me1=Me2=...=Mek
H1: Al menos una Mei es diferente a las demás i=1,2,...k

X2~X2(k-1)

Y: Puntaje del postulante en una escala de la S

Evalua. P1 P2 P3
E1 4(2.5) 4(2.5) 3(1)
E2 2(2) 1(1) 3(3)
Bloques E3 5(3) 4(1.5) 4(1.5)
E4 3(2) 3(2) 3(2)

9/5

SI LA PENDIENTE SALE NEGATIVA LA CORRELACIÓN SALE NEGATIVA.

SI LA PENDIENTE SALE POSITIVA LA CORRELACIÓN SALE POSITIVA.

PREDICCIÓN
Confidence o valor medio
Prediction o valor individual

12/5
19/5
ES BOOTSTRAP (PRUEBAS NO PARAMÉTRICAS) SI TE DICE QUE USA TANTAS MUESTRAS
BOOTSTRAP, USA UNA SEMILLA

ES WILCOXON SI DICE PROBAR SI LA MEDIANA ES MAYOR A CIERTO VALOR

EN CLASE 4-2 R ESTÁ TODO LO DE BOOTSTRAP

[Link](aquí va la semilla que dan de dato)

media: mean, varianza: var

estimador de la media

error estándar

DE 4500 A
4.5 PORQUE DATO DICE QUE ESTÁ EN MILES

H0 ES LO CONTRARIO DE H1, MENOR O IGUAL, O IGUAL

H1 ES MAYOR, MENOR O DIFERENTE DE

COMO EN H1 ES MAYOR A ES g: (si fuera menor sería l, si fuera diferente sería t)

Wilcoxon ES PARA 1 MUESTRA

Mann Whitney ES PARA 2 MUESTRAS
Kruskal Wallis MÁS DE DOS MUESTRAS. ES PARA K MUESTRAS por eso es equivalente al DCA
Friedman ES PARA K MUESTRAS PERO EN BLOQUES por eso es equivalente al DBCA
Spearman ES PARA ANALIZAR CORRELACIONES

D: DORADA
C: CLÁSICA
EL 102 SE OBTIENE DE DO QUE ES DORADAS

EN CLASE 5-2 R ESTÁ TODAS LAS PRUEBAS NO PARAMÉTRICAS (INCLUYE CORRELACIÓN DE

SPEARMAN)

EN CLASE 7-1 R ESTÁ TODO LO DE REGRESIÓN

PREDICTION ES PARA UN INDIVIDUO

CONFIDENCE VARIOS

fit: valor estimado, valor puntual

: intervalo

SI NO ME DAN EL PORCENTAJE DE CONFIANZA TE PREGUNTAN POR EL fit

SI ES MAYOR A ALFA DESCARTO EL CUADRÁTICO QUE ES EL MAYOR Y PASO AL SIGUIENTE

MAYOR QUE ES EL EXPONENCIAL

26/5
sol pc2

datos<-[Link]("clipboard")

#Pregunta 5
sm<-subset(datos,distrito=="San Miguel")

RNGkind([Link]="Rounding")
[Link](54)
library(bootstrap)
esti<- bootstrap(sm$Y,1350,var)
var_sam<-esti$thetastar
esboot<-mean(var_sam)
eeboot<-sd(var_sam)

#Intervalos de confianza
nc<-0.95
alfa<-1-nc
quantile(var_sam,c(alfa/2,1-alfa/2), type = 6)

sqrt(quantile(var_sam,c(alfa/2,1-alfa/2), type = 6))

#Prueba de hipótesis
phv <- function(datos,B)
{
res1=c()
res2=c()
for (i in 1:B) {
n=length(datos)
data=sample(datos,n,replace=T)
res1[i]=varTest(data,[Link] = 21, alternative = "l")$[Link]
res2[i]=varTest(data,[Link] = 21, alternative = "l")$statistic
}
pvalor=mean(res1)
sta=mean(res2)
return(list(pvalor=pvalor,sta=sta))
}

RNGkind([Link]="Rounding")
[Link](54)
phv(sm$Y,1350)

lm<-subset(datos,distrito=="La Molina")
library(exactRankTests)
[Link](lm$Y,mu=73,alternative="l")
PREGUNTA 4
dis<-c("San Isidro", "San Luis", "Pueblo Libre")
subc<-subset(datos, datos$distrito%in%dis)
library(agricolae)
kruskal(subc$Y,subc$distrito,console=T)

qchisq(0.01,2,[Link] = F)

estadístico de prueba =

su<-subset(datos,distrito=="Surco")
mode<-lm(Y~X2,data=su)
summary(mode)
library(nortest)
[Link](mode$residuals)
anova(mode)

predict(mode,[Link](X2=85.9),[Link]=0.98,interval="prediction")
summary(mode)$[Link]*100

#Pregunta 1
lo<-subset(datos,distrito=="Los Olivos")
mode1<-lm(Y~X1+X2+X3,data=lo)
summary(mode1)

mode2<-lm(Y~X1+X3,data=lo)
library(car)
vif(mode2)
predict(mode2,[Link](X1=179.9,X3=2318.2),[Link]=0.96,interval="prediction")

5.74

30/5
SERIES DE TIEMPO
LA SERIE ES ESTACIONARIA CUANDO TRAZO UNA MEDIA Y ES ESTABLE RESPECTO A ESA MEDIA

SI NO ES ESTACIONARIA TENEMOS QUE SABER CUÁNTAS VECES TENEMOS QUE

DIFERENCIARLAS, TENEMOS QUE DETERMINAR CUÁNTO VALE X.
SI LA SERIE ES ESTACIONARIA “D” VALE 0.
[Link]
EJEMPLOS DE DONDE PUEDES ANALIZAR UNA SERIE DE TIEMPO:
EJM: EN EL CELULAR SALE LA TEMPERATURA
CON COMPORTAMIENTO CON PENDIENTE NEGATIVA

PRUEBA Q DE Ljung-Box
H0: Modelo es adecuado
H1: Modelo no es adecuado
α =0.05
p-valor=0.668>α no se rechaza H0
Conclusión

Prueba de normalidad
H0: Los errores se distribuyen normalmente

SERIES DE TIEMPO

2017,1 porque es enero del 2017

pdq
ARIMA (0,1,1)
ARIMA (1,1,0)
ARIMA (2,1,0)
ARIMA (0,1,2)
.
.
.
ARIMA (1,0,0)=AR(1)
ARIMA (0,0,1)=MA(1)
ARIMA (1,0,1)=ARMA(1,1)

no ES MEJOR EL QUE TENGA MENOR AIC, PORQUE PUEDE QUE NO CUMPLA CON LOS
SUPUESTOS

p-valores : 0.00, 0.72, 0.00

2/6

(2016,8) 8 porque es agosto

: los 1 es por la
diferenciación
p-valor: 0.8981
p q

optar por el más simple, p+q (el primero)

6/6
INTRODUCCIÓN AL ANÁLISIS MULTIVARIADO
Técnicas multivariadas
Dependientes (Y vs X1,..., Xp)
Ejm:
- Análisis de regresión múltiple
- Análisis discriminante lineal
Independientes (X1, X2,..., Xp)
- Análisis de conglomerados
- Análisis de correspondencia simple
- Análisis factorial
1. ANÁLISIS FACTORIAL
a) Exploratorio
b) Confirmatorio

Clasificación de variables
● Cualitativas
Nominal: Escala nominal
Ordinal: Escala ordinal
● Cuantitativas
Discretas: Escala intervalo
Continuas: Escala razón

CARACTERÍSTICAS DE LA MATRIZ VARIANZA-COVARIANZA (S)

- ES UNA MATRIZ CUADRADA
- ES UNA MATRIZ SIMÉTRICA
- EN LA DIAGONAL SE UBICAN LAS VARIANZAS DE LAS “p” VARIABLES
- FUERA DE LA DIAGONAL SE UBICAN LAS COVARIANZAS POR PARES DE VARIABLES
SI (Sij >0) LA COVARIANZA ES POSITIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA DIRECTA.
SI (Sij <0) LA COVARIANZA ES NEGATIVA, LAS VARIABLES Xi y Xj TIENEN UNA DEPENDENCIA INDIRECTA.
SI (Sij =0) LA COVARIANZA ES 0 NO HAY DEPENDENCIA ENTRE Xi y Xj.

CARACTERÍSTICAS DE LA MATRIZ DE CORRELACIÓN (R) LA CORRELACIÓN VARÍA ENTRE -1 Y 1 (-1≤r≤ 1)

- ES UNA MATRIZ CUADRADA

- ES UNA MATRIZ SIMÉTRICA (rij=rji)
- EN LA DIAGONAL SE UBICA EL VALOR 1 QUE INDICA LA CORRELACIÓN DE Xj CON Xi.
- FUERA DE LA DIAGONAL SE UBICAN LAS CORRELACIONES POR PARES DE VARIABLES
SI (rij >0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL DIRECTA.
SI (rij <0) LAS VARIABLES Xi y Xj TIENEN UNA RELACIÓN LINEAL INDIRECTA.
SI (rij =0) NO HAY RELACIÓN LINEAL ENTRE Xi y Xj.
PROPIEDADES DE LOS AUTOVALORES
- LA SUMA DE LOS AUTOVALORES ES IGUAL A LA TRAZA DE LA MATRIZ DE DONDE SON OBTENIDOS.

- EL PRODUCTO DE LOS AUTOVALORES ES IGUAL AL DETERMINANTE DE LA MATRIZ DE DONDE SON

OBTENIDOS.

- EL PORCENTAJE DE VARIABILIDAD TOTAL EXPLICADA

PARA AUTOVALORES DE LA MATRIZ DE COVARIANZA: MATRIZ DE COVARIANZA – LAMBDA VECES LA

MATRIZ IDENTIDAD

CADA AUTOVALOR TIENE SU PROPIO AUTOVECTOR

LA TRAZA ES LA SUMA DE LA DIAGONAL PRINCIPAL

9/6
SE ANALIZAN VARIAS VARIABLES A LA VEZ CON LA FINALIDAD DE APROVECHAR LA CORRELACIÓN O LA
ASOCIACIÓN ENTRE ESAS VARIABLES
ESA ASOCIACIÓN ES MEDIDA POR LA CORRELACIÓN
TAMBIÉN SE PUEDE UTILIZAR LA COVARIANZA, PERO PUEDE SALIR UN VALOR MUY GRANDE O MUY
PEQUEÑO
LA CORRELACIÓN SIEMPRE VARÍA DE -1 A 1
CERCANA A 1 ES TENDENCIA LINEAL DIRECTA
CERCANA A -1 ES TENDENCIA LINEAL INDIRECTA
SI ES CERCANA A 0 NO HAY RELACIÓN ENTRE ESE PAR DE VARIABLES

VARIABLE INDIRECTA: UNA VARIABLE AUMENTA Y LA OTRA DISMINUYE

VARIABLE DIRECTA: SI UNA AUMENTA LA OTRA TAMBIÉN AUMENTA
SI UNA DISMINUYE LA OTRA TAMBIÉN DISMINUYE

SOLO TRABAJAREMOS CON CUANTITATIVAS

Min. 48:00 ej. pc teórica:

Si se tiene una matriz de datos de dimensión 80x5
¿Cuántas correlaciones por pares de variables se pueden obtener?
n=80 , p=5

MD: MATRIZ DE DATOS

PERO SI LE QUITA LA DIAGONAL (QUE SON LOS 5 UNOS)
ES SIMÉTRICA ARRIBA Y ABAJO DE LA DIAGONAL, POR ELLO SE DIVIDE ENTRE 2
las matrices de correlación y covarianza son cuadradas (pxp, 5x5, etc)
2
p −p
FÓRMULA GENERAL:
2
La traza de la matriz de correlación siempre es igual a p. En este caso 5.
siempre ponerlo sin signo en la rpta. aunque sea negativo

SI
QUISIERA LOS 3 PRIMEROS VALORES SERÍA 1:3

siempre salen p autovalores

s12 pc presencial, temas:

series de tiempo análisis multivariada
16/6
LOS DATOS DE WORD COPIAR A EXCEL Y PONERLOS EN COLUMNA ANTES DEL READ DELIM
EL MÉTODO ARIMA TRABAJA CON SERIES ESTACIONARIAS, SERIES ESTABLES, SERIES QUE NO TENGAN
MUCHA VARIACIÓN. SI NO ES ESTACIONARIA, HAY QUE VOLVERLA ESTACIONARIA DIFERENCIANDO.
PARA QUE LA SERIE SEA
ESTACIONARIA, LA SERIE DEBE SER ASÍ (NARANJA) ESTABLE.

PARA DECIR QUE ES ESTACIONARIA, EL P-VALOR DEBE SALIR MENOR AL ALFA (Dickey-Fuller)

Se diferencia con la función dif:

adf: Augmented Dickey-Fuller:

NIVEL DE SIGNIFICACIÓN: α

EN LOS NÚMEROS
DEL MEDIO VA EL NÚMERO DE DIFERENCIACIONES. LOS EXTREMOS SON LOS COEFICIENTES.
SI TIENEN MENOR AIC Y SI SUS COEFICIENTES SON SIGNIFICATIVOS DEBEMOS QUEDARNOS CON ESE
MODELO
SE ANALIZA
PRIMERO EL ARIMA 2 XQ ES EL Q TIENE MENOR AIC. SE ESCOGE SI TIENE LA MENOR SUMA DE LOS
COEFICIENTES (SIGNIFICATIVOS).
SI LOS ARIMAS TIENEN LOS MISMA SUMA DE COEFICIENTES SE ELIGE AL QUE TENGA MENOR AIC

EL P VALOR DE LOS DOS

COEFICIENTES DE (2,2,0) DEBE SER MENOR QUE ALFA
SI FUERA MAYOR SE PASA AL SIGUIENTE ARIMA CON MENOR AIC

PARA SERIE DE TIEMPO NO SE USA SUBSET

Prueba de Ljung-Box: ANALIZA EL COMPORTAMIENTO DE LOS RESIDUOS, LA DISPERSIÓN DE LOS
RESIDUOS A TRAVÉS DEL TIEMPO, YA QUE MIS RESIDUOS DEBEN SER CONSTANTES

MI MODELO NO ES ADECUADO POR MÁS QUE MIS COEFICIENTES SEAN SIGNIFICATIVOS, DEBO
DESCARTAR. HAY PUNTOS FUERA DE C (LÍNEA CONSTANTE)
#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling

#e)
#Pronósticos
library(forecast)
forecast(arima2, h= 2, level = 0.94)
#level(nivel de confianza)=0.94 ya q es 1-0.06(alfa)
#si mi serie acaba en mayo(dato),quiero solo junio y julio q es el q me piden(h=2)

EL INTERVALO ES DE Lo hasta Hi: [182.7119 ; 193.0904]

[límite inferior ; límite superior]
import dataset from excel

#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]

si la 8va columna (última) fuera cualitativa sería -8

El sexto elemento del tercer autovalor de la matriz de correlación es:

[,1] [,2] [,3] [,4] [,5] [,6] [,7]

[1,] 0.49 -0.08 0.01 0.02 0.00 -0.06 0.86

[2,] -0.11 -0.75 0.07 -0.65 0.00 0.00 0.00

[3,] 0.49 -0.08 0.02 0.02 -0.80 0.19 -0.27

[4,] 0.08 0.50 0.68 -0.52 0.01 0.00 0.00

[5,] 0.49 -0.08 0.02 0.02 0.25 -0.75 -0.34

[6,] 0.11 0.39 -0.72 -0.55 0.00 0.00 0.00

[7,] 0.49 -0.09 0.01 0.02 0.55 0.62 -0.25

#Caso 1: Series de Tiempo

#Lectura de datos
serie<-[Link]("clipboard")
#en serie puedo poner el nombre q quiera

#Transformar a una serie de tiempo

[Link]<-ts(serie, start = c(2016, 1), frequency = 12)
#2016 (año) y 1 (enero). 12 porque es una serie mensual

#Gráfica de la serie de tiempo

plot([Link])
#no es estacionaria, no es constante

#Análisis de Estacionariedad
library(tseries)

#a)
[Link]([Link], alternative = "stationary")
dif1.x <- diff([Link], differences = 1)
[Link](dif1.x , alternative = "stationary")
dif2.x <- diff(dif1.x , differences = 1)
[Link](dif2.x , alternative = "stationary")

#no es seguro:
library(forecast)
ndiffs([Link])

#rpta a) 2 diferenciaciones

#b)
#Evaluación de modelos candidatos (va 2 en el medio del (), ya que son 2 diferenciaciones)
arima1<-Arima([Link], order=c(1,2,0))
arima2<-Arima([Link], order=c(2,2,0))
arima3<-Arima([Link], order=c(0,2,1))
arima4<-Arima([Link], order=c(0,2,2))
arima5<-Arima([Link], order=c(1,2,1))
arima6<-Arima([Link], order=c(2,2,2))
arima7<-Arima([Link], order=c(2,2,1))
arima8<-Arima([Link], order=c(1,2,2))
AIC(arima1,arima2,arima3,arima4,arima5,arima6,arima7,arima8)

#Análisis del Modelo ARIMA2

library(lmtest)
coeftest(arima2)

#c)
#Evaluación de supuestos
#Prueba de Ljung Box
#no es necesario library(ggfortify)
[Link](arima2$residuals, type="Ljung-Box")

#d)
#Prueba de normalidad
library(nortest)
[Link](arima2$residuals)
#[Link]: prueba de anderson darling

#Caso 2: Introducción al Análisis Multivariado

sl<-subset(caso,distrito=="San Luis")
sl
#sl si quieres ver todo

#matriz de san luis sería 151x8

#a)Matriz de covarianzas
s<-cov(sl[,-1])
#covarianza de san luis -1 xq se le quita la variable cualitativa q es la de distrito (primera columna)
s[4,7]
s
#s si quiero ver todo

#b)Matriz de correlación
r<-cor(sl[,-1])
r[1,2]

#c) Autovalor
es<-eigen(s)
#(s) xq piden de la matriz de covarianza, correlación(r) y er<-
es$values
#como piden el sexto autovalor se escoge el 0.002641357

#d) Determinante de la matriz de covarianza

det(s)
#tmb se puede hacer así x propiedad:
prod(es$values)

#e) Traza de la matriz de covarianza

sum(diag(s))
#tmb se puede hacer así x propiedad:
sum(es$values)

#f) Autovectores (de la matriz de correlación )

er<-eigen(r)
round(er$vectors,2)
#eso para redondear a 2 decimales
#3er autovalor se refiere a 3ra columna y 6to elemento de las filas

#g) Variabilidad total explicada

#porcentaje de variabilidad total de los datos explica el 2do autovalor de la matriz de CORRELACIÓN
er$values[2]*100/7
#2do: [2] y porcentaje: *100/ 7=p(variables cuantitativas)
#si me piden de matriz covarianza sería 100/27.38865 q es su traza
#el 15.80223 es la rpta: 15.80223%
23/6

MATRIZ CORRELACIÓN ES DIFERENTE A LA MATRIZ IDENTIDAD

BASTA ELIMINAR LA MENOR VARIABLE (X5) NO TODAS, DSP TODAS SON MAYORES A 0.5

27/6
4/7
MATRIZ DE DISTANCIA

ES UNA MATRIZ CUADRADA DE DIMENSIÓN nxn

MATRIZ DE DISTANCIA COMPLETA ES SIMÉTRICA

EN LA DIAGONAL VAN CEROS, PORQUE ES LA DISTANCIA DE UN PUNTO A SI MISMO

PUEDEN PREGUNTAR, CUAL ES EL ELEMENTO MÁS CERCANO AL ELEMENTO 20? (CUAL ES EL

MÍNIMO)

CUAL ES LA PRIMERA PAREJA QUE SE UNE

PREGUNTAN:
EN LA ETAPA 18 CUÁNTOS CONGLOMERADOS HAY?
n: tamaño de la muestra

SI PREGUNTARAN EN EL PASO 90 SERÍA 100-90=10

14/7 REPASO
Toma valores entre 0 y 1:
[Link] de adecuación de la muestra (KMO)
Buena, si KMO ≥ 0,75
Aceptable, si 0,5 ≤ KMO < 0,75
Inaceptable, si KMO < 0,5

[Link] de adecuación por variable (MSA)

Buena, si MSA ≥ 0,75
Aceptable, si 0,5 ≤ MSA < 0,75
Inaceptable, si MSA < 0,5

MSA: MEDIDA DE ADECUACIÓN MUESTRAL (DE CADA VARIABLE)

KMO: MEDIDA DE ADECUACIÓN GLOBAL

#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
EL 100 XQ QUIERO PORCENTAJE, Y EL 3 (3 DECIMALES) SE DEJA X DEFECTO

> #Parte d)
> total<-facto$values
> var<-total*100/sum(total)
> porvar<-cumsum(var)
> cbind(total,var,porvar)
total var porvar
[1,] 3.9978396331 99.94599083 99.94599
[2,] 0.0009969241 0.02492310 99.97091
[3,] 0.0006847024 0.01711756 99.98803
[4,] 0.0004787404 0.01196851 100.00000

porcentaje de
variabilidad x 2 factores: 99.971

SEGÚN LA REGLA DE KAISER SE DEBE EXTRAER SOLO 1 FACTOR, YA

QUE SE DEBE EXTRAER AQUELLOS FACTORES CUYOS AUTOVALORES SON MAYORES A 1: 3.998
SI EL INVESTIGADOR O ANALISTA DESEA CONSERVAR COMO MÍNIMO 80% DE VARIABILIDAD,
CUÁNTOS FACTORES DEBEN EXTRAER? 1 XQ EL PRIMERO YA ESTÁ POR ENCIMA DEL 80%:
: ESE VALOR NO ES 0, ES UN VALOR MUY PEQUEÑO (-0.010):

: 2DO FACTOR DE LA VARIABLE X1

Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace

promedio (average).

c) El número de conglomerados formados en el paso (o etapa) 86 es:

N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados

d)
Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:
18 casos

#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100

coe[2:139]/coe[1:138] (coe de 1 a N-1 y coe de 1 a N-2)

:
1ra variable: Su p-valor(2.2e−16) <alfa(0.05)
Las otras variables tmb son menor a α . Por lo tanto todas son significativas.

Mean Sq: cuadrado medio del factor x ejm.

Sum Sq: suma de cuadrados del error (Residuals) x ejm.
F value: F calculado y Df: grados de libertad

c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado es:

: 5.235

#correr de nuevo con la semilla porsiaca

RNGkind([Link]="Rounding")
[Link](161)

mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1

Caso: R&DGo Market (Continuación)

R&Dgo Market es una cadena de supermercados que tiene varias tiendas en la capital.

El gerente de personal desea hacer un estudio sobre algunas características de los empleados que tienen
contacto directo con los clientes.

Para realizar el estudio seleccionó muestras aleatorias e independientes de vendedores de cada una de las
tiendas con las que cuenta la empresa.
Los ítems (variables) utilizadas en el cuestionario aplicado a los empleados son: X1: Calificación de la
amabilidad que proporciona el empleado.

X2: Calificación de grado de autoconfianza del empleado

X3: Calificación de grado de lucidez que demuestra el empleado frente a sus clientes

X4: Calificación de la honestidad del empleado con sus clientes.

X5: Calificación del arte para lograr una venta del empleado.

X6: Calificación de la experiencia como empleado

X7: Calificación de identificación con la empresa

Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
Miraflores

Análisis Factorial

Considerando a todas las variables

a) El Índice KMO es:

KMO=0.875 > 0.5 se debe realizar el Análisis Factorial

> library(psych)

> r1<-cor(mir)

> KMO(r1)$MSA

[1] 0.8752791

b) ¿Se debe eliminar del análisis alguna variable? Si su respuesta es afirmativa, indique la(s)
variable(s) que deben ser eliminadas y sustente por qué debe ser eliminada.

Se deben eliminar las variables X2, X4 y X6

MSAX4=0.273 después de eliminar X4

MSAX6=0.473 después de eliminar X4 y X6

MSAX2=0.473

Considerando las variables que deberían incluirse en el análisis y si se desean extraer 2 factores,

c) El porcentaje de variabilidad de la variable que conserva la mayor variabilidad explicada por

los factores explicados es:

Comunalidad de X3 = 99.991

d) El porcentaje de variabilidad explicado por los factores extraídos es:

El porcentaje de variabilidad total explicada por los 2 factores extraídos es 99.971%.

Luego de utilizar la rotación varimax,

e) La correlación del segundo factor con la variable X1 es:

0.331

f) El puntaje correspondiente al primer factor del individuo número 2 es:

-0.533

Análisis de Conglomerados

Responda las siguientes preguntas, utilice los datos de los empleados de la tienda ubicada en el distrito de
San Miguel

Considerando solo los 10 primeros casos,

a) El par de casos más cercanos según la distancia euclídea es:

El par de casos más cercanos es 7 y 10 d(7:10)=1.192

b) El par de casos más lejanos según la distancia euclídea es:

El par de casos más lejano es 6 y 9 d(6;9)= 17.205

Conglomerado Jerárquico

Utilice todos los datos

Aplique el Análisis de Conglomerados Jerárquico usando la distancia euclídea y el método de enlace

promedio (average).

c) El número de conglomerados formados en el paso (o etapa) 86 es:

N° de conglomerados = N-etapa a analizar: 140 – 86 = 54 conglomerados

d) Si se desea formar 3 conglomerados, el número de casos del tercer conglomerado es:

18 casos

e) Si se desea formar 2 conglomerados, el promedio de la variable X4 del conglomerado número

1 es:

Xbar4 = 10.213

Según el método máxima variación del coeficiente de conglomeración,

a) La etapa donde se obtiene la mayor variación es:

138

b) El número de conglomerados que se deben formar en esta etapa es:

148-138= 2
Conglomerado de K medias

Antes de correr anteponga

RNGkind([Link]=”Rounding”)

[Link](161).

Aplique el método de K medias, considere 3 conglomerados,

a) El número de casos del conglomerado más grande es:

b) A un nivel de significación de 0.05, la(s) variable(s) no significativas para la formación de los

conglomerados es(son):

Todas son significativas

c) La distancia euclídea del centro del primer conglomerado al centro del segundo conglomerado
es:

5.235

#Análisis Factorial
###################
mira<-subset(caso,distrito=="Miraflores")
#en análisis factorial solo valores numéricos, por eso [,-1](se elimina columna distrito):
mir<-mira[,-1]
#a partir de ahí se trabaja con mir
library(psych)

#Pregunta a)
r1<-cor(mir)
KMO(r1)$MSA

#Pregunta b)
KMO(r1)$MSAi

r2<-cor(mir[,-4])
KMO(r2)$MSAi

r3<-cor(mir[,-c(4,6)])
KMO(r3)$MSAi

r4<-cor(mir[,-c(2,4,6)])
KMO(r4)$MSAi
#0.473 xq se elimina dos veces finalmente, solo piden quitar 3 X

#Parte c)
#obtención de factores en clase 13-1
facto<-principal(r4,nfactors=2,rotate="none")
#Comunalidad en 13-1
round(facto$communality*100,3)
#se escoge lo q te pida de las X

#Parte d)
total<-facto$values
var<-total*100/sum(total)
porvar<-cumsum(var)
cbind(total,var,porvar)

#Parte e)
#Cargas factoriales
facto$loadings
facto$loadings[1,1]

#Rotación de factores
facto2<-principal(r4,nfactors=2,rotate="varimax")
facto2$loadings
facto2$loadings[1,2]

#tener cuidado con el orden de [1,2] siempre en cualquier caso

#Parte f)
#Puntuaciones Factoriales en 13-1 todo lo hecho
facto3<-principal(mir[,-c(2,4,6)],nfactors=2, rotate="varimax",scores=T)
#mir[,-c(2,4,6) de arriba, no se usa r4 xq para obtener los puntuaciones se necesitan datos originales
facto3$scores[2,1]

#####################################
#Análisis de Conglomerados Jerárquico
#####################################
sm<-subset(caso,distrito=="San Miguel")
smr<-sm[,-1]

#Parte a y b)
#Matriz de distancias en 14-1 (5)
round(dist(smr[1:10,], method="euclidean"),3)
#round:redondea a 3 decimales (N° al final), dist:distancia

#Parte c)
#Conglomerado Jerárquico
d<-dist(smr, method="euclidean")
clus<-hclust(d, method="average")
#N° de conglomerados = N(sm)-etapa a analizar: 140 – 86 = 54 conglomerados

#Parte d)
#Número de elementos en cada conglomerado en 14-1 (29)
con3<-cutree(clus,k=3)
table(con3)

#Parte e)
con2<-cutree(clus,k=2)
#Perfil de conglomerados en 14-1 (35)
aggregate(smr,by=list(cluster=con2),mean)

#Parte f)
#Conglomerado Jerárquico en 14-1 (17)
coe<-clus$height
#Criterio de la máxima variación en 14-1 (20)
pvar <- abs((coe[2:139]/coe[1:138]-1))*100
#abs:para valor absoluto si hubiera algun dato q sea negativo
#coe:coeficientes, (coe del sgte a 1 a N-1 y coe de 1 a N-2)
[Link](pvar[-c(1:4)])+4
#cúal es el máx. y se quita del 1:4, luego se suma los 4 q se quitó

#####################################
#Análisis de Conglomerados K Medias
#####################################

#Parte a)
#escribir de nuevo las comillas en Rounding para q salga warning message:
RNGkind([Link]="Rounding")
[Link](161)
#Conglomerado de k medias en 15-1 (9)
cluk<-kmeans(smr, centers=3, [Link] = 10)
#centers=N°conglomerados
#Conglomerado de pertenencia en 15-1 (18 y 20)
cong3<-cluk$cluster
table(cong3)
#cong3=conglomerado 3

#Parte b)
#Análisis de Varianza en 15-1 (23)
anova(lm(smr$X1~[Link](cong3)))
anova(lm(smr$X2~[Link](cong3)))
anova(lm(smr$X3~[Link](cong3)))
anova(lm(smr$X4~[Link](cong3)))
anova(lm(smr$X5~[Link](cong3)))
anova(lm(smr$X6~[Link](cong3)))
anova(lm(smr$X7~[Link](cong3)))
#Si te piden el Fcal con más decimales
anova(lm(smr$X7~[Link](cong3)))[1,4]
#[1,4] fila 1, columna 4
anova(lm(smr$X7~[Link](cong3)))[2,2]

#Parte c)
#Centros finales
mediask<-cluk$centers
#Distancias entre los centros
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
#T:True
d1
#correr de nuevo con la semilla porsiaca
RNGkind([Link]="Rounding")
[Link](161)

mediask<-cluk$centers
d1<-dist(mediask,method="euclidean",diag=T,upper=T)
d1

PAQUETES:
pcych
fastgraph
aplpack
corrplot
rstatix

En 14-2: manhattan, centroid

También podría gustarte

Estadística Inferencial y Descriptiva
Aún no hay calificaciones
Estadística Inferencial y Descriptiva
60 páginas
Análisis de Variables Cuantitativas en Estadística
Aún no hay calificaciones
Análisis de Variables Cuantitativas en Estadística
22 páginas
Prueba de Hipótesis y Análisis Estadístico
Aún no hay calificaciones
Prueba de Hipótesis y Análisis Estadístico
32 páginas
Parcial 2 Análisis
Aún no hay calificaciones
Parcial 2 Análisis
6 páginas
03 Analizar-Determinar Variables Significativas
Aún no hay calificaciones
03 Analizar-Determinar Variables Significativas
13 páginas
Estimación y Pruebas en Estadística
Aún no hay calificaciones
Estimación y Pruebas en Estadística
29 páginas
Prueba de Hipótesis en Estadística Empresarial
Aún no hay calificaciones
Prueba de Hipótesis en Estadística Empresarial
84 páginas
Pruebas No Parametricas Complementar
Aún no hay calificaciones
Pruebas No Parametricas Complementar
16 páginas
Análisis de Datos y Pruebas de Hipótesis
Aún no hay calificaciones
Análisis de Datos y Pruebas de Hipótesis
13 páginas
ESTADÍSTICA PARA ADMINISTRADORES Primer Parcial Resumen
Aún no hay calificaciones
ESTADÍSTICA PARA ADMINISTRADORES Primer Parcial Resumen
15 páginas
Pruebas No Paramétricas en Estadística
Aún no hay calificaciones
Pruebas No Paramétricas en Estadística
22 páginas
Pruebas No Paramétricas en R: Mann-Whitney y Wilcoxon
Aún no hay calificaciones
Pruebas No Paramétricas en R: Mann-Whitney y Wilcoxon
13 páginas
Inferencia Estadística: Estimación y Pruebas
Aún no hay calificaciones
Inferencia Estadística: Estimación y Pruebas
7 páginas
Resumen Tests
Aún no hay calificaciones
Resumen Tests
1 página
03 Descriptivos e Inferencia (DIA 2)
Aún no hay calificaciones
03 Descriptivos e Inferencia (DIA 2)
41 páginas
CursoRstudio 4 - MANUAL - 2021 - EVA
Aún no hay calificaciones
CursoRstudio 4 - MANUAL - 2021 - EVA
13 páginas
Semana4 Pruebas No Parametricas
Aún no hay calificaciones
Semana4 Pruebas No Parametricas
58 páginas
Referente 1
Aún no hay calificaciones
Referente 1
31 páginas
Estimación y Pruebas en Estadística
Aún no hay calificaciones
Estimación y Pruebas en Estadística
13 páginas
Análisis de Variables Cuantitativas
Aún no hay calificaciones
Análisis de Variables Cuantitativas
6 páginas
Pruebas Estadísticas No Paramétricas
Aún no hay calificaciones
Pruebas Estadísticas No Paramétricas
8 páginas
Unidad IV-Teoría-No-Paramétrica
Aún no hay calificaciones
Unidad IV-Teoría-No-Paramétrica
41 páginas
Guía de Pruebas Estadísticas en R
Aún no hay calificaciones
Guía de Pruebas Estadísticas en R
28 páginas
Pruebas t y normalidad en R
Aún no hay calificaciones
Pruebas t y normalidad en R
27 páginas
Manejo de InfoStat PDF
Aún no hay calificaciones
Manejo de InfoStat PDF
20 páginas
PanoEspinolaAlejandro - 18 11 23
Aún no hay calificaciones
PanoEspinolaAlejandro - 18 11 23
5 páginas
Análisis Estadístico con SPSS: Guía Completa
100% (1)
Análisis Estadístico con SPSS: Guía Completa
40 páginas
Capacidad de Procesos1
Aún no hay calificaciones
Capacidad de Procesos1
35 páginas
Guía de Investigación Cuantitativa en Psicología
Aún no hay calificaciones
Guía de Investigación Cuantitativa en Psicología
59 páginas
Estadistica Estadística en Empresas
Aún no hay calificaciones
Estadistica Estadística en Empresas
34 páginas
Pruebas Estadísticas y Análisis de Datos
Aún no hay calificaciones
Pruebas Estadísticas y Análisis de Datos
26 páginas
Guía de Pruebas Estadísticas en R
Aún no hay calificaciones
Guía de Pruebas Estadísticas en R
1 página
Características de los Datos Categóricos
Aún no hay calificaciones
Características de los Datos Categóricos
12 páginas
Análisis Estadístico en Simulación
Aún no hay calificaciones
Análisis Estadístico en Simulación
37 páginas
Métodos No Paramétricos en Estadística
Aún no hay calificaciones
Métodos No Paramétricos en Estadística
33 páginas
Bioestadística en Epidemiología: Fundamentos
Aún no hay calificaciones
Bioestadística en Epidemiología: Fundamentos
30 páginas
Parcial I Redaccion de DC
Aún no hay calificaciones
Parcial I Redaccion de DC
6 páginas
Estadistica Inferencial Con Microsoft Excel
Aún no hay calificaciones
Estadistica Inferencial Con Microsoft Excel
13 páginas
Pruebas de Normalidad y ANOVA
Aún no hay calificaciones
Pruebas de Normalidad y ANOVA
3 páginas
Pruebas de Bondad de Ajuste y ANOVA
Aún no hay calificaciones
Pruebas de Bondad de Ajuste y ANOVA
7 páginas
Resumen Segundo Parcial Estadística 2 UADE
Aún no hay calificaciones
Resumen Segundo Parcial Estadística 2 UADE
23 páginas
Prueba de Hipótesis en Estadística Empresarial
Aún no hay calificaciones
Prueba de Hipótesis en Estadística Empresarial
14 páginas
Análisis de Modelos de Regresión en Econometría
Aún no hay calificaciones
Análisis de Modelos de Regresión en Econometría
28 páginas
Aplicaciones de Pruebas de Hipótesis
Aún no hay calificaciones
Aplicaciones de Pruebas de Hipótesis
9 páginas
Prueba de Hipótesis para Dos Medias
Aún no hay calificaciones
Prueba de Hipótesis para Dos Medias
27 páginas
Contraste de Hipótesis con una Variable
Aún no hay calificaciones
Contraste de Hipótesis con una Variable
14 páginas
Estadística Inferencial Con Microsoft Excel
Aún no hay calificaciones
Estadística Inferencial Con Microsoft Excel
13 páginas
Estadística Inferencial Con Microsoft Excel
Aún no hay calificaciones
Estadística Inferencial Con Microsoft Excel
17 páginas
Prueba de Hipotesis Upt
Aún no hay calificaciones
Prueba de Hipotesis Upt
46 páginas
Guía de Estadística para Exámenes
Aún no hay calificaciones
Guía de Estadística para Exámenes
9 páginas
Comandos y Funciones Básicas en R
Aún no hay calificaciones
Comandos y Funciones Básicas en R
23 páginas
Estadística No Paramétrica: Métodos y Aplicaciones
Aún no hay calificaciones
Estadística No Paramétrica: Métodos y Aplicaciones
211 páginas
Hipótesis y Estadística Inferencial
Aún no hay calificaciones
Hipótesis y Estadística Inferencial
21 páginas
Comparación de Medias con T-Test en R
Aún no hay calificaciones
Comparación de Medias con T-Test en R
14 páginas
Validez y Estadística en Psicología
Aún no hay calificaciones
Validez y Estadística en Psicología
54 páginas
Análisis Exploratorio y MANOVA en Estadística
Aún no hay calificaciones
Análisis Exploratorio y MANOVA en Estadística
47 páginas
Pruebas Estadísticas Médicas
Aún no hay calificaciones
Pruebas Estadísticas Médicas
26 páginas
Guía Completa sobre ANOVA en Bioestadística
100% (1)
Guía Completa sobre ANOVA en Bioestadística
34 páginas
Cuadernillo de Matemáticas 5º Grado
100% (1)
Cuadernillo de Matemáticas 5º Grado
132 páginas
Semana 02 - Estadistica - MCH - PS2022 (Permutacion Lineal y Circular) PDF
Aún no hay calificaciones
Semana 02 - Estadistica - MCH - PS2022 (Permutacion Lineal y Circular) PDF
4 páginas
Cambio de Coordenadas y Matrices 2x2
Aún no hay calificaciones
Cambio de Coordenadas y Matrices 2x2
14 páginas
Método Branch and Bound en Programación Entera
Aún no hay calificaciones
Método Branch and Bound en Programación Entera
10 páginas
Solucionario G F Simmons
Aún no hay calificaciones
Solucionario G F Simmons
31 páginas
Problemas Maximos y Minimos
Aún no hay calificaciones
Problemas Maximos y Minimos
3 páginas
Actividad de Álgebra: Propiedades de Campo
Aún no hay calificaciones
Actividad de Álgebra: Propiedades de Campo
3 páginas
Actividad 3 40011 80
Aún no hay calificaciones
Actividad 3 40011 80
31 páginas
Cepru - 4
Aún no hay calificaciones
Cepru - 4
2 páginas
Unidad 2: Aplicaciones de La Geometría para Cuantificar Distancias y Describir El Espacio
Aún no hay calificaciones
Unidad 2: Aplicaciones de La Geometría para Cuantificar Distancias y Describir El Espacio
14 páginas
Demostrar Que Comprenden Porcentajes Gráficamente y Simbólicamente 6º
Aún no hay calificaciones
Demostrar Que Comprenden Porcentajes Gráficamente y Simbólicamente 6º
3 páginas
Ecuaciones de Rectas en Geometría Analítica
Aún no hay calificaciones
Ecuaciones de Rectas en Geometría Analítica
9 páginas
Transformada de Laplace: Fundamentos y Propiedades
Aún no hay calificaciones
Transformada de Laplace: Fundamentos y Propiedades
23 páginas
INTERÉS SIMPLE Y COMPUESTO Freddy Silva - UPC
100% (1)
INTERÉS SIMPLE Y COMPUESTO Freddy Silva - UPC
21 páginas
Rectas y Planos en El Espacio
Aún no hay calificaciones
Rectas y Planos en El Espacio
13 páginas
Rentas Financieras 2024-25
Aún no hay calificaciones
Rentas Financieras 2024-25
2 páginas
Taller 8 SAN MIGUEL Nivelacion
Aún no hay calificaciones
Taller 8 SAN MIGUEL Nivelacion
3 páginas
Geometría Analítica: Distancias y Rectas
Aún no hay calificaciones
Geometría Analítica: Distancias y Rectas
150 páginas
Evaluación Diagnóstica Matemáticas 5º Básico
Aún no hay calificaciones
Evaluación Diagnóstica Matemáticas 5º Básico
4 páginas
Actividad 1.1 de ATI
Aún no hay calificaciones
Actividad 1.1 de ATI
9 páginas
Estudio Experimental de Caída Libre
Aún no hay calificaciones
Estudio Experimental de Caída Libre
16 páginas
Acm 001
Aún no hay calificaciones
Acm 001
7 páginas
Jnieto,+7-Problemas y Soluciones
Aún no hay calificaciones
Jnieto,+7-Problemas y Soluciones
15 páginas
Sistemas de Numeración Aritmética
100% (2)
Sistemas de Numeración Aritmética
37 páginas
Transformaciones Algebraicas y Factorización
100% (1)
Transformaciones Algebraicas y Factorización
44 páginas
Guía Distribución Normal e Intervalos de Confianza - 1149109901
Aún no hay calificaciones
Guía Distribución Normal e Intervalos de Confianza - 1149109901
15 páginas
Guía Práctica: Ecuaciones Lineales
Aún no hay calificaciones
Guía Práctica: Ecuaciones Lineales
17 páginas
Números hasta el millón en 6to grado
Aún no hay calificaciones
Números hasta el millón en 6to grado
6 páginas
Prueba de Decimales 5°XXXXXXccccc
Aún no hay calificaciones
Prueba de Decimales 5°XXXXXXccccc
5 páginas
Pre-tarea de Álgebra Lineal UNAD
Aún no hay calificaciones
Pre-tarea de Álgebra Lineal UNAD
10 páginas