Análisis Factorial en Estadística
Análisis Factorial en Estadística
Honduras
DEPARTAMENTO DE ESTADISTICA
METODOS LINEALES
PROYECTO DE INVESTIGACION
ANALISIS FACTORIAL
NELSON MOLINA MOLINA
20181002627
1 INTRODUCCION 1
2 ANALISIS FACTORIAL 2
2.1 9.2 Modelo de factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Invarianza de una escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 No unisidad de las cargas factoriales . . . . . . . . . . . . . . . . . . . . . . 3
2.4 Estimación de parámetros en análisis factorial . . . . . . . . . . . . . . . . . 4
2.5 Uso de la matriz de correlacion R . . . . . . . . . . . . . . . . . . . . . . . . 4
5 11
6 Aplicaciones 12
7 Puntuaciones de factores 18
INTRODUCCION
El análisis factorial es un modelo matemático que intenta explicar la correlación entre un gran
conjunto de variables en términos de un pequeño número de factores subyacentes..
Una suposición importante del análisis factorial es que no es posible observar estos factores
directamente; las variables dependen de la [actores pero también están sujetos a errores aleato-
rios. Tal suposición esparticularmente adecuado para temas como la psicología donde no es
posible para medir exactamente los conceptos en los que uno está interesado (por ejemplo, "in-
teligencia"). y, de hecho, a menudo es ambiguo cómo definir estos conceptos. .
El análisis factorial fue desarrollado originalmente por psicólogos. El tema fue puesto por
primera vez en una base estadística respetable a principios de la década de 1940 por re-
stringiendo la atención a una forma particular de análisis factorial. eso basado en la estimación
de máxima verosimilitud. .
En este capítulo nos concentraremos en el análisis factorial de máxima verosimilitud y tam-
bién en un segundo método..
Análisis de factores principales, que está íntimamente relacionado con la técnica de análisis de
componentes principales.
Chapter 2
ANALISIS FACTORIAL
Para tener una idea del tema, primero describimos un ejemplo simple.
Ejemplo 9.1.1 (Spearman. 1904) Un importante artículo temprano en el factor El análisis se
ocupó del rendimiento de los exámenes de los niños en Clásicos (x1 ). francés (x2 ) e inglés
(x3 ). Se encuentra que la matriz de correlaciones es
1 0.83 0.78
1 0.67 (2.1)
1
e
Aunque esta matriz tiene rango fulI, su dimensionalidad puede ser efectivamente En estas
ecuaciones, f es un "factor común" subyacente y p = 3 y p = 1 se conocen como "[cargas de
actor". Los términos x1 = λ1 f + u1 , x2 = λ2 f + u2 , x3 = λ3 f + u3 representan términos de per-
turbación aleatoria
El factor común puede interpretarse como "habilidad general" y, tendrá una pequeña variación
si x, está estrechamente relacionado con habilidad general.
La variación en u. consta de dos partes que no vamos a tratar de desenredar en la práctica.
Primero. esta varianza representa la medida en que que la habilidad de un individuo en Clas-
sics. decir, difiere de su general habilidad, y segundo. representa el hecho de que el examen es
sólo un medida aproximada de su habilidad en el tema.
x = Af +u+µ
donde A(p x k) es una matriz de constantes y f(k x 1) y u(p x 1) son vectores aleatorios Los
elementos de f se llaman factores comunes y los elementos de u factores especificos o unicos.
E( f ) = u V(f) = I
E(u) = 0 C(ui , u j ) = 0 i ̸= j
y
C( f , u) = 0
2.2 Invarianza de una escala. 3
Denote la matriz de covarianza de u por V (u) = ψ = diag(ψ1 ....., ψ pp , , ). Por lo tanto, todos
los factores no están correlacionados entre sí y favorecen la cada uno de los factores comunes
está estandarizado para tener una varianza de [Link] este caso es conveniente que supongamos
que f y u (tanto que x) es una distribucion multivariada.
k
xi = ∑ λi j fi + ui + µi i = 1, .....p
i=1
asi que
σi j =k λi2j + ψi j
cuando la varianza de x se divide en dos partes
k
h21 = ∑ λi2j
i=1
La validez del modelo del factor k se puede expresar en términos de un condición simple
en σ . Usando obtenemos lambdai j = C(xi fi ) Si Lo contrario también vale. Si 1: se puede
descomponer en la forma tben el modelo del factor k se cumple para x.
∑ = AA, + ψ
y
v(y) = C ∑ C = CAx AxC +CψxC
Por lo tanto, el modelo de factor k también se cumple para y con matriz de carga factorial
Ay = CAx , y varianzas específicas Si ψy = CψxC = diag(C12 ψi j ). Tenga en cuenta que la
matriz de carga factorial para las variables escaladas y es obtenido al escalar la matriz de carga
factorial de las variables originales (multiplique la i-ésima fila de Ax por Cx )
indeterminación en la definición de las cargas factoriales suele resolverse rotando las cargas
factoriales para satisfacer una restricción arbitraria tal como
A′ ψ −1 A es diagonal
S = ÂÂ, + ψ
σ̂ii = Si j i = 1, .....p
−1
entonces Y tendra una matriz de carga factorial estimada Ây = DS2 Âx y con una estimacion
especificada en ψ̂11 = D−1
S ψ̂x y se puede escribir en terminos de la matriz de correlacion de x
como
R = Ây Â,y + ψ̂y
notemos que
k
ψ̂yi j = 1 − ∑ λ̂yi2 j i = 1, .....p
i=1
de modo que ψy , ya no es un parámetro del modelo, sino una función de Ay Sin embargo.
R contiene p menos parámetros libres que S, de modo que Ay . la diferencia entre el número
de ecuaciones y el número de parámetros ,todavía está dada por. Las ecuaciones p para el
Los valores estimados de los parámetros de escala están dados por. Como en la práctica
es la relación entre las variables lo que importa interés en lugar de su escala. los datos a
menudo se resumen por R en lugar de S. Las estimaciones de escala dadas en no son entonces
mencionados explícitamente, y las cargas factoriales estimadas y las varianzas específicas se
presentan en términos de las variables estandarizadas
Chapter 3
Como primer paso. estimaciones preliminares h̄2i de las comunalidades h2i , Dos estima-
ciones comunes son:
1. El cuadrado del coeficiente de correlación múltiple de la variable ith con todas las demás
variables.
2. el mayor coeficiente de correlación entre la i-ésima variable y yna de las otras variables
es decir max j̸=i | ri j |.
La matriz R-ψ se llama matriz correlarión reducida porque los 1s en la diagonal han sido
reemplazadas por las comunalidades estimadas.
Donde:
p ′
R − ψ = ∑i=1 ai r(1) r(1)
1/2
Λ̂ = Γ1 A1
3.1 Análisis factorial de máxima verosimilitud 7
donde Γ1 = (r(1) , · · · , r(k) ) y A1 = diag(a1 , · · · , ak ) Dado que los vectores propios son
ortogonales, vemos que Λ̂′ Λ̂ es diagonal, por lo que la restricción (9.2.8) Está satisfecho.
(Recordemos que estamos trabajando con las variables estandarizadas aquí, cada una de cuyas
varianzas verdaderas estimadas es 1.).
Como motivación para el método del factor principal, sea consideramos lo que ocurre
cuando las comunalidades se conocen exactamente y R es igual a la verdadera matriz de cor-
[Link] R − ψ = ΛΛ′ .
La minimización de esta función F(Λ, ψ) puede ser facilitado por procedimiento en dos
etapas. Primero. minimizamos F(Λ, ψ) sobre Λ para ψ fijo. y segundo, nosotros mi mini-
mizar sobre ψ. Este enfoque tiene la ventaja de que la primera la minimización se puede llevar
a cabo analíticamente aunque la minimización sobre ψ debe hacerce numéricamente. Fue de-
sarrollado con éxito por Joreskog (1967).
Teorema 9.4.1 Sea ψ > 0 fijo y sea S∗ = ψ −1/2 Sψ −1/2 usando el teorema de descomposi-
cion aspectral escribimos.
8 Análisis de factores principales
S∗ = 7 ′
Entonces el valor de Λ que satisface la restricción (9.2.7). que minimiza F(Λ, ψ) ocurre
cuando la i-ésima columna de Λ∗ = ψ −1/2 Λ esta dada por λ(i)∗ = c r donde c = [max(θ −
i (i) i i
1, 0)]1/2 para i = 1, · · · , k.
Cuando | ψ |= 0, se puede usar la restricción del ejercicio 9.2.8 y especial se debe tener
cuidado en la minimización de F(Λ, ψ). Como en el Ejemplo 9.2.1, denominamos una
situación en la que | ψ |= 0, un caso de Heywood. Por lo general, el estimación ψ̂ será
definida positiva, aunque los casos de Heywood son por no significa poco común (Joreskog,
1967).
Una de las principales ventajas de la técnica de máxima verosimilitud es que Proporciona una
prueba de la hipótesis Hk el k factores comunes son suficiente para descrizbir los datos contra
la alternativa ∑ que no tiene restricciones que el estadístico de razón de verosimilitud λ esta
dada por
−2logλ = np(â − logĝ − 1)
ˆ −1 S Y asi ten-
donde â y ĝ las medias aaritmeticas y geometricas de los valores propios de ∑
emos que
−2logλ = n f (Â, ψ̂)
El estadístico
−2logλ
Tiene una asintótica en XS2 bajo la distribución de Hk de s está dado por
1 1
S = p(p + 1) − {pk + p − k(k − 1)}
2 2
1 1
= (p − k)2 − (p + k)
2 2
Por lo tanto para cualquier k especificado probaremos Hk con el estadística
U = n, f (Â, ψ̂)
Entonces son estimaciones de máxima verosimilitud. Cuando  y ψ̂ cierto que esta estadís-
tica tiene una distribución asintótica con chic uadradacon S=1 2(p−k)2 − 1 (p+k) Con grados de
2
libertad.
y representa una rotación de los ejes de coordenadas en el sentido de las agujas del reloj en
un ángulo θ TENEMOS
λi1 cosθ − λi2 sinθ λi1 sinθ − λi2 cosθ
δi1 = , δi2 =
h h
si
p
λi1a λi2b
Ga∗b = ∑ a+b
i=1 h
sustituimos y usamos
4(cos4 θ + sin4 θ ) = 3 + cos4θ , sin2θ = 2sinθ cosθ
cos2θ = cos2 θ − sin2 θ
1
4θ = (A2 + B2 ) 2 COS(4θ − α) +C
se puede demostrar que
A = (G0,4 + G4,0 − G2,2 − G20,2 − G22,0 + 2G0,2 G2,0 + G41,1 )
B = (4G1,3 − G3,1 − G1,1 G0,2 + G1,1 G2,0 )
Aplicaciones
EJERCICIO 1
En 1951 Sir Richard Doll y otros colegas condujeron un experimento donde en 1951 todo los
doctores británicos recibieron un cuestionario sobre si fumaban tabaco. La siguiente tabla nos
muestra el número de muertes por enfermedad coronaria entre los doctores del género mas-
culino 10 años después de la encuesta.1
Solución
1. ¿Es la tasa de muerte mayor para los fumadores que para los no-fumadores?
Figure 6.1: Gráfico de tasas de mortalidad por enfermedad coronaria por 100,000 personas-año para
fumadores (diamantes) y no fumadores (puntos).
Observamos que las tasas incrementan con los años pero de una manera más empinada que
una recta. Las tasas de mortalidad entre los fumadores parecen ser generalmente más altas que
la de los no-fumadores pero no incrementan de forma tan rapida con la edad. Se propone el
siguiente modelo para describir los datos:
donde
i = 1, ..., 5 representa el subgrupo definido por la edad y que fuma.
i = 6, ..., 10 representa el subgrupo definido por la edad y que no fuma.
deathsi representa el número esperado de muertes.
personyearsi representa el número de doctores en riesgo y el período de observación para el
grupo i.
smokei es 1 para los fumadores y 0 para los que no fuman.
agecati toma los valores de 1 a 5 para los grupos de edad.
agesqi es el cuadrado de agecati para tener en cuenta la no linealidad de la tasa de aumento.
smkagei es igual a agecati para los fumadores y 0 para los que no fuman.
2 En R:
# i n s t a l l . p a c k a g e s ( "ACSWR" )
l i b r a r y (ACSWR)
l i b r a r y ( ggplot2 )
l i b r a r y (MASS)
d a t a ( bs1 )
g g p l o t ( ) + g e o m _ p o i n t ( d a t a =bs1 , mapping = a e s ( x=Age_Group , y= D e a t h s _ P e r _ L a k h _ Y
BS_Pois <− glm ( D e a t h s ~ Age_Cat+ Age_Square +Smoke_Ind+Smoke_Age , o f f s e t =
l o g ( P e r s o n _ Y e a r s ) , d a t a =bs1 , f a m i l y = ’ p o i s s o n ’ )
l o g L i k ( BS_Pois )
summary ( BS_Pois )
#Con Wald S t a t i s t i c como e l a u t o r
2 Códigode R recuperado 19 de noviembre de: [Link] y Dobson and Bar-
nett 2008: Capítulo 9, página 171
14 Aplicaciones
c o e f ( BS_Pois )
exp ( c o e f ( BS_Pois ) )
exp ( c o n f i n t ( BS_Pois ) )
c o n f i n t ( BS_Pois , l e v e l = 0 . 9 5 )
#########
f i t _ p =c ( f i t t e d . v a l u e s ( BS_Pois ) )
p e a r s o n r e s i d < −( b s 1 $ D e a t h s − f i t _ p ) / s q r t ( f i t _ p )
c h i s q <−sum ( p e a r s o n r e s i d * p e a r s o n r e s i d )
d e v r e s <− s i g n ( b s 1 $ D e a t h s − f i t _ p ) ( s q r t ( 2 ( b s 1 $ D e a t h s *
log ( bs1$Deaths / f i t _ p ) −( bs1$
d e v i a n c e <−sum ( d e v r e s * d e v r e s )
p c h i s q ( B S _ P o i s $ d e v i a n c e , d f = B S _ P o i s $ d f . r e s i d u a l , l o w e r . t a i l = FALSE )
Los estimadores demuestran que el riesgo de muertes por enfermedad coronaria fueron, en
promedio, 4 veces más grandes para los doctores fumadores que para los que no fuman.
Para el modelo mínimo solo con el parámetro β1 , el valor máximo para la función log-
verosimilitud es l(bmin ) = −495.067 y para el modelo l(b) = −28.352. Por lo que una prueba
general para β j = 0; j = 2, ...5 es C = 2[l(b) − l(bmin )] = 933.45 lo cual es altamente signif-
icante, estadísticamente hablando, comparado con la distribución chi-cuadrado con 4 grados
de libertad.
tad. Asímismo, podemos notar que por la prueba de bondad de ajuste Chi-cuadrado, el valor de
probabilidad de la prueba es mayor que la significancia del 5%, por lo que No rechazamos la
hipótesis H0 : El modelo de Regresión de Poisson es un buen ajuste para los datos observados.
16 Aplicaciones
EJERCICIO 2
El siguiente conjunto de datos reporta el número de muertes debido al SIDA en Australia por
períodos de 3 meses desde Enero de 1983 hasta Junio de 1986.3
Para este modelo se puede observar que el número de muertes debido al SIDA en un a{no fue
3 Whyte, 1987 y Dobson, 1990
17
β̂
Rechazamos la hipótesis H0 : βi = 0, por medio del estadístico de Wald Z0 = = 11.369
s.e(β̂
y el valor p es P = P(Z0 > 11.639) < [Link], por la prueba de bondad de ajuste
Chi-cuadrado notamos que la probabilidad de prueba es menor a la significancia del 5%. Esto
nos lleva a concluir que bajo significancia del 5%, los datos proveen suficiente evidencia que
el tiempo tiene un efecto sobre el número de muertes debido al SIDA en Australia.
En R:
x<−c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 1 0 , 1 1 , 1 2 , 1 3 , 1 4 )
y<−c ( 0 , 1 , 2 , 3 , 1 , 4 , 9 , 1 8 , 2 3 , 3 1 , 2 0 , 2 5 , 3 7 , 4 5 )
plot (x , y)
r e s . p=glm ( y~x , f a m i l y = ’ p o i s s o n ’ )
summary ( r e s . p )
confint ( res . p , level =0.95)
#######
coef ( res . p )
exp ( c o e f ( r e s . p ) )
exp ( c o n f i n t ( r e s . p ) )
f i t _ p =c ( f i t t e d . v a l u e s ( r e s . p ) )
p e a r s o n r e s i d < −( y− f i t _ p ) / s q r t ( f i t _ p )
c h i s q <−sum ( p e a r s o n r e s i d * p e a r s o n r e s i d )
p c h i s q ( r e s . p $ d e v i a n c e , r e s . p $ d f . r e s i d u a l , l o w e r . t a i l = FALSE )
En la salida de R, la desviación se expresa como la desviación residual = 29.654, gl = 12. El
valor P para la prueba sería inferior a 0,001 y, por lo tanto, indicaría que el modelo saturado
se ajusta a los datos significativamente mejor que el modelo solo incluyendo el tiempo, con
α = 0.05. Esta desviación residual indica una falta de ajuste para el modelo que solo incluye
el tiempo para predecir muertes por SIDA en Australia. Para juzgar el ajuste del modelo sin
D
realizar formalmente la prueba, la buena medida es (aquí = 2.471). Si está cerca de uno,
gl
indica un buen ajuste del modelo. Aquí la puntuación no es lo suficientemente cercana y se
puede interpretar como falta en el ajuste del modelo.
Chapter 7
Puntuaciones de factores
Hasta ahora, nuestro estudio del modelo factorial se ha ocupado de la forma en que las vari-
ables observadas son funciones de los factores (desconocidos). Por ejemplo, en los datos del
examen de Spearman podemos describir la forma en que los puntajes de las pruebas de un niño
dependerán de su inteligencia general. Sin embargo, también es interesante preguntar a la in-
versa pregunta. Dados los puntajes de las pruebas de un niño en particular, ¿podemos hacer
alguna declaración sobre su rendimiento general? inteligencia.? Para el modelo general quer-
emos saber como los factores dependen de las variables observadas.
Una forma de abordar el problema es tratar las puntuaciones desconocidas del factor común
como parámetros a estimar. Suponer x es un vector aleatorio multinormal del modelo factorial
(9.2.1) y supongamos que Λ y ψ y µ = 0 son conocidos. Dado el vector f (p x 1) de puntajes
de factor común, x se distribuye como N p (Λ f , ψ). Por lo tanto, el logaritmo de probabilidad
de x viene dado por:
1 1
l(x; f) = − (x − Λf)′ ψ −1 (x − Λf) − log |2πψ| (7.1)
2 2
Establecer la derivada con respecto a f igual a 0 da:
∂l
= Λ′ ψ −1 (x − Λ f ) = 0
∂f
así que:
−1 ′ −1
f̂ = Λ′ ψ −1 Λ Λψ x (7.2)
La estimación en (9.7.2) se conoce como puntaje factorial de Bartlett. Lo especifico Las
puntuaciones de los factores se pueden estimar mediante û = x − Λ.
Nótese que (9.7.1) es el logaritmo de la densidad condicional de x dada f. Sin embargo, bajo el
modelo factorial, f puede ser considerado como un N p (0, I) vector aleatorio, dando así a f una
distribución previa. Usando este bayesiano enfoque, la densidad posterior de f es proporcional
a:
1 ′ −1 1 ′
exp − (x − Λ f ) ψ (x − Λf) − f f (7.3)
2 2
que es una densidad multinomial cuya media
−1
f ∗ = I + Λ′ ψ −1 Λ Λ′ ψ −1 x (7.4)
favorables y Ha habido una larga controversia sobre cuál es mejor. Por ejemplo:
−1 ′ −1
E(f̂ | f) = f, E (f∗ | f) = I + Λ′ ψ −1 Λ Λ ψ Λf (7.5)
Sin embargo, este punto de vista es menos natural que en el análisis factorial donde x se puede
aproximar en términos de los factores comunes
x = Λf
y se supone explícitamente que los factores específicos ignorados son "ruido". Nótese que en
la Sección 9.3, cuando se supone que las varianzas específicas son 0, el análisis de factores
principales es equivalente al análisis de componentes principales.
Por tanto, si el modelo factorial se mantiene y si las varianzas específicas son pequeñas, esperar
que el análisis de componentes principales y el análisis factorial proporcionen resultados sim-
ilares. resultados. Sin embargo, si las variaciones específicas son grandes, serán absorbidas en
todos los componentes principales, tanto retenidos como rechazados, mientras que el análisis
factorial hace especial provisión para ellos.
21
BIBLIOGRÁFIA
1. Unit4: Multinomial Response, Overdispersion, and Separation of Points. (s. f.). Unit4:
Multinomial Response, Overdispersion, and Separation of Points. Recuperado 16 de abril de
2022, de [Link]
2. Tattar, P. (2019, 2 mayo). British Doctors Smoking and Coronary Heart Disease. [Link].
Recuperado 16 de Abril de 2022, de [Link]
[Link], A. J., Barnett, A. G. (2008). Poisson Regression and Log-Linear Models [Libro
electrónico]. En An Introduction to Generalized Linear Models (3.a ed., pp. 165–186). A
CHAPMAN HALL BOOK.
[Link]: Poisson Regression. (s. f.). Academic Macewan. Recuperado 16 de abril 2022,
de [Link]