Análisis Factorial: Técnicas y Métodos
Análisis Factorial: Técnicas y Métodos
ESTADÍSTICAS
MULTIVARIANTES I
1
FORMULACIÓN DEL PROBLEMA
EXTRACCIÓN DE FACTORES
ROTACIÓN DE FACTORES
3
ANÁLISIS FACTORIAL
El modelo Factorial está motivado por el siguiente argumento:
Supongamos que las variables objeto de nuestro estudio pueden agruparse mediante
sus correlaciones, de manera que, todas las variables dentro de un grupo están
altamente correlacionadas entre ellas, pero tienen correlaciones relativamente bajas
con otras variables que a su vez se encuentran en grupos diferentes.
Es razonable pensar, que cada grupo de variables represente una variable no observable
directamente, o Factor, que sea el responsable de las correlaciones observadas.
4
EL MODELO FACTORIAL
X ( X1 , ...., Xp )
El modelo Factorial postula que X es linealmente dependiente de unas pocas variables
aleatorias inobservables, F1, F2,...,Fm, llamadas Factores comunes y p adicionales fuentes
X( p1) μ ( p1) L F ε
(pm) (m1) (p1)
6
Como las cantidades determinadas por F no son observables se hace necesario
introducir algunas suposiciones adicionales:
• E(F)=0
• Cov(F)= E(FF’)= I Es decir, los Factores comunes son incorrelados.
• E()=0,
1 0 0
0 2 0
Cov( ) E '
0 0 p
Todas estas hipótesis, y la relación funcional entre las variables y los Factores, constituyen
el modelo Factorial ortogonal.
Σ Cov (X) E (X μ)(X μ) ' E (LF ε)(LF ε) ' E (LF ε) (LF) ' ε '
LE (FF ')L ' E ( F ')L ' LE (F ') E ( ') LL '
7
Σ Cov(X) LL '
A partir de la expresión anterior, obtenemos los siguientes resultados:
COMUNALIDAD: Expresa la parte de cada variable (su variabilidad) que puede ser explicada
por los factores comunes a todas ellas.
y p varianzas específicas j
Ejemplo: Sirve para comprobar que no siempre existe solución exacta al modelo para un
m fijo.
Sea p=3 y m=1, supongamos la siguiente matriz de Covarianzas de X 1, X2 y X3 (todas
También se obtiene que 1=-0.575 que es un valor imposible por ser negativo
para una varianza.
Cuando
2.- No m1
existe existirán
solución muchas soluciones.
única.
Sea matriz Tmm ortogonal
en X distinguir entre las cargas Factoriales producidas por L y las cargas L* tras una rotación ortogonal.
Es decir los Factores F y F* tienen las mismas propiedades estadísticas, y aunque las cargas L*
son en general diferentes a las cargas L, ambas generan la misma matriz de Covarianzas . Es decir:
10
= LL´ + = LTT´L´ + = (L*) (L*)´ +
EJERCICIO DE AUTOEVALUACIÓN
F1 F2
X1 0.6 0.5
L X2 0.7 0.4
X3 0.3 0.9
X 0.6 0.6
4
[Link] y Especificidad de X1 .
[Link] de los Factores Específicos.
[Link] de X1 y X2 .
[Link] de de X1 y F2 .
11
PASO 2
12
EXAMEN DE LA MATRIZ DE CORRELACIONES.
Un primer paso en el Análisis Factorial será calcular la matriz de
correlaciones R para comprobar si las variables altamente correlacionadas.
Se pueden utilizar diferentes métodos para comprobar el grado de asociación
entre ellas, aquí se destacan:
•Evaluación del determinante de R, un determinante bajo indicará altas
intercorrelaciones entre las variables (aunque no debe ser 0 ya que eso indicaría
dependencia lineal entre ellas). Es conveniente por tanto que sea bajo su valor.
•Test de esfericidad de Bartlett: comprueba si la matriz de correlaciones se
ajusta a la matriz identidad (ausencia de correlación significativa entre las variables),
indica que la nube de puntos se ajustará a una esfera perfecta, siendo la hipótesis nula:
Ho: R= I , siendo la alternativa H1: R≠I
1
Si las variables están incorreladas B 2 n 1 (2 p 5) ln R 12 2
6 2
p p
13
•Índice KMO de Kaiser-Meyer-Olkin: Este índice viene dado por:
i , j
r 2
i j j 1
KMO p p
i , j i , j
r 2
i j j 1
rp 2
i j j 1
14
Medida de adecuación de la muestra MSAj (evaluado para cada variable),
j, j '
r 2
j ' j
MSAj
j, j ' j, j '
r 2
j ' j
rp 2
j ' j
Recomendación: Evaluar el índice KMO y si este toma valores por debajo de 0.6
eliminar aquella variable Xj que tengan un menor valor MSAj siempre que este sea
15
EJEMPLO :
16
Ejemplo
La variable Capacidad Académica tiene un índice bajo y vamos a eliminarla del Análisis
Factorial
17
Una vez eliminada, confirmamos que todas las variables tienen valores aceptables (por
encima de 0.5).
Concept Grupo
0.7950 0.8535 0.8294 0.8109 0.8434 0.7564 0.8036
18
PASO 3
19
MÉTODOS DE ESTIMACIÓN.
20
Método de las Componentes Principales.
La descomposición espectral de la matriz de Covarianzas produce el resultado:
1 e1'
'
e
1e1e1 ' 2 e2 e2 ' ... p e p e p '
1 e1 , 2 e 2 ,..., p ep 2 2
e'
p p
Recordamos que: Σ Cov(X) LL '
21
Esta no es la representación que nos interesa. Es preferible utilizar algunas de las
columnas de L, sólo aquellas que provengan de los autovalores mayores ya que, cuando
los p-m últimos autovalores son pequeños, es prácticamente despreciable la aportación de
m+1em+1e’m+1+...+pepep’ a .
En esa Factorización podemos incluir los Factores únicos o específicos. Para ello restamos
los elementos de la diagonal de -LL’, es decir:
m
i i ,i 2i , j para i=1,2,...,p.
j 1
22
La pregunta de cómo elegir m, se responde de la misma forma que lo hicimos para
determinar el número de componentes principales a retener.
23
Vamos a retener sólo los 3
primeros Factores que
recogen por encima del 75%
de la variabilidad tipificada.
25
La Comunalidad final para todas las variables se encuentra en buenos números excepto
para la variable aspecto (0.3531), que como parece lógico no se encuentra relacionada con
los tres Factores retenidos.
26
Método del Factor Principal.
Este método se va a razonar en función de la matriz de correlaciones (trabajamos con variables
tipificadas) en lugar de la de covarianzas, en este caso las hipótesis del modelo factorial nos
llevan a las ecuaciones:
= LL’ +
27
Se Factoriza dicha matriz a través de m Factores comunes. En particular denotemos la
Factorización por:
donde L r
(1)
Rr = Lr(1) Lr(1) ‘
j 1
Y las Comunalidades:
m
( hi ) i , j
~ (1) 2 (1) 2
j 1
Y el proceso vuelve a comenzar. Es decir se vuelve a obtener otra nueva solución L(r2 ) y i(2)
28
Existen varios métodos de estimación inicial de la comunalidad:
Por el cuadrado del coeficiente de correlación múltiple entre X i y las demás variables
1
(hi(,0i ) ) 2 1
r i ,i
29
Método de Máxima Verosimilitud.
Este método requiere realizar algunas suposiciones adicionales:
El número de Factores comunes se fija de antemano (m) con lo que generalmente exige
la utilización previa de un Análisis de Componentes Principales o bien el conocimiento del
número de Factores subyacentes.
np n
1 n
L( L, ) 2 exp (x j x ) L ' L ( x j x ) '
1
2 L'L 2
2 j 1
30
Este modelo, no obstante tiene indeterminaciones dado que L puede no ser elegido de forma
única (ya que es valida cualquier transformación ortogonal de L). Por ello se impone otra
nueva restricción:
L ' 1 L Δ matriz
diagonal
Observación:
A veces este proceso de cálculo provoca la aparición de Comunalidades superiores a la
unidad .Esta anomalía que se conoce con el nombre de caso ‘ultra Heywood’, se soluciona
corrigiendo artificialmente el valor por el máximo posible que es 1 (caso Heywood). Esta
condición supone la no existencia de unicidad en esa variable.
31
Ventajas de este método.
ˆˆ ˆ
2 p 4m 5 LL'
n 1 ln 2( p m )2 p m ( )
6 Sn
32
Para este método los criterios que nos ayudan a decidir el número de Factores a
retener serán más bien pseudoestadísticos. Cabe citar los siguientes:
El índice de Akaike (AIC). El número de Factores que se considera el óptimo será el
que produzca un menor valor de este índice. Tiende a incluir Factores estadísticamente
significativos pero de escasa trascendencia práctica.
34
PASO 4
35
ROTACIÓN DE FACTORES.
SOLUCIÓN
36
¿QUÉ OCURRE AL ROTAR UN CONJUNTO DE FACTORES?
37
Si m=2, una gráfica de los pares de cargas para cada variable i ˆ
i ,1
ˆ
, i ,2
permite visualizar p puntos (tantos como variables). Los ejes pueden
visualmente ser rotados un ángulo y las nuevas cargas que denotaremos por
*i , j
se determinan por la relación:
cos sen
Lˆ * Lˆ T T=
sen cos
38
p ˆ*
2
ROTACIÓN VARIMAX.
i, j
ˆ*
4 hˆ
Esta rotación selecciona la 1 m p
i 1
i
V
i, j
transformación T que maximice: p j 1 i 1 hˆi
p
ˆ *i , j
Es decir, busca los valores de
que maximizan V sujeto a mantener la m
Comunalidad de cada variable
j 1
* 2
i, j hi2
V representa la varianza de sus cargas Factoriales cuadráticas. Para evitar que los
Factores con sumas de cargas Factoriales altas tengan más peso, se aplica la
normalización que resulta de dividir cada carga Factorial por su Comunalidad
Se utiliza para conseguir que cada variable tenga una correlación alta con muy
pocos Factores cuando es elevado el número de estos. Lo que busca es
maximizar la varianza de las cargas Factoriales cuadráticas para cada variable,
sujeto a mantener la Comunalidad constante para cada variable.
p m
* 2
i, j
Es decir, busca maximizar i 1 j 1
m
sujeto a mantener la Comunalidad de cada variable:
j 1
* 2
i, j hi2
40
1
0.505 1
La matriz de Correlaciones obtenida a 0.569 0.422 1
partir de datos conteniendo medidas de 0.602 0.467 0.926 1
diferentes huesos es: 0.621 0.482 0.877 0.874 1
0.603 0.450 0.878 0.894 0.937 1
Estimadores de Cargas Factoriales
carga estimadas una vez
rotado los Factores por
F1 F2 el método varimax.
Variable F*1 F*2
Longitud del cráneo 0.602 0.2 0.484 0.411
Anchura del cráneo 0.467 0.154 0.375 0.319
Longitud del fémur 0.926 0.143 0.603 0.717
Longitud de la tibia 1 0 0.519 0.855
Longitud del húmero 0.874 0.476 0.861 0.499
Longitud del cubito 0.894 0.327 0.744 0.594
Utilizando los estimadores de las cargas Factoriales no rotadas, obtener
•Las varianzas específicas de cada variable.
•Las comunalidades.
•La proporción de varianza explicada mediante cada Factor.
•La matriz residual.
•Repetir los apartados anteriores utilizando los estimadores de las cargas Factoriales rotadas.
41
Estimadores Cargas Factoriales
de carga después de rotar
F1 al F2 al F1 F2
cuadrado cuadrado Comunalidades rotado^2 rotado^2 Comunalidades
42
F1 al F2 al F1 F2
cuadrado cuadrado Comunalidades rotado^2 rotado^2 Comunalidades
4,418751 4,420341
43
Ejemplo2.5:
Para mejorar la interpretación del análisis efectuados sobre los candidatos a puestos
de trabajo, se llevó a cabo una rotación VARIMAX. La matriz ortogonal que
optimizaba la transformación fue:
1 2 3
0.83682 0.35867 0.41364
-0.22434 0.91382 -0.33853
-0.49941 0.19049 0.84516
L*=LT
44
El primer eje Factorial, representa el potencial empresarial del candidato, su
ambición, empuje,...
El segundo se asocia a la experiencia.
El tercero a la forma de ser.
46
BONDAD DEL AJUSTE REALIZADO A PARTIR DE LA MATRIZ DE
CORRELACIONES REPRODUCIDA.
Las Comunalidades estimadas nos proporcionan una medida del grado en que
cada variable depende conjuntamente o viene explicada por los m Factores.
1
Test de Kelley r
i, j rˆi , j resij
n
r i, j rˆi , j
2
Test basado en la chi-cuadrado H0: ri , j rˆi , j resij 0 i, j ri, j
p2 ( p 1) / 2 ( )
p p
r rˆi , j
2
i, j
Caracterización de la matriz residual i 1 j 1
RMSR 0.07 47
p( p 1) / 2
1
En el ejemplo de los candidatos a puestos de trabajo: n=48 - 0.1443
48
Sólo hay dos valores cuya correlación residual es mayor en valor absoluto que nuestra
referencia (forma_letra y experiencia, y aspecto con trabajo en grupo).
ri,j rˆi, j
2
i, j ri,j
2
1.8686 14(13) 2
/ 2 (0.1) 91 (0.1) 108.66058
Sin embargo los valores estimados de los Factores comunes para cada una de
las observaciones, coordenadas de las observaciones en los Factores
Comunes, también deberán obtenerse.
49
La regresión múltiple es una de las técnicas más utilizadas para llevar a cabo esta
estimación. De esta forma el valor del Factor α para la observación i deberá obtenerse
como:
ˆ
ˆ ZB
ψ
50
ˆ
ˆ ZB
ψ
1
Multiplicando ambos lados de la ecuación por la izquierda por Z'
1 1
n
ˆ
ˆ Z'ZB
Z'ψ
n n
1
Z'Z = R (matriz de correlaciones de las variables originales)
n
1
ˆ = L (matriz de correlaciones entre las variables originales y los factores)
Z'ψ
n
ˆ
L RB ˆ = R -1L
B ˆ ZR -1L
ψ
1
11 m1 z11 z1 p r11 r1 p l11 l1m
l
1n mn zn1 znp rp1 rpp p1 l pm
Los valores estimados de los Factores para cada observación dependen las variables
originales estandarizadas, de la inversa de matriz de correlaciones y de la matriz L de
cargas. 51
La proyección de la observación i:
1 l1
r11 r1 p
i zi1 zi 2
zip
l2
r r
p1 pp
l p
52
EJEMPLO RESUELTO CON SAS.
El fichero empleo contiene información sobre el porcentaje de gente empleada en
nueve industrias diferentes en Europa el año 1980. Se va a seguir los pasos necesarios
para realizar Análisis Factorial sobre la matriz de correlaciones por diferentes métodos.
En primer lugar, comenzamos creando el conjunto de datos
data empleo;
input pais $ 1-12 agricultura mineria industria abastecimiento
construccion servicios finanzas serv_social transporte;
cards;
Belgica 3.3 0.9 27.6 0.9 8.2 19.1 6.2 26.6 7.2
Dinamarca 9.2 0.1 21.8 0.6 8.3 14.6 6.5 32.2 7.1
Francia 10.8 0.8 27.5 0.9 8.9 16.8 6.0 22.6 5.7
RFAlemana 6.7 1.3 35.8 0.9 7.3 14.4 5.0 22.3 6.1
Irlanda 23.2 1.0 20.7 1.3 7.5 16.8 2.8 20.8 6.1
Italia 15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
Luxemburgo 7.7 3.1 30.8 0.8 9.2 18.5 4.6 19.2 6.2
Holanda 6.3 0.1 22.5 1.0 9.9 18.0 6.8 28.5 6.8
Gran Bretaña 2.7 1.4 30.2 1.4 6.9 16.9 5.7 28.3 6.4
............. .......................................
Rusia 23.7 1.4 25.8 0.6 9.2 6.1 0.5 23.6 9.3
Yugoslavia 48.7 1.5 16.8 1.1 4.9 6.4 11.3 5.3 4.0
;
53
proc Factor, realiza por defecto el Análisis Factorial por el método de las
componentes principales.
La opción msa nos va a servir para saber si la matriz de datos se adecúa a la
realización de Análisis Factorial.
Los índices son demasiado pobres, lo que significa que no se debe llevar a cabo AFC
para este conjunto de variables. Lo que procede será eliminar las variables que tengan
índices de adecuación muestral bajos.
Se elimina la variable finanzas que es la que posee un menor valor del índice.
54
proc Factor data=empleo MSA;
var agricultura--servicios serv_social transporte;
run;
57
58
proc print data=solucion2;
run;
59
Representación de las variables en el plano Factorial,
60
%plotit (data=represen, plotvars=Factor1 Factor2, labelvar=_name_, href=0, ref=0);
61
Representación de las observaciones (paises) en el plano Factorial) utilizando
el conjunto de datos solucion1:
62