Analisis de Componentes
Analisis de Componentes
Cuando se recoge la información de una muestra de datos, lo más frecuente es tomar el mayor
número posible de variables. Sin embargo, si tomamos demasiadas variables sobre un conjunto de
⎛20⎞ objetos, por ejemplo 20
variables, tendremos que considerar ⎜⎜⎝ 2 ⎟⎟⎠=180 posibles coeficientes de correlación; si son 40
variables dicho número aumenta hasta 780.
Evidentemente, en este caso es difícil visualizar relaciones entre las variables. Otro problema que se
presenta es la fuerte correlación que muchas veces se presenta entre las variables: si tomamos
demasiadas variables (cosa que en general sucede cuando no se sabe demasiado sobre los datos o
sólo se tiene ánimo exploratorio), lo normal es que estén relacionadas o que midan lo mismo bajo
distintos puntos de vista. Por ejemplo, en estudios médicos, la presión sanguínea a la salida del
corazón y a la salida de los pulmones están fuertemente relacionadas.
Se hace necesario, pues, reducir el número de variables. Es importante resaltar el hecho de que el
concepto de mayor información se relaciona con el de mayor variabilidad o varianza. Cuanto mayor
sea la variabilidad de los datos (varianza) se considera que existe mayor información, lo cual está
relacionado con el concepto de entropía.
COMPONENTES PRINCIPALES
Estas técnicas fueron inicialmente desarrolladas por Pearson a finales del siglo XIX y posteriormente
fueron estudiadas por Hotelling en los años 30 del siglo XX. Sin embargo, hasta la aparición de los
ordenadores no se empezaron a popularizar.
Para estudiar las relaciones que se presentan entre p variables correlacionadas (que miden
información común) se puede transformar el conjunto original de variables en otro conjunto de
nuevas variables incorreladas entre sí (que no tenga repetición o redundancia en la información)
llamado conjunto de componentes principales.
Las nuevas variables son combinaciones lineales de las anteriores y se van construyendo según el
orden de importancia en cuanto a la variabilidad total que recogen de la muestra.
De modo ideal, se buscan m < p variables que sean combinaciones lineales de las p originales y
que estén incorreladas, recogiendo la mayor parte de la información o variabilidad de los datos.
Si las variables originales están incorreladas de partida, entonces no tiene sentido realizar un
análisis de componentes principales.
Se considera una serie de variables (x1, x2, ... , xp) sobre un grupo de objetos o individuos
y se trata de calcular, a partir de ellas, un nuevo conjunto de variables (y 1, y2, ... , yp),
incorreladas entre sí, cuyas varianzas vayan decreciendo progresivamente.
Cada yj (j = 1, . . . , p) es una combinación lineal de las (x1, x2, ..., xp) originales,
es decir:
yj = aj1 x1 + aj2 x2 + ... + ajp xp = aj x
⎛⎜x1 ⎞⎟
siendo aj = (a1j , a2j , ..., apj) un vector de constantes, y x =⎜... ⎟
⎜⎟
⎝xp ⎠
Obviamente, si lo que queremos es maximizar la varianza, como veremos luego, una forma simple
podría ser aumentar los coeficientes aij . Por ello, para mantener la ortogonalidad de la
transformación se impone que el módulo del vector aj = (a1j , a2j , ..., apj) sea 1.
p Es
decir, a°j .
k=1
El primer componente se calcula eligiendo a1 de modo que y1 tenga la mayor varianza posible, sujeta
a la restricción a°j .aj =1. El segundo componente principal se calcula obteniendo a2 de modo que la
variable obtenida, y2 esté incorrelada con y1.
Del mismo modo se eligen (y1, y2, ... , yp), incorrelados entre sí, de manera que las variables
aleatorias obtenidas vayan teniendo cada vez menor varianza.
Se elige a1 de modo que se maximice la varianza de y1 sujeta a la restricción de que a°j .aj =1
a1
El método habitual para maximizar una función de varias variables sujeta a restricciones el método
de los multiplicadores de Lagrange.
El problema consiste en maximizar la función a1° .∑a1 sujeta a la restricción a°j .aj =1.
Se puede observar que la incógnita es precisamente a1 (el vector desconocido que da la combinación
lineal óptima).
Esto es, en realidad, un sistema lineal de ecuaciones. Por el teorema de Roché‐Frobenius, para que
el sistema tenga una solución distinta de 0 la matriz (Σ − λI) tiene que ser singular. Esto implica que el
determinante debe ser igual a cero:
⎧ (∑−λI)a1 = 0
⎪
Se tiene que, desarrollando la expresión anterior: ⎨ ∑a1 −λIa1 = 0
⎪
⎩ ∑a1 =λIa1
entonces,
Luego, para maximizar la varianza de y1 se tiene que tomar el mayor autovalor, sea λ1, y el
correspondiente autovector a1.
En realidad, a1 es un vector que da la combinación de las variables originales que tiene mayor
varianza, esto es, sí a1° = (a11, a12 , . . . , a1p), entonces y1 a1pxp
Análogamente al caso anterior, elegimos λ como el segundo mayor autovalor de la matriz Σ con su
autovector asociado a2.
Los razonamientos anteriores se pueden extender, de modo que al j‐ésimo componente le
correspondería el j‐ésimo autovalor.
Entonces todos los componentes y (en total p) se pueden expresar como el producto
de una matriz formada por los autovectores, multiplicada por el vector x que contiene
las variables originales (x1, . . . , xp):
y = Ax
⎛λ1 0 0⎞
⎜ ⎟
⎜0 λ2 0⎟
=
La matriz de covarianzas de y será: Δ ⎜⎟
⎜ ⎟
⎜⎝ 0 0 λp ⎟⎠
Se tiene que,
una matriz ortogonal (ai°ai = 1 para todas sus columnas) por lo que AA′ = I
PORCENTAJES DE VARIABLILIDAD
Sabemos que cada autovalor correspondía a la varianza del componente yi , que se definía por medio
del autovector ai, es decir, Var(yi) = λi.
Si sumamos todos los autovalores, tendremos la varianza total de los componentes, es decir:
p p
conp
Es decir, la suma de las varianzas de las variables originales y la suma de las varianzas de las
componentes son iguales.
Esto permite hablar del porcentaje de varianza total que recoge un componente principal:
λi = p λi
p λ Var(x )
=1
i=1
En la práctica, al tener en principio p variables, nos quedaremos con un número mucho menor de
p
En general, no se suele coger más de tres componentes principales, a ser posible, para poder
representarlos posteriormente en las gráficas.
Así, los componentes son autovectores de la matriz de correlaciones y son distintos de los de la
matriz de covarianzas. Si se actúa así, se da igual importancia a todas las variables originales.
En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las variables
originales están tipificadas, esto implica que su matriz de covarianzas es igual a la de
correlaciones, con lo que la variabilidad total (la traza) es igual al número total de variables que
hay en la muestra.
Suma total de todos los autovalores ≡ p
λ
Proporción de varianza recogida por el autovector j‐ésimo (componente) ≡
j
p
MATRIZ FACTORIAL
Cuando se presentan los autovectores en la salida de SPSS, se les suele multiplicar previamente
por
j λ (del autovalor correspondiente), para reescalar todos los componentes del mismo modo.
Así, se calcula: a∗ = λj aj para j = 1, . . . , p.
De este modo, se suele presentar una tabla de autovectores a∗j que forman la matriz factorial
Los elementos de F son tales que los mayores valores indican una mayor importancia en el momento
de definir un componente.
Así, da la matriz factorial F, se pueden calcular las covarianzas de las variables originales, esto es, se
puede recuperar la matriz de covarianzas original a partir de la matriz factorial.
Como se tiene que y = Ax ⇒ x = A−1 y = A′Y (por ser la matriz A ortogonal ⇒ A−1 = A′ )
p
Suponiendo que las variables originales están estandarizadas [Var(xi)=1 para (i = 1, ..., p)]:
λj aij
entonces, Corre(yj , xi) = = λj aij
1 ∙ λj
con lo que la matriz factorial también mide las correlaciones entre las variables originales
estandarizadas y los nuevos factores.
Si las variables originales (x1, . . . , xp) están incorreladas, entonces carece de sentido calcular unos
componentes principales. Si se hiciera, se obtendrían las mismas variables pero reordenadas de
mayor a menor varianza.
Para saber si (x1, . . . , xp) están correlacionadas, se puede calcular la matriz de correlaciones
aplicándose posteriormente el test de esfericidad de Barlett.
El cálculo de los componentes principales de una serie de variables (x1, . . . , xp) depende
normalmente de las unidades de medida empleadas. Si transformamos las unidades de medida, lo
más probable es que cambien a su vez los componentes obtenidos.
Una solución frecuente es usar variables (x1, . . . , xp) tipificadas. Con ello, se eliminan las diferentes
unidades de medida y se consideran todas las variables implícitamente equivalentes en cuanto a
la información recogida.
Uno de los objetivos del cálculo de componentes principales es la identificación de los mismos, es
decir, averiguar qué información de la muestra resumen. Sin embargo este es un problema difícil
que a menudo resulta subjetivo.
Habitualmente, se conservan sólo aquellos componentes que recogen la mayor parte de la
variabilidad, hecho que permite representar los datos según dos o tres dimensiones si se
conservan dos o tres ejes factoriales, pudiéndose identificar entonces grupos naturales entre las
observaciones.
Ejemplo.‐ Muestra de 41 ciudades de USA donde se midieron diferentes variables relacionadas con la
contaminación atmosférica.
SO2 Neg.Temp Empresas Poblacion Viento Precip Días
— Contenido en SO2
(Temp): Temperatura anual en grados F
(Emp): Número de empresas mayores de 20 trabajadores
(Pob): Población (en miles de habitantes)
(Viento): Velocidad media del viento
(Precipt): Precipitación anual media
(Días): Días lluviosos al año
En principio interesa investigar la relación entre la concentración en SO 2 y el resto de
variables, utilizamos un análisis de componentes principales para eliminar relaciones entre
las variables. Se realiza un análisis de componente principales sobre todas las variables salvo
SO2.
Se obtienen los componentes principales a partir de la matriz de correlaciones para emplear las
mismas escalas en todas las variables.
Los primeros tres componentes tienen todos varianzas (autovalores) mayores que 1 y entre los
tres recogen el 85% de la varianza de las variables originales.
♦ El primer componente se le podría etiquetar como calidad de vida con valores negativos altos
en empresas y población indicando un entorno relativamente pobre.
♦ El segundo componente se puede etiquetar como tiempo húmedo, y tiene pesos altos en las
variables precipitaciones y días.
♦ El tercer componente se podría etiquetar como tipo de clima y está relacionado con la
temperatura y la cantidad de lluvia.
Aunque no se encontrasen etiquetas claras para los componentes, siempre es interesante calcular
componentes principales para descubrir si los datos se encuentran en una dimensión menor. De
hecho, los tres primeros componentes producen un mapa de los datos donde las distancias entre
los puntos es bastante semejante a la observada en los mismos respecto a las variables originales.
Se realiza un análisis de regresión de la variable SO2 sobre los tres factores: claramente la cantidad
de SO2 se explica mediante el primer componente de calidad de vida (relacionado con el entorno
humano y el clima) que cuando empeora aumenta, a su vez, la contaminación.
Solución inicial.‐ Permite obtener las comunidades iniciales, los autovalores de la matriz analizada y
los porcentajes de varianza asociada a cada valor.
MATRIZ DE CORRELACIONES
Coeficientes.‐ Muestra la matriz con los coeficientes de correlación entre las variables utilizadas en
el análisis.
Niveles de significación.‐ Incluye en la matriz de correlaciones los niveles críticos asociados a este
coeficiente.
Inversa.‐ Muestra la inversa de la matriz de correlaciones. Esta matriz es la base para el cálculo de
Comunalidades iniciales en algunos métodos de extracción y para el cálculo de la matriz anti‐
imagen.
La opción [Extracción] permite controlar varios aspectos relacionados con la fase de extracción de
los factores. Entre otras cosas, permite decidir que modelo factorial se desea utilizar, en qué
matriz de datos basar el análisis y cuántos factores deben extraerse.
Matriz de correlaciones.‐ El análisis se basa en la matriz de correlaciones, en la matriz de
correlaciones reducida, o en la matriz de correlaciones anti‐imagen, según el método seleccionado.
Autovalores mayores que.‐ Si la matriz analizada es la de correlaciones, esta opción permite utilizar
el tamaño de los autovalores como un criterio para decidir si el número de factores que estarán
presentes en la solución factorial. Por defecto se extraen los factores cuyos autovalores son mayores
que la unidad (a este criterio se le denomina regla K1).
Si la matriz analizada es la de varianzas‐covarianzas, la regla se expresa el número de veces que un
autovalor debes sea mayor que el autovalor promedio de la matriz para que le correspondiente factor
sea retenido en la solución.
El autovalor que actúa por defecto es 1, pero este valor puede cambiarse introduciendo otro distinto
(entre cero y el número de variables) en el correspondiente cuatro de texto.
Numero de factores.‐ Permite especificar el número de factores exacto que se desea incluir en la
solución. Se debe introducir el número en el cuadro de texto.
Solución factorial sin rotar.- Muestra las saturaciones o cargas factoriales sin rotar, las
Comunalidades y los autovalores de la solución factorial.
Nº de iteraciones para convergencia.‐ Este cuadro de texto permite establecer el número máximo
de iteraciones que los algoritmos pueden realizar para encontrar una solución factorial final. El valor
por defecto es 25, habitualmente suficiente para obtener una solución. Este valor puede cambiarse
introduciendo un entero positivo.
La opción [Rotación] permite controlar que tipo de rotación llevar a cabo. Se puede definir el
método de rotación que deseamos utilizar para facilitar su interpretación de la solución factorial y
solicitar la representación gráfica de las saturaciones. Por defecto, no se encuentra seleccionado
ningún método de rotación.
Ninguno.‐ No se aplica ningún método de rotación. Es la opción la que actúa por defecto. Cuando
la solución consta de un único factor y no se ha marcado esta opción el visor de resultados muestra
un mensaje de advertencia.
Varimax.‐ Método de rotación ortogonal que minimiza el número de variables que tiene
saturaciones altas en cada factor. Simplifica la interpretación de los factores optimizando la
solución por columna.
Quartimax.- Método de rotación ortogonal que minimiza el número de factores necesarios para
explicar cada variable. Simplifica la interpretación de las variables observadas optimizando la
interpretación por filas.
Equamax.‐ Método de rotación que es combinación del método varimax, que simplifica los
factores, y el método Quartimax, que simplifica las variables. Se minimiza tanto el número de
variables que saturan alto en un factor como el número de factores necesarios para explicar una
variable.
Oblimin directo.- Método para la rotación oblicua (no ortogonal). Cuando delta e igual a cero (el
valor por defecto), las soluciones son las más oblicuas. A medida que delta se va haciendo más
negativo, los factores son menos oblicuos. Para anular el valor por defecto de delta, puede
introducirse un número menor o igual a 0.8.
Delta.- El valor de delta permite controlar el grado de oblicuidad que pueden llegar a alcanzar los
factores de la solución.
Promax.- Rotación oblicua que permite que los factores estén correlacionados. Puede calcularse
más rápidamente que una rotación Oblimin directa, por lo que es útil para grandes conjuntos de
datos.
Kappa.- Parámetro que controla el cálculo de rotación de Promax. El valor por defecto es 4. Este
valor es adecuado para la mayoría de los análisis.
Solución rotada.‐ Permite obtener una o más tablas con los resultados del proceso de rotación. Al
seleccionar una rotación ortogonal, esta opción permite obtener la matriz de estructura factorial
rotada y la matriz de transformación necesaria para rotar los factores a partir de la solución inicial.
Además, en la tabla de porcentajes de varianza explicada aparecen columnas adicionales que
contienen la varianza total explicada por los factores rotados.
Al seleccionar una rotación oblicua, esta opción permite obtener la matriz de configuración rotada,
que contiene las saturaciones de las variables en los factores, y la matriz de estructura, que
contiene las correlaciones entre las variables observadas y los factores (cuando la rotación es
ortogonal, ambas matrices son idénticas).
Además, ofrece la matriz de correlaciones entre los factores y desecha la matriz de transformación
para la rotación. En la tabla de porcentajes de varianza explicada sólo se incluyen los autovalores
de los factores rotados (ya que no tiene sentido hablar de porcentajes de varianza independientes).
Gráficos de saturaciones.‐ Esta opción genera un gráfico de dispersión que refleja la ubicación de las
variables en el espacio definido por los factores. Se trata de un gráfico de las saturaciones. El gráfico
muestra, por defecto, los tres primeros factores de la solución factorial en un gráfico tridimensional.
Si se desea representar otros factores, es necesario editar el gráfico y elegir esos otros factores.
Señalar que por defecto se encuentra seleccionado el método de Regresión, que es el de uso más
generalizado. Las opciones del método no tiene efecto alguno cuando se ha señalado componentes
principales como método de extracción, ya que en ese modelo factorial las puntuaciones factoriales
no son estimadas sino calculadas directamente a partir de las variables originales.
Guardar como variables.‐ Activando esta opción se guardan automáticamente en el Editor de datos
las puntuaciones factoriales estimadas para cada sujeto en cada uno de los factores obtenidos en la
solución factorial.
Para ello, el SPSS crea en el archivo de datos activo tantas variables nuevas como factores contenga
la solución factorial. Si no se selecciona esta opción no es posible acceder a los métodos de
estimación de las puntuaciones factoriales.
Anderson‐Rubin.‐ Este método de estimación es una modificación del método de Bartlett que
asegura la ortogonalidad de las puntuaciones factoriales estimadas. Las estimaciones resultantes
tienen una media de cero, una desviación típica de uno y son independientes entre sí (incluso en el
que se haya solicitado una solución rotada oblicua).
Mostrar matriz de coeficientes de las puntuaciones factoriales.‐ Esta opción permite obtener una
tabla con los pesos o ponderaciones necesarios para calcular las puntuaciones factoriales a partir
de las variables originales. Esta opción se encuentra desactivada por defecto. Por tanto, para
obtener la matriz de coeficientes no basta con solicitar las puntuaciones factoriales.
El cuadro [Opciones] permite controlar algunos aspectos relacionados con le tratamiento que
deben recibir los valores perdidos y el formato en las tablas de resultados que genera el Visor de
resultados.
Excluir casos según pareja.‐ Los sujetos con valor perdido en una variable se excluyen del análisis
sólo para el cálculo de los estadísticos en los que esté implicada esa variable.
Este método permite aprovechar más cantidad de información que la anterior, pero, puesto que no
todas las correlaciones se calculan sobre el mismo número de sujetos, podrían obtenerse matrices
de correlaciones inconsistentes imposibles de analizar posteriormente.
Reemplazar por la media.‐ Los valores perdidos de una variable se sustituyen por la media de esa
variable. Si en una variable existen muy pocos casos con valor perdido, reemplazar el valor perdido
por la media no constituye un problema importante. Pero en la medida de que el número de
valores perdidos aumenta, la sustitución por la tiene el efecto de centrar las variables
disminuyendo su variabilidad.
Ordenados por el tamaño.‐ Esta opción sirve para ordenar las variables de las tablas de resultados
en función de la magnitud (en valor absoluto) de los coeficientes de esas tablas (saturaciones,
correlaciones, etc.). La ordenación se realiza de forma ascendente: primero las variables con
coeficientes más altos. Si no se marca esta opción, las tablas muestran las variables en el mismo
orden en el que han sido trasladadas a la lista de Variables del cuadro de diálogo de Análisis
factorial.
Suprimir valores absolutos menores que.‐ Esta opción permite suprimir de las tablas de resultados
los coeficientes cuyo valor absoluto sea menor que el valor establecido en el cuadro de texto.
El valor por defecto es 0,10, pero este valor puede cambiarse introduciendo un valor distinto. Esta
opción es de gran ayuda: al desaparecer de la tabla los coeficientes excesivamente pequeños (en
valor absoluto), se facilita notablemente la interpretación de los resultados.
Una vez señaladas las opciones, en la pantalla adjunta basta con pulsar [Continuar] para que el Visor
SPSS nos facilite los resultados.
Se obtienen las medias y desviaciones
típicas de cada variable en estudio.
Si las variables están correlacionadas hay muchos valores altos en valor absoluto fuera de la
diagonal principal de la matriz de correlaciones, además, el determinante es menor que 1 (el
máximo valor del determinante es 1 sí las variables están incorreladas).
⎧H0 : R =1
El test de Barlett realiza el contraste: ⎨
⎩H1 : R ≠1
El determinante de la matriz da una idea de la correlación generalizada entre todas las variables.
El test se basa en la distribución χ2 de Pearson donde los valores altos llevan a rechazar la
hipótesis nula H0 , así, la prueba de esfericidad de Barlett contrasta si la matriz de correlaciones
es una matriz identidad, que indicaría que el modelo factorial es inadecuado.
Equivale a la suma de la fila j‐ésima de la matriz factorial. Sería igual a 0 si los factores comunes no
explicaran nada la variabilidad de una variable, y sería igual a 1 se quedase totalmente explicada.
La varianza
asociada a cada
factor se utiliza
para determinar
cuántos factores
deben retenerse.
Los tres primeros
factores tienen todos varianzas (autovalores) mayores que 1, y entre los tres recogen el 85% de la
varianza de las variables originales.
♦ El primer componente se le podría etiquetar como calidad de vida con valores negativos altos en
empresas y población indicando un entorno relativamente pobre.
♦ El segundo componente se puede etiquetar como tiempo húmedo, y tiene pesos altos en las
variables precipitaciones y días.
♦ El tercer componente se podría etiquetar como tipo de clima y está relacionado con la
temperatura y la cantidad de lluvia.
Aunque no se encontrasen etiquetas claras para los componentes, siempre es interesante calcular
componentes principales para descubrir si los datos se encuentran en una dimensión menor. De
hecho, los tres primeros componentes producen un mapa de los datos donde las distancias entre
los puntos es bastante semejante a la observada en los mismos respecto a las variables originales.
El Gráfico de la varianza asociada a cada factor se utiliza para determinar cuántos factores deben
retenerse. Típicamente el gráfico muestra la clara ruptura entre la pronunciada pendiente de los
factores más importantes y el descenso gradual de los restantes (los sedimentos)
Otra opción es utilizar el criterio de Kaiser, que consiste en conservar aquellos factores cuyo autovalor
asociado sea mayor que 1.
Saturaciones factoriales:
En la diagonal de la matriz reproducida se encuentran las Comunalidades finales.
Junto con la matriz de correlaciones reproducidas se muestra la matriz de correlaciones
residuales, la cual contiene los residuos, es decir, las diferencias entre las correlaciones
observadas y las correlaciones reproducidas.
Si el modelo es el correcto, el número de residuos con valores elevados debe ser mínimo.
Representación tridimensional de las saturaciones factoriales para los tres primeros factores:
Se realiza un análisis de regresión de la variable SO2 sobre los tres factores. Para ello, en SSPS:
La salida del visor de SSPS muestra:
La cantidad de SO2 se explica claramente mediante el primer componente de calidad de vida (con
valores negativos altos en empresas y población indicando un entorno relativamente pobre).
ANÁLISIS ACP CON SPSS ______________________________________________
El Análisis de Componentes Principales (ACP) tratará de representar ‘’de forma clara y ordenada”,
la variedad de los comportamientos observados en un conjunto de n individuos mediante un
conjunto de p variables.
Buscará un nuevo sistema de ejes coordenados, ordenados (nuevas variables de referencia que
llamaremos componentes principales) con el que poder apreciar y analizar más claramente la
diversidad de comportamiento reflejada en los datos. Para ello, determinará como primer eje
coordenado la nueva variable (primera componente principal) que explique la máxima variabilidad
(diversidad) posible de los datos observados, para proceder secuencialmente y de forma análoga a
determinar los sucesivos ejes coordenados (sucesivas componentes principales) a partir del resto
de la variabilidad (diversidad) de los datos, aún no explicada por los anteriores.
El ACP tratará de responder a la pregunta ¿en qué sistema de nuevos ejes coordenados podríamos
apreciar de una forma más clara y ordenada la diversidad de información?
Representando por (X 1 ,X 2 , ,X P) las variables originales, el objetivo es pues, encontrar unas
nuevas variables ‘componentes principales’, (Z 1 ,Z 2 , ,Z P) , que expliquen ordenadamente y de
una forma más clara la variabilidad de los datos. Parece lógico determinar la primera componente
principal Z1 como aquella que vaya en la dirección de máxima variabilidad de los datos y que, por
tanto, explicará la mayor diversidad entre los datos; ya que los datos se dispersan de una forma
máxima justamente en esa dirección. Esta dirección, pues, nos informará mucho del
comportamiento más diversamente llamativo de esa nube de puntos.
De otra parte, obsérvese que para que estas nuevas variables de referencia (nuevo sistema de ejes
coordenados) permita una representación “clara” de la realidad, deberíamos pedir lógicamente
que estuviesen incorrelacionadas para que cada nueva variable informara de aspectos diferentes
de la realidad y así facilitar la interpretación.
Recordemos que nubes de puntos inclinadas indicaban correlación entre variables y que nubes de
puntos paralelas a los ejes indicaban incorrelación entre variables, por lo que la incorrelación
entre las nuevas variables de referencia (componentes principales) se conseguirá cuando se
tomen paralelas a los ejes principales de la nube de puntos. Ello nos induce a pensar que si la
nube de puntos es lo suficientemente regular (aproximadamente elipsoidal), la dirección de las
componentes principales deben ser ejes ortogonales.
Así pues, la variable Z2 deberá ser la variable que, siendo ortogonal a Z1, tenga la dirección de
máxima dispersión de las restantes. Así aportará una información adicional del resto de la
variabilidad de los datos y que no quedaba explicada por la dirección Z1 (nótese que existe toda
una gama de individuos con un mismo valor para Z1 que pueden presentar diferentes valores para
Z2).
El proceso se refleja en la figura:
Secuencialmente, las sucesivas componentes principales irán perdiendo importancia explicativa de la
diversidad o variabilidad de los datos, ya que se extienden en direcciones de cada vez menos
dispersión. Esto se acentuará más cuanto mayor sea la correlación entre las variables originales.
En el caso límite de que esa regresión fuera perfecta, y por tanto todos los puntos estuvieran
sobre el hiperplano, la componente principal perpendicular al hiperplano no aportaría ninguna
información porque no habría variabilidad en su dirección. Es en estos casos cuando vamos a
conseguir una reducción efectiva de la dimensión de nuestro problema, al poder obviar o suprimir
las componentes principales que no aportan información sobre la diversidad.
Así que, como consecuencia del proceso, el ACP no sólo encuentra ordenadamente las direcciones
que mejor explican la variabilidad de esa nube de puntos, sino que también en el caso de que haya
información redundante, permitirá prescindir de alguna de las últimas componentes, bien porque
estrictamente no expliquen nada acerca de la variación de los datos, o bien porque expliquen una
cantidad despreciable de la misma, consiguiendo simplificar el problema mediante la reducción
efectiva de la dimensión del mismo.
El estudio de las Componentes Principales con SPSS se realiza a través del Análisis Factorial, el cual
intenta identificar variables subyacentes, o factores que expliquen la configuración de correlaciones
dentro de un conjunto de variables observadas.
Para que éste procedimiento estadístico tenga sentido, es necesario que entre las variables de
estudio haya una estructura importante de correlación, es decir, es necesario que las variables han
sido observadas estén relacionadas entre sí.
En SPSS, el procedimiento que permite
Se pueden almacenar las puntuaciones factoriales obtenidas a partir del análisis factorial en el
área de trabajo del fichero de datos, es decir, se puede añadir
m nuevas variables que representen los m factores extraídos.
Como ejemplo, con el fichero de datos Comarcas de Guadalajara (Guadalajara.sav). Las variables
que se incluyen en el análisis:
Lo que significa cada una de las variables son:
Agri: porcentaje de la población que trabaja en el sector agrícola.
Asal: Porcentaje de la población asalariada.
Cons: Porcentaje de la población que trabaja en el sector construcción.
Emp: Porcentaje de la población que posee su propia empresa.
Ind: Porcentaje de la población que trabaja en el sector industrial.
M16a: Porcentaje de la población de 16 años o menos.
M65a: Porcentaje de la población de 65 años o más.
Serv: Porcentaje de la población que trabaja en el sector servicios.
Tactiv: Tasa de población activa.
Se seleccionan: Descriptivos univariados, Solución inicial, Matriz de Coeficientes y el
test KMO y prueba de esfericidad de Bartlett.
El visor de resultados del SPSS muestra todos los cuadros, gráficos y resultados del análisis
solicitado. En este caso, un Análisis Factorial a
con el Método de Componentes Principales.
En el cuadro de la varianza total explicada de cada componente y cuáles son las componentes que
han sido extraídas (aquellas
cuyos autovalores superan la
unidad).
Se puede expresar cada variable en función de los factores.‐ Haciendo una combinación lineal de
ellos utilizando sus cargas factoriales respectivas. De este modo, se puede expresar la variable Agri
en función de las dos componentes extraídas: Agri = – 0,974 F1 – 0,121 F2
A partir de las Cargas Factoriales se calcula la Comunalidad de cada una de las variables, por ejemplo,
para la variable Agri: Comunalidad (Agri) = (– 0,974)2 + (– 0,121)2 = 0,963317
Indicando qué cantidad de información original se conserva (96,33%).