TEMA 2
Técnicas de reducción de variables:
Componentes Principales.
INTRODUCCIÓN.
Las técnicas de análisis multivariante se tratan de un conjunto de métodos estadísticos cuya finalidad es
analizar simultáneamente conjuntos de datos multivariantes: hay varias variables medidas para cada caso.
Estos métodos permiten un mejor entendimiento del fenómeno objeto de estudio, obteniendo
información que los métodos univariantes y bivariantes son incapaces de conseguir.
Valor teórico: Se trata de una combinación lineal de Escalas de medida: sirve para la selección del
variables con ponderaciones determinadas método. Existen dos tipos: no métricos
empíricamente. (cualitativos) y métricos (cuantitativos).
Valor teórico = w1X1 + w2X2 + w3X3 + … + wnXn
Error de medida: grado en que los valores
observados no son representativos de los valores
verdaderos.
INTRODUCCIÓN.
Las diferentes técnicas de análisis multivariante se agrupan en tres categorías:
Análisis de dependencia: tratan de explicar la
variable considerada dependiente a través de otras
consideradas independientes o explicativas.
Otras técnicas: intentan superar el enfoque
monocriterio de las anteriores intentando explicar
procesos complejos. Por ejemplo, los modelos de
ecuaciones estructurales, los cuales comprenden
Análisis de interdependencia: No distinguen entre una serie de procedimientos que permiten probar
variables dependientes e independientes. Otorgan la relación entre variables observadas y latentes.
la misma consideración a todas las variables,
tienden a descubrir interrelaciones y estructura
subyacente entre ellas.
MÉTODOS EXPLICATIVOS: TÉCNICAS DEL ANÁLISIS DE LA
DEPENDENCIA.
MÉTODOS DESCRIPTIVOS: TÉCNICAS DEL
ANÁLISIS DE LA INTERDEPENDENCIA.
ANÁLISIS DE COMPONENTES PRINCIPALES
(ACP).
• Se clasifica entre los métodos de simplificación o reducción de la dimensión.
• Se aplica cuando se dispone de un conjunto elevado de variables con datos
cuantitativos persiguiendo obtener un menor número de variables, combinación
lineal de las primitivas.
• Esta reducción resulta óptima para simplificar la aplicación de otras técnicas
(regresión, cluster, etc.) o para la obtención de indicadores sencillos.
• Su aplicación es directa sobre cualquier conjunto de variables, a las que
considera en bloque, sin que el investigador haya previamente establecido
jerarquías entre ellas, ni necesite comprobar la normalidad de su distribución.
• Variables tipificadas para evitar problemas derivados de escala, o bien, sobre
variables expresadas en desviaciones respecto a la media.
OBTENCIÓN DE LAS COMPONENTES
PRINCIPALES.
• La primera componente principal, al igual que las restantes, se expresa
como combinación lineal de las variables originales como sigue:
Z1i = u11x1i + u12x2i + …+u1pxpi
• Para el conjunto de las n observaciones muestrales esta ecuación puede
expresarse matricialmente como sigue:
Z 11 X 11 X 21 X p1 u11
Z X X 22 X p 2 u12
12 12
Z 1n X 1n X 2 n X pn X 1 p
OBTENCIÓN DE LAS COMPONENTES
PRINCIPALES.
• La varianza de Z1 será:
n
Z 2
1i
1 1 1
V (Z1 ) i 1
Z1 Z1 u1 X Xu1 u1 X X u1 u1 Vu1
n n n n
• La primera componente Z1 se obtiene de forma que:
MaxV ( Z1 ) u1 Vu1
• Sujeta a la restricción:
p
1i 1 u1 1
u 2
j 1
u
OBTENCIÓN DE LAS COMPONENTES
PRINCIPALES.
• El problema anterior se resuelve por el método de los multiplicadores de Lagrange.
• Para maximizar V(Z1) tomamos el mayor autovalor de la matriz V y u1 como su vector propio.
• La segunda componente principal se obtiene de forma análoga. Además, se quiere que Z2i esté
incorrelacionado con la anterior componente Z1i, es decir, Cov(Z1i, Z21)=0.
Z2i = u21x1i + u22x2i + …+u2pxpi
• La proporción de la variabilidad total recogida por la componente principal h-ésima viene dada por:
h h
p
trazaV
h
h 1
• Puntuaciones o medición de las componentes: los valores de las componentes correspondientes a cada
observación, a partir de la siguiente relación:
Zhi = uh1X1i+ uh2X2i+…+ uhpXpi, siendo h=1…p; i=1…n
CONTRASTES SOBRE EL NÚMERO DE
COMPONENTES PRINCIPALES A RETENER.
• Criterio de la media aritmética: Se seleccionan aquellas componentes cuya raíz característica j
excede de la media de las raíces características.
σ𝑝𝑗=1 𝜆ℎ
𝜆ℎ > 𝜆ҧ =
𝑝
𝑝
En variables tipificadas σ𝑗=1 𝜆ℎ = 𝑝 por lo que sólo se retienen aquellas tales que h > 1.
• Contraste sobre las raíces características no retenidas y prueba de Anderson: Ambos test
contrastan si las p-m últimas raíces son iguales a 0.
H0: m+1 = m+2 = … = p = 0
Estos dos contrastes se diferencian en el tipo de estadístico que usan, aunque en esencia son
muy similares. Sólo son válidos si y sólo si las variables originales siguen una distribución normal
multivariante.
• El gráfico de sedimentación: Se obtiene representando en ordenadas las raíces características y
en abcisas los números de las componentes principales en orden decreciente (scree plot).
GRÁFICO DE SEDIMENTACIÓN.
Gráfico de sedimentación
7
2
Autovalor
0
1 2 3 4 5 6 7 8 9 10 11
Número de componente
MATRIZ DE CARGAS FACTORIALES.
• En las columnas se suelen representar los factores y en las filas las variables.
• Cada elemento de la matriz representa los coeficientes factoriales de las
variables, los cuales nos permiten calcular las puntuaciones de los individuos y
de las variables según los casos.
• La matriz factorial tiene tantas columnas como componentes principales y tantas
filas como variables.
• El coeficiente de correlación entre una componente y una variable se calcula
como:
r jh u hj h
COMUNALIDADES.
• Por las propiedades del coeficiente de correlación se deduce que la suma
en horizontal de los cuadrados de las cargas factoriales de una variable en
todos los factores (componentes) retenidos es la parte de dispersión total
de la variable explicada por el conjunto de k componentes.
• La suma de cuadrados se denomina comunalidad. Por ejemplo, para la
primera variable la comunalidad será:
r211 + … + r2k1 = V(X1) = h21
• La suma de las comunalidades de todas las variables coincide con la suma
de los valores propios de las componentes.
• La comunalidad es un criterio de calidad de la representación de cada
variable.
ROTACIÓN DE LAS COMPONENTES.
ROTACIÓN DE LAS COMPONENTES.
• Ortogonales: La rotación de los ejes mantiene un ángulo de 90º entre los
ejes. Las más típicas son VARIMAX y QUARTIMAX.
Las comunalidades de cada variable se conservan, aunque cambian las
cargas factoriales, puesto que los ejes distintos al ser rotados, pero la
variabilidad explicada de cada variable permanece inalterada.
• Oblicuas: La rotación no es ortogonal. Las más típicas son OBLIMAX y
PROMAX donde se elige un coeficiente delta o kappa de oblicuidad (más
negativo más oblicua).
En una rotación oblicua, las comunalidades no se mantienen y la
interpretación es bastante más compleja que en las rotaciones
ortogonales.
CONTRASTES PREVIOS AL ANÁLISIS DE
COMPONENTES PRINCIPALES.
• Contraste de esfericidad de Barlett: Este test prueba si esta matriz es
estadísticamente distinta de la matriz identidad. H0: | Rρ |=1.
• Medida Kaiser Meyer Olkin (KMO) de adecuación muestral: Esta medida
está basada en los coeficientes de correlación observados r2jh y en los
coeficientes de correlación parcial a2jh.
• Measure of Sampling Adequacy (MSA): Esta medida es de adecuación
muestral individual para cada una de las variables.
ANÁLISIS FACTORIAL.
• Reducir la dimensión de una tabla de datos excesivamente grande por el elevado número de variables que contiene
y quedarse con unas cuantas variables ficticias que sean combinación de las reales y sinteticen la mayor parte de la
información contenida en sus datos.
• En el análisis factorial las variables tienen que ser cuantitativas.
• Los factores deben de ser suficientes para resumir la mayor parte de la información contenida en las variables
originales.
• La diferencia entre análisis en componentes principales y análisis factorial:
- En el análisis factorial se trata de encontrar variables sintéticas latentes, inobservables y aún no medidas cuya
existencia se sospecha en las variables originales y que permanecen a la espera de ser halladas, mientras que
en el análisis en componentes principales se obtienen variables sintéticas que son combinaciones de las
originales.
- En el análisis en componentes principales la varianza de cada variable original se explica completamente por
las variables cuya combinación lineal la determinan, sus componentes. Pero esto no ocurre en el análisis
factorial.
• En el análisis factorial sólo una parte de la varianza de cada variable original se explica completamente por las
variables cuya combinación lineal la determinan (factores comunes F1, F2,…,Fp ). Esta parte de la variabilidad de
cada variable original explicada por los factores comunes se denomina comunalidad, mientras que la parte de
varianza no explicada por los factores comunes se denomina unicidad (comunalidad + unicidad = 1) y representa la
parte de variabilidad propia fi de cada variable xi.
• Cuando la comunalidad es unitaria (unicidad nula) el análisis en componentes principales coincide con el factorial.
BIBLIOGRAFÍA.
• Beatriz González López-Valcárcel. Análisis multivariante: aplicación al
ámbito sanitario, 1991.
• D. E. Johnson. Métodos Multivariados Aplicados Al Análisis de Datos.
Thomson, 1998.
• D. Peña. Análisis de Datos Multivariantes. McGraw-Hill, 2002.
• Rafael Álvarez Cáceres, Estadística multivariante y no paramétrica con
SPSS: aplicación a las ciencias de la salud, 2007.
• F. Tusell. Análisis multivariante. Notas de clase, Octubre 2008.
• Joseph F. Hair, Mónica Gómez Suárez, Análisis multivariante, 2010.