0% encontró este documento útil (0 votos)
37 vistas44 páginas

Lebart ACS

El análisis de correspondencias, desarrollado por Benzécri, es un método estadístico que se utiliza para estudiar las relaciones entre dos variables nominales a través de tablas de contingencia. A diferencia del análisis en componentes principales, este método se centra en las propiedades algebraicas y geométricas de los datos, permitiendo una representación simultánea de las filas y columnas de la tabla. El documento también aborda la construcción de perfiles y nubes para facilitar la comparación y análisis de las variables.

Cargado por

Scribe Tribals
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
37 vistas44 páginas

Lebart ACS

El análisis de correspondencias, desarrollado por Benzécri, es un método estadístico que se utiliza para estudiar las relaciones entre dos variables nominales a través de tablas de contingencia. A diferencia del análisis en componentes principales, este método se centra en las propiedades algebraicas y geométricas de los datos, permitiendo una representación simultánea de las filas y columnas de la tabla. El documento también aborda la construcción de perfiles y nubes para facilitar la comparación y análisis de las variables.

Cargado por

Scribe Tribals
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Lebart [Link]. Statisquique exploratoire multimensionnnelle.

(Traducción provisional) 1
1.3 Análisis de correspondencias

Análisis de correspondencias

El análisis de correspondencias, presentado bajo este nombre y desarrollado por Benzécri


(1969), tiene cierto número de precursores, entre los cuales se pueden citar a Guttman (1941) y
Hayashi (1956).
Al igual que el análisis en componentes principales, el análisis de correspondencias se
puede presentar según diversos puntos de vista. Es difícil, además, hacer la historia precisa de este
método. Los principios teóricos remontan probablemente a los trabajos de Fisher (1940) sobre las
tablas de contingencia, dentro de un contexto de estadística inferencial clásica. Después de los
trabajos de Benzécri (1973) y de Escofier-Cordier (1965), se utilizan sobretodo las propiedades
algebraicas y geométricas de la herramienta descriptiva que constituye el análisis1. Este método no
es un caso particular del análisis en componentes principales aunque se precisa recurrir a esta
técnica haciendo los cambios de variables apropiados (con la condición de tratar ambos espacios
separadamente). Se puede presentar como un caso particular del análisis canónico (cf. sección 3.1)
cuando los datos son un código “disyuntivo” e igualmente como un caso particular del análisis
discriminante (cf. sección 3.3). Se puede mostrar que se trata de encontrar la mejor representación
simultánea de dos conjuntos constituidos por las filas y las columnas de una tabla de datos (cf. §
1.3.3).

1.3.1 Dominio de aplicación


El análisis de correspondencias tiene un campo de aplicación diferente del análisis de
componentes principales. Mientras que este último esta reservado a tablas de medidas
eventualmente heterogéneas y a un tratamiento de variables numéricas continuas, el análisis de
correspondencias es un método adaptado a las tablas de contingencia y permite estudiar las
eventuales relaciones existentes entre dos variables nominales. Se verá en la sección siguiente (1.4)
que el método permite, por extensión, descripciones satisfactorias de ciertas tablas de códigos
discontinuos.
La tabla de contingencia (llamada también de dependencia, o tabla cruzada) se obtiene
mediante la clasificación de una población según dos variables nominales. El conjunto de columnas

1
Los ancestros más lejanos del análisis de correspondencias se presentaron de forma totalmente
independiente, Richardson y Kuder (1933) y Hirschfeld (1935). Los primeros autores pretendían una mejor
selección de vendedores de la sociedad Procter and Gamble, mientras que el último estudió una propiedad de
estadística matemática. Esta variedad de contextos es característica del análisis de correspondencias, método

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 2
1.3 Análisis de correspondencias
de la tabla designa las modalidades de una variable y el conjunto de filas corresponde a las
modalidades de la otra variable. De este modo, las filas y las columnas, que designan dos
particiones de una misma población, juegan roles simétricos y se tratan de forma análoga.

1.3.2 Principios y procedimiento: una introducción elemental


Vamos a utilizar, con el propósito de ilustrar, una tabla de contingencia de dimensión
pequeña para la cual el recurso del análisis de correspondencias ciertamente no se justifica, pero que
va a permitir presentar de manera simple los principios de este método y las propiedades que lo
caracterizan1. Aunque las filas y las columnas juegan un papel similar, nosotros conservaremos las
mismas notaciones que para el análisis general.
Consideremos la tabla de contingencia K con n filas y p columnas obtenida de la
clasificación de una población de 592 mujeres según los colores de sus ojos y de sus cabellos.

Tabla 1.3 – 1. Tabla de contingencia, repartición de 592 mujeres según los colores de sus ojos
y de sus cabellos

color del cabello


negro castaño pelirrojo rubio Total
color marrón 68 119 26 7 220
de gris 15 54 14 10 93
los verde 5 29 14 16 64
ojos azul 20 84 17 94 215
Total 108 286 71 127 592
Fuente: Snee (1974)

En las filas se presenta la variable “color de los ojos” con n = 4 modalidades (o categorías)
y en las columnas aparece la variable “color del cabello” con p = 4 modalidades. En la intersección
de una fila y una columna, se tiene el número kij de mujeres que tienen simultáneamente el color i de
ojos y el color j del cabello. El total marginal ki. Es el número de mujeres con los ojos de color i,
mientras que el total marginal k.j es el número de mujeres con el cabello de color j.
Se tienen las siguientes relaciones:
p n n p
k i o . = ∑ k ij k o j = ∑ k ij ∑ ∑k ij =k
j =1 i =1 i =1 j =1

tanto útil en la práctica como estimulante desde el punto de vista teórico. Cf. las referencias históricas de Hill
(1974), Benzécri (1982 a).
1
Una presentación técnica más detallada será el objeto de los parágrafos siguientes de la misma
sección.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 3
1.3 Análisis de correspondencias
las cuales en términos de frecuencias relativas, dan origen a las siguientes relaciones:
p p
k ij n n
f ij = f i . = ∑ f ij f . j = ∑ f ij ∑ ∑f ij =1
k j =1 i =1 i =1 j =1

Hay independencia entre el color de los ojos y el color del cabello? De lo contrario, qué
tipos de asociaciones existen entre tales colores?

a - Transformaciones de la tabla de contingencia


En el análisis de una tabla de contingencia, no es la tabla de frecuencias brutas la que nos
interesa sino las tablas tanto de perfiles fila como de perfiles columna, es decir las reparticiones en
porcentaje al interior de una fila o de una columna.
f ij k ij
Notamos a los perfiles fila así: =
fi . ki .
Tabla 1.3 – 2. Perfiles fila (porcentajes fila redondeados)

color del cabello

negro castaño pelirrojo rubio Total


color marrón 31 54 12 3 100
de gris 16 58 15 11 100
los verde 8 45 22 25 100
ojos azul 9 39 8 44 100
Perfil
medio 18 48 12 22 100

f ij k ij
y los perfiles columna: =
f•j k• j
La tabla 1.3 - 2 de los perfiles fila (multiplicados por 100) indican la repartición del color
del cabello para cada modalidad de color de los ojos. Estas son, en resumen, las probabilidades
condicionales de tener cabello de color j dado que los ojos son de color i. Esta repartición sobre el
conjunto de la población estudiada da el perfil medio:
k• j
f.j =
k

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 4
1.3 Análisis de correspondencias

Tabla 1.3 – 3. Perfiles columna (porcentajes columna redondeados)

color del cabello


Negro castaño pelirrojo rubio Perfil
medio
color marrón 63 42 37 6 37
de gris 14 19 20 8 16
los verde 5 10 20 13 11
ojos azul 19 29 24 74 36
Total 100 100 100 100 100

La tabla 1.3 - 3 de perfiles columna (multiplicados por 100) contiene la repartición de los
colores de los ojos según cada modalidad de color del cabello y el perfil medio del color de los ojos:
ki•
f i• =
k

b - Hipótesis de independencia
Nos interesamos en las relaciones eventuales entre colores de ojos y de cabello. Se dice que
hay independencia entre dos variables aleatorias i y j que toman sus valores sobre dos conjuntos de
tamaño n y p, donde la ley conjunta es pij y las leyes marginales pi. y p.j , si para todo i y para todo j
se tiene (con las notaciones usuales):
pij = pi o po j
La traducción de esta relación en términos de estimaciones empíricas es la siguiente:
f ij = f io f o j
Naturalmente, así se cumpla la hipótesis de independencia, tal relación es solamente
aproximadamente cierta. El “test” estadístico clásico χ2 de Karl Pearson para las tablas de
contingencia permite precisamente apreciar la desviación entre las dos leyes empíricas fij y fi. f.j .
Consultemos la tabla 1.3 - 4 de frecuencias observadas fij que es la tabla 1.3 - 1 dividida por
su suma (592) y multiplicada por 100 para mayor legibilidad.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 5
1.3 Análisis de correspondencias

Tabla 1.3 – 4. Tabla de frecuencias observadas

color del cabello


negro castaño pelirrojo rubio Perfil
medio
color marrón 11 20 4 1 37
de gris 3 9 2 2 16
los verde 1 5 2 3 11
ojos azul 3 14 3 16 36
Perfil
medio 18 48 12 21 100

Dentro del 37% de las mujeres con ojos marrones por ejemplo, se debe observar, bajo la
hipótesis de independencia, 18% de mujeres pelinegras (es decir alrededor del 7% del conjunto de
las mujeres, en lugar del 11% realmente observado), 48% con cabello castaño (es decir 18% en
lugar de 20%), etc.
Construimos la tabla de “frecuencias teóricas” fi. f.j bajo la hipótesis de independencia (cf.
tabla [1.3 - 5]:
Tabla 1.3 – 5. Tabla de frecuencias teóricas

color del cabello


negro castaño pelirrojo rubio Perfil
medio
color marrón 7 18 4 8 37
de gris 3 8 2 3 16
los verde 2 5 1 2 11
ojos azul 7 18 12 8 36
Perfil
medio 18 48 12 21 100

Esta hipótesis se expresa también sobre los perfiles fila. En efecto, se deduce que, para
f ij
cualquier j: = fo j
f io .
Si todos los perfiles “color de los ojos” son idénticos entre si, y por consiguiente idénticos
al perfil medio correspondiente, hay independencia entre los colores de los ojos y entre los colores
de los cabellos ya que el conocimiento de un color de los ojos no cambia por la repartición del color
de los cabellos.
Lo mismo sucede para los perfiles columna donde, para cualquier i:

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 6
1.3 Análisis de correspondencias

f ij
= f io
fo j .
Así, examinar las proximidades entre los perfiles es lo mismo que examinar la proximidad
entre cada perfil y su perfil medio, lo que permite estudiar la relación entre dos variables nominales,
es decir la desviación a la independencia. Sobre una tabla de dimensión importante, la lectura
directa de los perfiles fila y columna es difícil , lo mismo que la comparación de estos perfiles con
su perfil medio.
Vamos a ver como la construcción de una nube, la selección de un criterio de ajuste y un
criterio de distancia, se impone por la naturaleza misma de los datos analizados.

c - Construcción de las nubes


Para el análisis de una tabla de contingencia, razonaremos en términos de perfiles, lo que
permite hacer comparables las modalidades de una misma variable. Las proximidades entre los
puntos se interpretarán en términos de similitud.
• Nube de n filas
El conjunto de los perfiles fila forma una nube de n puntos en el espacio de las p columnas
y representa aquí la nube de las 4 modalidades de colores de los ojos. Cada punto i tiene por
coordenadas en Rp :

 f ij 
 ; j = 1,2..... p
 fi . 
El cual se afecta con un peso fi. que es su frecuencia relativa.
p
f ij
Puesto que: ∑f = 1 , los n puntos de la nube están situados en un subespacio de p - 1
i =1 io .

dimensiones.
El centro de gravedad de esta nube es el promedio de los perfiles fila afectados por sus
pesos y corresponde al perfil medio, es decir al perfil de los cabellos sobre el conjunto de la
población. Su j-ésima componente da:
n f ij
∑f
i =1
io
f io .
= fo j

Que es la frecuencia marginal de las columnas.

• Nube delas p columnas

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 7
1.3 Análisis de correspondencias
De la misma manera, el conjunto de los p perfiles columna constituye una nube de p
puntos en el espacio de las n filas y está representada aquí por la nube de las 4 modalidades de color
del cabello. Las coordenadas en Rn de un punto j están dadas por:
 f ij 
 ; i = 1,2..... n
 f o j . 
Cada punto está afectado con un peso .f.j .
Los p puntos de la nube están situados en un subespacio de n - 1 dimensiones puesto que:
n f ij
∑f .
= 1.
i =1 oj

El centro de gravedad de la nube de perfiles columna es el perfil medio del color de los
ojos. Su i-ésima componente da:
p
f ij
∑f oj
fo j .
= f io
i =1

que es la frecuencia marginal de las filas.

d - Criterio de ajuste
Se busca representar geométricamente las similitudes entre las diferentes modalidades de
una misma variable, lo que nos conduce a representar las proximidades entre perfiles y el perfil
medio definido sobre el conjunto de la población1 . Esto nos lleva, como en el análisis en
componentes principales en el caso de los puntos individuos, a considerar la nube de individuos
centrada sobre su centro de gravedad.
En la construcción de las nubes de Rp y de Rn (cf. tablas 1.3 - 2 y 1.3 -3), la selección de los
perfiles como coordenadas dan a todas las modalidades de color de los ojos y a las de color del
cabello la misma importancia. La importancia se recupera luego, a través del peso con que se afecta
a cada punto (proporcional a su frecuencia), con el fin de no privilegiar a las clases de baja
frecuencia y respetar la repartición real de la población. Este peso intervendrá por una parte en el
cálculo de las coordenadas del centro de gravedad de la nube y por otra en el criterio de ajuste.
Para el cálculo del ajuste, la cantidad a maximizar será entonces las suma de cuadrados
ponderada de las distancias entre los puntos y el centro de gravedad de la nube (es decir la inercia
de la recta de longitud máxima de la nube) utilizando una distancia entre perfiles que se va a definir.

1
Una nube de puntos concentrada alrededor de su centro de gravedad es una nube en la cual los
puntos perfiles están próximos del perfil medio, y por lo tanto se traduce en cierta independencia entre las
dos variables nominales.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 8
1.3 Análisis de correspondencias

e - Selección de las distancias


La distancia euclidiana usual entre dos puntos fila expresada sobre la tabla de frecuencias
absolutas no hace otra cosa que traducir la diferencia de frecuencias entre dos modalidades de color
de los ojos. Por el contrario, la distancia euclidiana usual entre dos perfiles fila traduce bien la
semejanza o la diferencia entre dos colores de ojos sin tener en cuenta la frecuencia total de estas
modalidades:
2
 f ijp f i' j 
d (i, i ′) = ∑ 
2
− 

j =1  f i • f i ′• 
Sin embargo, esta distancia se ve favorecida por las columnas que tienen una masa f.j
importante es decir los colores de cabellos que están bien representados en la población estudiada.
Para remediar esto y también por otras propiedades que serán desarrolladas posteriormente, se
pondera cada desviación por el inverso del peso de la columna y se calcula una nueva distancia
llamada1 la distancia del χ2 :
2
p
1  f ij fi' j 
d (i, i ′) = ∑
2
 −  [1.3 - 1]
j =1 f• j f
 i• f i ′• 

De la misma manera se define la distancia entre los perfiles columna por:


2
n
1  f ij f ij ' 
d ( j , j ′) = ∑
2  −  [1.3 - 2]
f i• f f 
i =1  •j •j ′

1
La inercia total de las nubes de puntos fila (o de puntos columna) calculada con esta distancia es
proporcional al clásico χ2 de Karl Pearson utilizado para probar la independencia de las filas y las columnas
de una tabla de contingencia. De ahí el nombre de distancia del χ2 .

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 9
1.3 Análisis de correspondencias

(j)

Perfil i:  f ij 
(i ) “color de los ojos  
gris“  f i•  ( j )
Perfil i’:
“color de los ojos
 fi' j 
(i’)
azul“
 
 f i '•  ( j )

Pesos de las columnas f.j


.
Figura 1.3 - 1: Distancia del χ2
Esta distancia ponderada, lo mismo que el papel simétrico jugado por las filas y las
columnas de una tabla de contingencia, hacen que el análisis de correspondencias se particular y
aseguran dos propiedades destacadas que no tiene el análisis de componentes principales: la
equivalencia distribucional y las relaciones de transición.

f - Equivalencia distribucional
La propiedad de equivalencia distribucional permite agregar dos modalidades de una misma
variable que tengan sus perfiles idénticos en una nueva modalidad afectada de la suma de sus pesos,
sin que cambien, ni las distancias entre las modalidades de esta variable, ni las distancias entre las
modalidades de la otra variable.
Si por ejemplo los dos perfiles fila i’ e i” son idénticos en Rp , se agregan en un perfil fila i
donde el peso será la suma de las frecuencias de los dos perfiles i’ e i” . Los dos puntos están
confundidos y la unión no modifica las configuración de la nube en Rp .

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 10
1.3 Análisis de correspondencias

p p
R R
(i’;fi’•) (i’;fi’•)

(i”;fi”•) (i; fi’•+fi”•)

0 0

Figura 1.3 – 2. Equivalencia distribucional: puntos fila confundidos

Pero sobretodo, las distancias entre columnas permanecen invariantes. Lo mismo sucede
para los perfiles columna en Rn donde se cumplen las mismas propiedades.
Esta propiedad es fundamental porque garantiza una cierta invarianza de los resultados con
respecto a la nomenclatura seleccionada para la construcción de las modalidades de una variable,
bajo la condición de agrupar modalidades con perfiles semejantes.
No se pierde información al agregar ciertas clases y tampoco se gana al subdividir clases
homogéneas.
j j’ j j’

i’ i=i’+ i”

d2 (j,j’) d2(j,j’)

Figura 1.3 – 3. Equivalencia distribucional: invarianza de las distancias entre columnas con
respecto a la agregación de filas

Tomemos el caso de dos tablas de contingencia obtenidas de un censo de población, una


cruza profesiones y departamentos, la otra profesiones y regiones. Bajo la hipótesis de
homogeneidad de los departamentos de una misma región con respecto a las profesiones, será

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 11
1.3 Análisis de correspondencias
equivalente realizar el análisis de correspondencias sobre los departamentos y sobre las regiones.
Las configuraciones de las nubes de profesiones en los dos análisis serán parecidas (ver la
demostración en § 1.3.3.a).

g - Relaciones de transición o cuasi-baricéntricas


Una de las características del análisis de correspondencias es la existencia de relaciones de
tipo baricéntrico que ligan gráficamente a las dos variables representadas en fila y en columna.
La idea es simple y consiste en representar los histogramas de los perfiles columna en la
nube de los perfiles fila y viceversa.
Supongamos fija la nube de colores de ojos (nube de perfiles fila) en un espacio de dos
dimensiones como se representa en la figura 1.3 - 4. El centro de la gráfica representa el perfil
medio (la distribución marginal) de colores de ojos.

Eje 2

[Link]
[Link]
[Link] Eje 2

Eje 1

[Link]

[Link]

Figura 1.3 – 4. Nube de colores de ojos

Consideremos ahora el histograma que describe el perfil de cabello negro según el color de
los ojos (cf. tabla 1.3 - 3 de los perfiles columna) representados en la figura 1.3 - 5.

80

60

40

20

marron grirs verde acul

Figura 1.3 – 5. Histograma de pelinegros

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 12
1.3 Análisis de correspondencias
Este histograma permitirá posicionar al punto columna “pelinegros” en la nube de puntos
fila (la nube de colores de ojos): cada punto i que representa un color de ojos esta ponderado por su
frecuencia relativa tal como está descrita por el histograma.

Eje 2

[Link]
[Link]
[Link] Eje 2
[Link]

Baricentro de los
puntos i
Eje 1
“color de los ojos”
[Link]

[Link]

Figura 1.3 – 6. Posición del punto “pelinegros” como baricentro de los puntos “colores de los
ojos”

Se construye de este modo el baricentro de estos puntos el cual corresponde al punto


“pelinegros”. El está contenido en una envolvente convexa constituida por el conjunto de los puntos
ponderados (cf. figura 1.3 - 6). Esta modalidad será jalonada por los ojos marrones, puesto que tiene
el peso más elevado. Por el contrario estará alejada de los ojos verdes.
Cada punto j “color del cabello” es entonces un baricentro particular de los puntos i “color
de los ojos”, el punto i esta afectado del peso “parte del color i de los ojos dado que el color del
cabello es j “, (es decir el perfil columna fij/f.j ).

Eje 2

[Link]
[Link]
[Link] Eje 2
[Link] [Link]
[Link]ño
Eje 1
[Link]
[Link]

[Link]

Figura 1.3 – 7. Posición de los puntos “colores de ojos” y posicionamiento de los puntos
“colores del cabello” en baricentros

Si se considera ahora la nube de perfiles columna, es decir la nube de colores de los


cabellos, es natural proceder de la misma manera y de representar el histograma de cada color de los

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 13
1.3 Análisis de correspondencias
ojos en esa nube. Se posiciona entonces cada punto fila i “color de los ojos” como baricentro de los
puntos j “color del cabello” ponderados por la parte del color j del cabello dentro del color i de los
ojos, dado por los perfiles fila {fij/fi.} (cf. figura 1.3 - 8)

[Link]
Eje 2 [Link]
Eje 2
[Link]
[Link]
[Link]

Eje 1
[Link]
[Link]ÑO [Link]

[Link]

Figura 1.3 – 8. Posición de los puntos “colores del cabello” y posicionamiento de los “colores
de ojos” en baricentros

Las relaciones baricéntricas van a justificar y a dar un sentido a la representación


simultánea de las dos nubes definidas en los dos espacios.

h - Justificación de la representación simultánea


Utilizando el análisis general se podrá considerar el análisis de dos nubes de puntos de
manera independiente e interpretarlo como un análisis de componentes principales donde toda la
información de las dos nubes transita por factores de los mismos rangos. Teniendo en cuenta las
relaciones baricéntricas, se cae de nuevo en el análisis de correspondencias.
Estas relaciones muestran que existe una posibilidad de representación particular1: es
posible posicionar cada punto de una nube entre el conjunto de puntos de la otra nube.
Así, en la nube de los perfiles fila, cada perfil columna es un baricentro de los puntos de la
nube. Proyectada sobre un plano, se dispone de una primera representación simultánea (cf. figura
1.3 - 7). Del mismo modo, cada perfil fila es el baricentro del conjunto de los perfiles columna y
constituye, con los ejes de los mismos rangos, una segunda representación simultánea (cf. 1.3 - 8).
Pero deseamos una sola representación simultánea de las dos nubes de puntos y la situación
ideal será la de poderlos superponer.

1
Esta posibilidad se debe al hecho de que las coordenadas del origen (los perfiles) son números
positivos donde la suma da 1.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 14
1.3 Análisis de correspondencias

[Link] Eje 2

[Link]
[Link]
[Link]

Eje 1
[Link]ÑO

[Link]

[Link]
[Link]

Figura 1.3 – 9. Representación simultánea; Relaciones cuasibaricéntricas

Esto es a priori imposible por la definición misma de baricentro, ya que cada conjunto
deberá estar contenido en el otro. Sin embargo es posible forzar esta representación dilatando (sobre
cada eje) los centros de gravedad (figura 1.3 - 9). Se puede entonces representar sobre los mismos
ejes (y por lo tanto sobre el mismo plano) el conjunto de las filas y el de las columnas con el fin de
aproximarse a la situación ideal. Las relaciones serán cuasi-baricéntricas (cf. § 1.3.3).
Los ojos azules se asocian al cabello rubio, los ojos marrones al cabello negro. El cabello
pelirrojo es atraído por los ojos grises y verdes que ellos caracterizan. La categoría de cabello
castaño está muy próxima del origen del plano de representación, que es el perfil medio y no tiene
especificidad en cuanto al color de ojos1.
Nosotros veremos que el desarrollo del análisis de correspondencias, que tiene en cuenta los
roles simétricos de las filas y las columnas de la tabla de contingencia y las propiedades de la
distancia χ2 , conduce naturalmente a las relaciones bibaricéntricas (tiene un coeficiente que es el
coeficiente de dilatación que permite la representación simultánea única).

1.3.3 Esquema general del análisis de correspondencias


El análisis de correspondencias consiste en efectuar el análisis general de una nube de
puntos ponderados en un espacio dotado de la métrica del χ2 . Se hará entonces referencia al análisis
general con las métricas y los criterios requeridos (cf. § 1.1.6.a).

1
La mayoría de las veces se dispone de una tabla de datos de dimensión importante y la
representación de la nube de puntos no dilatada y de los baricentros correspondientes, en uno de los espacios,
produce una gráfica confusa debido a que los baricentros serán localizados cerca al origen del plano. Una sola
representación simultánea, la representación llamada cuasi-baricéntrica, debido a la dilatación de las nubes de
puntos que ella necesita, ofrece la ventaja de una lectura más fácil de la gráfica.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 15
1.3 Análisis de correspondencias
a - Geometría de las nubes y elementos de base
A diferencia del análisis de componentes principales, la tabla de datos sufre dos
transformaciones, la una en perfiles fila y la otra en perfiles columna, a partir de estas se construirán
las nubes de puntos en Rp y en Rn (figura 1.3 - 10).
Para hacer la conexión con el análisis general (cf. sección 1.1), nosotros adoptaremos la
notación matricial (figura 1.3 - 11).
Las transformaciones realizadas sobre la tabla de datos se pueden escribir a partir de tres
matrices F, Dn y Dp que definen los elementos de base del análisis.
F de orden (n, p) designa la tabla de frecuencias relativas; Dn de orden (n, n ) es la matriz
diagonal donde los elementos diagonales son las márgenes en fila fi. ; Dp es la matriz diagonal de
orden (p, p) de las márgenes en columna f.j .
Tabla de contingencia K

i kij kj•

k•j k

Perfiles fila Frecuencias relativas F Perfiles columna

j j j

fij fij
i 1 i fij fj• i fj•
fj• fj•

f•j 1 f•j 1 1 1

Nube de n Nube de p
puntos en R p puntos en Rn

Rp Rn

Figura 1.3 –10. Transformaciones de la tabla de contingencia

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 16
1.3 Análisis de correspondencias

j M árgenes fila D n

i fij fj• 0
Perfiles fila D -1 n F
Frecuencias  f ij 
relativas F  
0  f io  ( j )

0 Perfiles co lumna D -1 p F’
f•j
p  f ij 
0  
 f o j  ( i )
M árgenes columna D p

Figura 1.3 – 11. Frecuencias, márgenes, perfiles

Las dos nubes de puntos (en el espacio de las columnas y en el espacio de las filas) se
construyen de maneara análoga. Nosotros recapitulamos aquí los elementos de base del análisis que
va a permitir la construcción de los factores.

Tabla 1.3 – 6. Los elementos de base del análisis: recapitulación


Nube de n puntos-fila Elementos Nube de p puntos-columna
en el espacio Rp de base en el espacio Rn
X = D −n1 F X = D −p1F '
p coordenadas (puntos-fila i) Análisis de la
tabla X n coordenadas (puntos-columna j)
f ij f ij
, para j=1,2,…,p , para i=1,2,…,n
f io fo j
M = D −p1 M = D −n1
2
con la 2
p
1  f ij f ij  métrica M  f ij
n
1 f ij 
d (i , i ′ ) = ∑
2
 −  d ( j , j ′) = ∑
2
 − 
j =1 f • j  f i • f i ′•  i =1  f • j f .• j 
f i•
N = Dn y el criterio N N = Dp
peso del punto i: fi• peso del punto j: f•j

Notas
1) La matriz N de pesos de un espacio esta ligado a la métrica M utilizada en el otro espacio.
2) Existe una diferencia fundamental con el análisis en componentes principales: las
transformaciones hechas sobre los datos brutos en los dos espacios son idénticas (pues los
conjuntos puestos en correspondencia juegan papeles análogos). Ellas corresponden a
transformaciones analíticas diferentes : la tabla de las nuevas coordenadas en el espacio de
las columnas no es la simple transpuesta de la tabla de las nuevas coordenadas en el espacio
de las filas. En componentes principales, de transformaciones muy diferentes se obtiene una
misma fórmula analítica.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 17
1.3 Análisis de correspondencias
Demostración de la equivalencia distribucional
La distancia del χ2 tiene el efecto de conceder una misma importancia, de una parte a las
columnas según sus frecuencias relativas en el calculo de la distancia entre dos perfiles fila, y de
otra parta a las filas si se trata de calcular la distancia entre dos perfiles columna.
Esta distancia ofrece la ventaja de verificar la propiedad de equivalencia distribucional1 (cf.
figura 1.3-2). Este principio asegura la robustez de los resultados del análisis de correspondencias
con respecto a la arbitrariedad de la repartición en modalidades de las variables nominales. Se
expresa de la siguiente manera en Rp: si dos puntos fila i1 e i2 están superpuestos en Rp, se tiene
para todo j:
f i1 j fi2 j fi• j
= = [1.3 - 3]
f i1 • f i2 • fi •
Se tiene en particular:
f i1 j + f i2 j f i0 j
=
f i1 • + f i2 • f i0 •

De donde, debido a que los denominadores son iguales, se tiene para todo j:
f i1 j + f i2 j = f i0 j

Los cálculos de las cantidades f • j = ∑f i


ij
no se afectan y las distancias d2(i,i’) dadas por

la fórmula [1.3 - 1] son invariantes.


Mostraremos ahora que las distancias entre columnas tampoco cambian. La distancia d2(j,j’)
dada por la fórmula [1.3 - 2] contiene, entre otros, a los dos términos A(i1) y A(i2) correspondientes
a los índices i1 e i2:
2 2
1  f i1 j f i1 j '  1  f i2 j f i2 j ' 
A(i1 ) + A(i2 ) =  −  +  − 
f i1 •  f• j f • j'  f i2 •  f• j f • j ' 

Estos dos términos se reemplazan por un solo término A(i0) tal que:
2
1  f i0 j f i0 j ' 
A(i 0 ) =  − 
f i0 •  f•j f • j ' 

Notemos, por ejemplo que:

1
La distancia euclidiana usual entre perfiles no posee la propiedad de equivalencia distribucional,
pero hay otras distancias que poseen esta propiedad (cf. Escofier, 1978).

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 18
1.3 Análisis de correspondencias
2
 fi j f i1 j ' 
A(i1 ) = f i1 •  1 − 
 f i • f• j fi • f• j' 
 1 1 
A(i1) y A(i2) se escriben de la misma manera y las cantidades entre corchetes son iguales,
por la relación [1.3 - 3], dándoles un mismo nombre que se notará B. Se tiene entonces:
A(i1 ) + A(i2 ) = f i1 • B + f i2 • B = f i0 • B = A(i0 )
Mostrando la invarianza de la distancia d2(j,j’).

b - Criterio a maximizar y matriz a diagonalizar


Deseamos representar gráficamente las proximidades entre perfiles. Nos colocamos
entonces, en los dos espacios, en el centro de gravedad de las nubes. Sin embargo, y esta es una de
las particularidades del análisis de correspondencias, son equivalentes los análisis realizados con
respecto al origen y con respecto al centro de gravedad, con la condición de eliminar en el primer
caso, al eje factorial que une al origen con el centro de gravedad1.
Comenzaremos por efectuar el análisis general con respecto al origen, la expresión de las
fórmulas es más simple, luego mostraremos, en el parágrafo 1.3.7, la equivalencia con el análisis
efectuado con respecto a los centros de gravedad.
Coloquémonos en el espacio de las columnas2 Rp y busquemos el eje de inercia máximo de
la nube de puntos fila pasando por el origen O y engendrado por un vector unitario u para la métrica
[Link] nos conduce a maximizar la suma ponderada de cuadrados de las proyecciones sobre el
eje (cf. § 1.1.1) es decir:

 
Max ∑ f
u i
i• d 2 (i , O)

y que maximiza la cantidad:
u' D −p1 F' D n−1 FD −p1 u
con la restricción:
u' D −p1 u = 1
u es vector propio de la matriz:
S = F' D n−1FD −p1

1
Este eje esta asociado al valor propio igual a 1, llamado valor propio trivial.
2
Teniendo en cuenta la simetría de la tabla de contingencia, las demostraciones en el otro espacio se
deducen por permutación de los índices i y j (es decir transposición de F y permutación de las matrices Dp y
Dn.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 19
1.3 Análisis de correspondencias

asociado al valor propio λ más grande diferente de 1.


La matriz a diagonalizar es entonces la matriz S de término general:
n f ij f ij '
s jj ' = ∑
i =1 f i• f • j'
De la misma forma, se busca el máximo en Rn , de la cantidad:
v' D n−1 FD −p1 F' D n−1 v
con la restricción:
v ' D n−1 v = 1
v es vector propio de la matriz:
T = FD −p1 F' D n−1

c - Ejes factoriales y factores


Suponemos aquí que p corresponde a la dimensión menor de la tabla de datos. Después de
descartar el valor propio trivial igual a 1 y su vector propio asociado, retenemos, de la
diagonalización de la matriz, los p-1 valores propios no nulos y los vectores propios asociados.
Obtenemos así máximo p-1 ejes factoriales.

Tabla 1.3-7. Elementos de construcción del análisis

En Rp Elementos de construcción En Rn
S = F' D n−1FD −p1 Matriz a diagonalizar T = FD −p1 F' D n−1
Su α = λ α u α Eje factorial Tv α = λα v α
r r
ψ α = D n−1FD −p1u α ϕ α = D −p1F ' D n−1 v α
p
Coordenadas factoriales
f ij n f ij
ψ αi = ∑ uαj ϕ αj = ∑ vαi
j =1 f i• f • j i =1 f i• f • j

Las coordenadas factoriales son centradas:


n p

∑f i •ψ αi = ∑ f • j ϕ αj = 0
[1.3-4]
i =1 j =1

y la varianza es igual a λα:


n p

∑f ψ
i•
2
αi = ∑ f • j ϕ 2 αj = λ α [1.3-5]
i =1 j =1

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 20
1.3 Análisis de correspondencias
d - Relaciones entre los dos espacios
En análisis general se ha mostrado que las matrices S y T tienen los mismos valores propios
no nulos λα y que entre el vector propio unitario uα de S asociado a λα y el vector propio unitario vα
de T relativo al mismo valor propio, existen las relaciones llamadas de transición:
1
vα = FD p−1 u α [1.3-6]
λα
1
uα = F ' D −n1 v α [1.3-7]
λα
La comparación de estas relaciones con las coordenadas factoriales:
r
ψ α = D n−1FD −p1u α
[1.3-8]
r
ϕ α = D −p1F ' D −n1 v α
[1.3.9]
muestra que ellas están relacionadas con los componentes del otro espacio por las fórmulas:
r
ψ α = λ α D n−1 v α
[1.3-10]
r
ϕ α = λ α D −p1 u α
[1.3-11]
es decir, explícitamente:

λα
ψ αi = vαj
f i•

λα
ϕ αj = uαj
f• j

e - Relaciones de transición (o cuasi-baricéntricas)

Las sustituciones en la relación [1.3-9] de vα por su valor derivado de [1.3-10] y en la


relación [1.3-8] de uα por su valor derivado de [1.3-11] conducen a las relaciones fundamentales
existentes entre las coordenadas de los puntos fila y los puntos columna sobre el eje α, las
relaciones cuasi-bibaricéntricas:

1 p f ij
ψ αi =
λα
∑f
j =1
ϕ αj [1.3-12]
i•

1 n f ij
ϕ αj =
λα
∑f
i =1
ψ αi [1.3-13]
•j

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 21
1.3 Análisis de correspondencias

1
Así, exceptuando el coeficiente de dilatación , las proyecciones de los puntos
λα
representativos de una nube, son, sobre un eje, los baricentros de las proyecciones de los puntos
representativos de la otra nube.

 f ij 
La matriz de término general   que permite calcular las coordenadas de un punto i a
 f i• 
partir de todos los puntos j (relación [1.3-12]) es la tabla de los perfiles fila.
La coordenada de la modalidad i de una de las variables es la media de las modalidades j de
la otra variable ponderadas por las frecuencias condicionales del perfil de i. Del mismo modo, la
relación [1.3-13] muestra que la coordenada de la modalidad j es la media del conjunto de
modalidades i ponderadas por las frecuencias condicionales del perfil j.
Notas:
1) Todos los valores propios son necesariamente inferiores o iguales a . En efecto puesto que:
p
f ij
λ α ψ αi =
f
j =1 i •

ϕ αj

se tiene:
min {ϕ α } ≤ j λ α ψ αi ≤ max {ϕ α } j
( )
j ( ) j
de donde:

max
()
{i
λ α ψ αi } ≤ max
( )j
{ϕ } αj

de la misma manera, se tiene:

max
( )
{
j
λ α ϕ αj } ≤ max {ψ
(i )
αi }
como λα ≥ 0:

max
( )
{
j
λ α ϕ αj } ≤ max {ϕ
( j)
αj }
y finalmente:
λα ≤ 1:

2) Las relaciones cuasi-baricéntricas no son casos particulares de las relaciones de transición establecidas
en el análisis general pues las matrices “de paso” no son las transpuestas las unas de las otras.

f - Representación simultánea
Las relaciones cuasi-baricéntricas justifican la representación simultánea de filas y de
columnas. La figura 1.3-12 ilustra esquemáticamente el proceso del análisis de correspondencias
Los métodos factoriales se fundamentan en el cálculo de distancias entre puntos fila y
puntos columna, sin embargo, la distancia entre un punto fila y un punto columna no tiene sentido
debido a que esos puntos están en espacios diferentes. El análisis de correspondencias ofrece

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 22
1.3 Análisis de correspondencias
entonces la posibilidad de posicionar e interpretar un punto de un conjunto relativo a un espacio con
respecto al conjunto de los otros puntos definidos en el otro espacio.

.n filas p columnas
i
Tabla de
contingencia
Nube de n Nube de p
puntos en Rp puntos en Rn



p
R ∇
∇ Rn




∇ ∇

Relaciones cuasi-baricéntricas

∇ ∇


∇ ∇

Representación simultánea

Figura 1.3-12. Esquema de la representación simultánea

g - Otra presentación del análisis de correspondencias


La investigación de la mejor representación simultánea de los conjuntos filas y columnas,
introducida en el parágrafo 1.3.2, es una forma de presentar el análisis de correspondencias que
conduce directamente a las fórmulas de los cálculos analíticos de los factores. Buscamos representar
sobre un mismo eje el conjunto de las filas y el conjunto de las columnas, para aproximar la
situación ideal siguiente:

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 23
1.3 Análisis de correspondencias
I. Cada punto columna j es el baricentro de los puntos fila i, estando aquí afectados de una masa pi
f ij
p
proporcional a su importancia en la modalidad j es decir de la masa: i = Estas masas
f• j

constituyen, para cada columna j, los perfiles columna de la tabla de datos con n
.
∑ pi = 1
i =1

II. Cada punto fila es el baricentro de los puntos columna j, cada punto columna esta afectado de la
f ij
masa qj, representando la parte de la modalidad j dentro de la modalidad i es decir: q j = .
fi •
p
Estas masas constituyen, para cada fila i, los perfiles fila de la tabla de datos con ∑q j =1
j = 1.

Definimos así a las relaciones estrictamente baricéntricas entre los dos conjuntos. Si ϕj
designa la coordenada del punto columna j sobre un eje, y si ψi designa la coordenada de un punto
fila sobre ese mismo eje, las condiciones I y II se escriben respectivamente:
  n
f ij
ϕ = Dp−1F 'ψ

ϕ j =

∑f
i =1 •j
ψi
 o sea  p
f ij
 ψ = D −1Fϕ
 n
ψ =
 i ∑f ϕj
  j =1 i•

Estas relaciones son en general posibles de realizar simultáneamente, puesto que ellas
implican que cada conjunto este contenido dentro del otro. (Existe una solución trivial, para la cual
todos los puntos de los dos conjuntos están confundidos con el punto de abscisa 1).
Para aproximar esta situación ideal, buscamos un coeficiente β positivo y lo más cercano
posible a 1, tal que se tengan las relaciones:
ϕ = βDp−1F'ψ [1.3 - 14]


 ψ = βD −1Fϕ [1.3 - 15]
 n

Recordemos que β es necesariamente superior o igual a 1 pues de lo contrario las relaciones


[1.3 - 14] y [1.3 - 15] implicarían todavía que cada uno de los conjuntos recorre un intervalo del eje
estrictamente contenido en el intervalo recorrido por el otro. Esto conduce a buscar el β positivo
más pequeño tal que se verifiquen las relaciones [1.3 - 14] y [1.3 - 15].
En [1.3 - 14], por ejemplo, reemplazamos ψ por su valor derivado de [1.3 - 15]:
1
Dp−1F ′D n−1Fϕ =
β2

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 24
1.3 Análisis de correspondencias
Premultiplicando la ecuación del eje factorial u en Rp por Dp-1:
D −p1F ' D n−1FD −p1u = λD −p1u

Recordando que las coordenadas factoriales en Rn valen (cf. fórmula [1.3 - 11]):
r
ϕ α = λ α D −p1 u α
Se tiene:
D −p1F ' D n−1Fϕ = λϕ

Y por comparación, se obtiene:


1 de donde β = 1
λ=
β2 λ
Las relaciones [1.3 - 14] y [1.3 - 15] no son otras que las relaciones cuasi-baricéntricas [1.3
- 12] y [1.3 - 13] definidas precedentemente1.
Se puede extender la búsqueda de la mejor representación β-baricéntrica sobre un eje, a la
mejor representación (β1,β2)-baricéntrica en un plano formado por dos ejes ortogonales, y luego
generalizar a un subespacio de cualquier dimensión. Se encuentra entonces la representación
simultánea dada por el análisis de correspondencias2 .

h - Fórmula de reconstitución de los datos


Los cálculos del paragrafo 1.1.5 se aplican igualmente en el caso del análisis de
correspondencias, anotando sin embargo que los vectores uα y vα son ahora ortonormados para las
métricas Dp-1 y Dn-1. Partiendo de las relaciones [1.3 - 6] y [1.3 - 7] (cf. § 1.3.3.d), y siguiendo un
razonamiento análogo al del parágrafo 1.1.5, se obtiene la fórmula:
p
f ij = f i • f • j ∑ λ α ϕ αjψ αi
α =1 [1.3 - 16]
que se escribe también, haciendo intervenir el primer valor propio que vale 1, y los factores
correspondientes (ver luego, parágrafo 1.3 - 7 a):
 p 
f ij = f i • f • j  1 +

 α =2
λ ∑
α ϕ αjψ α i



[1.3 - 17]

1
Puesto que el coeficiente β debe ser superior o igual a 1, se demuestra igualmente de esta manera el
resultado ya establecido en el parágrafo (e) anterior según el cual, en análisis de correspondencias, todos los
valores propios son inferiores o iguales a 1.
2
Veremos igualmente en el capítulo 3 otras presentaciones del análisis de correspondencias (caso
particular del análisis canónico y discriminante). Otros puntos de vista complementarios son desarrollados por
Escoufier (1985, 1988).

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 25
1.3 Análisis de correspondencias

1.3.4 Reglas de interpretación: inercia, formas de nubes


Las nubes de los puntos fila y de los puntos columna se representan en los planos de
proyección formados por los primeros ejes factoriales tomados dos a dos. La lectura de las gráficas
necesita sin embargo de reglas para la interpretación, en particular para apreciar las proximidades,
identificar los elementos responsables de la formación de los factores y las características de estos
factores. Estas reglas se apoyan sobre el balance de la operación de reducción que constituye la
secuencia de los valores propios y de los porcentajes de inercia, lo mismo que sobre un conjunto de
coeficientes clásicos: las contribuciones absolutas y los cosenos cuadrados, que serán estudiados en
el parágrafo 1.3.5.
El valor de la inercia global no tiene siempre una interpretación interesante. En el análisis
de componentes principales normalizados (sección 1.2) y, lo veremos, en el análisis de
correspondencias múltiples (sección 1.4), la inercia total depende únicamente del número de
variables. Se interpreta, por el contrario, los porcentajes de inercia de cada eje los unos con
referencia a los otros.
Los problemas de validez y de comprensión de los resultados se tratarán en el capítulo 4 en
un contexto general. Esta sección se limitará a algunas consideraciones generales.

a - Inercia y prueba de independencia


En análisis de correspondencias, hemos visto (§ 1.3.2.e), que el valor de la inercia global
está relacionada con la prueba clásica del χ2.
La inercia total I de la nube de puntos con respecto al centro de gravedad se escribe por
definición:
2
n p p
I = ∑ f io d 2 (i , G ) = ∑ f o j d 2 ( j , G ) = ∑ ∑
n
(f ij − f io f o j )
i =1 i =1 ji =1 i =1 f io f o j
La frecuencia total es k, se reconoce en kI a la estadística que es asintóticamente distribuida
según la ley del χ2 con (n-1)(p-1) grados de libertad (bajo la hipótesis de independencia):
χ2 = kI
La inercia se expresa igualmente por:
p −1
I = ∑ λα
α =1

La suma de los valores propios no triviales de un análisis de correspondencias tiene por lo


tanto una interpretación estadística simple. Se podrá rechazar la hipótesis nula de independencia de

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 26
1.3 Análisis de correspondencias

las variables en fila y columna si el valor observado χ2 sobrepasa el valor χo2 que tiene una
probabilidad de ser sobrepasado inferior a un umbral predeterminado1.
El valor de la inercia es un indicador de la dispersión de la nube y mide la relación entre las
dos variables.
Sin embargo, no interesa solamente la dispersión de la nube sino sobretodo la existencia de
direcciones privilegiadas en la nube.
Se consultan las inercias de cada eje (valores propios) así como las tasas de inercia
correspondientes. Este análisis nos informa sobre la forma de la nube: forma “esférica” (sin
dirección privilegiada) o forma no esférica (direcciones privilegiadas).

Tabla 1.3 – 8. Valores propios, porcentajes de inercia para la tabla 1.3 - 8


VALOR PORCENTAJE PORCENTAJE
No. PROPIO ACUMULADO
1 .2088 89.37 89.37 ******************************
2 .0222 9.51 98.89 ***
3 .0026 1.11 100.00 *

Traza .2336

La tabla 1.3 - 8 da los valores de los tres valores propios no nulos del análisis de la tabla
1.3-1. La inercia total (0.2336), suma de los tres valores propios, multiplicada por la frecuencia total
de la tabla (592) da el valor 138.29 que debe ser una realización de un χ2 con 9 grados de libertad
bajo la hipótesis de independencia de las filas y de las columnas de la tabla. Un χ2 de 21.7 solo es
sobrepasado en un 1% de los casos (umbral 0.01).
La hipótesis de independencia de los colores de ojos y de cabello es por lo tanto rechazada.
Es en esta circunstancia donde el análisis de correspondencias intervendrá de manera útil, para
describir esta dependencia entre filas y columnas.
De una manera general, dos variables son independientes si los perfiles de sus modalidades
son idénticos (con las fluctuaciones de muestreo presentes) a los perfiles medios (cf. 1.3.3.b): la
inercia total es pequeña y no existe dirección privilegiada. Geométricamente, eso significa que
todos los puntos están concentrados alrededor del centro de gravedad de la nube, la cual sigue una
forma esférica. Esto se muestra en el esquema de la figura 1.3 - 13.

1
Esta manera de efectuar una prueba de hipótesis corresponde al uso clásico de las tablas estadísticas
que dan los valores χo2 para cada grado de libertad y para ciertos umbrales convencionales (generalmente 0.05
y 0.01). Ahora los programas de computador dan directamente la probabilidad de que χ2 calculado sea
sobrepasado. Es suficiente por lo tanto, sin recurrir a una tabla, comparar esta probabilidad con los umbrales
precedentes.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 27
1.3 Análisis de correspondencias

Perfil-medio

Envoltura próxima
al centro

Figura 1.3 – 13. Situación de independencia

Estos indicadores, basados de una parte en la inercia total y de otra parte sobre la inercia de
los ejes y sus tasas de inercia, tienen por lo tanto un interés en el momento de la interpretación.
En la figura 1.3 - 14 se esquematizan los principales casos. Nótese que en las situaciones 2
y 4, las nubes tienen tasas de inercia idénticas pero tienen inercia total diferente. En cambio las
situaciones 3 y 4 revelan dos nubes de la misma inercia total y tasas de inercia diferentes.
La prueba del χ2 permite detectar estas dos últimas situaciones, pero no permite poner en
evidencia la situación 2 (cf. sección 4.1 para el estudio de este aspecto).
En fin, la inercia de un factor mide la relación que el pone en evidencia. La inercia no puede
ser superior a 1. (cf. § 1.3.3.f). Un valor propio que tiende a 1 indica una dicotomía a nivel de los
datos; se obtiene para cada variable dos grupos de modalidades separando la nube de puntos en dos
subnubes. Esto puede significar igualmente la existencia de un grupo de puntos aislados de los
otros puntos (constituyendo entonces el otro grupo).

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 28
1.3 Análisis de correspondencias

Direcciones
Tasa de inercia de los ejes
Forma “esférica” Forma “no-esférica”

Inercia

baja
I 1-INDEPENDENCIA 2-DEPENDENCIA
N • baja inercia total • baja inercia total
E • no hay dirección privilegiada • dirección privilegiada
R
C
I
A Inercia

3-DEPENDENCIA 4-DEPENDENCIA
fuerte • fuerte inercia total
• fuerte inercia total
• no hay dirección privilegiada • dirección privilegiada

Figura 1.3 – 14. Independencia y dependencias

Cuando dos valores propios son próximos a 1, se obtienen tres subnubes y las modalidades
de las variables se descomponen en tres grupos. Si todos los valores propios están próximos a 1,
cada modalidad de una variable esta en correspondencia casi exclusivamente con una sola
modalidad de la otra variable.
Entonces los valores propios pequeños (significan que los perfiles están próximos al perfil
medio) no deben impedir una interpretación de los ejes de inercia asociados. Ellos pueden revelar
una estructura interesante y más difícilmente perceptible. Este punto será reabordado en el capítulo
4, § 4.1.3.

b - Algunas formas características de nubes de puntos


Consideremos algunas formas clásicas de nubes con el fin de mostrar como la
configuración de una nube de puntos proyectada permite reorganizar la tabla de datos, mediante
permutación de filas y columnas y de esa manera mejorar la interpretación.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 29
1.3 Análisis de correspondencias
• La nube de puntos esta dividida en dos subnubes
La tabla de datos se puede reorganizar según el orden de las coordenadas de filas y
columnas sobre el primer factor. De manera esquemática se obtiene:

J1 J2

I1 0

I2 0

Figura 1.3 – 15. Nube de puntos dividida en dos subnubes

Puede ser interesante analizar separadamente las dos subnubes definidas por las dos tablas
de correspondencias (I1, J1) e (I2, J2) .

• La nube se descompone en tres subnubes de puntos


Se reorganiza la tabla de la misma manera mediante permutación de filas y columnas. Las
tres subnubes podrán ser igualmente objeto de tres análisis separados.

J1 J2 J3
0 0
I1

I2 0 0

I3 0 0

Figura 1.3 - 16: Nube de puntos dividida en tres subnubes

• “El efecto Guttman”


Se puede llegar de este modo a la situación donde la nube de puntos tiene una forma
parabólica. La tabla de datos esta ordenada siguiendo una diagonal relativamente cargada:

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 30
1.3 Análisis de correspondencias

I
0

Figura 1.3 – 17. Efecto Guttman y estructura posible de la tabla

Esta situación pone en evidencia “el efecto Guttman” que significa una redundancia de las
dos variables: del conocimiento de la fila i se puede deducir la columna j. Casi toda la información
esta dada por el primer factor.
A pesar de ello la tabla no es de rango 1 y se dispondrá de p-1 factores. Pero el segundo
factor es una función de segundo grado del primer factor. , el tercero es una función de tercer grado,
etc. La información dada por los eje de rangos siguientes muestran el mismo fenómeno. Sin
embargo el examen del segundo factor afina la interpretación del primer eje1.
Generalmente el efecto Guttman aparece cuando las variables son ordinales (variables
continuas transformadas en variables nominales). Un eje (a menudo el primero) opone los valores
extremos y algún otro eje opone los valores intermedios con los valores extremos. El efecto
Guttman pone a veces en evidencia una estructura trivial la cual podrá ser sin embargo interesante si
la forma parabólica no es perfecta. Los puntos de ruptura son entonces interesantes de analizar.

1.3.5 Reglas de interpretación: contribuciones y cosenos


Dos series de coeficientes aportan una información suplementaria con respecto a las
coordenadas factoriales:
• las contribuciones, a veces llamadas contribuciones absolutas, que expresan la parte de la inercia
(o varianza) que una modalidad de la variable aporta a la inercia “explicada “ por un factor;
• los cosenos cuadrados, a veces llamados contribuciones relativas o calidad de la representación,
que expresan la parte de la dispersión de una modalidad de la variable aportada por un factor.
Después del examen de estos coeficientes es que se pueden interpretar las gráficas
factoriales teniendo en cuenta las relaciones de transición.

1
Sobre el efecto Guttman en análisis de correspondencias, cf. Benzécri (1973, capítulo II.B-7 y II.B-
10), Heiser (1986), Van Rijckevorsel (1987); Tenenhaus (1994, capítulo 7, §9).

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 31
1.3 Análisis de correspondencias

a - Contribuciones

Se desean buscar los elementos responsables de la construcción del eje α. Calculamos la


varianza de las coordenadas de los n puntos fila i sobre el eje α, cada uno de ellos esta dotado de la
masa fi. .
El origen coincide con el centro de gravedad, las coordenadas factoriales están centradas
(cf. fórmula [1.3 - 4]) y la varianza vale λα (cf. fórmula [1.3 - 5]).
Así el cociente:
f ioψ α2i
Crα (i ) =
λα
mide la parte del elemento i en la varianza captada por el eje α. Este cociente se llama
contribución del elemento i al eje α y permite saber en qué proporción un punto i contribuye a la
inercia λα de la nube proyectada sobre el eje α.
Nótese que para todo eje α:
n

∑ Crα (i ) = 1
i =1

G i G G i
i

G i’ G i’ G i’

Crα (i)<Crα (i’) Crα (i)<Crα (i’) Crα (i)=Crα (i’)


fi• <fi’• ψαi <ψαi’ fi•ψ2αi = fi’•ψ2αi’

Figura 1.3 – 18. Contribuciones al eje α: tres casos ilustrativos

Del mismo modo se define la contribución del elemento j al eje α por:

f o j ϕ α2j
Crα (i ) =
λα
con la relación:
p

∑ Crα ( j ) = 1
i =1

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 32
1.3 Análisis de correspondencias
Para encontrar un significado eventual de un eje, nos interesamos en los puntos con una
fuerte contribución. Son ellos los que fijan la posición del eje (en Rp para los puntos i, y en Rn para
los puntos j).

b - Cosenos cuadrados
Se busca apreciar si un punto está bien representado en el subespacio factorial. Los ejes
factoriales de cada espacio constituyen las bases ortonormales. El cuadrado de la distancia de un
punto a su centro de gravedad se descompone en la suma de cuadrados sobre sus ejes.
Para un punto i en Rp, se tiene:
2
p
1  f ij 
d (i , G) = ∑
2
 − fo j 
j =1 f . j  f i. 
Nótese que la distancia es nula cuando el perfil del punto es igual al perfil medio.
El cuadrado de la proyección de la variable i sobre el eje α vale:

d α2 (i , G ) = ψ α2 i
Recordemos que:


α
d α2 (i , G ) = d 2 (i , G )

Un punto i en Rp está mas o menos próximo al eje α. La proximidad entre dos puntos
proyectados sobre el eje α corresponde mejor a su distancia real si los puntos están próximos al eje.

i
d(i,G)

G α
dα(i,G) ψ αi
Figura 1.3 – 19. Proyección de un punto i sobre el eje α

La “calidad” de la representación de un punto i sobre el eje α se puede evaluar por el


coseno del ángulo entre el eje y el vector que une el centro de gravedad de la nube y el punto i:

2 d α2 (i , G ) ψ α2 i
Cosα (i ) = =
d 2 (i , G ) d 2 (i , G )

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 33
1.3 Análisis de correspondencias
Esta cantidad, llamada coseno cuadrado, representa la parte de la distancia al centro tenida
en cuenta en la dirección α. Se llama también la contribución relativa del factor al la posición del
punto i.
Entre más se acerque el coseno cuadrado a uno, más cerca está la posición del punto
observado en proyección de la posición real del punto en el espacio (figura 1.3 - 20).
Se aprecia la calidad de la proyección de un punto en el plano haciendo la suma de
cuadrados sobre los ejes estudiados.
Notemos que para todo i:


α
2
Cosα (i ) = 1

i
G α G α

Cos2α(i)≅0 Cos2α(i)≅1

i. mal representado sobre el eje α i. bien representado sobre el eje α

Figura 1.3 – 20. Calidad de la representación de un punto i sobre el eje α

Aquí cabe decir que los n puntos fila pueden transponerse a los p elementos del otro
conjunto. Se mide la contribución relativa del factor α a la posición del punto j por el coseno
cuadrado de j:

2
ϕ α2 j
Cosα ( j ) =
d 2 ( j, G)
y se tiene para todo j igualmente:


α
2
Cosα ( j ) = 1

Para analizar las proximidades entre puntos, nos interesamos sobretodo en los puntos que
tienen un coseno cuadrado elevado. Las proximidades entre estos puntos, observados en el
subespacio factorial, dan una buena imagen de sus proximidades reales.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 34
1.3 Análisis de correspondencias

Nota
Ni para las contribuciones ni para los cosenos cuadrados, hay valores “umbrales” a partir de los
cuales se pueda decir que tal o cual valor es “alto” o “bajo”. La apreciaciones se hacen
empíricamente, en función del conjunto de valores calculados y varían de un conjunto de datos a
otro1.

c - Ejemplo numérico
El ejemplo hace referencia siempre a análisis de correspondencias de la tabla 1.3 - 1. Las
coordenadas sobre el primer eje (tabla 1.3 - 9) muestran que el color de cabello “rubio” se opone a
todos los otros sobre el primer eje, pero sobretodo a “pelinegros”. El punto “rubio” tiene una
contribución de 71.7% al primer eje y un coseno cuadrado de 0.99: es decir que esta prácticamente
sobre este eje y no podrá caracterizar a los demás ejes. Notemos que el punto “pelirrojo” tiene una
contribución muy baja sobre el primer eje (1.0%).
Tabla 1.3 – 9. Coordenadas, contribuciones, cosenos cuadrados para el análisis de
correspondencias de la tabla 1.3 -1
+------------------------------------------+--------------------+----------------+----------------+
| COLUMNAS | COORDENADAS |CONTRIBUCIONES |COSENOS CUADRADO|
|------------------------------------------+--------------------+----------------+----------------|
| IDEN - ETIQUETA CORTA PESO R DIST | 1 2 3 | 1 2 3 | 1 2 3 |
+------------------------------------------+--------------------+----------------+----------------+
| CNEG - NEGRO 18.24 .30 | -.50 .21 -.06 | 22.2 37.9 21.6 | .84 .15 .01 |
| CCAS - CASTANO 48.31 .03 | -.15 -.03 .05 | 5.1 2.3 44.3 | .86 .04 .09 |
| CROJ - PELIROJO 11.99 .13 | -.13 -.32 -.08 | 1.0 55.1 31.9 | .13 .81 .05 |
| CRUB - RUBIO 21.45 .70 | .84 .07 -.02 | 71.7 4.7 2.2 | .99 .01 .00 |
|------------------------------------------+--------------------+----------------+----------------|
+---------------------------------------+---------------------+------------------+-----------------+
| FILAS | COORDENADAS | CONTRIBUCIONES |COSENOS CUADRADOS|
|---------------------------------------+---------------------+------------------+-----------------|
| IDENTIFICADOR [Link] DIST. | 1 2 3 | 1 2 3 | 1 2 3 |
+---------------------------------------+---------------------+------------------+-----------------+
| marrón 37.16 .25 | -.49 .09 -.02 | 43.1 13.0 6.7 | .97 .03 .00 |
| gris 15.71 .08 | -.21 -.17 .10 | 3.4 19.8 61.1 | .54 .34 .12 |
| verde 10.81 .15 | .16 -.34 -.09 | 1.4 55.9 31.9 | .18 .77 .05 |
| azul 36.32 .31 | .55 .08 .00 | 52.1 11.2 .3 | .98 .02 .00 |
+---------------------------------------+---------------------+------------------+-----------------+

El segundo eje (que corresponde como se ha visto a un valor propio cerca de diez veces más
pequeño que el primero) es esencialmente construido por el “pelirrojo” (55.1%) que se opone
simultáneamente a “pelinegro” y “rubio”. El color “pelirrojo” es el único bien representado sobre el
eje 2 (coseno cuadrado de 0.81). Para los puntos fila, el primer eje está construido casi
exclusivamente por los ojos “marrones” y “azules” (contribuciones de 43.1% y 52.1%), puntos
situados prácticamente sobre el eje (cosenos cuadrados de 0.97 y 0.98), el segundo eje está
sobretodo ligado a los ojos “verdes”.

1
Notemos que es usual multiplicar las contribuciones por 100 para expresar en porcentaje la
participación de cada punto.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 35
1.3 Análisis de correspondencias

(9.5%)

(89.4%)

Figura 1.3 – 21. Primer plano factorial para el análisis de la tabla 1.3 -1

Una observación de las coordenadas puede hacer pensar que los ojos “grises” y “verdes”
juegan un cierto papel en la construcción del primer eje. La figura 1.3 - 21 que utiliza las dos
primeras coordenadas, muestra la característica sugestiva de la representación gráfica simultánea de
las filas y las columnas. Ella permite interpretar las proximidades o distancias entre puntos de un
mismo conjunto por su asociación con los del otro conjunto.
Porqué por ejemplo el punto “[Link]” está más alejado que el punto “[Link]” sobre el
primer eje, muy dominante?. Porque los cabellos rubios están más caracterizados por los ojos azules
que a la inversa: en la tabla 1.3 - 3 (perfiles columna), 74% de rubios tienen los ojos azules,
mientras que observando la tabla 1.3 - 2 (perfiles fila) 44% de las personas de ojos azules tienen los
cabellos rubios.
En otros términos, en la relación cuasi-baricéntrica que permite ubicar el punto “[Link]”, el
punto “[Link]” tiene un peso relativo de 0.74, mientras que en la relación cuasi-baricéntrica que
permite posicionar el punto “[Link]”, el punto “rubio” solo tiene un peso relativo de 0.44.

1.3.6 Elementos suplementarios


Se dispone por ejemplo de ps columnas suplementarias que conciernen a modalidades de
variables nominales, análogas a las columnas de la tabla de contingencia.
Conviene situar estos nuevos puntos-columna con respecto a los p puntos analizados. Sea:
k ij+
la i-ésima coordenada de la j-ésima columna suplementaria. Los perfiles están dados por:

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 36
1.3 Análisis de correspondencias

 k ij+  n

 + ; i = 1,2,..., n con k o j = ∑ k ij
+ +

 k o j  i =1

Se proyecta este punto j sobre el eje α utilizando la misma fórmula de transición [1.3 - 13]
que para las columnas de la tabla de contingencia es:

1 n  k ij+ 
+
ϕ αj = ∑  ψ αi
λ α j =1  k o+j 
Para una modalidad i de una variable puesta en fila suplementaria, se tendrá de modo
análogo (fórmula de transición 1.3 - 12):

1 p  k ij+ 
ψ α+i = ∑  ϕ αj
λ α j =1  k i+o 
Al igual que con los elementos analizados, las modalidades suplementarias se calcular e
interpretan como cuasi-baricentros.

Notas
1) Los elementos suplementarios, que no intervienen en la construcción de la nube, están afectados
por un peso nulo y su contribución es por lo tanto nula. En cambio los cosenos cuadrados sirven
de ayuda a la interpretación de estos elementos1 .

2) La suma de cosenos cuadrados de un elemento suplementario sobre el conjunto de los factores


puede ser inferior a 1 mientras que para los elementos activos esta suma es igual a 1. En efecto,
supongamos que n>p y ubiquémonos en el espacio de las filas. Un punto columna activo j está
definido en Rn pero el esta ubicado, para el análisis, en el espacio vectorial de p-1 dimensiones.
Son suficientes p-1 coordenadas para posicionar este elemento. Un elemento columna
suplementario j+ será posicionado en el espacio de p-1 dimensiones construido por el análisis
siendo que el pertenece a Rp . Los elementos suplementarios no están por lo tanto enteramente
contenidos en el espacio factorial2.

1.3.7 Puesta en obra de los cálculos


La distancia χ2 difiere de la métrica euclidiana usual por la introducción de una
ponderación. Se puede llegar a la métrica euclidiana usual mediante un cambio de coordenadas
inicial. Los cálculos se simplifican y la matriz a diagonalizar se hace simétrica. Adicionalmente el
análisis con respecto al centro de gravedad es equivalente al análisis con respecto al origen.

1
Para una vista de conjunto sobre el papel y la utilización de las variables suplementarias en análisis
de correspondencias, cf. Cazes (1982).
2
Esta nota vale igualmente para el análisis en componentes principales.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 37
1.3 Análisis de correspondencias

a . Análisis con respecto al origen o al centro de gravedad de la nube


Para fijar las ideas razonaremos en Rp. El jésimo componente del centro de gravedad G de la
nube de perfiles fila es:
n
f ij
gj = ∑f
i =1
i•
fi •
= f• j

f ij f ij
El análisis con respecto al centro de gravedad se encuentra al reemplazar por − f• j ,
fi• fi•

f ij − f i • f • j
es decir por .
fi •

Recordemos que la nube está contenida en un hiperplano Η de p-1 dimensiones definido


para todo i por la relación:
p
f ij
∑f
j =1 i•
=1

Este subespacio contiene al centro de gravedad G y a los ejes factoriales del análisis con
respecto a G. La suma de los componentes de estos factores es nula.

Análisis con respecto al origen inicial de los ejes Análisis con respecto al centro de gravedad de
la nube
u2
1 Η Η
i G
u2 u3 iG
1
u3

O 1 O

Figura 1.3 – 22. Análisis en R3

En el análisis con respecto al origen , la primera dirección u1 es el eje que une al origen con
el centro de gravedad de la nube ortogonalmente a Η. La ionercia proyectada sobre este eje vale 1,
igual a la distancia entre el origen y el centro de gravedad, puesto que la proyección de los puntos
sobre este eje se confunde con el centro de gravedad. Los p-1 ejes siguientes contenido en

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 38
1.3 Análisis de correspondencias

Η.constituye una base que define las direcciones de las rectas de inercia máxima de la nube. El
análisis coincide con el de los p-1 primeros ejes con respecto al centro de gravedad (u°°1,…, u°°α, …,
u°°p-1).
El pésimo eje correspondiente a u1 da la dirección de Η. puesto que no está contenido en Η.
Su inercia (valor propio asociado) es nulo.
Las matrices a diagonalizar S de la nube no centrada y S°° de la nube centrada, tienen las
siguientes relaciones:

s ojj ′ = s jj ′ − f • j
y para 1 < α < p-1:

u αo = u α + 1 y λoα = λ α +1
u op = u 1 y λop = 0 y λ 1 = 1
Así en Rp (y es igual en Rn), es equivalente realizar el análisis de correspondencias sobre la
tabla de datos centrados de término general:
f ij
− f• j
fi•

o sobre la tabla de datos no centrados de término general:


f ij
f i•
Se puede entonces diagonalizar la matriz S del análisis con respecto al origen1, eliminando
el primer vector propio que relacina el origen y el centro de gravedad de la nube y el valor propio
asociado igual a 1.

b - Simetrización de la matriz a diagonalizar


La matriz a diagonalizar
S = F' D n−1FD −p1
en Rp, no es en general una matriz simétrica. Su término general se escribe:
n f ij f ij ′
s jj ′ = ∑
i =1 f i• f • j ′

1
Teniendo en cuenta el criterio de ajuste, se considera la inercia total de la nube centrada, igual a la
traza tr(S°) de S° y se tiene: tr(S°) = tr(S) - 1.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 39
1.3 Análisis de correspondencias
Consideremos la matriz  = F’Dn-1F simétrica y la matriz Dp-1 diagonal. S se expresa
entonces de la siguiente forma:
$ −1 2 D −1 2
S = AD p p

Por tanto la relación Su =λu queda:


$ − 1 2 D −1 2 u = λ u
AD p p

Premultiplicando los dos miembros por Dp-1/2 y llamando Dp-1/2u = w, se obtiene:


$ − 1 2 w = λw
D −p1 2 AD p

La matriz
$ −1 2 = D −1 2 F ′D −1 2 FD −1 2
A = D −p1 2 AD p p n p

es simétrica-y Aw =λw
Las matrices S y A tienen los mismos valores propios λ. Los vectores propios están ligados
por la relación:
u = Dp1/2w
Es más fácil diagonalizar la matriz A de término general:
n f ij f ij ′
a jj ′ = ∑
i =1 f i• f • j f • j′

Nota:
Es la matriz a diagonalizar si se toman como coordenadas iniciales del punto i, las p cantidades:
f ij
xi j = (j = 1,…,p)
f io fo j
En este caso la distancia χ2 entre dos puntos i e i’ se convierte, con la nuevas coordenadas, en la
distancia euclidiana usual:
2
 f ij
p
f ij 
d 2 (i , i ′) = ∑  − 

j =1  f i . f.j f i ′. f . j 

Esta transformación de la tabla de frecuencias relativas conduce a la diagonalización de una matriz
simétrica.
Notemos que las coordenadas del centro de gravedad son entonces:
Gj = f.j
y las coordenadas del punto i luego del centrado:
f ij f ij − f i o f o j
− foj =
f io foj f io foj

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 40
1.3 Análisis de correspondencias

1.3.8 Ejemplo de aplicación


El ejemplo se refiere a una tabla de contingencia que cruza 8 profesiones y categorías
socioprofesionales (PCS) y 6 tipos de medios de comunicación para una muestra de 12388
“contactos con el medio” relativas a 4433 personas interrogadas en la encuesta. Como fue el caso
para el ejemplo tratado en el parágrafo 1.2.11, los datos son extraídos de l’Enquête Budget-temps
Multimédia 1991-1992 del CESP.
Con el fin de interpretar más eficazmente las representaciones obtenidas, se proyectarán
como elementos suplementarios algunas otras características de la población encuestada tales como
el sexo, la edad, el nivel de educación.
Disponemos de las tablas de contingencia siguientes (cf. tabla 1.3 - 10). Para el primer
bloque K de 8 filas (filas activas) se tiene en la intersección de la fila i y de la columna j el número
kij de individuos que pertenecen a la categoría i y tienen (un día de la semana) por lo menos un
contacto con el tipo de medio j. Los bloques siguientes (filas suplementarias) se interpretan de
forma análoga . Una persona interrogada pudo haber tenido contactos con varios medios, la suma en
fila representa “el número de contactos”1.

Tabla 1.3 – 10. Tablas de contingencia cruzando los tipos de contactos-medio (columnas) con
profesiones, sexo, edad, nivel de educación (filas)
Radio Tele Diario N. Diario R. Pre. Rev. Pren. TV
Profesiones
Agricultor 96 118 2 71 50 17
Microemp. 122 136 11 76 49 41
Ejecutivo 193 184 74 63 103 79
Prof. interm. 360 365 63 145 141 184
Empleados 511 593 57 217 172 306
Obrero cal. 385 457 42 174 104 220
Obrero no c. 156 185 8 69 42 85
Inactivo 1474 1931 181 852 642 782
Sexo
Hombre 1630 1900 285 854 621 776
Mujer 1667 2069 152 815 683 938
Edad
15-24 años 660 713 69 216 234 360
25-34 años 640 719 84 230 212 380
35-49 años 888 1000 130 429 345 466
50-64 años 617 774 84 391 262 263

1
Hay 12388 contactos para 4433 individuos encuestados. Las cifras publicadas aquí se han
redondeado y rectificado luego, los totales relativos a las diferentes particiones de la población pueden no
coincidir.

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 41
1.3 Análisis de correspondencias
64 años o + 491 761 70 402 251 245
Educación
Primaria 908 1307 73 642 360 435
Secundaria 869 1008 107 408 336 494
Tec. prof. 901 1035 80 140 311 504
Superior 619 612 177 209 298 281

Se busca describir las afinidades eventuales entre los grupos socio-profesionales y los
diferentes tipos de medios.
El análisis de correspondencias de la tabla K conduce a los valores propios consignados en
la tabla 1.3 - 11.

Tabla 1.3 – 11. Valores propios, porcentajes de inercia para la tabla K, “Profesiones-
contactos medio” (8 primeras filas de la tabla 1.3 - 11)
No VALOR % %
PROPIO ACUMU

1 .0139 62.20 62.20 ***********************************************************


2 .0072 32.37 94.56 ******************************
3 .0008 3.70 98.26 **
4 .0003 1.36 99.63 *
5 .0001 .37 100.00 *

El producto de la traza t = 0.0223 por la frecuencia total k = 12388 da: kt = 276.25


Bajo la hipótesis de independencia entre filas y columnas de la tabla, esta cantidad será una
realización de un χ2 con 35 grados de libertad (notado χ235 ) [35 = (8-1)(6-1)].

Como el número de grados de libertad n supera el valor 30, se considera que la variable
χ n2 − n es una variable normal estándar. Aquí u = 28.8 (28.8 desviaciones estándar de la
u=
2n
media). La hipótesis de independencia es evidentemente rechazada.
Dos factores son dominantes y representan cerca del 95% de la inercia total. Las
coordenadas y las ayudas a la interpretación correspondientes figuran en la tabla 1.3 - 12. También
aparecen igualmente las coordenadas y los cosenos cuadrados de las filas suplementarias.
Se nota que el elemento “Diario nacional” cuya frecuencia relativa es muy baja (3.54%)
tiene una distancia al punto medio (columna DIS) muy elevada: el perfil correspondiente es por lo
tanto atípico. El contribuye con el 74.6% en la construcción del primer eje, que está muy próximo
(coseno cuadrado : 0.99). Este mismo primer eje está caracterizado por la fila activa “Ejecutivo”
(profesional liberal, ejecutivos) y por la fila suplementaria “Superior” (nivel de educación superior).
El segundo eje separa la “Prensa Revista de Televisión” (asociada a las categorías
empleados y obreros, y los grupos de edad más jóvenes) de la prensa revista (Prensa TV excluida) y

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 42
1.3 Análisis de correspondencias
de la prensa diaria regional, juntas asociadas a los agricultores y a pequeños empresarios, y a las
categorías de edad más elevadas. La figuras 1.3 - 23 y 1.3 - 24 resumen esa red de asociaciones.

Tabla 1.3 – 12. Pesos relativos ([Link]), Distancias al origen (DIS), coordenadas,
contribuciones y cosenos cuadrados de los elementos sobre los tres primeros ejes
|------------------------------------------+-------------------------------+--------------------------+--------------------------|
| FRECUENCIAS | COORDENADAS | CONTRIBUCIONES | COSENOS CUADRADOS |
|------------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDEN - ETIQUETA CORTA PESO R DIST | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+------------------------------------------+-------------------------------+--------------------------+--------------------------+
| FRECUENCIAS ACTIVAS |
| |
| RADI - Radio 26.61 .00 | -.01 .02 -.05 .00 .00 | .4 1.8 70.4 .6 .1 | .08 .17 .75 .00 .00 |
| TELE - Televisión 32.04 .00 | .05 .00 .02 -.01 .01 | 6.6 .0 10.5 13.3 37.6 | .85 .00 .08 .04 .03 |
| DNAL - Diario Nacional 3.54 .29 | -.54 -.01 .02 -.04 -.01 | 74.6 .0 1.8 18.2 1.9 | .99 .00 .00 .01 .00 |
| DREG - Diario regional 13.46 .02 | .11 -.11 .01 -.01 -.02 | 11.5 22.4 .4 7.5 44.6 | .49 .49 .00 .01 .01 |
| PRRE - Prensa revista 10.52 .03 | -.09 -.13 .02 .04 .00 | 6.8 25.6 4.5 50.8 1.8 | .32 .62 .01 .05 .00 |
| PRTV - Prensa [Link] 13.84 .03 | .01 .16 .03 .01 -.01 | .1 50.1 12.4 9.6 14.0 | .00 .96 .03 .01 .00 |
|------------------------------------------+-------------------------------+--------------------------+--------------------------|
INDIVIDUOS ACTIVOS
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| INDIVIDUOS | COORDENADAS | CONTRIBUCIONES | COSENOS CUADRADOS |
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICADOR [Link] DIST. | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| Agricultor 2.86 .13 | .17 -.31 -.07 .01 .02 | 5.7 38.0 17.9 2.0 15.9 | .21 .74 .04 .00 .00 |
| Microemp. 3.51 .03 | .07 -.14 -.06 -.02 -.03 | 1.2 10.0 17.7 4.8 28.0 | .15 .67 .14 .01 .02 |
| Ejecutivo 5.62 .19 | -.43 -.06 .00 -.02 .01 | 75.0 2.9 .1 5.2 8.6 | .98 .02 .00 .00 .00 |
| Prof. inte 10.15 .01 | -.11 .03 -.03 .03 -.01 | 8.3 1.5 11.8 21.5 17.6 | .80 .08 .07 .05 .01 |
| Empleados 14.98 .01 | .02 .10 -.01 .02 .00 | .3 18.9 .5 20.4 2.2 | .03 .93 .00 .04 .00 |
| Obrero cal 11.16 .01 | .04 .10 -.02 -.04 .00 | 1.5 15.9 5.1 45.9 .4 | .14 .74 .03 .09 .00 |
| Obrero no 4.40 .02 | .12 .09 -.04 .00 .02 | 4.4 5.5 8.4 .2 26.9 | .56 .36 .06 .00 .02 |
| Inactivo 47.32 .00 | .03 -.03 .03 .00 .00 | 3.6 7.3 38.7 .0 .5 | .37 .39 .24 .00 .00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
INDIVIDUOS ILUSTRATIVOS
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| INDIVIDUOS | COORDENADAS | CONTRIBUCIONES | COSENOS CUADRADOS |
|---------------------------------------+-------------------------------+--------------------------+--------------------------|
| IDENTIFICADOR [Link] DIST. | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+
| Hombre 48.97 .01 | -.05 -.02 -.01 -.04 -.02 | .0 .0 .0 .0 .0 | .48 .11 .02 .32 .06 |
| Mujer 51.05 .00 | .05 .02 .01 .04 .02 | .0 .0 .0 .0 .0 | .49 .10 .02 .33 .06 |
| 15-24 años 18.18 .02 | -.02 .10 -.04 .06 .05 | .0 .0 .0 .0 .0 | .02 .56 .08 .21 .14 |
| 25-34 años 18.28 .02 | -.03 .12 -.01 .02 .02 | .0 .0 .0 .0 .0 | .05 .87 .01 .04 .03 |
| 35-49 años 26.30 .00 | -.03 .01 -.01 .01 -.02 | .0 .0 .0 .0 .0 | .61 .10 .07 .03 .18 |
| 50-64 años 19.30 .01 | .02 -.10 .00 -.04 -.02 | .0 .0 .0 .0 .0 | .05 .80 .00 .12 .03 |
| 64 años o 17.92 .03 | .07 -.14 .07 -.05 -.03 | .0 .0 .0 .0 .0 | .14 .58 .16 .09 .03 |
| Primaria 30.07 .03 | .13 -.08 .02 -.05 -.01 | .0 .0 .0 .0 .0 | .63 .24 .02 .10 .00 |
| Secundaria 26.01 .00 | .00 .04 .00 .03 -.01 | .0 .0 .0 .0 .0 | .00 .69 .00 .29 .02 |
| Tec. prof. 23.98 .07 | -.03 .18 -.04 .10 .17 | .0 .0 .0 .0 .0 | .01 .46 .02 .13 .38 |
| Superior 17.73 .09 | -.29 -.02 -.01 .01 .02 | .0 .0 .0 .0 .0 | .99 .00 .00 .00 .00 |
+---------------------------------------+-------------------------------+--------------------------+--------------------------+

(32.4%)

(62.2%)

Figura 1.3 – 23. Variables activas en el primer plano factorial

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 43
1.3 Análisis de correspondencias

(32.4%)

(62.2%)

Figura 1.3 – 24. Variables suplementarias o ilustrativas en el primer plano factorial

Es claro en un análisis de este tipo que el primer eje corresponde a una interpretación
puntual: los contactos medios con la prensa diaria nacional están, de manera significativa,
sobretodo hechos por los ejecutivos y personas d e un alto nivel de educación. Este resultado no es
visible de entrada en la tabla 1.3 - 10.
Por el contrario, las posiciones de los puntos sobre las dos figuras dan una interpretación
más anunciada del segundo eje: los empleados, de nivel de educación media, compuestos sobretodo
de jóvenes (contacto medio : Prensa revista TV), se oponen a los pequeños empresarios y
agricultores, en promedio sensiblemente mayores y menos instruidos (contactos : prensa revista
diferente a la TV, y prensa diaria regional).
Que pasa si se suprime, de las columnas activas, la columna “Diario nacional” cuyo papel
es predominante, para proyectarla en suplementario?.
Se ha visto que esta columna está casi situada sobre el eje 1 (coseno cuadrado de 0.99). Su
supresión quitará 74.6% de la inercia en esta dirección (valor de la contribución), y por lo tanto la
inercia en esta dirección será inferior a la del segundo eje actual1 sobre el cual la columna eliminada
tiene además una contribución nula. Entonces el nuevo primer eje de inercia máxima será muy

1
25.4% (complemento a 100 de 74.6%) de 0.0139 (primer valor propio λ1) es en efecto muy inferior
a 0.0072 (segundo valor propio λ2).

Campo Elías Pardo. Universidad Nacional de Colombia


Lebart [Link]. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 44
1.3 Análisis de correspondencias
próximo al antiguo segundo eje. Luego de hacer los cálculos, se encuentra, después de suprimir la
columna dicha, un primer valor propio de 0.0074 (el segundo valor propio valía 0.0072) y las
coordenadas sobre ese nuevo primer eje se diferencian a lo sumo en 0.01 de aquellas sobre el
antiguo segundo eje. El nuevo segundo eje (sobre el cual la columna suplementaria “Prensa diaria”
tiene una coordenada de 0.54 y un coseno cuadrado de 0.88) es muy vecino del antiguo primer eje.
Este ejemplo ha ilustrado el posicionamiento de filas suplementarias y de columnas
suplementarias, el uso simultáneo de tres tipos de ayudas a la interpretación (valores propios,
contribuciones, cosenos cuadrados) así como el carácter iterativo del análisis, que hace pensar en un
“escudriñamiento” progresivo de las nubes de puntos perfiles. El ejemplo del parágrafo 2.4.4
ilustrará también este proceder mostrando la complementariedad del análisis factorial con la
clasificación automática.

Campo Elías Pardo. Universidad Nacional de Colombia

También podría gustarte