0% encontró este documento útil (0 votos)

120 vistas30 páginas

An Alisis Factorial de Correspondencias Simples: 1. Introducci On

El documento presenta el Análisis de Correspondencias Simples (ACS) para visualizar tablas de frecuencias de dos variables cualitativas y detectar las relaciones entre ellas. El ACS calcula los perfiles fila y columna a partir de la tabla de contingencia para estudiar la asociación entre las variables. Se evalúa la hipótesis de independencia comparando los perfiles observados con los perfiles medios teóricos para variables independientes.

Cargado por

FERNANDO FERNANDEZ-PEDRAZA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

120 vistas30 páginas

An Alisis Factorial de Correspondencias Simples: 1. Introducci On

Cargado por

FERNANDO FERNANDEZ-PEDRAZA

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Análisis Factorial de Correspondencias Simples

1. Introducción
Analizar la relación existente entre pares de variables es un objetivo muy frecuente
dentro de la minerı́a de datos. Cuando se trabaja con variables cuantitativas es relativa-
mente sencillo detectar dichas relaciones a partir de los diagramas de dispersión, en los
cuales se representan las observaciones de las variables enfrentadas.
No obstante, cuando se trata de variables cualitativas, su representación gráfica no es
tan directa. El objetivo del Análisis de Correspondencias Simple (ACS) es la visualización
de Tablas de frecuencias de dos variables cualitativas, de forma que sea posible detectar
las relaciones existentes entre las variables.
Una Tabla de Contingencia (o de frecuencias) se obtiene al cruzar dos variables nomi-
nales y repartir una población (o muestra) según el número de individuos que presentan
una categorı́a de cada una de las variables. El conjunto de columnas de la tabla designa
las modalidades de una variable mientras que el conjunto de filas corresponde a las mo-
dalidades de la otra variable. Las filas y las columnas (que determinan dos particiones de
una población) juegan papeles simétricos y se tratan de forma análoga. Vamos a utilizar
el siguiente ejemplo para ilustrar el desarrollo del tema:

Ejemplo 1 Consideremos la tabla de contingencia (o de frecuencias) con r filas y c co-

lumnas obtenida al repartir una muestra de 592 mujeres según sus colores de ojos y de
cabello de la Tabla 1.

Tabla 1: Tabla de contingencia (Ejemplo 1)

Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 68 119 26 7 220
Avellana 15 54 14 10 93
Color de ojos Verde 5 29 14 16 64
Azul 20 84 17 94 215
Total 108 286 71 127 592

Las filas (que representan a la variable color de ojos) tienen r = 4 modalidades, al igual
que ocurre con las columnas (que representan a la variable color de pelo), pues tienen c = 4
modalidades.

A continuación, definimos la notación que emplearemos para referirnos a las tablas de

contingencia:

kij representa la frecuencia absoluta de datos de la modalidad i de la variable fila

(en el ejemplo, color de ojos) y la modalidad j de la variable columna (en el ejemplo,
color del cabello).

1
Pc
ki· = j=1 kij representa el total de la fila i-ésima.
Pr
k·j = i=1 kij representa el total de la columna j-ésima.
Pr Pc Pc Pc
n = k·· = i=1 j=1 kij = j=1 k·j = i=1 ki· es el total global,

que, en términos de frecuencias relativas, dan lugar a las siguientes relaciones:

kij ki· k·j

fij =
fi· = f·j = .
k·· k·· k··
La Tabla 2 muestra las frecuencias relativas del Ejemplo 1.

Tabla 2: Frecuencias relativas (Ejemplo 1)

Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,11 0,20 0,04 0,01 0,37
Avellana 0,03 0,09 0,02 0,02 0,16
Color de ojos Verde 0,01 0,05 0,02 0,03 0,11
Azul 0,03 0,14 0,03 0,16 0,36
Total 0,18 0,48 0,12 0,21 1,00

El Análisis de Correspondencias trata de responder a las preguntas: ¿hay independen-

cia entre el color de ojos y el de cabellos? En caso afirmativo, ¿qué tipo de asociación se
da entre estos colores? Para intentar responder a esta pregunta, debemos analizar deteni-
damente la tabla de contingencia.

2. Análisis de la tabla de contingencia

2.1. Perfiles fila y perfiles columna
Para estudiar la relación entre las dos variables recogidas en la Tabla de Contingencia,
debemos obtener los denominados perfiles (fila y columna) que representan el reparto en
porcentajes del interior de las filas y de las columnas, respectivamente.
fij kij
Perfiles fila: fi· = ki·
fij kij
Perfiles columna: f·j = k·j
P fij
Perfil fila medio: f·j = i fi· fi·
f
f·j fij
P
Perfil columna medio: fi· = j ·j

Matricialmente podemos calcular los perfiles fila y columna de la siguiente forma:

XF = DF−1 F −1
XC = F DC ,
donde XF (r × c) y XC (r × c) son los perfiles fila y columna, respectivamente, F =
{fij } (r × c) es la matriz de frecuencias relativas y DF = diag(fi· ) (r × r) y DC =
diag(f·j ) (c × c) son las matrices diagonal que contienen las marginales de las filas y las
columnas, respectivamente.
Las Tablas 3 y 4 muestran los perfiles fila y columna del Ejemplo 1, respectivamente.
Se puede comprobar, entre otros, que el 54 % de las mujeres con ojos marrones tiene el
cabello castaño, mientras que sólo el 5 % de las morenas tiene los ojos verdes. Por otro
lado, los perfiles medios de ambas tablas nos indican la proporción total de mujeres con un
determinado color de cabello y ojos respectivamente.

2
Tabla 3: Perfiles fila (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,31 0,54 0,12 0,03 1
Avellana 0,16 0,58 0,15 0,11 1
Color de ojos Verde 0,08 0,45 0,22 0,25 1
Azul 0,09 0,39 0,08 0,44 1
Total 0,18 0,48 0,12 0,21

Tabla 4: Perfiles columna (Ejemplo 1)

Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,63 0,42 0,37 0,06 0,37
Avellana 0,14 0,19 0,20 0,08 0,16
Color de ojos Verde 0,05 0,10 0,20 0,13 0,11
Azul 0,19 0,29 0,24 0,74 0,36
Total 1,00 1,00 1,00 1,00

2.2. Hipótesis de independencia

Como ya se ha señalado anteriormente, uno de los objetivos del ACS es determinar si
existe algún tipo de asociación entre las variables en estudio pues, de no ser ası́, representar
las mismas no aportará información relevante.
En el caso que nos ocupa, consideramos que dos variables son independientes cuando
el valor que toma una variable no influye en la distribución de la otra. En términos de
perfiles, dos variables son independientes cuando los perfiles fila (o columna) son (aproxi-
madamente) iguales a los perfiles medios (o, equivalentemente, son iguales entre sı́). En ese
caso, la probabilidad de que una de las variables tome un determinado valor no dependerá
del valor que tome la otra variable.
En primer lugar veremos cómo evaluar la hipótesis de independencia de forma gráfica.
Es importante tener en cuenta que la representación gráfica sólo nos ofrece una idea general
sobre la dependencia de las variables, pero debemos recurrir a tests estadı́sticos para poder
mantener (o rechazar) dicha hipótesis.
Centrandonos en los perfiles fila, podemos considerar las filas como observaciones y las
columnas como variables (dado que la suma de los perfiles es 1, el espacio tendrá dimensión
c − 1). Dado que la escala de los perfiles es la misma (entre 0 y 1), podemos representarlos
en un mismo gráfico. Veámos cómo hacerlo en el ejemplo que nos ocupa.
La Figura 1 muestra la representación de los perfiles fila del Ejemplo 1. Como se pue-
de observar, hay diferencias entre los perfiles; vease, por ejemplo, la diferencia entre los
perfiles asociados a los ojos azules y marrones. Sin embargo, gráficamente es difı́cil deter-
minar si estas diferencias se deben sólo al azar o si, por el contrario, existe una relación
de dependencia entre las variables. En la siguiente sección veremos cómo obtener medidas
numéricas que nos permitan determinar si la relación entre las variables es significativa o
no.
No obstante, la representación de los perfiles ofrece información acerca de las posibles
relaciones entre categorı́as. La Figura 1 nos indica que hay cierta relación entre el pelo
rubio y los ojos azules y entre el pelo moreno y los ojos marrones.
Como ya se ha comentado, consideraremos los perfiles fila como observaciones de las
variables columna, siendo ası́ posible calcular la distancia entre las observaciones y la

3
Figura 1: Representación de los perfiles fila (Ejemplo 1)

media para obtener una medida global del parecido de los perfiles. Es importante tener en
cuenta que no todas las observaciones tienen el mismo peso dado que representan a una
proporción de la población distinta. Ası́, la nube de puntos dada n por los perfiles fila
o está
f
formada por los puntos i de masa fi· con coordenadas en Rc : fiji· , j = 1, 2, . . . , c cuyo
centro de gravedad es la media de los perfiles fila ponderados por sus respectivas masas y
equivale a f·j .
Una primera aproximación para la obtención de una medida total podrı́a ser el cálculo
de las distancias euclı́deas entre los perfiles y el perfil medio. No obstante, la distancia
euclı́dea tiene el inconveniente de que pondera igual todas las coordenadas de un punto,
lo que implica que las distancias entre las categorı́as que mejor representadas estén tenga
más peso (en particular, una distancia de 0,02 entre perfiles que rondan los valores 0,05 y
0,1 no implica la misma diferencia que entre perfiles que roden los valores 0,7 y 0,8). Para
remediar ésto, y también por otras propiedades, se utiliza la distancia χ2 , la cual pondera
cada desviación por la inversa de la masa de la columna.
Ası́, la distancia χ2 total asociada a los perfiles fila viene dada por:
X X 1 fij 2
Dχ2 = fi· − f·j
f·j fi·
i j

La distancia χ2 , permite agregar dos modalidades de una misma variable si poseen

perfiles idénticos en una nueva modalidad cuya masa será la suma de sus masas.
Esta propiedad es fundamental porque garantiza una cierta invarianza de los resultados
independientemente de la nomenclatura elegida para la construcción de las modalidades.
Además, no se pierde información al agregar ciertas clases ni se gana mas información
subdividiéndolas en clases más homogéneas.
Gracias a la distancia chi-cuadrado Dχ2 podemos contar con una medida de las di-
ferencias entre los perfiles. No obstante, serı́a deseable poder comparar esta medida con

4
algún otro ı́ndice, de forma que podamos determinar si las diferencias observadas son
suficientemente grandes para descartar la hipótesis de independencia, o no.
Para ello, podemos recurrir al test clásico χ2 de Pearson para tablas de contingencia
que permite evaluar las desviaciones de una muestra al valor teórico previsto bajo la
hipótesis a contrastar (llamada hipótesis nula). Como ya se ha visto, en nuestro caso la
hipótesis nula es la independencia de las variables, que se traduce en la igualdad de los
perfiles al perfil medio:
fij
= f·j ⇔ fij = fi· f·j
fi·
Por lo tanto, bajo la hipótesis de independencia, cabrı́a esperar que las frecuencias
relativas observadas se asemejaran a las esperadas fˆij = fi· f·j (o, equivalentemente, que
n n
las frecuencias absolutas se asemejarán a las esperadas n̂ij = i·n ·j ). El estadı́stico chi-
cuadrado asociado al test de Pearson viene dado por:

X (nij − n̂ij )2 X (fij − fi· f·j )2 X fi· (fij − fi· f·j )2

χ2 = =n =n
i,j
n̂ij
i,j
fi· f·j
i,j
f·j fi·2
X X 1 fij 2
=n fi· − f·j = nDχ2 .
f·j fi·
i j

Este estadı́stico se distribuye según una distribución χ2 con (r − 1)(c − 1) grados de

libertad, lo que nos permite obtener un valor crı́tico a partir del cuál se puede considerar
que las diferencias entre lo observado y lo esperado son los suficientemente grandes como
para rechazar la hipótesis nula con una probabilidad pequeña (α) de error.
Las Tablas 5 y 6 muestran las frecuencias esperadas y las aportaciones al estadı́stico
χ , respectivamente. Podemos observar que el estadı́stico χ2 toma un valor igual 138, 29.
2

Dado que para cualquier α razonable 138,29 > χ29 (α) (por ejemplo, χ29 (0,001) = 27,88),
podemos rechazar la hipótesis de independencia. Una vez comprobado que las variables
están relacionadas, resta comprobar qué tipo de asociación se da entre el color de ojos y
el de cabello. Para ello, recurrimos al ACS.

Tabla 5: Frecuencias esperadas (Ejemplo 1)

Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,07 0,18 0,04 0,08 0,37
Avellana 0,03 0,08 0,02 0,03 0,16
Color de ojos Verde 0,02 0,05 0,01 0,02 0,11
Azul 0,07 0,18 0,04 0,08 0,36
Total 0,18 0,48 0,12 0,21 1,00

Es importante darse cuenta de que las aportaciones al estadı́stico χ2 de los cruces de

categorı́as también aportan información relevante pues nos indican cuánto se alejan las
frecuencias observadas y las esperadas. De esta forma, si la aportación es pequeña, esto
querrá decir que la frecuencia observada de ese cruce coincide con la de la hipótesis de
independencia y, por tanto, no existirá relación entre dichas categorı́as. Por el contrario, si
las frecuencias observadas y esperadas difieren mucho (tanto por exceso como por defecto)
la aportación al estadı́stico χ2 será grande indicando que existe relación entre dichas
categorı́as (esta relación puede ser directa o inversa).

5
Tabla 6: Aportaciones al estadı́stico χ2 (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 19,35 1,52 0,01 34,23 55,11
Avellana 0,23 1,83 0,73 4,96 7,75
Color de ojos Verde 3,82 0,12 5,21 0,38 9,52
Azul 9,42 3,80 2,99 49,70 65,91
Total 32,81 7,27 8,94 89,27 138,29

Figura 2: Aportaciones al estadı́stico χ2 (Ejemplo 1)

Para poder sacar conclusiones más rápidamente sobre las aportaciones, se puede cons-
truir un gráfico (denominado mapa de calor) que nos indicará entre qué categorı́as hay
más relación.
Un gráfico de este tipo se encuentra en la Figura 2, donde se puede observar que las
categorı́as entre las que más relación existe son: Azul - Rubio, Marrón - Rubio y Marrón
- Moreno.

Debido a la simetrı́a existente entre las variables fila y columna, el análisis an-
terior puede realizarse para los perfiles columna sin más que modificar las fórmulas
correspondientemente. Por ejemplo, el contraste χ2 viene dado por:
X X 1 fij 2
χ2 = n f·j − fi·
fi· f·j
j i

6
2.3. Inercia
La inercia (I) es una medida de la dispersión de la nube de puntos equiparable a la
varianza de datos numéricos. Coincide con la cantidad Dχ2 definida anteriormente por lo
que representa la distancia χ2 de los perfiles al perfil medio ponderados por la masa de los
perfiles (de ahı́ la similitud con la varianza, que está formada por las distancias cuadráticas
a la media). Lógicamente, la inercia nos permite evaluar la hipótesis de indepencia también.
Algunos autores proponen que, si la raı́z cuadrada de la inercia total es mayor que 0,2 (o,
equivalentemente, la inercia es mayor que 0,04), entonces existe asociación significativa.
La inercia de los datos asociados al Ejemplo 1 es 138,29 512 = 0,2336. Dado que la raiz de
la inercia toma el valor de 0,4833 > 0,2, el criterio de la inercia también nos indica que
hay asociación significativa entre el color de ojos y de cabello.

3. Análisis de correspondencias simple

Como ya se indicó previamente, el objetivo del ACS es determinar la relación existente
entre dos variables categóricas de manera gráfica. Dado que el número de categorı́as de
las variables hacen imposible su representación en sus espacios originales, cuya dimensión
es c − 1 y r − 1 (dado que no podemos representar ni imaginar espacios de más de tres
dimensiones), el ACS busca representar los datos en espacios más reducidos y que, por
tanto, sean representables en gráficos clásicos de dispersión, intentando reducir al máximo
la pérdida de información.
A partir de la teorı́a del análisis de componentes principales es posible reducir la dimen-
sionalidad de los perfiles fila (o columna) si se consideran las filas (columnas, respectiva-
mente) como observaciones y las columnas (filas, respectivamente) como variables. De esa
forma, podrı́amos obtener un gráfico que nos permitiese observar en una dimensión menor
las relaciones existentes entre las categorı́as de la variable fila (columna, respectivamente).
No obstante, serı́a deseable contar con una representación simultánea de ambas variables
que nos permitiese establecer las relaciones entre las categorı́as de ambas variables y no
sólo entre las categorı́as de una misma variable. Para ello, tomaremos el perfil de la varia-
ble con menos categorı́as y reduciremos su dimensión para, a continuación, representar la
otra variable en los mismos ejes.

3.1. Fundamentos del ACS

El primer paso en el ACS consiste en transformar las variables para poder trabajar
con ella de manera análoga al ACP. Las transformaciones que se aplican a los perfiles fila
y columna permiten trabajar con distancias euclı́deas dando lugar a los mismos resultados
que si trabajásemos con los perfiles originales utilizando la distancia χ2 .
2 X X !2
X X 1 fij fij f·j
I = D χ2 = fi· − f·j = fi· p −p
f·j fi· fi· f·j f·j
i j i j
!2
X X fij p
= fi· p − f·j
i j
fi· f·j

Por lo que la nube de puntos de los perfiles fila transformados viene dada por los puntos
f
i con masa fi· y coordenadas √ij . Matricialmente, se dan las siguientes relaciones:
fi· f·j

−1/2 −1/2 −1/2 −1/2

YF = XF DC = DF−1 F DC YC = D F XC = DF −1
F DC ,

7
donde YF (r × c) y YC (r × c) son los perfiles fila y columna transformados, respecti-
vamente.
Igual que ocurre con el análisis de componentes principales, buscamos proyectar los
puntos en nuevos ejes de forma que se maximice la variabilidad conservada (o equiva-
lentemente, se minimice la pérdida de variabilidad). En nuestro caso, la medida de la
variabilidad es la inercia.
Sea u el vector director del eje sobre el que proyectar los perfiles fila transformados.
Entonces, las observaciones en los nuevos ejes vendrán dados por YF u. Dado que buscamos
preservar la mayor cantidad posible de inercia, debemos encontrar el vector u que maximice
esa cantidad. Matricialmente,

−1/2 −1/2
máx u0 YF0 DF YF u = máx u0 DC F 0 DF−1 DF DF−1 F DC u
−1/2 −1/2 −1/2 −1/2
= máx u0 DC F 0 DF DF F DC u
0 0
= máx u Z Zu,

−1/2 −1/2
donde Z = DF F DC . Por las propiedas algebraicas ya vistas en el ACP, sabemos
que los vectores que maximizan esta cantidad son los autovectores de la matriz Z 0 Z,
que, además, pueden ordenarse por importancia según su autovalor asociado, que coincide
con la cantidad de inercia recogida por dichos autovectores (que no son más que los ejes
de proyección). Por lo tanto, la inercia total de los datos coincide con la suma de los
autovalores no triviales.
Es importante destacar que la cantidad maximizada no es exactamente la inercia pues
los datos no están centrados en el origen. No obstante, se puede demostrar que los auto-
vectores resultantes coinciden por lo que, de esta forma, se obtienen los mismos resultados
a partir de operaciones más simples.
Análogamente, se pueden obtener los ejes de máxima inercia de los perfiles columna
sobre el vector director v del eje (de nuevo denotaremos por V la matriz que contiene los
vectores directores de los ejes) como:
−1/2 −1 −1 0 −1/2
máx v 0 YC DC YC0 v = máx v 0 DF F DC DC DC F DF v
−1/2 −1/2 −1/2 −1/2
= máx v 0 DF F DC DC F 0 DF v
0 0
= máx v ZZ v,

cuya solución la componen los autovectores de la matriz ZZ 0 .

Como veremos más adelante, se puede establecer una relación entre los autovalores y
los autovectores asociados a los perfiles fila y columna.

3.2. Reglas para determinar el número de factores a retener

Una vez que hemos comprobado la existencia de dependencia entre filas y columnas, se
debe decidir el número de factores a retener. Existen multitud de reglas para determinar
este número. Las principales son las siguientes:

A nivel práctico el mejor criterio es tomar sólo los dos o tres primeros ejes significa-
tivos siempre que estos expliquen una variabilidad aceptable (por encima del 70 %
en el caso de datos reales) ya que esta técnica es primordialmente gráfica.

I
Elegir aquellas dimensiones cuya inercia sea superior a la media min{r−1,c−1} . Esta
regla recibe el nombre en la literatura de average rule.

8
Debido a las similitudes con el Análisis de Componentes Principales, también se
puede utilizar la gráfica de Cattell (o de sedimentación o scree plot). Consiste en
representar la inercia de los factores y descartar aquellos que se encuentren “después
del codo”.

También podemos realizar el contraste de Malinvaud, que evalúa la hipótesis: H0 :

λm+1 = λm+2 = · · · = λmin{r−1,c−1} = 0, es decir m factores a retener son suficientes
o, lo que es lo mismo, los factores descartados no son significativos. El estadı́stico en
el que se basa este contraste es n(λm+1 + · · · + λmin{r−1,c−1} ) que se distribuye como
χ2(r−m−1)×(c−m−1) . Este estadı́stico no debe ser significativo, es decir:

P [n(λm+1 + · · · + λmin{r−1,c−1} ) > χ2(r−m−1)×(c−m−1) ] > α.

La Figura 3 muestra la descomposición de la inercia que ofrece el PROC CORRESP

de SAS. En dicha tabla se puede observar la inercia asociada a cada eje de representación
(el valor singular es la raiz de la inercia) y la inercia total, ası́ como las distancias χ2
desglosada, acumulada y total. Como ya habı́amos calculado previamente, la inercia total
y el estadı́stico χ2 toman el valor 0,2336 y 138,29, respectivamente. Además, la tabla nos
muestra el p-valor asociado al test de Pearson. Intuitivamente, el p-valor es la probabilidad
de “equivocarse” al rechazar la hipótesis de independencia dados los datos. En este caso
es menor que 0,0001 por lo que podemos rechazar la hipótesis de independencia.
Utilizando las reglas explicadas en esta sección vamos a determinar el número de fac-
tores a retener:

Los dos primeros factores recogen prácticamente el 99 % de la inercia, por lo que con
dos factores (incluso con uno) será suficiente.
I 0,2336
min{r−1,c−1} = 3 = 0,0779 Siguiendo este criterio, deberı́amos retener sólo el
primer factor.

A la vista de la gráfica de Cattell (Figura 4), podemos concluir que sólo el primer
factor es significativo.

A partir del contraste de Malinvaud, vamos a probar con distintos valores de m.

• m = 1: n(λ2 + λ3 ) no debe ser significativo sabiendo que se distribuye como χ24 .

P (χ24 > 14,69) = 0,0054. Por lo que debemos concluir que una componente no
es suficiente.
• m = 2: n(λ3 ) no debe ser significativo dado sabiendo se distribuye como χ21 .
P (χ21 > 1,54) = 0,2146. Por lo que se acepta la hipótesis nula y, por tanto, dos
componentes son suficientes.

Teniendo en cuenta los resultados anteriores, podemos concluir que dos factores es
la mejor solución.

3.3. Relación entre los dos espacios

Las relaciones existentes entre los autovectores y los autovalores que a continuación
se presentan nos permitirán representar las categorı́as de ambas variables en el mismo
espacio. Denotaremos por U la matriz que contiene los autovectores de la matriz Z 0 Z.

9
The SAS System 12:41 Thursday, October 22, 2015

The CORRESP Procedure

Inertia and Chi-Square Decomposition

Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 18 36 54 72 90
----+----+----+----+----+---
0.45692 0.20877 123.593 89.37 89.37 *************************
0.14909 0.02223 13.158 9.51 98.89 ***
0.05097 0.00260 1.538 1.11 100.00
Total 0.23360 138.290 100.00
Degrees of Freedom = 9
Pr > ChiSq < .0001

Figura 3: Descomposición de la inercia (Ejemplo 1)

Row Coordinates

Dim1 Dim2

Marron -0.4922 -0.0883

Avellana -0.2126 0.1674

Verde 0.1618 0.3390

Azul 0.5474 -0.0830

Summary Statistics for the Row

Points

Quality Mass Inertia

Marron 0.9981 0.3716 0.3985

Avellana 0.8787 0.1571 0.0560

Verde 0.9484 0.1081 0.0689

Azul 0.9999 0.3632 0.4766

Partial Contributions to
Inertia for the Row Points

Dim1 Dim2

Marron 0.4312 0.1304

Avellana
Figura 4: Gráfica de 0.0340 0.1980
sedimentación de Cattell (Ejemplo 1)
Verde 0.0135 0.5591

Azul 0.5213 0.1124

Indices of the Coordinates

That Contribute Most to Inertia
for the Row Points
10
Dim1 Dim2 Best

Marron 1 1 1

Avellana 0 2 2

Verde 0 2 2
Si uα es autovector de Z 0 Z con autovalor λα , Zuα es autovector de ZZ 0 con el mismo
autovalor:

Z 0 Zuα = λα uα ⇔ ZZ 0 Zuα = Zλα uα ⇔ ZZ 0 (Zuα ) = λα (Zuα )

Además, por la relación existente entre la descomposición en valores singulares y la

factorización en matrices diagonales, se tiene que:

1/2 1
Z = V Dλ U 0 ⇔ vα = √ Zuα ,
λα
donde Dλ es la matriz diagonal cuya diagonal principal son los autovalores de las
matrices Z 0 Z y ZZ 0 , que coinciden salvo ceros.

Recordemos que las coordenadas de los perfiles filas y columna en los respectivos ejes
de máxima inercia vienen dados por ψα = YF uα y ϕα = YC0 vα , respectivamente.
Las propiedades matriciales anteriores permiten establecer la relación entre las coor-
denadas y los ejes de máxima inercia de los perfiles fila y columna:

−1/2 −1/2 1/2 1/2

λα Z −1 vα = DF−1 F DC
p p
ψα = YF uα = XF DC λα DF F −1 DC vα
−1/2
p
= λα DF vα

Análogamente, se pueden obtener las coordenadas de las columnas en el espacio de las

filas:
−1/2
p
ϕα = λα DC uα ,
que serán las que utilizaremos generalmente pues se suelen escoger los autovectores de
las filas para la representación conjunta.
Las nubes de puntos filas y columnas se representarán en el plano de proyección for-
mado por los primeros ejes factoriales dos a dos. La lectura de estas gráficas precisa reglas
de interpretación para apreciar las proximidades, identificar elementos responsables de la
formación de factores y las caracterı́sticas de estos. Estas reglas se obtendrán a partir de
la secuencia de valores propios y el porcentaje de inercia, los factores significativos, y los
estadı́sticos asociados al Análisis.

3.4. Contribuciones parciales o absolutas y cosenos o contribuciones re-

lativas
Existen dos series de coeficientes que aportan información suplementaria a las coor-
denadas factoriales. Será sólo tras el examen de estos tres tipos de coeficientes cuando se
podrán interpretar correctamente las gráficas factoriales.

Contribuciones parciales: Representan la proporción de la inercia de un factor acha-

cable a la modalidad correspondiente:
2
fi· ψαi
Crα (i) =
λα
P
Lógicamente, i Crα (i) = 1. Las contribuciones absolutas se definen de manera
análoga para las columnas.

11
Cosenos al cuadrado: Expresan la proporción de la variabilidad (inercia) de una
variable explicada por un factor :

ψ2
Cos2α (i) = P αi 2
α ψαi

Representa la contribución relativa del factor a la posición del punto i. Se interpretan

igual que las cargas del Análisis Factorial. Los valores que se obtienen en los cálculos,
los cuadrados de los cosenos, son siempre positivos. Por lo tanto, debe utilizarse
el signo de las coordenadas para comprobar el sentido de la correlación. La suma
de los cosenos al cuadrado con todos los ejes para cada categorı́a representa la
Comunalidad, o calidad de representación. Ésta, al igual que en el Análisis Factorial,
representa la proporción de cada categorı́a (realmente de su variabilidad) que se
puede explicar a través de los ejes.

Las Figuras 5 y 6 muestran las coordenadas, contribuciones absolutas y cosenos al

cuadrado de las filas y las columnas, respectivamente.

Puntos fila: El primer eje se construye para los ojos marrones y azules (contribucio-
nes del 43 % y 52 %, respectivamente). Ambos se encuentran situados prácticamente
en el eje (cosenos al cuadrado: 0,97 y 0,98). Además, el signo de sus coordenadas es
opuesto, indicando que tienen un comportamiento diferente con respesto a la distri-
bución del colore de pelo. El segundo eje está ligado sobre todo a los ojos verdes.

Puntos columna: Las coordenadas sobre el primer eje muestran que el color pelo
rubio se opone a todos los demás pero sobre todo a moreno, aporta un 71,7 % a la
explicación del primer eje y su coseno al cuadrado es 0,99, es decir se encuentra
prácticamente sobre este eje y no podrá caracterizar ninguno de los otros ejes. Se
observa que los pelirrojos tienen una contribución muy baja a este eje (1 %). El se-
gundo eje (cuyo valor propio es mas de dos veces menor que el primero) se construye
especialmente para el cabello pelirrojo, el cual se opone tanto a rubio y moreno (sobre
todo a este último). Este es el único punto bien representado sobre este segundo eje
(coseno al cuadrado 0,81).

La Figura 7 contiene la representación simultánea de los perfiles fila y columna que

establece la relación entre el color de ojos y el de pelo. Se pueden realizar las siguientes
conclusiones:

Los ojos azules se asocian a los cabellos rubios.

Los pelirrojos se asocian a ojos avellana y verdes.

Los ojos marrones se asocian a los morenos.

La categorı́a cabellos castaños se encuentra bastante próxima al origen del plano

representando el perfil medio no siendo por tanto especı́fico de ningún color de ojos.

Los ojos azules se oponen al cabello castaño y a los ojos marrones.

12
Moreno -0.5046 -0.2148
Total 0.23360 138.290 100.00 Verde 0.9484 0.1081 0.0689
Degrees of Freedom = 9 Castaño -0.1483 0.0327 The SAS System 1
Pr > ChiSq < .0001 Azul 0.9999 0.3632 0.4766
Pelirrojo -0.1295 0.3196 The CORRESP Procedure
The SAS System Rubio
12:41 Thursday, October 22, 2015 4
0.8353 -0.0696
Row Coordinates Partial Contributions to Squared Cosines for the
The CORRESP Procedure Inertia for the Row Points Row Points
Dim1 Dim2
Summary Statistics
Dim1for theDim2
Column Dim1 Dim2
Squared Cosines
Marron -0.4922 for the
-0.0883 Points
Row Points
Marron 0.4312 0.1304 Marron 0.9670 0.0311
Avellana -0.2126 0.1674 Quality Mass Inertia
Dim1 Dim2
Avellana 0.0340 0.1980 Avellana 0.5424 0.3363
Verde 0.1618 0.3390
Marron 0.9670 0.0311 Moreno 0.9899 0.1824 0.2373
Verde 0.0135 0.5591 Verde 0.1759 0.7726
Azul 0.5474 -0.0830
Avellana 0.5424 0.3363 Castaño 0.9063 0.4831 0.0526
Azul 0.5213 0.1124 Azul 0.9775 0.0224
Verde 0.1759 0.7726 Pelirrojo 0.9451 0.1199 0.0646
The SAS System 1
Summary
Figura Statistics for the
5: Coordenadas, Row
contribuciones absolutas y cosenos al cuadrado de las filas (Ejem-
Azul 0.9775 0.0224 Rubio 0.9996 0.2145 0.6455
Points
plo 1) Column Coordinates
Indices of the Coordinates The CORRESP Procedure
Quality Mass That Contribute Most to Inertia
Inertia
for the Row Points Dim1 Dim2
Marron Column
0.9981 0.3716 0.3985 Partial Contributions to
Coordinates Squared Cosines for the
Inertia Dim1 Dim2 Best Moreno
for the Column -0.5046
Column Points-0.2148
Avellana 0.8787Dim1 0.1571Dim20.0560 Points
Marron 1 1 1 Castaño -0.1483
Dim1 0.0327
Dim2
Moreno 0.9484
Verde -0.5046 -0.2148
0.1081 0.0689 Dim1 Dim2
Avellana 0 2 2 Pelirrojo
Moreno -0.1295 0.3196
0.8380 0.1519
AzulCastaño0.9999-0.1483 0.0327
0.3632 0.4766 Moreno 0.2225 0.3788
Verde 0 2 2 Rubio 0.8353 0.0420
Castaño 0.8644 -0.0696
Pelirrojo -0.1295 0.3196 Castaño 0.0509 0.0232
Azul 1 0 1 Pelirrojo 0.1333 0.8118
Rubio 0.8353 -0.0696
Partial Contributions to Pelirrojo 0.0096 0.5513
Inertia for the Row Points Summary
Rubio Statistics for the
0.9927 Column
0.0069
Rubio 0.7170 0.0467 Points
Dim1 Dim2
Summary Statistics for the Column
Quality Mass Inertia
Figura Marron Points
6: Coordenadas, contribuciones absolutas y cosenos al cuadrado de las columnas
0.4312 0.1304
(Ejemplo 1) Indices of the CoordinatesMoreno 0.9899 0.1824 0.2373
Quality
Avellana 0.0340Mass
0.1980Inertia
That Contribute Most to Inertia
MorenoVerde 0.9899 0.1824
0.0135 0.55910.2373 for the Column Points Castaño 0.9063 0.4831 0.0526
4. Elementos suplementarios
Castaño 0.9063 0.4831 0.0526 Dim1 Dim2 Best
Pelirrojo 0.9451 0.1199 0.0646
Azul 0.5213 0.1124
Son elementos suplementarios aquellos que
Moreno 2 no intervienen
2 2
Rubio
en la 0.9996
construcción de la nube
0.2145 0.6455
Pelirrojo 0.9451 0.1199 0.0646
(es decir tienen peso 0 y su contribución a la formación de los ejes es 0). No obstante estos
RubioIndices
pueden 0.9996 0.2145 y 0.6455
ser representados Castañolos cosenos
obtenerse 0 0 1 con respecto a cualquier eje,
cuadrados
of the Coordinates
That
lo cual nosContribute Most to Inertia
proporcionará una ayuda adicional
Pelirrojo 0 para 2poder2interpretarlos. Se suelen recoger
Partial Contributions to
for the Row
como elementos Points
suplementarios: Inertia for the Column
Partial Contributions
Dim1 Dim2 toBest
Rubio 1 0 1 Points
Modalidades
Inertia for theaberrantes,
Column que se hayan mostrado como tal en el desarrollo del análisis
(aquellas Points
Marron que 1 se van
1 eliminando
1 Dim1
por que inestabilizan el resultado). Dim2

Avellana Dim1 2Dim2 2

0 o modalidades Moreno 0.2225 0.3788
Observaciones cuya información se recogió en circunstancias diferentes
aMoreno
las del
Verde resto.
0.2225
0 0.3788
2 2 Castaño 0.0509 0.0232
Castaño 0.0509
Azul
Elementos de 0.0232
1 distinta
0 1
naturaleza a los activos. Pelirrojo 0.0096 0.5513
Pelirrojo 0.0096 0.5513 Rubiodel análisis.
0.7170 0.0467
Casos nuevos, recogidos con posterioridad a la realización
Rubio 0.7170 0.0467
Dada una columna suplementaria c0 podemos obtener su perfil columna como:
fic0 X Indices of the Coordinates
Indices of the Coordinates , i = 1, . . . , r donde f·c 0 = That
fic0Contribute Most to Inertia
f·c0 for the Column Points
That Contribute Most to Inertia i
for the Column Points
Dim1 Dim2 Best
Dim1 Dim2 Best
Moreno 2 2 2
Moreno 2 2 2 13
Castaño 0 0 1
Castaño 0 0 1
Pelirrojo 0 2 2
Pelirrojo 0 2 2
Rubio 1 0 1
Rubio 1 0 1
0.4
Verde
P elirrojo
Dimens ion 2 (9.515%)

0.2 Avellana

C as taño

0.0
Az ul R ubio
Marron

-0.2 Moreno

-0.4

-0.4 -0.2 0.0 0.2 0.4 0.6 0.8

Dimens ion 1 (89.37%)

Figura 7: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 1)

La proyección del punto c0 suplementario sobre el eje α se obtiene al utilizar la misma

formula de transición que para las columnas activas de la Tabla de frecuencias:
1 X fic0
ϕαc0 = √ ψαi
λα i f·c0

Análogamente, para una fila suplementaria r0 , se tendrá:

1 X fr0 j
ψαr0 = √ ϕαj
λα j fr0 ·

5. Observaciones adicionales
Existen dos tipos de gráficos relativos al ACS. El que se ha definido en estos apuntes
se conoce como mapa simétrico y tiene las siguientes propiedades:

1. Es una representación óptima de los perfiles fila y columna aunque estos dos
conjuntos de puntos provengan de espacios diferentes.
2. Los perfiles fila y columna son igualmente dispersados en la gráfica, en todas
las direcciones de la gráfica
3. No existe una interpretación directa de la distancia entre filas y columnas, pero
sı́ hay una interpretación conjunta de los puntos fila y columna con respecto a
los ejes principales. La oposición entre izquierda y derecha ası́ como la de arriba
abajo en la gráfica se interpretan de la misma forma para filas y columnas y
la correspondencia entre sus desviaciones hacia fuera a lo largo de estos ejes
puede interpretarse directamente como asociación.

14
4. La magnitud de la asociación entre filas y columnas en sentido absoluto no puede
observarse directamente en la gráfica, pero puede estimarse de las magnitudes
numéricas de las inercias principales en sı́ mismas.
El Análisis de Correspondencias trabaja con perfiles. Esto significa que no se inter-
pretan las frecuencias totales si no sus valores relativos. A la hora de interpretar este
análisis no deben utilizarse expresiones como: “la mayorı́a de...”, “pocos de...”, sino
descripciones tales como: “... por encima de la media” o “...relativamente improba-
bles”.
Cuando se interpreten las contribuciones a la inercia se debe tener en cuenta las
masas de las categorı́as puesto que se introducen como multiplicadores. De esta
forma una alta contribución a la inercia puede deberse exclusivamente a la masa,
mientras que una baja contribución no permite concluir que la categorı́a se encuentre
pobremente correlacionada con los ejes.

6. Sistemática del ACS

1. Estudio de las proporciones sobre el total de la población de cada modalidad. Si
existiera una modalidad con menos de un 5 % de presencia, preferentemente agru-
parla con otra modalidad o bien tenerla en cuenta para posteriormente considerarla
suplementaria (se puede incluso hacer las dos cosas y comprobar los resultados del
análisis en ambos casos). Las variables cuantitativas que se quieran incluir como
activas, segmentarlas en intervalos para que sean tratadas como cualitativas (para
ello, ver con anterioridad sus diagramas de barras, graficas de distribución, etc.).
2. Realización del Análisis con todas las observaciones y modalidades elegidas.
3. Determinación del número de ejes a retener.
4. Examen de la calidad (que viene dada por la suma de los cosenos al cuadrado de
los ejes retenidos y coincide con el concepto de comunalidad de análisis factorial) de
cada modalidad. Si existieran muchas modalidades con valores inferiores a 0,5, nos
podrı́a indicar la necesidad de incluir más ejes en el resultado.
5. Tratar de interpretar los ejes utilizando los cosenos al cuadrado (correlaciones entre
los ejes y las modalidades), la contribución parcial de la modalidad a la orientación
del eje y el signo de las coordenadas de las modalidades. Puede servir de ayuda la
siguiente guı́a:
Determinación de los puntos explicativos de los ejes factoriales.
Para un determinado eje se dice que un punto columna o modalidad es expli-
cativo si su contribución parcial a la orientación al eje es preponderante con
respecto al conjunto de contribuciones. Se clasificarán los puntos en dos con-
juntos: aquellos que posean una fuerte contribución cuyas coordenadas sean
negativas y aquellos cuyas coordenadas sean positivas. Sólo se retendrán como
puntos explicativos aquellas cuya contribución sea superior a la media de las
contribuciones (100/r %). Los puntos explicativos se consideraran caracterı́sti-
cos para la interpretación del eje.
Es de gran utilidad buscar categorı́as contrapuestas.
6. Representar las graficas donde se proyecten las modalidades en el espacio de los ejes
elegidos.

15
7. Explicar las relaciones entre las modalidades en función de su ubicación en los ejes.
Entre modalidades pertenecientes a la misma variable la distancia euclı́dea nos sir-
ve de proximidad o lejanı́a. Entre modalidades pertenecientes a distintas variables
examinar el ángulo. Ángulos agudos son indicadores de relaciones directas, ángu-
los planos de relaciones inversas. Una regla que se suele utilizar es que se pueden
considerar categorı́as próximas aquellas que forman ángulos menores de 60 grados.
Examinar la proximidad al centro de coordenadas, cuanto mas próxima a él se en-
cuentre una modalidad, menor importancia relativa tendrá en el análisis, pues se
asociará al perfil medio (es decir, no estará relacionado con ninguna categorı́a en
particular).

7. Ejemplos resueltos con SAS

7.1. Vehı́culos y tipo familia
En este primer ejemplo vamos a estudiar si existe relación entre el origen del vehı́culo
de 342 familias (americano, europeo o japonés) y el tipo de familia (soltero, soltero con
hijos, casado, casado con hijos).

data statusCoche;
input Status: $15. Origen $;
datalines;
Married American
Married Japanese
MarriedWithKids American
MarriedWithKids American
Married Japanese
Single Japanese
...
Single Japanese
Married American
SingleKids American
SingleKids European;
proc print;run;

proc corresp data=statusCoche all chi2p print=both;

tables Status, Origen;
run;

A la hora de leer cadenas de texto, SAS reserva un espacio de 8 caracteres. Si queremos

que esto no sea ası́, tenemos varias formas. Una de ellas es incluir la longitud de la cadena
más larga e indicarlo con dos puntos para que, de esta forma, SAS siga separando las
variables por espacios pero reserve ese espacio. Otra opción serı́a utilizar la sentencia
length antes de la sentencia input.
Como se puede comprobar, el procedimiento de SAS para el ACS es el “PROC CO-
RRESP”. La sentencia TABLES indica las variables en estudio (la primera de ella repre-
sentará las filas y la segunda, las columnas). Al incluir la opción “ALL” estamos pidiendo
que ofrezca todas las salidas con el objeto de poder comentarlas a continuación. La opción

16
SingleKi 7 2 9 18
The SAS System 11:42 Friday, October 23, 2015 1
Sum 129 46 167 342
The CORRESP Procedure

Contingency Table Contingency Table

American European Japanese Sum Percents American European Japanese Sum

Married 37 14 51 102 Married 10.819 4.094 14.912 29.825

MarriedW 52 15 44 111 MarriedW 15.205 4.386 12.865 32.456

Single 33 15 63 111 Single 9.649 4.386 18.421 32.456

SingleKi 7 2 9 18 SingleKi 2.047 0.585 2.632 5.263

Sum 129 46 167 342 Sum 37.719 13.450 48.830 100.000

The SAS System 11:42 Friday, October 2
Figura 8: Tabla de contingencia de los datos (frecuencias absolutas y relativas) para el
Chi-Square Statistic Expected Values
Ejemplo 7.1 Contingency TableThe CORRESP Procedure
Percents American European Japanese Sum American European Japanese

Married 10.819
Inertia
4.094
and Chi-Square
14.912 29.825
Decomposition
Married 38.4737 13.7193 49.8070
Singular Principal Chi- Cumulative
MarriedW 15.205 MarriedW 41.8684 14.9298 54.2018
Value Inertia4.386
Square12.865 32.456
Percent Percent 20 40 60 80 100
Single 9.649 4.386 18.421 32.456 ----+----+----+----+----+---
Single 41.8684 14.9298 54.2018

0.150662.047
SingleKi
0.022700.585
7.76278 2.63298.835.263 98.83 *************************
SingleKi 6.7895 2.4211 8.7895
0.01640 0.00027 0.09194 1.17 100.00
Sum 37.719 13.450 48.830 100.000
Total 0.02297 7.85472 100.00
Chi-Square Statistic Expected Values
Degrees of Freedom = 6
Chi-Square Statistic Expected Values Percents American European Japanese
Pr > ChiSq = .2489
American European Japanese Married 11.2496 4.0115 14.5635

Married Figura
38.4737 9: Análisis
13.7193 de
49.8070 la inerciaMarriedW 12.2422 7.14.3654
para el Ejemplo 15.8485

Row Coordinates
Single 12.2422 4.3654 15.8485
MarriedW 41.8684 14.9298 54.2018
“chi2p” hace que se muestre el p-valor del test 2 de Pearson. La
Single 41.8684 14.9298 54.2018 Dim1χSingleKi opción
0.7079 “print=both”
Dim2 1.9852 2.5700
permite obtener todas las salidas en términos absolutos y relativos.
SingleKi
La tabla de 6.7895
contingencia 2.4211
de los8.7895
Married datos -0.0287
(para las 0.0080
frecuencias absolutas y relativas) se
muestra en la Figura 8. La Figura 9 contiene el análisis Observed Minus Expected
de la inercia y el testValues
χ2 de Pearson.
Antes MarriedW 0.1985 0.0024
de continuar con el análisis de correspondencias, American debemosEuropean
comprobar que todas
Chi-Square Statistic Expected Values Japanese
las categorı́as están bien representadas.
Single La tabla de contingencia
-0.1726 Married
0.0014 -1.4737 muestra que todas las
Percentstienen
American European Japanese 0.2807 1.1930
categorı́as una frecuencia relativa superior al 5 %. A continuación observamos el
valorMarried
del estadı́stico 2 SingleKi
el valor 0.0035 MarriedW
-0.0685 10.1316 con 0.0702 -10.2018
11.2496 χ que toma
4.0115 14.5635 de 7,85. Comparando la correspondiente
distribución,
MarriedW
se12.2422
obtiene un p-valor15.8485
4.3654
de 0,25 por loSingle
que no existe
-8.8684evidencia
0.0702suficiente
8.7982 para
rechazar la hipótesis de independencia y por tanto debemos 0.2105
SingleKi
concluir -0.4211
que no hay relación
0.2105
entreSingle
el tipo de12.2422
familia y4.3654
el origen15.8485
del vehı́culo. Por dicha razón, no continuamos con el
Summary Statistics for the Row
ACS.SingleKi
No obstante, podemos
1.9852 observar
0.7079 los perfiles
2.5700 Points fila y columna (Figura 10) para compro-
bar como, efectivamente, no hay grandes diferencias entre ellos. De ahı́ que no podamos
rechazar la hipótesis de independencia.Quality Mass Inertia
Observed Minus Expected Values
Married 1.0000 0.2982 0.0116
7.2. Marca de coche,
American sexo
European y edad
Japanese

Married
El -1.4737
fichero que MarriedW
vamos a0.2807
utilizar 1.19301.0000
en este 0.3246
ejemplo 0.5566
contiene el número de individuos que
prefieren una determinada
MarriedW 10.1316 marca
0.0702
Single de coches
-10.2018 según su sexo
1.0000 0.3246 0.4210y edad (recogido en la variable
edad sexo):
Single -8.8684 0.0702 8.7982
SingleKi 1.0000 0.0526 0.0108
SingleKi 0.2105 -0.4211 0.2105

DATA EJ2;
Partial Contributions to
Inertia for the Row Points
17
Dim1 Dim2

Married 0.0109 0.0707

MarriedW 0.5631 0.0071

SingleKi 0.083 0.932 0.064 1.080
The SAS System 11
Sum 55.930 1.014 43.056 100.000
The CORRESP Procedure

Row Profiles Column Profiles

American European Japanese American European Japanese

Married 0.362745 0.137255 0.500000 Married 0.286822 0.304348 0.305389

MarriedW 0.468468 0.135135 0.396396 MarriedW 0.403101 0.326087 0.263473

Single 0.297297 0.135135 0.567568 Single 0.255814 0.326087 0.377246

SingleKi 0.388889 0.111111 0.500000 SingleKi 0.054264 0.043478 0.053892

Figura 10: Perfiles fila y columna para el Ejemplo 7.1

Row Profiles Column Profiles

Percents American European Japanese Percents American European Japanese

INPUT EDAD_SEXO $ COCHE_PREF $ FRECUENCIA;
Married
DATALINES; 36.2745 13.7255 50.0000 Married 28.6822 30.4348 30.5389
JOV_FEM OPEL 25
MarriedW 46.8468
JOV_FEM PEUGEOT 18 13.5135 39.6396 MarriedW 40.3101 32.6087 26.3473

JOV_FEM
Single HYUNDAI
29.729736 13.5135 56.7568 Single 25.5814 32.6087 37.7246
JOV_FEM RENAULT 8
SingleKi OPEL
JOV_MAS 38.8889
10 11.1111 50.0000 SingleKi 5.4264 4.3478 5.3892
JOV_MAS PEUGEOT 26
JOV_MAS HYUNDAI 25
JOV_MAS RENAULT 30
MAD_FEM OPEL 5
MAD_FEM PEUGEOT 8
MAD_FEM HYUNDAI 2
MAD_FEM RENAULT 4
MAD_MAS OPEL 35
MAD_MAS PEUGEOT 20
MAD_MAS HYUNDAI 7
MAD_MAS RENAULT 60
MAY_FEM OPEL 6
MAY_FEM PEUGEOT 6
MAY_FEM HYUNDAI 1
MAY_FEM RENAULT 6
MAY_MAS OPEL 10
MAY_MAS PEUGEOT 16
MAY_MAS HYUNDAI 3
MAY_MAS RENAULT 25;

Como vemos, en este caso los datos no vienen dados esplı́citamente, si no que cada par
de categorı́as tiene asociada su frecuencia absoluta. Por ello, debemos incluir la sentencia
“WEIGHT” para indicarle al SAS que en esa variable se encuentran recogidos los pesos.

proc corresp data=EJ2 all chi2p print=both;

tables EDAD_SEXO, COCHE_PREF;
WEIGHT FRECUENCIA;

18
ods output CellChiSq = Aportaciones;
ods output RowProfiles = PerfilFila;
ods output ColProfiles = PerfilColumna;
ods output InertiaChart=Inercia;
run;

Como queremos representar los perfiles fila y columna, ası́ como las aportaciones al
estadı́stico χ2 , debemos guardar dichas cantidades para poder representarlas a continua-
ción. Para ello, recurrimos a la sentencia ods output que nos permite guardar las tablas
generadas por el procedimiento. Es necesario saber cuál es el nombre que SAS otorga a
las tablas generadas para lo cuál podemos incluir “ods trace on / listing;” antes del proce-
dimiento, lo que nos mostrará en el log el nombre de todas las tablas. Cuando queramos
quitar esta opción, debemos indicar “ods trace off;”.
Las sentencias necesarias para obtener los gráficos de las Figuras 11, 12 y 13 son:

/*Perfil columna*/
proc sgplot data=PerfilColumna;
series x=Label y=HYUNDAI/ LINEATTRS = (THICKNESS = 3);
series x=Label y=OPEL/ LINEATTRS = (THICKNESS = 3);
series x=Label y=PEUGEOT/ LINEATTRS = (THICKNESS = 3);
series x=Label y=RENAULT/ LINEATTRS = (THICKNESS = 3);
YAXIS LABEL = ’Proporción’;
XAXIS LABEL = ’Marca coche’;
Title "Perfiles columna";
run;

/*Perfil fila*/
proc transpose data=PerfilFila out=PerfilFilaT;
id Label;
run;

proc sgplot data=PerfilFilaT;

series x=_NAME_ y=JOV_FEM / LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=JOV_MAS/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAD_FEM / LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAD_MAS/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAY_FEM/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAY_MAS/ LINEATTRS = (THICKNESS = 3);
YAXIS LABEL = ’Proporción’;
XAXIS LABEL = ’Status’;
Title "Perfiles fila";
run;

/*Heatmap*/
data Aportaciones2(drop=Sum);
set Aportaciones;

19
Figura 11: Representación de los perfiles columna para el Ejemplo 7.2

if Label="Sum" then delete;

run;

data Aportaciones3(keep=filas col ff);

array vector{4} HYUNDAI OPEL PEUGEOT RENAULT ;
set Aportaciones2;
a=0;
do aux=’HYUNDAI’, ’OPEL’, ’PEUGEOT’, ’RENAULT’ ;
a=a+1;
filas=label;
col=aux;
ff=vector{a};
output;
end;
run;

proc sgplot data=Aportaciones3;

heatmap x=filas y=col/freq=ff colormodel=TwoColorRamp;
Title "Aportaciones a chi^2";
run;

La Figura 11 contiene los perfiles columna y nos indica que existe relación entre las
mujeres jóvenes y Hyundai y entre Renault y los hombres maduros. La Figura 12 contiene
los perfiles fila y nos indica que existe una fuerte relación inversa entre las mujeres jóvenes
y Renault y entre los hombres jóvenes y Opel. La Figura 13 contiene las aportaciones al
estadı́stico χ2 mostrando también las relaciones anteriores aunque sin indicar el “signo”
de la relación.
Por otro lado, la Figura 14 muestra la descomposició de la inercia, ası́ como el test χ2

20
Figura 12: Representación de los perfiles fila para el Ejemplo 7.2

de Pearson. Como podemos observar, el p-valor es menor que 0,0001 por lo que se puede
rechazar la hipótesis de independencia. Además, la inercia es superior a 0,04 reforzando la
hipótesis de dependencia. La siguiente pregunta a responder es el número de ejes a retener.
El procedimiento corresp no genera una gráfica de Cattell, por lo que debemos obtenerla
a través del siguiente código:

proc sgplot data=inercia;

series x=ID y=Inertia;
where ID<=3;
xaxis label="Numero factores";
run;

El conjunto de datos “inercia” se ha generado al ejecutar el proc corresp anterior.

Además, el valor 3 corresponde con min{r − 1, c − 1} por lo que habrá que cambiar este
valor si se quiere obtener el gráfico para otro conjunto de datos.
Las reglas explicadas anteriormente aplicadas a este ejemplo son:
Los dos primeros factores recogen más del 90 % de la inercia, por lo que con dos
factores será suficiente.
I
min{r−1,c−1}= 0,2317
3 = 0,0772, por lo que deberı́amos retener sólo aquellos factores
cuya inercia sea mayor que esa cantidad, es decir, sólo el primero.
A la vista de la gráfica de Cattell (Figura 4), podemos concluir que sólo el primer
factor es significativo.
A partir del contraste de Malinvaud:
• m = 1: n(λ2 + λ3 ) no debe ser significativo dado que se distribuye como χ28 .
P (χ28 > 21,27) = 0,0065. Por lo que debemos concluir que una componente no
es suficiente.

21
Figura 13: Representación de las aportaciones al estadı́stico χ2 para el Ejemplo 7.2

• m = 2: n(λ3 ) no debe ser significativo (a nivel 0,01) dado que se distribuye

como χ23 . P (χ23 > 7,67) = 0,0533. Por lo que se acepta la hipótesis nula y, por
tanto, dos componentes son suficientes.

Por lo que determinamos elegir retener los dos primeros ejes. Estos son los que SAS
siempre retiene por defecto, pero si tomáramos la decisión de elegir otra cantidad de-
berı́amos incluir la opción DIMENS= número elegido.
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 15 junto con
la tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de
representación para cada modalidad ası́ como de la masa (proporción de datos) y de la
inercia. En cuanto a la calidad (que es el equivalente a la comunalidad en el ACP) se nos
indica que la mujeres maduras se encuentran poco representadas. Si bien la masa de los
datos provenientes de las mujeres maduras y de las mujeres mayores se encuentran por
debajo del 5 % (no se encuentran realmente muy por debajo de esa cantidad), por lo que
en principio no las agrupamos.
Las contribuciones parciales aparecen en SAS acompañadas de una tabla de indices
para interpretarlos mejor (Figura 16). Para cada dimensión se eligen las modalidades que
más las explican hasta que estén explicadas el 80 % (esta cantidad se puede variar utilizan-
do la opción min=otro valor ). En nuestro caso, para la primera dimensión utilizamos las
modalidades: JOV FEM y MAD MAS que serán las que más intervengan la dirección del
eje. Como contribuyen más a la primera que a otra dimensión, aparece un 1 en el ı́ndice.
Para alcanzar el 80 % de la información necesaria para formar el segundo eje (dimensión
2) necesitamos JOV MAS (47 %), MAD MAS (23 %) y JOV FEM (17 %). De todas ellas,
sólo JOV MAS contribuye más a esta segunda dimensión que a la primera, por lo que en
la columna correspondiente aparece con un 2 (en las otras dos aparece un 1).
Con esas tablas, podemos concluir que las personas que mayor tendencia a preferir
algún tipo de coche son las jóvenes féminas, los hombres maduros y los chicos jóvenes. Los
cosenos al cuadrado (Figura 16) reinciden en lo anteriormente expuesto ya que consisten
en correlaciones al cuadrado entre las dimensiones y las modalidades. Ahora incluimos
además la presencia de los hombres mayores como muy correlacionados con la primera
dimensión.

22
The SAS System 11:42 Friday, October 2

The CORRESP
Figura 14: Gráfica de sedimentación Procedure
de Cattell (Ejemplo coche, sexo y edad)

Inertia and Chi-Square Decomposition

Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 15 30 45 60 75
----+----+----+----+----+---
0.42119 0.17740 69.5406 76.58 76.58 **************************
0.18623 0.03468 13.5959 14.97 91.55 *****
0.13990 0.01957 7.6719 8.45 100.00 ***
Total 0.23165 90.8084 100.00
Degrees of Freedom = 15
Pr > ChiSq < .0001

Figura 15: Análisis de la inercia para el Ejemplo 7.2

Row Coordinates
Se repite el proceso para las modalidades columna:
Dim1 las marcas de coche. De nuevo
Dim2
tendremos las coordenadas (Figura 17) que son las proyecciones sobre los dos primeros
ejes. La comunalidad de todas JOV_FEM
es aceptable. 0.6630
Y se nos 0.1630
indica la Inercia de cada modalidad,
destacando Hyundai y Renault por lo que estas marcas serán las que mayores diferencias
presenten entre las modalidades JOV_MAS
demográficas0.1783 -0.2653
(sexo edad).
Observamos también la contribución
MAD_FEMparcial de cada
-0.0103 modalidad (Figura 18), ası́ como la
-0.1236
tabla de indices que nos permitirá visualizar el resumen de la información de la contribución
MAD_MAS
parcial rapidamente cuando tengamos una-0.4071 0.1603de modalidades. En este caso
gran cantidad
Hyundai y Renault son las marcas relacionadas con la primera dimensión mientras que
MAY_FEMLos-0.2258
Peugeot y Opel lo están con la segunda. cosenos al0.0700
cuadrado refuerzan los comentarios
anteriores. MAY_MAS -0.3657 -0.1588
Por último representamos la gráfica en la Figura 19. En la gráfica se ve como las chicas
jóvenes se asocian a la marca Hyundai, los mayores masculinos se asocian a la marca
Renault. Los maduros masculinos no quieren la marca Hyundai, mientras que los chicos
jóvenes prefieren Peugot. NadaSummary
podemos Statistics
decir deforlas
themaduras
Row femeninas puesto que su
calidad (comunalidad) era muy baja. Points

Quality Mass Inertia

JOV_FEM 0.9999 0.2219 0.4466

JOV_MAS 0.9074
23 0.2321 0.1128

MAD_FEM 0.0678 0.0485 0.0475

MAD_MAS 0.9720 0.3112 0.2646

MAY_FEM 0.3628 0.0485 0.0322

MAY_FEM -0.2258 0.0700
Total 0.23165 90.8084 100.00
MAY_FEM -0.2258 0.0700
DegreesMAY_MAS
of Freedom =-0.3657
15 -0.1588 The CORRESP Procedure
Pr > ChiSq < .0001 MAY_MAS -0.3657 -0.1588

Indices of the Coordinates That

Summary Statistics for the Row Contribute Most to Inertia for
Row Coordinates Summary Statistics for the Row
Points the Row Points
Points
Dim1 Dim2 Dim1 Dim2 Best
Quality Mass Inertia Quality Mass Inertia
JOV_FEM 0.6630 0.1630
JOV_FEM 0.9999 0.2219 0.4466 JOV_FEM 0.9999 JOV_FEM
0.2219 0.4466 1 1 1
JOV_MAS 0.1783 -0.2653 JOV_MAS 0.9074 JOV_MAS
0.2321 0.1128
JOV_MAS 0.9074 0.2321 0.1128 0 2 2
MAD_FEM -0.0103 -0.1236 MAD_FEM 0.0678 0.0485 0.0475
MAD_FEM 0.0678 0.0485 0.0475 MAD_FEM 0 0 2
MAD_MAS -0.4071 0.1603 MAD_MAS 0.9720 0.3112 0.2646
MAD_MAS 0.9720 0.3112 0.2646 MAD_MAS 1 1 1
MAY_FEM -0.2258 0.0700 MAY_FEM 0.3628 0.0485 0.0322
MAY_FEM 0.3628 0.0485 0.0322 MAY_FEM 0 0 1
MAY_MAS -0.3657 -0.1588 MAY_MAS 0.9817 0.1378 0.0963
The SAS System 11:42 Friday, October 23, 2015
MAY_MAS 0.9817 0.1378 0.0963 MAY_MAS 0 0 1
Figura 16: Coordenadas
TheyCORRESP
estadı́sticosProcedure
de las filas para el Ejemplo 7.2
Partial Contributions to
Summary Statistics for the Row
Inertia for the Row Points
Points
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Row Points
Quality Contribute Most to Inertia for Dim1
Mass Inertia
Dim2
Row Points
the Row Points
JOV_FEM 0.5499 0.1701
JOV_FEM
Dim1 0.9999 0.2219 0.4466
Dim2 Dim1 Dim2
Dim1 JOV_MAS
Dim2 Best 0.0416 0.4711
JOV_FEM JOV_MAS 0.9074 0.2321 0.1128
0.5499 0.1701 JOV_FEM 0.9428 0.0570
JOV_FEM 1 MAD_FEM
1 1
0.0000 0.0214
JOV_MAS MAD_FEM 0.0678 0.0485 0.0475
0.0416 0.4711 JOV_MAS 0.2823 0.6251
JOV_MAS 0 MAD_MAS
2 0.2908
2 0.2305
MAD_MAS 0.9720 0.3112 0.2646
MAD_FEM 0.0000 0.0214 MAD_FEM 0.0005 0.0673
MAD_FEM 0 MAY_FEM
0 0.0139
2 0.0069
MAY_FEM 0.3628 0.0485 0.0322
MAD_MAS 0.2908 0.2305 MAY_MAS 0.1038MAD_MAS 0.1002 0.8416 0.1304
MAD_MAS 1 1 1
MAY_MAS 0.9817 0.1378 0.0963
MAY_FEM 0.0139 0.0069 MAY_FEM 0 0 1 MAY_FEM 0.3310 0.0319

MAY_MAS 0.1038 0.1002 MAY_MAS 0 0 1 MAY_MAS 0.8259 0.1558

Partial Contributions to
Inertia for the Row Points
Figura 17: Contribuciones parciales y cosenos al cuadrado de las filas (Ejemplo 7.2)
Dim1 Squared
Dim2 Cosines for the Column Coordinates
Row Points
JOV_FEM 0.5499 0.1701 Dim1 Dim2
7.3. Comunidad Autónoma y precipitaciones
Dim1 Dim2
JOV_MAS 0.0416 0.4711
En este último ejemplo vamos a analizar si existen diferencias HYUNDAI 0.7742
entre las -0.0214
comunidades
JOV_FEM 0.9428 0.0570
autónomas españolas y la cantidad
MAD_FEM 0.0000 de precipitación. Para ello, contamos con el número de
0.0214
OPEL -0.0249 0.3095
dı́as en el año 2010 que ha llovidoJOV_MAS
“nada”, “algo”
0.2823 y 0.6251
“mucho” en las capitales de cada una
MAD_MAS 0.2908 0.2305
de las comunidades autónomas. Dado que la comunidad canaria tiene unas0.0287
PEUGEOT caracterı́sticas
-0.2209
MAD_FEM 0.0005 0.0673
MAY_FEM 0.0139 0.0069
geográficas distintas debido a su ubicación, esta categorı́a será considerada suplementaria.
Para ello, recurrimos a la sentenciaMAD_MAS
MAY_MAS 0.1038 0.1002
0.8416 de
supplementary SAS: RENAULT -0.4340 -0.0437
0.1304

MAY_FEM 0.3310 0.0319

MAY_MAS 0.8259 0.1558 Summary Statistics for the Column

data lluvia; Points
Input Cantidad $ x1-x18;
label x1=’Galicia’ x2=’Asturias’ x3=’Cantabria’ x4=’PaisQualityVasco’ Mass Inertia
Column Coordinates
x5=’Navarra’ x6=’La Rioja’ x7=’Aragon’ x8=’Catalu~ na’ x9=’CastillaLeon’
HYUNDAI 0.9713 0.1888 0.5032
x10=’Madrid’ x11=’CastillaLaMancha’ Dim1 Dim2
x12=’C.Valenciana’ x13=’Extremadura’
OPEL
x14=’Murcia’ x15=’Andalucia’ x16=’Canarias’ x17=’Baleares’ 0.9010 0.2321 0.1073
x18=’Melilla’
HYUNDAI 0.7742 -0.0214
;
PEUGEOT 0.5906 0.2398 0.0870
datalines; OPEL -0.0249 0.3095
Mas 10 50 38 51 16 17 5 5 23 16 11 11 12 31 8 33 RENAULT
5 11 17 0.9213 0.3393 0.3025
PEUGEOT 0.0287 -0.2209

RENAULT -0.4340 -0.0437

Summary Statistics for the Column

Points

Quality Mass Inertia

OPEL -0.0249 0.3095
MAY_FEM 0.3310
The SAS System
0.0319
11:42 Friday, October 23, 2015
PEUGEOT 0.0287 -0.2209
MAY_MAS The
0.8259 CORRESP
0.1558 Procedure
RENAULT -0.4340 -0.0437
Indices of the Coordinates That
Contribute Most to Inertia for
Partial Contributions to
Column Coordinates
the Column Points
Inertia for the Column
Summary Statistics for the Column
Points Points
Dim1 Dim2 Dim1 Dim2 Best
Quality Mass Inertia
Dim1 Dim2
HYUNDAI 0.7742 -0.0214 HYUNDAI 1 0 1
HYUNDAI 0.9713 0.1888 0.5032
HYUNDAI 0.6378 0.0025
OPEL -0.0249 0.3095 OPEL 0.9010 0.2321 0.1073
OPEL 0 2 2
PEUGEOT OPEL-0.2209 0.0008
0.0287 0.6413
PEUGEOT 0.5906 0.2398 0.0870
PEUGEOT 0 2 2
RENAULT PEUGEOT
-0.4340 -0.0437 0.0011 0.3375
RENAULT 0.9213 0.3393 0.3025
The SAS System 11:42 Friday, October 23, 2015 6
RENAULT 0.3603 0.0187
RENAULT 1 0 1
Figura 18:
The CORRESP Coordenadas y estadı́sticos de las columnas para el Ejemplo 7.2
Procedure
Summary Statistics for the Column
Points
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Column Quality Contribute
Mass Inertia
Most to Inertia for Column Points
Points the Column Points
HYUNDAI 0.9713 0.1888 0.5032
Dim1 Dim2
Dim1 Dim2 Dim1 Dim2 Best
OPEL 0.9010 0.2321 0.1073
HYUNDAI 0.9706 0.0007
HYUNDAI 0.6378 0.0025
PEUGEOT 0.5906HYUNDAI
0.2398 0.08701 0 1

OPEL 0.0008 0.6413

RENAULT 0.9213OPEL
0.3393 0.30250 2 2 OPEL 0.0058 0.8952

PEUGEOT 0.0011 0.3375 PEUGEOT 0 2 2 PEUGEOT 0.0098 0.5807

RENAULT 0.3603 0.0187 RENAULT 1 0 1 RENAULT 0.9121 0.0093

Figura 19: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.2)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for Column Points
the Column Points
Entre1y10 80 95 81 89 89 62 49 47 69 Dim162 70Dim2
40 55 51 42 14 45 43
Dim1 Dim2 Best
Entre0y1 47 58 43 66 41 62 37 36 29
HYUNDAI 33 300.0007
0.9706 35 19 34 22 6 34 22
Nada
HYUNDAI188 174
1 1900 194 218
1 236 274 259 251 259 254 278 260 272 268 340
275 283 OPEL 0.0058 0.8952
OPEL 0 2 2
; PEUGEOT 0.0098 0.5807
proc corresp
PEUGEOT 0 data=lluvia
2 2 all chi2p print=both;
var x1-x18; RENAULT 0.9121 0.0093
RENAULT 1 0 1
id Cantidad;
supplementary x16;
run;
Squared Cosines for the
Column Points

Dim1 Dim2
Si las categorı́as suplementarias se encuentran en las filas, la forma de indicarlo en el
proc corresp 0.9706
HYUNDAI es a través de la sentencia weight, donde debemos indicar una variable que
0.0007
tome el valor −1 en las filas, cuya categorı́as sean suplementarias y, 1, en las demás.
OPEL
La Figura0.0058 0.8952
20 muestra la descomposició de la inercia, ası́ como el test χ2 de Pearson.
Como podemos
PEUGEOT observar,
0.0098 0.5807el p-valor es menor que 0,0001 por lo que se puede rechazar la
hipótesis de independencia. En este caso decidimos retener dos factores (puede verificarse
RENAULT 0.9121 0.0093
esta decisión a partir de las reglas correspondientes).
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 21 junto con la
tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de repre-
sentación para cada modalidad ası́ como de la masa (proporción de datos) y de la inercia.
En cuanto a la calidad se nos indica que todas las categorı́as están bien representadas.
Las contribuciones parciales, ası́ como la tabla de indices, se muestra en la Figura 22.

25
C orres pondence Analys is of E DAD_S E XO by C OC HE _P R E F

OPE L

0.25
Dimens ion 2 (14.97%)

MAD_MAS JO V_F E M

MAY_F E M

0.00 HYUNDAI
R E NAULT

MAD_F E M
MAY_MAS

P E UGE O T
-0.25 JO V_MAS

-0.50 -0.25 0.00 0.25 0.50 0.75

Dimens ion 1 (76.58%)

Figura 20: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)

A la vista de los datos podemos concluir que la primera dimensión está relacionada con
el hecho de llover o no (obsérvese también que la coordenada de la categorı́a “Nada” es la
única que toma un valor negativo). En cuanto a la segunda dimensión, puede explicarse a
partir de la cantidad de lluvia. Las categorı́as con más peso en esta dimensión son “Más
de 10” y “Entre 0 y 1”, siendo sus coordenadas opuestas en signo.
Los cosenos al cuadrado (Figura 22) reinciden en lo anteriormente expuesto. Especial
mención merece la categorı́a “Nada” que centra su peso en la primera dimensión, lo que
refuerza la idea de que la primera dimensión se asocia al hecho de llover o no.
Se repite el proceso para las modalidades columna: las comunidades autónomas. De
nuevo tendremos las coordenadas (Figura 23) que son las proyecciones sobre los dos pri-
meros ejes. La comunalidad de todas es aceptable (La de Castilla-León es algo menor,
debido a su proximidad al origen, pero su masa coincide con la del resto de CCAA). Se
observa que las 4 primeras CCAA de la tabla (las situadas más al norte) presentan mayor
inercia, por lo que serán las que muestren mayores diferencias.
Observamos también la contribución parcial de cada modalidad (Figura 24). En cuanto
a la primera dimensión, las CCAA que mayor contribución tienen son Galicia, Asturias y
Cantabria y, en menor medida, Baleares, Melilla, C. Valenciana y Aragón.
En cuanto a la segunda dimensión, destacan Pais Vasco, La Rioja, Extremadura y
Andalucia. Los cosenos cuadrados refuerzan estas hipótesis.
Por último representamos la gráfica en la Figura 25. En la gráfica se ve como, respecto
a la primera dimensión, las categorı́as fila se ordenan de mayor a menor cantidad de lluvia.
Además, se observa que las categorı́as que implican algo de lluvia, toman valores positivos
en esa dimensión. Desde ese punto de vista, se puede concluir que CCAA como Cantabria
o Paı́s Vasco, entre otras, se asocian con lluvia, mientras que otras Melilla o Murcia se
asocian con falta de la misma.
Con respecto a la segunda dimensión, la categorı́a “Nada” se encuentra muy próxima

26
0.21007 0.04413 273.820 66.13 66.13 *************************
The SAS System
0.13759 0.01893 117.475 28.37 94.50 ***********
11:13 Monday, October 2
The SAS System
0.06057 0.00367 22.762 5.50 100.00 11:13
** Monday, October 26, 2015 8
The CORRESP Procedure
Total 0.06673 414.057 100.00
The CORRESP Procedure
Degrees of Freedom = 48
Inertia and Chi-Square Decomposition
Pr > ChiSq < .0001
Singular
Inertia Principal Chi-
and Chi-Square Cumulative
Decomposition
Value Inertia Square Percent Percent 13 26 39 52 65
Singular Principal Chi- Cumulative ----+----+----+----+----+---
Value Inertia Square Percent Percent 13 26 39 Row
52 Coordinates
65
0.21007 0.04413 273.820 66.13 66.13 *************************
----+----+----+----+----+---
0.21007 0.13759
0.04413 273.820 0.01893
66.13 117.475 66.13 28.37 94.50 ***********
Dim1
************************* Dim2

0.13759 0.06057
0.01893 117.475 0.00367
28.37 22.762 5.50 100.00
94.50 *********** Mas10
**
0.5333 0.4172
Total 0.06673
0.06057 0.00367 22.762 5.50 414.057
100.00100.00
**
Entre1y1 0.2422 -0.1079
Total 0.06673 Degrees
414.057 of100.00
Freedom = 48
Pr=>48
ChiSq < .0001 Entre0y1 0.2077 -0.2464
Degrees of Freedom
Pr > ChiSq < .0001 Nada -0.1410 0.0307
Figura 21: Análisis de la inercia para el Ejemplo 7.3
Row Coordinates
Row Coordinates Summary Statistics for the Row
Dim1 Dim2
Points
Dim1Mas10
Dim2 0.5333 0.4172
Quality Mass Inertia
Mas10 0.5333Entre1y1
0.4172 0.2422
Mas10 -0.1079
0.9933 0.0572 0.3957
Entre1y1 0.2422Entre0y1
-0.1079 0.2077
Entre1y1-0.2464
0.8701 0.1723 0.2085

Entre0y1 0.2077Nada
-0.2464 -0.1410
Entre0y1 0.0307
0.8658 0.1044 0.1878

Nada -0.1410 0.0307 Nada 0.9998 0.6661 0.2079

Summary
Figura 22: Coordenadas Statistics for
y estadı́sticos de the
las Row
filas para el Ejemplo 7.3
Points Partial Contributions to
Summary Statistics for the Row
Inertia for the Row Points
al origen por lo que noPoints Qualityal mismo.
aporta infomación Mass Por Inertia
el contrario, valores positivos
están asociados a grandes cantidades de lluvia, mientras que Dim1 Dim2
valores negativos implican
QualityMas10
Mass Inertia
0.9933 0.0572 0.3957
menos cantidad de lluvia. Ası́, Cantabria y Galicia son las CCAA que más cantidad de
Mas10 0.3688 0.5260
lluvia reciben
Mas10mientras queEntre1y1
0.9933 Asturias
0.0572 y0.3957Navarra0.1723
0.8701 son CCAA 0.2085donde llueve frecuentemente
pero menos cantidad. En otras CCAA como Anadalucia Entre1y1y Extremadura
0.2290 0.1059no llueve frecuen-
Entre1y1
temente pero, cuando0.8701 0.1723
Entre0y1
lo hace, 0.2085
0.8658
la cantidad 0.1044 0.1878
es significativa.
Entre0y1 0.1021 0.3350
Por último, analizamos la comunidad canaria, que ha sido tratado como categorı́a
Entre0y1 0.8658 Nada
0.1044 0.1878
0.9998 0.6661 0.2079
suplementaria debido a sus diferentes caracterı́sticas
Nada geográficas. De esta forma, puede
0.3002 0.0332
ser interpretada
Nada en los mismos términos,
0.9998 0.6661 0.2079 pero no “colabora” en la formación de los ejes.
En particular, observamos que se trata de una CCAA donde llueve muy poco a menudo
(menos que todas las demás CCAA) pero
Partial cuando lo hace,
Contributions
Indices of
las lluvias son
tothe Coordinates That
copiosas.
Inertia for the Row Points Most to Inertia for
Contribute
Partial Contributions to the Row Points
Inertia for the Row Points Dim1 Dim2
Dim1 Dim2 Best
Dim1 Mas10
Dim2 0.3688 0.5260
Mas10 2 2 2
Mas10 0.3688 Entre1y1
0.5260 0.2290 0.1059
Entre1y1 1 0 1
Entre1y1 0.2290 Entre0y1
0.1059 0.1021 0.3350
Entre0y1 0 2 2
Entre0y1 0.1021 Nada
0.3350 0.3002
Nada 0.0332 1 0 1

Nada 0.3002 0.0332

Indices of the Coordinates That

Contribute Most27 to Inertia for
Indices of the Coordinates the
ThatRow Points
Contribute Most to Inertia for
the Row Points Dim1 Dim2 Best

Dim1 Mas10
Dim2 Best 2 2 2
Entre0y1 0.8658 0.1044 0.1878
Entre0y1 0.1021 0.3350
The SAS System
Nada 0.9998 0.6661 0.2079 Nada
The SAS System 0.3002 0.0332 11:13 Monday, October 26, 2015 9
The CORRESP Procedure
The CORRESP Procedure
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Row Points Contribute Most to Inertia for Row Points
Squared Cosines for the the Row Points
Row
Dim1Points
Dim2 Dim1 Dim2
Dim1 Dim2 Best
Mas10 0.3688 Dim1
0.5260 Dim2 Mas10 0.6162 0.3771
Mas10 2 2 2
Entre1y1
Mas10 0.2290 0.10590.3771
0.6162 Entre1y1 0.7260 0.1440
Entre1y1 1 0 1

Entre0y1 0.1021
Entre1y1 0.33500.1440
0.7260 Entre0y1 0 2 2 Entre0y1 0.3596 0.5062

NadaEntre0y1
0.3002 0.03320.5062
Nada 1 0 1 Nada 0.9546 0.0452
0.3596
The SAS System 11
Nada
Figura 0.9546 0.0452
23: Contribuciones parciales y cosenos al cuadrado de las filas (Ejemplo 7.3)
Indices of the Coordinates That The CORRESP Procedure
Column Coordinates
Contribute Most to Inertia for
the Row Points Dim1 Dim2
Column Coordinates Summary Statistics for the Column Points
Galicia 0.3820 0.1278
Dim1 Dim2 Best
Dim1 Dim2 Quality Mass Inertia
Asturias 0.4015 -0.0666
Mas10 2 2 2
Galicia 0.3820 0.1278 Galicia 0.9901 0.0588 0.1445
Cantabria 0.3776 0.1548
Entre1y1 1 0 1
Asturias 0.4015 -0.0666 Asturias 1.0000 0.0588 0.1460
Pais Vasco 0.2144 -0.2635
Entre0y1 0 2 2
Cantabria 0.3776 0.1548 Cantabria 0.9986 0.0588 0.1471
Navarra 0.1095 -0.1178
Nada 1 0 1
Pais Vasco 0.2144 -0.2635 Pais Vasco 0.9956
La Rioja 0.0588 0.1022
-0.0355 -0.2516

Navarra 0.1095 -0.1178 Navarra 0.6566

Aragon 0.0588 0.0347
-0.2141 -0.0778

La Rioja -0.0355 -0.2516 La Rioja 0.8642

Cataluña 0.0588 0.0658
-0.0704 0.0718

Aragon -0.2141 -0.0778 Aragon CastillaLeon

0.9919 -0.0538
0.0588 -0.0041
0.0461

Cataluña -0.0704 0.0718 Cataluña Madrid0.6856 -0.1146

0.0588 -0.0454
0.0130

CastillaLeon -0.0538 -0.0041 CastillaLaMancha -0.0883 -0.0509

CastillaLeon 0.2550 0.0588 0.0101
C.Valenciana -0.2067 0.0120
Madrid -0.1146 -0.0454 Madrid 0.8646 0.0588 0.0155
Extremadura -0.0374 0.2051
CastillaLaMancha -0.0883 -0.0509 CastillaLaMancha 0.4922 0.0588 0.0186
Murcia -0.1914 -0.0436
C.Valenciana -0.2067 0.0120 C.Valenciana 0.9007 0.0588 0.0419
Andalucia -0.0711 0.2398
Extremadura -0.0374 0.2051 Extremadura 0.9528 0.0588 0.0402
Baleares -0.1950 -0.0040
Murcia -0.1914 -0.0436 Murcia 0.9999 0.0588 0.0340
Melilla -0.2068 0.1139
Andalucia -0.0711 0.2398 Andalucia 0.9789 0.0588 0.0563

Baleares -0.1950 -0.0040 Baleares 0.9651 0.0588 0.0347

Supplementary Column
Melilla -0.2068 0.1139 Coordinates
Melilla 0.9992 0.0588 0.0492
Dim1 Dim2
Figura 24: Coordenadas y estadı́sticos de las columnas para el Ejemplo 7.3
Canarias -0.5301 0.1899
Supplementary Column Quality of
Coordinates Representation for
28 the Supplementary
Dim1 Dim2 Column Points
Canarias -0.5301 0.1899 Canarias 0.9997
The CORRESP Procedure

Indices of the Coordinates That

Contribute Most to Inertia for the
Column Points

Dim1 Dim2 Best

Andalucia 0 2 2

Baleares 0 0 1
The SAS System 11:13 Monday, October 26, 2015 11
Melilla 1 0 1
The CORRESP Procedure

Partial Contributions to Inertia for Squared Cosines for the Column

the Column Points Points

Dim1 Dim2 Dim1 Dim2

Galicia 0.1945 0.0508 Galicia 0.8904 0.0997

Asturias 0.2149 0.0138 Asturias 0.9732 0.0268

Cantabria 0.1901 0.0745 Cantabria 0.8549 0.1437

Pais Vasco 0.0613 0.2157 Pais Vasco 0.3966 0.5990

Navarra 0.0160 0.0431 Navarra 0.3042 0.3524

La Rioja 0.0017 0.1967 La Rioja 0.0168 0.8474

Aragon 0.0611 0.0188 Aragon 0.8763 0.1155

Cataluña 0.0066 0.0160 Cataluña 0.3360 0.3497

CastillaLeon 0.0039 0.0001 CastillaLeon 0.2535 0.0015

Madrid 0.0175 0.0064 Madrid 0.7474 0.1172

CastillaLaMancha 0.0104 0.0080 CastillaLaMancha 0.3694 0.1228

C.Valenciana 0.0569 0.0004 C.Valenciana 0.8977 0.0030

Extremadura 0.0019 0.1307 Extremadura 0.0306 0.9222

Murcia 0.0488 0.0059 Murcia 0.9505 0.0494

Andalucia 0.0067 0.1787 Andalucia 0.0791 0.8998

Baleares 0.0507 0.0000 Baleares 0.9647 0.0004

Melilla 0.0570 0.0403 Melilla 0.7666 0.2326

Figura 25: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.3)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for the Supplementary Column
Column Points Points
Dim1 Dim2 Best Dim1 Dim2
Galicia 1 1 1 Canarias 0.8860 0.1137
Asturias 1 0 1

Cantabria 1 1 1

Pais Vasco 2 2 2
29
Navarra 0 0 2

La Rioja 0 2 2

Aragon 1 0 1

Cataluña 0 0 2
The SAS System 11:13 Monday, October 26, 2015 13

The CORRESP Procedure

Correspondence Analysis

Mas10
0.4

Andalucia
Dimension 2 (28.37%)

0.2 Canarias
Extremadura Cantabria
Melilla
Cataluña Galicia

C.Valenciana
0.0 Baleares Nada CastillaLeon
Madrid
Murcia Asturias
CastillaLaMancha
Aragon Navarra
Entre1y1

-0.2
La Rioja Entre0y1

Pais Vasco

-0.4 -0.2 0.0 0.2 0.4

Dimension 1 (66.13%)
Row Column Sup Col

Figura 26: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)

También podría gustarte

Lebart ACS
Aún no hay calificaciones
Lebart ACS
44 páginas
Análisis de Correspondencias Matemáticas
Aún no hay calificaciones
Análisis de Correspondencias Matemáticas
10 páginas
Análisis de Correspondencias con XLSTAT
0% (1)
Análisis de Correspondencias con XLSTAT
48 páginas
Análisis de Correspondencia Simple
Aún no hay calificaciones
Análisis de Correspondencia Simple
15 páginas
Análisis de Correspondencias: Guía Completa
Aún no hay calificaciones
Análisis de Correspondencias: Guía Completa
22 páginas
Análisis de Datos Transversales en Estadística
Aún no hay calificaciones
Análisis de Datos Transversales en Estadística
48 páginas
Estadistica Unidad Iii y Iv
Aún no hay calificaciones
Estadistica Unidad Iii y Iv
83 páginas
Analisis de Correspondencia
Aún no hay calificaciones
Analisis de Correspondencia
17 páginas
Prácticas de Estadística con Statgraphics
Aún no hay calificaciones
Prácticas de Estadística con Statgraphics
10 páginas
Análisis de Datos y Medidas Estadísticas
Aún no hay calificaciones
Análisis de Datos y Medidas Estadísticas
21 páginas
Conceptos Clave de Estadística Básica
Aún no hay calificaciones
Conceptos Clave de Estadística Básica
79 páginas
T02 Descripcion Univariante
Aún no hay calificaciones
T02 Descripcion Univariante
71 páginas
Tema 2 Bioestadística
Aún no hay calificaciones
Tema 2 Bioestadística
3 páginas
Practica 1 Con Statgraphics
Aún no hay calificaciones
Practica 1 Con Statgraphics
14 páginas
Repartido 1 de ESTADÍSTICA 6TO CB-SH V2022
Aún no hay calificaciones
Repartido 1 de ESTADÍSTICA 6TO CB-SH V2022
13 páginas
Unidad 4 D5 PDF
Aún no hay calificaciones
Unidad 4 D5 PDF
13 páginas
Clase 3
Aún no hay calificaciones
Clase 3
18 páginas
Unidad VI-Teoría-No-Paramétrica
Aún no hay calificaciones
Unidad VI-Teoría-No-Paramétrica
42 páginas
Formulas Estadistica
Aún no hay calificaciones
Formulas Estadistica
20 páginas
Glosario de Estadística Descriptiva
Aún no hay calificaciones
Glosario de Estadística Descriptiva
8 páginas
Estado Del Arte Del Modelo
Aún no hay calificaciones
Estado Del Arte Del Modelo
7 páginas
Introduccion
Aún no hay calificaciones
Introduccion
49 páginas
Estadística PRINCIPIOS
Aún no hay calificaciones
Estadística PRINCIPIOS
26 páginas
Estadística Descriptiva
Aún no hay calificaciones
Estadística Descriptiva
53 páginas
Análisis de Conglomerados 2022
Aún no hay calificaciones
Análisis de Conglomerados 2022
9 páginas
Introducción a la Estadística Moderna
Aún no hay calificaciones
Introducción a la Estadística Moderna
20 páginas
Introducción a la Estadística
Aún no hay calificaciones
Introducción a la Estadística
29 páginas
Conceptos Clave de Estadística Básica
Aún no hay calificaciones
Conceptos Clave de Estadística Básica
78 páginas
Introducción a Tablas de Frecuencia y Estadística
Aún no hay calificaciones
Introducción a Tablas de Frecuencia y Estadística
6 páginas
Conceptos Básicos de Estadística
Aún no hay calificaciones
Conceptos Básicos de Estadística
78 páginas
Tarea # 2 Estadística I
Aún no hay calificaciones
Tarea # 2 Estadística I
11 páginas
Estadística Descriptiva Básica
Aún no hay calificaciones
Estadística Descriptiva Básica
31 páginas
Apuntes Filminas Unidad IIII. Análisis de Variables Cuantitativas I Sem 2024
Aún no hay calificaciones
Apuntes Filminas Unidad IIII. Análisis de Variables Cuantitativas I Sem 2024
83 páginas
Introduccion Al Analisis de Datos
Aún no hay calificaciones
Introduccion Al Analisis de Datos
29 páginas
Monografia Hoy
Aún no hay calificaciones
Monografia Hoy
18 páginas
Etadística
Aún no hay calificaciones
Etadística
37 páginas
Estadistica Analisis Datos Investigación
Aún no hay calificaciones
Estadistica Analisis Datos Investigación
37 páginas
Estadística
Aún no hay calificaciones
Estadística
26 páginas
AFC Spss
Aún no hay calificaciones
AFC Spss
20 páginas
Estadistica 1parcial
Aún no hay calificaciones
Estadistica 1parcial
27 páginas
Unidad 2. Material Nivelación E y M
Aún no hay calificaciones
Unidad 2. Material Nivelación E y M
19 páginas
11BARANGER - Cap 6 Introducción Al Análisis de Correspondencia
Aún no hay calificaciones
11BARANGER - Cap 6 Introducción Al Análisis de Correspondencia
18 páginas
ME6 Estdescriptiva
Aún no hay calificaciones
ME6 Estdescriptiva
21 páginas
Ejemplo Analisis
Aún no hay calificaciones
Ejemplo Analisis
1 página
Estadistica I
Aún no hay calificaciones
Estadistica I
26 páginas
Estadistica Concepto Basicos 2020
Aún no hay calificaciones
Estadistica Concepto Basicos 2020
91 páginas
Límites Exactos y Medidas Estadísticas
Aún no hay calificaciones
Límites Exactos y Medidas Estadísticas
21 páginas
SpssBas Analisisdescriptivo
Aún no hay calificaciones
SpssBas Analisisdescriptivo
37 páginas
Soluciones de Sistemas Diferenciales
100% (3)
Soluciones de Sistemas Diferenciales
33 páginas
Informe de Consistencia
Aún no hay calificaciones
Informe de Consistencia
20 páginas
Ley de Raoult
Aún no hay calificaciones
Ley de Raoult
3 páginas
Tarea 3 de Estadística
Aún no hay calificaciones
Tarea 3 de Estadística
4 páginas
REPORTE #2.como Realizar Un Cable para Una Conexión Punto A Punto
100% (2)
REPORTE #2.como Realizar Un Cable para Una Conexión Punto A Punto
12 páginas
Calorimetría y Electroquímica: Problemas Resueltos
Aún no hay calificaciones
Calorimetría y Electroquímica: Problemas Resueltos
3 páginas
Manual de La Cocinadora de Huevos Oster
Aún no hay calificaciones
Manual de La Cocinadora de Huevos Oster
8 páginas
Circuitos Resistivos y Capacitivos
Aún no hay calificaciones
Circuitos Resistivos y Capacitivos
9 páginas
Libro de Matemáticas de Quinto Grado PDF
Aún no hay calificaciones
Libro de Matemáticas de Quinto Grado PDF
3 páginas
Manual Inventor PDF
100% (2)
Manual Inventor PDF
168 páginas
Reto
Aún no hay calificaciones
Reto
8 páginas
Estados Financieros Del Norte. S. A. - Resuelto
Aún no hay calificaciones
Estados Financieros Del Norte. S. A. - Resuelto
13 páginas
Concepto de Escala
87% (15)
Concepto de Escala
2 páginas
Módulo MCE-520/EV: Medición de Espesor
Aún no hay calificaciones
Módulo MCE-520/EV: Medición de Espesor
1 página
Movimiento Armónico Simple: Conceptos Clave
Aún no hay calificaciones
Movimiento Armónico Simple: Conceptos Clave
4 páginas
Estructura y Diseño de Techumbres
Aún no hay calificaciones
Estructura y Diseño de Techumbres
42 páginas
Manual Policharger
Aún no hay calificaciones
Manual Policharger
14 páginas
RM 9
Aún no hay calificaciones
RM 9
7 páginas
Distribución Hipergeométrica
Aún no hay calificaciones
Distribución Hipergeométrica
3 páginas
Características del Tejido Epitelial
Aún no hay calificaciones
Características del Tejido Epitelial
9 páginas
Práctica-1 Fisica para Informaticos
Aún no hay calificaciones
Práctica-1 Fisica para Informaticos
8 páginas
FICHA DE TRABAJO-REFUERZO ESCOLAR-CICLO VII-UA5-2024sc
Aún no hay calificaciones
FICHA DE TRABAJO-REFUERZO ESCOLAR-CICLO VII-UA5-2024sc
3 páginas
Análisis Matemático II para Economistas
Aún no hay calificaciones
Análisis Matemático II para Economistas
13 páginas
Universidad Técnica de Ambato Facultad de Ingeniería Civil Y Mecánica Carrera de Ingeniería Mecánica
Aún no hay calificaciones
Universidad Técnica de Ambato Facultad de Ingeniería Civil Y Mecánica Carrera de Ingeniería Mecánica
8 páginas
Trabajo Grupo II
Aún no hay calificaciones
Trabajo Grupo II
17 páginas
EG 2022 I Silabo
Aún no hay calificaciones
EG 2022 I Silabo
9 páginas
Listado de Transacciones MM
Aún no hay calificaciones
Listado de Transacciones MM
2 páginas
Open Water Diver Ads: Manual: Introducción y Generalidades Del Buceo
Aún no hay calificaciones
Open Water Diver Ads: Manual: Introducción y Generalidades Del Buceo
12 páginas
Cuáles Son Los Elementos Del Clima
100% (1)
Cuáles Son Los Elementos Del Clima
10 páginas
Verificación de Taquímetros en Obra
Aún no hay calificaciones
Verificación de Taquímetros en Obra
1 página