0% encontró este documento útil (0 votos)
120 vistas30 páginas

An Alisis Factorial de Correspondencias Simples: 1. Introducci On

El documento presenta el Análisis de Correspondencias Simples (ACS) para visualizar tablas de frecuencias de dos variables cualitativas y detectar las relaciones entre ellas. El ACS calcula los perfiles fila y columna a partir de la tabla de contingencia para estudiar la asociación entre las variables. Se evalúa la hipótesis de independencia comparando los perfiles observados con los perfiles medios teóricos para variables independientes.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
120 vistas30 páginas

An Alisis Factorial de Correspondencias Simples: 1. Introducci On

El documento presenta el Análisis de Correspondencias Simples (ACS) para visualizar tablas de frecuencias de dos variables cualitativas y detectar las relaciones entre ellas. El ACS calcula los perfiles fila y columna a partir de la tabla de contingencia para estudiar la asociación entre las variables. Se evalúa la hipótesis de independencia comparando los perfiles observados con los perfiles medios teóricos para variables independientes.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Análisis Factorial de Correspondencias Simples

1. Introducción
Analizar la relación existente entre pares de variables es un objetivo muy frecuente
dentro de la minerı́a de datos. Cuando se trabaja con variables cuantitativas es relativa-
mente sencillo detectar dichas relaciones a partir de los diagramas de dispersión, en los
cuales se representan las observaciones de las variables enfrentadas.
No obstante, cuando se trata de variables cualitativas, su representación gráfica no es
tan directa. El objetivo del Análisis de Correspondencias Simple (ACS) es la visualización
de Tablas de frecuencias de dos variables cualitativas, de forma que sea posible detectar
las relaciones existentes entre las variables.
Una Tabla de Contingencia (o de frecuencias) se obtiene al cruzar dos variables nomi-
nales y repartir una población (o muestra) según el número de individuos que presentan
una categorı́a de cada una de las variables. El conjunto de columnas de la tabla designa
las modalidades de una variable mientras que el conjunto de filas corresponde a las mo-
dalidades de la otra variable. Las filas y las columnas (que determinan dos particiones de
una población) juegan papeles simétricos y se tratan de forma análoga. Vamos a utilizar
el siguiente ejemplo para ilustrar el desarrollo del tema:

Ejemplo 1 Consideremos la tabla de contingencia (o de frecuencias) con r filas y c co-


lumnas obtenida al repartir una muestra de 592 mujeres según sus colores de ojos y de
cabello de la Tabla 1.

Tabla 1: Tabla de contingencia (Ejemplo 1)


Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 68 119 26 7 220
Avellana 15 54 14 10 93
Color de ojos Verde 5 29 14 16 64
Azul 20 84 17 94 215
Total 108 286 71 127 592

Las filas (que representan a la variable color de ojos) tienen r = 4 modalidades, al igual
que ocurre con las columnas (que representan a la variable color de pelo), pues tienen c = 4
modalidades.

A continuación, definimos la notación que emplearemos para referirnos a las tablas de


contingencia:

kij representa la frecuencia absoluta de datos de la modalidad i de la variable fila


(en el ejemplo, color de ojos) y la modalidad j de la variable columna (en el ejemplo,
color del cabello).

1
Pc
ki· = j=1 kij representa el total de la fila i-ésima.
Pr
k·j = i=1 kij representa el total de la columna j-ésima.
Pr Pc Pc Pc
n = k·· = i=1 j=1 kij = j=1 k·j = i=1 ki· es el total global,

que, en términos de frecuencias relativas, dan lugar a las siguientes relaciones:

kij ki· k·j


fij =
fi· = f·j = .
k·· k·· k··
La Tabla 2 muestra las frecuencias relativas del Ejemplo 1.

Tabla 2: Frecuencias relativas (Ejemplo 1)


Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,11 0,20 0,04 0,01 0,37
Avellana 0,03 0,09 0,02 0,02 0,16
Color de ojos Verde 0,01 0,05 0,02 0,03 0,11
Azul 0,03 0,14 0,03 0,16 0,36
Total 0,18 0,48 0,12 0,21 1,00

El Análisis de Correspondencias trata de responder a las preguntas: ¿hay independen-


cia entre el color de ojos y el de cabellos? En caso afirmativo, ¿qué tipo de asociación se
da entre estos colores? Para intentar responder a esta pregunta, debemos analizar deteni-
damente la tabla de contingencia.

2. Análisis de la tabla de contingencia


2.1. Perfiles fila y perfiles columna
Para estudiar la relación entre las dos variables recogidas en la Tabla de Contingencia,
debemos obtener los denominados perfiles (fila y columna) que representan el reparto en
porcentajes del interior de las filas y de las columnas, respectivamente.
fij kij
Perfiles fila: fi· = ki·
fij kij
Perfiles columna: f·j = k·j
P fij
Perfil fila medio: f·j = i fi· fi·
f
f·j fij
P
Perfil columna medio: fi· = j ·j

Matricialmente podemos calcular los perfiles fila y columna de la siguiente forma:


XF = DF−1 F −1
XC = F DC ,
donde XF (r × c) y XC (r × c) son los perfiles fila y columna, respectivamente, F =
{fij } (r × c) es la matriz de frecuencias relativas y DF = diag(fi· ) (r × r) y DC =
diag(f·j ) (c × c) son las matrices diagonal que contienen las marginales de las filas y las
columnas, respectivamente.
Las Tablas 3 y 4 muestran los perfiles fila y columna del Ejemplo 1, respectivamente.
Se puede comprobar, entre otros, que el 54 % de las mujeres con ojos marrones tiene el
cabello castaño, mientras que sólo el 5 % de las morenas tiene los ojos verdes. Por otro
lado, los perfiles medios de ambas tablas nos indican la proporción total de mujeres con un
determinado color de cabello y ojos respectivamente.

2
Tabla 3: Perfiles fila (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,31 0,54 0,12 0,03 1
Avellana 0,16 0,58 0,15 0,11 1
Color de ojos Verde 0,08 0,45 0,22 0,25 1
Azul 0,09 0,39 0,08 0,44 1
Total 0,18 0,48 0,12 0,21

Tabla 4: Perfiles columna (Ejemplo 1)


Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,63 0,42 0,37 0,06 0,37
Avellana 0,14 0,19 0,20 0,08 0,16
Color de ojos Verde 0,05 0,10 0,20 0,13 0,11
Azul 0,19 0,29 0,24 0,74 0,36
Total 1,00 1,00 1,00 1,00

2.2. Hipótesis de independencia


Como ya se ha señalado anteriormente, uno de los objetivos del ACS es determinar si
existe algún tipo de asociación entre las variables en estudio pues, de no ser ası́, representar
las mismas no aportará información relevante.
En el caso que nos ocupa, consideramos que dos variables son independientes cuando
el valor que toma una variable no influye en la distribución de la otra. En términos de
perfiles, dos variables son independientes cuando los perfiles fila (o columna) son (aproxi-
madamente) iguales a los perfiles medios (o, equivalentemente, son iguales entre sı́). En ese
caso, la probabilidad de que una de las variables tome un determinado valor no dependerá
del valor que tome la otra variable.
En primer lugar veremos cómo evaluar la hipótesis de independencia de forma gráfica.
Es importante tener en cuenta que la representación gráfica sólo nos ofrece una idea general
sobre la dependencia de las variables, pero debemos recurrir a tests estadı́sticos para poder
mantener (o rechazar) dicha hipótesis.
Centrandonos en los perfiles fila, podemos considerar las filas como observaciones y las
columnas como variables (dado que la suma de los perfiles es 1, el espacio tendrá dimensión
c − 1). Dado que la escala de los perfiles es la misma (entre 0 y 1), podemos representarlos
en un mismo gráfico. Veámos cómo hacerlo en el ejemplo que nos ocupa.
La Figura 1 muestra la representación de los perfiles fila del Ejemplo 1. Como se pue-
de observar, hay diferencias entre los perfiles; vease, por ejemplo, la diferencia entre los
perfiles asociados a los ojos azules y marrones. Sin embargo, gráficamente es difı́cil deter-
minar si estas diferencias se deben sólo al azar o si, por el contrario, existe una relación
de dependencia entre las variables. En la siguiente sección veremos cómo obtener medidas
numéricas que nos permitan determinar si la relación entre las variables es significativa o
no.
No obstante, la representación de los perfiles ofrece información acerca de las posibles
relaciones entre categorı́as. La Figura 1 nos indica que hay cierta relación entre el pelo
rubio y los ojos azules y entre el pelo moreno y los ojos marrones.
Como ya se ha comentado, consideraremos los perfiles fila como observaciones de las
variables columna, siendo ası́ posible calcular la distancia entre las observaciones y la

3
Figura 1: Representación de los perfiles fila (Ejemplo 1)

media para obtener una medida global del parecido de los perfiles. Es importante tener en
cuenta que no todas las observaciones tienen el mismo peso dado que representan a una
proporción de la población distinta. Ası́, la nube de puntos dada n por los perfiles fila
o está
f
formada por los puntos i de masa fi· con coordenadas en Rc : fiji· , j = 1, 2, . . . , c cuyo
centro de gravedad es la media de los perfiles fila ponderados por sus respectivas masas y
equivale a f·j .
Una primera aproximación para la obtención de una medida total podrı́a ser el cálculo
de las distancias euclı́deas entre los perfiles y el perfil medio. No obstante, la distancia
euclı́dea tiene el inconveniente de que pondera igual todas las coordenadas de un punto,
lo que implica que las distancias entre las categorı́as que mejor representadas estén tenga
más peso (en particular, una distancia de 0,02 entre perfiles que rondan los valores 0,05 y
0,1 no implica la misma diferencia que entre perfiles que roden los valores 0,7 y 0,8). Para
remediar ésto, y también por otras propiedades, se utiliza la distancia χ2 , la cual pondera
cada desviación por la inversa de la masa de la columna.
Ası́, la distancia χ2 total asociada a los perfiles fila viene dada por:
X X 1  fij 2
Dχ2 = fi· − f·j
f·j fi·
i j

La distancia χ2 , permite agregar dos modalidades de una misma variable si poseen


perfiles idénticos en una nueva modalidad cuya masa será la suma de sus masas.
Esta propiedad es fundamental porque garantiza una cierta invarianza de los resultados
independientemente de la nomenclatura elegida para la construcción de las modalidades.
Además, no se pierde información al agregar ciertas clases ni se gana mas información
subdividiéndolas en clases más homogéneas.
Gracias a la distancia chi-cuadrado Dχ2 podemos contar con una medida de las di-
ferencias entre los perfiles. No obstante, serı́a deseable poder comparar esta medida con

4
algún otro ı́ndice, de forma que podamos determinar si las diferencias observadas son
suficientemente grandes para descartar la hipótesis de independencia, o no.
Para ello, podemos recurrir al test clásico χ2 de Pearson para tablas de contingencia
que permite evaluar las desviaciones de una muestra al valor teórico previsto bajo la
hipótesis a contrastar (llamada hipótesis nula). Como ya se ha visto, en nuestro caso la
hipótesis nula es la independencia de las variables, que se traduce en la igualdad de los
perfiles al perfil medio:
fij
= f·j ⇔ fij = fi· f·j
fi·
Por lo tanto, bajo la hipótesis de independencia, cabrı́a esperar que las frecuencias
relativas observadas se asemejaran a las esperadas fˆij = fi· f·j (o, equivalentemente, que
n n
las frecuencias absolutas se asemejarán a las esperadas n̂ij = i·n ·j ). El estadı́stico chi-
cuadrado asociado al test de Pearson viene dado por:

X (nij − n̂ij )2 X (fij − fi· f·j )2 X fi· (fij − fi· f·j )2


χ2 = =n =n
i,j
n̂ij
i,j
fi· f·j
i,j
f·j fi·2
X X 1  fij 2
=n fi· − f·j = nDχ2 .
f·j fi·
i j

Este estadı́stico se distribuye según una distribución χ2 con (r − 1)(c − 1) grados de


libertad, lo que nos permite obtener un valor crı́tico a partir del cuál se puede considerar
que las diferencias entre lo observado y lo esperado son los suficientemente grandes como
para rechazar la hipótesis nula con una probabilidad pequeña (α) de error.
Las Tablas 5 y 6 muestran las frecuencias esperadas y las aportaciones al estadı́stico
χ , respectivamente. Podemos observar que el estadı́stico χ2 toma un valor igual 138, 29.
2

Dado que para cualquier α razonable 138,29 > χ29 (α) (por ejemplo, χ29 (0,001) = 27,88),
podemos rechazar la hipótesis de independencia. Una vez comprobado que las variables
están relacionadas, resta comprobar qué tipo de asociación se da entre el color de ojos y
el de cabello. Para ello, recurrimos al ACS.

Tabla 5: Frecuencias esperadas (Ejemplo 1)


Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,07 0,18 0,04 0,08 0,37
Avellana 0,03 0,08 0,02 0,03 0,16
Color de ojos Verde 0,02 0,05 0,01 0,02 0,11
Azul 0,07 0,18 0,04 0,08 0,36
Total 0,18 0,48 0,12 0,21 1,00

Es importante darse cuenta de que las aportaciones al estadı́stico χ2 de los cruces de


categorı́as también aportan información relevante pues nos indican cuánto se alejan las
frecuencias observadas y las esperadas. De esta forma, si la aportación es pequeña, esto
querrá decir que la frecuencia observada de ese cruce coincide con la de la hipótesis de
independencia y, por tanto, no existirá relación entre dichas categorı́as. Por el contrario, si
las frecuencias observadas y esperadas difieren mucho (tanto por exceso como por defecto)
la aportación al estadı́stico χ2 será grande indicando que existe relación entre dichas
categorı́as (esta relación puede ser directa o inversa).

5
Tabla 6: Aportaciones al estadı́stico χ2 (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 19,35 1,52 0,01 34,23 55,11
Avellana 0,23 1,83 0,73 4,96 7,75
Color de ojos Verde 3,82 0,12 5,21 0,38 9,52
Azul 9,42 3,80 2,99 49,70 65,91
Total 32,81 7,27 8,94 89,27 138,29

Figura 2: Aportaciones al estadı́stico χ2 (Ejemplo 1)

Para poder sacar conclusiones más rápidamente sobre las aportaciones, se puede cons-
truir un gráfico (denominado mapa de calor) que nos indicará entre qué categorı́as hay
más relación.
Un gráfico de este tipo se encuentra en la Figura 2, donde se puede observar que las
categorı́as entre las que más relación existe son: Azul - Rubio, Marrón - Rubio y Marrón
- Moreno.

Debido a la simetrı́a existente entre las variables fila y columna, el análisis an-
terior puede realizarse para los perfiles columna sin más que modificar las fórmulas
correspondientemente. Por ejemplo, el contraste χ2 viene dado por:
X X 1  fij 2
χ2 = n f·j − fi·
fi· f·j
j i

6
2.3. Inercia
La inercia (I) es una medida de la dispersión de la nube de puntos equiparable a la
varianza de datos numéricos. Coincide con la cantidad Dχ2 definida anteriormente por lo
que representa la distancia χ2 de los perfiles al perfil medio ponderados por la masa de los
perfiles (de ahı́ la similitud con la varianza, que está formada por las distancias cuadráticas
a la media). Lógicamente, la inercia nos permite evaluar la hipótesis de indepencia también.
Algunos autores proponen que, si la raı́z cuadrada de la inercia total es mayor que 0,2 (o,
equivalentemente, la inercia es mayor que 0,04), entonces existe asociación significativa.
La inercia de los datos asociados al Ejemplo 1 es 138,29 512 = 0,2336. Dado que la raiz de
la inercia toma el valor de 0,4833 > 0,2, el criterio de la inercia también nos indica que
hay asociación significativa entre el color de ojos y de cabello.

3. Análisis de correspondencias simple


Como ya se indicó previamente, el objetivo del ACS es determinar la relación existente
entre dos variables categóricas de manera gráfica. Dado que el número de categorı́as de
las variables hacen imposible su representación en sus espacios originales, cuya dimensión
es c − 1 y r − 1 (dado que no podemos representar ni imaginar espacios de más de tres
dimensiones), el ACS busca representar los datos en espacios más reducidos y que, por
tanto, sean representables en gráficos clásicos de dispersión, intentando reducir al máximo
la pérdida de información.
A partir de la teorı́a del análisis de componentes principales es posible reducir la dimen-
sionalidad de los perfiles fila (o columna) si se consideran las filas (columnas, respectiva-
mente) como observaciones y las columnas (filas, respectivamente) como variables. De esa
forma, podrı́amos obtener un gráfico que nos permitiese observar en una dimensión menor
las relaciones existentes entre las categorı́as de la variable fila (columna, respectivamente).
No obstante, serı́a deseable contar con una representación simultánea de ambas variables
que nos permitiese establecer las relaciones entre las categorı́as de ambas variables y no
sólo entre las categorı́as de una misma variable. Para ello, tomaremos el perfil de la varia-
ble con menos categorı́as y reduciremos su dimensión para, a continuación, representar la
otra variable en los mismos ejes.

3.1. Fundamentos del ACS


El primer paso en el ACS consiste en transformar las variables para poder trabajar
con ella de manera análoga al ACP. Las transformaciones que se aplican a los perfiles fila
y columna permiten trabajar con distancias euclı́deas dando lugar a los mismos resultados
que si trabajásemos con los perfiles originales utilizando la distancia χ2 .
2 X X !2
X X 1  fij fij f·j
I = D χ2 = fi· − f·j = fi· p −p
f·j fi· fi· f·j f·j
i j i j
!2
X X fij p
= fi· p − f·j
i j
fi· f·j

Por lo que la nube de puntos de los perfiles fila transformados viene dada por los puntos
f
i con masa fi· y coordenadas √ij . Matricialmente, se dan las siguientes relaciones:
fi· f·j

−1/2 −1/2 −1/2 −1/2


YF = XF DC = DF−1 F DC YC = D F XC = DF −1
F DC ,

7
donde YF (r × c) y YC (r × c) son los perfiles fila y columna transformados, respecti-
vamente.
Igual que ocurre con el análisis de componentes principales, buscamos proyectar los
puntos en nuevos ejes de forma que se maximice la variabilidad conservada (o equiva-
lentemente, se minimice la pérdida de variabilidad). En nuestro caso, la medida de la
variabilidad es la inercia.
Sea u el vector director del eje sobre el que proyectar los perfiles fila transformados.
Entonces, las observaciones en los nuevos ejes vendrán dados por YF u. Dado que buscamos
preservar la mayor cantidad posible de inercia, debemos encontrar el vector u que maximice
esa cantidad. Matricialmente,

−1/2 −1/2
máx u0 YF0 DF YF u = máx u0 DC F 0 DF−1 DF DF−1 F DC u
−1/2 −1/2 −1/2 −1/2
= máx u0 DC F 0 DF DF F DC u
0 0
= máx u Z Zu,

−1/2 −1/2
donde Z = DF F DC . Por las propiedas algebraicas ya vistas en el ACP, sabemos
que los vectores que maximizan esta cantidad son los autovectores de la matriz Z 0 Z,
que, además, pueden ordenarse por importancia según su autovalor asociado, que coincide
con la cantidad de inercia recogida por dichos autovectores (que no son más que los ejes
de proyección). Por lo tanto, la inercia total de los datos coincide con la suma de los
autovalores no triviales.
Es importante destacar que la cantidad maximizada no es exactamente la inercia pues
los datos no están centrados en el origen. No obstante, se puede demostrar que los auto-
vectores resultantes coinciden por lo que, de esta forma, se obtienen los mismos resultados
a partir de operaciones más simples.
Análogamente, se pueden obtener los ejes de máxima inercia de los perfiles columna
sobre el vector director v del eje (de nuevo denotaremos por V la matriz que contiene los
vectores directores de los ejes) como:
−1/2 −1 −1 0 −1/2
máx v 0 YC DC YC0 v = máx v 0 DF F DC DC DC F DF v
−1/2 −1/2 −1/2 −1/2
= máx v 0 DF F DC DC F 0 DF v
0 0
= máx v ZZ v,

cuya solución la componen los autovectores de la matriz ZZ 0 .


Como veremos más adelante, se puede establecer una relación entre los autovalores y
los autovectores asociados a los perfiles fila y columna.

3.2. Reglas para determinar el número de factores a retener


Una vez que hemos comprobado la existencia de dependencia entre filas y columnas, se
debe decidir el número de factores a retener. Existen multitud de reglas para determinar
este número. Las principales son las siguientes:

A nivel práctico el mejor criterio es tomar sólo los dos o tres primeros ejes significa-
tivos siempre que estos expliquen una variabilidad aceptable (por encima del 70 %
en el caso de datos reales) ya que esta técnica es primordialmente gráfica.
 
I
Elegir aquellas dimensiones cuya inercia sea superior a la media min{r−1,c−1} . Esta
regla recibe el nombre en la literatura de average rule.

8
Debido a las similitudes con el Análisis de Componentes Principales, también se
puede utilizar la gráfica de Cattell (o de sedimentación o scree plot). Consiste en
representar la inercia de los factores y descartar aquellos que se encuentren “después
del codo”.

También podemos realizar el contraste de Malinvaud, que evalúa la hipótesis: H0 :


λm+1 = λm+2 = · · · = λmin{r−1,c−1} = 0, es decir m factores a retener son suficientes
o, lo que es lo mismo, los factores descartados no son significativos. El estadı́stico en
el que se basa este contraste es n(λm+1 + · · · + λmin{r−1,c−1} ) que se distribuye como
χ2(r−m−1)×(c−m−1) . Este estadı́stico no debe ser significativo, es decir:

P [n(λm+1 + · · · + λmin{r−1,c−1} ) > χ2(r−m−1)×(c−m−1) ] > α.

La Figura 3 muestra la descomposición de la inercia que ofrece el PROC CORRESP


de SAS. En dicha tabla se puede observar la inercia asociada a cada eje de representación
(el valor singular es la raiz de la inercia) y la inercia total, ası́ como las distancias χ2
desglosada, acumulada y total. Como ya habı́amos calculado previamente, la inercia total
y el estadı́stico χ2 toman el valor 0,2336 y 138,29, respectivamente. Además, la tabla nos
muestra el p-valor asociado al test de Pearson. Intuitivamente, el p-valor es la probabilidad
de “equivocarse” al rechazar la hipótesis de independencia dados los datos. En este caso
es menor que 0,0001 por lo que podemos rechazar la hipótesis de independencia.
Utilizando las reglas explicadas en esta sección vamos a determinar el número de fac-
tores a retener:

Los dos primeros factores recogen prácticamente el 99 % de la inercia, por lo que con
dos factores (incluso con uno) será suficiente.
I 0,2336
min{r−1,c−1} = 3 = 0,0779 Siguiendo este criterio, deberı́amos retener sólo el
primer factor.

A la vista de la gráfica de Cattell (Figura 4), podemos concluir que sólo el primer
factor es significativo.

A partir del contraste de Malinvaud, vamos a probar con distintos valores de m.

• m = 1: n(λ2 + λ3 ) no debe ser significativo sabiendo que se distribuye como χ24 .


P (χ24 > 14,69) = 0,0054. Por lo que debemos concluir que una componente no
es suficiente.
• m = 2: n(λ3 ) no debe ser significativo dado sabiendo se distribuye como χ21 .
P (χ21 > 1,54) = 0,2146. Por lo que se acepta la hipótesis nula y, por tanto, dos
componentes son suficientes.

Teniendo en cuenta los resultados anteriores, podemos concluir que dos factores es
la mejor solución.

3.3. Relación entre los dos espacios


Las relaciones existentes entre los autovectores y los autovalores que a continuación
se presentan nos permitirán representar las categorı́as de ambas variables en el mismo
espacio. Denotaremos por U la matriz que contiene los autovectores de la matriz Z 0 Z.

9
The SAS System 12:41 Thursday, October 22, 2015

The CORRESP Procedure

Inertia and Chi-Square Decomposition


Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 18 36 54 72 90
----+----+----+----+----+---
0.45692 0.20877 123.593 89.37 89.37 *************************
0.14909 0.02223 13.158 9.51 98.89 ***
0.05097 0.00260 1.538 1.11 100.00
Total 0.23360 138.290 100.00
Degrees of Freedom = 9
Pr > ChiSq < .0001

Figura 3: Descomposición de la inercia (Ejemplo 1)


Row Coordinates

Dim1 Dim2

Marron -0.4922 -0.0883

Avellana -0.2126 0.1674

Verde 0.1618 0.3390

Azul 0.5474 -0.0830

Summary Statistics for the Row


Points

Quality Mass Inertia

Marron 0.9981 0.3716 0.3985

Avellana 0.8787 0.1571 0.0560

Verde 0.9484 0.1081 0.0689

Azul 0.9999 0.3632 0.4766

Partial Contributions to
Inertia for the Row Points

Dim1 Dim2

Marron 0.4312 0.1304

Avellana
Figura 4: Gráfica de 0.0340 0.1980
sedimentación de Cattell (Ejemplo 1)
Verde 0.0135 0.5591

Azul 0.5213 0.1124

Indices of the Coordinates


That Contribute Most to Inertia
for the Row Points
10
Dim1 Dim2 Best

Marron 1 1 1

Avellana 0 2 2

Verde 0 2 2
Si uα es autovector de Z 0 Z con autovalor λα , Zuα es autovector de ZZ 0 con el mismo
autovalor:

Z 0 Zuα = λα uα ⇔ ZZ 0 Zuα = Zλα uα ⇔ ZZ 0 (Zuα ) = λα (Zuα )

Además, por la relación existente entre la descomposición en valores singulares y la


factorización en matrices diagonales, se tiene que:

1/2 1
Z = V Dλ U 0 ⇔ vα = √ Zuα ,
λα
donde Dλ es la matriz diagonal cuya diagonal principal son los autovalores de las
matrices Z 0 Z y ZZ 0 , que coinciden salvo ceros.

Recordemos que las coordenadas de los perfiles filas y columna en los respectivos ejes
de máxima inercia vienen dados por ψα = YF uα y ϕα = YC0 vα , respectivamente.
Las propiedades matriciales anteriores permiten establecer la relación entre las coor-
denadas y los ejes de máxima inercia de los perfiles fila y columna:

−1/2 −1/2 1/2 1/2


λα Z −1 vα = DF−1 F DC
p p
ψα = YF uα = XF DC λα DF F −1 DC vα
−1/2
p
= λα DF vα

Análogamente, se pueden obtener las coordenadas de las columnas en el espacio de las


filas:
−1/2
p
ϕα = λα DC uα ,
que serán las que utilizaremos generalmente pues se suelen escoger los autovectores de
las filas para la representación conjunta.
Las nubes de puntos filas y columnas se representarán en el plano de proyección for-
mado por los primeros ejes factoriales dos a dos. La lectura de estas gráficas precisa reglas
de interpretación para apreciar las proximidades, identificar elementos responsables de la
formación de factores y las caracterı́sticas de estos. Estas reglas se obtendrán a partir de
la secuencia de valores propios y el porcentaje de inercia, los factores significativos, y los
estadı́sticos asociados al Análisis.

3.4. Contribuciones parciales o absolutas y cosenos o contribuciones re-


lativas
Existen dos series de coeficientes que aportan información suplementaria a las coor-
denadas factoriales. Será sólo tras el examen de estos tres tipos de coeficientes cuando se
podrán interpretar correctamente las gráficas factoriales.

Contribuciones parciales: Representan la proporción de la inercia de un factor acha-


cable a la modalidad correspondiente:
2
fi· ψαi
Crα (i) =
λα
P
Lógicamente, i Crα (i) = 1. Las contribuciones absolutas se definen de manera
análoga para las columnas.

11
Cosenos al cuadrado: Expresan la proporción de la variabilidad (inercia) de una
variable explicada por un factor :

ψ2
Cos2α (i) = P αi 2
α ψαi

Representa la contribución relativa del factor a la posición del punto i. Se interpretan


igual que las cargas del Análisis Factorial. Los valores que se obtienen en los cálculos,
los cuadrados de los cosenos, son siempre positivos. Por lo tanto, debe utilizarse
el signo de las coordenadas para comprobar el sentido de la correlación. La suma
de los cosenos al cuadrado con todos los ejes para cada categorı́a representa la
Comunalidad, o calidad de representación. Ésta, al igual que en el Análisis Factorial,
representa la proporción de cada categorı́a (realmente de su variabilidad) que se
puede explicar a través de los ejes.

Las Figuras 5 y 6 muestran las coordenadas, contribuciones absolutas y cosenos al


cuadrado de las filas y las columnas, respectivamente.

Puntos fila: El primer eje se construye para los ojos marrones y azules (contribucio-
nes del 43 % y 52 %, respectivamente). Ambos se encuentran situados prácticamente
en el eje (cosenos al cuadrado: 0,97 y 0,98). Además, el signo de sus coordenadas es
opuesto, indicando que tienen un comportamiento diferente con respesto a la distri-
bución del colore de pelo. El segundo eje está ligado sobre todo a los ojos verdes.

Puntos columna: Las coordenadas sobre el primer eje muestran que el color pelo
rubio se opone a todos los demás pero sobre todo a moreno, aporta un 71,7 % a la
explicación del primer eje y su coseno al cuadrado es 0,99, es decir se encuentra
prácticamente sobre este eje y no podrá caracterizar ninguno de los otros ejes. Se
observa que los pelirrojos tienen una contribución muy baja a este eje (1 %). El se-
gundo eje (cuyo valor propio es mas de dos veces menor que el primero) se construye
especialmente para el cabello pelirrojo, el cual se opone tanto a rubio y moreno (sobre
todo a este último). Este es el único punto bien representado sobre este segundo eje
(coseno al cuadrado 0,81).

La Figura 7 contiene la representación simultánea de los perfiles fila y columna que


establece la relación entre el color de ojos y el de pelo. Se pueden realizar las siguientes
conclusiones:

Los ojos azules se asocian a los cabellos rubios.

Los pelirrojos se asocian a ojos avellana y verdes.

Los ojos marrones se asocian a los morenos.

La categorı́a cabellos castaños se encuentra bastante próxima al origen del plano


representando el perfil medio no siendo por tanto especı́fico de ningún color de ojos.

Los ojos azules se oponen al cabello castaño y a los ojos marrones.

12
Moreno -0.5046 -0.2148
Total 0.23360 138.290 100.00 Verde 0.9484 0.1081 0.0689
Degrees of Freedom = 9 Castaño -0.1483 0.0327 The SAS System 1
Pr > ChiSq < .0001 Azul 0.9999 0.3632 0.4766
Pelirrojo -0.1295 0.3196 The CORRESP Procedure
The SAS System Rubio
12:41 Thursday, October 22, 2015 4
0.8353 -0.0696
Row Coordinates Partial Contributions to Squared Cosines for the
The CORRESP Procedure Inertia for the Row Points Row Points
Dim1 Dim2
Summary Statistics
Dim1for theDim2
Column Dim1 Dim2
Squared Cosines
Marron -0.4922 for the
-0.0883 Points
Row Points
Marron 0.4312 0.1304 Marron 0.9670 0.0311
Avellana -0.2126 0.1674 Quality Mass Inertia
Dim1 Dim2
Avellana 0.0340 0.1980 Avellana 0.5424 0.3363
Verde 0.1618 0.3390
Marron 0.9670 0.0311 Moreno 0.9899 0.1824 0.2373
Verde 0.0135 0.5591 Verde 0.1759 0.7726
Azul 0.5474 -0.0830
Avellana 0.5424 0.3363 Castaño 0.9063 0.4831 0.0526
Azul 0.5213 0.1124 Azul 0.9775 0.0224
Verde 0.1759 0.7726 Pelirrojo 0.9451 0.1199 0.0646
The SAS System 1
Summary
Figura Statistics for the
5: Coordenadas, Row
contribuciones absolutas y cosenos al cuadrado de las filas (Ejem-
Azul 0.9775 0.0224 Rubio 0.9996 0.2145 0.6455
Points
plo 1) Column Coordinates
Indices of the Coordinates The CORRESP Procedure
Quality Mass That Contribute Most to Inertia
Inertia
for the Row Points Dim1 Dim2
Marron Column
0.9981 0.3716 0.3985 Partial Contributions to
Coordinates Squared Cosines for the
Inertia Dim1 Dim2 Best Moreno
for the Column -0.5046
Column Points-0.2148
Avellana 0.8787Dim1 0.1571Dim20.0560 Points
Marron 1 1 1 Castaño -0.1483
Dim1 0.0327
Dim2
Moreno 0.9484
Verde -0.5046 -0.2148
0.1081 0.0689 Dim1 Dim2
Avellana 0 2 2 Pelirrojo
Moreno -0.1295 0.3196
0.8380 0.1519
AzulCastaño0.9999-0.1483 0.0327
0.3632 0.4766 Moreno 0.2225 0.3788
Verde 0 2 2 Rubio 0.8353 0.0420
Castaño 0.8644 -0.0696
Pelirrojo -0.1295 0.3196 Castaño 0.0509 0.0232
Azul 1 0 1 Pelirrojo 0.1333 0.8118
Rubio 0.8353 -0.0696
Partial Contributions to Pelirrojo 0.0096 0.5513
Inertia for the Row Points Summary
Rubio Statistics for the
0.9927 Column
0.0069
Rubio 0.7170 0.0467 Points
Dim1 Dim2
Summary Statistics for the Column
Quality Mass Inertia
Figura Marron Points
6: Coordenadas, contribuciones absolutas y cosenos al cuadrado de las columnas
0.4312 0.1304
(Ejemplo 1) Indices of the CoordinatesMoreno 0.9899 0.1824 0.2373
Quality
Avellana 0.0340Mass
0.1980Inertia
That Contribute Most to Inertia
MorenoVerde 0.9899 0.1824
0.0135 0.55910.2373 for the Column Points Castaño 0.9063 0.4831 0.0526
4. Elementos suplementarios
Castaño 0.9063 0.4831 0.0526 Dim1 Dim2 Best
Pelirrojo 0.9451 0.1199 0.0646
Azul 0.5213 0.1124
Son elementos suplementarios aquellos que
Moreno 2 no intervienen
2 2
Rubio
en la 0.9996
construcción de la nube
0.2145 0.6455
Pelirrojo 0.9451 0.1199 0.0646
(es decir tienen peso 0 y su contribución a la formación de los ejes es 0). No obstante estos
RubioIndices
pueden 0.9996 0.2145 y 0.6455
ser representados Castañolos cosenos
obtenerse 0 0 1 con respecto a cualquier eje,
cuadrados
of the Coordinates
That
lo cual nosContribute Most to Inertia
proporcionará una ayuda adicional
Pelirrojo 0 para 2poder2interpretarlos. Se suelen recoger
Partial Contributions to
for the Row
como elementos Points
suplementarios: Inertia for the Column
Partial Contributions
Dim1 Dim2 toBest
Rubio 1 0 1 Points
Modalidades
Inertia for theaberrantes,
Column que se hayan mostrado como tal en el desarrollo del análisis
(aquellas Points
Marron que 1 se van
1 eliminando
1 Dim1
por que inestabilizan el resultado). Dim2

Avellana Dim1 2Dim2 2


0 o modalidades Moreno 0.2225 0.3788
Observaciones cuya información se recogió en circunstancias diferentes
aMoreno
las del
Verde resto.
0.2225
0 0.3788
2 2 Castaño 0.0509 0.0232
Castaño 0.0509
Azul
Elementos de 0.0232
1 distinta
0 1
naturaleza a los activos. Pelirrojo 0.0096 0.5513
Pelirrojo 0.0096 0.5513 Rubiodel análisis.
0.7170 0.0467
Casos nuevos, recogidos con posterioridad a la realización
Rubio 0.7170 0.0467
Dada una columna suplementaria c0 podemos obtener su perfil columna como:
fic0 X Indices of the Coordinates
Indices of the Coordinates , i = 1, . . . , r donde f·c 0 = That
fic0Contribute Most to Inertia
f·c0 for the Column Points
That Contribute Most to Inertia i
for the Column Points
Dim1 Dim2 Best
Dim1 Dim2 Best
Moreno 2 2 2
Moreno 2 2 2 13
Castaño 0 0 1
Castaño 0 0 1
Pelirrojo 0 2 2
Pelirrojo 0 2 2
Rubio 1 0 1
Rubio 1 0 1
0.4
Verde
P elirrojo
Dimens ion 2 (9.515%)

0.2 Avellana

C as taño

0.0
Az ul R ubio
Marron

-0.2 Moreno

-0.4

-0.4 -0.2 0.0 0.2 0.4 0.6 0.8


Dimens ion 1 (89.37%)

Figura 7: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 1)

La proyección del punto c0 suplementario sobre el eje α se obtiene al utilizar la misma


formula de transición que para las columnas activas de la Tabla de frecuencias:
1 X fic0
ϕαc0 = √ ψαi
λα i f·c0

Análogamente, para una fila suplementaria r0 , se tendrá:

1 X fr0 j
ψαr0 = √ ϕαj
λα j fr0 ·

5. Observaciones adicionales
Existen dos tipos de gráficos relativos al ACS. El que se ha definido en estos apuntes
se conoce como mapa simétrico y tiene las siguientes propiedades:

1. Es una representación óptima de los perfiles fila y columna aunque estos dos
conjuntos de puntos provengan de espacios diferentes.
2. Los perfiles fila y columna son igualmente dispersados en la gráfica, en todas
las direcciones de la gráfica
3. No existe una interpretación directa de la distancia entre filas y columnas, pero
sı́ hay una interpretación conjunta de los puntos fila y columna con respecto a
los ejes principales. La oposición entre izquierda y derecha ası́ como la de arriba
abajo en la gráfica se interpretan de la misma forma para filas y columnas y
la correspondencia entre sus desviaciones hacia fuera a lo largo de estos ejes
puede interpretarse directamente como asociación.

14
4. La magnitud de la asociación entre filas y columnas en sentido absoluto no puede
observarse directamente en la gráfica, pero puede estimarse de las magnitudes
numéricas de las inercias principales en sı́ mismas.
El Análisis de Correspondencias trabaja con perfiles. Esto significa que no se inter-
pretan las frecuencias totales si no sus valores relativos. A la hora de interpretar este
análisis no deben utilizarse expresiones como: “la mayorı́a de...”, “pocos de...”, sino
descripciones tales como: “... por encima de la media” o “...relativamente improba-
bles”.
Cuando se interpreten las contribuciones a la inercia se debe tener en cuenta las
masas de las categorı́as puesto que se introducen como multiplicadores. De esta
forma una alta contribución a la inercia puede deberse exclusivamente a la masa,
mientras que una baja contribución no permite concluir que la categorı́a se encuentre
pobremente correlacionada con los ejes.

6. Sistemática del ACS


1. Estudio de las proporciones sobre el total de la población de cada modalidad. Si
existiera una modalidad con menos de un 5 % de presencia, preferentemente agru-
parla con otra modalidad o bien tenerla en cuenta para posteriormente considerarla
suplementaria (se puede incluso hacer las dos cosas y comprobar los resultados del
análisis en ambos casos). Las variables cuantitativas que se quieran incluir como
activas, segmentarlas en intervalos para que sean tratadas como cualitativas (para
ello, ver con anterioridad sus diagramas de barras, graficas de distribución, etc.).
2. Realización del Análisis con todas las observaciones y modalidades elegidas.
3. Determinación del número de ejes a retener.
4. Examen de la calidad (que viene dada por la suma de los cosenos al cuadrado de
los ejes retenidos y coincide con el concepto de comunalidad de análisis factorial) de
cada modalidad. Si existieran muchas modalidades con valores inferiores a 0,5, nos
podrı́a indicar la necesidad de incluir más ejes en el resultado.
5. Tratar de interpretar los ejes utilizando los cosenos al cuadrado (correlaciones entre
los ejes y las modalidades), la contribución parcial de la modalidad a la orientación
del eje y el signo de las coordenadas de las modalidades. Puede servir de ayuda la
siguiente guı́a:
Determinación de los puntos explicativos de los ejes factoriales.
Para un determinado eje se dice que un punto columna o modalidad es expli-
cativo si su contribución parcial a la orientación al eje es preponderante con
respecto al conjunto de contribuciones. Se clasificarán los puntos en dos con-
juntos: aquellos que posean una fuerte contribución cuyas coordenadas sean
negativas y aquellos cuyas coordenadas sean positivas. Sólo se retendrán como
puntos explicativos aquellas cuya contribución sea superior a la media de las
contribuciones (100/r %). Los puntos explicativos se consideraran caracterı́sti-
cos para la interpretación del eje.
Es de gran utilidad buscar categorı́as contrapuestas.
6. Representar las graficas donde se proyecten las modalidades en el espacio de los ejes
elegidos.

15
7. Explicar las relaciones entre las modalidades en función de su ubicación en los ejes.
Entre modalidades pertenecientes a la misma variable la distancia euclı́dea nos sir-
ve de proximidad o lejanı́a. Entre modalidades pertenecientes a distintas variables
examinar el ángulo. Ángulos agudos son indicadores de relaciones directas, ángu-
los planos de relaciones inversas. Una regla que se suele utilizar es que se pueden
considerar categorı́as próximas aquellas que forman ángulos menores de 60 grados.
Examinar la proximidad al centro de coordenadas, cuanto mas próxima a él se en-
cuentre una modalidad, menor importancia relativa tendrá en el análisis, pues se
asociará al perfil medio (es decir, no estará relacionado con ninguna categorı́a en
particular).

7. Ejemplos resueltos con SAS


7.1. Vehı́culos y tipo familia
En este primer ejemplo vamos a estudiar si existe relación entre el origen del vehı́culo
de 342 familias (americano, europeo o japonés) y el tipo de familia (soltero, soltero con
hijos, casado, casado con hijos).

data statusCoche;
input Status: $15. Origen $;
datalines;
Married American
Married Japanese
MarriedWithKids American
MarriedWithKids American
Married Japanese
Single Japanese
...
Single Japanese
Married American
SingleKids American
SingleKids European;
proc print;run;

proc corresp data=statusCoche all chi2p print=both;


tables Status, Origen;
run;

A la hora de leer cadenas de texto, SAS reserva un espacio de 8 caracteres. Si queremos


que esto no sea ası́, tenemos varias formas. Una de ellas es incluir la longitud de la cadena
más larga e indicarlo con dos puntos para que, de esta forma, SAS siga separando las
variables por espacios pero reserve ese espacio. Otra opción serı́a utilizar la sentencia
length antes de la sentencia input.
Como se puede comprobar, el procedimiento de SAS para el ACS es el “PROC CO-
RRESP”. La sentencia TABLES indica las variables en estudio (la primera de ella repre-
sentará las filas y la segunda, las columnas). Al incluir la opción “ALL” estamos pidiendo
que ofrezca todas las salidas con el objeto de poder comentarlas a continuación. La opción

16
SingleKi 7 2 9 18
The SAS System 11:42 Friday, October 23, 2015 1
Sum 129 46 167 342
The CORRESP Procedure

Contingency Table Contingency Table

American European Japanese Sum Percents American European Japanese Sum

Married 37 14 51 102 Married 10.819 4.094 14.912 29.825

MarriedW 52 15 44 111 MarriedW 15.205 4.386 12.865 32.456

Single 33 15 63 111 Single 9.649 4.386 18.421 32.456

SingleKi 7 2 9 18 SingleKi 2.047 0.585 2.632 5.263

Sum 129 46 167 342 Sum 37.719 13.450 48.830 100.000


The SAS System 11:42 Friday, October 2
Figura 8: Tabla de contingencia de los datos (frecuencias absolutas y relativas) para el
Chi-Square Statistic Expected Values
Ejemplo 7.1 Contingency TableThe CORRESP Procedure
Percents American European Japanese Sum American European Japanese

Married 10.819
Inertia
4.094
and Chi-Square
14.912 29.825
Decomposition
Married 38.4737 13.7193 49.8070
Singular Principal Chi- Cumulative
MarriedW 15.205 MarriedW 41.8684 14.9298 54.2018
Value Inertia4.386
Square12.865 32.456
Percent Percent 20 40 60 80 100
Single 9.649 4.386 18.421 32.456 ----+----+----+----+----+---
Single 41.8684 14.9298 54.2018

0.150662.047
SingleKi
0.022700.585
7.76278 2.63298.835.263 98.83 *************************
SingleKi 6.7895 2.4211 8.7895
0.01640 0.00027 0.09194 1.17 100.00
Sum 37.719 13.450 48.830 100.000
Total 0.02297 7.85472 100.00
Chi-Square Statistic Expected Values
Degrees of Freedom = 6
Chi-Square Statistic Expected Values Percents American European Japanese
Pr > ChiSq = .2489
American European Japanese Married 11.2496 4.0115 14.5635

Married Figura
38.4737 9: Análisis
13.7193 de
49.8070 la inerciaMarriedW 12.2422 7.14.3654
para el Ejemplo 15.8485

Row Coordinates
Single 12.2422 4.3654 15.8485
MarriedW 41.8684 14.9298 54.2018
“chi2p” hace que se muestre el p-valor del test 2 de Pearson. La
Single 41.8684 14.9298 54.2018 Dim1χSingleKi opción
0.7079 “print=both”
Dim2 1.9852 2.5700
permite obtener todas las salidas en términos absolutos y relativos.
SingleKi
La tabla de 6.7895
contingencia 2.4211
de los8.7895
Married datos -0.0287
(para las 0.0080
frecuencias absolutas y relativas) se
muestra en la Figura 8. La Figura 9 contiene el análisis Observed Minus Expected
de la inercia y el testValues
χ2 de Pearson.
Antes MarriedW 0.1985 0.0024
de continuar con el análisis de correspondencias, American debemosEuropean
comprobar que todas
Chi-Square Statistic Expected Values Japanese
las categorı́as están bien representadas.
Single La tabla de contingencia
-0.1726 Married
0.0014 -1.4737 muestra que todas las
Percentstienen
American European Japanese 0.2807 1.1930
categorı́as una frecuencia relativa superior al 5 %. A continuación observamos el
valorMarried
del estadı́stico 2 SingleKi
el valor 0.0035 MarriedW
-0.0685 10.1316 con 0.0702 -10.2018
11.2496 χ que toma
4.0115 14.5635 de 7,85. Comparando la correspondiente
distribución,
MarriedW
se12.2422
obtiene un p-valor15.8485
4.3654
de 0,25 por loSingle
que no existe
-8.8684evidencia
0.0702suficiente
8.7982 para
rechazar la hipótesis de independencia y por tanto debemos 0.2105
SingleKi
concluir -0.4211
que no hay relación
0.2105
entreSingle
el tipo de12.2422
familia y4.3654
el origen15.8485
del vehı́culo. Por dicha razón, no continuamos con el
Summary Statistics for the Row
ACS.SingleKi
No obstante, podemos
1.9852 observar
0.7079 los perfiles
2.5700 Points fila y columna (Figura 10) para compro-
bar como, efectivamente, no hay grandes diferencias entre ellos. De ahı́ que no podamos
rechazar la hipótesis de independencia.Quality Mass Inertia
Observed Minus Expected Values
Married 1.0000 0.2982 0.0116
7.2. Marca de coche,
American sexo
European y edad
Japanese

Married
El -1.4737
fichero que MarriedW
vamos a0.2807
utilizar 1.19301.0000
en este 0.3246
ejemplo 0.5566
contiene el número de individuos que
prefieren una determinada
MarriedW 10.1316 marca
0.0702
Single de coches
-10.2018 según su sexo
1.0000 0.3246 0.4210y edad (recogido en la variable
edad sexo):
Single -8.8684 0.0702 8.7982
SingleKi 1.0000 0.0526 0.0108
SingleKi 0.2105 -0.4211 0.2105

DATA EJ2;
Partial Contributions to
Inertia for the Row Points
17
Dim1 Dim2

Married 0.0109 0.0707

MarriedW 0.5631 0.0071


SingleKi 0.083 0.932 0.064 1.080
The SAS System 11
Sum 55.930 1.014 43.056 100.000
The CORRESP Procedure

Row Profiles Column Profiles

American European Japanese American European Japanese

Married 0.362745 0.137255 0.500000 Married 0.286822 0.304348 0.305389

MarriedW 0.468468 0.135135 0.396396 MarriedW 0.403101 0.326087 0.263473

Single 0.297297 0.135135 0.567568 Single 0.255814 0.326087 0.377246

SingleKi 0.388889 0.111111 0.500000 SingleKi 0.054264 0.043478 0.053892

Figura 10: Perfiles fila y columna para el Ejemplo 7.1


Row Profiles Column Profiles

Percents American European Japanese Percents American European Japanese


INPUT EDAD_SEXO $ COCHE_PREF $ FRECUENCIA;
Married
DATALINES; 36.2745 13.7255 50.0000 Married 28.6822 30.4348 30.5389
JOV_FEM OPEL 25
MarriedW 46.8468
JOV_FEM PEUGEOT 18 13.5135 39.6396 MarriedW 40.3101 32.6087 26.3473

JOV_FEM
Single HYUNDAI
29.729736 13.5135 56.7568 Single 25.5814 32.6087 37.7246
JOV_FEM RENAULT 8
SingleKi OPEL
JOV_MAS 38.8889
10 11.1111 50.0000 SingleKi 5.4264 4.3478 5.3892
JOV_MAS PEUGEOT 26
JOV_MAS HYUNDAI 25
JOV_MAS RENAULT 30
MAD_FEM OPEL 5
MAD_FEM PEUGEOT 8
MAD_FEM HYUNDAI 2
MAD_FEM RENAULT 4
MAD_MAS OPEL 35
MAD_MAS PEUGEOT 20
MAD_MAS HYUNDAI 7
MAD_MAS RENAULT 60
MAY_FEM OPEL 6
MAY_FEM PEUGEOT 6
MAY_FEM HYUNDAI 1
MAY_FEM RENAULT 6
MAY_MAS OPEL 10
MAY_MAS PEUGEOT 16
MAY_MAS HYUNDAI 3
MAY_MAS RENAULT 25;

Como vemos, en este caso los datos no vienen dados esplı́citamente, si no que cada par
de categorı́as tiene asociada su frecuencia absoluta. Por ello, debemos incluir la sentencia
“WEIGHT” para indicarle al SAS que en esa variable se encuentran recogidos los pesos.

proc corresp data=EJ2 all chi2p print=both;


tables EDAD_SEXO, COCHE_PREF;
WEIGHT FRECUENCIA;

18
ods output CellChiSq = Aportaciones;
ods output RowProfiles = PerfilFila;
ods output ColProfiles = PerfilColumna;
ods output InertiaChart=Inercia;
run;

Como queremos representar los perfiles fila y columna, ası́ como las aportaciones al
estadı́stico χ2 , debemos guardar dichas cantidades para poder representarlas a continua-
ción. Para ello, recurrimos a la sentencia ods output que nos permite guardar las tablas
generadas por el procedimiento. Es necesario saber cuál es el nombre que SAS otorga a
las tablas generadas para lo cuál podemos incluir “ods trace on / listing;” antes del proce-
dimiento, lo que nos mostrará en el log el nombre de todas las tablas. Cuando queramos
quitar esta opción, debemos indicar “ods trace off;”.
Las sentencias necesarias para obtener los gráficos de las Figuras 11, 12 y 13 son:

/*Perfil columna*/
proc sgplot data=PerfilColumna;
series x=Label y=HYUNDAI/ LINEATTRS = (THICKNESS = 3);
series x=Label y=OPEL/ LINEATTRS = (THICKNESS = 3);
series x=Label y=PEUGEOT/ LINEATTRS = (THICKNESS = 3);
series x=Label y=RENAULT/ LINEATTRS = (THICKNESS = 3);
YAXIS LABEL = ’Proporción’;
XAXIS LABEL = ’Marca coche’;
Title "Perfiles columna";
run;

/*Perfil fila*/
proc transpose data=PerfilFila out=PerfilFilaT;
id Label;
run;

proc sgplot data=PerfilFilaT;


series x=_NAME_ y=JOV_FEM / LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=JOV_MAS/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAD_FEM / LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAD_MAS/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAY_FEM/ LINEATTRS = (THICKNESS = 3);
series x=_NAME_ y=MAY_MAS/ LINEATTRS = (THICKNESS = 3);
YAXIS LABEL = ’Proporción’;
XAXIS LABEL = ’Status’;
Title "Perfiles fila";
run;

/*Heatmap*/
data Aportaciones2(drop=Sum);
set Aportaciones;

19
Figura 11: Representación de los perfiles columna para el Ejemplo 7.2

if Label="Sum" then delete;


run;

data Aportaciones3(keep=filas col ff);


array vector{4} HYUNDAI OPEL PEUGEOT RENAULT ;
set Aportaciones2;
a=0;
do aux=’HYUNDAI’, ’OPEL’, ’PEUGEOT’, ’RENAULT’ ;
a=a+1;
filas=label;
col=aux;
ff=vector{a};
output;
end;
run;

proc sgplot data=Aportaciones3;


heatmap x=filas y=col/freq=ff colormodel=TwoColorRamp;
Title "Aportaciones a chi^2";
run;

La Figura 11 contiene los perfiles columna y nos indica que existe relación entre las
mujeres jóvenes y Hyundai y entre Renault y los hombres maduros. La Figura 12 contiene
los perfiles fila y nos indica que existe una fuerte relación inversa entre las mujeres jóvenes
y Renault y entre los hombres jóvenes y Opel. La Figura 13 contiene las aportaciones al
estadı́stico χ2 mostrando también las relaciones anteriores aunque sin indicar el “signo”
de la relación.
Por otro lado, la Figura 14 muestra la descomposició de la inercia, ası́ como el test χ2

20
Figura 12: Representación de los perfiles fila para el Ejemplo 7.2

de Pearson. Como podemos observar, el p-valor es menor que 0,0001 por lo que se puede
rechazar la hipótesis de independencia. Además, la inercia es superior a 0,04 reforzando la
hipótesis de dependencia. La siguiente pregunta a responder es el número de ejes a retener.
El procedimiento corresp no genera una gráfica de Cattell, por lo que debemos obtenerla
a través del siguiente código:

proc sgplot data=inercia;


series x=ID y=Inertia;
where ID<=3;
xaxis label="Numero factores";
run;

El conjunto de datos “inercia” se ha generado al ejecutar el proc corresp anterior.


Además, el valor 3 corresponde con min{r − 1, c − 1} por lo que habrá que cambiar este
valor si se quiere obtener el gráfico para otro conjunto de datos.
Las reglas explicadas anteriormente aplicadas a este ejemplo son:
Los dos primeros factores recogen más del 90 % de la inercia, por lo que con dos
factores será suficiente.
I
min{r−1,c−1}= 0,2317
3 = 0,0772, por lo que deberı́amos retener sólo aquellos factores
cuya inercia sea mayor que esa cantidad, es decir, sólo el primero.
A la vista de la gráfica de Cattell (Figura 4), podemos concluir que sólo el primer
factor es significativo.
A partir del contraste de Malinvaud:
• m = 1: n(λ2 + λ3 ) no debe ser significativo dado que se distribuye como χ28 .
P (χ28 > 21,27) = 0,0065. Por lo que debemos concluir que una componente no
es suficiente.

21
Figura 13: Representación de las aportaciones al estadı́stico χ2 para el Ejemplo 7.2

• m = 2: n(λ3 ) no debe ser significativo (a nivel 0,01) dado que se distribuye


como χ23 . P (χ23 > 7,67) = 0,0533. Por lo que se acepta la hipótesis nula y, por
tanto, dos componentes son suficientes.

Por lo que determinamos elegir retener los dos primeros ejes. Estos son los que SAS
siempre retiene por defecto, pero si tomáramos la decisión de elegir otra cantidad de-
berı́amos incluir la opción DIMENS= número elegido.
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 15 junto con
la tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de
representación para cada modalidad ası́ como de la masa (proporción de datos) y de la
inercia. En cuanto a la calidad (que es el equivalente a la comunalidad en el ACP) se nos
indica que la mujeres maduras se encuentran poco representadas. Si bien la masa de los
datos provenientes de las mujeres maduras y de las mujeres mayores se encuentran por
debajo del 5 % (no se encuentran realmente muy por debajo de esa cantidad), por lo que
en principio no las agrupamos.
Las contribuciones parciales aparecen en SAS acompañadas de una tabla de indices
para interpretarlos mejor (Figura 16). Para cada dimensión se eligen las modalidades que
más las explican hasta que estén explicadas el 80 % (esta cantidad se puede variar utilizan-
do la opción min=otro valor ). En nuestro caso, para la primera dimensión utilizamos las
modalidades: JOV FEM y MAD MAS que serán las que más intervengan la dirección del
eje. Como contribuyen más a la primera que a otra dimensión, aparece un 1 en el ı́ndice.
Para alcanzar el 80 % de la información necesaria para formar el segundo eje (dimensión
2) necesitamos JOV MAS (47 %), MAD MAS (23 %) y JOV FEM (17 %). De todas ellas,
sólo JOV MAS contribuye más a esta segunda dimensión que a la primera, por lo que en
la columna correspondiente aparece con un 2 (en las otras dos aparece un 1).
Con esas tablas, podemos concluir que las personas que mayor tendencia a preferir
algún tipo de coche son las jóvenes féminas, los hombres maduros y los chicos jóvenes. Los
cosenos al cuadrado (Figura 16) reinciden en lo anteriormente expuesto ya que consisten
en correlaciones al cuadrado entre las dimensiones y las modalidades. Ahora incluimos
además la presencia de los hombres mayores como muy correlacionados con la primera
dimensión.

22
The SAS System 11:42 Friday, October 2

The CORRESP
Figura 14: Gráfica de sedimentación Procedure
de Cattell (Ejemplo coche, sexo y edad)

Inertia and Chi-Square Decomposition


Singular Principal Chi- Cumulative
Value Inertia Square Percent Percent 15 30 45 60 75
----+----+----+----+----+---
0.42119 0.17740 69.5406 76.58 76.58 **************************
0.18623 0.03468 13.5959 14.97 91.55 *****
0.13990 0.01957 7.6719 8.45 100.00 ***
Total 0.23165 90.8084 100.00
Degrees of Freedom = 15
Pr > ChiSq < .0001

Figura 15: Análisis de la inercia para el Ejemplo 7.2


Row Coordinates
Se repite el proceso para las modalidades columna:
Dim1 las marcas de coche. De nuevo
Dim2
tendremos las coordenadas (Figura 17) que son las proyecciones sobre los dos primeros
ejes. La comunalidad de todas JOV_FEM
es aceptable. 0.6630
Y se nos 0.1630
indica la Inercia de cada modalidad,
destacando Hyundai y Renault por lo que estas marcas serán las que mayores diferencias
presenten entre las modalidades JOV_MAS
demográficas0.1783 -0.2653
(sexo edad).
Observamos también la contribución
MAD_FEMparcial de cada
-0.0103 modalidad (Figura 18), ası́ como la
-0.1236
tabla de indices que nos permitirá visualizar el resumen de la información de la contribución
MAD_MAS
parcial rapidamente cuando tengamos una-0.4071 0.1603de modalidades. En este caso
gran cantidad
Hyundai y Renault son las marcas relacionadas con la primera dimensión mientras que
MAY_FEMLos-0.2258
Peugeot y Opel lo están con la segunda. cosenos al0.0700
cuadrado refuerzan los comentarios
anteriores. MAY_MAS -0.3657 -0.1588
Por último representamos la gráfica en la Figura 19. En la gráfica se ve como las chicas
jóvenes se asocian a la marca Hyundai, los mayores masculinos se asocian a la marca
Renault. Los maduros masculinos no quieren la marca Hyundai, mientras que los chicos
jóvenes prefieren Peugot. NadaSummary
podemos Statistics
decir deforlas
themaduras
Row femeninas puesto que su
calidad (comunalidad) era muy baja. Points

Quality Mass Inertia

JOV_FEM 0.9999 0.2219 0.4466

JOV_MAS 0.9074
23 0.2321 0.1128

MAD_FEM 0.0678 0.0485 0.0475

MAD_MAS 0.9720 0.3112 0.2646

MAY_FEM 0.3628 0.0485 0.0322


MAY_FEM -0.2258 0.0700
Total 0.23165 90.8084 100.00
MAY_FEM -0.2258 0.0700
DegreesMAY_MAS
of Freedom =-0.3657
15 -0.1588 The CORRESP Procedure
Pr > ChiSq < .0001 MAY_MAS -0.3657 -0.1588

Indices of the Coordinates That


Summary Statistics for the Row Contribute Most to Inertia for
Row Coordinates Summary Statistics for the Row
Points the Row Points
Points
Dim1 Dim2 Dim1 Dim2 Best
Quality Mass Inertia Quality Mass Inertia
JOV_FEM 0.6630 0.1630
JOV_FEM 0.9999 0.2219 0.4466 JOV_FEM 0.9999 JOV_FEM
0.2219 0.4466 1 1 1
JOV_MAS 0.1783 -0.2653 JOV_MAS 0.9074 JOV_MAS
0.2321 0.1128
JOV_MAS 0.9074 0.2321 0.1128 0 2 2
MAD_FEM -0.0103 -0.1236 MAD_FEM 0.0678 0.0485 0.0475
MAD_FEM 0.0678 0.0485 0.0475 MAD_FEM 0 0 2
MAD_MAS -0.4071 0.1603 MAD_MAS 0.9720 0.3112 0.2646
MAD_MAS 0.9720 0.3112 0.2646 MAD_MAS 1 1 1
MAY_FEM -0.2258 0.0700 MAY_FEM 0.3628 0.0485 0.0322
MAY_FEM 0.3628 0.0485 0.0322 MAY_FEM 0 0 1
MAY_MAS -0.3657 -0.1588 MAY_MAS 0.9817 0.1378 0.0963
The SAS System 11:42 Friday, October 23, 2015
MAY_MAS 0.9817 0.1378 0.0963 MAY_MAS 0 0 1
Figura 16: Coordenadas
TheyCORRESP
estadı́sticosProcedure
de las filas para el Ejemplo 7.2
Partial Contributions to
Summary Statistics for the Row
Inertia for the Row Points
Points
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Row Points
Quality Contribute Most to Inertia for Dim1
Mass Inertia
Dim2
Row Points
the Row Points
JOV_FEM 0.5499 0.1701
JOV_FEM
Dim1 0.9999 0.2219 0.4466
Dim2 Dim1 Dim2
Dim1 JOV_MAS
Dim2 Best 0.0416 0.4711
JOV_FEM JOV_MAS 0.9074 0.2321 0.1128
0.5499 0.1701 JOV_FEM 0.9428 0.0570
JOV_FEM 1 MAD_FEM
1 1
0.0000 0.0214
JOV_MAS MAD_FEM 0.0678 0.0485 0.0475
0.0416 0.4711 JOV_MAS 0.2823 0.6251
JOV_MAS 0 MAD_MAS
2 0.2908
2 0.2305
MAD_MAS 0.9720 0.3112 0.2646
MAD_FEM 0.0000 0.0214 MAD_FEM 0.0005 0.0673
MAD_FEM 0 MAY_FEM
0 0.0139
2 0.0069
MAY_FEM 0.3628 0.0485 0.0322
MAD_MAS 0.2908 0.2305 MAY_MAS 0.1038MAD_MAS 0.1002 0.8416 0.1304
MAD_MAS 1 1 1
MAY_MAS 0.9817 0.1378 0.0963
MAY_FEM 0.0139 0.0069 MAY_FEM 0 0 1 MAY_FEM 0.3310 0.0319

MAY_MAS 0.1038 0.1002 MAY_MAS 0 0 1 MAY_MAS 0.8259 0.1558


Partial Contributions to
Inertia for the Row Points
Figura 17: Contribuciones parciales y cosenos al cuadrado de las filas (Ejemplo 7.2)
Dim1 Squared
Dim2 Cosines for the Column Coordinates
Row Points
JOV_FEM 0.5499 0.1701 Dim1 Dim2
7.3. Comunidad Autónoma y precipitaciones
Dim1 Dim2
JOV_MAS 0.0416 0.4711
En este último ejemplo vamos a analizar si existen diferencias HYUNDAI 0.7742
entre las -0.0214
comunidades
JOV_FEM 0.9428 0.0570
autónomas españolas y la cantidad
MAD_FEM 0.0000 de precipitación. Para ello, contamos con el número de
0.0214
OPEL -0.0249 0.3095
dı́as en el año 2010 que ha llovidoJOV_MAS
“nada”, “algo”
0.2823 y 0.6251
“mucho” en las capitales de cada una
MAD_MAS 0.2908 0.2305
de las comunidades autónomas. Dado que la comunidad canaria tiene unas0.0287
PEUGEOT caracterı́sticas
-0.2209
MAD_FEM 0.0005 0.0673
MAY_FEM 0.0139 0.0069
geográficas distintas debido a su ubicación, esta categorı́a será considerada suplementaria.
Para ello, recurrimos a la sentenciaMAD_MAS
MAY_MAS 0.1038 0.1002
0.8416 de
supplementary SAS: RENAULT -0.4340 -0.0437
0.1304

MAY_FEM 0.3310 0.0319

MAY_MAS 0.8259 0.1558 Summary Statistics for the Column


data lluvia; Points
Input Cantidad $ x1-x18;
label x1=’Galicia’ x2=’Asturias’ x3=’Cantabria’ x4=’PaisQualityVasco’ Mass Inertia
Column Coordinates
x5=’Navarra’ x6=’La Rioja’ x7=’Aragon’ x8=’Catalu~ na’ x9=’CastillaLeon’
HYUNDAI 0.9713 0.1888 0.5032
x10=’Madrid’ x11=’CastillaLaMancha’ Dim1 Dim2
x12=’C.Valenciana’ x13=’Extremadura’
OPEL
x14=’Murcia’ x15=’Andalucia’ x16=’Canarias’ x17=’Baleares’ 0.9010 0.2321 0.1073
x18=’Melilla’
HYUNDAI 0.7742 -0.0214
;
PEUGEOT 0.5906 0.2398 0.0870
datalines; OPEL -0.0249 0.3095
Mas 10 50 38 51 16 17 5 5 23 16 11 11 12 31 8 33 RENAULT
5 11 17 0.9213 0.3393 0.3025
PEUGEOT 0.0287 -0.2209

RENAULT -0.4340 -0.0437


24

Summary Statistics for the Column


Points

Quality Mass Inertia


OPEL -0.0249 0.3095
MAY_FEM 0.3310
The SAS System
0.0319
11:42 Friday, October 23, 2015
PEUGEOT 0.0287 -0.2209
MAY_MAS The
0.8259 CORRESP
0.1558 Procedure
RENAULT -0.4340 -0.0437
Indices of the Coordinates That
Contribute Most to Inertia for
Partial Contributions to
Column Coordinates
the Column Points
Inertia for the Column
Summary Statistics for the Column
Points Points
Dim1 Dim2 Dim1 Dim2 Best
Quality Mass Inertia
Dim1 Dim2
HYUNDAI 0.7742 -0.0214 HYUNDAI 1 0 1
HYUNDAI 0.9713 0.1888 0.5032
HYUNDAI 0.6378 0.0025
OPEL -0.0249 0.3095 OPEL 0.9010 0.2321 0.1073
OPEL 0 2 2
PEUGEOT OPEL-0.2209 0.0008
0.0287 0.6413
PEUGEOT 0.5906 0.2398 0.0870
PEUGEOT 0 2 2
RENAULT PEUGEOT
-0.4340 -0.0437 0.0011 0.3375
RENAULT 0.9213 0.3393 0.3025
The SAS System 11:42 Friday, October 23, 2015 6
RENAULT 0.3603 0.0187
RENAULT 1 0 1
Figura 18:
The CORRESP Coordenadas y estadı́sticos de las columnas para el Ejemplo 7.2
Procedure
Summary Statistics for the Column
Points
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Column Quality Contribute
Mass Inertia
Most to Inertia for Column Points
Points the Column Points
HYUNDAI 0.9713 0.1888 0.5032
Dim1 Dim2
Dim1 Dim2 Dim1 Dim2 Best
OPEL 0.9010 0.2321 0.1073
HYUNDAI 0.9706 0.0007
HYUNDAI 0.6378 0.0025
PEUGEOT 0.5906HYUNDAI
0.2398 0.08701 0 1

OPEL 0.0008 0.6413


RENAULT 0.9213OPEL
0.3393 0.30250 2 2 OPEL 0.0058 0.8952

PEUGEOT 0.0011 0.3375 PEUGEOT 0 2 2 PEUGEOT 0.0098 0.5807

RENAULT 0.3603 0.0187 RENAULT 1 0 1 RENAULT 0.9121 0.0093

Figura 19: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.2)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for Column Points
the Column Points
Entre1y10 80 95 81 89 89 62 49 47 69 Dim162 70Dim2
40 55 51 42 14 45 43
Dim1 Dim2 Best
Entre0y1 47 58 43 66 41 62 37 36 29
HYUNDAI 33 300.0007
0.9706 35 19 34 22 6 34 22
Nada
HYUNDAI188 174
1 1900 194 218
1 236 274 259 251 259 254 278 260 272 268 340
275 283 OPEL 0.0058 0.8952
OPEL 0 2 2
; PEUGEOT 0.0098 0.5807
proc corresp
PEUGEOT 0 data=lluvia
2 2 all chi2p print=both;
var x1-x18; RENAULT 0.9121 0.0093
RENAULT 1 0 1
id Cantidad;
supplementary x16;
run;
Squared Cosines for the
Column Points

Dim1 Dim2
Si las categorı́as suplementarias se encuentran en las filas, la forma de indicarlo en el
proc corresp 0.9706
HYUNDAI es a través de la sentencia weight, donde debemos indicar una variable que
0.0007
tome el valor −1 en las filas, cuya categorı́as sean suplementarias y, 1, en las demás.
OPEL
La Figura0.0058 0.8952
20 muestra la descomposició de la inercia, ası́ como el test χ2 de Pearson.
Como podemos
PEUGEOT observar,
0.0098 0.5807el p-valor es menor que 0,0001 por lo que se puede rechazar la
hipótesis de independencia. En este caso decidimos retener dos factores (puede verificarse
RENAULT 0.9121 0.0093
esta decisión a partir de las reglas correspondientes).
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 21 junto con la
tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de repre-
sentación para cada modalidad ası́ como de la masa (proporción de datos) y de la inercia.
En cuanto a la calidad se nos indica que todas las categorı́as están bien representadas.
Las contribuciones parciales, ası́ como la tabla de indices, se muestra en la Figura 22.

25
C orres pondence Analys is of E DAD_S E XO by C OC HE _P R E F

OPE L

0.25
Dimens ion 2 (14.97%)

MAD_MAS JO V_F E M

MAY_F E M

0.00 HYUNDAI
R E NAULT

MAD_F E M
MAY_MAS

P E UGE O T
-0.25 JO V_MAS

-0.50 -0.25 0.00 0.25 0.50 0.75


Dimens ion 1 (76.58%)

Figura 20: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)

A la vista de los datos podemos concluir que la primera dimensión está relacionada con
el hecho de llover o no (obsérvese también que la coordenada de la categorı́a “Nada” es la
única que toma un valor negativo). En cuanto a la segunda dimensión, puede explicarse a
partir de la cantidad de lluvia. Las categorı́as con más peso en esta dimensión son “Más
de 10” y “Entre 0 y 1”, siendo sus coordenadas opuestas en signo.
Los cosenos al cuadrado (Figura 22) reinciden en lo anteriormente expuesto. Especial
mención merece la categorı́a “Nada” que centra su peso en la primera dimensión, lo que
refuerza la idea de que la primera dimensión se asocia al hecho de llover o no.
Se repite el proceso para las modalidades columna: las comunidades autónomas. De
nuevo tendremos las coordenadas (Figura 23) que son las proyecciones sobre los dos pri-
meros ejes. La comunalidad de todas es aceptable (La de Castilla-León es algo menor,
debido a su proximidad al origen, pero su masa coincide con la del resto de CCAA). Se
observa que las 4 primeras CCAA de la tabla (las situadas más al norte) presentan mayor
inercia, por lo que serán las que muestren mayores diferencias.
Observamos también la contribución parcial de cada modalidad (Figura 24). En cuanto
a la primera dimensión, las CCAA que mayor contribución tienen son Galicia, Asturias y
Cantabria y, en menor medida, Baleares, Melilla, C. Valenciana y Aragón.
En cuanto a la segunda dimensión, destacan Pais Vasco, La Rioja, Extremadura y
Andalucia. Los cosenos cuadrados refuerzan estas hipótesis.
Por último representamos la gráfica en la Figura 25. En la gráfica se ve como, respecto
a la primera dimensión, las categorı́as fila se ordenan de mayor a menor cantidad de lluvia.
Además, se observa que las categorı́as que implican algo de lluvia, toman valores positivos
en esa dimensión. Desde ese punto de vista, se puede concluir que CCAA como Cantabria
o Paı́s Vasco, entre otras, se asocian con lluvia, mientras que otras Melilla o Murcia se
asocian con falta de la misma.
Con respecto a la segunda dimensión, la categorı́a “Nada” se encuentra muy próxima

26
0.21007 0.04413 273.820 66.13 66.13 *************************
The SAS System
0.13759 0.01893 117.475 28.37 94.50 ***********
11:13 Monday, October 2
The SAS System
0.06057 0.00367 22.762 5.50 100.00 11:13
** Monday, October 26, 2015 8
The CORRESP Procedure
Total 0.06673 414.057 100.00
The CORRESP Procedure
Degrees of Freedom = 48
Inertia and Chi-Square Decomposition
Pr > ChiSq < .0001
Singular
Inertia Principal Chi-
and Chi-Square Cumulative
Decomposition
Value Inertia Square Percent Percent 13 26 39 52 65
Singular Principal Chi- Cumulative ----+----+----+----+----+---
Value Inertia Square Percent Percent 13 26 39 Row
52 Coordinates
65
0.21007 0.04413 273.820 66.13 66.13 *************************
----+----+----+----+----+---
0.21007 0.13759
0.04413 273.820 0.01893
66.13 117.475 66.13 28.37 94.50 ***********
Dim1
************************* Dim2

0.13759 0.06057
0.01893 117.475 0.00367
28.37 22.762 5.50 100.00
94.50 *********** Mas10
**
0.5333 0.4172
Total 0.06673
0.06057 0.00367 22.762 5.50 414.057
100.00100.00
**
Entre1y1 0.2422 -0.1079
Total 0.06673 Degrees
414.057 of100.00
Freedom = 48
Pr=>48
ChiSq < .0001 Entre0y1 0.2077 -0.2464
Degrees of Freedom
Pr > ChiSq < .0001 Nada -0.1410 0.0307
Figura 21: Análisis de la inercia para el Ejemplo 7.3
Row Coordinates
Row Coordinates Summary Statistics for the Row
Dim1 Dim2
Points
Dim1Mas10
Dim2 0.5333 0.4172
Quality Mass Inertia
Mas10 0.5333Entre1y1
0.4172 0.2422
Mas10 -0.1079
0.9933 0.0572 0.3957
Entre1y1 0.2422Entre0y1
-0.1079 0.2077
Entre1y1-0.2464
0.8701 0.1723 0.2085

Entre0y1 0.2077Nada
-0.2464 -0.1410
Entre0y1 0.0307
0.8658 0.1044 0.1878

Nada -0.1410 0.0307 Nada 0.9998 0.6661 0.2079

Summary
Figura 22: Coordenadas Statistics for
y estadı́sticos de the
las Row
filas para el Ejemplo 7.3
Points Partial Contributions to
Summary Statistics for the Row
Inertia for the Row Points
al origen por lo que noPoints Qualityal mismo.
aporta infomación Mass Por Inertia
el contrario, valores positivos
están asociados a grandes cantidades de lluvia, mientras que Dim1 Dim2
valores negativos implican
QualityMas10
Mass Inertia
0.9933 0.0572 0.3957
menos cantidad de lluvia. Ası́, Cantabria y Galicia son las CCAA que más cantidad de
Mas10 0.3688 0.5260
lluvia reciben
Mas10mientras queEntre1y1
0.9933 Asturias
0.0572 y0.3957Navarra0.1723
0.8701 son CCAA 0.2085donde llueve frecuentemente
pero menos cantidad. En otras CCAA como Anadalucia Entre1y1y Extremadura
0.2290 0.1059no llueve frecuen-
Entre1y1
temente pero, cuando0.8701 0.1723
Entre0y1
lo hace, 0.2085
0.8658
la cantidad 0.1044 0.1878
es significativa.
Entre0y1 0.1021 0.3350
Por último, analizamos la comunidad canaria, que ha sido tratado como categorı́a
Entre0y1 0.8658 Nada
0.1044 0.1878
0.9998 0.6661 0.2079
suplementaria debido a sus diferentes caracterı́sticas
Nada geográficas. De esta forma, puede
0.3002 0.0332
ser interpretada
Nada en los mismos términos,
0.9998 0.6661 0.2079 pero no “colabora” en la formación de los ejes.
En particular, observamos que se trata de una CCAA donde llueve muy poco a menudo
(menos que todas las demás CCAA) pero
Partial cuando lo hace,
Contributions
Indices of
las lluvias son
tothe Coordinates That
copiosas.
Inertia for the Row Points Most to Inertia for
Contribute
Partial Contributions to the Row Points
Inertia for the Row Points Dim1 Dim2
Dim1 Dim2 Best
Dim1 Mas10
Dim2 0.3688 0.5260
Mas10 2 2 2
Mas10 0.3688 Entre1y1
0.5260 0.2290 0.1059
Entre1y1 1 0 1
Entre1y1 0.2290 Entre0y1
0.1059 0.1021 0.3350
Entre0y1 0 2 2
Entre0y1 0.1021 Nada
0.3350 0.3002
Nada 0.0332 1 0 1

Nada 0.3002 0.0332

Indices of the Coordinates That


Contribute Most27 to Inertia for
Indices of the Coordinates the
ThatRow Points
Contribute Most to Inertia for
the Row Points Dim1 Dim2 Best

Dim1 Mas10
Dim2 Best 2 2 2
Entre0y1 0.8658 0.1044 0.1878
Entre0y1 0.1021 0.3350
The SAS System
Nada 0.9998 0.6661 0.2079 Nada
The SAS System 0.3002 0.0332 11:13 Monday, October 26, 2015 9
The CORRESP Procedure
The CORRESP Procedure
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Row Points Contribute Most to Inertia for Row Points
Squared Cosines for the the Row Points
Row
Dim1Points
Dim2 Dim1 Dim2
Dim1 Dim2 Best
Mas10 0.3688 Dim1
0.5260 Dim2 Mas10 0.6162 0.3771
Mas10 2 2 2
Entre1y1
Mas10 0.2290 0.10590.3771
0.6162 Entre1y1 0.7260 0.1440
Entre1y1 1 0 1

Entre0y1 0.1021
Entre1y1 0.33500.1440
0.7260 Entre0y1 0 2 2 Entre0y1 0.3596 0.5062

NadaEntre0y1
0.3002 0.03320.5062
Nada 1 0 1 Nada 0.9546 0.0452
0.3596
The SAS System 11
Nada
Figura 0.9546 0.0452
23: Contribuciones parciales y cosenos al cuadrado de las filas (Ejemplo 7.3)
Indices of the Coordinates That The CORRESP Procedure
Column Coordinates
Contribute Most to Inertia for
the Row Points Dim1 Dim2
Column Coordinates Summary Statistics for the Column Points
Galicia 0.3820 0.1278
Dim1 Dim2 Best
Dim1 Dim2 Quality Mass Inertia
Asturias 0.4015 -0.0666
Mas10 2 2 2
Galicia 0.3820 0.1278 Galicia 0.9901 0.0588 0.1445
Cantabria 0.3776 0.1548
Entre1y1 1 0 1
Asturias 0.4015 -0.0666 Asturias 1.0000 0.0588 0.1460
Pais Vasco 0.2144 -0.2635
Entre0y1 0 2 2
Cantabria 0.3776 0.1548 Cantabria 0.9986 0.0588 0.1471
Navarra 0.1095 -0.1178
Nada 1 0 1
Pais Vasco 0.2144 -0.2635 Pais Vasco 0.9956
La Rioja 0.0588 0.1022
-0.0355 -0.2516

Navarra 0.1095 -0.1178 Navarra 0.6566


Aragon 0.0588 0.0347
-0.2141 -0.0778

La Rioja -0.0355 -0.2516 La Rioja 0.8642


Cataluña 0.0588 0.0658
-0.0704 0.0718

Aragon -0.2141 -0.0778 Aragon CastillaLeon


0.9919 -0.0538
0.0588 -0.0041
0.0461

Cataluña -0.0704 0.0718 Cataluña Madrid0.6856 -0.1146


0.0588 -0.0454
0.0130

CastillaLeon -0.0538 -0.0041 CastillaLaMancha -0.0883 -0.0509


CastillaLeon 0.2550 0.0588 0.0101
C.Valenciana -0.2067 0.0120
Madrid -0.1146 -0.0454 Madrid 0.8646 0.0588 0.0155
Extremadura -0.0374 0.2051
CastillaLaMancha -0.0883 -0.0509 CastillaLaMancha 0.4922 0.0588 0.0186
Murcia -0.1914 -0.0436
C.Valenciana -0.2067 0.0120 C.Valenciana 0.9007 0.0588 0.0419
Andalucia -0.0711 0.2398
Extremadura -0.0374 0.2051 Extremadura 0.9528 0.0588 0.0402
Baleares -0.1950 -0.0040
Murcia -0.1914 -0.0436 Murcia 0.9999 0.0588 0.0340
Melilla -0.2068 0.1139
Andalucia -0.0711 0.2398 Andalucia 0.9789 0.0588 0.0563

Baleares -0.1950 -0.0040 Baleares 0.9651 0.0588 0.0347


Supplementary Column
Melilla -0.2068 0.1139 Coordinates
Melilla 0.9992 0.0588 0.0492
Dim1 Dim2
Figura 24: Coordenadas y estadı́sticos de las columnas para el Ejemplo 7.3
Canarias -0.5301 0.1899
Supplementary Column Quality of
Coordinates Representation for
28 the Supplementary
Dim1 Dim2 Column Points
Canarias -0.5301 0.1899 Canarias 0.9997
The CORRESP Procedure

Indices of the Coordinates That


Contribute Most to Inertia for the
Column Points

Dim1 Dim2 Best

Andalucia 0 2 2

Baleares 0 0 1
The SAS System 11:13 Monday, October 26, 2015 11
Melilla 1 0 1
The CORRESP Procedure

Partial Contributions to Inertia for Squared Cosines for the Column


the Column Points Points

Dim1 Dim2 Dim1 Dim2

Galicia 0.1945 0.0508 Galicia 0.8904 0.0997

Asturias 0.2149 0.0138 Asturias 0.9732 0.0268

Cantabria 0.1901 0.0745 Cantabria 0.8549 0.1437

Pais Vasco 0.0613 0.2157 Pais Vasco 0.3966 0.5990

Navarra 0.0160 0.0431 Navarra 0.3042 0.3524

La Rioja 0.0017 0.1967 La Rioja 0.0168 0.8474

Aragon 0.0611 0.0188 Aragon 0.8763 0.1155

Cataluña 0.0066 0.0160 Cataluña 0.3360 0.3497

CastillaLeon 0.0039 0.0001 CastillaLeon 0.2535 0.0015

Madrid 0.0175 0.0064 Madrid 0.7474 0.1172

CastillaLaMancha 0.0104 0.0080 CastillaLaMancha 0.3694 0.1228

C.Valenciana 0.0569 0.0004 C.Valenciana 0.8977 0.0030

Extremadura 0.0019 0.1307 Extremadura 0.0306 0.9222

Murcia 0.0488 0.0059 Murcia 0.9505 0.0494

Andalucia 0.0067 0.1787 Andalucia 0.0791 0.8998

Baleares 0.0507 0.0000 Baleares 0.9647 0.0004


Melilla 0.0570 0.0403 Melilla 0.7666 0.2326

Figura 25: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.3)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for the Supplementary Column
Column Points Points
Dim1 Dim2 Best Dim1 Dim2
Galicia 1 1 1 Canarias 0.8860 0.1137
Asturias 1 0 1

Cantabria 1 1 1

Pais Vasco 2 2 2
29
Navarra 0 0 2

La Rioja 0 2 2

Aragon 1 0 1

Cataluña 0 0 2
The SAS System 11:13 Monday, October 26, 2015 13

The CORRESP Procedure

Correspondence Analysis

Mas10
0.4

Andalucia
Dimension 2 (28.37%)

0.2 Canarias
Extremadura Cantabria
Melilla
Cataluña Galicia

C.Valenciana
0.0 Baleares Nada CastillaLeon
Madrid
Murcia Asturias
CastillaLaMancha
Aragon Navarra
Entre1y1

-0.2
La Rioja Entre0y1

Pais Vasco

-0.4 -0.2 0.0 0.2 0.4


Dimension 1 (66.13%)
Row Column Sup Col

Figura 26: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)

30

También podría gustarte