An Alisis Factorial de Correspondencias Simples: 1. Introducci On
An Alisis Factorial de Correspondencias Simples: 1. Introducci On
1. Introducción
Analizar la relación existente entre pares de variables es un objetivo muy frecuente
dentro de la minerı́a de datos. Cuando se trabaja con variables cuantitativas es relativa-
mente sencillo detectar dichas relaciones a partir de los diagramas de dispersión, en los
cuales se representan las observaciones de las variables enfrentadas.
No obstante, cuando se trata de variables cualitativas, su representación gráfica no es
tan directa. El objetivo del Análisis de Correspondencias Simple (ACS) es la visualización
de Tablas de frecuencias de dos variables cualitativas, de forma que sea posible detectar
las relaciones existentes entre las variables.
Una Tabla de Contingencia (o de frecuencias) se obtiene al cruzar dos variables nomi-
nales y repartir una población (o muestra) según el número de individuos que presentan
una categorı́a de cada una de las variables. El conjunto de columnas de la tabla designa
las modalidades de una variable mientras que el conjunto de filas corresponde a las mo-
dalidades de la otra variable. Las filas y las columnas (que determinan dos particiones de
una población) juegan papeles simétricos y se tratan de forma análoga. Vamos a utilizar
el siguiente ejemplo para ilustrar el desarrollo del tema:
Las filas (que representan a la variable color de ojos) tienen r = 4 modalidades, al igual
que ocurre con las columnas (que representan a la variable color de pelo), pues tienen c = 4
modalidades.
1
Pc
ki· = j=1 kij representa el total de la fila i-ésima.
Pr
k·j = i=1 kij representa el total de la columna j-ésima.
Pr Pc Pc Pc
n = k·· = i=1 j=1 kij = j=1 k·j = i=1 ki· es el total global,
2
Tabla 3: Perfiles fila (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 0,31 0,54 0,12 0,03 1
Avellana 0,16 0,58 0,15 0,11 1
Color de ojos Verde 0,08 0,45 0,22 0,25 1
Azul 0,09 0,39 0,08 0,44 1
Total 0,18 0,48 0,12 0,21
3
Figura 1: Representación de los perfiles fila (Ejemplo 1)
media para obtener una medida global del parecido de los perfiles. Es importante tener en
cuenta que no todas las observaciones tienen el mismo peso dado que representan a una
proporción de la población distinta. Ası́, la nube de puntos dada n por los perfiles fila
o está
f
formada por los puntos i de masa fi· con coordenadas en Rc : fiji· , j = 1, 2, . . . , c cuyo
centro de gravedad es la media de los perfiles fila ponderados por sus respectivas masas y
equivale a f·j .
Una primera aproximación para la obtención de una medida total podrı́a ser el cálculo
de las distancias euclı́deas entre los perfiles y el perfil medio. No obstante, la distancia
euclı́dea tiene el inconveniente de que pondera igual todas las coordenadas de un punto,
lo que implica que las distancias entre las categorı́as que mejor representadas estén tenga
más peso (en particular, una distancia de 0,02 entre perfiles que rondan los valores 0,05 y
0,1 no implica la misma diferencia que entre perfiles que roden los valores 0,7 y 0,8). Para
remediar ésto, y también por otras propiedades, se utiliza la distancia χ2 , la cual pondera
cada desviación por la inversa de la masa de la columna.
Ası́, la distancia χ2 total asociada a los perfiles fila viene dada por:
X X 1 fij 2
Dχ2 = fi· − f·j
f·j fi·
i j
4
algún otro ı́ndice, de forma que podamos determinar si las diferencias observadas son
suficientemente grandes para descartar la hipótesis de independencia, o no.
Para ello, podemos recurrir al test clásico χ2 de Pearson para tablas de contingencia
que permite evaluar las desviaciones de una muestra al valor teórico previsto bajo la
hipótesis a contrastar (llamada hipótesis nula). Como ya se ha visto, en nuestro caso la
hipótesis nula es la independencia de las variables, que se traduce en la igualdad de los
perfiles al perfil medio:
fij
= f·j ⇔ fij = fi· f·j
fi·
Por lo tanto, bajo la hipótesis de independencia, cabrı́a esperar que las frecuencias
relativas observadas se asemejaran a las esperadas fˆij = fi· f·j (o, equivalentemente, que
n n
las frecuencias absolutas se asemejarán a las esperadas n̂ij = i·n ·j ). El estadı́stico chi-
cuadrado asociado al test de Pearson viene dado por:
Dado que para cualquier α razonable 138,29 > χ29 (α) (por ejemplo, χ29 (0,001) = 27,88),
podemos rechazar la hipótesis de independencia. Una vez comprobado que las variables
están relacionadas, resta comprobar qué tipo de asociación se da entre el color de ojos y
el de cabello. Para ello, recurrimos al ACS.
5
Tabla 6: Aportaciones al estadı́stico χ2 (Ejemplo 1)
Color de cabello
Moreno Castaño Pelirrojo Rubio Total
Marrón 19,35 1,52 0,01 34,23 55,11
Avellana 0,23 1,83 0,73 4,96 7,75
Color de ojos Verde 3,82 0,12 5,21 0,38 9,52
Azul 9,42 3,80 2,99 49,70 65,91
Total 32,81 7,27 8,94 89,27 138,29
Para poder sacar conclusiones más rápidamente sobre las aportaciones, se puede cons-
truir un gráfico (denominado mapa de calor) que nos indicará entre qué categorı́as hay
más relación.
Un gráfico de este tipo se encuentra en la Figura 2, donde se puede observar que las
categorı́as entre las que más relación existe son: Azul - Rubio, Marrón - Rubio y Marrón
- Moreno.
Debido a la simetrı́a existente entre las variables fila y columna, el análisis an-
terior puede realizarse para los perfiles columna sin más que modificar las fórmulas
correspondientemente. Por ejemplo, el contraste χ2 viene dado por:
X X 1 fij 2
χ2 = n f·j − fi·
fi· f·j
j i
6
2.3. Inercia
La inercia (I) es una medida de la dispersión de la nube de puntos equiparable a la
varianza de datos numéricos. Coincide con la cantidad Dχ2 definida anteriormente por lo
que representa la distancia χ2 de los perfiles al perfil medio ponderados por la masa de los
perfiles (de ahı́ la similitud con la varianza, que está formada por las distancias cuadráticas
a la media). Lógicamente, la inercia nos permite evaluar la hipótesis de indepencia también.
Algunos autores proponen que, si la raı́z cuadrada de la inercia total es mayor que 0,2 (o,
equivalentemente, la inercia es mayor que 0,04), entonces existe asociación significativa.
La inercia de los datos asociados al Ejemplo 1 es 138,29 512 = 0,2336. Dado que la raiz de
la inercia toma el valor de 0,4833 > 0,2, el criterio de la inercia también nos indica que
hay asociación significativa entre el color de ojos y de cabello.
Por lo que la nube de puntos de los perfiles fila transformados viene dada por los puntos
f
i con masa fi· y coordenadas √ij . Matricialmente, se dan las siguientes relaciones:
fi· f·j
7
donde YF (r × c) y YC (r × c) son los perfiles fila y columna transformados, respecti-
vamente.
Igual que ocurre con el análisis de componentes principales, buscamos proyectar los
puntos en nuevos ejes de forma que se maximice la variabilidad conservada (o equiva-
lentemente, se minimice la pérdida de variabilidad). En nuestro caso, la medida de la
variabilidad es la inercia.
Sea u el vector director del eje sobre el que proyectar los perfiles fila transformados.
Entonces, las observaciones en los nuevos ejes vendrán dados por YF u. Dado que buscamos
preservar la mayor cantidad posible de inercia, debemos encontrar el vector u que maximice
esa cantidad. Matricialmente,
−1/2 −1/2
máx u0 YF0 DF YF u = máx u0 DC F 0 DF−1 DF DF−1 F DC u
−1/2 −1/2 −1/2 −1/2
= máx u0 DC F 0 DF DF F DC u
0 0
= máx u Z Zu,
−1/2 −1/2
donde Z = DF F DC . Por las propiedas algebraicas ya vistas en el ACP, sabemos
que los vectores que maximizan esta cantidad son los autovectores de la matriz Z 0 Z,
que, además, pueden ordenarse por importancia según su autovalor asociado, que coincide
con la cantidad de inercia recogida por dichos autovectores (que no son más que los ejes
de proyección). Por lo tanto, la inercia total de los datos coincide con la suma de los
autovalores no triviales.
Es importante destacar que la cantidad maximizada no es exactamente la inercia pues
los datos no están centrados en el origen. No obstante, se puede demostrar que los auto-
vectores resultantes coinciden por lo que, de esta forma, se obtienen los mismos resultados
a partir de operaciones más simples.
Análogamente, se pueden obtener los ejes de máxima inercia de los perfiles columna
sobre el vector director v del eje (de nuevo denotaremos por V la matriz que contiene los
vectores directores de los ejes) como:
−1/2 −1 −1 0 −1/2
máx v 0 YC DC YC0 v = máx v 0 DF F DC DC DC F DF v
−1/2 −1/2 −1/2 −1/2
= máx v 0 DF F DC DC F 0 DF v
0 0
= máx v ZZ v,
A nivel práctico el mejor criterio es tomar sólo los dos o tres primeros ejes significa-
tivos siempre que estos expliquen una variabilidad aceptable (por encima del 70 %
en el caso de datos reales) ya que esta técnica es primordialmente gráfica.
I
Elegir aquellas dimensiones cuya inercia sea superior a la media min{r−1,c−1} . Esta
regla recibe el nombre en la literatura de average rule.
8
Debido a las similitudes con el Análisis de Componentes Principales, también se
puede utilizar la gráfica de Cattell (o de sedimentación o scree plot). Consiste en
representar la inercia de los factores y descartar aquellos que se encuentren “después
del codo”.
Los dos primeros factores recogen prácticamente el 99 % de la inercia, por lo que con
dos factores (incluso con uno) será suficiente.
I 0,2336
min{r−1,c−1} = 3 = 0,0779 Siguiendo este criterio, deberı́amos retener sólo el
primer factor.
A la vista de la gráfica de Cattell (Figura 4), podemos concluir que sólo el primer
factor es significativo.
Teniendo en cuenta los resultados anteriores, podemos concluir que dos factores es
la mejor solución.
9
The SAS System 12:41 Thursday, October 22, 2015
Dim1 Dim2
Partial Contributions to
Inertia for the Row Points
Dim1 Dim2
Avellana
Figura 4: Gráfica de 0.0340 0.1980
sedimentación de Cattell (Ejemplo 1)
Verde 0.0135 0.5591
Marron 1 1 1
Avellana 0 2 2
Verde 0 2 2
Si uα es autovector de Z 0 Z con autovalor λα , Zuα es autovector de ZZ 0 con el mismo
autovalor:
1/2 1
Z = V Dλ U 0 ⇔ vα = √ Zuα ,
λα
donde Dλ es la matriz diagonal cuya diagonal principal son los autovalores de las
matrices Z 0 Z y ZZ 0 , que coinciden salvo ceros.
Recordemos que las coordenadas de los perfiles filas y columna en los respectivos ejes
de máxima inercia vienen dados por ψα = YF uα y ϕα = YC0 vα , respectivamente.
Las propiedades matriciales anteriores permiten establecer la relación entre las coor-
denadas y los ejes de máxima inercia de los perfiles fila y columna:
11
Cosenos al cuadrado: Expresan la proporción de la variabilidad (inercia) de una
variable explicada por un factor :
ψ2
Cos2α (i) = P αi 2
α ψαi
Puntos fila: El primer eje se construye para los ojos marrones y azules (contribucio-
nes del 43 % y 52 %, respectivamente). Ambos se encuentran situados prácticamente
en el eje (cosenos al cuadrado: 0,97 y 0,98). Además, el signo de sus coordenadas es
opuesto, indicando que tienen un comportamiento diferente con respesto a la distri-
bución del colore de pelo. El segundo eje está ligado sobre todo a los ojos verdes.
Puntos columna: Las coordenadas sobre el primer eje muestran que el color pelo
rubio se opone a todos los demás pero sobre todo a moreno, aporta un 71,7 % a la
explicación del primer eje y su coseno al cuadrado es 0,99, es decir se encuentra
prácticamente sobre este eje y no podrá caracterizar ninguno de los otros ejes. Se
observa que los pelirrojos tienen una contribución muy baja a este eje (1 %). El se-
gundo eje (cuyo valor propio es mas de dos veces menor que el primero) se construye
especialmente para el cabello pelirrojo, el cual se opone tanto a rubio y moreno (sobre
todo a este último). Este es el único punto bien representado sobre este segundo eje
(coseno al cuadrado 0,81).
12
Moreno -0.5046 -0.2148
Total 0.23360 138.290 100.00 Verde 0.9484 0.1081 0.0689
Degrees of Freedom = 9 Castaño -0.1483 0.0327 The SAS System 1
Pr > ChiSq < .0001 Azul 0.9999 0.3632 0.4766
Pelirrojo -0.1295 0.3196 The CORRESP Procedure
The SAS System Rubio
12:41 Thursday, October 22, 2015 4
0.8353 -0.0696
Row Coordinates Partial Contributions to Squared Cosines for the
The CORRESP Procedure Inertia for the Row Points Row Points
Dim1 Dim2
Summary Statistics
Dim1for theDim2
Column Dim1 Dim2
Squared Cosines
Marron -0.4922 for the
-0.0883 Points
Row Points
Marron 0.4312 0.1304 Marron 0.9670 0.0311
Avellana -0.2126 0.1674 Quality Mass Inertia
Dim1 Dim2
Avellana 0.0340 0.1980 Avellana 0.5424 0.3363
Verde 0.1618 0.3390
Marron 0.9670 0.0311 Moreno 0.9899 0.1824 0.2373
Verde 0.0135 0.5591 Verde 0.1759 0.7726
Azul 0.5474 -0.0830
Avellana 0.5424 0.3363 Castaño 0.9063 0.4831 0.0526
Azul 0.5213 0.1124 Azul 0.9775 0.0224
Verde 0.1759 0.7726 Pelirrojo 0.9451 0.1199 0.0646
The SAS System 1
Summary
Figura Statistics for the
5: Coordenadas, Row
contribuciones absolutas y cosenos al cuadrado de las filas (Ejem-
Azul 0.9775 0.0224 Rubio 0.9996 0.2145 0.6455
Points
plo 1) Column Coordinates
Indices of the Coordinates The CORRESP Procedure
Quality Mass That Contribute Most to Inertia
Inertia
for the Row Points Dim1 Dim2
Marron Column
0.9981 0.3716 0.3985 Partial Contributions to
Coordinates Squared Cosines for the
Inertia Dim1 Dim2 Best Moreno
for the Column -0.5046
Column Points-0.2148
Avellana 0.8787Dim1 0.1571Dim20.0560 Points
Marron 1 1 1 Castaño -0.1483
Dim1 0.0327
Dim2
Moreno 0.9484
Verde -0.5046 -0.2148
0.1081 0.0689 Dim1 Dim2
Avellana 0 2 2 Pelirrojo
Moreno -0.1295 0.3196
0.8380 0.1519
AzulCastaño0.9999-0.1483 0.0327
0.3632 0.4766 Moreno 0.2225 0.3788
Verde 0 2 2 Rubio 0.8353 0.0420
Castaño 0.8644 -0.0696
Pelirrojo -0.1295 0.3196 Castaño 0.0509 0.0232
Azul 1 0 1 Pelirrojo 0.1333 0.8118
Rubio 0.8353 -0.0696
Partial Contributions to Pelirrojo 0.0096 0.5513
Inertia for the Row Points Summary
Rubio Statistics for the
0.9927 Column
0.0069
Rubio 0.7170 0.0467 Points
Dim1 Dim2
Summary Statistics for the Column
Quality Mass Inertia
Figura Marron Points
6: Coordenadas, contribuciones absolutas y cosenos al cuadrado de las columnas
0.4312 0.1304
(Ejemplo 1) Indices of the CoordinatesMoreno 0.9899 0.1824 0.2373
Quality
Avellana 0.0340Mass
0.1980Inertia
That Contribute Most to Inertia
MorenoVerde 0.9899 0.1824
0.0135 0.55910.2373 for the Column Points Castaño 0.9063 0.4831 0.0526
4. Elementos suplementarios
Castaño 0.9063 0.4831 0.0526 Dim1 Dim2 Best
Pelirrojo 0.9451 0.1199 0.0646
Azul 0.5213 0.1124
Son elementos suplementarios aquellos que
Moreno 2 no intervienen
2 2
Rubio
en la 0.9996
construcción de la nube
0.2145 0.6455
Pelirrojo 0.9451 0.1199 0.0646
(es decir tienen peso 0 y su contribución a la formación de los ejes es 0). No obstante estos
RubioIndices
pueden 0.9996 0.2145 y 0.6455
ser representados Castañolos cosenos
obtenerse 0 0 1 con respecto a cualquier eje,
cuadrados
of the Coordinates
That
lo cual nosContribute Most to Inertia
proporcionará una ayuda adicional
Pelirrojo 0 para 2poder2interpretarlos. Se suelen recoger
Partial Contributions to
for the Row
como elementos Points
suplementarios: Inertia for the Column
Partial Contributions
Dim1 Dim2 toBest
Rubio 1 0 1 Points
Modalidades
Inertia for theaberrantes,
Column que se hayan mostrado como tal en el desarrollo del análisis
(aquellas Points
Marron que 1 se van
1 eliminando
1 Dim1
por que inestabilizan el resultado). Dim2
0.2 Avellana
C as taño
0.0
Az ul R ubio
Marron
-0.2 Moreno
-0.4
Figura 7: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 1)
1 X fr0 j
ψαr0 = √ ϕαj
λα j fr0 ·
5. Observaciones adicionales
Existen dos tipos de gráficos relativos al ACS. El que se ha definido en estos apuntes
se conoce como mapa simétrico y tiene las siguientes propiedades:
1. Es una representación óptima de los perfiles fila y columna aunque estos dos
conjuntos de puntos provengan de espacios diferentes.
2. Los perfiles fila y columna son igualmente dispersados en la gráfica, en todas
las direcciones de la gráfica
3. No existe una interpretación directa de la distancia entre filas y columnas, pero
sı́ hay una interpretación conjunta de los puntos fila y columna con respecto a
los ejes principales. La oposición entre izquierda y derecha ası́ como la de arriba
abajo en la gráfica se interpretan de la misma forma para filas y columnas y
la correspondencia entre sus desviaciones hacia fuera a lo largo de estos ejes
puede interpretarse directamente como asociación.
14
4. La magnitud de la asociación entre filas y columnas en sentido absoluto no puede
observarse directamente en la gráfica, pero puede estimarse de las magnitudes
numéricas de las inercias principales en sı́ mismas.
El Análisis de Correspondencias trabaja con perfiles. Esto significa que no se inter-
pretan las frecuencias totales si no sus valores relativos. A la hora de interpretar este
análisis no deben utilizarse expresiones como: “la mayorı́a de...”, “pocos de...”, sino
descripciones tales como: “... por encima de la media” o “...relativamente improba-
bles”.
Cuando se interpreten las contribuciones a la inercia se debe tener en cuenta las
masas de las categorı́as puesto que se introducen como multiplicadores. De esta
forma una alta contribución a la inercia puede deberse exclusivamente a la masa,
mientras que una baja contribución no permite concluir que la categorı́a se encuentre
pobremente correlacionada con los ejes.
15
7. Explicar las relaciones entre las modalidades en función de su ubicación en los ejes.
Entre modalidades pertenecientes a la misma variable la distancia euclı́dea nos sir-
ve de proximidad o lejanı́a. Entre modalidades pertenecientes a distintas variables
examinar el ángulo. Ángulos agudos son indicadores de relaciones directas, ángu-
los planos de relaciones inversas. Una regla que se suele utilizar es que se pueden
considerar categorı́as próximas aquellas que forman ángulos menores de 60 grados.
Examinar la proximidad al centro de coordenadas, cuanto mas próxima a él se en-
cuentre una modalidad, menor importancia relativa tendrá en el análisis, pues se
asociará al perfil medio (es decir, no estará relacionado con ninguna categorı́a en
particular).
data statusCoche;
input Status: $15. Origen $;
datalines;
Married American
Married Japanese
MarriedWithKids American
MarriedWithKids American
Married Japanese
Single Japanese
...
Single Japanese
Married American
SingleKids American
SingleKids European;
proc print;run;
16
SingleKi 7 2 9 18
The SAS System 11:42 Friday, October 23, 2015 1
Sum 129 46 167 342
The CORRESP Procedure
Married 10.819
Inertia
4.094
and Chi-Square
14.912 29.825
Decomposition
Married 38.4737 13.7193 49.8070
Singular Principal Chi- Cumulative
MarriedW 15.205 MarriedW 41.8684 14.9298 54.2018
Value Inertia4.386
Square12.865 32.456
Percent Percent 20 40 60 80 100
Single 9.649 4.386 18.421 32.456 ----+----+----+----+----+---
Single 41.8684 14.9298 54.2018
0.150662.047
SingleKi
0.022700.585
7.76278 2.63298.835.263 98.83 *************************
SingleKi 6.7895 2.4211 8.7895
0.01640 0.00027 0.09194 1.17 100.00
Sum 37.719 13.450 48.830 100.000
Total 0.02297 7.85472 100.00
Chi-Square Statistic Expected Values
Degrees of Freedom = 6
Chi-Square Statistic Expected Values Percents American European Japanese
Pr > ChiSq = .2489
American European Japanese Married 11.2496 4.0115 14.5635
Married Figura
38.4737 9: Análisis
13.7193 de
49.8070 la inerciaMarriedW 12.2422 7.14.3654
para el Ejemplo 15.8485
Row Coordinates
Single 12.2422 4.3654 15.8485
MarriedW 41.8684 14.9298 54.2018
“chi2p” hace que se muestre el p-valor del test 2 de Pearson. La
Single 41.8684 14.9298 54.2018 Dim1χSingleKi opción
0.7079 “print=both”
Dim2 1.9852 2.5700
permite obtener todas las salidas en términos absolutos y relativos.
SingleKi
La tabla de 6.7895
contingencia 2.4211
de los8.7895
Married datos -0.0287
(para las 0.0080
frecuencias absolutas y relativas) se
muestra en la Figura 8. La Figura 9 contiene el análisis Observed Minus Expected
de la inercia y el testValues
χ2 de Pearson.
Antes MarriedW 0.1985 0.0024
de continuar con el análisis de correspondencias, American debemosEuropean
comprobar que todas
Chi-Square Statistic Expected Values Japanese
las categorı́as están bien representadas.
Single La tabla de contingencia
-0.1726 Married
0.0014 -1.4737 muestra que todas las
Percentstienen
American European Japanese 0.2807 1.1930
categorı́as una frecuencia relativa superior al 5 %. A continuación observamos el
valorMarried
del estadı́stico 2 SingleKi
el valor 0.0035 MarriedW
-0.0685 10.1316 con 0.0702 -10.2018
11.2496 χ que toma
4.0115 14.5635 de 7,85. Comparando la correspondiente
distribución,
MarriedW
se12.2422
obtiene un p-valor15.8485
4.3654
de 0,25 por loSingle
que no existe
-8.8684evidencia
0.0702suficiente
8.7982 para
rechazar la hipótesis de independencia y por tanto debemos 0.2105
SingleKi
concluir -0.4211
que no hay relación
0.2105
entreSingle
el tipo de12.2422
familia y4.3654
el origen15.8485
del vehı́culo. Por dicha razón, no continuamos con el
Summary Statistics for the Row
ACS.SingleKi
No obstante, podemos
1.9852 observar
0.7079 los perfiles
2.5700 Points fila y columna (Figura 10) para compro-
bar como, efectivamente, no hay grandes diferencias entre ellos. De ahı́ que no podamos
rechazar la hipótesis de independencia.Quality Mass Inertia
Observed Minus Expected Values
Married 1.0000 0.2982 0.0116
7.2. Marca de coche,
American sexo
European y edad
Japanese
Married
El -1.4737
fichero que MarriedW
vamos a0.2807
utilizar 1.19301.0000
en este 0.3246
ejemplo 0.5566
contiene el número de individuos que
prefieren una determinada
MarriedW 10.1316 marca
0.0702
Single de coches
-10.2018 según su sexo
1.0000 0.3246 0.4210y edad (recogido en la variable
edad sexo):
Single -8.8684 0.0702 8.7982
SingleKi 1.0000 0.0526 0.0108
SingleKi 0.2105 -0.4211 0.2105
DATA EJ2;
Partial Contributions to
Inertia for the Row Points
17
Dim1 Dim2
JOV_FEM
Single HYUNDAI
29.729736 13.5135 56.7568 Single 25.5814 32.6087 37.7246
JOV_FEM RENAULT 8
SingleKi OPEL
JOV_MAS 38.8889
10 11.1111 50.0000 SingleKi 5.4264 4.3478 5.3892
JOV_MAS PEUGEOT 26
JOV_MAS HYUNDAI 25
JOV_MAS RENAULT 30
MAD_FEM OPEL 5
MAD_FEM PEUGEOT 8
MAD_FEM HYUNDAI 2
MAD_FEM RENAULT 4
MAD_MAS OPEL 35
MAD_MAS PEUGEOT 20
MAD_MAS HYUNDAI 7
MAD_MAS RENAULT 60
MAY_FEM OPEL 6
MAY_FEM PEUGEOT 6
MAY_FEM HYUNDAI 1
MAY_FEM RENAULT 6
MAY_MAS OPEL 10
MAY_MAS PEUGEOT 16
MAY_MAS HYUNDAI 3
MAY_MAS RENAULT 25;
Como vemos, en este caso los datos no vienen dados esplı́citamente, si no que cada par
de categorı́as tiene asociada su frecuencia absoluta. Por ello, debemos incluir la sentencia
“WEIGHT” para indicarle al SAS que en esa variable se encuentran recogidos los pesos.
18
ods output CellChiSq = Aportaciones;
ods output RowProfiles = PerfilFila;
ods output ColProfiles = PerfilColumna;
ods output InertiaChart=Inercia;
run;
Como queremos representar los perfiles fila y columna, ası́ como las aportaciones al
estadı́stico χ2 , debemos guardar dichas cantidades para poder representarlas a continua-
ción. Para ello, recurrimos a la sentencia ods output que nos permite guardar las tablas
generadas por el procedimiento. Es necesario saber cuál es el nombre que SAS otorga a
las tablas generadas para lo cuál podemos incluir “ods trace on / listing;” antes del proce-
dimiento, lo que nos mostrará en el log el nombre de todas las tablas. Cuando queramos
quitar esta opción, debemos indicar “ods trace off;”.
Las sentencias necesarias para obtener los gráficos de las Figuras 11, 12 y 13 son:
/*Perfil columna*/
proc sgplot data=PerfilColumna;
series x=Label y=HYUNDAI/ LINEATTRS = (THICKNESS = 3);
series x=Label y=OPEL/ LINEATTRS = (THICKNESS = 3);
series x=Label y=PEUGEOT/ LINEATTRS = (THICKNESS = 3);
series x=Label y=RENAULT/ LINEATTRS = (THICKNESS = 3);
YAXIS LABEL = ’Proporción’;
XAXIS LABEL = ’Marca coche’;
Title "Perfiles columna";
run;
/*Perfil fila*/
proc transpose data=PerfilFila out=PerfilFilaT;
id Label;
run;
/*Heatmap*/
data Aportaciones2(drop=Sum);
set Aportaciones;
19
Figura 11: Representación de los perfiles columna para el Ejemplo 7.2
La Figura 11 contiene los perfiles columna y nos indica que existe relación entre las
mujeres jóvenes y Hyundai y entre Renault y los hombres maduros. La Figura 12 contiene
los perfiles fila y nos indica que existe una fuerte relación inversa entre las mujeres jóvenes
y Renault y entre los hombres jóvenes y Opel. La Figura 13 contiene las aportaciones al
estadı́stico χ2 mostrando también las relaciones anteriores aunque sin indicar el “signo”
de la relación.
Por otro lado, la Figura 14 muestra la descomposició de la inercia, ası́ como el test χ2
20
Figura 12: Representación de los perfiles fila para el Ejemplo 7.2
de Pearson. Como podemos observar, el p-valor es menor que 0,0001 por lo que se puede
rechazar la hipótesis de independencia. Además, la inercia es superior a 0,04 reforzando la
hipótesis de dependencia. La siguiente pregunta a responder es el número de ejes a retener.
El procedimiento corresp no genera una gráfica de Cattell, por lo que debemos obtenerla
a través del siguiente código:
21
Figura 13: Representación de las aportaciones al estadı́stico χ2 para el Ejemplo 7.2
Por lo que determinamos elegir retener los dos primeros ejes. Estos son los que SAS
siempre retiene por defecto, pero si tomáramos la decisión de elegir otra cantidad de-
berı́amos incluir la opción DIMENS= número elegido.
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 15 junto con
la tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de
representación para cada modalidad ası́ como de la masa (proporción de datos) y de la
inercia. En cuanto a la calidad (que es el equivalente a la comunalidad en el ACP) se nos
indica que la mujeres maduras se encuentran poco representadas. Si bien la masa de los
datos provenientes de las mujeres maduras y de las mujeres mayores se encuentran por
debajo del 5 % (no se encuentran realmente muy por debajo de esa cantidad), por lo que
en principio no las agrupamos.
Las contribuciones parciales aparecen en SAS acompañadas de una tabla de indices
para interpretarlos mejor (Figura 16). Para cada dimensión se eligen las modalidades que
más las explican hasta que estén explicadas el 80 % (esta cantidad se puede variar utilizan-
do la opción min=otro valor ). En nuestro caso, para la primera dimensión utilizamos las
modalidades: JOV FEM y MAD MAS que serán las que más intervengan la dirección del
eje. Como contribuyen más a la primera que a otra dimensión, aparece un 1 en el ı́ndice.
Para alcanzar el 80 % de la información necesaria para formar el segundo eje (dimensión
2) necesitamos JOV MAS (47 %), MAD MAS (23 %) y JOV FEM (17 %). De todas ellas,
sólo JOV MAS contribuye más a esta segunda dimensión que a la primera, por lo que en
la columna correspondiente aparece con un 2 (en las otras dos aparece un 1).
Con esas tablas, podemos concluir que las personas que mayor tendencia a preferir
algún tipo de coche son las jóvenes féminas, los hombres maduros y los chicos jóvenes. Los
cosenos al cuadrado (Figura 16) reinciden en lo anteriormente expuesto ya que consisten
en correlaciones al cuadrado entre las dimensiones y las modalidades. Ahora incluimos
además la presencia de los hombres mayores como muy correlacionados con la primera
dimensión.
22
The SAS System 11:42 Friday, October 2
The CORRESP
Figura 14: Gráfica de sedimentación Procedure
de Cattell (Ejemplo coche, sexo y edad)
JOV_MAS 0.9074
23 0.2321 0.1128
Figura 19: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.2)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for Column Points
the Column Points
Entre1y10 80 95 81 89 89 62 49 47 69 Dim162 70Dim2
40 55 51 42 14 45 43
Dim1 Dim2 Best
Entre0y1 47 58 43 66 41 62 37 36 29
HYUNDAI 33 300.0007
0.9706 35 19 34 22 6 34 22
Nada
HYUNDAI188 174
1 1900 194 218
1 236 274 259 251 259 254 278 260 272 268 340
275 283 OPEL 0.0058 0.8952
OPEL 0 2 2
; PEUGEOT 0.0098 0.5807
proc corresp
PEUGEOT 0 data=lluvia
2 2 all chi2p print=both;
var x1-x18; RENAULT 0.9121 0.0093
RENAULT 1 0 1
id Cantidad;
supplementary x16;
run;
Squared Cosines for the
Column Points
Dim1 Dim2
Si las categorı́as suplementarias se encuentran en las filas, la forma de indicarlo en el
proc corresp 0.9706
HYUNDAI es a través de la sentencia weight, donde debemos indicar una variable que
0.0007
tome el valor −1 en las filas, cuya categorı́as sean suplementarias y, 1, en las demás.
OPEL
La Figura0.0058 0.8952
20 muestra la descomposició de la inercia, ası́ como el test χ2 de Pearson.
Como podemos
PEUGEOT observar,
0.0098 0.5807el p-valor es menor que 0,0001 por lo que se puede rechazar la
hipótesis de independencia. En este caso decidimos retener dos factores (puede verificarse
RENAULT 0.9121 0.0093
esta decisión a partir de las reglas correspondientes).
Las proyecciones de las filas sobre los dos ejes aparecen en la Figura 21 junto con la
tabla de resumen de estadı́sticos, que nos proporciona información de la calidad de repre-
sentación para cada modalidad ası́ como de la masa (proporción de datos) y de la inercia.
En cuanto a la calidad se nos indica que todas las categorı́as están bien representadas.
Las contribuciones parciales, ası́ como la tabla de indices, se muestra en la Figura 22.
25
C orres pondence Analys is of E DAD_S E XO by C OC HE _P R E F
OPE L
0.25
Dimens ion 2 (14.97%)
MAD_MAS JO V_F E M
MAY_F E M
0.00 HYUNDAI
R E NAULT
MAD_F E M
MAY_MAS
P E UGE O T
-0.25 JO V_MAS
Figura 20: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)
A la vista de los datos podemos concluir que la primera dimensión está relacionada con
el hecho de llover o no (obsérvese también que la coordenada de la categorı́a “Nada” es la
única que toma un valor negativo). En cuanto a la segunda dimensión, puede explicarse a
partir de la cantidad de lluvia. Las categorı́as con más peso en esta dimensión son “Más
de 10” y “Entre 0 y 1”, siendo sus coordenadas opuestas en signo.
Los cosenos al cuadrado (Figura 22) reinciden en lo anteriormente expuesto. Especial
mención merece la categorı́a “Nada” que centra su peso en la primera dimensión, lo que
refuerza la idea de que la primera dimensión se asocia al hecho de llover o no.
Se repite el proceso para las modalidades columna: las comunidades autónomas. De
nuevo tendremos las coordenadas (Figura 23) que son las proyecciones sobre los dos pri-
meros ejes. La comunalidad de todas es aceptable (La de Castilla-León es algo menor,
debido a su proximidad al origen, pero su masa coincide con la del resto de CCAA). Se
observa que las 4 primeras CCAA de la tabla (las situadas más al norte) presentan mayor
inercia, por lo que serán las que muestren mayores diferencias.
Observamos también la contribución parcial de cada modalidad (Figura 24). En cuanto
a la primera dimensión, las CCAA que mayor contribución tienen son Galicia, Asturias y
Cantabria y, en menor medida, Baleares, Melilla, C. Valenciana y Aragón.
En cuanto a la segunda dimensión, destacan Pais Vasco, La Rioja, Extremadura y
Andalucia. Los cosenos cuadrados refuerzan estas hipótesis.
Por último representamos la gráfica en la Figura 25. En la gráfica se ve como, respecto
a la primera dimensión, las categorı́as fila se ordenan de mayor a menor cantidad de lluvia.
Además, se observa que las categorı́as que implican algo de lluvia, toman valores positivos
en esa dimensión. Desde ese punto de vista, se puede concluir que CCAA como Cantabria
o Paı́s Vasco, entre otras, se asocian con lluvia, mientras que otras Melilla o Murcia se
asocian con falta de la misma.
Con respecto a la segunda dimensión, la categorı́a “Nada” se encuentra muy próxima
26
0.21007 0.04413 273.820 66.13 66.13 *************************
The SAS System
0.13759 0.01893 117.475 28.37 94.50 ***********
11:13 Monday, October 2
The SAS System
0.06057 0.00367 22.762 5.50 100.00 11:13
** Monday, October 26, 2015 8
The CORRESP Procedure
Total 0.06673 414.057 100.00
The CORRESP Procedure
Degrees of Freedom = 48
Inertia and Chi-Square Decomposition
Pr > ChiSq < .0001
Singular
Inertia Principal Chi-
and Chi-Square Cumulative
Decomposition
Value Inertia Square Percent Percent 13 26 39 52 65
Singular Principal Chi- Cumulative ----+----+----+----+----+---
Value Inertia Square Percent Percent 13 26 39 Row
52 Coordinates
65
0.21007 0.04413 273.820 66.13 66.13 *************************
----+----+----+----+----+---
0.21007 0.13759
0.04413 273.820 0.01893
66.13 117.475 66.13 28.37 94.50 ***********
Dim1
************************* Dim2
0.13759 0.06057
0.01893 117.475 0.00367
28.37 22.762 5.50 100.00
94.50 *********** Mas10
**
0.5333 0.4172
Total 0.06673
0.06057 0.00367 22.762 5.50 414.057
100.00100.00
**
Entre1y1 0.2422 -0.1079
Total 0.06673 Degrees
414.057 of100.00
Freedom = 48
Pr=>48
ChiSq < .0001 Entre0y1 0.2077 -0.2464
Degrees of Freedom
Pr > ChiSq < .0001 Nada -0.1410 0.0307
Figura 21: Análisis de la inercia para el Ejemplo 7.3
Row Coordinates
Row Coordinates Summary Statistics for the Row
Dim1 Dim2
Points
Dim1Mas10
Dim2 0.5333 0.4172
Quality Mass Inertia
Mas10 0.5333Entre1y1
0.4172 0.2422
Mas10 -0.1079
0.9933 0.0572 0.3957
Entre1y1 0.2422Entre0y1
-0.1079 0.2077
Entre1y1-0.2464
0.8701 0.1723 0.2085
Entre0y1 0.2077Nada
-0.2464 -0.1410
Entre0y1 0.0307
0.8658 0.1044 0.1878
Summary
Figura 22: Coordenadas Statistics for
y estadı́sticos de the
las Row
filas para el Ejemplo 7.3
Points Partial Contributions to
Summary Statistics for the Row
Inertia for the Row Points
al origen por lo que noPoints Qualityal mismo.
aporta infomación Mass Por Inertia
el contrario, valores positivos
están asociados a grandes cantidades de lluvia, mientras que Dim1 Dim2
valores negativos implican
QualityMas10
Mass Inertia
0.9933 0.0572 0.3957
menos cantidad de lluvia. Ası́, Cantabria y Galicia son las CCAA que más cantidad de
Mas10 0.3688 0.5260
lluvia reciben
Mas10mientras queEntre1y1
0.9933 Asturias
0.0572 y0.3957Navarra0.1723
0.8701 son CCAA 0.2085donde llueve frecuentemente
pero menos cantidad. En otras CCAA como Anadalucia Entre1y1y Extremadura
0.2290 0.1059no llueve frecuen-
Entre1y1
temente pero, cuando0.8701 0.1723
Entre0y1
lo hace, 0.2085
0.8658
la cantidad 0.1044 0.1878
es significativa.
Entre0y1 0.1021 0.3350
Por último, analizamos la comunidad canaria, que ha sido tratado como categorı́a
Entre0y1 0.8658 Nada
0.1044 0.1878
0.9998 0.6661 0.2079
suplementaria debido a sus diferentes caracterı́sticas
Nada geográficas. De esta forma, puede
0.3002 0.0332
ser interpretada
Nada en los mismos términos,
0.9998 0.6661 0.2079 pero no “colabora” en la formación de los ejes.
En particular, observamos que se trata de una CCAA donde llueve muy poco a menudo
(menos que todas las demás CCAA) pero
Partial cuando lo hace,
Contributions
Indices of
las lluvias son
tothe Coordinates That
copiosas.
Inertia for the Row Points Most to Inertia for
Contribute
Partial Contributions to the Row Points
Inertia for the Row Points Dim1 Dim2
Dim1 Dim2 Best
Dim1 Mas10
Dim2 0.3688 0.5260
Mas10 2 2 2
Mas10 0.3688 Entre1y1
0.5260 0.2290 0.1059
Entre1y1 1 0 1
Entre1y1 0.2290 Entre0y1
0.1059 0.1021 0.3350
Entre0y1 0 2 2
Entre0y1 0.1021 Nada
0.3350 0.3002
Nada 0.0332 1 0 1
Dim1 Mas10
Dim2 Best 2 2 2
Entre0y1 0.8658 0.1044 0.1878
Entre0y1 0.1021 0.3350
The SAS System
Nada 0.9998 0.6661 0.2079 Nada
The SAS System 0.3002 0.0332 11:13 Monday, October 26, 2015 9
The CORRESP Procedure
The CORRESP Procedure
Partial Contributions to Indices of the Coordinates That Squared Cosines for the
Inertia for the Row Points Contribute Most to Inertia for Row Points
Squared Cosines for the the Row Points
Row
Dim1Points
Dim2 Dim1 Dim2
Dim1 Dim2 Best
Mas10 0.3688 Dim1
0.5260 Dim2 Mas10 0.6162 0.3771
Mas10 2 2 2
Entre1y1
Mas10 0.2290 0.10590.3771
0.6162 Entre1y1 0.7260 0.1440
Entre1y1 1 0 1
Entre0y1 0.1021
Entre1y1 0.33500.1440
0.7260 Entre0y1 0 2 2 Entre0y1 0.3596 0.5062
NadaEntre0y1
0.3002 0.03320.5062
Nada 1 0 1 Nada 0.9546 0.0452
0.3596
The SAS System 11
Nada
Figura 0.9546 0.0452
23: Contribuciones parciales y cosenos al cuadrado de las filas (Ejemplo 7.3)
Indices of the Coordinates That The CORRESP Procedure
Column Coordinates
Contribute Most to Inertia for
the Row Points Dim1 Dim2
Column Coordinates Summary Statistics for the Column Points
Galicia 0.3820 0.1278
Dim1 Dim2 Best
Dim1 Dim2 Quality Mass Inertia
Asturias 0.4015 -0.0666
Mas10 2 2 2
Galicia 0.3820 0.1278 Galicia 0.9901 0.0588 0.1445
Cantabria 0.3776 0.1548
Entre1y1 1 0 1
Asturias 0.4015 -0.0666 Asturias 1.0000 0.0588 0.1460
Pais Vasco 0.2144 -0.2635
Entre0y1 0 2 2
Cantabria 0.3776 0.1548 Cantabria 0.9986 0.0588 0.1471
Navarra 0.1095 -0.1178
Nada 1 0 1
Pais Vasco 0.2144 -0.2635 Pais Vasco 0.9956
La Rioja 0.0588 0.1022
-0.0355 -0.2516
Andalucia 0 2 2
Baleares 0 0 1
The SAS System 11:13 Monday, October 26, 2015 11
Melilla 1 0 1
The CORRESP Procedure
Figura 25: Contribuciones parciales y cosenos al cuadrado de las columnas (Ejemplo 7.3)
Indices of the Coordinates That Squared Cosines for the
Contribute Most to Inertia for the Supplementary Column
Column Points Points
Dim1 Dim2 Best Dim1 Dim2
Galicia 1 1 1 Canarias 0.8860 0.1137
Asturias 1 0 1
Cantabria 1 1 1
Pais Vasco 2 2 2
29
Navarra 0 0 2
La Rioja 0 2 2
Aragon 1 0 1
Cataluña 0 0 2
The SAS System 11:13 Monday, October 26, 2015 13
Correspondence Analysis
Mas10
0.4
Andalucia
Dimension 2 (28.37%)
0.2 Canarias
Extremadura Cantabria
Melilla
Cataluña Galicia
C.Valenciana
0.0 Baleares Nada CastillaLeon
Madrid
Murcia Asturias
CastillaLaMancha
Aragon Navarra
Entre1y1
-0.2
La Rioja Entre0y1
Pais Vasco
Figura 26: Representación de las coordenadas filas y columnas sobre los dos primeros ejes
de máxima inercia (Ejemplo 7.2)
30