0% encontró este documento útil (0 votos)
102 vistas8 páginas

EJEMPLO Sas 1

Este documento describe los pasos para realizar un análisis factorial de datos sobre el porcentaje de trabajadores empleados en diferentes industrias en países europeos en 1980. Inicialmente, los índices de adecuación muestral son bajos, por lo que se eliminan variables hasta alcanzar un índice aceptable. El análisis sugiere dos factores: uno relacionado con los servicios y otro con la industrialización. Tras rotar los factores, uno se asocia con el sector de servicios y el otro con la industrialización.

Cargado por

Alejandro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
102 vistas8 páginas

EJEMPLO Sas 1

Este documento describe los pasos para realizar un análisis factorial de datos sobre el porcentaje de trabajadores empleados en diferentes industrias en países europeos en 1980. Inicialmente, los índices de adecuación muestral son bajos, por lo que se eliminan variables hasta alcanzar un índice aceptable. El análisis sugiere dos factores: uno relacionado con los servicios y otro con la industrialización. Tras rotar los factores, uno se asocia con el sector de servicios y el otro con la industrialización.

Cargado por

Alejandro
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

EJEMPLO

 
El fichero empleo contiene información sobre el porcentaje de
trabajadores  empleados en nueve industrias diferentes en varios países de
Europa en el año 1980. Vamos a seguir los pasos necesarios para realizar un
Análisis Factorial sobre estos datos  utilizando el paquete estadístico SAS.
 
En primer lugar, vamos a crear el fichero de datos SAS. Observemos
que leemos la variable país en las primeras 12 columnas y el símbolo $ nos
indica que esta variable será carácter. La sentencia  cards significa que hemos
copiado el fichero en el editor de SAS.
 
data empleo;
input pais $ 1-12 agricultura mineria industria abastecimiento
construccion servicios finanzas serv_social transporte;
cards;
 
Belgica           3.3  0.9 27.6 0.9 8.2  19.1 6.2 26.6 7.2
Dinamarca         9.2  0.1 21.8 0.6 8.3  14.6 6.5 32.2 7.1
Francia           10.8 0.8 27.5 0.9 8.9  16.8 6.0 22.6 5.7
RFAlemana         6.7  1.3 35.8 0.9 7.3  14.4 5.0 22.3 6.1
Irlanda           23.2 1.0 20.7 1.3 7.5  16.8 2.8 20.8 6.1
Italia            15.9 0.6 27.6 0.5 10.0 18.1 1.6 20.1 5.7
Luxemburgo        7.7  3.1 30.8 0.8 9.2  18.5 4.6 19.2 6.2
Holanda           6.3  0.1 22.5 1.0 9.9  18.0 6.8 28.5 6.8
Gran Bretaña      2.7  1.4 30.2 1.4 6.9  16.9 5.7 28.3 6.4
.............       .......................................
Rusia             23.7 1.4 25.8 0.6 9.2   6.1 0.5 23.6 9.3
Yugoslavia        48.7 1.5 16.8 1.1 4.9   6.4 11.3 5.3 4.0
;
 
El análisis se va a realizar sobre la matriz de Correlaciones y vamos a
utilizar el método de las Componentes Principales. Lo primero que llevamos
a cabo es la ejecución del procedimiento Factor,  proc Factor.  La
opción  msa nos va a servir para saber si la matriz de datos es adecuada para
realizar el  Análisis Factorial.
 
proc Factor data=empleo msa ;
var agricultura--transporte;
run;
 
Los índices son demasiado pobres, lo que significa que no se debe
llevar a cabo AFC para este conjunto de variables. Lo que procede será
eliminar las variables que tengan índices de adecuación muestral bajos.
 
 
Kaiser's Measure of Sampling Adequacy: Overall MSA = 0.13448999
agricultura mineria industria abastecimiento construccion servicios finanzas serv_social transporte
0.23535 0.10101 0.14032 0.10045 0.09938 0.15475 0.05967 0.15061 0.13617
Tabla 1.1
 
Empezamos eliminando la variable finanzas que es la que posee un
menor valor del índice. Ahora en la sentencia  VAR se incluyen como
variables activas la lista que va desde  agricultura hasta servicios y se le
añaden serv_social y transporte
 
proc Factor data=empleo MSA;
var agricultura--servicios serv_social transporte;
run;
 
El resultado ha mejorado considerablemente pero aún no lo suficiente (no se
llega a 0.5 como índice general).  Por tanto procede eliminar aquella
variable con un menor valor:
 
Kaiser's Measure of Sampling Adequacy: Overall MSA = 0.42878062
agricultura mineria industria abastecimiento construccion servicios serv_social transporte
0.44848 0.70799 0.34675 0.36047 0.39140 0.42894 0.34834 0.73266
Tabla 1.2
 
Se vuelve a realizar el análisis, eliminando la variable industria.
 
proc Factor data=empleo MSA;
var agricultura mineria abastecimiento construccion servicios  serv_social transporte;
run;
 
Sigue sin ser satisfactorio, por lo tanto,  eliminamos la
variable construccion:
 
Kaiser's Measure of Sampling Adequacy: Overall MSA = 0.49982178
agricultura mineria abastecimiento construccion servicios serv_social transporte
0.55272 0.36926 0.44931 0.33153 0.63613 0.47231 0.58713
Tabla 1.3
 
 
proc Factor data=empleo MSA;
var agricultura mineria abastecimiento servicios  serv_social transporte;
run;
 
Volvemos a repetir el procedimiento después de eliminar la
variable construccion. Ahora el resultado general se encuentra por encima
de 0.60.  yvamos a seguir con el análisis (aunque podríamos eliminar la
variable mineria).
 
 
Kaiser's Measure of Sampling Adequacy: Overall MSA = 0.60645038
agricultura mineria abastecimiento servicios serv_social transporte
0.61521 0.38407 0.66494 0.55031 0.71101 0.68740
Tabla 1.4
 
Realizamos el análisis e incluimos la opción  scree que permitirá
visualizar gráficamente la secuencia de autovalores para ayudarnos en la
decisión de los Factores a retener.        
 
proc Factor data=empleo scree ;
VAR agricultura mineria abastecimiento servicios  serv_social transporte;
run;
 
            Examinamos la Tabla de descomposición de la varianza. Es decir
los autovalores de la matriz  de correlaciones.
 
 
Eigenvalues of the Correlation Matrix: Total
= 6 Average = 1
  Eigenvalue Difference Proportion Cumulative
1 2.89878 1.28856 0.4831 0.4831
2 1.61023 0.86320 0.2684 0.7515
3 0.74703 0.34784 0.1245 0.8760
4 0.39919 0.16143 0.0665 0.9425
5 0.23776 0.13075 0.0396 0.9822
6 0.10701   0.0178 1.0000
 
Tabla 1.5

 
 
 
 
 
 
 
 
 
 
 
 
Figura 1.1
 
Como los dos primeros autovalores son mayores que 1,
recogen mas del 70% de la variabilidad, y  la gráfica  scree plot de Catell nos
muestra que quedan por encima de la recta que uniría al resto de autovalores
determinamos que la solución alcanzada consta de sólo dos Factores. 
 
La matriz de carga L, aparece indentificada en SAS bajo
el epigrafe  Factor Pattern. El primer Factor estaría asociado a los servicios,
servicios sociales y falta de agricultura, mientras que el segundo se
relacionaría con la mineria y los abastecimientos. La varianza explicada por
el primer Factor sería de 2.89 y la del segundo 1.61.
 
Examinando la Comunalidad final estimada todas se encuentran por
encima del 50% por lo que podemos considerar la solución como buena.
 
 
Factor Pattern
  Factor1 Factor2
agricultura -0.93690 -0.04317
mineria -0.15464 0.89489
abastecimiento 0.44177 0.68859
servicios 0.76966-0.37831
serv_social 0.85936-0.20757
transporte 0.68632 0.38364
 
Tabla 1.6
 
Variance Explained by Each
Factor

Factor1 Factor2

2.8987840 1.6102262

 
Tabla 1.7
 
Final Communality Estimates: Total = 4.509010
agricultura mineria abastecimiento servicios serv_social transporte
0.8796 0.8247 0.6693 0.7355 0.7816 0.6182
Tabla 1.8

 
A continuación realizamos una rotación por el método varimax, para
ello utilizamos la opción  rotate=varimax , la opción  reorder nos indica que la
matriz de carga aparecerá de tal forma que las variables estarán ordenadas
según la importancia con cada uno de los Factores, comenzando por el
primer Factor. Creamos los conjuntos de datos  solución1 y solución2. El primer
conjunto de datos,  contendrá las proyecciones delos individuos, países,
sobre los ejes generados por los Factores, y el segundo contendrá toda la
información generada por el procedimiento siendo de especial interés la
matriz de carga.
 
proc Factor data=empleo  out=solucion1 outstat=solucion2 reorder n=2 Rotate=VARIMAX;
VAR agricultura mineria abastecimiento servicios  serv_social transporte;
run;
 
Los resultados de la rotación se encuentran en las Tablas 1.9 y 1.10. A
la vista de dichos resultados, podríamos definir al 1ª eje como sector
servicios y al segundo eje como industrialización.
 
Rotated Factor Pattern Variance Explained by Each
  Factor1 Factor2 Factor
serv_social 0.88366 0.02691
Factor1 Factor2
servicios 0.84228 -0.16146
transporte 0.56054 0.55137 2.8087920 1.7002182
agricultura -0.89219 -0.28923
mineria -0.38564 0.82221
abastecimiento 0.24409 0.78085
Tabla 1.9 Tabla 1.10
 
 
Vamos a utilizar el  procedimiento  Print para obtener los dos conjuntos
de datos creados anteriormente:
 
proc print data=solucion1;
proc print data=solucion2;
run;
 
 
Ob
pais agricultura mineria ...   transporte Factor1 Factor2
s
1 Belgica 3.3 0.9 ... 7.2 1.19484 -0.20323
2 Dinamarca 9.2 0.1 ... 7.1 1.15326 -0.94173
3 Francia 10.8 0.8 ... 5.7 0.54269 -0.52030
4 RFAlemana 6.7 1.3 ... 6.1 0.38740 -0.05383

26 Yugoslavia 48.7 1.5 ... 4.0 -2.06082 -0.05942


Tabla 1.11.Conjunto de datos solución1.
 
 
Ob transport
_TYPE_ _NAME_ agricultura mineria abastecimiento servicios serv_social
s e
1 MEAN   19.1308 1.2538 0.9077 12.9577 20.0231 6.5462
2 STD   15.5466 0.9700 0.3762 4.5753 6.8295 1.3915
3N   26.0000 26.0000 26.0000 26.0000 26.0000 26.0000
Ob transport
_TYPE_ _NAME_ agricultura mineria abastecimiento servicios serv_social
s e
4 CORR agricultura 1.0000 0.0358 -0.4001 -0.7370 -0.7468 -0.5649
5 CORR mineria 0.0358 1.0000 0.4055 -0.3966 -0.2810 0.1566
6 CORR abastecimiento -0.4001 0.4055 1.0000 0.2019 0.1324 0.3752
7 CORR servicios -0.7370 -0.3966 0.2019 1.0000 0.5722 0.1876
8 CORR serv_social -0.7468 -0.2810 0.1324 0.5722 1.0000 0.5679
9 CORR transporte -0.5649 0.1566 0.3752 0.1876 0.5679 1.0000
10 COMMUNAL   0.8796 0.8247 0.6693 0.7355 0.7816 0.6182
11 PRIORS   1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
12 EIGENVAL   2.8988 1.6102 0.7470 0.3992 0.2378 0.1070
13 UNROTATE Factor1 -0.9369 -0.1546 0.4418 0.7697 0.8594 0.6863
14 UNROTATE Factor2 -0.0432 0.8949 0.6886 -0.3783 -0.2076 0.3836
15 TRANSFOR Factor1 0.9644 -0.2643 . . . .
16 TRANSFOR Factor2 0.2643 0.9644 . . . .
17 PATTERN Factor1 -0.8922 -0.3856 0.2441 0.8423 0.8837 0.5605
18 PATTERN Factor2 -0.2892 0.8222 0.7809 -0.1615 0.0269 0.5514
19 SCORE Factor1 -0.3046 -0.1983 0.0340 0.3182 0.3200 0.1654
20 SCORE Factor2 -0.1113 0.5219 0.4527 -0.1564 -0.0460 0.2923
Tabla 1.12. Conjunto de datos solucion2
 
El conjunto de datos  solucion2 recoge la siguiente información:
 
 La observación 1 contiene la media de las variables activas.
 La observación 2 contiene la desviación típica de las variables activas.
 La observación 3, contiene el número de observaciones válidas.
 Las observaciones 4 a la 9 contienen la matriz de correlaciones.
 La observación 10 la comunalidad de las variables activas.
 La observación 11 la comunalidad inicial (es 1 ya que utilizamos el método de las
componentes principales).
 Las observaciones 13 y 14 representan a la matriz de carga antes de rotarse. L’
 Las observaciones 15 y 16 contienen la matriz T Ortogonal que al multiplicarla por L
nos producirá la matriz de carga rotada L*.
 Las observaciones 17 y 18 es la matriz L* rotada (matriz de carga rotada).
 Las observaciones 19 y 20 nos indican los coeficientes de la transformación para cada
eje. Es decir la combinación lineal de las variables activas que sirve para obtener los
valores del Factor1 y Factor2 conociendo dichas variables activas. Por ejemplo:
      Factor1= -0.3046 agricultura -1983mineria+...0.1654 trans
 
            Si queremos representar con SAS las variables en el plano
Factorial, deberemos representar la matriz de cargas. Para realizar la
gráfica con SAS debemos considerar que el conjunto de datos deberá tener
por variables a los Factores y por observaciones a las variables. Fijándonos
en el conjunto de datos solucion2 observamos que sólo necesitamos la
información contenida en las observaciones donde la
variable  _type_ vale  ‘PATTERN’ (ojo al ser_type_ una variable
carácter ‘PATTERN’ ≠ ‘pattern’, es decir los caracteres mayúsculas son
diferentes a las minúsculas).  Además deberemos intercambiar filas por
columnas, para ello utilizamos el procedimiento  transpose. Al nuevo conjunto
así creado lo denominamos  represen.
 
proc transpose data=solucion2 out=represen;
where _type_='PATTERN';
run;
proc print data=represen;
run;
 
 
Ob
_NAME_ Factor1 Factor2
s
-
1 agricultura -0.89219
0.28923
2 mineria -0.38564 0.82221
3 abastecimiento 0.24409 0.78085
-
4 servicios 0.84228
0.16146
5 serv_social 0.88366 0.02691
6 transporte 0.56054 0.55137
Tabla 1.13. Conjunto de datos represen.
 
y éstas ya pueden ser fácilmente representadas con la macro  %Plotit; que
escribe los nombres de las observaciones a representar. Fijarse que la
variable que identifica los citados nombres es  _name_, y que las variables a
representar  (plotvars=) son  Factor1 y  Factor2. Se incluyen las líneas de referencia
horizontal y vertical que pasan por el origen ( href=0 y vref=0).
 
%plotit (data=represen,plotvars=Factor1 Factor2, labelvar=_name_, href=0, vref=0);
 

Figura 1.2
 
 
Por último representamos los países (las observaciones en el plano
Factorial) utilizando el conjunto de datos  solucion1:
 
%plotit(data=solucion1, labelvar=pais, plotvars=Factor1 Factor2, tsize=1.5, symsize=0.5, color=cre
am, colors=red, ls=125,href=0, vref=0);
run;
 
Figura 1.3
 
De la representación gráfica observamos como Turquía es una
observación prácticamente atípica, que tiene gran influencia en el análisis
por ser un país fundamentalmente agrícola con pocos servicios sociales y
escasos recursos geo-naturales.
            Los países del Este aparecen con mayores riquezas minerales,
mientras que los países del Norte de Europa son los que más prestaciones
sociales presentan.

También podría gustarte