0% encontró este documento útil (0 votos)
12 vistas23 páginas

Análisis Factorial en Estadística

algebra lineal
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
12 vistas23 páginas

Análisis Factorial en Estadística

algebra lineal
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Universidad Nacional Autonoma de

Honduras

DEPARTAMENTO DE ESTADISTICA

METODOS LINEALES

PROYECTO DE INVESTIGACION
ANALISIS FACTORIAL
NELSON MOLINA MOLINA
20181002627

April 27, 2022


Contents

1 INTRODUCCION 1

2 ANALISIS FACTORIAL 2
2.1 9.2 Modelo de factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Invarianza de una escala. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 No unisidad de las cargas factoriales . . . . . . . . . . . . . . . . . . . . . . 3
2.4 Estimación de parámetros en análisis factorial . . . . . . . . . . . . . . . . . 4
2.5 Uso de la matriz de correlacion R . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Análisis de factores principales 6


3.1 Análisis factorial de máxima verosimilitud . . . . . . . . . . . . . . . . . . . 7

4 Prueba de Bondad de Ajuste 9


4.1 Rotación de factores. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.1.1 Interpretacion de factores . . . . . . . . . . . . . . . . . . . . . . . . 9
4.1.2 Rotacion veramax. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

5 11

6 Aplicaciones 12

7 Puntuaciones de factores 18

8 Relaciones entre análisis factorial y principal Análisis de componentes 20


Chapter 1

INTRODUCCION

El análisis factorial es un modelo matemático que intenta explicar la correlación entre un gran
conjunto de variables en términos de un pequeño número de factores subyacentes..
Una suposición importante del análisis factorial es que no es posible observar estos factores
directamente; las variables dependen de la [actores pero también están sujetos a errores aleato-
rios. Tal suposición esparticularmente adecuado para temas como la psicología donde no es
posible para medir exactamente los conceptos en los que uno está interesado (por ejemplo, "in-
teligencia"). y, de hecho, a menudo es ambiguo cómo definir estos conceptos. .
El análisis factorial fue desarrollado originalmente por psicólogos. El tema fue puesto por
primera vez en una base estadística respetable a principios de la década de 1940 por re-
stringiendo la atención a una forma particular de análisis factorial. eso basado en la estimación
de máxima verosimilitud. .
En este capítulo nos concentraremos en el análisis factorial de máxima verosimilitud y tam-
bién en un segundo método..
Análisis de factores principales, que está íntimamente relacionado con la técnica de análisis de
componentes principales.
Chapter 2

ANALISIS FACTORIAL

Para tener una idea del tema, primero describimos un ejemplo simple.
Ejemplo 9.1.1 (Spearman. 1904) Un importante artículo temprano en el factor El análisis se
ocupó del rendimiento de los exámenes de los niños en Clásicos (x1 ). francés (x2 ) e inglés
(x3 ). Se encuentra que la matriz de correlaciones es
 
1 0.83 0.78
 1 0.67 (2.1)
1
e
Aunque esta matriz tiene rango fulI, su dimensionalidad puede ser efectivamente En estas
ecuaciones, f es un "factor común" subyacente y p = 3 y p = 1 se conocen como "[cargas de
actor". Los términos x1 = λ1 f + u1 , x2 = λ2 f + u2 , x3 = λ3 f + u3 representan términos de per-
turbación aleatoria
El factor común puede interpretarse como "habilidad general" y, tendrá una pequeña variación
si x, está estrechamente relacionado con habilidad general.
La variación en u. consta de dos partes que no vamos a tratar de desenredar en la práctica.
Primero. esta varianza representa la medida en que que la habilidad de un individuo en Clas-
sics. decir, difiere de su general habilidad, y segundo. representa el hecho de que el examen es
sólo un medida aproximada de su habilidad en el tema.

2.1 9.2 Modelo de factor


Sea x(p x 1 ) un vector aleatorio con media µ y matriz de covarianza ∑. Entonces decimos que
el modelo de factor k se cumple para x si x se puede escribir en el forma

x = Af +u+µ
donde A(p x k) es una matriz de constantes y f(k x 1) y u(p x 1) son vectores aleatorios Los
elementos de f se llaman factores comunes y los elementos de u factores especificos o unicos.

E( f ) = u V(f) = I
E(u) = 0 C(ui , u j ) = 0 i ̸= j
y
C( f , u) = 0
2.2 Invarianza de una escala. 3

Denote la matriz de covarianza de u por V (u) = ψ = diag(ψ1 ....., ψ pp , , ). Por lo tanto, todos
los factores no están correlacionados entre sí y favorecen la cada uno de los factores comunes
está estandarizado para tener una varianza de [Link] este caso es conveniente que supongamos
que f y u (tanto que x) es una distribucion multivariada.
k
xi = ∑ λi j fi + ui + µi i = 1, .....p
i=1

asi que
σi j =k λi2j + ψi j
cuando la varianza de x se divide en dos partes
k
h21 = ∑ λi2j
i=1

La validez del modelo del factor k se puede expresar en términos de un condición simple
en σ . Usando obtenemos lambdai j = C(xi fi ) Si Lo contrario también vale. Si 1: se puede
descomponer en la forma tben el modelo del factor k se cumple para x.

∑ = AA, + ψ

2.2 Invarianza de una escala.


Cambiar la escala de las variables de x es equivalente a hacer que y = Cx, donde C = diag(ci ).
Si el modelo del factor k se cumple A = Ax Si ψ = ψx1 entonces x:

y = CAx f +Cu +Cµ

y
v(y) = C ∑ C = CAx AxC +CψxC
Por lo tanto, el modelo de factor k también se cumple para y con matriz de carga factorial
Ay = CAx , y varianzas específicas Si ψy = CψxC = diag(C12 ψi j ). Tenga en cuenta que la
matriz de carga factorial para las variables escaladas y es obtenido al escalar la matriz de carga
factorial de las variables originales (multiplique la i-ésima fila de Ax por Cx )

2.3 No unisidad de las cargas factoriales


No unicidad de las cargas factoriales Si el modelo del factor k (9.2.1) se cumple, entonces
también se cumple si los factores son girado; es decir, si G es una matriz ortogonal (k x k),
entonces x también puede serparámetro no es de interés aquí, y lo estimaremos por µ̂ = x̂
y
x = (AG)(G, f ) + u + µ
Como el vector aleatorio G, f también satisface las condiciones y vemos que el modelo de
factor k es válido con nuevos factores G, f y nuevas cargas factoriales AG. Por lo tanto. si
se cumple, también podemos escribir: como ∑ := (AG)(G, A, ) + ψ. En hecho. para ψ fijo,
esta rotación es la única indeterminación en la descomposición de ∑ en términos de A y ψ es
decir, si ∑ = AA, + ψ = A∗ A∗ + ψ entonces A = A *G para alguna matriz ortogonal G .Esta
4 ANALISIS FACTORIAL

indeterminación en la definición de las cargas factoriales suele resolverse rotando las cargas
factoriales para satisfacer una restricción arbitraria tal como

A′ ψ −1 A es diagonal

A′ D, A es diagonal. D = diag(σ1,1 ......σ p,p ., , )


donde en cualquier caso, los elementos diagonales se escriben en orden decreciente pedido.
decir. Ambas restricciones son invariantes de escala y. a excepción de lo posible cambia
01 el signo de las columnas, A está entonces en general completamente determinado por su
restricción.

2.4 Estimación de parámetros en análisis factorial


Estimación de parámetros en análisis factorial prácticamente observamos una matriz de datos
X cuya información se resume por la media muestral i y la matriz de covarianza muestral S.

El parámetro de ubicación no es de interés aquí, y lo estimaremos por µ̂ = î. Él problema


interesante es cómo estimar A y ψ (y por lo tanto (y ∑ = AA, + ψ) de S es decir, deseamos
encontrar estimados A y ψ que satisfagan el restricción, para la ecuación

S = ÂÂ, + ψ

es satisfactoio al menos aproxidamente dada una estimacion  , entonces es natural establecer.


k
ψ̂i j = Si j − ∑ λi2j i = 1, .....p
i=1

de modo que las ecuaciones diagonales en siempre se cumplen exactamente. Deberíamos


ˆ = ÂÂ + ψ
considerar sólo las estimaciones para las que se cumple y que ψ̂11 ≥ 0 Poniendo ∑
obtenemos
k
σ̂ii = ∑ λi2j + ψ̂11
i=1
cuando cumple la condicion

σ̂ii = Si j i = 1, .....p

2.5 Uso de la matriz de correlacion R


Uso de la matriz de correlación R en la estimación. Porque el modelo factorial es invariante de
escala. solo consideramos estimaciones de A = Ax y ψ = ψx que son invariantes de escala. es
entonces conveniente 10 considere la escala por separado de las relaciones entre las variables.
−1
Sea Y = HXDS2 donde Ds = diag(s11 , .......s pp ),
denotemos las variables estandarizadas de modo que
n
1 n 2
∑ yr j = 0 y ∑ yr j = 1,
n r=1
j = 1, .....p
r=1
2.5 Uso de la matriz de correlacion R 5

−1
entonces Y tendra una matriz de carga factorial estimada Ây = DS2 Âx y con una estimacion
especificada en ψ̂11 = D−1
S ψ̂x y se puede escribir en terminos de la matriz de correlacion de x
como
R = Ây Â,y + ψ̂y
notemos que
k
ψ̂yi j = 1 − ∑ λ̂yi2 j i = 1, .....p
i=1
de modo que ψy , ya no es un parámetro del modelo, sino una función de Ay Sin embargo.
R contiene p menos parámetros libres que S, de modo que Ay . la diferencia entre el número
de ecuaciones y el número de parámetros ,todavía está dada por. Las ecuaciones p para el
Los valores estimados de los parámetros de escala están dados por. Como en la práctica
es la relación entre las variables lo que importa interés en lugar de su escala. los datos a
menudo se resumen por R en lugar de S. Las estimaciones de escala dadas en no son entonces
mencionados explícitamente, y las cargas factoriales estimadas y las varianzas específicas se
presentan en términos de las variables estandarizadas
Chapter 3

Análisis de factores principales

Definición: El análisis de factores principales es un método para estimar los parámetros de el


1 1
modelo del factor k cuando s = (p − k)2 − (p + k) es positiva.
2 2
Supongamos que los datos son resumido por la matriz de correlación R, de modo que una
estimación de A y ψ es buscada para las variables estandarizadas, Suponemos implícitamente
que las varianzas de las variables originales se estiman mediante σ̂ii = sii

Como primer paso. estimaciones preliminares h̄2i de las comunalidades h2i , Dos estima-
ciones comunes son:

1. El cuadrado del coeficiente de correlación múltiple de la variable ith con todas las demás
variables.

2. el mayor coeficiente de correlación entre la i-ésima variable y yna de las otras variables
es decir max j̸=i | ri j |.

La matriz R-ψ se llama matriz correlarión reducida porque los 1s en la diagonal han sido
reemplazadas por las comunalidades estimadas.

Donde:

p ′
R − ψ = ∑i=1 ai r(1) r(1)

Con a1 ≥ · · · ≥ a p autovalores de R-ψ, con autovectores autonormales r(1) , · · · r(p) .


Suponemos que los primeros k autovalores son positivos.

La i-esima columna de A es estimada por


1/2
λ̂(i) = ai r(i) , i = 1, · · · , k

Tal que λ̂(i) es proporcional al i-esimo autovector, de la matriz de correlación reducida. En


forma de matriz.

1/2
Λ̂ = Γ1 A1
3.1 Análisis factorial de máxima verosimilitud 7

donde Γ1 = (r(1) , · · · , r(k) ) y A1 = diag(a1 , · · · , ak ) Dado que los vectores propios son
ortogonales, vemos que Λ̂′ Λ̂ es diagonal, por lo que la restricción (9.2.8) Está satisfecho.
(Recordemos que estamos trabajando con las variables estandarizadas aquí, cada una de cuyas
varianzas verdaderas estimadas es 1.).

Finalmente, las estimaciones revisadas de las varianzas específicas se dan en términos de


Λ̂ por:
ψ̂ii = 1 − ∑ki=1 λ̂ii2 i = 1, · · · , p (9.3.3)
Entonces la solución del factor principal es permisible si todos los ψ̂ii son no negativos.

Como motivación para el método del factor principal, sea consideramos lo que ocurre
cuando las comunalidades se conocen exactamente y R es igual a la verdadera matriz de cor-
[Link] R − ψ = ΛΛ′ .

3.1 Análisis factorial de máxima verosimilitud


Cuando se supone que los datos bajo análisis X la se distribuyen normalmente. entonces se
pueden encontrar estimaciones de δ y ψ maximizando la probabilidad. Si µ se sustituye por
su m.l.e. µ = x̄. entonces. de (4.1.9). la log likelihood la función se convierte en.
1 1
l = − nlog | 2πΣ | − ntrΣ−1 S (9.4.1)
2 2
Sin embargo. es más conveniente en nuestra discusión teórica trabajar con S en lugar de
R. Considere la función.

F(Λ, ψ) = F(Λ, ψ; S) = trΣ−1 S − log | Σ−1 S | −p (9.4.2)


Donde
Σ = ΛΛ′ + ψ
Esta es una función lineal del logaritmo de verosimilitud l a y un máximo en r corresponde
a un mínimo en F. Tenga en cuenta que F se puede expresar como.

F = p(a − logg − 1), (9.4.3)


donde a y g son las medias aritmética y geométrica de los valores propios de Σ−1 S.

La minimización de esta función F(Λ, ψ) puede ser facilitado por procedimiento en dos
etapas. Primero. minimizamos F(Λ, ψ) sobre Λ para ψ fijo. y segundo, nosotros mi mini-
mizar sobre ψ. Este enfoque tiene la ventaja de que la primera la minimización se puede llevar
a cabo analíticamente aunque la minimización sobre ψ debe hacerce numéricamente. Fue de-
sarrollado con éxito por Joreskog (1967).

Teorema 9.4.1 Sea ψ > 0 fijo y sea S∗ = ψ −1/2 Sψ −1/2 usando el teorema de descomposi-
cion aspectral escribimos.
8 Análisis de factores principales

S∗ = 7 ′

Entonces el valor de Λ que satisface la restricción (9.2.7). que minimiza F(Λ, ψ) ocurre
cuando la i-ésima columna de Λ∗ = ψ −1/2 Λ esta dada por λ(i)∗ = c r donde c = [max(θ −
i (i) i i
1, 0)]1/2 para i = 1, · · · , k.

Cuando | ψ |= 0, se puede usar la restricción del ejercicio 9.2.8 y especial se debe tener
cuidado en la minimización de F(Λ, ψ). Como en el Ejemplo 9.2.1, denominamos una
situación en la que | ψ |= 0, un caso de Heywood. Por lo general, el estimación ψ̂ será
definida positiva, aunque los casos de Heywood son por no significa poco común (Joreskog,
1967).

Una propiedad importante de los m.l.e.s Λ̂ y ψ̂ es que la estimación de la varianza de la


variable i-esima.

σ̂ii = ∑ki=1 λ̂ii2 + ψ̂ii

es igual a la varianza muestral sii para i = 1, · · · , p (Joreskog, 1967). Deberíamos demostrar


este resultado en el caso especial en que la solución es adecuada. eso es cuando ψ̂ > 0, aunque
es cierto en general.

Teorema 9.4.2 Si ψ̂ > 0, entonces Diag(Λ̂Λ̂′ + ψ̂ − S) = 0.


Chapter 4

Prueba de Bondad de Ajuste

Una de las principales ventajas de la técnica de máxima verosimilitud es que Proporciona una
prueba de la hipótesis Hk el k factores comunes son suficiente para descrizbir los datos contra
la alternativa ∑ que no tiene restricciones que el estadístico de razón de verosimilitud λ esta
dada por
−2logλ = np(â − logĝ − 1)
ˆ −1 S Y asi ten-
donde â y ĝ las medias aaritmeticas y geometricas de los valores propios de ∑
emos que
−2logλ = n f (Â, ψ̂)
El estadístico
−2logλ
Tiene una asintótica en XS2 bajo la distribución de Hk de s está dado por

1 1
S = p(p + 1) − {pk + p − k(k − 1)}
2 2

1 1
= (p − k)2 − (p + k)
2 2
Por lo tanto para cualquier k especificado probaremos Hk con el estadística

U = n, f (Â, ψ̂)

Entonces son estimaciones de máxima verosimilitud. Cuando  y ψ̂ cierto que esta estadís-
tica tiene una distribución asintótica con chic uadradacon S=1 2(p−k)2 − 1 (p+k) Con grados de
2
libertad.

4.1 Rotación de factores.

4.1.1 Interpretacion de factores


sin afectar la validez de la modelo y somos libres de elegir tal rotación para hacer los factores
como intuitivamente significativo como sea posible.
10 Prueba de Bondad de Ajuste

4.1.2 Rotacion veramax.


Sea A la matriz (p x k) de cargas no rotadas, y sea G un ( k x k) matriz ortogonal. La matriz
de cargas rotadas es AG∗ es decir, δi j resenta las cargas de la i-ésima variable sobre el factor
j-esimo. La función <b que maximiza el criterio varimax es la suma de los varianzas de las
cargas al cuadrado dentro de cada columna n de la carga matriz, donde cada fila de cargas está
normalizada por su comunalidad: es decir
n p
0/ = ∑ ∑ (δi2j − δ̄i j )2
i=1 i=1
k p k
= ∑ ∑ δi4j − p ∑ δ̄i2
i=1 i=1 i=1
donde
p
δi j
δi j = y δ̄i − p−1 ∑ δi2j
hi j i=1
El criterio varimax 0/ es una función de G, y el algoritmo iterativo propuesto por Kaiser en-
cuentra la matriz ortogonal G que maximiza 0/
Para G está dada por  
cosθ sinθ
(4.1)
−sinθ cosθ

y representa una rotación de los ejes de coordenadas en el sentido de las agujas del reloj en
un ángulo θ TENEMOS
λi1 cosθ − λi2 sinθ λi1 sinθ − λi2 cosθ
δi1 = , δi2 =
h h
si
p
λi1a λi2b
Ga∗b = ∑ a+b
i=1 h
sustituimos y usamos
4(cos4 θ + sin4 θ ) = 3 + cos4θ , sin2θ = 2sinθ cosθ
cos2θ = cos2 θ − sin2 θ
1
4θ = (A2 + B2 ) 2 COS(4θ − α) +C
se puede demostrar que
A = (G0,4 + G4,0 − G2,2 − G20,2 − G22,0 + 2G0,2 G2,0 + G41,1 )
B = (4G1,3 − G3,1 − G1,1 G0,2 + G1,1 G2,0 )

C = p(3[G2,0 + G0,2 ]2 − [3G22,0 + 3G20,2 + 2G2,0 G2,0 + 4G21,1 ])


Y 1 1
(A2 + B2 ) 2 cosα = A, (A2 + B2 ) 2 sinα = B
en el valor maximo de θ se obtiene cuando 4θ = α en los valores obtenidos para usar
B
tanα =
A
Chapter 5
Chapter 6

Aplicaciones

EJERCICIO 1
En 1951 Sir Richard Doll y otros colegas condujeron un experimento donde en 1951 todo los
doctores británicos recibieron un cuestionario sobre si fumaban tabaco. La siguiente tabla nos
muestra el número de muertes por enfermedad coronaria entre los doctores del género mas-
culino 10 años después de la encuesta.1

Solución

Antes que nada, las siguientes preguntas son de nuestro interés:

1. ¿Es la tasa de muerte mayor para los fumadores que para los no-fumadores?

2. Si lo es, ¿por cuánto?

3. ¿El efecto diferencial está relacionado con la edad?

1 Breslow and Day 1987: Appendix 1A and page 112


13

Figure 6.1: Gráfico de tasas de mortalidad por enfermedad coronaria por 100,000 personas-año para
fumadores (diamantes) y no fumadores (puntos).

Observamos que las tasas incrementan con los años pero de una manera más empinada que
una recta. Las tasas de mortalidad entre los fumadores parecen ser generalmente más altas que
la de los no-fumadores pero no incrementan de forma tan rapida con la edad. Se propone el
siguiente modelo para describir los datos:

log(deathsi ) = log(personyearsi ) + β1 + β2 smokei + β3 agecati + β4 agesqi + β5 smkagei

donde
i = 1, ..., 5 representa el subgrupo definido por la edad y que fuma.
i = 6, ..., 10 representa el subgrupo definido por la edad y que no fuma.
deathsi representa el número esperado de muertes.
personyearsi representa el número de doctores en riesgo y el período de observación para el
grupo i.
smokei es 1 para los fumadores y 0 para los que no fuman.
agecati toma los valores de 1 a 5 para los grupos de edad.
agesqi es el cuadrado de agecati para tener en cuenta la no linealidad de la tasa de aumento.
smkagei es igual a agecati para los fumadores y 0 para los que no fuman.

2 En R:
# i n s t a l l . p a c k a g e s ( "ACSWR" )
l i b r a r y (ACSWR)
l i b r a r y ( ggplot2 )
l i b r a r y (MASS)
d a t a ( bs1 )
g g p l o t ( ) + g e o m _ p o i n t ( d a t a =bs1 , mapping = a e s ( x=Age_Group , y= D e a t h s _ P e r _ L a k h _ Y
BS_Pois <− glm ( D e a t h s ~ Age_Cat+ Age_Square +Smoke_Ind+Smoke_Age , o f f s e t =
l o g ( P e r s o n _ Y e a r s ) , d a t a =bs1 , f a m i l y = ’ p o i s s o n ’ )
l o g L i k ( BS_Pois )
summary ( BS_Pois )
#Con Wald S t a t i s t i c como e l a u t o r
2 Códigode R recuperado 19 de noviembre de: [Link] y Dobson and Bar-
nett 2008: Capítulo 9, página 171
14 Aplicaciones

c o e f ( BS_Pois )
exp ( c o e f ( BS_Pois ) )
exp ( c o n f i n t ( BS_Pois ) )
c o n f i n t ( BS_Pois , l e v e l = 0 . 9 5 )
#########
f i t _ p =c ( f i t t e d . v a l u e s ( BS_Pois ) )
p e a r s o n r e s i d < −( b s 1 $ D e a t h s − f i t _ p ) / s q r t ( f i t _ p )
c h i s q <−sum ( p e a r s o n r e s i d * p e a r s o n r e s i d )
d e v r e s <− s i g n ( b s 1 $ D e a t h s − f i t _ p ) ( s q r t ( 2 ( b s 1 $ D e a t h s *
log ( bs1$Deaths / f i t _ p ) −( bs1$
d e v i a n c e <−sum ( d e v r e s * d e v r e s )
p c h i s q ( B S _ P o i s $ d e v i a n c e , d f = B S _ P o i s $ d f . r e s i d u a l , l o w e r . t a i l = FALSE )

Los estimadores demuestran que el riesgo de muertes por enfermedad coronaria fueron, en
promedio, 4 veces más grandes para los doctores fumadores que para los que no fuman.

Para el modelo mínimo solo con el parámetro β1 , el valor máximo para la función log-
verosimilitud es l(bmin ) = −495.067 y para el modelo l(b) = −28.352. Por lo que una prueba
general para β j = 0; j = 2, ...5 es C = 2[l(b) − l(bmin )] = 933.45 lo cual es altamente signif-
icante, estadísticamente hablando, comparado con la distribución chi-cuadrado con 4 grados
de libertad.

El valor de Pseudo R2 es de 94% sugiriendo un buen ajuste. X 2 = 1.550 y D = 1.635 son


pequeños comparados a una distribucón chi-cuadrado con N − p = 10 − 5 = 5 grados de liber-
15

tad. Asímismo, podemos notar que por la prueba de bondad de ajuste Chi-cuadrado, el valor de
probabilidad de la prueba es mayor que la significancia del 5%, por lo que No rechazamos la
hipótesis H0 : El modelo de Regresión de Poisson es un buen ajuste para los datos observados.
16 Aplicaciones

EJERCICIO 2
El siguiente conjunto de datos reporta el número de muertes debido al SIDA en Australia por
períodos de 3 meses desde Enero de 1983 hasta Junio de 1986.3

Aplicando un modelo log-lineal a estos datos obtenemos:

Para este modelo se puede observar que el número de muertes debido al SIDA en un a{no fue
3 Whyte, 1987 y Dobson, 1990
17

en promedio exp(0.257) = 1.29 veces más grande que el a{no anterior.

β̂
Rechazamos la hipótesis H0 : βi = 0, por medio del estadístico de Wald Z0 = = 11.369
s.e(β̂
y el valor p es P = P(Z0 > 11.639) < [Link], por la prueba de bondad de ajuste
Chi-cuadrado notamos que la probabilidad de prueba es menor a la significancia del 5%. Esto
nos lleva a concluir que bajo significancia del 5%, los datos proveen suficiente evidencia que
el tiempo tiene un efecto sobre el número de muertes debido al SIDA en Australia.

En R:
x<−c ( 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 1 0 , 1 1 , 1 2 , 1 3 , 1 4 )
y<−c ( 0 , 1 , 2 , 3 , 1 , 4 , 9 , 1 8 , 2 3 , 3 1 , 2 0 , 2 5 , 3 7 , 4 5 )
plot (x , y)
r e s . p=glm ( y~x , f a m i l y = ’ p o i s s o n ’ )
summary ( r e s . p )
confint ( res . p , level =0.95)
#######
coef ( res . p )
exp ( c o e f ( r e s . p ) )
exp ( c o n f i n t ( r e s . p ) )
f i t _ p =c ( f i t t e d . v a l u e s ( r e s . p ) )
p e a r s o n r e s i d < −( y− f i t _ p ) / s q r t ( f i t _ p )
c h i s q <−sum ( p e a r s o n r e s i d * p e a r s o n r e s i d )
p c h i s q ( r e s . p $ d e v i a n c e , r e s . p $ d f . r e s i d u a l , l o w e r . t a i l = FALSE )
En la salida de R, la desviación se expresa como la desviación residual = 29.654, gl = 12. El
valor P para la prueba sería inferior a 0,001 y, por lo tanto, indicaría que el modelo saturado
se ajusta a los datos significativamente mejor que el modelo solo incluyendo el tiempo, con
α = 0.05. Esta desviación residual indica una falta de ajuste para el modelo que solo incluye
el tiempo para predecir muertes por SIDA en Australia. Para juzgar el ajuste del modelo sin
D
realizar formalmente la prueba, la buena medida es (aquí = 2.471). Si está cerca de uno,
gl
indica un buen ajuste del modelo. Aquí la puntuación no es lo suficientemente cercana y se
puede interpretar como falta en el ajuste del modelo.
Chapter 7

Puntuaciones de factores

Hasta ahora, nuestro estudio del modelo factorial se ha ocupado de la forma en que las vari-
ables observadas son funciones de los factores (desconocidos). Por ejemplo, en los datos del
examen de Spearman podemos describir la forma en que los puntajes de las pruebas de un niño
dependerán de su inteligencia general. Sin embargo, también es interesante preguntar a la in-
versa pregunta. Dados los puntajes de las pruebas de un niño en particular, ¿podemos hacer
alguna declaración sobre su rendimiento general? inteligencia.? Para el modelo general quer-
emos saber como los factores dependen de las variables observadas.
Una forma de abordar el problema es tratar las puntuaciones desconocidas del factor común
como parámetros a estimar. Suponer x es un vector aleatorio multinormal del modelo factorial
(9.2.1) y supongamos que Λ y ψ y µ = 0 son conocidos. Dado el vector f (p x 1) de puntajes
de factor común, x se distribuye como N p (Λ f , ψ). Por lo tanto, el logaritmo de probabilidad
de x viene dado por:
1 1
l(x; f) = − (x − Λf)′ ψ −1 (x − Λf) − log |2πψ| (7.1)
2 2
Establecer la derivada con respecto a f igual a 0 da:
∂l
= Λ′ ψ −1 (x − Λ f ) = 0
∂f
así que:
−1 ′ −1
f̂ = Λ′ ψ −1 Λ Λψ x (7.2)
La estimación en (9.7.2) se conoce como puntaje factorial de Bartlett. Lo especifico Las
puntuaciones de los factores se pueden estimar mediante û = x − Λ.
Nótese que (9.7.1) es el logaritmo de la densidad condicional de x dada f. Sin embargo, bajo el
modelo factorial, f puede ser considerado como un N p (0, I) vector aleatorio, dando así a f una
distribución previa. Usando este bayesiano enfoque, la densidad posterior de f es proporcional
a:  
1 ′ −1 1 ′
exp − (x − Λ f ) ψ (x − Λf) − f f (7.3)
2 2
que es una densidad multinomial cuya media
−1
f ∗ = I + Λ′ ψ −1 Λ Λ′ ψ −1 x (7.4)

es la estimación bayesiana de f. La estimación en (9.7.4) se conoce como puntuación del


factor de Thompson. Cada una de estas dos puntuaciones factoriales tiene algunas propiedades
19

favorables y Ha habido una larga controversia sobre cuál es mejor. Por ejemplo:
−1 ′ −1
E(f̂ | f) = f, E (f∗ | f) = I + Λ′ ψ −1 Λ Λ ψ Λf (7.5)

de modo que la puntuación factorial de Bartlett es una estimación no sesgada de f , mien-


tras que La puntuación de Thompson está sesgada. Sin embargo, el promedio los errores de
predicción son dada por
−1
E (f̂ − f)(f̂ − f)′ = Λ′ ψ −1 Λ

(7.6)
−1
E (f∗ − f)(f∗ − f)′ = I + Λ′ ψ −1 Λ

(7.7)
para que la puntuación de Thompson sea más precisa. si las columnas de Λ satisfacen la
restricción (9.2.7). entonces para cualquiera de las puntuaciones de los factores, los compo-
nentes de la puntaje factorial no están correlacionados entre sí. Tenga en cuenta que si los
valores propios de Λ′ ψ −1 Λ son todos grandes, entonces los errores de predicción serán pe-
queños, y también las puntuaciones de los dos factores serán similares entre sí.
Por supuesto en la práctica Λ, ψ y µ no se conocen de antemano pero son estimado a partir
de los mismos datos para que deseamos saber el factor puntuaciones. sería teóricamente atrac-
tivo estimar las puntuaciones de los factores. cargas factoriales y varianzas específicas, todo
al mismo tiempo a partir de los datos, utilizando la máxima verosimilitud. Sin embargo, hay
demasiados parámetros para esto para ser posible. Hay muchos valores de los parámetros para
los cuales la probabilidad se vuelve infinita. Ver Ejercicio 9.7.2.
Chapter 8

Relaciones entre análisis factorial y princi-


pal Análisis de componentes

El análisis factorial, como el análisis de componentes principales, es un intento de explicar un


conjunto de datos en un número menor de dimensiones que uno comienza con. Debido a que
los objetivos generales son bastante similares, vale la pena mirar el diferencias entre estos dos
enfoques.
Primero, el análisis de componentes principales es simplemente una transformación de los
datos. No se hacen suposiciones sobre la forma de la matriz de covarianza de donde provienen
los datos. Por otra parte, el análisis factorial supone que los datos provienen delmodelo bien
definido (9.2.1), donde el los factores subyacentes satisfacen los supuestos (9.2.2)-(9.2.4). Si
no se cumplen estos supuestos, el análisis factorial puede dar resultados falsos.
En segundo lugar, en el análisis de componentes principales, el énfasis está en una transfor-

mación de las variables observadas a los componentes principales (y = Γ x), mientras que en
el análisis factorial el énfasis está en una transformación del factores subyacentes a las vari-
ables observadas. Por supuesto, el componente principal de la transformación es invertible

(x = Γ y), y si hemos decidido para retener los primeros k componentes, entonces x puede ser
aproximado por estos componentes,
.
x = Γy = Γ1 y1 + Γ2 y2 = Γ1 y1

Sin embargo, este punto de vista es menos natural que en el análisis factorial donde x se puede
aproximar en términos de los factores comunes

x = Λf

y se supone explícitamente que los factores específicos ignorados son "ruido". Nótese que en
la Sección 9.3, cuando se supone que las varianzas específicas son 0, el análisis de factores
principales es equivalente al análisis de componentes principales.
Por tanto, si el modelo factorial se mantiene y si las varianzas específicas son pequeñas, esperar
que el análisis de componentes principales y el análisis factorial proporcionen resultados sim-
ilares. resultados. Sin embargo, si las variaciones específicas son grandes, serán absorbidas en
todos los componentes principales, tanto retenidos como rechazados, mientras que el análisis
factorial hace especial provisión para ellos.
21

BIBLIOGRÁFIA

1. Unit4: Multinomial Response, Overdispersion, and Separation of Points. (s. f.). Unit4:
Multinomial Response, Overdispersion, and Separation of Points. Recuperado 16 de abril de
2022, de [Link]

2. Tattar, P. (2019, 2 mayo). British Doctors Smoking and Coronary Heart Disease. [Link].
Recuperado 16 de Abril de 2022, de [Link]

[Link], A. J., Barnett, A. G. (2008). Poisson Regression and Log-Linear Models [Libro
electrónico]. En An Introduction to Generalized Linear Models (3.a ed., pp. 165–186). A
CHAPMAN HALL BOOK.

[Link]: Poisson Regression. (s. f.). Academic Macewan. Recuperado 16 de abril 2022,
de [Link]

También podría gustarte