0% encontró este documento útil (0 votos)
76 vistas6 páginas

Análisis de Datos Multivariantes en Estadística

1) El documento presenta conceptos básicos sobre datos multivariantes, incluyendo matrices de datos, medias, covarianzas y correlaciones. 2) Explica que una matriz de datos X contiene valores de p variables medidas en n individuos. 3) Define vectores y matrices clave como el vector de medias, la matriz de covarianzas y la matriz de centrado de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
76 vistas6 páginas

Análisis de Datos Multivariantes en Estadística

1) El documento presenta conceptos básicos sobre datos multivariantes, incluyendo matrices de datos, medias, covarianzas y correlaciones. 2) Explica que una matriz de datos X contiene valores de p variables medidas en n individuos. 3) Define vectores y matrices clave como el vector de medias, la matriz de covarianzas y la matriz de centrado de datos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 1 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica.

2 Datos multivariantes

Tema 2
1. Matrices de datos
Datos multivariantes 2. Medias, covarianzas y correlaciones
3. Variables compuestas
4. Teorema de la dimensión
Aurea Grané 5. Distancias
Departamento de Estadı́stica
Universidad Carlos III de Madrid

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 3 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 4

2.1 Matrices de datos


Introducción Supondremos que hemos observado p variables en un conjunto de n
elementos o individuos. Cada una de estas p variables es una variable
univariante y el conjunto de las p variables forma una variable
El análisis multivariante es la parte de la estadı́stica y del análisis de
multivariante.
datos que estudia, analiza, representa e interpreta los datos que
resultan de observar un número p > 1 de variables estadı́sticas sobre La matriz de datos X es la representación de estas p variables
una muestra de n individuos. medidas en los n individuos:
 
Las variables obervables son homogéneas y correlacionadas, sin x11 x12 . . . x1p
 
que ninguna predomine sobre las demás.  x21 x22 . . . x2p 
 
X= .
.. .. .. 

Generalmente la información multivariante es una matriz de datos.  .. . . . 
Aunque, a menudo, también puede ser una matriz de distancias (o  
xn1 xn2 . . . xnp
similaridades), que miden el grado de discrepancia (o similitud) entre
los individuos. La matriz X puede representarse de dos formas distintas: por filas y
por columnas.
Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 5 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 6

Representación por filas:


    2.2 Medias, covarianzas y correlaciones
x x12 ... x1p x′1
 11   
 x21 x22 ... x2p x′2
   
X=
 
=
 Dada una matrix X, n × p, con datos cuantitativos, se define el
 .. .. .. .. ..

. vector de medias de X como el vector columna p × 1
  
 . . .   . 
   
xn1 xn2 . . . xnp x′n n
¡ ¢′ 1X
x = X 1 , X 2 , . . . , X p , donde X j = xij .
n i=1
donde x′i ∈ Rp (i = 1, . . . , n) representa los valores observados para el
individuo i-ésimo en las p variables.
Generalmente, el vector de medias se expresa como
Representación por columnas:
1 ′
X = (X1 , X2 , . . . , Xp ) , x= X 1,
n
donde Xj ∈ Rn (j = 1, . . . , p) representa la variable univariante donde 1 = (1, 1, . . . , 1)′ es un vector columna n × 1.
j-ésima medida sobre todos los individuos de la muestra.

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 7 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 8

Se define la matriz de covarianzas de X como


La matriz cuyas columnas tienen media cero se denomina matriz de 1
S = X′ H X = (sjk )p×p .
datos centrados y es el resultado de aplicar a cada columna de X n
una traslación igual a menos su media, es decir, Observad que para cada par (j, k), 1 ≤ j, k ≤ p el elemento sjk de S
µ ¶ es la covarianza de las columnas j y k de la matriz X, es decir,
1 ′ 1
X0 = X − 1 x′ = X − 1 1 X = X − 1 1′ X = HX, n
n n 1X
sjk = (xij − X j )(xik − X k ).
n i=1
donde H = I − n1 1 1′ es la matriz de centrado, I es la matriz
identidad de orden n. En particular, para cada j, j = 1, . . . , p, el elemento sjj de S es la
varianza de la columna j de la matriz X, es decir,
Propiedades de la matriz de centrado
n
1X
1. H′ = H (simétrica) sjj = s2j = (xij − X j )2 .
2. H2 = H (idempotente) n i=1
3. H 1 = ~0 (1 es un autovector de H de autovalor 0) Cuando se desee obtener un estimador insesgado de las varianzas y
4. rang(H) = n − 1 covarianzas de la población, se utilizará la matriz
5. Los autovalores de H son 0 y 1.
n 1
S̃ = S= X′ H X.
Ejercicio 2.1 Demostrar las propiedades anteriores. n−1 n−1
Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 9 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 10

Se define la matriz de correlaciones de X como aquella matriz El vector x es una medida de centralidad multivariante de los datos.
cuyos elementos son los coeficientes de correlación de las columnas de La matriz S y, sobre todo, la matriz R son medidas matriciales de
X, es decir, interdependencia lineal entre las variables.
sjk
R = (rjk )p×p , donde rjk = √ . Como medidas escalares de dispersión multivariante (o de
sjj skk
variabilidad global) se definen la varianza generalizada como det(S) y
En notación matricial, la matriz R se obtiene como la variación total como tr(S).

R = D−1 −1
s S Ds , Como medida escalar de interdependencia lineal (o de dependencia
√ √ √ global) se define η 2 = 1 − det(R), que verifica las propiedades:
donde Ds = diag( s11 , s22 , . . . , spp )′ .
1. 0 ≤ η 2 ≤ 1,
Observad que S y R son matrices simétricas. Más adelante veremos 2. η 2 = 0 ⇔ las p variables están incorreladas,
que también son matrices semidefinidas positivas. 3. η 2 = 1 ⇔ existen relaciones lineales entre las variables.

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 11 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 12

2.3 Variables compuestas


Algunos métodos del Análisis Multivariante consisten en obtener e
Ejercicios computacionales interpretar combinaciones lineales adecuadas de las variables
observables.

Ejercicio 2.2 Dada una matriz de datos X, escribir un programa en Se llama variable compuesta a toda combinación lineal de las
Matlab que calcule el vector de medias, la matriz de covarianzas y la variables observables. Por ejemplo, sea a = (a1 , a2 , . . . , ap )′ , entonces
matriz de correlaciones de X. Y = a1 X1 + a2 X2 + . . . + ap Xp = X a,

Ejercicio 2.3 Dada una matriz de datos X, escribir un programa en es una variable compuesta.
Matlab que calcule la varianza generalizada, la variación total y el Propiedades de las variables compuestas
coeficiente η 2 . Sean Y = Xa, Z = Xb dos variables compuestas. Se verifica que:
1. La media de Y es y = x′ a,
2. La varianza de Y es s2y = a′ S a,
3. La covarianza entre Y y Z es syz = a′ S b = b′ S a = szy .
Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 13 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 14

Las columnas de Y = X T se llaman también variables


Ciertas variables compuestas reciben nombres diferentes según la
transformadas. En realidad, Y es una transformación lineal de la
técnica multivariante: componentes principales, variables canónicas,
matriz de datos X.
funciones discriminantes, etc. Uno de los objetivos del Análisis
Multivariante es encontrar variables compuestas adecuadas que Además, si T es una matriz ortogonal (es decir T T′ = T′ T = I),
expliquen aspectos relevantes de los datos. entonces Y es el resultado de aplicar una rotación o una reflexión
respecto de un hiperplano. Mediante las nuevas coordenadas Y los
En la transparencia anterior hemos visto que una variable compuesta individuos se encuentran repesentados en un sistema de ejes
queda definida por un vector de coeficientes. Pero, de forma más ortogonales.
general, una matriz T de tamaño p × q definirá q variables
compuestas Y1 , Y2 , . . . , Yq . La expresión Propiedades
Y = X T, 1. El vector de medias de Y es y = T′ x,
2. La matriz de covarianzas de Y es SY = T′ S T.
donde Y = (Y1 , Y2 , . . . , Yq ), da lugar a una matriz n × q que contiene
los valores de q nuevas variables para los n individuos de la muestra.
Ejercicio 2.4 Demostrar las propiedades anteriores.

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 15 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 16

2.4 Teorema de la dimensión


La matriz S es semidefinida positiva, puesto que, ∀a ∈ Rp ,
Demostración: Sea X0 = H X la matriz de datos centrados de
1 ′ ′ 1
a′ S a = a X H X a = a′ X′ H H X a = b′ b = kbk2 ≥ 0, tamaño n × p. Observemos que la matriz de covarianzas de X puede
n n
escribirse en función de X0 como
donde b = √1 H X a.
n
1 ′ 1 1
S= X H X = X′ H H X = X′0 X0 ,
n n n
El teorema de la dimensión dice que el rango de la matriz S
donde hemos usado que H2 = H y H′ = H.
determina la dimensión del espacio vectorial generado por las
variables observables, es decir, que el número de variables linealmente Utilizando una de las propiedades del rango (propiedad 5), sabemos
independientes es igual al rango de S. que rang(S) = rang(X0 ). Por tanto, si rang(X0 ) = r ≤ p significa que
existen r variables Xj ’s linealmente independientes y que el resto
TEOREMA 2.1 Si r = rang(S) ≤ p, entonces hay r variables p − r son combinación lineal de estas variables. 2
linealmente independientes y las otras p − r son combinación lineal de
estas r variables.
Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 17 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 18

2.5 Distancias
Algunos métodos del Análisis Multvariante están basados en criterios
geométricos y en la noción de distancia entre individuos y entre
Corolario 2.1 Si todas las variables tienen varianza no nula y poblaciones.
r = rang(R) ≤ p, entonces hay r variables linealmente independientes Consideremos la matriz de datos X en su representación por filas.
y las otras p − r son combinación lineal de estas r variables. Sean S su matriz de covarianzas, x′i = (xi1 , xi2 , . . . , xip ) y
x′j = (xj1 , xj2 , . . . , xjp ), respectivamente, las filas i y j de X. Las
definiciones más importantes de distancia entre dos individuos son:
Demostración: Puesto que R = D−1 −1
s S Ds , donde
√ √ √ ′ 1. Distancia euclı́dea (al cuadrado)
Ds = diag( s11 , s22 , . . . , spp ) , entonces la matriz de covarianzas
p
puede escribirse como X
d2E (i, j) = (xi − xj )′ (xi − xj ) = (xik − xjk )2 .
S = Ds R Ds . k=1

Finalmente, utilizando otra propiedad del rango (propiedad 1 del 2. Distancia de K.Pearson (al cuadrado)
p
rango de matrices cuadradas), se tiene que rang(R) = rang(S). 2 X (xik − xjk )2
d2P (i, j) = (xi − xj )′ D−1 (xi − xj ) = ,
skk
k=1
donde D = diag(s11 , s22 , . . . , spp ).

Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 19 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 20

3. Distancia de Mahalanobis (al cuadrado)


d2M (i, j) = (xi − xj )′ S−1 (xi − xj ). Observación 2 La distancia dP supone que ls variables son
incorreladas, pero es invariante frente a cambios de escala.
Observación 1 La distancia dE supone implı́citamente que las
variables son incorreladas. Además dE no es invariante frente a Como anteriormente, consideremos el cambio de escala y = α x,
cambios de escala (cambios en las unidades de medida de las donde α ∈ R, α 6= 1, que da lugar a yi = α xi e yj = α xj .
variables). Observemos que las varianzas de las p variables están afectadas por el
cambio de escala, siendo ahora α2 s11 , α2 s22 , . . . , α2 spp . De manera
Consideremos el cambio de escala y = α x, donde α ∈ R, α 6= 1.
que la distancia de Pearson es
Ahora las puntuaciones de los individuos i y j son yi = α xi e
yj = α xj , y la distancia euclı́dea es d2P (i, j) = (yi − yj )′ (α2 D)−1 (yi − yj ) =
α2 (xi − xj )′ α12 D−1 (xi − xj ) = (xi − xj )′ D−1 (xi − xj ).
d2E (i, j) = (yi − yj )′ (yi − yj ) = (αxi − αxj )′ (αxi − αxj ) =
α2 (xi − xj )′ (xi − xj ).
Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 21 Aurea Grané. Máster en Estadı́stica. Universidade Pedagógica. 22

Observación 3 La distancia dM tiene en cuenta las correlaciones


entre las variables y es invariante frente a transformaciones lineales
de las variables (en particular, es invariante frente a cambios de
escala).
Observación 4 La distancia dE es un caso particular de la
Ejercicios computacionales
distancia dM cuando S = I. La distancia dP es un caso particular de
la distancia dM cuando S = diag(s11 , s22 , . . . , spp ).
Ejercicio 2.5 Escribir un programa en Matlab que calcule la
Observación 5 La ditancia dM es la más adecuada porque tiene en distancia de Mahalanobis entre las filas de una matriz de datos X.
cuenta las relaciones entre las variables, es decir, no presupone que
sean incorreladas ni que tengan varianza unidad. En cambio, utilizar
dE significa suponer que las variables están incorreladas y tienen
varianza unidad. Utlizar dP implica suponer que las variables están
incorreladas, pero con varianzas distintas (y distintas a la unidad,
generalmente).

También podría gustarte