1
MINERÍA DE DATOS
APLICADA A REDES ELÉCTRICAS
ANÁLISIS DE DATOS MULTIVARIANTES
Descripción de Datos Multivariantes
VARIABILIDAD Y DEPENDENCIA LINEAL
Dr.-Ing. Jaime Cepeda
Mayo 2023
1
2
Análisis Multivariante
Medidas de Centralización: El vector de medias
La Matriz de Varianzas y Covarianzas
Varianza Generalizada
Varianza Efectiva
Distancias: Distancia de Mahalanobis
Correlaciones
Generalización de Coeficientes: Asimetría y Kurtosis
3
Análisis Multivariante
El vector de medias:
con
Debido a que x se encuentra en el centro de los datos,
se tiene que:
4
Análisis Multivariante
Matriz deVarianzas y Covarianzas:
Varianza: Variabilidad respecto a la Media
Covarianza: Relación lineal entre dos variables (Si
cov(x,y) = 0 Variables linealmente
independientes)
Semidefinida
Positiva
5
Análisis Multivariante
Matriz deVarianzas y Covarianzas:
Matriz de Datos Centrados:
Idempotente
rg(P) = n - 1
Varianza:
Varianza Corregida:
6
Análisis Multivariante
Variables Redundantes:
Si entonces S tiene un Valor propio igual a
CERO y w es su Vector Propio asociado. En este caso, una
variable es combinación lineal exacta de las otras; por tanto, se
puede eliminar esta variable rg (S ) h p
Los Vec. Pr. asociados a s nulos indican la composición de las
variables redundantes (r = # Vp nulos).
Base ortonormal rg ( X ) rg ( X ' X ) rg (S ) h
7
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Total:
Varianza Media:
- Son una medida de la variabilidad del conjunto de variables
- Estas dos no consideran la dependencia que pueda existir entre
las variables
8
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Generalizada:
Desviación Típica Generalizada: VG S
1/2
- Es una medida del área (para p = 2), volumen (para p = 3) o hipervolumen
(para p > 3) ocupado por el conjunto de datos.
- Está bien definida, ya que el determinante de la matriz de varianzas y
covarianzas es siempre no negativo.
- Un inconveniente es que no sirve para comparar conjuntos de datos con distinto
número de variables.
9
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Efectiva: VE S
1/ p
DE S
1/2 p
Desviación Efectiva:
- Es una Medida Global deVariabilidad (media geométrica)
- Media Geométrica < Media Aritmética VE s 2
- Sirve para comparar conjuntos de datos con distinto número de variables.
10
Ejemplo: Variabilidad de los Datos
Valores numéricos muy altos. El más alto es la varianza
de la Longitud de Líneas de Baja Tensión (V13), la cual
S 17x17
es de 1.61x107 km2
Mayores autovalores: 2.0872x107, 1.6351x106
Menor autovalor: 0.1495
Varianza generalizada: VG = |S| = 3.683 x1042
La influencia de las unidades provoca valores altos de varianzas y covarianzas
en variables que no necesariamente tienen alta variabilidad, por lo que no
permite reflejar el comportamiento real de los datos.
ESTANDARIZACIÓN
11
Análisis Multivariante
• Distancia
Dados dos puntos xi, xj pertenecientes a , se establece una
p
distancia, o una métrica, cuando se define una función con las
propiedades siguientes:
a) d : p p , es decir, dados dos puntos en el
espacio de dimensión p su distancia con esta función es un número no
negativo, d(xi, xj) ≥ 0
b) d(xi, xi) = 0 ∀i, d entre un elemento y sí mismo es cero
c) d(xi, xj) = d(xj, xi), es una función simétrica en sus argumentos
d) d(xi, xj) ≤ d(xi, xp) + d(xp, xj), debe verificar que si se tienen tres
puntos, la suma de las longitudes de dos lados cualesquiera del
triángulo formado por los tres puntos debe siempre ser mayor que el
tercer lado (propiedad triangular)
12
Análisis Multivariante
• Distancia de Minkowski: Es una familia de Métricas
Casos particulares:
- Distancia Euclídea o en L2 (r = 2):
- Distancia L1 (r = 1):
- Estas distancias dependen de las unidades de medida. Una forma de
evitar esto es dividir cada variable por un término que elimine el
efecto de la escala Familia de Métricas Euclideas Ponderadas :
dij xi x j ' M x x
1/2
1
i j
13
Análisis Multivariante
• Distancia de Mahalanobis:
Se define la distancia de Mahalanobis entre un punto y su
vector de medias por:
La distancia de Mahalanobis (al cuadrado) entre dos puntos
(x1, y1), (x2, y2) puede escribirse:
s12
r
s1s2
14
Análisis Multivariante
• Distancia Promedio:
Medida global de la variabilidad respecto a la media de
una variable vectorial, promediando las distancias entre
los puntos y la media.
Variabilidad Total:
Variabilidad Media:
15
Dependencia Lineal
• Dependencia por pares de variables: Matriz de Correlación
s jk
Coeficiente de correlación lineal o simple: rjk
s j sk
Es invariante ante transformaciones lineales
Matriz de Correlación: 1 r12 r1 p
Semidefinida Positiva
R
rp1 rp 2 1
RD 1/2
SD 1/2
D diag S
Correlación entre variables 16
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17
1.000 0.882 0.808 -0.172 0.833 -0.536 0.125 0.975 0.334 0.936 0.909 0.493 0.378 0.829 0.889 0.352 0.843
1.000 0.983 -0.016 0.989 -0.716 -0.038 0.955 0.201 0.981 0.982 0.274 0.258 0.899 0.993 0.371 0.979
1.000 0.042 0.999 -0.739 -0.118 0.903 0.142 0.956 0.949 0.173 0.178 0.891 0.986 0.321 0.967
1.000 0.033 -0.048 0.037 -0.121 -0.377 -0.106 0.003 -0.054 0.006 0.166 -0.035 -0.528 0.061
1.000 -0.733 -0.095 0.920 0.158 0.967 0.961 0.194 0.192 0.897 0.992 0.329 0.971
1.000 0.258 -0.646 -0.118 -0.696 -0.683 -0.018 -0.027 -0.597 -0.723 -0.317 -0.682
1.000 0.065 -0.185 -0.023 -0.043 0.401 0.379 0.041 -0.053 -0.029 -0.081
1.000 0.288 0.980 0.957 0.436 0.358 0.884 0.958 0.405 0.920
1.000 0.256 0.241 0.067 0.025 0.147 0.214 0.176 0.220
1.000 0.972 0.285 0.223 0.872 0.989 0.372 0.947
1.000 0.282 0.245 0.878 0.971 0.337 0.966
1.000 0.852 0.484 0.262 0.230 0.249
1.000 0.510 0.230 0.245 0.215
ALTA 1.000 0.904 0.246 0.889
1.000 0.351 0.970
CORRELACIÓN 1.000 0.305
1.000
17
Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple
yˆi y ˆ1 xi1 x1 ˆ p xip x p i 1, ,n
Predictor Lineal
- Variabilidad Total o Inicial de los Datos:
VT yi y
2
- Variabilidad Explicada por la Regresión:
VE yˆi y
2
- Variabilidad Residual o No Explicada por la Regresión:
VNE ei
2
18
Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple
VT VE VNE
- Coeficiente de determinación o de correlación múltiple
al cuadrado
R 2j .1,
VE
1
VNE
1
sr2 j
sr2 j
i
e 2
,p
VT VT s 2j n
R 1 diag S diag S
1
2 1
j
19
Dependencia Lineal
• Dependencia directa entre pares: Correlaciones Parciales
- Coeficiente de correlación parcial:
- Matriz de Correlaciones Parciales:
P 1 DS
1 1/2
S DS
1
1 1/2
diag
Donde D S 1 es la matriz diagonal obtenida seleccionando los
elementos diagonales de la matriz S 1 y el término 1 indica diag
que cambiamos el signo de todos los elementos de la matriz
menos de los elementos diagonales que serán la unidad.
20
Dependencia Lineal
• Coeficiente de Dependencia – |R|
1. Variables Incorreladas R es diagonal y |R|= 1
2. Si combinaciones lineales |R|= 0
3. En el caso general: Rp 1 Rp2.1 p 1 1 R 2
p 1.1 p 2 1 R
2
2.1
Media Geométrica de la proporción de variabilidad explicada
1/ p 1
por todas las regresiones anteriores Rp
D Rp 1 Rp
1/ p 1
Coeficiente Dependencia Efectiva:
21
Coeficientes Multivariantes
• Distancia de Mahalanobis al cuadrado para cada par de
elementos muestrales 2
dij xi x j ' S
1
x x
i j
• Se define además: gij xi x ' S 1 x j x
• Coeficiente de Asimetría Multivariante
n n
1
Ap 2
n
g
i 1 j 1
3
ij
• Coeficiente de Kurtosis Multivariante 1 n 2
K p gii
n i 1